Sei sulla pagina 1di 5

Data Mining: un nuovo approccio allanalisi dei dati o un semplice neologismo?

La Metodologia per il Data Mining


Alfredo Roccato, SAS Institute
Alberto Saccardi, Nunatac

Abstract
Quali sono le linee guida che consentono di poter svolgere proficuamente unattivit di analisi
quantitativa orientata alle problematiche di business? Quali le caratteristiche e quali le competenze
necessarie per estrarre ricchezza informativa dai vasti e complessi database aziendali? In che misura una
corretta metodologia, supportata da unadeguata scatola degli attrezzi inserita in un ambiente software
dedicato e di facile accesso, possono portare consistenti vantaggi economici?
In termini generali, ci che distingue lattivit di Data Mining dallanalisi statistica comunemente intesa
non solamente la mole di dati su cui vengono effettuate le elaborazioni, cos come nemmeno la
disponibilit di un numero rilevante di tecniche, quanto lorientamento verso le
esigenze aziendali e la possibilit di operare in un ambiente predisposto per lintegrazione di contributi
tecnici e conoscenze di business: fare Data Mining significa seguire una metodologia che va dalla
definizione della problematica allimplementazione di regole decisionali economicamente misurabili.
Realizzare progetti di Data Mining significa anche organizzare un efficace team di lavoro tenuto conto
delle diverse risorse ed esigenze aziendali: quelle dei sistemi informativi, del marketing centrale e della
rete commerciale.
Nella presentazione verranno illustrati i presupposti e gli aspetti organizzativi di questa problematica, la
metodologia SEMMA e Enterprise Miner.

I dati a
decisionali.

supporto

dei

processi

L'esigenza delle aziende di essere efficienti ed


efficaci nella conduzione del business cresce di
pari passo con il progredire della competizione,
della tecnologia e della dinamicit dell'ambiente.
La possibilit di accedere ad ampie basi di dati,
accumulate nel corso di anni di attivit o
provenienti da fonti esterne, riguardanti diversi
aspetti dell'attivit aziendale possono fornire una
nuova risposta alle esigenze ed agli obiettivi del
management.
Lottimizzazione di una campagna commerciale,
la creazione di nuovi prodotti o servizi, l'apertura
di nuovi punti vendita, il disegno di un'attivit di
cross-selling sono, in genere, problemi affrontati
utilizzando la conoscenza del settore,
l'esperienza accumulata nel corso degli anni, gli
errori fatti nel passato.
La novit offerta dalla nuova tecnologia e dal
Data Mining non sta nel rinnegare il tipo
tradizionale di conoscenza, che rimane
fondamentale, ma nellintegrare i processi
decisionali con regole costruite sintetizzando

complessi ed estesi patrimoni informativi. Tali


regole, opportunamente inserite nei processi
operativi aziendali, non sono semplicemente il
risultato di studi pilota, bens loutput di progetti
finalizzati ad attivit di business.

Il Data Mining.
Il Data Mining un processo, non il mero
l'utilizzo di un algoritmo (Cabena, 1997).
SAS Institute definisce il Data Mining come il
processo di selezione, esplorazione, e
modellazione di grandi masse di dati per scoprire
relazioni non note allo scopo di ottenere un
vantaggio di business.
Unefficace attivit di Data Mining coinvolge tre
diverse figure in grado di interagire tra loro:

un esperto del business aziendale,

un esperto dei sistemi informativi aziendali:


dati e procedure,

un esperto di metodi quantitativi per


lanalisi dei dati.
Pi in generale un'attivit di questo tipo viene
demandata ad un gruppo di lavoro in grado di
sviluppare lintero progetto, secondo scadenze
determinate ed obiettivi precisi e misurabili.

Solo in questo modo gli investimenti in Data


Mining potranno essere attentamente valutati e
sottoposti ad una analisi in termini di costi e
benefici per l'azienda.

La metodologia di Data Mining


Lattivit di Data Mining prevede le seguenti
fasi:
Predisposizione dei dati di input;
Campionamento;
Analisi preliminari;
Costruzione del modello;
Scelta del modello finale;
Implementazione delle regole nei processi
decisionali.
La predisposizione dei dati di input.
La predisposizione dei dati di input per lattivit
di Data Mining passa attraverso le seguenti fasi:
Definizione degli obiettivi;
Identificazione delle fonti;
Costruzione del Data Mart delle Analisi
(DMA).
Definizione degli obiettivi.
Il primo passo consiste nella definizione degli
obiettivi aziendali a cui lattivit di analisi
preposta. Un tipico esempio la selezione di un
target per la promozione di un prodotto avente
determinate caratteristiche.
Identificazione delle fonti.
Il secondo passo consiste nel reperire i dati
necessari per il raggiungimento degli obiettivi
sopra definiti. Le fonti dei dati possono essere
interne, esterne oppure una combinazione dettata
dalla necessit di arricchire i dati con nuove
dimensioni
descrittive
(variabili
di
geomarketing) o con nuovi nominativi (liste di
prospect) non presenti nel sistema informativo
aziendale. Questa fase di ricerca risulta facilitata
dalla presenza di un Data Warehouse
organizzato per soggetti e contenente dati
certificati.
Costruzione del Data Mart delle Analisi (DMA).
Il terzo passo consiste nella creazione del DMA,
ovvero della matrice dei dati disegnata sulla base
del modello dati dettato dalle esigenze di analisi
e dagli obiettivi preposti. Spesso il modello dati
impone delle trasformazioni dei dati originari al
fine di disporre i dati di input nella forma propria

per i successivi processi di analisi quantitativa. Il


rilascio del DMA subordinato ad unattivit di
controllo di qualit:
controllo formale per l'individuazione delle
variabili
non
utilizzabili,
variabili
fisicamente esistenti ma non implementate;
controllo sostanziale per la verifica del
contenuto delle variabili implementate,
presenza di modalit non previste.
Effettuati i controlli formali e sostanziali,
potrebbe emergere la mancanza di alcuni
elementi
informativi
essenziali
per
il
proseguimento dellattivit di analisi. In questi
casi necessario riciclare sulla fase di
individuazioni delle fonti, individuandone di
nuove e/o procedendo alle opportune
trasformazioni.
La fase di costruzione del DMA, in termini di
definizione dei soggetti logici di riferimento
(clienti, prodotti, territorio) e di predisposizione
degli opportuni descrittori (fatti e dimensioni di
analisi) guidata dagli obiettivi di business che
si intende raggiungere e si configura come
propedeutica alla fase di analisi.
Il campionamento.
In generale opportuno impostare lattivit di
analisi su base campionaria, soltanto in talune
circostanze consigliabile lavorare sullintera
popolazione di riferimento.
Le motivazioni che portano allestrazione di un
campione rappresentativo si basano sulle
seguenti considerazioni:
la teoria del campione permette di tenere
sotto
controllo
lentit
dellerrore
campionario;
i tempi di elaborazione;
disporre di pi basi di confronto per la
costruzione e per la scelta dei modelli di
sintesi.
In particolare lavorare su un sotto-insieme
rappresentativo delluniverso di riferimento
permette di tenere sotto controllo il rischio di
costruire modelli auto-esplicativi: la bont di una
regola consiste nella sua capacit discriminante,
ma anche nella sua robustezza. Il vantaggio di
lavorare su base campionaria, costruendo un
Data Mart di stima del modello ed uno di
validazione, consiste proprio nell'evitare che la
regola, adattandosi alle irregolarit ed alla
variabilit propria dei dati sui quali stimata,
perda capacit di generalizzazione.

Una volta creato il DMA e deciso su quale base


lavorare: campione o popolazione, segue il
processo di estrazione di ricchezza informativa
dai dati opportunamente predisposti. La
metodologia di Data Mininig guida questo
processo di sintesi.
Le analisi preliminari.
Lanalisi vera e propria inizia con unattivit di
analisi preliminari delle variabili che descrivono
il fenomeno oggetto dindagine. Si tratta di una
prima valutazione di significativit dei descrittori
che pu portare ad una selezione o
trasformazione delle variabili originarie. In
particolare la trasformazione potrebbe essere
dettata da esigenze di miglior comprensione del
fenomeno: una combinazione di variabili pu
portare alla creazione di una nuova dimensione
maggiormente esplicativa. La trasformazione
dettata anche da esigenze di sintesi:
l'applicazione del metodo delle componenti
principali, ad esempio, riduce le dimensioni del
problema individuando un limitato numero di
variabili capaci di catturare la struttura di
variabilit essenziale del fenomeno indagato.
La costruzione del modello.
In questa fase il focus del processo riguarda la
costruzione di regole generali a partire dai dati
osservati. Da un punto di vista generale si
possono distinguere tecniche per lo studio
dell'interdipendenza da quelle utilizzate per lo
studio della dipendenza.
Una ulteriore
distinzione riguarda il tipo di variabili utilizzate
per descrivere il fenomeno oggetto di studio:
variabili qualitative o variabili quantitative.
Lo studio dell'interdipendenza per variabili di
tipo qualitativo si avvale di tecniche quali
l'analisi delle corrispondenze o i modelli log
lineari; per variabili di tipo quantitativo
ricordiamo, a titolo esemplificativo, lanalisi dei
gruppi, lanalisi delle componenti principali.
Tecniche di questo tipo vengono impiegate nei
progetti di segmentazione comportamentale della
clientela, definizione di nuovi prodotti,
costruzione della scheda cliente o della scheda
agenzia.
L'analisi di dipendenza riguarda lo studio di una
variabile rispetto ad altre variabili considerate
esplicative. Anche in questo caso i modelli
possono essere impiegati a seconda della natura
delle variabili considerate: nel caso di variabili

categoriche, ad esempio, modelli logit; nel caso


di variabili quantitative, modelli di regressione
lineare o logistica, a seconda della natura della
variabile dipendente. Questo tipo di modellistica
piuttosto tradizionale. In genere la possibilit
di capire a fondo i modelli e soprattutto la
trasparenza degli stessi portano ad una
preferenza nel loro utilizzo rispetto a metodi pi
complessi e di pi difficile analisi. In molti casi
per considerazioni sullo spazio delle variabili,
sulla dimensione del problema, sulla complessit
del modello esplicativo sottostante portano alla
necessit di utilizzare un altro tipo di
modellistica: reti neurali, alberi decisionali,
algoritmi genetici. Si tratta di modelli che
trattano diverse tipologie di variabili e che hanno
il pregio di funzionare anche quando la
dimensione del problema decisamente ampia.
Sono proprio gli avanzamenti tecnologici recenti
che hanno reso possibile limpiego di queste
tecniche, destinate a diventare una parte
fondamentale del bagaglio degli attrezzi
dell'analista.
Tecniche di analisi della dipendenza vengono
impiegate nei progetti di costruzione di scoring
system o di valutazione del potenziale a livello di
singolo cliente o a livello di area territoriale.
La scelta del modello.
La scelta del modello, ovvero della regola finale,
si basa su considerazioni che completano
lanalisi delle statistiche messe a disposizione
dalle diverse tecniche. Indicazioni quali gli
obiettivi da raggiungere ed i vincoli di business,
sia in termini di budget che di tempo, concorrono
alla valutazione della performance di un
modello. Il rilascio di un costrutto
metodologicamente ottimale potrebbe richiedere
molto pi del tempo effettivamente disponibile,
in questi casi preferibile perseguire soluzioni
pi semplici, ma in grado di fornire indicazioni
pi efficaci rispetto ai criteri tradizionalmente
usati in azienda.
In un contesto di questo tipo disporre di una
tecnologia altamente performante e ricca di
tecniche costituisce lelemento caratterizzante
lattivit di Data Mining: produrre una grande
quantit di modelli in modo semplice e rapido,
confrontare i risultati da essi prodotti, dare una
quantificazione economica della regola costruita,
sono gli elementi necessari per la scelta ottimale
del modello finale.

Limplementazione delle regole nei processi


decisionali.
Un elemento distintivo dellattivit di Data
Mining da quella di semplice analisi dei dati
lintegrazione dei risultati nei processi
decisionali aziendali. La conoscenza del
business, da un lato, lestrazione delle regole e il
loro inserimento nelle procedure gestionali,
dallaltro, permettono di passare dalla fase di
analisi al rilascio in produzione di un motore
decisionale: la selezione del target di riferimento
per un gestore di campagne di marketing, lo
score associato al rilascio di un prestito, la
probabilit di abbandono di un contratto
telefonico, la probabilit di transazioni
fraudolente provenienti dallutilizzo di carte di
credito.

La Soluzione per il Data Mining


Fare Data Mining di successo richiede una
soluzione completa che sia in grado di coprire le
seguenti categorie:

L'infrastruttura tecnologica
Gli strumenti di Data Mining
La metodologia SEMMA

vengono utilizzati per risolvere problemi di


classificazione predittiva.
Nelle applicazioni di Database Marketing lo
scopo della classificazione predittiva
distinguere, ad esempio, i clienti in base alla
probabilit di assumere un determinato stato:
acquista/ non acquista.

gli algoritmi di "clustering" per la


rilevazione di gruppi omogenei vengono
utilizzati per risolvere problemi di
segmentazione.

Lo scopo della segmentazione quello di


raggruppare i casi in classi omogenee. Per
esempio, segmentare i clienti esistenti in gruppi
ed associarne un profilo diverso per ciascuno al
fine di ottimizzare lattivit di cross-selling.

le tecniche di Market Basket Analysis


(associazioni e sequenze) vengono utilizzate
per risolvere problemi di analisi delle
affinit.

Come abbiamo gi visto, il Data Warehouse un


punto di partenza ideale ed il DMA costituisce
linput dellattivit di Data Mining

Le scopo della MBA scoprire quali prodotti o


servizi vengono frequentemente acquistati
insieme (associazioni), o per analizzare i dati
degli ordini per determinare cosa i clienti sono
propensi a ordinare successivamente (sequenze).
Questo pu portare a studiare particolari
combinazioni di prodotti o strategie di
promozioni.

Gli strumenti di Data Mining

La metodologia SEMMA.

Sono disponibili una variet di tecniche per il


Data Mining, ciascuna delle quali indirizza un
bisogno diverso. Esse provengono da varie aree
di ricerca quali la statistica, la knowledge
discovery in databases (KDD), il machine
learning,
la
pattern
recognition,
il
neurocomputing. In particolare sono stati
sviluppati una variet di algoritmi specifici per il
Data Mining (Berry e Linoff, 1997).

Levoluzione tecnologica ha reso accessibile


strumenti di Data Mining anche per aziende
caratterizzate da personale con limitata
esperienza analitica. Se implementato bene, il
Data Mining contribuisce ad ottimizzare
lattivit di business, altrimenti pu produrre
informazioni che possono risultare tanto inutili
quanto dannose.

L'infrastruttura tecnologica

I pi comuni riguardano:

la regressione (lineare, multipla e logistica),


le reti neuronali (Multi Layer Perceptron,
Radial Basis Function, ecc.) e gli alberi di
decisione (CART, CHAID, C4.5, ecc.)

A supporto di questo concetto SAS Institute


sostiene l'applicazione di una metodologia,
chiamata SEMMA. Tale metodologia costituisce
un percorso le cui fasi sostanziali sono:

unanalisi attenta dei dati prima della


modellazione,

l'utilizzo alternativo delle diverse tecniche


nella forma corretta

la validazione dei risultati in termini


strettamente di business: costi, ricavi e
ritorno sugli investimenti (ROI).
Il SEMMA consente alle aziende di ottenere i
migliori risultati dalle proprie attivit di Data
Mining.

La
metodologia
SEMMA
nellambito
dellattivit di Data Mining percorre le fasi
indicate nel precedente paragrafo:
Sample (Il campionamento): valgono le stesse
considerazioni esposte precedentemente.
Explore (Le analisi preliminari): l'esplorazione
dei dati serve per rilevare su quale sotto insieme
di attributi pi opportuno lavorare. La
visualizzazione grafica dei dati fornisce
strumenti intuitivi per professionisti del business,
mentre le tecniche statistiche di esplorazione
offrono informazioni aggiuntive per gli
specialisti.
Modify (Le analisi preliminari): le intuizioni
ottenute con l'esplorazione permettono agli
analisti di raggruppare e trasformare i dati per
ulteriori esplorazioni e analisi.
Model (La costruzione del modello): le diverse
tecniche di Data Mining: reti neuronali, modelli
basati su alberi e le tecniche statistiche vengono
utilizzate per scoprire relazioni all'interno dei
dati.
Assess (La scelta del modello): indica quali
modelli producono i risultati migliori o pi
appropriati. Vengono fornite anche indicazioni
su come i risultati devono comunicati al
management e sulla base di questa discussione
iterare nuovamente lintero processo.

reale efficacia e poterne apportare, se servono, i


correttivi per migliorarla.
Enterprise Miner la business solution
proposta da SAS Institute per lattivit di Data
Mining ready-to-use: tramite lutilizzo intuitivo
di uninterfaccia grafica, che ripercorre la
metodologia SEMMA, possibile sviluppare
progetti di Data Mining anche da parte di
persone con limitata esperienza analitica.
Competenze specifiche nellambito dellanalisi
dei dati consentono di ottenere i migliori risultati
tramite lutilizzo appropriato di una serie di
opzioni che la soluzione Enterprise Miner
mette a disposizione.
Lintegrabilit del software SAS permette un
facile accesso alle strutture dati o ai Data Mart
aziendali, mentre lutilizzo di strumenti potenti
di reporting consente la presentazione dei
risultati, lapplicazione delle regole estratte
nellambiente di produzione, e la misurazione
dei risultati in un unico ambiente applicativo.
Bibliografia
Berry, M. e G. Linoff, (1997), Data Mining
Techniques for Marketing, Sales, and Customer
Support, Wiley and Sons, New York.
Cabena, P., et al, (1997), Discovering Data
Mining: From Concept to Implementation,
Prentice-Hall, Englewood Cliffs, NJ.
Cuzzocrea G. e Saccardi A., (1998) Metodi per il
supporto alle decisioni di marketing. Note del
corso SAS.

Conclusioni.
Per fruire pienamente dei risultati del Data
Mining, questi devono essere presentati,
comunicati e condivisi con le aree aziendali che
ne trarranno i maggiori benefici. I risultati,
quindi, devono essere inseriti in un contesto di
"produzione" dove sia possibile misurarne la