Sei sulla pagina 1di 38

Business Consulting Services

IBM Intelligent Miner, un ambiente di sviluppo per applicazioni di Data Mining


SCARIONI Mauro BCS Business Intelligence

Copyright IBM Corporation 2003

Business Consulting Services

IBM
Produzione e vendita di Hardware mainframe midrange - UNIX e proprietari personal Sviluppo e ricerca Software di base Sviluppo e ricerca Software applicativo Societ di servizi e consulenza - la pi grande al mondo nel mondo dell'Informatica

Page 2

Copyright IBM Corporation 2003

Business Consulting Services

Tools di Data Mining ante 1995


InfoDetector (segmentation) DMSS (segmentation) DELPHI (associations, sequential patterns) RAMP (abstract rules based classifier) NNU (Neural Network technology) Classification Time Series PVE (interactive visual data mining) DIAMOND (interactive visual analysis of multivariate data)

Page 3

Copyright IBM Corporation 2003

Business Consulting Services

Stato dell'arte - 1995

Data Mining esce dalla fase visionari per entrare negli ambiti di produzione Lo sviluppo dell'Hardware diventa frenetico La disponibilit di HW potente di basso livello: rende obsoleti procedimenti legati ad ambienti di tipo host rende necessarie interfaccie semplici rende gradevoli visualizzazioni grafiche dei risultati

Page 4

Copyright IBM Corporation 2003

Business Consulting Services

Problemi - 1995

La disponibilit di tools diversi, sviluppati indipendentemente dai vari laboratori, permette di risolvere problemi complessi Lo sviluppo indipendente dei tools non permette di unificare i formati di controllo, di alimentazione dati e di memorizzazione dei risultati

Page 5

Copyright IBM Corporation 2003

Business Consulting Services

Risposta

Page 6

Copyright IBM Corporation 2003

Business Consulting Services

Intelligent Miner for Data


Singolo framework per analisi di data-mining un set di tools per lo sviluppo di un processo di data mining, comprendente data processing, analisi statistica e visulizzazione dei risultati a complemento di un largo set di metodi di mining Sofisticati algoritmi di mining che possono essere usati individualmente oppure in combinazione per risolvere un largo set di problemi e produrre risultati di business misurabili Soluzione scalabile focus principale sulle tecniche di trattamento di mining su grosse moli di dati, AIX/SP parallel processing, uso diretto dei dati attraverso DB2 UDB e ottimizzazione di algoritmi.
Page 7 Copyright IBM Corporation 2003

Business Consulting Services

Intelligent Miner for Data


Tecnologia consolidata per IBM Data Mining Solutions Sviluppata worldwide in collaborazione con consulenti riconosciuti dal mercato in ambiente di DataMining, con applicazioni nel mondo della finanza, telecomunicaizoni, assicurazioni, sanit e altre realt industriali. Application Programming Interface enabling Per lo sviluppo di applicazioni customizzate e specifiche, per facilitare l'inserimento dei tools di mining all'interno degli applicativi gestionali.

Page 8

Copyright IBM Corporation 2003

Business Consulting Services

Intelligent Miner for Data


Un ambiente di sviluppo per modelli di Data Mining Funzioni di prototipizzazione Cleansing dei dati Trasformazione dei dati Funzioni di Mining Creazione di sequenze di operazioni Un sistema batch per risovere modelli di mining Generatori di codici per blocchi eseguibili Libreria API di funzioni richiamabili da programmi C
Page 9

Copyright IBM Corporation 2003

Business Consulting Services

Tecniche di DataMining incluse in Intelligent Miner


Discovery Based Clustering
Neurale e Demografico

Market Basket Analisys


Single Trip e Over Time

Hypothesis Driven Classification


Neurale e Demografica

Prediction
Back Propagation e Radial Basis Function

Serie Temporali

Page 10

Copyright IBM Corporation 2003

Business Consulting Services

Intelligent Miner - Caratteristiche


pu gestire un numero praticamente illimitato di indici-voci (varie centinaia) per ogni evento; ci necessario per gestire pi di un singolo evento elementare nello stesso modello (portafoglio di eventi correlati) pu gestire un numero praticamente illimitato di records (varie decine di migliaia) si gestiscono modelli non lineari dei dati la fase di apprendimento, con frequenze predeterminate, pu richiedere tempi considerevoli, ma la fase di valutazione/uso velocissima la valutazione pu riguardare un singolo evento per volta, o un batch di pi eventi (es.: valutare il rischio di credito di tutti i clienti acquisiti da un'altro istituto di credito) si possono eseguire tutti i preprocessing e postprocessing necessari al buon esito dell'analisi (indici, trend, filtri, outliers, missing, ...) i risultati vengono testati sia sul data set usato per l'apprendimento (training set) che su un data set non appreso (validation set) con tecnologie avanzate (reti neurali, ottimizzazioni genetiche, algoritmi proprietari) il prodotto impostato sulla facilit d'uso. permessa la modalit manuale o quella automatica (schedulazione temporizzata)
Page 11 Copyright IBM Corporation 2003

Business Consulting Services

Oggi

Page 12

Copyright IBM Corporation 2003

Business Consulting Services

Campaign Campaign Management

Query Query Tools Tools Reporting Tools Tools Operational Operational Purchased Purchased Reporting Data Data Spreadsheets Data Data Spreadsheets File File Managers Managers
3m 3m

MultiMultidimensional dimensional Analysis Analysis OLAP Knowledge OLAP Knowledge Discovery Discovery

Extract, Extract, clean, clean, transform, transform, load load Web Web Transactions Transactions

Data Mining Technologies Technologies


Line Line of of Business Business Data Data Marts Marts

Enterprise Enterprise Data Data Warehouse Warehouse Text Text

Page 13

Copyright IBM Corporation 2003

Business Consulting Services

DB2 Data Warehouse Edition 9.1


Solution Templates (Basel II, REDW) Design Studio (Eclipse) Admin Console (Web) In Line Analytics

End-to-end integrated platform to develop & deploy custom analytic solutions Componentized architecture Shared Tooling & Metadata Shared Run-time Infrastructure New ETL Web-based embedded analytics Enhanced OLAP, Data Mining

ETL

Mining

OLAP

BI Platform (Shared Infrastructure, Websphere)

DB2 UDB for Linux, Unix and Windows


Page 14 Copyright IBM Corporation 2003

Business Consulting Services

Data Mining in DWE Design Studio


Leditor specifico per il data mining estende il framework di sviluppo di DWE al disegno e al test di flussi di data mining
Plug-in specifici per costruire, testare e usare modelli di mining Interattivit elevata con I metadati di DataWarehouse Pu generare codice sql, java beans e data flows

Disponibilit di tools per lesplorazione dei dati, per mostrare le statistiche e le distribuzioni dei dati.

Page 15

Copyright IBM Corporation 2003

Business Consulting Services

Easy Mining Procedures: high level procedures

Segmentazione
Costruisce una vista della tabella iniziale con I seguenti campi aggiuntivi
- CLUSTERID, QUALITY, CONFIDENCE

Basata sugli algoritmi di clustering (training e application mode)


CALL IDMMX.ClusterTable('view', 'inputTable', 5, 20);

Estrazione di record anomali


Costruisce una vista della tabella iniziale con I seguenti campi aggiuntivi build a view with inp ut data and additional columns
- DEV_DEGREE, CLUSTERID

Basata sugli algoritmi di clustering (training e application mode)


CALL IDMMX.FindDeviations('view', 'inputTable');

Page 16

Copyright IBM Corporation 2003

Business Consulting Services

Easy Mining Procedures: high level procedures (2)

Predizione di una colonna


Costruisce una vista della tabella iniziale con I seguenti campi aggiuntivi
- PREDICTION, CONFIDENCE, PRED_STD_DEV, DATA_SET

Basata su algoritmi di classificazione o regressione (training o application mode)


CALL IDMMX.PredictColumn('view', 'inputTable', 'column');

Identificazione dei campi significativi per la spiegazione di una colonna


Costruisce una vista con I campi significativi
- FIELD, IMPORTANCE

Basata su algoritmi di classificazione o regressione (training mode)


CALL IDMMX.FindMostImpFields('view', 'inputTable', 'column');

Page 17

Copyright IBM Corporation 2003

Business Consulting Services

Easy Mining Procedures: high level procedures (3)

Predizione del valore di una colonna


Costruisce una vista della tabella iniziale con I seguenti campi aggiuntivi
- PREDICTION, CONFIDENCE, PRED_STD_DEV, DATA_SET

Basata su algoritmi di classificazione o regressione (training o application mode)


CALL IDMMX.PredictColValue('view', 'inputTable', 'column', 'value');

Spiegazione dei valori di una colonna attraverso regole


Costruisce una vista con le regole identificate
- ORIGIN, TARGET, EXPLANATION, SUPPORT, CONFIDENCE

Basata sugli algoritmi di associazione o classificazione in training mode


CALL IDMMX.ExplainColValue('view', 'inputTable', 'column', 'value', 5);

Page 18

Copyright IBM Corporation 2003

Business Consulting Services

Easy Mining Procedures: high level procedures (4)

Trovare le relazioni in una tabella


Costruisce una vista con le regole trovate
- ID, HEADNAME, BODYTEXT, SUPPORT, CONFIDENCE, LIFT, ...

Basata sullalgoritmo di associazione in training mode


CALL IDMMX.FindRules('view', 'inputTable', 'group', 1789, 60);

Page 19

Copyright IBM Corporation 2003

Business Consulting Services

Intelligent Miner Family Strategy Ingloba funzioni analitiche avanzate nellinterfaccia DB2/SQL permettendo applicazioni (DB2) che integrano funzioni di data mining Usa standard per linteroperabilit : SQL/MM API, PMML models Easy Mining procedure basate su DB2 facilemntte integrabili in applicazioni utenti e terze parti Supporto business partners con strumenti di sviluppo e APIs semplificate Execution Applicazioni DB2 sviluppate da Business Partners utilizzanti le APIs; MicroStrategy, Cognos, SAS, SPSS, a altre Easy Mining stato abilitat in un MS Excel add-in sample Nuovi algoritmi verranno inseriti nelle versioni future di IM

Page 20

Copyright IBM Corporation 2003

Business Consulting Services


Seamless integration of data modeling, SQL, mining in a common Data Warehouse project Data exploration components give you an overview on the content and quality of your data.

DWE Design Studio Mining Editor from Design

Interactive flow editor: Stepwise execution All SQL operators can be reused in the mining context

to embedded applications
Page 21 Copyright IBM Corporation 2003

Business Consulting Services

Mining Scenario: model, visualize and score

Page 22

Copyright IBM Corporation 2003

Business Consulting Services

Esempi applicativi

Copyright IBM Corporation 2003

Business Consulting Services

IBM Center for Business Optimization

The IBM Center for Business Optimization tackles complex business and government problems, using IBM's industry expertise, advanced mathematical research, deep computing, sophisticated software, data analytics and optimization techniques to improve bottom-line performance and operational efficiency.

Page 24

Copyright IBM Corporation 2003

Business Consulting Services

IBM Center for Business Optimization


Risk management optimization
Identifying potential fraud and abuse in health care, tax reporting and customs. Risk management actively monitors and controls exposure to various types of risk while attempting to maximize returns.

Complex supply chain optimization


Improving the manufacturing and distribution of products. The center has extensive experience in working with complex supply chains and can provide solutions that integrate data analytical tools into the ecosystem.

Marketing investment optimization


Uncovering opportunities to maximize the impact of marketing investment. Many companies continue marketing activities without understanding potential return on investment and without regard to customers propensity to buy.

Dynamic pricing optimization


Untangling the complexities of pricing strategies. Pricing is one of the most important drivers of profitability and revenue, yet many companies still rely on gut feel and cost-plus approaches to set their prices.

Page 25

Copyright IBM Corporation 2003

Business Consulting Services

PDOS Product Design and Operations Scheduling Solution


Production Design and Operations Scheduling Solution - for Steel Lo sviluppo di un corretto piano di produzione deve bilanciare gli ordini dei clienti con le capacit produttive degli stabilimenti. IBM ha risolto questo problema con Production Design and Operations Scheduling Solution. La soluzione include un set variegato di algoritmi che utilizzano lexpertise di programmazione matematica per gestire la produzione PDOS stato usato con successo in China Steel Corporation, NSC (Nippon Steel Corporation) e POSCO (Korea Steel) che sono tra le maggiori aziende operanti nella produzione di acciaio nel mondo.

Page 26

Copyright IBM Corporation 2003

Business Consulting Services

CELM describes customer transition dynamics across value/loyalty states using advanced Stochastic Control algorithms

CELM models customer lifecycle dynamics (trajectories) and provides optimal campaign planning and scheduling over variable time horizons. In particular, it addresses the following question: what are the optimal targeting policies (i.e. sequences of actions) which maximize Customer Value & Loyalty over a given time horizon? IBM Zurich Research Laboratory:
Markov Chain Modeling produces the future state transition diagram if customers continue to be targeted as usual (using usual policies) (gray arrows in figure). Markov Decision Processes (MDP) Modeling produce optimal future targeting policies to maximize likelihood of customers moving to better value/loyalty states for a given time horizon (light blue arrows in figure)

Campaign E
Loyal Customer

Valuable Customer Loyal Customer

Campaign A
Potentially Valuable

Campaign C

Repeater
One Timer Campaign B

Repeater
Defector

Repeater Defector

Bargain Hunter

Campaign D

Present

Future

Eero Ahola, Finnair Senior VP Strategy and Business Development reported in a N.Y. Times interview (Jan. 25th/04) the pilot results that Finnair has been able to achieve: Reduced marketing costs by 20% improved response rates by 10%

Page 27

Copyright IBM Corporation 2003

Business Consulting Services

Unapplicazione di customer retention in ambito assicurativo

Copyright IBM Corporation 2003

Business Consulting Services

Il progetto
Sviluppare un modello di analisi standard dei Clienti in portafoglio (di una compagnia assicurativa) affinabile nel tempo in grado di attribuire in via preventiva ad ogni Cliente una probabilit di abbandono della Compagnia, in modo da poter attivare piani di azione sistematici sui Clienti che la compagnia intende trattenere.

Page 29

Copyright IBM Corporation 2003

Business Consulting Services

La metodologia
Lapproccio prevede due tipi di analisi: una di tipo convenzionale, per la verifica delle correlazioni tra dati e evento abbandono del cliente, allo scopo di identificare e qualificare i Segnali Deboli dellavvenimento del fenomeno Cliente Perso una di tipo data mining, quindi concettualmente inferenziale, per la ricerca di profili di clientela e/o di eventi in funzione di correlazioni latenti e non prevedibili

Risulta critica la fase di preparazione dei dati, che comprende il trattamento dei missing values e degli outliers e la creazione di nuove variabili basate su tecniche di riduzione, trasformazione del contenuto informativo e eventuale sampling.

Page 30

Copyright IBM Corporation 2003

Business Consulting Services

Dati
Anagrafica Auto Vita R.E. Sinistri

Page 31

Copyright IBM Corporation 2003

Business Consulting Services

5% 1% 4% 3%

CLIENTI

AUTO RAMI VARI RAMI VARI + AUTO

21% 59%

VITA VITA + AUTO VITA + RAMI VARI 7% AUTO + RAMI VARI + VITA

Page 32

Copyright IBM Corporation 2003

Business Consulting Services

Segnali deboli
I segnali deboli che si ritiene opportuno tracciare sono i seguenti: periodo intercorso dallultima manifestazione di volont positiva (ultimo rinnovo,nuovo contratto per tipologia, variazione di polizza con variazione premio) numero di prodotti posseduti (numero di bisogni coperti) periodo intercorso da ultimo sinistro esistenza sinistri senza seguito e periodo intercorso da avvenimento sinistri liquidati segni di disaffezione (riscatto/riduzione/mancato rinnovo polizza auto) segni di difficolt economica (riscatto, riduzione,mancato pagamento di polizze esistenti; non si ritiene un segnale significativo la riduzione delle garanzie ARD nellauto essendo legate spesso ad una percezione del rischio legata allinvecchiamento dellautomezzo)

Page 33

Copyright IBM Corporation 2003

Business Consulting Services

Levoluzione del cliente

Polizza Persa

tempo t1 tempo t2

Lav Positiva

tempo t1

tempo t2

Page 34

Copyright IBM Corporation 2003

Business Consulting Services

Definizione di cliente perso

Lesistenza di almeno un contratto attivo al mese T-1 (mese antecedente) and un numero di contratti attivi al mese T pari a 0 and attualmente non ha nessun contratto attivo

Il mese T viene considerato la base temporale di calcolo per i segnali deboli

Page 35

Copyright IBM Corporation 2003

Business Consulting Services

Sampling o Full Mining


Il cliente perso (per una compagnia che segue i clienti in maniera corretta) una minima percentuale del portafoglio clienti. Prevedere lo stato 0 (cliente non perso) o 1 (cliente perso) sullintera base dati pu rendere il segnale di cliente perso come un disturbo. La base dati deve essere bilanciata in funzione della tipologia di osservazione Un bilanciamento semplice permette lesecuzione di diverse istanze e il confronto dei risultati Un bilanciamento complesso, che richiede tempo per lestrazione dei dati, pu portare a una logica one-shot

Page 36

Copyright IBM Corporation 2003

Business Consulting Services

Metodologie utilizzate

Statistiche Univariate sulle singole variabili


Per avere una comprensione della capacit di discriminazione delle variabili

Alberi di Classificazione
Per avere un primo modello di predizione Per identificare le variabili pi significative

Modelli Predittivi
Per definire i modelli di predizione

VARIABILI CANDIDATE

STATISTICHE UNIVARIATE

ALBERI DI CLASS.

MODELLI PREDITTIVI

Page 37

Copyright IBM Corporation 2003

Business Consulting Services

Modello Auto Multi Polizza

Andamento clienti Auto Multi Polizza per Indice di Attrition


100000 80000 60000 40000 20000 0
0, 8 -0 ,1 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 9 1, 1 0 1

Attivi Persi

Page 38

Copyright IBM Corporation 2003