Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DATAWAREHOUSE &
DATAMINING
Business Intelligence: DataWareHouse & DataMining
Introduzione
Obiettivi
2
Business Intelligence: DataWareHouse & DataMining
Introduzione
4
Business Intelligence: DataWareHouse & DataMining
Introduzione
6
Business Intelligence: DataWareHouse & DataMining
Introduzione
• L’incompatibilità tra le varie applicazioni era aggravata dal fatto che ognuna di
esse si basava sulla migliore tecnologia disponibile al momento in cui era stata
sviluppata quindi accadeva spesso che utilizzassero HW e sistemi operativi 7
differenti, differenti protocolli di rete, differenti interfacce utente ecc.
Business Intelligence: DataWareHouse & DataMining
Introduzione
GLI ERP
Negli anni ’90 con l’avvento dei sistemi ERP (Enterprise Resource Planner) si è
effettuata una prima sostanziale operazione di refactoring del sistema aziendale
verso un sistema integrato.
Un sistema ERP è una unica applicazione integrata che gestisce tutte le procedure
operazionali tramite un unico database relazionale ed una unica interfaccia utente
integrata. Esso quindi fornisce un unico servizio informatizzato integrato per il
ricevimento degli ordini, per gli acquisti, per la programmazione della produzione,
per la gestione del magazzino, per la contabilità generale e industriale per la
fatturazione, per gli incassi per la finanza e il controllo, ecc.
La reportistica statica
I report in formato statico costituiscono storicamente il primo tipo di
applicazioni di supporto al processo decisionale.
Essi vengono definiti statici perché la loro logica e il loro formato di output
veniva definito una volta per tutte durante la fase di programmazione. Lo
stesso script quindi veniva lanciato periodicamente (ad esempio ogni
giorno o ogni settimana ecc.) per analizzare i dati di quel periodo di
tempo. Ad ogni esecuzione quindi cambiavano i valori esaminati ma
non il soggetto di indagine ed il formato del risultato. L’utente non
poteva in alcun modo interagire con l’analisi se non rivolgendosi 10 al
programmatore che aveva realizzato lo script.
Business Intelligence: DataWareHouse & DataMining
Introduzione
Lamentele
Fino ai primi anni ’90 i sistemi informatici delle aziende erano costituiti
solo dalle tre componenti mostrate finora (legacy, ERP e report).
Tali sistemi informatici oltre a creare molti problemi agli amministratori di
sistema per via della loro eterogeneità creava soprattutto molti problemi
agli utenti di tutti i reparti aziendali. Riportiamo di seguito alcune delle
tipiche lamentele degli utenti:
Proprio per rispondere a tali lamentele nei primi anni ’90 nacquero i
DataWareHouse. 11
Business Intelligence: DataWareHouse & DataMining
Introduzione
Dati Informazione
(conoscenza)
Spesso infatti, disporre di troppi dati (ad es. tutte le transazioni presenti nei
database operazionali) rende molto difficile, se non impossibile,
estrapolare le informazioni veramente importanti, soprattutto poi se
questi dati non sono organizzati e gestiti coerentemente come accadeva
12
quasi sempre con i vecchi sistemi legacy.
Business Intelligence: DataWareHouse & DataMining
Introduzione
13
Business Intelligence: DataWareHouse & DataMining
Introduzione
Il DataWareHouse: definizione
“Una collezione di dati orientata ai soggetti, integrata, non
volatile e correlata alla variabile tempo costruita in supporto
alle decisioni manageriali” (W.H.Inmon).
• Ogni punto (meglio cella) del cubo contiene misure numeriche che
quantificano il fatto da diversi punti di vista.
16
Business Intelligence: DataWareHouse & DataMining
Introduzione
Ulteriore esempio
di ipercubo con tre
dimensioni
17
Business Intelligence: DataWareHouse & DataMining
Introduzione
18
Business Intelligence: DataWareHouse & DataMining
Introduzione
Base di dati
rappresentativa dell’evoluzione temporale
DB Operazionali:
• Contenuto storico limitato (es. solo esercizio in corso).
• Il tempo solitamente non è parte delle chiavi.
• I dati possono essere aggiornati continuamente.
DataWareHouse:
• Contenuto storico ampio (es. ultimi cinque esercizi).
• Il tempo è parte delle chiavi.
• Il dato una volta raccolto non può essere modificato da
eventuali successive transazioni operazionali. (Fotografia
dei dati).
20
Business Intelligence: DataWareHouse & DataMining
Introduzione
DB operazionale DataWareHouse
Utenti: Impiegati. Dirigenti.
Fonti dei Direttamente dalle transazioni e/o dalle DB Operazionali e altre fonti interne e/o
dati relative “pezze d’appoggio” (fatture, bolle, esterne filtrati dagli strumenti ETL.
ordini …).
Ottimiz- Per transazioni OLTP su una piccola parte Per operazioni OLAP su un’ampia parte
zazione del DataBase. del DB.
22
Business Intelligence: DataWareHouse & DataMining
Introduzione
DB operazionale DataWareHouse
Copertura temporale Solo dati correnti. (Es. Dati correnti e storici. (Es. ultimi cinque
esercizio in corso). esercizi).
23
Business Intelligence: DataWareHouse & DataMining
Introduzione
25
Business Intelligence: DataWareHouse & DataMining
Introduzione
26
Business Intelligence: DataWareHouse & DataMining
Introduzione
Lorraine
BiciMania Verona
France
Distretto di ap-
provigionamento
Le velò Strasbourg Distretto1
Distretto3
27
La mobylette Nancy Distretto7
Business Intelligence: DataWareHouse & DataMining
Introduzione
28
Business Intelligence: DataWareHouse & DataMining
Introduzione
29
Business Intelligence: DataWareHouse & DataMining
Introduzione
30
Business Intelligence: DataWareHouse & DataMining
Introduzione
Data Mining
Il Data Mining può essere definito come: “il processo di estrazione di
informazione valida, utilizzabile e precedentemente sconosciuta, da
grandi database e l’utilizzo di queste informazioni per prendere
cruciali decisioni di business”.
• informazione: Ciò che cerchiamo sono dei “pattern” ossia delle “forme”, delle
“regolarità” tra i dati. Si cerca dunque una caratteristica dell’insieme dei dati che
permette di capire meglio come i dati sono fatti e/o come sono “legati” tra loro.
• informazione valida: un data miner, analizzando larghi insiemi di dati, prima o
poi troverà qualcosa di interessante. Contrariamente a quanto dicano i super-
ottimisti, è necessario controllare che i risultati ottenuti non siano errati.
• informazione utilizzabile: deve essere possibile tradurre la nuova informazione
in un vantaggio di business;
• informazione sconosciuta: il Data Miner ricerca qualcosa che non è intuitivo
ma, anzi, è spesso controintuitivo (più l’informazione si discosta dall’ovvio, infatti,
più è grande il suo valore potenziale).
32
Business Intelligence: DataWareHouse & DataMining
Introduzione
Pattern Evaluation
Data Mining
Task-relevant Data
Data Cleaning
Data Integration
Databases 33
Business Intelligence: DataWareHouse & DataMining
Introduzione
Il Processo di KDD
Il DataMining in realtà è solo una parte di un processo iterativo più ampio
chiamato Knowledge Discovery in DataBases.
Tipi di analisi
Possiamo classificare i tipi di analisi del DataMining in due categorie
Predittive e Decrittive.
Le analisi predittive mirano a stabilire quali saranno una caratteristica o un valore
sconosciuti di un elemento di un insieme in base alla storia conosciuta di altri
elementi dello stesso insieme. In tali tipi di analisi rientrano:
– Classification
– Regression
– Time Series Analysis
– Prediction
Le analisi descrittive mirano ad identificare delle proprietà o delle relazioni
reciproche degli oggetti analizzati. Tale tipo di analisi quindi permette di capire e
descrivere meglio le caratteristiche intrinseche dell’insieme dei dati analizzati. In
questa categoria rientrano:
– Clustering
– Summarization
– Association Rules
– Sequence Discovery 36
Business Intelligence: DataWareHouse & DataMining
Introduzione
In questo semplice
esempio effettuiamo
la classificazione
solo in base allo
stipendio
38
Business Intelligence: DataWareHouse & DataMining
Introduzione
Perché oggi?
Le tecniche e gli algoritmi su cui è basato il Data Mining sono noti già da diversi
decenni. E’ lecito allora porsi la domanda: perché si è cominciato ad usare
diffusamente il Data Mining solo a partire dall’ultimo decennio? Ci sono
molteplici motivi:
• Solo recentemente quasi tutte le transazioni sono registrate in formato
digitale (ad es. gli scontrini di un ipermercato). Senza dati (o almeno senza dati
in formato elettronico) non si può certo fare Data Mining.
• Solo recentemente, con l’avvento dei DataWareHouse, i dati, sia storici che
correnti, sono disponibili in una unica base dati integrata. Come abbiamo
visto la presenza di un DW, pur se non indispensabile, semplifica molto il lavoro
ed il costo del Data Mining.
• Eseguire gli algoritmi di Data Mining richiede molta potenza di calcolo, solo da
pochi anni si ha a disposizione tale capacità di calcolo a prezzi accessibili.
• Solo recentemente sono disponibili software “on the shelf” per il Data
Mining, prima della diffusione di tali tool sul mercato solo le grandi aziende
avevano un budget sufficiente per sviluppare la propria soluzione di Data
Mining.
• Inoltre in molti sostengono che le aziende sono spinte ad utilizzare tecniche 40 di
Data Mining per migliorare le proprie prestazioni come conseguenza della
pressione competitiva dovuta all’apertura del mercato globale dei recenti anni.
Business Intelligence: DataWareHouse & DataMining
Introduzione
DataMining:
Confluenza di Diverse Discipline
La disciplina del Data Mining è collegata a diverse altre discipline di cui
ne sfrutta e ne mette in pratica i risultati. Riassumiamo tali legami nello
schema seguente.
41
Business Intelligence: DataWareHouse & DataMining
Introduzione
W. H. Inmon
What is a Data WareHouse?
http://www.inmoncif.com/library/whiteprs/earlywp/ttdw.pdf
W. H. Inmon
Separating Operational from DSS: some criteria
http://www.inmoncif.com/library/whiteprs/earlywp/ttoperdw.pdf
Margaret H. Dunham
DATA MINING - Introductory and Advanced Topics
Editore: Prentice Hall
Kurt Thearling
An Introduction to Data Mining - Discovering hidden value in your data warehouse42
http://www.thearling.com/text/dmwhite/dmwhite.htm