Sei sulla pagina 1di 6

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence
Termine generico per indicare:
un insieme di processi per raccogliere ed analizzare informazioni strategiche la tecnologia utilizzata per realizzare questi processi le informazioni ottenute come risultato di questi processi

Business Intelligence: Data warehouse & Data mining

Per uninformatico si tratta di sistemi di analisi dei dati basati su due diverse losoe:"
aggregazione di dati " " scoperta di pattern di regolarit tra dati "(data warehouse)" "(data mining)"

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Sistema informativo aziendale (1)


Il sistema informativo aziendale (SIA) raccoglie, organizza, elabora, gestisce i dati necessaria per la conduzione dellazienda. Tali dati possono:
nascere direttamente allinterno dellazienda durante lo svolgimento dei vari processi aziendali. essere acquisita come risultato delle relazioni con soggetti esterni.

Sistema informativo aziendale (2)


Le componenti (sia informatizzate che non) di un sistema informativo aziendale possono essere divise in due categorie a seconda della loro finalit: Componenti per il supporto dellattivit operazionale. Tale parte del SIA si occupa di archiviare, gestire elaborare tutta linformazione per lo svolgimento dellattivit quotidiana. Ad es. supporto informativo per le operazioni di acquisto, per le vendite, per la movimentazione del magazzino, per la registrazione di prescrizioni mediche ecc. Componenti per il supporto decisionale. Tale parte del SIA riguarda la gestione, la produzione e larchiviazione per supportare i dirigenti nelle scelte strategiche. Ad es. supporto per la scelta di quali prodotti mettere in promozione, quali prodotti aggiungere o rimuovere dal listino, a quale target rivolgere i messaggi pubblicitari quali prescrizioni cliniche sono pi frequenti tra gli anziano ecc.

Analogamente tali dati possono


essere destinata al consumo interno. essere destinata a terzi.

Il sistema informativo aziendale si compone:


di una parte informatizzata chiamato sistema informatico aziendale una parte non automatizzata come le conversazioni frontali e telefoniche, i documenti cartacei strutturati e non strutturati, lorganigramma aziendale, la prassi operativa, la prassi decisionale ecc.
3

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Cos il SIA?
E linsieme di strumenti hw/sw che permettono di gestire in maniera automatizzata linformazione aziendale. E composto da: Applicazionali Transazionali: Sono i sistemi e le procedure informatiche di supporto allattivit operazionale quotidiana. Le applicazioni che rientrano in questa categoria sono le varie applicazioni aziendali per gestire i prodotti/servizi la contabilit lorganizzazione, la logistica ecc. Decision Support System (DSS): Sono i sistemi e le procedure informatiche di supporto alle scelte strategiche dei dirigenti. In questa categoria rientrano le applicazioni di reportistica statica, le applicazioni di datawarehousing e le applicazioni di datamining.

Le componeti del Sistema Informativo Aziendale


Parte Operazionale Parte Decisionale

Sistema Informatico Aziendale


Transactional Applications: Application 1 Application 2 Decision Support System Applications: Report Data warehouse Data mining

Sistema Informativo Aziendale


6

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Come viene realizzato?


Spesso si tratta di uninsieme disordinato di applicazioni tra loro interdipendenti. Queste applicazioni spesso sono aggiunte con il passare del tempo. Ogni applicazione si occupa di supportare un certo processo aziendale senza interessarsi e tenere conto delleventuale presenza di altre applicazioni. Ogni applicazione utilizza una base di dati spesso parzialmente indipendente dalle altre. Lincompatibilit tra le varie applicazioni spesso aggravata dal fatto che ognuna di esse si basa sulla migliore tecnologia disponibile al momento (quindi sistemi operativi, linguaggi, dbms differenti).

SIA: vecchio modello


Le attivit aziendali sono suddivisibili in varie categorie della figura (diagramma di Porter). Le attivita della Catena del Valore sono tra loro collegate e si influenzano a vicenda. Nei sistemi tradizionali ogni attivit gestita singolarmente.
Applicazione DB Applicazione DB Applicazione DB Applicazione DB Applicazione DB

Logistica in entrata
Applicazione DB Applicazione DB

Operazioni

Logistica in uscita

Marketing e vendite

Servizi
Applicazione

Infrastruttura dellimpresa (pianificazione, contabilit, affari legali, direzione,) Gestione delle risorse umane (ricerca, selezione, assunzione, formazione,) Sviluppo tecnologico (ricerca e sviluppo) Acquisizione risorse (ricerca fornitori, contatti, negoziazione, )
Applicazione

DB

DB 8

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Conseguenza: i sistemi legacy


Ridondanza e mancanza di coerenza dei dati. Gli stessi dati possono essere presente in diverse applicazioni ed rappresentata in modo diverso. Es: Male/Female o M/F o 0/1. Manca una visione dinsieme dei dati, ossia una visione integrata ed univoca. I sistemi per la gestione transazionale (OLTP=OnLine Transaction Processing) e per lanalisi dei dati (OLAP=OnLine Analytical Processing) non sono distinti. Sistema legacy = sistema (o applicazione) che continua ad essere utilizzato perch troppo costoso rimpiazzarlo o risvilupparlo. Ci comporta che il sistema complesso, monolitico e difficile da modificare

SIA nuovo modello: ERP


I sistemi ERP (Enterprise Resource Planning), costituiti da pi moduli ma con dati centralizzati, gestiscono tutte le attivit in modo integrato. Si parla in questo caso di sistemi enterprisewide.

Logistica in entrata

Operazioni

Logistica in uscita

Marketing e vendite

Servizi

ERP
DB DB

Infrastruttura dellimpresa Gestione delle risorse umane Sviluppo tecnologico Acquisizione risorse

DB Uno o pi DB 10

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Enterprise Application Solution


Gli Enterprisewide Systems operazionali attualmente pi diffusi sono: Supply Chain Management (SCM): gestisce in modo integrato ed orientato al processo l'approvvigionamento, la produzione, la consegna di prodotti e il servizio al cliente. Product LifeCycle Management (PLM): gestisce la concettualizzazione, il progetto e realizzazione di prodotti e servizi. Enterprise Resource Planning (ERP): gestisce in modo integrato tutte le risorse interne allazienda. Extended ERP: un ERP che supporta anche i partner aziendali. Business Process Management (BPM): comprende lanalisi e il riallineamento dei processi organizzativi. Customer Relationship Management (CRM): gestisce i rapporti con i clienti. Partner Relationship Management (PRM): gestisce i rapporti con i partner aziendali.

La reportistica statica
E il primo tipo di applicazione di supporto alle decisioni. Di solito costituito da un programma/script che recupera i dati operazionali attraverso un linguaggio come SQL effettuando una qualche elaborazione e presentado il risultato in modo tabellare. E definita statica perch la logica ed il formato di output definito una volta per tutte e richiede un programmatore per essere modificato. Es. ogni settimana Volvo analizza le vendite di autoveicoli presso i suoi concessionari divisi per provincia e per regione con riferimento ai vari modelli di auto

11

12

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Lamentele
Abbiamo montagne di dati ma non possiamo accedervi! Come possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmente diversi? Vogliamo selezionare, raggruppare e manipolare i dati in ogni modo possibile! Mostratemi solo ci che importante! Tutti sanno che alcuni dati non sono corretti!

Cause delle lamentele


Ridondanza ed incoerenza dei dati La mancanza di strumenti di supporto alle decisioni (o analisi dei dati) Questi ci conferma che

dati informazioni
In realt quello che stiamo tentando di fare di aggregare ed interpretare i dati, di fatto trasformandoli in informazioni.

13

14

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Stessi dati ma con pi valore


Vogliamo estrarre informazioni dalla vasta mole di dati operazionali presenti nei sistemi informatici aziendali utilizzando due tecniche: datawarehouse e dataming. Questo non comporta linserimento di nuovi dati allinterno del sistema informatico aziendale ma si occupa di riorganizzare, integrare, filtrare, aggregare i dati gi disponibili per trarne delle informazioni strategiche (o dati di sintesi).

Definizione di data warehouse


Una collezione di dati di supporto al processo decisionale con le seguenti propriet:
E orientata ai soggetto (o argomenti di analisi). E integrata e consistente. E rappresentativa dellevoluzione temporale. E non volatile.

Di seguito analizziamo pi in dettaglio questi quattro punti Un data warehouse pu essere considerato come un database in sola lettura, quindi cambiano le tecniche di progettazione.

15

16

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Orientata ai soggetti (1)


I dati sono organizzati per soggetti (o argomenti) principali. Es. Acquisti, Vendite, Diagnosi ecc. Ogni soggetto rappresentato astrattamente come un cubo ndimensionale (ipercubo). Per ogni determinato soggetto vi uninsieme di punti (i singoli fatti) in uno spazio n-dimensionale. Ogni cella del cubo contiene misure numeriche che quantificano i fatti da diversi punti di vista. Es. Numero di vendite o importo totale delle vendite. Ogni asse dello spazio rappresenta una dimensione di analisi (che pu essere composta da gerarchie di livelli di aggregazione). Una dimensione pu essere un qualsiasi insieme di valori numeri e non. Es. Tempo, Citt, Prodotto ecc. Ogni singolo fatto quindi indentificato univocamente da una n-pla di valori dimensionali (le coordinate).
17

Orientata ai soggetti (2): multidimensionalit


Ipercubo del soggetto vendite, le dimesioni sono tre: prodotto, mercato e trimestre. Una sola misura delle celle, limporto delle vendite

18

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Gerarchie
Nellesempio precedente una possibile gerarchia per la dimensione Mercato : Citt, Distretto, Nazione. Sono possibili gerarchie pi complesse, rappresentabili come un albero o come un grafo.
prodotto
negozio

La granularit delle dimensioni di un fatto


Nei sistemi operazionali i dati sono archiviati sempre ad un livello di dettaglio massimo (es. ogni singola vendita). Nei sistemi OLAP i dati vengono tipicamente acceduti in maniera collettiva; lastrazione di ipercubo pu essere quindi pensato come avente un livello di granularit pi alto. Ad es.:
Ogni cella potrebbe contenere limporto totale delle vendite per ogni giorno, invece che limporto di una singola vendita. Ogni cella potrebbe contenere i dati relativi ad una certa marca di prodotto, invece che ad un singolo prodotto.

marca

tipo

citt

categoria

regione

Distretto di approvigionamento

Se i dati fossero fisicamente memorizzati in maniera aggregata avremmo:


Una minore occupazione di spazio, e quindi migliori prestazioni in fase di interrogazione. Un numero minore di query soddisfacibili.
19 20

settore

nazione

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Ridurre la quantit di dati


Es. Un catena comprende 50 negozi che vendono complessivamente 1000 prodotti e si vuole coprire un periodo di 3 anni (circa 1000 giorni). Gli eventi sarebbero 50 x 1000 x 1000 = 500 milioni anche immaginando che solo il 10% dei prodotti vengono venduti si arriva a 50 milioni! Le informazioni memorizzate in un ipercubo, anche ipotizzando che siano di sintesi, sono di difficile interpretazione a causa della loro quantit. Due categorie di tecniche per ridurre la quantit di dati:
Restrizione: si ritaglia una porzione del cubo, circoscrivendo il campo di analisi; in termini di algebra relazionale, corrisponde a fare selezioni/proiezioni. Aggregazione: si raggruppano in ununica macro-cella una serie di celle dellipercubo.
21

E integrata e consistente (1)


I dati sono il risultato dellattivit di estrazione dei dati dalle sorgenti e organizzati per soggetti (o argomenti) principali. Es. Vendite, Acquisti, Diagnosi ecc. Ogni soggetto ogni singolo fatto quindi indentificato univocamente da una n-pla di valori dimensionali (le coordinate).

22

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

E integrata e consistente (2)


Le fonti dati da cui il data warehouse attinge possono essere molto differenti tra loro (es. file COBOL, RDBMS, file XML, fogli elettronici ecc.) e possono essere anche esterne al SIA. Di tutti questi dati il data warehouse restituisce una visione unficata, corretta e consistente.

E integrata e consistente (3)


Partendo da diverse fonti operazionali si utilizzano gli strumenti ETL (Extraction Transformation and Loading). Tale compito pu essere diviso in quattro fasi: Estrazione: in base ai fatti da caricare si scelgono e si prelevano i dati dalle varie sorgenti Pulitura: i dati originali quasi sempre contengono errori e inconsistenze, questa fase si occupa di migliorare la qualit dei dati mediante la loro correzione e omogeneizzazione. Trasformazione: Questa fase si occupa di convertire i vari formati dei dati delle sorgenti operazionali nel formato (unico) del datawarehouse effettuando le necessarie operazioni di conversione, normalizzazione, matching ed integrazione. Caricamento: i dati ottenuti vengono caricati nel datawarehouse o effettuando un refresh totale dei dati (di solito ci viene fatto solo in fase di costruzione del datawarehouse) o mediante un update incrementale.
24

23

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

E rappresentativa dellevoluzione temporale


Database operazionale Contenuto storico limitato. Il tempo solitamente non parte delle chiavi. I dati possono e sono aggiornati di continuamente Datawarehouse Contenuto storico ampio. Es. 5/10/30 anni Il tempo parte delle chiavi. I dati una volta raccolti non posso essere modificati da eventuali successive transazioni

Non volatile
I dati non vengono mai rimossi. Il data warehouse pu solo crescere con il tempo. Nuovi dati vengono inseriti in blocchi prelevandoli dalle opportune sorgenti dei dati. Es. inserimento dei dati dellultimo mese/trimestre/anno. Linsieme dei dati pertanto relativamente statico. Non ci sono modifiche frequentemente (ad esempio ogni ora).

25

26

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Database vs Data warehouse (1)


Database (operazionale)
Utenti: Scopo Impiegati Operazionale (registrazione di tutte le operazioni quotidiane). Dipende dallapplicazione

Database vs Datawarehouse (2)


Database (operazionale)
Parallelismo Integrazione dei dati Quantit di dati Tipo di dati Numero di utenti Qualit dei dati Copertura temporale Inter-Query Per applicazione Centinaia/migliaia di GigaByte Elementari. Sia numerici che alfanumerici. (Decine di)migliaia In termini di integrit Solo dati correnti. (Es. anno in corso).

Data warehouse
Dirigenti Supporto alle decisioni strategiche

Data warehouse
Intra-Query Per soggetto Centinaia/migliaia di TeraByte Di sintesi. Prevalentemente numerici. Decine/centinaia In termini di consistenza. Dati correnti e storici. (Es. ultimi cinque anni).

Fonti dei dati Tipo di query Design Ottimizzazione

Direttamente dalle transazioni e/o dalle Database operazionali e altre fonti interne relative pezze dappoggio (fatture, bolle, e/o esterne filtrati dagli strumenti ETL ordini ) OLTP (OnLine Transactional Processing). OLAP (OnLine Analytical Processing). Numerosissime transazioni brevi, semplici e Q u e r y a d h o c m o l t o c o m p l e s s e predefinite. Read & Write prevalentemente Read Only Orientato alle applicazioni. Basato su ER. Orientato ai soggetti. Star Schema. Normalizzato Denormalizzato. Multidimensionale Per transazioni OLTP su una piccola parte del Per operazioni OLAP su tutti i dati database 27

28

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Data mining
Con datamining si intende il processo di estrazione di informazione, utilizzabile e precedentemente sconosciuta, da grandi collezioni di dati e lutilizzo di queste informazioni per prendere decisioni di business. Ci che cerchiamo sono dei pattern ossia delle forme, di regolarit tra i dati. Si cerca dunque una caratteristica dellinsieme dei dati che permette di capire meglio come i dati sono fatti e/o come sono legati tra loro. Contrariamente a quanto affermano i super-ottimisti, necessario controllare che i risultati ottenuti non siano errati.

Data mining: parte del KDD


Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration
29

Selection

Databases

30

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Il Processo di KDD
Banking:

Applicazioni del Data Mining


Concessione prestiti: predire laffidabilit di un cliente. Fraud Detection: predire se un acquisto legittimo o se la carta di credito stata rubata.

Il data mining solo una parte di un processo pi ampio chiamato Knowledge Discovery in Databases. Il processo parte da un data warehouse o da una sorgente con caratteristiche simili. Vengono selezionati i dati rilevanti per lanalisi, viene fatto il data mining e poi occorre valutare il risultato e verificare che sia corretto. Questa nuova informazione una volta validata pu essere inserita nel SIA sviluppando ad esempio delle analisi OLAP ad hoc. Il processo di data mining pu ripartire partendo tenendo conto di quanto si conosce gi.

Customer relationship management:


In base al tipo e alla frequenza di ricorso di un cliente allassistenza predire se si rischia che il cliente passi ad un concorrente.

Targeted marketing:
Raggruppare gli utenti in modo da mandare cataloghi ad hoc ad ogni gruppo.

Telecomunicazioni:
Da una sequenza di malfunzionamenti predire se si va incontro ad un guasto grave.

Medicina:
Trovare se esiste una terapia pi economica ma ugualmente efficace per un paziente.

Astronomia:
Identificare nuove galassie analizzando le immagini digitali dal telescopio.

Web site/store design e promozioni:


Capire gli interessi di un visitatore e proporre hyperlink ad hoc.
31 32

Business Intelligence: data warehouse & data mining Introduzione

Business Intelligence: data warehouse & data mining Introduzione

Esempio
Classification: Si vuole segmentare linsieme dei dati in un numero di classi predefinite. Es. Banking: decidere se concedere un prestito o meno. In base al reddito, al tipo di lavoro, al tipo di abitazione ecc. si vuole predire se un soggetto rientra nella classe dei debitori affidabili o in quella dei debitori non affidabili.
Effettuiamo la classificazione solo in base allo stipendio Risultato del data mining: se lo stipendio non superiore ad un certo valore facile che venga mancato il pagamento di una rata x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze
33

Riferimenti
M. Golfarelli et al - Warehouse - Teoria e pratica della progettazione McGrawHill, 2006 ISBN: 9788838662911 P. Tan et al. - Introduction to data mining Addison Wesley, 2006 ISBN: 0321420527

34

Potrebbero piacerti anche