Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Business Intelligence
Termine generico per indicare:
un insieme di processi per raccogliere ed analizzare informazioni strategiche la tecnologia utilizzata per realizzare questi processi le informazioni ottenute come risultato di questi processi
Per uninformatico si tratta di sistemi di analisi dei dati basati su due diverse losoe:"
aggregazione di dati " " scoperta di pattern di regolarit tra dati "(data warehouse)" "(data mining)"
Cos il SIA?
E linsieme di strumenti hw/sw che permettono di gestire in maniera automatizzata linformazione aziendale. E composto da: Applicazionali Transazionali: Sono i sistemi e le procedure informatiche di supporto allattivit operazionale quotidiana. Le applicazioni che rientrano in questa categoria sono le varie applicazioni aziendali per gestire i prodotti/servizi la contabilit lorganizzazione, la logistica ecc. Decision Support System (DSS): Sono i sistemi e le procedure informatiche di supporto alle scelte strategiche dei dirigenti. In questa categoria rientrano le applicazioni di reportistica statica, le applicazioni di datawarehousing e le applicazioni di datamining.
Logistica in entrata
Applicazione DB Applicazione DB
Operazioni
Logistica in uscita
Marketing e vendite
Servizi
Applicazione
Infrastruttura dellimpresa (pianificazione, contabilit, affari legali, direzione,) Gestione delle risorse umane (ricerca, selezione, assunzione, formazione,) Sviluppo tecnologico (ricerca e sviluppo) Acquisizione risorse (ricerca fornitori, contatti, negoziazione, )
Applicazione
DB
DB 8
Logistica in entrata
Operazioni
Logistica in uscita
Marketing e vendite
Servizi
ERP
DB DB
Infrastruttura dellimpresa Gestione delle risorse umane Sviluppo tecnologico Acquisizione risorse
DB Uno o pi DB 10
La reportistica statica
E il primo tipo di applicazione di supporto alle decisioni. Di solito costituito da un programma/script che recupera i dati operazionali attraverso un linguaggio come SQL effettuando una qualche elaborazione e presentado il risultato in modo tabellare. E definita statica perch la logica ed il formato di output definito una volta per tutte e richiede un programmatore per essere modificato. Es. ogni settimana Volvo analizza le vendite di autoveicoli presso i suoi concessionari divisi per provincia e per regione con riferimento ai vari modelli di auto
11
12
Lamentele
Abbiamo montagne di dati ma non possiamo accedervi! Come possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmente diversi? Vogliamo selezionare, raggruppare e manipolare i dati in ogni modo possibile! Mostratemi solo ci che importante! Tutti sanno che alcuni dati non sono corretti!
dati informazioni
In realt quello che stiamo tentando di fare di aggregare ed interpretare i dati, di fatto trasformandoli in informazioni.
13
14
Di seguito analizziamo pi in dettaglio questi quattro punti Un data warehouse pu essere considerato come un database in sola lettura, quindi cambiano le tecniche di progettazione.
15
16
18
Gerarchie
Nellesempio precedente una possibile gerarchia per la dimensione Mercato : Citt, Distretto, Nazione. Sono possibili gerarchie pi complesse, rappresentabili come un albero o come un grafo.
prodotto
negozio
marca
tipo
citt
categoria
regione
Distretto di approvigionamento
settore
nazione
22
23
Non volatile
I dati non vengono mai rimossi. Il data warehouse pu solo crescere con il tempo. Nuovi dati vengono inseriti in blocchi prelevandoli dalle opportune sorgenti dei dati. Es. inserimento dei dati dellultimo mese/trimestre/anno. Linsieme dei dati pertanto relativamente statico. Non ci sono modifiche frequentemente (ad esempio ogni ora).
25
26
Data warehouse
Dirigenti Supporto alle decisioni strategiche
Data warehouse
Intra-Query Per soggetto Centinaia/migliaia di TeraByte Di sintesi. Prevalentemente numerici. Decine/centinaia In termini di consistenza. Dati correnti e storici. (Es. ultimi cinque anni).
Direttamente dalle transazioni e/o dalle Database operazionali e altre fonti interne relative pezze dappoggio (fatture, bolle, e/o esterne filtrati dagli strumenti ETL ordini ) OLTP (OnLine Transactional Processing). OLAP (OnLine Analytical Processing). Numerosissime transazioni brevi, semplici e Q u e r y a d h o c m o l t o c o m p l e s s e predefinite. Read & Write prevalentemente Read Only Orientato alle applicazioni. Basato su ER. Orientato ai soggetti. Star Schema. Normalizzato Denormalizzato. Multidimensionale Per transazioni OLTP su una piccola parte del Per operazioni OLAP su tutti i dati database 27
28
Data mining
Con datamining si intende il processo di estrazione di informazione, utilizzabile e precedentemente sconosciuta, da grandi collezioni di dati e lutilizzo di queste informazioni per prendere decisioni di business. Ci che cerchiamo sono dei pattern ossia delle forme, di regolarit tra i dati. Si cerca dunque una caratteristica dellinsieme dei dati che permette di capire meglio come i dati sono fatti e/o come sono legati tra loro. Contrariamente a quanto affermano i super-ottimisti, necessario controllare che i risultati ottenuti non siano errati.
Selection
Databases
30
Il Processo di KDD
Banking:
Il data mining solo una parte di un processo pi ampio chiamato Knowledge Discovery in Databases. Il processo parte da un data warehouse o da una sorgente con caratteristiche simili. Vengono selezionati i dati rilevanti per lanalisi, viene fatto il data mining e poi occorre valutare il risultato e verificare che sia corretto. Questa nuova informazione una volta validata pu essere inserita nel SIA sviluppando ad esempio delle analisi OLAP ad hoc. Il processo di data mining pu ripartire partendo tenendo conto di quanto si conosce gi.
Targeted marketing:
Raggruppare gli utenti in modo da mandare cataloghi ad hoc ad ogni gruppo.
Telecomunicazioni:
Da una sequenza di malfunzionamenti predire se si va incontro ad un guasto grave.
Medicina:
Trovare se esiste una terapia pi economica ma ugualmente efficace per un paziente.
Astronomia:
Identificare nuove galassie analizzando le immagini digitali dal telescopio.
Esempio
Classification: Si vuole segmentare linsieme dei dati in un numero di classi predefinite. Es. Banking: decidere se concedere un prestito o meno. In base al reddito, al tipo di lavoro, al tipo di abitazione ecc. si vuole predire se un soggetto rientra nella classe dei debitori affidabili o in quella dei debitori non affidabili.
Effettuiamo la classificazione solo in base allo stipendio Risultato del data mining: se lo stipendio non superiore ad un certo valore facile che venga mancato il pagamento di una rata x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze
33
Riferimenti
M. Golfarelli et al - Warehouse - Teoria e pratica della progettazione McGrawHill, 2006 ISBN: 9788838662911 P. Tan et al. - Introduction to data mining Addison Wesley, 2006 ISBN: 0321420527
34