Introduzione
Storicamente i sistemi informativi aziendali si fondavano sullutilizzo di una singola base di dati sia per le attivit transazionali che per le attivit di analisi e pianificazione Negli ultimi anni lapproccio nella realizzazione dei sistemi informativi quello di realizzare sistemi diversi:
sistemi OLTP (On-Line Transaction Processing) dedicato alla gestione dei processi
transazionali
sistemi DSS (Decision Support System) dedicato alla gestione dei processi di analisi dei
dati
DSS
Globale, certificazione dei dati caricati
Transazioni
Migliaia di transazioni al giorno, Una sola transazione al giorno ciascuna accede ad una piccola composta anche da milioni di porzione di dati record Fotografia istantanea di una organizzazione aziendale Mod. Entity Relation Gestisce versioni storiche dei dati Mod. Multidimensionale
Tempo Progetto DB
Data Integration: estrarre i dati dalle varie sorgenti OLTP, li trasforma e li organizza opportunamente.
Data Mart: database analitico progettato per soddisfare le esigenze di una specifica funzione aziendale.
Meta Dati: dati che forniscono informazioni sulle strutture dei dati e sulle rispettive relazioni esistenti allinterno di un singolo database o fra pi database.
Tecnologie
Pianificazione progetto
Dati
Definizione Pianificazione progetto dei requisiti del business Modello multidimens. Progetto Fisico ETL Integrazione Manutenzione e crescita
2 - IL MODELLO MULTIDIMENSIONALE
Nel modello multidimensionale le informazioni sono organizzate concettualmente in data-cube, composti da: categorie descrittive le dimensioni misure quantitative le celle
Attributi: variabili di classificazione o elementi descrittivi. Servono a definire il livello di aggregazione dei dati e impostare dei filtri sugli stessi.
Relazioni: permettono di stabilire che tipo di legame esiste fra gli elementi di attributi relativi ad una stessa dimensione.
Livello anno
Gerarchie: sono un ordinamento logico di alcuni livelli allinterno di una stessa dimensione
Tipicamente questi dati rappresentano le performance o i fattori chiave di un business. FATTI BASE e FATTI CALCOLATI.
Analisi multidimensionale
Analisi multidimensionale
Analisi multidimensionale
Tipi di tabelle
Lookup Tables: contengono semplicemente lidentificatore di un elemento e la relativa descrizione, permettono di rappresentare attributi di una dimensione. Relationship Tables: contengono le chiavi di 2 o pi attributi, in modo da rappresentare le relazioni esistenti fra questi. Fact Tables: contengono i fatti del business e le chiavi degli attributi che determinano la loro dimensionalit
Star schema
Caratteristiche dello STAR SCHEMA: Pesantemente denormalizzato Grande ridondanza dei dati 1 sola lookup table per ogni dimensione Permette di ridurre il numero di join
Fissata la struttura della Fact table, esistono 3 differenti tipi di star schema derivanti da altrettante diverse strutture di Lookup tables.
Star Schema
STAR SCHEMA (TYPE 1) Le lookup tables contengono solamente gli identificatori dei vari attributi della dimensione. Se si vogliono visualizzare in un report pi descrizioni della stessa dimensione bisogna utilizzare self join. STAR SCHEMA (TYPE 2) I singoli attributi sono rappresentati attraverso le loro descrizioni. Supero problema di self join Occorre utilizzare campi di testo per qualificare i livelli superiori attraverso un livello inferiore.
Star Schema
STAR SCHEMA (TYPE 3) La soluzione a entrambi i problemi precedenti deriva dalla combinazione delle caratteristiche dello schema 1 e dello schema 2.
Pro: 1. Basso numero di tabelle. 2. Alta comprensibilit dello schema. 3. Semplice generazione delle query SQL.
Contro: 1. Impossibilit di rappresentare le relazioni molti-a-molti. 2. Necessit di cambiare la struttura delle tabelle di lookup al variare degli attributi e/o dei livelli allinterno di una dimensione.
Snowflake Schema
Caratteristiche dello SNOWFLAKE SCHEMA: Maggiore normalizzazione Bassa ridondanza nei dati 1 Looktable per ogni attributo della dimensione
Lookup Table: contiene PK, una descrizione e FK per rappresentare le relazioni esistenti tra i vari livelli
Fact Table: contiene sempre dati appartenenti allo stesso livello di aggregazione. La chiave composta dalle singole chiavi dei livelli delle diverse dimensioni
Snowflake Schema
SNOWFLAKE SCHEMA (TYPE 1) Le lookup tables contengono , solamente la FK del livello immediatamente superiore. SNOWFLAKE SCHEMA (TYPE 2) Lookup tables ottenute denormalizzando gli identificatori dei livelli superiori. SNOWFLAKE SCHEMA (TYPE 3) Le lookup tables ottenute denormalizzando anche le descrizioni.
Snowflake Schema
VALUTAZIONI FINALI
Pro: 1. Alta flessibilit e scalabilit 2. Supporto delle relazioni molti-a-molti. 3. Fact table contenenti dati omogenei
Contro: 1. Alto numero di tabelle. 2. Schema pi complicato e meno leggibile 3. Difficolt di generazione delle istruzioni SQL.
Principi per massimizzare le performance: Pre-aggregazione dei dati Creazione di varie fact table (SUMMARY TABLE) contenenti dati a differenti livelli di aggregazione
Svantaggio: Maggior utilizzo dello spazio su disco dovuto alla ridondanza introdotta.
3 - ARCHITETTURE OLAP
Architettura ROLAP
Sistema di memorizzazione
DB RELAZIONALE DB MULTIDIM. CLIENT-FILES
Vantaggi 1. Supporta un gran volume di informazioni base. 2. Permette lutilizzo di thinclient e laccesso attraverso Internet
Svantaggio 1. Richiede tecniche ad hoc di progettazione del database. 2. Le performance sono altamente dipendenti dal tipo di schema utilizzato. 3. Non permette di effettuare complesse computazioni finanziarie.
Architettura MOLAP
Sistema di memorizzazione
DB RELAZIONALE DB MULTIDIM. CLIENT-FILES
Vantaggi: 1. Ottime performance sulle operazioni proprie dellanalisi multidimensionale. 2. Permette lutilizzo di thin-client e laccesso attraverso Internet. 3. Supporta analisi predefinite lungo la dimensione tempo. 4. I dati analitici sono memorizzati in una struttura persistente, riduzione dello stress del sistema per effettuare calcoli e aggregazioni a run-time. Svantaggi: 1. Limita le capacit di Drill-down. 2. Mancanza di standard fra i vari prodotti commerciali. 3. Costi di gestione e di sviluppo aggiuntivi, essendo una tecnologia specifica per lanalisi. 4. Non utilizzabile con grandi volumi di dati atomici (> 10 Gbyte).
Architettura DOLAP
Sistema di memorizzazione
DB RELAZIONALE DB MULTIDIM. CLIENT-FILES
Vantaggi 1) Semplice da installare e da gestire. 2) Economico da implementare e da mantenere. 3) Ogni utente pu crearsi semplicemente una propria vista dei dati. Svantaggi: 1) Analisi limitate ai soli dati importati. 2) Alto traffico di rete generato dallimportazione delle informazioni. 3) Impossibilit di accesso tramite internet. 4) Il volume dei dati che pu essere mantenuto sul desktop molto limitato. 5) Necessitano di un client potente, non possibile usare thin-client.
Architettura HOLAP
Sistema di memorizzazione
DB RELAZIONALE DB MULTIDIM. CLIENT-FILES
Vantaggi 1. Supporta lanalisi multidimensionale su grandi volumi di dati 2. Nessuna limitazione sui drilldown per lanalisi in profondit.
Svantaggi: 1. Costoso da comprare, da implementare e da gestire. 2. Richiede tecniche ad hoc di progettazione del database.
ROLAP vs MOLAP
Vantaggi Memorizzazione dati sparsi Scalabilit SQL avanzato Struttura dei dati intuitiva Accesso ai dati efficiente Densit di memorizzazione per dati compatti Svantaggi
ROLAP
MOLAP
Conclusioni
Principi su cui si base larchitettura HOLAP: 1.Costruzione del data warehouse in un sistema relazionale 2.Utilizzo del DB Multidimensionale 3.Integrazione automatizzata dei due sistemi
Obiettivo: utilizzare al meglio i componenti caratteristici dei due sistemi, utilizzando un DB relazionale per gestire grandi moli di dati e mitigare i problemi di sparsit. Il DB multidimensionale viene utilizzato per la sua grande efficienza nel gestire le informazioni aggregate e le computazioni multidimensionali.