Sei sulla pagina 1di 2

ETL Framework

In tale sezione verranno illustrate le procedure seguite e/o consigliate in fase di creazione dello script di
ETL.
ETL è l’acronimo per Extract, Transform and Load, ovvero i tre stadi del processo base di elaborazione dei
dati aziendali.

Estrazione
Fase di acquisizione del dato.
Consiste nel connettersi ad una fonte di dati, quali files (CSV, JSon, XML, ecc…), Database, ecc…
Può consistere nell’acquisizione completa o parziale del dataset di dati a disposizione, inclusa la possibilità
di un caricamento incrementale del dato – ovvero solo gli aggiornamenti effettuati dopo l’ultimo
caricamento.
Punto d’attenzione sono le performance di caricamento correlate alla mole di dati, le macchine ed i tools
con cui ci si interfaccia e la velocità di trasmissione.

Trasformazione
Fase centrale del processo di ETL.
Consiste in due fasi: pulizia ed elaborazione.
Pulizia
Vengono eliminate le inesattezze, inconsistenze ed i difetti dovuti a valori errati nei dati,
imprevisti, duplicazioni, mancanze ed incoerenze logiche.
Elaborazione
Vengono ridefiniti i dati affinché siano il più possibili affini alle regole di business richieste
dal sistema di analisi a cui l’ETL è rivolto.
Consiste in traduzioni dei dati codificati, conversioni per garantire l’omogeneità tra le fonti,
derivazioni di nuovi campi calcolati,
raggruppamenti per diminuire la granularità del dato stesso (ovvero il livello di dettaglio del
dato stesso)
In questa fase è molto importante la definizione di un modello dati virtuale per le proprie
tabelle: tabella unica, link table o snow flake schema.
Punto d’attenzione rimangono le performance correlate in questo caso alla struttura finale
del dataset prodotto.

Visualizzazione
Fase finale di presentazione del dato elaborato.
Implica la sua propagazione verso i target finali che lo utilizzeranno: utenti business, analisti, executive,
pagine web, ecc.…
Framework
La necessità di avere un framework ETL nasce dall’esigenza di disporre di un sistema che sia:
 Centralizzato
Un unico strato sorgente definito dove convogliare tutte le fonti di dato
 Semi-automatizzato
Operazioni preliminari meccanicizzate e rapide
 Flessibile
Adattabile al crescere delle fonti e delle apps
 Sicuro
Deve esser gestibile il controllo degli accessi all’Hub di Qlik e all’accesso dei dati

Viene illustrata una struttura a tre livelli formata da:


 ETL01 - Estrattore
 ETL02 – Associativo
 QVF App

Ogni livello (layer) prodotto è composto da uno o più files Qlik (.qvf) e da più files dati (.qvd) utilizzati per il
trasferimento dei dati da un layer all’altro.
Da notare bene che l’utilizzo dei qvd permette di agglomerare i dati in maniera compressa (binaria) e
rendere la loro lettura almeno dieci volte più rapida.

ETL01 – Estrattore
Primo livello del Framework di ETL.
Vengono create apps qlik con l’unico scopo di acquisire i dati da una “singola” fonte, mentre il loro
trasferimento viene regolato da file in formato “.qvd”.
È possibile introdurre in questa fase delle trasformazioni del dato, ma è consigliabile limitarsi soltanto a
quelle relative e necessarie alla singola fonte.
Solitamente possono esser eseguite le trasformazioni volte alla correzione del dato o di decodifica diretta.
Ogni fonte caricata verrà storicizzata su di un file qvd (con la dicitura ETL01 – in una folder apposita sul file
system), per poi cancellare i valori dall’apps – questo garantisce performances migliori e risparmio di
spazio.

ETL02 – Associativo
Secondo livello del Framework di ETL.
Vengono caricati i qvd generati dall’ETL01, ed eseguite le trasformazioni legate all’associazione e
raggruppamento dei dati.
In questa fase viene generato il modello dati finale, includendo eventualmente le tabelle link (tabelle dei
fatti) richieste.
Ogni tabella trasformata verrà storicizzata su di un file qvd (con la dicitura ETL02 – in una folder apposita sul
file system), per poi cancellare i valori dall’apps – questo garantisce performances migliori e risparmio di
spazio.

QVF App
Livello finale del Framework di ETL.
È composto dalle apps di visualizzazione consultabile dall’HUB.
Vengono caricati i qvd generati dall’ETL02 ed eventualmente valorizzate le variabili necessarie all’app.
I files qvf generati contengono i diversi sheets richiesti, e vengono raccolti in folder apposite sul server.
Ognuno di questi files sarà visibile sull’HUB a seconda dell’autorizzazione utente, e verranno divisi in stream
appositi gestiti tramite QMC.

Potrebbero piacerti anche