Sei sulla pagina 1di 7

IT CONSULTANT

Enterprise data Warehouse: le at tivit di gestione


Nell'edizione precedente sono stati individuati gli aspet ti fondamentali correlati alla gestione di un Enterprise Data Warehouse(EDW) installato presso unazienda assicurativa di dimensioni medio-grandi. In questo numero Ciro DUrso completa l'analisi determinando, in modo puntuale, le at tivit di gestione del sistema.

La necessit di disporre di informazioni aggiornate sulle proprie attivit , sia per le aziende pubbliche che private, una questione strategica, ed a tal fine i sistemi di Enterprise Data Warehouse giocano un ruolo decisivo nel supporto alle decisioni di business che vengono prese quotidianamente. Il presente lavoro ha lo scopo di analizzare, delineando una proposta operativa, gli aspetti fondamentali correlati alla gestione di un Enterprise Data Warehouse (nel seguito EDW) installato preso unazienda assicurativa di dimensioni mediograndi. Nel seguito, in particolare, sono individuate le attivit di gestione del sistema complessivo anche al fine della produzione del "Manuale di Gestione dell'EDW" che, tipicamente, prodotto contestualmente al rilascio in produzione del progetto. In questo numero descriviamo le principali attivit che caratterizzano la gestione dellEDW gi individuate nel numero precedente, ed in conclusione proponiamo una dis-

tribuzione delle figure professionali interessate su ciascuna di tali attivit al fine di garantire laffidabilit della gestione. Data and User Security Management Con questo nome si indicano le attivit che hanno come obiettivo la definizione ed implementazione di politiche di sicurezza sia per il controllo dell'accesso ai dati che per la gestione dei profili utente. Con riferimento all'architettura presentata lo scorso numero nella sezione " rchitettura del sisteA ma" occorre porre particolare attenzione alle implicazioni che ha sulla sicurezza complessiva l'utilizzo dell'EDW attraverso la tecnologia internet/intranet. Le attivit da considerare per la presente gestione sono relative allidentificazione e gestione degli utenti a livello del RDBMS, in termini di profili e gruppi secondo la politica di sicurezza adottata ed in base alle reali necessit dell'utenza (allo scopo di evitare facili intrusioni con tool di accesso

22 INTERNET WORLD : giugno 2002

www.hitechshop.it

IT CONSULTANT

diversi da quelli standard). Inoltre riguardano lidentificazione e gestione degli utenti a livello dei tool di accesso ai dati, in termini di profili e gruppi secondo la politica di sicurezza adottata ed in base alle reali necessit dell'utenza. Nel contesto di queta area occorre considerare anche la gestione dell'impatto che l'accesso al sistema dell'EDW tramite internet/intranet determina sulla politica di sicurezza adottata. Infine, nellottica di un sistema di security management, opportuno un controllo dei tentativi di intrusione (accesso non autorizzato) alle basi dati. Data Access & Delivery Management Tale area comprende le problematiche relative alla gestione delle query complesse, all'implementazione di query ad hoc, al controllo delle performance complessive del siste-

ma, alla gestione della formazione degli utenti. Con riferimento all'architettura presentata nel paragrafo " rchitettura A del sistema" occorre porre particolare attenzione alle implicazioni che l'utilizzo dell'EDW attraverso la tecnologia internet/intranet ha sulle prestazioni complessive del sistema. In particolare occorre considerare limplementazione di query ad hoc su richiesta degli utenti, richiesta che pu pervenire attraverso le funzioni previste nel contesto dell'area User Request Management. Nellottica dellottimizzazione delle performance necessaria la gestione ed il tuning delle query complesse (sia per iniziativa degli amministratori in base all'analisi del carico sul server, sia su richiesta degli utenti pervenuta attraverso le funzioni previste nel contesto dell'area User Request Management), e, pi in generale, la gestione delle performance del sistema EDW. Questattivit

www.internet-world.it

giugno 2002 : INTERNET WORLD

23

IT CONSULTANT

richiede un monitoraggio continuo del carico di lavoro sul database e sul sistema determinato dalle query. E possibile intraprendere azioni come il partitioning, la gestione dindici bitmap e la creazione di summary tables (cfr. la sezione del numero scorso FCS nella gestione dellEDW) che, nel contesto di una particolare situazione o necessit, migliorano le prestazioni in termini di throughput (il tempo necessario ai processi batch proporzionale alla dimensione dei dati trattati) e response time (il tempo di risposta di una query proporzionale alla dimensione dei dati richiesti). Infine di fondamentale importanza la gestione della formazione degli utenti. Occorre prevedere l'addestramento di alcune figure professionali sia all'utilizzo dei tool di accesso ai dati sia alla conoscenza del significato delle informazioni presenti nelle varie aree funzionali dell'EDW cos da poterle impiegare in attivit di formazione degli utenti. System & Data Storage Management Queste attivit di natura prettamente sistemistica consistono innanzitutto nella gestione delle macchine che costituiscono linfrastruttura per lEDW, in particolare la gestione delle performance in termini di uptime (nella gestione della disponibilit dellEDW occorre considerare che il tempo richiesto per il Backup&Recovery degli oggetti del database determinato dalla loro dimensione e frammentazione allinterno dei vari supporti fisici e logici di memorizzazione). Inoltre ci sono senzaltro le attivit di Backup&Recovery dei dati dell'EDW e dei metadati associati in base ai documenti di rilascio in esercizio del progetto. Particolare attenzione va posta a quei metadata che nel contesto delle procedure di Loading e di Replication/Distribution descrivono gli errori e/o i malfunzionamenti verificatisi nel tempo (cfr. paragrafo "Metadata Management"). Infine di particolare importanza la gestione delle unit di archiviazione (near-line ed off-line) secondo i documenti di rilascio in esercizio del progetto, supportata da una pianificazione periodica delle necessit dell'EDW. Metadata Management E' possibile classificare i metadata in due gruppi fondamentali in base alla loro natura: Business Metadata: rappresentano le informazioni che supportano l'utente nell'accesso e nella comprensione dei dati dell'EDW, Technical Metadata: rappresentano le informazioni che supportano lo staff tecnico nella gestione dell'EDW. Dal punto di vista dell'utente i metadata sono essenziali per comprendere quali dati contiene l'EDW e cosa rappresentano. Essi forniscono informazioni circa lo stato dei dati (e.g. il timestamp dell'ultimo aggiornamento), il significato dogni campo (business definition), la sorgente che ha generato i dati, l'accuratezza e la qualit. Dal punto di vista tecnico i metadata sono utilizzati per implementare correttamente i processi di memorizzazione e

24 INTERNET WORLD : giugno 2002

www.hitechshop.it

IT CONSULTANT

figura 1 Strut tura dellunit organizzativa di gestione dellEnterprise Data Warehouse

distribuzione delle informazioni. Essi forniscono indicazioni sugli elementi che costituiscono l'EDW: database, tabelle, colonne, indici, relazioni, regole dacquisizione dei dati, regole di trasformazione e di data mapping, regole e processi damministrazione, algoritmi di pulizia dei dati. Nell'EDW la gestione dei metadata viene realizzata attraverso il data dictionary dellRDBMS, le funzionalit dei tool di accesso (e.g. Oracle Discoverer ed Express), i processi di caricamento dei dati dai file di produzione, i processi di Replication/Distribution realizzati tra il DW e ciascun Data Mart. Vediamo in dettaglio le attivit principali da considerare in questa area. Innanzitutto occorre prevedere la gestione di quei metadata che nel contesto dei tool di accesso nascondono agli utenti la complessit dei dettagli tecnici del database sottostante all'area funzionale (business area) considerata, e consentono agli stessi di produrre le interrogazioni utilizzando in modo efficiente le tabelle. Poi va prevista la gestione di quei metadata che nel contesto dei tool di accesso descrivono il significato di ciascun campo presente nell'area funzionale considerata e, ove necessario, ne elencano i valori ammissibili. Inoltre necessario considerare quei metadata che nel contesto delle procedure di Loading e di Replication/Distribution descrivono la provenienza di ogni campo, le eventuali regole di trasformazione o data mapping, gli algoritmi di data cleaning e quality assurance applicati dai processi. Ancora nel contesto delle procedure di Loading e di Replication/Distribution troviamo i metadata che descrivono le anomalie verificatesi nel tempo dovute a rigetto degli algoritmi di controllo (sintattico e

semantico) della qualit dei dati. Questa attivit di gestione prevede la verifica quotidiana dei risultati delle procedure schedulate nella finestra batch notturna. Le anomalie rilevate devono essere comunicate (tramite una procedura standard da definire, e.g. moduli elettronici/cartacei) a chi del Gruppo di Produzione (cfr. lultima parte della sezione) si occupa della particolare area funzionale nella quale ricadono i dati scartati. Sempre nel contesto delle procedure di Loading e di Replication/Distribution devono essere previste le informazioni che descrivono le anomalie verificatesi nel tempo dovute a errori nel trasferimento o caricamento. L'attivit prevede il controllo quotidiano dei risultati delle procedure attivate dallo scheduling della finestra batch notturna. Dopo avere rilevato le anomalie (file transfer fallito, errori di sistema nei processi attivati da SQL Loader, ) e determinato la causa occorre valutare caso per caso l'azione da intraprendere (riesecuzione del processo terminato, esecuzione dei processi figli nella gerarchia dei batch, ). Infine relativamente ai moduli di amministrazione dei tool di accesso roviamo quelle informazioni che consentono di avere statistiche sul carico di lavoro al fine di ottimizzare le prestazioni (numero di query su determinate tabelle, tempo medio di CPU, response time, numero di join, ). User Request Management (Help Desk) Questa area di gestione si realizza con una assistenza di primo livello delle esigenze dellutente e consiste principalmente nella raccolta delle richieste di assistenza degli utenti e risoluzione diretta di una parte di esse.

www.internet-world.it

giugno 2002 : INTERNET WORLD

25

IT CONSULTANT

Circa le richieste per le quali necessario un know-how pi specifico esse vengono smistate all'area Data Access & Delivery Management se riguardano le funzionalit dei tool di accesso, mentre all'area Business Data Management se riguardano quesiti circa il significato delle informazioni presenti nell'EDW. Business Data Management Tale gestione riguarda i dati presenti nell'EDW considerati dal punto di vista dei sistemi di produzione da cui provengono. Le persone che supportano queste attivit non possono che essere gli esperti tecnici e funzionali degli uffici di produzione. In primo luogo occorre gestire le rilevazioni provenienti dall'area Metadata Management determinate dal rigetto degli algoritmi di controllo sintattico e semantico. E' necessario che le anomalie di questo tipo siano gestite dal personale degli Uffici di produzione in quanto le modifiche da apportare per correggere gli errori rilevati devono essere eseguite unicamente nei sistemi sorgenti ed in nessun caso nell'EDW. Inoltre necessario gestire le richieste degli utenti provenienti dall'area User Request Management circa il significato di particolari informazioni che l'assistenza di primo livello non riesce a soddisfare. Upgrading Development Management Come in tutti i progetti software anche in questo caso occorre considerare delle attivit di manutenzione evolutiva. In particolare va prevista una rilevazione periodica delle necessit di evoluzione del sistema EDW sia al punto vista

dei dati che delle funzioni, e quindi attivit di analisi e realizzazione delle nuove implementazioni. Matrice attivit/figure professionali Classifichiamo le professionalit coinvolte nella gestione dell'EDW come segue (Tabella 1): Gruppo EDW: costituito dalle persone dedicate a tempo pieno al progetto EDW, Gruppo Sistemi: costituito da persone individuate all'interno dell'Ufficio responsabile della gestione dei sistemi centrali e dipartimentali, Gruppo Produzione: costituito da persone individuate all'interno di quelle unit organizzative che gestiscono, dal punto di vista funzionale e tecnico, i dati dei sistemi di produzione, Altri: costituito da persone che non appartengono a nessuno dei gruppi sopra descritti. Struttura Organizzativa In base alle attivit precedentemente descritte, la composizione dei gruppi sopra individuati per realizzare le attivit di gestione dell'EDW dovrebbe rispettare i seguenti requisiti minimi. Gruppo EDW: costituito dal responsabile del progetto EDW e da quattro programmatori e due analisti (risorse dedicate in modo esclusivo); Gruppo Sistemi: costituito da almeno un sistemista per l'ambiente Unix/Oracle8 ed un sistemista per l'ambiente NT/Oracle8 dedicati in modo esclusivo, e da un sistemista

26 INTERNET WORLD : giugno 2002

www.hitechshop.it

IT CONSULTANT

Risorse

Dedicate in modo esclusivo


1 1 2 4

Dedicate in modo non esclusivo


1 1 1 ? ? 7 2

Bibliografia
[1] R.Kimball, The Data Warehouse Toolkit, John Wiley&Sons, New York 1996. [2] R.Wang and D.Strong, Beyond Accuracy: What Data Quality Means to Data Consumers, J.Management Information Systems, vol.12, no.4, 1996, pp. 5-34.

Sistemista Unix/Oracle8 Sistemista NT/Oracle8 Sistemista per problemi di rete Analista tecnico Programmatore

Analista tecnico/funzionale di produzione Persone per Help Desk e formazione 4

Riferimenti
[3] E.F .Codd, S.B.Codd, and C.T.Salley, Providing OLAP (On-Line Analy tical Processing) to User-Analysts: An IT Mandate, ht tp://www.hyperion.com/solutions/whitepapers.cfm (Nov.2001).

tabella 2 Figure professionali

per l'ambiente Unix/Oracle8 ed un sistemista per l'ambiente NT/Oracle8 dedicati in modo non esclusivo. Inoltre da almeno una persona per la parte reti assegnata all'occorrenza per la risoluzione di compiti specifici (risorsa dedicata in modo non esclusivo); Gruppo Produzione: costituito da almeno una persona per ognuna delle sette aree funzionali previste per i Data Mart (risorse dedicate in modo non esclusivo); Altri: costituito da gruppi di persone distinti in base alle attivit da realizzare. Per la parte di formazione (attivit 2.4) sono necessari almeno due risorse (risorse dedicate in modo non esclusivo). Poich l'accesso al sistema EDW verr effettuato, nel contesto del nostro Istituto, da parte di alcuni utenti appartenenti alle unit organizzative dislocate su tutto il territorio nazionale, ragionevole ritenere che per supportare il carico di lavoro che si prevede per l'attivit di Help Desk sul DW e sui sette Data Mart (ca.500 utenti interni + utenti esterni) saranno necessarie quattro persone (risorse dedicate in modo esclusivo). Per la parte di manutenzione evolutiva (attivit 7.1 e 7.2) il numero di programmatori ed analisti necessario andr individuato caso per caso (risorse dedicate in modo non esclusivo). In sintesi il fabbisogno di risorse quello rappresentato in Tabella 2. Il Responsabile del progetto EDW ha il ruolo di coordinamento delle attivit di gestione dell'EDW.

Gestisce il gruppo EDW ed il gruppo dedicato all'area User Request Manager (Help Desk) che composto da professionalit da acquisire all'esterno dell'Istituto ed assegnate in modo esclusivo all'attivit 5.1. Le risorse per le attivit di manutenzione evolutiva (attivit 7.1 e 7.2) e per le attivit di formazione (attivit 2.4) sono acquisite dall'esterno in base alle esigenze specificate di volta in volta dal Responsabile del progetto EDW per mezzo dei canali previsti dalla struttura organizzativa dell'Istituto (richieste indirizzate all'Ufficio Pianificazione e Politiche Informatiche). Il Responsabile del progetto EDW ha il costante supporto del Gruppo Sistemi, gruppo costituito dal personale assegnato in modo esclusivo dall'Ufficio Sistemi, e dal personale assegnato dall'Ufficio Reti per compiti specifici e temporanei. Il Responsabile del progetto EDW ha il costante supporto degli Uffici responsabili dei dati di produzione di interesse per l'EDW i quali assegnano in modo non esclusivo gli analisti che nella gestione dell'EDW rappresentano i riferimenti per le questioni legate ai sistemi di produzione che forniscono i dati (cfr. la sezione "Qualit dei Dati"). La struttura organizzativa da prevedere per le attivit di gestione dell'EDW rappresentata dal diagramma in Figura 1 Conclusioni Il futuro delle aziende sar sempre pi influenzato dalla disponibilit dinformazioni fresche e facilmente accessibili sia dai livelli direzionali che dai livelli gestionali, ed a questo

www.internet-world.it

giugno 2002 : INTERNET WORLD

27

IT CONSULTANT

Aree di Gestione
1. Data & User Security Management

Gruppo EDW
identificazione e gestione degli utenti a livello dei tool di accesso ai dati

Gruppo Sistemi
identificazione e gestione degli utenti a livello del RDBMS gestione dell'impat to di internet/intranet sulle politiche di sicurezza controllo dei tentativi di intrusione gestione delle performance del sistema

Gruppo Produzione

Altri

2. Data Access & Delivery Management

implementazione di query ad hoc gestione e tuning delle query complesse gestione delle performance del sistema

gestione della formazione degli utenti

3. System & Data Storage Management

gestione dellinfrastrut tura gestione del Backup&Recovery gestione delle unit di archiviazione gestione dei metadata funzionali gestione dei metadata funzionali gestione dei metadata di ETT gestione dei metadata di errori sintat tici e semantici gestione dei metadata di errori di trasferimento gestione dei metadata di amministrazione gestione dei metadata di errori di trasferimento gestione dei metadata di amministrazione

4. Metadata Management

gestione dei metadata di errori sintat tici e semantici

5. User Request Management 6. Business Data Management gestione delle rilevazioni provenienti dall'area Metadata Management gestione delle richieste degli utenti rilevazione delle necessit di evoluzione del sistema analisi e realizzazione delle nuove implementazioni

raccolta delle richieste di assistenza

7. Upgrading Development Management

rilevazione delle necessit di evoluzione del sistema analisi e realizzazione delle nuove implementazioni

tabella 1 Aree di gestione e famiglie professionali


scopo un sistema di Data Warehouse che copra tutte le aree di interesse aziendale un fattore di successo per lazienda stessa in quanto predispone ad attivit di tipo Business Intelligence e data Mining, che consentono di perseguire leccellenza sul mercato. In tal senso una strutturazione precisa delle responsabilit e dei ruoli nella gestione del sistema di Data Warehouse aziendale costituisce un prerequisito irrinunciabile per garantirne laffidabilit e la disponibilit.

28 INTERNET WORLD : giugno 2002

www.hitechshop.it