Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Oggetti su cui si concentra la spesa per IT: Hardware, Software, Servizi, Assistenza
tecnica.
Vengono richieste: informazioni sui risultati rispetto agli obiettivi; strumenti per il
confronto tra indicatori aziendali e ambiente; strumenti che facilitino il processo
decisionale (analisi, correlazioni).
Prevede: l’aggregazione di dati, la profondità temporale, la ricerca per argomento (es.
clienti. no evento), analisi multidimensionale (incrocio delle informazioni es. fatturato-
linea di prodotto).
Il punto focale è la base di dati, che assume esplicitamente il nome diverso di data
warehouse, magazzino di dati. Questo elemento deve essere:
Strutturato per contenere tutti i dati che possano risultare utili;
Strutturato per garantire bassi tempi di attesa fra interrogazione e risultati;
Periodicamente aggiornato con dati coerenti, completi, corretti, attendibili;
Permanente, l’esito di un’interrogazione deve essere sempre lo stesso;
Facilmente interrogabile.
L’accesso dei dati è quasi sempre in sola lettura.
Col tempo sono sorte due diverse famiglie di sistemi con l’obbligo di separare
l’elaborazione di tipo analitico da quella legata alle transazioni:
1. OLTP (On Line Transaction Processing), trattamento delle transazioni, sistemi
organizzati per garantire la massima efficienza nella gestione dei processi operativi
aziendali. In pratica sono i sistemi operazionali, che puntano all’efficienza interattiva
nell’avanzamento dei processi;
2. OLAP (On Line Analytical Processing), insieme dei sottosistemi informativi
pensati per l’analisi interattiva dei dati. Devono garantire la massima efficienza
nell’elaborazione dei dati di sintesi e la massima flessibilità nelle interrogazione
(sistemi informazionali). Servono da supporto al processo decisionale.
Aspetti negativi:
Costi fissi notevoli (necessità di uno staff interno);
Investimenti consistenti (infrastruttura tecnologica);
Struttura che non si confronta con il mercato;
Soluzioni tendono a diventare obsolete;
Tempi di soluzione lunghi per problemi complessi.
Aspetti positivi:
Tempi di soluzione veloci per problemi banali;
Mantenimento interno del know-how;
Modelli organizzativi mappati in maniera puntuale (creazione sistema ad hoc).
Questa scelta oggi è limitata alla grande azienda.
2 – opzione BUY
acquisto del proprio sistema informativo da fornitori esterni, creazione di un piccolo gruppo
di lavoro aziendale in grado di gestire l’utenza interna e di interloquire tecnicamente con
l’esterno.
Aspetti negativi:
Struttura interna ridotta e con costi fissi;
Dipendenza da una struttura esterna (potere contrattuale software house notevole);
Parte del know-how aziendale esce;
Mancanza di proprietà del software, possesso della licenza d’uso;
Possibilità di interventi diretti limitata (fornitore intermediario necessario);
Modelli organizzativi mediati (fornitore elabora su indicazione);
Difficoltà nell’interazione con più fornitori (hardware e altre componenti da fornitori
diversi).
Aspetti positivi:
Aderenza al mercato e confronto con esso;
Maggior flessibilità rispetto al make;
Concentrazione sul core-business (e non sullo sviluppo del sistema);
Parziale smobilizzazione degli investimenti (sviluppo non necessario).
3 – opzione OUTSOURCE
delega completa all’esterno di gestione e organizzazione del sistema informativo.
Aspetti di questa scelta:
o Costi variabili ma sensibilmente alti (non c’è uno staff, ma il costo è variabile);
o Totale smobilizzazione degli investimenti;
o Completo vincolo con il fornitore della soluzione;
o Maggiore flessibilità rispetto all’opzione make;
o Fuoriuscita di tutto il know-how;
o Perdita di controllo su una variabile critica del proprio modello org (sistema info);
o Possibilità di interventi diretti nulla;
o Aderenza al mercato e confronto con esso;
o Modelli organizzativi mediati (fornitore intermediario necessario).
Livello 2
Viene identificato un responsabile EDP (Electronic Data Processing) e lo staff viene diviso
in: assistenza tecnico-sistemistica; assistenza applicativa (supporto utenti); sviluppo nuove
applicazioni.
Livello 3
Riconoscimento di una Direzione che assume un ruolo strategico. Oltre al precedente
blocco operativo si crea una sezione che studia l’applicazione delle nuove tecnologie nei
vari ambiti dell’azienda.
Livello 4
Il settore (informatico) viene riconosciuto come un’entità che svolge attività per il resto
dell’azienda e si introducono altre funzioni (segreteria, pianificazione, privacy e sicurezza,
documentazione e standard, controllo dei budget e dei costi.
Problematiche legate al software, sono quelle maggiori. L’unico rimedio è ridurre tali
problematiche a livelli probabilistici bassi o trascurabili. Raramente bloccano l’intera
attività, ma interferiscono con un processo di attività. Un’arma efficace è avere a
disposizione da parte del fornitore una struttura di supporto che possa correggere l’errore.
Problematiche legate ad azioni dolose. Possono causare interruzioni del servizio, furto di
denaro o di proprietà intellettuali o di informazioni riservate. Nessun sistema, se non
fisicamente isolato, è impenetrabile. I costi per violare sistemi correttamente protetti sono
notevoli.
Per riconoscere un utente ci si basa su: ciò che uno sa (psw), ciò che uno ha (chiavette
One Time Psw); ciò che uno è (caratteristica biometrica, impronta digitale).
Possono essere semplici, quindi registrate solo all’interno del sistema informativo come un
semplice dato, o complesse, raggruppanti una serie di registrazioni elementari
(spedizione). Vi è una transazione per ogni passaggio di un’operazione (uscita,
lavorazione, rientro – esempio sull’outsourcing).
4.elaborazione delle situazioni aziendali (info di stato anche derivate da mov e ana)
la sintesi di tutte le funzioni è la possibilità di elaborazione di indicatori dello stato corrente.
La conoscenza dello stato corrente permette ai decisori di agire sul sistema azienda
tramite leve opportune, generando eventi che lo guidino alla condizione di funzionamento
desiderata. Esempi indicatori di stato: giacenza magazzino, fatturato corrente. Tutte le
informazioni sintetiche e attuali in un ipotetico quadro di controllo aziendale.
Qualità dei dati: possesso della totalità delle caratteristiche che portano al soddisfacimento
delle esigenze, esplicite o implicite, dell’utente.
Il sistema informativo è una mappatura degli eventi che accadono nel mondo reale
incrociati con i dati memorizzati all’interno del sistema. Gli utenti agiscono sulla base delle
informazioni ottenute dal sistema; la qualità dei dati è tanto più elevata quanto più il
sistema fornisce rappresentazioni degli eventi vicine alla percezione della realtà.
La qualità dipende quindi da come è stato progettato il sistema informativo, in particolare
da come è stata articolata la struttura dei dati e dal sistema di alimentazione degli stessi.
Caratteristiche funzionali
I dati operativi hanno caratteristiche che incidono sul loro utilizzo, sulla possibilità e sulla
facilità di elaborare informazioni a partire dai dati grezzi.
Le caratteristiche funzionali più influenti sulla qualità del sistema operazionale sono:
Completezza: estensione con cui vengono raccolte e memorizzate le informazioni
(più dettagli = più completo);
Correttezza: corrispondenza tra dato e realtà. Condizionata dalla possibile
presenza di dati errati;
Cardinalità
Attributo della connessione, specifica il numero minimo e il numero massimo di istanze
della relazione cui un’istanza dell’entità può partecipare.
Se la cardinalità minima è 0 relazione opzionale, possono esistere istanze non
coinvolte con essa (prodotto nuovo mai acquistato);
se la cardinalità minima è 1 relazione obbligatoria, per ogni istanza di entità deve
esistere almeno un’istanza di relazione (relazione tra reparto e sede);
cardinalità massima: 1 oppure N.
Attributi
Le caratteristiche di interesse per il sistema vengono esplicitamente evidenziate e
prendono il nome di attributi. Un attributo associa a ciascuna istanza dell’entità un valore
appartenente all’insieme dei valori ammissibili per l’attributo. Possibilità macroattributo
(indirizzo ha via, località, cap). se l’attributo è opzionale o se può essere ripetuto,
l’indicazione della cardinalità può aumentare la precisione della rappresentazione.
È stato proposto in epoca lontana per rappresentare formalmente il flusso dei dati tra i
processi.
I DFD rappresentano un processo come un insieme di flussi funzionali interconnessi da
depositi di dati, mettendo in luce il concorso dei singoli passaggi elementari (o
sottoprocessi) nel trattamento delle informazioni e le dipendenze funzionali, causate
dall’informazione condivisa, che si creano tra un passaggio e i successivi.
Gli elementi principali:
Agenti: elementi che producono o consumano dati nel sistema. solitamente sono
elementi esterni, viene utilizzato un rettangolo per rappresentarli;
Depositi di dati: informazioni che il sistema mantiene. Ogni deposito è
rappresentato con due righe orizzontali parallele, tra le quali è indicato il nome del
deposito de dati;
Processi: porzioni di sistema che trasformano i dati. Graficamente sono cerchi con il
nome (e una descrizione);
Flussi: linee attraverso cui l’informazione si propaga. Graficamente sono linee
dotate di un nome che descrive l’azione da cui derivano.
Non devono esistere flussi diretti tra agenti, tra depositi, o tra deposito e agente (i depositi
sono elementi passivi, gli agenti interagiscono solo tramite i processi).
Gli elementi terminali del sistema possono essere solo agenti, depositi, consumatori
dell’informazione (no processi). I flussi di dati devono uscire.
Verificare attentamente i processi che non ricevono flussi di dati in ingresso (i processi
raramente producono propri dati).
Se vi sono diversi DFD, bisogna numerare i processi che si dettagliano in altri schemi
(riconoscimento).
2.Logistica
le procedure appartenenti al flusso logistico si occupano del trattamento dei materiali
(definizione, movimentazione, analisi dei costi).
Funzioni:
definizione dell’anagrafica degli articoli (informazioni associate ai prodotti che ne
permettano il riconoscimento e ne descrivano le caratteristiche operative);
definizione del layout aziendale, ovvero la descrizione dei depositi in modo tale da
poter controllare, tramite movimenti di carico e scarico, la presenza di prodotti al
loro interno;
movimentazione, ricostruire i flussi del materiale e mantenere una visione
aggiornata sulla giacenza all’interno dell’azienda. Ogni movimento indica, prodotto,
deposito, data, quantità, natura del movimento;
valutazione dei costi dell’articolo, medio, FIFO, LIFO, standard, permettono
l’adozione di politiche di prezzi ragionate, valorizzazione del magazzino;
valutazioni inventariali, procedure che permettono di conoscere le giacenze nei vari
depositi e associare un valore alla merce in magazzino.
3.Vendite
le procedure del flusso attivo costruiscono la catena di processi che permette all’azienda
di interagire col cliente. Gli attori principali sono i clienti. Le procedure:
4.Acquisti
le procedure del flusso passivo costituiscono la catena di processi che permette
all’azienda l’interazione con i propri fornitori per l’approvvigionamento di materiali o per la
richiesta di lavorazioni o servizi esterni. Gli attori principali sono i fornitori. Le procedure:
definizione delle condizioni commerciali: importare listini fornitori, calcolare i prezzi
sulla base delle condizioni di costo, decidere il fornitore più conveniente;
processi di gestione dell’ordine fornitore: raccolta delle richieste di
approvvigionamento ed evasione periodica, sulla base delle urgenze o delle
quantità richieste;
1. raccolta delle richieste;
2. emissione;
3. evasione, ricezione merce e controllo qualità.
5.Produzione
uno dei sottosistemi più articolati degli ERP. Spesso, i produttori di ERP forniscono
sottosistemi di produzione verticalizzati per tipologie aziendali (metodologie e
problematiche legate a ciò che si produce). Il flusso produttivo copre:
definizione dei dati tecnici: flussi operativi di produzione si basano su informazioni
che definiscono come un prodotto deve essere realizzato e con quali materiali;
1. descrizione della struttura di prodotto: quali e quanti sono i componenti
necessari per ottenere un certo prodotto (se complesso si descrive tramite
una struttura gerarchica;
2. descrizione delle risorse utilizzate: entità utilizzate per il processo produttivo;
3. descrizione del processo produttivo: come utilizzare le risorse dell’azienda;
1.controllo qualità
le certificazioni di qualità garantiscono che un’azienda operi seguendo processi ben definiti
che consentono di mantenere standard qualitativi elevati e costanti nel tempo del lavoro e
dei prodotti. L’azienda certificata deve descrivere tutti i processi aziendali e gli elementi
che concorrono a realizzarli.
I sistemi informatici di controllo qualità permettono il trattamento di:
Informazioni sugli articoli da sottoporre al controllo qualità;
Informazioni sulle aziende che forniscono prodotti, manodopera e servizi in dorma
continuativa all’azienda (fornitori certificati), che devono anch’essi aderire agli
standard qualitativi definiti per l’azienda;
Informazioni sul personale, con piani di formazione;
Informazioni sui dispositivi di misura, con pianificazione e registrazione degli esiti;
Informazioni sulle macchine e sugli impianti di produzione, con pianificazione e
registrazione delle attività di manutenzione periodica;
Controlli qualità al ricevimento della merce e durante la produzione, con
archiviazione delle informazioni sul controllo effettuato ed eventuale emissione di
rapporti di non conformità;
Documenti di flusso (reclami dei clienti, seguiti da indagini e azioni correttive);
Verifiche ispettive volte all’effettivo utilizzo delle procedure definite.
Punti di contatto tra sistemi di gestione del controllo qualità e sistema gestionale:
Anagrafica di prodotti e fornitori;
Flusso attivo (puntualità delle consegne) e flusso passivo (puntualità fornitori);
Flusso produttivo (magazzino).
2.ricerca e sviluppo
in questa attività l’azienda investe una porzione delle proprie risorse in progetti legati
all’identificazione di nuovi prodotti da proporre sul mercato o di nuove tecnologie da
utilizzare nella produzione. Il principale supporto che l’informatica fornisce è il controllo
sui costi e sull’avanzamento del progetto, condotto tramite strumenti di project
management che permettono di definire piani di avanzamento, di monitorarne
l’evoluzione nel tempo e di valorizzare l’impegno.
I sistemi di project management devono essere integrati:
o Al sottosistema amministrativo dell’ERP per il controllo sugli investimenti pianificati
per la ricerca;
o Al sistema di gestione del personale per l’impegno di risorse sui progetti;
o Ai sistemi di gestione documentale e di workflow, per l’archiviazione e la
distribuzione dei documenti di progetto.
Vi sono strumenti dedicati anche allo sviluppo del progetto, come i sistemi CAD e CAE,
sistemi per la manutenzione della documentazione del prodotto (PDM e PLM). Tutti questi
sistemi si integrano tra di loro (compresi gli ERP).
3.Manutenzione impianti
obiettivi che un’azienda si pone nell’adozione di un sistema di supporto alla gestione della
manutenzione:
Disporre di uno strumento centralizzato e omogeneo delle manutenzioni;
Facilitare la pianificazione dei controlli (definire cadenza controlli);
Supportare gli operatori nella gestione dei controlli e nella risoluzione dei guasti con
informazioni complete su natura e dislocazione degli elementi da controllare e sulle
procedure da seguire (riduzione dei tempi di intervento);
Memorizzare in modo permanente informazioni su interventi effettuati (operatori,
materiali, durata, esito controlli).
I sistemi di manutenzione sono integrati con gli EPR per la contabilizzazione degli
interventi e l’indisponibilità degli impianti.
4.Risorse umane
sistemi per la gestione del personale, nati con funzioni (basate sulla rilevazione delle
presenze) per il computo di paghe e stipendi e per il calcolo dei contributi da versare.
Definizione della collocazione del personale, progettazione piani di formazione e crescita
professionale, mercato in entrata e in uscita.
Memorizzazione dati anagrafici, inquadramento, retribuzione; definizione dei ruoli e delle
competenze. Articolazione, quindi, dell’organigramma aziendale. Nelle PMI la gestione
amministrativo/contabile del personale è spesso delegata all’esterno, mentre la gestione
delle competenze viene effettuata internamente.
5.Sistemi di tesoreria
gestione controllata dei rapporti con gli istituti di credito (contenimento oneri finanziari e
massimizzazione interessi attivi, pianificazione investimenti).
E-commerce
Gestione di transazioni di vendita e di acquisto su Internet. Canale aggiuntivo, parallelo
alla rete di vendita tradizionale. Consiste nella fornitura diretta ai clienti di servizi e
informazioni, assicurata da applicazioni che gestiscono autonomamente la transazione,
senza l’intervento di intermediari.
B2B (Business to Business) soluzioni orientata all’integrazione interaziendale
B2C (Business to Customer) sistemi per mercato end-user.
Le differenze tra i due sono i listini, personalizzati da accordi commerciali per il primo tipo.
L’e-commerce richiede una forte integrazione con il sistema ERP e l’investimento in
infrastruttura informatica per garantire la sicurezza delle transazioni.
SCM (Supply Chain Management)
Una delle fasi più critiche nella gestione della catena del valore è la sincronizzazione del
fabbisogno dell’azienda con la disponibilità dei fornitori. Consegne in tempi garantiti
permettono di minimizzare la giacenza dei magazzini. I SCM sono articolati in processi
orientati alla previsione della domanda da parte del mercato e alla successiva
elaborazione di piani d’acquisto e di produzione. Questi sistemi sono strumenti per il
supporto della comunicazione e delle azioni di coordinamento e di controllo tra aziende
che condividono una porzione di business.
- Sistemi Tecnici -
Sistemi informatici che supportano le attività aziendali legate allo sviluppo dei prodotti,
dalla progettazione alla loro effettiva produzione negli stabilimenti.
Diverse aziende producono beni su commessa (non serializzabili – software, impianti), la
cui realizzazione si basa su un progetto sviluppato per il cliente e prevede tempi
medio/lunghi. La fatturazione è innescata da stati di avanzamento del prodotto intermedi
(saldi lavori in corso su ordinazione). I sistemi per il trattamento delle commesse
consentono:
la definizione del piano di commessa, tempificazione, valutazione costi,
identificazione punti di avanzamento, consumo risorse;
analisi dell’avanzamento tramite il rilevamento periodico e visibilità di possibili
scostamenti;
analisi dei costi (materiale, servizi, personale);
interazione con i sistemi ERP per la gestione degli acquisti di beni o servizi legati
alla commessa, riconoscimento depositi, emissione fatture.
1.Scheduling di produzione
Attività orientata all’ottimizzazione del carico di produzione e delle spese per i materiali.
Vi sono sistemi elementari ERP che pianificano a capacità infinita, ma sistemi tecnici,
ovvero gli schedulatori di produzione, propongono piani d’uso delle risorse ottimizzati
nel breve periodo (elevata complessità dovuta ai vincoli).
2.CAD (Computer Aided Design)
CAD significa letteralmente progettazione assistita dal computer. Sono strumenti di
supporto alla progettazione: mettono a disposizione del progettista un insieme di
strumenti grafici e di procedure informatiche, permettendogli di concentrare gli sforzi di
progettazione nella fase creativa e nei compiti decisionali. I vantaggi sono il riutilizzo di
vecchi progetti, possibilità di visioni prospettiche diverse, vedere su più fronti il progetto.
L’investimento in sistemi CAD è adatto anche ad aziende di piccola dimensione, che
acquistano inizialmente i moduli base, con possibilità di espansione.
Nelle ultime generazioni di CAD l’abbreviazione dei tempi di sviluppo viene ottenuta
tramite soluzioni che supportano:
progettazione concorrente: gruppi di persone lavorano contemporaneamente alla
progettazione integrata. L’obiettivo è far emergere tutte le esigenze nella fase
progettuale;
- Sistemi di ufficio/organizzazione –
Automazione di ufficio
Strumenti di supporto alle attività tipiche dei ruoli impiegatizi, fortemente destrutturate
(redazione lettere o relazioni), o che hanno carattere di frammentarietà, scarsa
frequenza e imprevedibilità (report e grafici).
I più diffusi sono gli elaboratori di testo, i fogli di calcolo, presentazioni, sistemi di
comunicazione (email e instant messenger), organizer.
Gestione elettronica documentale
La documentazione cresce nel tempo, con costi di archiviazione e tempi di ricerca
crescenti.
L’aumento di disponibilità della memoria di massa a prezzi contenuti ha favorito la
diffusione di sistemi informatici per la gestione documentale. Questi sistemi permettono la
memorizzazione dei documenti in forma elettronica, per poi eseguire un processo di
classificazione e l’applicazione di funzioni quali l’autorizzazione o la garanzia di non
modificabilità.
Document flow e workflow
i sistemi per la gestione del workflow e del document flow servono proprio a definire,
consolidare e rendere disponibili a tutto il personale aziendale gli iter previsti per la
gestione di questo genere di processi. si basano sull’identificazione delle persone che
operano all’interno dell’azienda e sui ruoli che queste ricoprono. Mappano i percorsi
decisionali ed esecutivi corrispondenti agli eventi che possono presentarsi nella vita
aziendale. Inoltre possono seguire l’evolvere di un evento.
I sistemi di document flow hanno per oggetto il documento (foglio di convocazione della
riunione), seguendone i percorsi; i sistemi di workflow esprimono le relazioni tra chi agisce
e i compiti che devono essere eseguiti (flusso di lavoro in cui un passaggio è una
riunione).
Strumenti per il lavoro collaborativo
Diffusione nuova categoria di prodotti software il cui scopo è facilitare e stimolare la
comunicazione tra le persone (email – classica -, portali intranet, canali a banda larga
permettono teleconferenze e condivisione documenti).
(12)SISTEMI INFORMAZIONALI
l’obiettivo principale dei sistemi informativi è sfruttare il patrimonio dei dati, acquisiti tramite
i flussi operazionali e utilizzati prevalentemente come supporto alle attività operative, per
l’identificazione di informazioni di utilità nel processo decisionale.
I primi strumenti di supporto alle decisioni sono stati sistemi di reporting realizzati sulla
base dei sistemi operazionali (aggiunta poi dei fogli elettronici).
I limiti del report: staticità dei dati estratti, difficoltà e lentezza dell’iter di realizzazione
(attesa di ore se sistema interno, giorni se terza parte), parzialità (si prendono in
considerazione solo dati attuali).
I limiti dei fogli elettronici: macchinosità (estrazione e inserimento dati), scarso controllo dei
dati, proliferazione di strumenti di calcolo personalizzati e incontrollati, complessità
strutturale del database operazionale (vastità).
Oltre, sia i fogli elettronici che il rapporto non sono adeguati per analizzare elevate
quantità di dati.
I sistemi operazionali non sono adatti all’estrazione dell’informazione perché loro obiettivo
primario all’ottimizzazione dei flussi operativi.
Data warehouse: I dati informazionali, raccoglie in un unico magazzino tutti i dati di
interesse per l’azienda e relativi alla sua attività di business, sintetizzandoli, integrandoli e
strutturandoli in modo tale da rendere agevole ed efficace la ricerca di informazioni.
Data warehousing: insieme di attività che porta alla definizione, costruzione e
mantenimento della struttura e delle informazioni nel data warehouse.
Decision support system (DSS): sistemi di supporto alle decisioni. Sono tutti quei sistemi
informatici che trovano utilizzo del processo decisionale come supporto all’estrazione delle
informazioni da basi di dati organizzate e alla loro presentazione (browser OLAP).
Data mining: gli strumenti e tecniche utilizzate per estrarre dei dati informazioni nascoste.
Business intelligence: insieme di attività orientate a estrarre informazioni dai dati di
business, solitamente quelli generati dei processi operativi aziendali.
Knowledge management.
Fatti
Eventi che accadono nell’ambito dell’attività di un’organizzazione perché questo intende
misurare per valutare le proprie prestazioni, per identificare possibili aree di intervento e
per seguire nel tempo la dinamica dell’attività. Caratteristiche di ogni fatto elementare:
Attributi che lo collocano nel tempo e nello spazio aziendale (dimensioni, fungono
da coordinate per reperire il fatto);
Misure
Caratteristiche numeriche del fatto, ne descrivono aspetti quantitativi rilevanti per l’analisi.
Sono espresse tramite valori numerici.
Misure calcolate
È possibile calcolare misure nuove tramite formule che richiamano misure esistenti. Tale
calcolo può avvenire al momento del popolamento della base di dati informazionale,
oppure run-time durante l’analisi, utilizzando i valori sulle misure effettive. Nel caso run-
time la misura viene detta calcolata. Trade-off più memoria ma analisi più pesante.
Aggregabilità delle misure
I dati sintetici sono ottenuti aggregando le misure corrispondenti a fatti elementari che
hanno le caratteristiche comuni specificate da chi conduce l’analisi. (* indica il totale del
campo. La misura giacenza non è additiva rispetto alle dimensioni tempo e articolo).
Le misure possono essere riconducibili alla tre seguenti tipologie di informazione:
Misure di livello: esprimono valori propri del fatto validi nel momenti in cui esso
viene registrato. Non sono mai additive rispetto alla dimensione temporale;
Misure unitarie: esprimono valori relativi a uno dei soggetti validi nel momento in cui
viene registrato il fatto. Non sono mai additive, ma aggregabili attraverso altri
operatori (no + quindi);
Misure di flusso: le più comuni nel data warehouse, sono valori complessivi degli
eventi rapportati a un intervallo temporale di riferimento. Si basano su attributi
propri del fatto e sono additive lungo qualsiasi dimensione.
Fatti senza misure proprie
Per alcuni fatti l’unico interesse è che si siano verificati (reclami).
Dimensioni
Insieme dei soggetti a cui vogliamo rapportare i fatti di analisi. Sono le coordinate del
sistema multidimensionale di memorizzazione dei fatti elementari, determinano la
granularità con cui è possibile misurare il fatto (+dimensioni + complessità + informazioni,
quindi nella costruzione delle basi di dati si cerca di ridurre alle poche essenziali).
Ogni dimensione è caratterizzata da un dominio costituito da un numero finito di elementi.
Quando il dominio è continuo (il peso), la dimensione deve essere calcolata applicando
dei criteri di classificazione dei fatti (definizione classi di peso).
Gerarchie
Ogni dimensione può essere la radice di una gerarchia di attributi utilizzati per aggregare i
fatti elementari memorizzati nell’ipercubo (cliente (dimensione) città-regione.stato
(gerarchia)).
Gli attributi presenti nelle gerarchie si chiamano attributi dimensionali.
L’analisi potrà poi essere condotta attraverso viste si riferiscono alle gerarchie (analisi
riguardo allo stato/alla regione). Per ogni ipercubo possono essere definite gerarchie su
tutte le dimensioni (sul tempo: trimestri, anni, mensilità).
Dimensioni opzionali
Nelle gerarchie gli attributi dimensionali possono essere opzionali, ovvero definiti per
alcuni elementi ma non per altri.
Gerarchie condivise
Le gerarchie sono solitamente invarianti rispetto ai fatti di analisi (gerarchie sul cliente
sono valide per analisi delle vendite, reclami). Inoltre, le gerarchie che hanno
Caratteristiche strutturali
1.Multidimensionalità: la dimensionalità è il numero di parametri che si devono fornire
per estrarre una specifica informazione. I sistemi informazionali sono multidimensionali,
ogni fatto è descritto da un’ennupla di valori, uno per ogni dimensione di base; l’insieme
delle ennuple di valori ammissibili forma lo spazio dei dati aziendali. L’analisi viene
condotta fissando valori per alcune dimensioni e ottenendo misure di sottospazi
accumunati dalle stesse caratteristiche.
2.Granularità: le informazioni devono poter essere visualizzate a diversi livelli di
aggregazione. La granularità misura il grado di sintesi delle informazioni rispetto agli eventi
su cui si basa. Il grado minimo di aggregazione (zero sintesi) è detto granularità
dell’ipercubo (comprende tutto). L’ipercubo ha granularità minima quando ogni fatto
corrisponde a un solo dato origine. Per limitare lo spazio occupato, il grado di
aggregazione base è solitamente maggiore del grado minimo (i fatti sono poi ottenuti
dall’elaborazione).
3.Arco temporale: la memorizzazione permanente dei dati storici è una delle funzioni
principali dei data warehouse, essenziali per l’analisi, ma inutili per le attività operative.
L’effettiva estensione dipende dal settore merceologico in cui l’azienda opera.
4.Profondità storica: ambiente operazionale valore corrente. Nei sistemi
informazionali le caratteristiche dei soggetti derivano dalle informazioni memorizzate sulle
strutture anagrafiche dei sistemi operazionali. I dati relativi alle dimensioni vengono
storicizzati, registrandone la variazioni nel tempo.
Caratteristiche funzionali
1.Integrazione dei dati: necessità di dare coerenza ai dati provenienti da diverse
applicazioni e a basi di dati progettate per scopi diversi. Il problema è rendere i dati
accessibili e omogenei riportandoli in un unico ambiente.
2.Accessibilità: facilità d’uso e velocità di risposta. Questi sistemi sono utilizzati da
persone con scarse competenze tecniche.
3.Flessibilità e sintesi: intesa come flessibilità di interrogazione: i sistemi informazionali
mettono a disposizione strumenti per effettuare analisi e non processi da seguire per
estrarre dati. L’utente deve poter articolare le richieste più varie, aggregare dati, essere
accompagnato nel processo di analisi. I livelli di aggregazione disponibili devono essere
molteplici.
4.Correttezza: è necessaria la massima correttezza dei dati. I dati necessari all’analisi
sono spesso poco rilevanti ai fini operazioni (scarsi controlli) e, se le fonti sono diverse, è
possibile che stesse entità siano registrate con informazioni diverse su diversi sistemi
(irriconoscibilità e trattamento diverso da parte del sistema).
5.Completezza: capacità del sistema informazionale di rappresentare tutti gli eventi
importanti per le analisi. Completezza riferita sia al modello (deve contenere l’intero
insieme di fatti necessari alle analisi che interessano l’azienda, e gli stessi fatti devono
essere strutturati in modo da contenere tutte le misure e articolare correttamente le
gerarchie dimensionali) sia alle istanze (popolamento del data warehouse effettuato con
tutti i dati necessari all’analisi).
inferiore ed è possibile definire data mart con estensioni temporali ridotte o con granularità
dei fatti minore se viene compiuta un’analisi di tendenza, non dettagliata.
(13)DATA WAREHOUSING
I sistemi di data warehousing rappresentano il nucleo di gran parte dei Decision Support
System, progettati per gestire grandi quantità di dati e fornire rapidamente informazioni,
rapporti e analisi di varia natura.
Oggi, con data warehouse si intende non solo la base di dati utilizzata come supporto
alle decisioni, ma più ampiamente un sistema composto anche dalle applicazioni che
servono per estrarre, analizzare e presentare i dati.
Anni ’80, OLTP (On-Line Technology Processing), nel 1993 OLAP (On-Line Analytical
Processing), termine adatto per identificare gli strumenti orientati a semplificare il processo
decisionale aziendale. Regole per classificare un prodotto come OLAP definizione
FASMI, ovvero le caratteristiche principali che rendono un sistema adatto all’analisi
interattiva dei dati:
Veloce (fast): il sistema deve riuscire a rispondere alle interrogazioni in media in 5
secondi. Velocità difficile da ottenere con grosse quantità di dati (soprattutto se
sono richiesti calcoli run-time);
Analitico (analytical): elaborare analisi statistiche in modo abbastanza semplice per
l’utente finale. Sistema OLAP deve dare la possibilità di eseguire nuovi calcoli
partendo dal risultato dei precedenti, fornire risposte a richieste specifiche,
rappresentare dati elaborati secondo diverse modalità (tabella, grafico, report)
senza che l’utente debba scrivere linee di codice.
Condiviso (shared): sistemi utilizzati da diversi utenti che condividono la base di dati
di analisi. Il sistema deve fornire la sicurezza affinché la riservatezza dei dati sia
garantita;
Multidimensionale (multidimensional): fornire una visione concettuale
multidimensionale dei dati;
Informativo (informational): contenere tutte le informazioni necessarie.
Gli strumenti di analisi OLAP devono integrarsi bene con i sistemi che forniscono i dati.
I sistemi di data warehousing sono articolati in modo molto complesso: costituiti da alcune
basi di dati, diverse per finalità, struttura e tipologia di dati contenuti.
L’elemento centrale è il data warehouse, a monte vi sono gli elementi che permettono la
trasformazione dei dati dalle sorgenti al modello multidimensionale progettato, a valle ci
sono gli eventuali data mart. Le soluzioni di data warehousing operano su due livelli (più
diffuse) creazione e gestione dello spazio delle informazioni aziendali (data warehouse) su
un database e su una piattaforma diverse da quella delle sorgenti dei dati. Quelle a tre
livelli prevedono la staging area. I sistemi a due livelli presentano il primo livello (sorgente
dei dati) e il secondo livello (aree di memorizzazione dei dati informazionali – data
warehouse e data mart).
Modelli concettuali
Solitamente viene realizzato un primo nucleo, attorno ai fatti di maggior interesse per
l’azienda, e da questo si procede poi per sviluppi successivi.
Esistenza di diversi modelli, modello adottato Dimensional Fact Model (DFM), un
modello multidimensionale grafico definito in funzione delle problematiche tipiche del data
warehousing. Descrive i fatti attorno a cui si struttura un data warehouse. Fornisce una
visione concettuale di alto livello, statica, di ogni fatto e delle dimensioni utilizzabili per le
analisi.
Nel DFM i fatti sono rappresentati tramite un rettangolo contenete il nome del fatto e le
misure di valutazione.
Vi sono poi le dimensioni di base (coordinate nello spazio multidimensionale),
rappresentate come circoletti con il nome della dimensione e collegati al fatto tramite archi.
Gli attributi descrittivi sono connotati con una linea. Le gerarchie rappresentano i diversi
modi in cui i fatti elementari possono essere aggregati: gli attributi dimensionali di base
definiscono la granularità dei fatti, mentre gli altri nodi definiscono i possibili diversi modi in
cui l’informazione può essere aggregata.
È possibile utilizzare il diagramma Entità-Relazione per descrivere un modello
multidimensionale dei dati, ma risulta sovradimensionato e poco leggibile per
rappresentare questo tipo di struttura dei dati.
Modelli logici
I dati si strutturano in forme multidimensionali, ognuna delle quali descrive un fatto di
interesse. Viene deciso quale DataBaseManagementSystem adottare. I dati soggetti ad
analisi possono essere memorizzati in:
Database relazionali, riportano il modello multidimensionale definito
concettualmente a un’articolazione di tabelle e relazioni tra tabelle (ogni tabella
memorizza dati di una certa natura);
Database multidimensionali, basati su strutture già intrinsecamente costruite come
ipercubi.
Le interrogazioni di elaborazione possono essere realizzate dai sistemi di indagine
richiamando:
Motori di database relazionali, interrogazioni formulate nel linguaggio standard SQL
(tramite query); ROLAP, struttura intrinsecamente multidimensionale dei fatti
realizzata completamente su database relazionali. Gli strumenti di interrogazione
agiscono tramite query SQL standard, con opportune funzioni di aggregazione. I
vantaggi sono la minor occupazione di spazio (occupato solo quello richiesto dai
dati istanziati), più diffusa conoscenza degli strumenti relazionali da parte degli
operatori (minor difficoltà di gestione delle fasi di costruzione e popolamento). Gli
svantaggi sono rappresentati dal fatto che l’esecuzione di query multidimensionali
su strutture dati relazionali è poco efficiente.
Motori multidimensionali, interrogazioni formulate nel linguaggio multidimensionale;
MOLAP, data warehouse memorizza i dati usando strutture intrinsecamente
multidimensionali: i dati vengono fisicamente memorizzati in vettori e l’accesso è di
tipo posizionale. Il sistema alloca una cella per ogni possibile combinazione dei
valori delle dimensioni e l’accesso a un fatto avviene in modo diretto, sulla base
delle coordinate fornite. Rappresenta una soluzione naturale per i data warehouse.
I problemi critici sono: occupazione di spazio (solo il 20% delle celle contiene
informazioni) e mancanza di standard.
Elaborazioni in cui il calcolo è eseguito sui computer client, tramite interrogazioni;
HOLAP (soluzione intermedia, hybrid), il data warehouse, che contiene tutti i fatti
elementari e le strutture informative legate alle dimensioni, viene realizzato su una
base di dati relazionale. Le aggregazioni di livello più alto e i data mart, invece,
sono archiviati in basi di dati multidimensionali (vi sono meno dati da aggregare e
l’utilizzo interattivo è più efficace).
3. Costellazione di fatti quando diverse tabelle dei fatti condividono alcune delle
tabelle dimensionali. è l’unico approccio da seguire quando vi sono più fatti da
analizzare che coinvolgono gli stessi soggetti.
In questi modelli è la disposizione degli oggetti coinvolti che cambia. Le tabelle delle
dimensioni (lookup table) contengono le informazioni su cui si basano le aggregazioni del
data warehouse.
La costruzione di un data mart consiste nella progettazione dei fatti che lo compongono,
nella loro integrazione all’interno del data warehouse, nella realizzazione delle procedure
di alimentazione che li popolano.
1. Analisi delle sorgenti a disposizione: capire quali sono i dati disponibili e verificare
se questi sono compatibili con i requisiti dell’utente. Comporre inoltre uno schema
concettuale unico e uniforme, che sarà il punto di riferimento nella progettazione
dell’alimentazione;
2. Progettazione concettuale degli schemi di fatto previsi nel data mart: per ogni fatto
vengono identificate misure e dimensioni, definiti gli eventuali limiti e progettate le
gerarchie utili all’analisi;
3. Progettazione logica e implementazione fisica dei fatti nel data warehouse:
decisione dettagli come gli schemi, la necessità di ipercubi, tipologia di
interrogazioni e volume stimato dei dati;
4. Progettazione dell’alimentazione: struttura delle procedure che estraggono i dati
dalle sorgenti (trasformazione, pulizia, correzione, caricamento sul data warehouse)
Le fasi di popolamento:
1. Estrazione dei dati essenziali all’analisi dalle diverse fonti. Tale operazione
definisce quali dati devono essere acquisiti (relativi sia ai fatti che alle dimensioni di
analisi) e come devono essere trattati gli eventi di origine (aggregati alla fonte o
estratti al massimo livello di dettaglio).
i dati estratti dalle fonti vengono memorizzati in un’area temporanea che funge da
area di lavoro per le fasi successive.
L’estrazione incrementale (dati prodotti o modificati dalle sorgenti nell’intervallo di
tempo decorso dall’ultimo aggiornamento del data warehouse) può avvenire:
Per le dimensioni: il modello multidimensionale assume che i valori degli attributi che
popolano le gerarchie siano statici, me le informazioni relative a questi elementi possono
essere soggette a variazioni nel tempo e dare vita alle gerarchie dinamiche.
Le soluzioni di base per le variazioni sulle dimensioni sono non fare nulla o aggiornare
l’elemento sovrascrivendo i valori esistenti con i valori correnti.
Le soluzioni più articolate (e più corrette): creare una nuova istanza dell’elemento variato e
associarla ai fatti che si verificano da oggi in avanti o crearla e inserire dei marcatori
temporali (non è ancorata solamente ai fatti).
(14)DATA MINING
gli strumenti messi a disposizione dagli analizzatori OLAP non sono sufficienti per
condurre profonde analisi sui dati: operano a supporto dei processi deduttivi dei decisori,
sviluppando percorsi di analisi a partire da ipotesi formulate dall’utente. Queste analisi
sono quindi vincolate ai presupposti da cui l’utente parte e in qualche modo limitate al suo
bagaglio cognitivo.
Gli strumenti di data mining servono per elevare il grado di obiettività e di precisione
dell’analisi, estraendola ad aspetti che altrimenti sarebbero sottovalutati o addirittura non
valutati.
Il data mining è l’attività volta a riconoscere automaticamente ed estrarre informazioni da
basi di dati di grandi dimensioni. Viene definito anche come il processo di scoperta della
conoscenza da basi di dati (Knowledge Discovery in Databases, KDD).
Passaggi elementari:
Pulizia dei dati: i dati devono avere il massimo grado di correttezza, quindi vengono
eliminate le inconsistenze e corretti gli errori;
Integrazione dei dati: fonti diverse ricondotte a un modello comune e integrate;
Selezione dei dati: solo i dati ritenuti utili vengono tenuti;
Trasformazione dei dati: renderli appropriati per l’attività di mining attraverso
riorganizzazioni o aggregazioni;
Data mining: processo vero e proprio di analisi, funzioni complesse che
scandagliano la base di dati ricercando condizioni notevoli;
Valutazione dei pattern: viene riportato tutto ciò che è notevole secondo le regole di
analisi, ma non sempre tutto ciò che è rilevato ha interesse, quindi vengono ridotte
le informazioni e individuate quelle interessanti;
Presentazione della conoscenza: le informazioni estratte dal sistema vengono
presentate attraverso strumenti grafici che diano un’impressione sul carico di
conoscenza apportato dall’estrazione.
Le prime fasi coincidono con le fasi di costruzione e popolamento dei sistemi di data
warehousing.
Processo di data mining intero insieme dei paesaggi illustrati. L’architettura del
sistema di data mining si appoggia alle seguenti componenti:
Data warehouse: la base di dati di analisi. Le funzioni di data mining operano su
una porzione dei dati (risultato di un’interrogazione multidimensionale sul data w);
Base di conoscenza (Knowledge Base): insieme di regole e conoscenze del
sistema “date per note”, utilizzate per guidare la ricerca e per filtrare i risultati
valutando l’effettivo interesse dei pattern rilevati dalle analisi;
Motore di data mining (Data Mining Engine): composto dall’intero insieme di
funzioni di analisi dei dati. al variare delle dimensioni della base di dati le funzioni
devono rispondere con tempi di computazione che variano linearmente;
Sistema di valutazione delle condizioni (Pattern Evaluation): interagisce con i
moduli di mining per focalizzare la ricerca sulle condizioni (pattern) interessanti;
Sistema di presentazione: interfaccia tramite la quale l’utente specifica quali
attività di mining intraprendere, dettaglia ulteriori informazioni per focalizzare la
ricerca, segue percorsi di esplorazione sui dati rilevati e visualizza in modalità
diverse gli elementi estratti in modo da facilitare la comprensione.
Un fattore molto importante dei sistemi di data mining è il modo in cui si integrano con il
sistema di data warehousing (possibilità che siano separati).
L’attività di mining può essere condotta tramite funzioni diverse, quindi ricondotta in due
macroclassi: il mining descrittivo, tramite il quale vengono estratte informazioni che
descrivono le proprietà generali dei dati, e il mining predittivo, che analizzando i dati
presenti determina regole generali e crea modelli da utilizzare per la predizione delle
tendenze nel futuro.
Le funzioni (ognuna permette di ricercare un certo tipo di informazione) sono riconducibili
alle seguenti tipologie di analisi:
Descrizione di classi e di concetti: descrivere gli elementi disponibili in termini
precisi e concisi. Un primo tipo di descrizione è l’analisi OLAP, in cui gli elementi di
analisi (fatti) vengono aggregati per descrivere il comportamento dei soggetti che
hanno caratteristiche comuni. Con il data mining si parla di concetto (astrazione dei
fatti e dei soggetti disponibili come informazione base del data warehouse) e di
classe (raggruppamento di elementi aventi stesse caratteristiche, non per forza
descritte da una gerarchia dimensionale, ma anche da regole dell’operatore).
Analisi associativa: scopre le regole associative identificando nella massa dei dati i
valori di attributi che si presentano insieme con elevata frequenza (se si verifica A,
B è probabile).
Tecniche di classificazione e predizione: utilizzate per costruire modelli che
permettono di ricondurre qualsiasi elemento di classe non nota a una classe nota
sulla base delle caratteristiche di suoi attributi o funzioni che consentono di stimare
il valore assunto da un attributo continuo (dai dati di un campione con
classificazione nota si derivano regole per la costruzione di un modello di
classificazione – rischio clienti sulla base degli insoluti generati).
Analisi del cluster: dati raggruppati in classi (cluster) sulla base della similitudine
(regole di similitudine determinate dal sistema sulla base dei valori assunti);
Analisi degli outlier: sono elementi che si discostano dal modello generale dei dati,
presentano qualche anomalia rispetto al profilo generale (spesso contengono dati
errati, ma possono portare alla luce anomalie). Questa analisi viene condotta
quando interessa rilevare l’eccezione (ricerca di frodi quindi utilizzo carte di credito,
intrusioni non autorizzate nei sistemi elettronici quindi orari insoliti, valutazione
efficienza impianti quindi tasso di produzione).
Analisi evolutiva dei dati: descrive il comportamento nel tempo degli elementi
sottoposti ad analisi, sottolineandone regolarità e tendenze (predire i
comportamenti futuri.
La generalizzazione è l’attività volta a dare una visione ad alto livello dei dati tramite
concetti che accorpano e riassumono le caratteristiche dei dati di base; gli elementi che un
utente può analizzare devono avere una numerosità limitata. Se la specifica indicata
dall’utente dà un insieme troppo numeroso, deve poter essere ulteriormente accorpato.
Un diffuso tipo di generalizzazione è costituito dalle aggregazioni OLAP; un secondo
metodo è l’induzione sugli attributi, che effettua in modo semiautomatico aggregazioni
sui dati di base a partire dai valori presenti sugli attributi e dalle informazioni riportate nella
base di conoscenza. Il secondo metodo astrae le caratteristiche comuni agli elementi
selezionandoli e aggregandoli seguendo due principi:
Se i valori di un attributo hanno un’elevata variabilità e non esiste un livello di
aggregazione gerarchica noto, l’attributo viene eliminato (inutile ai fini della
generalizzazione);
Se i valori di un attributo hanno un’elevata variabilità e esiste un livello di
aggregazione gerarchica noto, l’attributo viene sostituito dall’elemento superiore
nella gerarchia.
Il punto critico di questo secondo metodo è l’indicazione di quale sia un valore elevato di
variabilità definire un valore di soglia V per l’attributo (se i valori superano V si procede
alla generalizzazione) e definire un valore di soglia R per la relazione.
Caratterizzazione
Di tendenza descrivono i valori attorno a cui una certa misura si dispone.
Media, centro numerico di un insieme di valori veritiero se valori
omogenei;
Media pesata, riflette frequenza, importanza e significatività dei valori;
Mediana, tendenza centrale dei valori ordinandoli e restituendo il valore di
mezzo (se dispari), media dei due mediani (se pari);
Moda, valore che si rileva più frequentemente nei dati.
Di dispersione grado di differenziazione dei valori di una misura all’interno di una
classe (prima analisi analizzando valori min e max).
Varianza, somma del quadrato della distanza tra ciascun valore e il valore
medio, divisa per la numerosità (deviazione standard, quanto si
distribuiscono attorno al valore medio);
Confidenza, funzione della deviazione standard. Intervallo di valori intorno
alla media che ricadono all’interno di una probabilità data;
Percentili, limite al di sotto del quale ricade una certa % di dati;
Quartili.
Boxplot: per ogni classe i dati sono rappresentati da un rettangolo da cui si estendono due
linee. Gli estremi del rettangolo sono il primo e il terzo quartile (quindi l’altezza è l’IQR). Il
valore mediano è segnato con una linea, le linee esterne si estendono al min e al max.
Analisi associative
Identificare le condizioni che tendenzialmente si verificano contemporaneamente (articoli
venduti insieme). Individuare pattern che si ripetono su determinate condizioni e che
consentono di derivane la regola AB.
La significatività viene valutata in base alla confidenza: misura della certezza del pattern,
definita come la probabilità condizionata (p che un elemento che contiene A contenga
anche B). =elementi che contengono A e B/elementi contenenti A.
E in base al supporto: misura della frequenza con cui il pattern è stato identificato,
=percentuale degli elementi che soddisfano la regola del pattern rispetto al totale.
Le associazioni forti sono quelle per le quali il supporto è significativo e la confidenza è
elevata. Vengono confrontati con valor idi soglia impostati dall’utente. Le funzioni di mining
associativo ricercano le associazioni forti scandendo la base di dati alla ricerca delle
condizioni che abbiano supporto superiore alla soglia indicata e considerando solo quelle
che hanno il livello di confidenza superiore alla soglia indicata.
Mi sono poi altre tecniche applicate dopo l’identificazione delle regole forti:
Analisi vincolata da regole: associare determinate regole a un campione;
Analisi vincolata da valori;
Analisi di correlazione: individuazione correlazioni negative.
Meccanismi di clustering
Sono utilizzati, come i metodi di classificazione, per identificare elementi con
caratteristiche comuni. Il clustering ripartisce autonomamente gli elementi in classi
anonime e sulla base delle affinità rilevate tramite l’osservazione dei dati. Le classi sono
proposte all’utente come agglomerati spontanei di dati. I cluster devono presentare
massima similarità tra gli elementi appartenenti a una classe e minima similarità tra gli
elementi appartenenti a classi diverse.
Le tecniche:
Partizionamento: utente indica in quante classi ripartire i dati;
Classificazione gerarchica: aggregativa (sulla base di similitudini) o divisiva;
Valutazione della densità degli elementi: calcolo distanza tra gli elementi, cluster
sono identificati dalle zone dense.
Caratteristiche metodi di clustering:
Scalabilità: tempo di elaborazione tende a crescere esponenzialmente;