Sei sulla pagina 1di 36

lOMoARcPSD|5653239

Riassunti SIA - Riassunto Sistemi informativi aziendali -


Struttura e processi
Sistemi informativi aziendali_ (Università degli Studi di Trento)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da Federico Pinna (diosantissimo30@gmail.com)
lOMoARcPSD|5653239

(1) CONCETTI GENERALI SULL’INFORMATICA AZIENDALE


Informatica (derivato da informazione e automatica) indica il trattamento dell’informazione
con mezzi automatici. Risponde al bisogno di trasformare sempre più rapidamente,
economicamente e con sicurezza i dati in risultati, in vista di un loro sfruttamento.
Sistema informativo, ovvero l’insieme delle procedure e delle infrastrutture che
definiscono e supportano il fluire delle info all’interno di una struttura organizzativa.
ITC (Information and Communication Technology), comprende l’insieme delle tecnologie
riguardanti IT (informatica) e TLC (telecomunicazioni), che permettono il trattamento e lo
scambio di informazioni in formato digitale.

L’informatica è la scienza che più si correla con atre scienze.


Aree di utilizzo dell’informatica nelle aziende:
 Supporto operativo: sostituzione con lo strumento elettronico (pc) e mettendo a
disposizione procedure che guidano e facilitano i compiti esecutivi.
 Organizzativa: organizzazione del lavoro, dei processi e del fluire delle info, libera
risorse da attività automatizzabili, nuove esigenze aziendali;
 Di controllo: tenere sotto controllo gli eventi aziendali in modo quasi simultaneo al
loro verificarsi, registrazione permanente delle caratteristiche degli eventi (analisi
quantitative e politiche di controllo, processo decisionale favorito);
 Strategica: memorizzazione dati patrimonio dell’azienda e supporto processi di
trasformazione e comunicazione (visione strategica più ampia grazie alla quantità
dei dati).

Applicazione dell’informatica all’organizzazione aziendale  sistemi informativi aziendali.


L’obiettivo finale dei sistemi è la distribuzione di info alle persone che operano all’interno
dell’azienda nel momento in cui l’info è necessaria (procedure che permettono la raccolta
di dati, elaborazione e distribuzione).
Più si desidera controllare i processi aziendali maggiore sarà l’articolazione del sistema.

Presupposti costruzione sistema informativo aziendale:


 Identificazione dei fenomeni da rappresentare;
 Modalità attraverso cui rappresentare (memorizzazione e evoluzione temporale);
 Natura delle informazioni.

Classi di elementi che compongono il sistema:


 Dati: substrato dell’informazione, materia su cui si basa l’attività del sistema
informativo. Raccolta, memorizzazione, elaborazione, ottenimento informazioni. Il
modo in cui vengono rappresentati condiziona l’estrazione delle informazioni;
 Procedure: costituiscono la porzione dinamica del sistema. Azioni di rilevamento,
trasformano i dati, controllano, calcolano, distribuiscono le informazioni, permettono
l’interazione tra l’utente e il sistema informativo;
 Mezzi e strumenti necessari al trattamento e al trasferimento delle informazioni
(apparati elettronici).
I sistemi informativi aziendali sono quindi l’insieme dei dati, delle procedure, dei modelli
organizzativi e dei mezzi adottati per utilizzare l’informatica all’interno dell’azienda.
Il sistema è per sua natura dinamico, sottoposto a evoluzioni di fattori interni (integrazione
nuovi processi) e esterni (imposizione ai propri fornitori di sistemi digitali).

L’evoluzione deve avvenire in modo armonico, evitando squilibri.

I sistemi sono strumenti per diffondere la conoscenza all’interno dell’azienda. Le esigenze


delle persone all’interno dell’azienda si differenziano in base a:

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Livello di astrazione, ovvero il grado di sintesi delle informazioni richieste


(analitiche o sintetiche);
 Tempestività, necessità di conoscere gli eventi nel momento in cui si verificano;
 Livello di copertura, alcuni devono conoscere solamente una determinata area per
un determinato periodo, altre devono avere una visione più estesa.
L’informazione fluisce:
 Orizzontalmente, definendo e sincronizzando i processi operativi aziendali;
 Verticalmente, in flussi che riorganizzano ed elaborano i dati operativi raccolti
(avanzamento della produzione, tempi delle singole lavorazioni).

Fini dei sistemi informativi:


 Supporto operativo: informatizzare i flussi operativi, in modo da ridurre la
necessità di manodopera, velocizzare i processi e garantire elevati standard di
qualità dei dati automatizzando i controlli e guidando i flussi (riduzione costo del
lavoro meccanizzando procedure standardizzate, migliorare i processi rendendolo
omogenei e definiti, aumentare quantità e qualità dei dati raccolti);
 Pianificazione: i dati raccolti e memorizzati attraverso l’informazione dei processi
possono essere utilizzati per alimentare procedure di pianificazione;
 Controllo: quantità e immediata disponibilità dei dati consentono la definizione di
procedure di controllo efficaci (controllo può essere automatico).

È sbagliato pensare che il sistema informativo semplicemente meccanicizzi i processi


manuali: li ridefinisce (es. Bancomat evoluto nel tempo)  nascita concetto di business
process rengineering (BPR), ovvero la modificazione delle procedure aziendali e la
creazione di un processo continuo (evoluzione della tecnologia).

Oggetti su cui si concentra la spesa per IT: Hardware, Software, Servizi, Assistenza
tecnica.

I cambiamenti favoriti dall’introduzione di tecnologie informatiche in azienda:


 Riduzione dei ruoli impiegatizi (personale amministrativo/contabile);
 Riqualificazione dei ruoli;
 Riduzione ruoli di supporto (fogli di calcolo-calcolatrice, word-macchina da
scrivere);
 Revisione dei processi di front-office (ampliamento possibilità di contatto);
 Revisione del modello organizzativo, integrazione tra le diverse funzioni aziendali,
passaggio da struttura orientata alla funzione (modello di aggregazione basato
sulle attività e sull’affinità economico-tecnica), a una struttura orientata al processo
(flussi di lavoro).

(2) STRUTTURA DELL’AZIENDA E DEL SUO SISTEMA INFORMATIVO


L’esigenza informativa è relativa al tipo di attività che ogni persona deve compiere
all’interno dell’organizzazione

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Una rappresentazione efficace della classificazione dell’esigenza informativa è la


piramide di Anthony: man mano che si sale nel livello decisionale, la necessità di molte
informazioni dettagliate decresce, mentre cresce l’esigenza di avere poche informazioni
sintetiche di qualità che permettano l’adozione di decisioni strategiche corrette.
Tre livelli:
 Direzionale strategico, identifica gli obiettivi primari nei confronti del mercato;
 Direzionale tattico, si occupa dell’analisi economica, definendo le previsioni a
medio termine e verificandone l’attuazione, elabora i piani operativi (es. produz.);
 Operativo, attua i piani definiti occupandosi dello svolgimento delle attività.
Al salire del livello, i processi decisionali diventano sempre meno standardizzabili e
difficilmente riconducibili a procedure automatizzate. il decisore utilizza la propria base
cognitiva, data dalla sua esperienza e dalle informazioni, per formulare ipotesi,
ragionamenti, fino alla decisione.

Livelli direzionale strategico  informazioni sintetiche, diversificate, poco strutturate.


Richiesta un’elevata capacità di interpretazione. La pianificazione strategica opera: con
frequenza sporadica, dati sintetici, proveniente dall’interno e dall’esterno, con bassi
volumi.
Livello direzionale tattico  definizione di obiettivi a breve compatibili col piano strategico
aziendale e con il controllo periodico dei risultati ottenuti (controllo budget vendite). Le
informazioni sono ottenute da sintesi di dati estratti dai sistemi di supporto operativi (dati in
prevalenza interni), frequenza prefissata, volumi medi, dati analitici (se sintetici
strutturati).
I sistemi di supporto operativo hanno una struttura rigida e sono altamente procedurali.
1. I sistemi di supporto alle decisioni (informazionali) aiutano nella ricerca di
soluzioni a problemi non strutturati (no sequenza di passaggi fissata a priori);
2. I primi sono separati ma complementari ai sistemi di supporto alle attività
(operazionali), i quali alimentano con i propri dati i sistemi informazionali.
Sistemi operazionali
Costituiscono l’infrastruttura informatica su cui si appoggia l’attività esecutiva.
Le funzioni principali:
 Automazione di attività procedurali (redazione fatture);
 Supporto attività aziendali (conoscere disponibilità articolo);
 Raccolta di dati che permettano ai livelli decisionali il controllo dell’attività operativa;
 Guida per l’operatore, il quale segue procedure predefinite e controllate.

È un’entità estremamente articolata, scomposta in sottosistemi rivolti alla gestione e al


controllo di particolari aree.
Standardizzazione del contenuto e strutturazione dei flussiminimizzare gli errori e
ottenere rapidità.
L’informazione operazionale prevede l’accesso interattivo a dati puntuali, l’aggiornamento
della base di dati, selezione di dati per stato.
Sono fondamentali:
 Procedure, attraverso cui si definiscono i corretti flussi di informazione e si guidano
gli operatori;
 Base di dati, strutturata in modo da fornire buone prestazioni in relazione all’attività
svolta.
Sistemi informazionali
Devono supportare il processo decisionale seguendo i passaggi logici del decisore e
dandogli la possibilità di avere visioni diversamente organizzate dei dati.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Vengono richieste: informazioni sui risultati rispetto agli obiettivi; strumenti per il
confronto tra indicatori aziendali e ambiente; strumenti che facilitino il processo
decisionale (analisi, correlazioni).
Prevede: l’aggregazione di dati, la profondità temporale, la ricerca per argomento (es.
clienti. no evento), analisi multidimensionale (incrocio delle informazioni es. fatturato-
linea di prodotto).

Il punto focale è la base di dati, che assume esplicitamente il nome diverso di data
warehouse, magazzino di dati. Questo elemento deve essere:
 Strutturato per contenere tutti i dati che possano risultare utili;
 Strutturato per garantire bassi tempi di attesa fra interrogazione e risultati;
 Periodicamente aggiornato con dati coerenti, completi, corretti, attendibili;
 Permanente, l’esito di un’interrogazione deve essere sempre lo stesso;
 Facilmente interrogabile.
L’accesso dei dati è quasi sempre in sola lettura.

Col tempo sono sorte due diverse famiglie di sistemi con l’obbligo di separare
l’elaborazione di tipo analitico da quella legata alle transazioni:
1. OLTP (On Line Transaction Processing), trattamento delle transazioni, sistemi
organizzati per garantire la massima efficienza nella gestione dei processi operativi
aziendali. In pratica sono i sistemi operazionali, che puntano all’efficienza interattiva
nell’avanzamento dei processi;
2. OLAP (On Line Analytical Processing), insieme dei sottosistemi informativi
pensati per l’analisi interattiva dei dati. Devono garantire la massima efficienza
nell’elaborazione dei dati di sintesi e la massima flessibilità nelle interrogazione
(sistemi informazionali). Servono da supporto al processo decisionale.

(3) SCELTE ORGANIZZATIVE


Costruzione del sistema informativo
1 – opzione MAKE
costruzione interna del proprio sistema informativo, creazione di un gruppo di lavoro
interno all’azienda in grado di progettare, costruire e manutenere l’intero sistema.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Aspetti negativi:
 Costi fissi notevoli (necessità di uno staff interno);
 Investimenti consistenti (infrastruttura tecnologica);
 Struttura che non si confronta con il mercato;
 Soluzioni tendono a diventare obsolete;
 Tempi di soluzione lunghi per problemi complessi.
Aspetti positivi:
 Tempi di soluzione veloci per problemi banali;
 Mantenimento interno del know-how;
 Modelli organizzativi mappati in maniera puntuale (creazione sistema ad hoc).
Questa scelta oggi è limitata alla grande azienda.

2 – opzione BUY
acquisto del proprio sistema informativo da fornitori esterni, creazione di un piccolo gruppo
di lavoro aziendale in grado di gestire l’utenza interna e di interloquire tecnicamente con
l’esterno.
Aspetti negativi:
 Struttura interna ridotta e con costi fissi;
 Dipendenza da una struttura esterna (potere contrattuale software house notevole);
 Parte del know-how aziendale esce;
 Mancanza di proprietà del software, possesso della licenza d’uso;
 Possibilità di interventi diretti limitata (fornitore intermediario necessario);
 Modelli organizzativi mediati (fornitore elabora su indicazione);
 Difficoltà nell’interazione con più fornitori (hardware e altre componenti da fornitori
diversi).
Aspetti positivi:
 Aderenza al mercato e confronto con esso;
 Maggior flessibilità rispetto al make;
 Concentrazione sul core-business (e non sullo sviluppo del sistema);
 Parziale smobilizzazione degli investimenti (sviluppo non necessario).

3 – opzione OUTSOURCE
delega completa all’esterno di gestione e organizzazione del sistema informativo.
Aspetti di questa scelta:
o Costi variabili ma sensibilmente alti (non c’è uno staff, ma il costo è variabile);
o Totale smobilizzazione degli investimenti;
o Completo vincolo con il fornitore della soluzione;
o Maggiore flessibilità rispetto all’opzione make;
o Fuoriuscita di tutto il know-how;
o Perdita di controllo su una variabile critica del proprio modello org (sistema info);
o Possibilità di interventi diretti nulla;
o Aderenza al mercato e confronto con esso;
o Modelli organizzativi mediati (fornitore intermediario necessario).

Posizionamento del sistema informativo


Le figure professionali informatiche che operano all’interno di un’azienda dipendono al
grado di maturità informatica della stessa. Si possono considerare quattro livelli.
Livello 1
Fasi iniziali dell’automazione di un’azienda (solo le neo-costituite lo sono oggi). Il team
informatico è composto da poche persone con competenze molto diversificate, si
occupano di tutti i problemi e non esistono figure di responsabili.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Livello 2
Viene identificato un responsabile EDP (Electronic Data Processing) e lo staff viene diviso
in: assistenza tecnico-sistemistica; assistenza applicativa (supporto utenti); sviluppo nuove
applicazioni.
Livello 3
Riconoscimento di una Direzione che assume un ruolo strategico. Oltre al precedente
blocco operativo si crea una sezione che studia l’applicazione delle nuove tecnologie nei
vari ambiti dell’azienda.
Livello 4
Il settore (informatico) viene riconosciuto come un’entità che svolge attività per il resto
dell’azienda e si introducono altre funzioni (segreteria, pianificazione, privacy e sicurezza,
documentazione e standard, controllo dei budget e dei costi.

Il settore può essere di supporto amministrativo, aspetti di misurazione e controllo,


sistema utilizzato come archivio.
Servizio alle altre direzioni aziendali, rapporto diretto con la direzione d’azienda nella
definizione dei processi e nel riportare i risultati gestionali ottenuti.
Organizzazione. Identificazione apposita area che si occupa dell’organizzazione
complessiva d’azienda.

Interruzione del servizio informatico


Problematiche legate all’hardware. Interruzione del servizio e possibile perdita dei dati.
Due approcci per combattere i problemi si ricorre alla ridondanza: duplicazione parti
critiche del sistema in moda da garantire il funzionamento anche in caso di guasti.
Possibile sostituzione del disco guasto anche senza interrompere il funzionamento
dell’intero sistema. Se si guasta una parta non duplicabile (la RAM) il sistema si ferma.
Le copie degli archivi sono molto utili in caso di guasti.

Problematiche legate al software, sono quelle maggiori. L’unico rimedio è ridurre tali
problematiche a livelli probabilistici bassi o trascurabili. Raramente bloccano l’intera
attività, ma interferiscono con un processo di attività. Un’arma efficace è avere a
disposizione da parte del fornitore una struttura di supporto che possa correggere l’errore.

Problematiche legate ad azioni dolose. Possono causare interruzioni del servizio, furto di
denaro o di proprietà intellettuali o di informazioni riservate. Nessun sistema, se non
fisicamente isolato, è impenetrabile. I costi per violare sistemi correttamente protetti sono
notevoli.
Per riconoscere un utente ci si basa su: ciò che uno sa (psw), ciò che uno ha (chiavette
One Time Psw); ciò che uno è (caratteristica biometrica, impronta digitale).

(4) SISTEMI OPERAZIONALI


sono sistemi informativi orientati al trattamento delle attività quotidiane. Funzione
principale: elaborazione interattiva di transazioni, eventi di interesse e atti rilevanti per
l’azienda che si verificano in un determinato momento.
Finalità in 4 categorie:
1.registrazione delle transazioni (info: movimenti)
ovvero di tutte le operazioni elementari che rappresentano eventi che si manifestano in un
dato momento e che l’azienda ha interesse a memorizzare (ordini, prelievi magazzino).

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Possono essere semplici, quindi registrate solo all’interno del sistema informativo come un
semplice dato, o complesse, raggruppanti una serie di registrazioni elementari
(spedizione). Vi è una transazione per ogni passaggio di un’operazione (uscita,
lavorazione, rientro – esempio sull’outsourcing).

2.pianificazione e controllo delle operazioni (info: documenti di processo)


vengono utilizzate per razionalizzare l’attività e rendere più fluida la concatenazione tra
processi e per misurare la capacità aziendale di rispettare gli obiettivi fissati.
I sistemi informativi rendono possibile l’adozione di modelli complessi di pianificazione e
consente il monitoraggio continuo dello stato dei processi tramite l’analisi delle transazioni
di avanzamento registrate.
Le funzioni che realizzano questi processi si possono dividere in: procedure che elaborano
i piani, complesse poiché devono ottimizzare le risorse e sincronizzare i processi
(pianificazione); procedure che registrano i progressi (controllo); procedure che misurano
gli scostamenti (controllo).

3.organizzazione della conoscenza (info: anagrafiche)


archiviazione organizzata della conoscenza aziendale. Lo scopo è trattare in modo
centralizzato tutte le informazioni di supporto all’attività. Queste basi di conoscenza
aziendale, oltre alle registrazioni delle transazioni(1.), sono tutte le informazioni che vanno
sotto il nome di anagrafiche (personale, clienti, fornitori, prodotti). Rientrano nelle basi di
conoscenza anche le informazioni che definiscono relazioni tra informazioni anagrafiche
(composizione dei listini, strutture del piano dei conti).
Le informazioni mantenute dai sistemi operazionali hanno delle caratteristiche comuni:
 Strutturate, ovvero riconducibili a un insieme di caratteristiche predeterminate che
descrivono ogni elemento archiviato. La struttura dipende dal modello adottato
dall’azienda e dalle finalità della stessa (anagrafica personale non tiene conto del
colore degli occhi);
 Correlate, quindi informazioni collegate sono messe in evidenza.

4.elaborazione delle situazioni aziendali (info di stato anche derivate da mov e ana)
la sintesi di tutte le funzioni è la possibilità di elaborazione di indicatori dello stato corrente.
La conoscenza dello stato corrente permette ai decisori di agire sul sistema azienda
tramite leve opportune, generando eventi che lo guidino alla condizione di funzionamento
desiderata. Esempi indicatori di stato: giacenza magazzino, fatturato corrente. Tutte le
informazioni sintetiche e attuali in un ipotetico quadro di controllo aziendale.

L’informazione operativa viene mantenuta in forma organizzata all’interno di un archivio


virtualmente unitario. Le basi di dati su cui si sviluppa il sistema operazionale sono quasi
sempre di tipo relazionale: informazioni articolate in strutture diverse, tra loro correlate.
La natura delle informazioni operative riflette le finalità proprie del sistema operazionale.
Si distinguono categorie di informazione, omogenee per struttura, modalità di gestione e
destinazione d’uso:
 Movimenti, informazioni che registrano le transazioni avvenute, riportandone le
caratteristiche peculiari (data, entità, quantità);

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Documenti di processo, descrivono transazioni complesse, riferite quindi a liste di


articoli (ordine cliente, ordine di produzione). Documenti hanno info generali (testa)
e informazioni di dettaglio (righe);
 Informazioni di stato, descrivono la situazione corrente del sistema informativo,
quindi dell’azienda. Possono essere puntuali, oppure derivate da elaborazioni di
info anagrafiche e di movimenti. I dati di stato non rimangono più memorizzati
nell’archivio, ma sono calcolate run-time, al momento della richiesta;
 Informazioni anagrafiche, base di conoscenza organizzata, descrivono entità con
caratteristiche fisse o soggette a rari cambiamenti nel tempo (prodotti, macchinari,
materiale, attori).

Qualità dei dati: possesso della totalità delle caratteristiche che portano al soddisfacimento
delle esigenze, esplicite o implicite, dell’utente.
Il sistema informativo è una mappatura degli eventi che accadono nel mondo reale
incrociati con i dati memorizzati all’interno del sistema. Gli utenti agiscono sulla base delle
informazioni ottenute dal sistema; la qualità dei dati è tanto più elevata quanto più il
sistema fornisce rappresentazioni degli eventi vicine alla percezione della realtà.
La qualità dipende quindi da come è stato progettato il sistema informativo, in particolare
da come è stata articolata la struttura dei dati e dal sistema di alimentazione degli stessi.

Caratteristiche fondamentali delle informazioni operative


Strutturali
Ogni diverso tipo di informazione operativa ha caratteristiche proprie:
 Per livello di aggregazione, cioè per grado di sintesi delle informazioni rispetto agli
eventi che registra. Informazione analitica (un evento, una registrazione) o
aggregata (elaborazione di dati);
 Per tempificazione, cioè per l’arco temporale cui l’informazione si riferisce. Puntuale
quando si riferisce a un certo momento, cumulativa quando si riferisce a un periodo;
 Per dimensionalità, cioè per il numero minimo di parametri che si devono fornire per
estrarre una specifica informazione.

Osservazioni scaturite dall’analisi delle caratteristiche strutturali:


 Le informazioni anagrafiche hanno livello di aggregazione unitario, dimensionalità
contenuta (basta codice identificativo), tempificazione puntuale (dati aggiornati
quando si verifica il cambiamento);
 Le informazioni di stato hanno livello di aggregazione maggiore di uno quando
forniscono misure (fatturato). Livello di aggregazione pari a uno quando lo stato
descrive una condizione (stato di blocco cliente per insoluto – informazione
analitica). Tempificazione puntuale se calcolate direttamente, cumulativa se
l’aggiornamento è periodico;
 I movimenti e i documenti hanno livello di aggregazione unitario, ogni registrazione
corrisponde a un solo evento. Tempificazione puntuale. Dimensionalità maggiore o
uguale a due.

Caratteristiche funzionali
I dati operativi hanno caratteristiche che incidono sul loro utilizzo, sulla possibilità e sulla
facilità di elaborare informazioni a partire dai dati grezzi.
Le caratteristiche funzionali più influenti sulla qualità del sistema operazionale sono:
 Completezza: estensione con cui vengono raccolte e memorizzate le informazioni
(più dettagli = più completo);
 Correttezza: corrispondenza tra dato e realtà. Condizionata dalla possibile
presenza di dati errati;

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Precisione: approssimazione con cui il dato rappresenta la realtà. Riguarda


soprattutto misure, valori numerici, misure riferite al tempo. La precisione richiesta
dipende dal contesto;
 Omogeneità: richiede che dati della stessa natura siano riportati sulla stessa
tipologia di struttura e vengano trattati con le stesse funzioni di accesso. La
disomogeneità influisce sulla possibilità di estrarre informazioni di insieme;
 Fruibilità: semplicità per l’utente di reperire, acquisire e comprendere le informazioni
disponibili in relazione alle proprie finalità.

Rappresentazione della realtà


I sistemi informativi sono entità dinamiche, soggette a modifiche e ristrutturazioni nel
tempo causate da reingegnerizzazione dei flussi e rese necessarie da spinte esterne
all’azienda o dalla volontà di ottimizzare i flussi esistenti.
L’evoluzione del sistema deve essere condizionata dalla sua attuale configurazione e
portare al risultato desiderato senza perdita di coerenza e di stabilità complessiva.
Gli aspetti di interesse dei sistemi sono documentati tramite la loro modellazione: la realtà
viene rappresentata utilizzando formalismi ben definiti che consentono di descriverne ad
alto livello l’organizzazione senza scendere in dettagli implementativi.
Esistono diversi modelli di rappresentazione dei dati:
1.modello concettuale: diagrammi Entità-Relazione (E-R)
permette di rappresentare graficamente le caratteristiche proprie delle entità gestite dal
sistema e le relazioni esistenti tra esse.
Entità
Rappresenta una classe di oggetti caratterizzata da proprietà comuni ed esistenza
autonoma nell’ambito del sistema da rappresentare (cliente, deposito, prodotto, banca,
dipendente).
Un singolo elemento della classe è detto istanza dell’entità: prodotto finito e materie prime
sono istanze dell’entità deposito. Negli schemi E-R le entità vengono rappresentate tramite
un rettangolo.
Relazioni
Rappresentano i legami logici esistenti tra entità. Ogni relazione è caratterizzata dal nome
che la descrive.
La relazione è ricorsiva quando le entità coinvolte coincidono (articolo utilizzato sia come
insieme che come componente).
Nei diagrammi ogni relazione viene rappresentata attraverso un rombo con il nome della
relazione all’interno.

Cardinalità
Attributo della connessione, specifica il numero minimo e il numero massimo di istanze
della relazione cui un’istanza dell’entità può partecipare.
Se la cardinalità minima è 0  relazione opzionale, possono esistere istanze non
coinvolte con essa (prodotto nuovo mai acquistato);
se la cardinalità minima è 1  relazione obbligatoria, per ogni istanza di entità deve
esistere almeno un’istanza di relazione (relazione tra reparto e sede);
cardinalità massima: 1 oppure N.
Attributi
Le caratteristiche di interesse per il sistema vengono esplicitamente evidenziate e
prendono il nome di attributi. Un attributo associa a ciascuna istanza dell’entità un valore
appartenente all’insieme dei valori ammissibili per l’attributo. Possibilità macroattributo
(indirizzo ha via, località, cap). se l’attributo è opzionale o se può essere ripetuto,
l’indicazione della cardinalità può aumentare la precisione della rappresentazione.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Costruzione diagrammi E-R


Regole fondamentali nella costruzione:
 Un’entità può partecipare a più relazioni oppure può essere isolata;
 Una relazione deve coinvolgere almeno due entità;
 Le entità non sono mai direttamente collegate (se non tramite generalizzazione);
 Le relazioni non possono coinvolgere direttamente altre relazioni.
Criteri generali per rappresentare un concetto:
 Se descrive classi di oggetti con esistenza autonoma, oppure ha caratteristiche
significative per la realtà da rappresentare, il costrutto da utilizzare è l’entità (oggetti
realmente esistenti, ma anche voci contabili, turni);
 Se ha una struttura semplice e non possiede caratteristiche di esistenza in
autonomia, può essere rappresentato come attributo dell’entità cui si riferisce
(informazioni descrittive);
 Se un concetto associa due o più entità e non possiede le caratteristiche delle
entità, questo può essere rappresentato come relazione (cliente seguito da un
agente);
 Se uno o più concetti sono casi particolari di un altro, il costrutto da utilizzare è la
generalizzazione.
La costruzione del diagramma E-R fornisce una descrizione formale dello spazio dei dati
di un sistema informativo. non è esaustiva perché altre informazioni non strettamente
riconducibili a caratteristiche dell’entità non possono trovare rappresentazione.

I DBMS hanno la funzione di standardizzare l’accesso ai dati, permettendone la


condivisione tra le diverse procedure. Definiscono la l’organizzazione logica dei dati. Il
modello logico più idoneo alla rappresentazione dei dati operativi è quello relazionale.
In questo modello la base di dati è costituita da un insieme di tabelle, ciascuna memorizza
dati di una determinata natura (prodotti, movimenti di magazzino). Le colonne definiscono i
dati ospitati, le righe rappresentano le istanze. La particolarità del database relazionale
consiste nel poter definire relazioni tra i dati, collegando tra di loro informazioni
memorizzate su tabelle diverse tramite il valore in alcuni campi.
Vantaggi: semplicità, intuitività, memorizzazione informazione necessaria quindi
limitazione della ridondanza, sistema meno soggetto a errori accidentali, possibilità di
controllare dati altrimenti controllati dalle procedure (domini validi impediscono un
inserimento errato), controlli sulla congruenza legami tabelle (nella tabella magazzino
possono esserci solo prodotti presenti nella tabella codice articoli).
Il modello razionale è particolarmente adeguato per l’esecuzione delle seguenti procedure:
 Di alimentazione, funzioni di input, tramite le quali si inseriscono dati relativi a nuovi
eventi o si modificano dati preesistenti.;
 Di interrogazione, o di estrazione dei dati, cioè procedure che estraggono
informazioni sulla base di richieste da parte dell’operatore;
 Di elaborazione, cioè procedure che lavorano con funzioni complesse sui dati
memorizzati producendo informazioni di sintesi, modificando i dati esistenti,
originando nuovi flussi di dati.

Rappresentazione dei processi


I processi rappresentano la porzione dinamica dei sistemi informativi: sono composti da
una serie di attività elementari o complesse, collegate tra loro, che trasformano richieste o
dati in ingresso in dati e informazioni in uscita.
Il modello DFD (Data Flow Diagram) si basa su una formalizzazione grafica per
schematizzare i processi accentuando l’attenzione sui flussi di dati che transitano da un
passaggio del processo al successivo.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

È stato proposto in epoca lontana per rappresentare formalmente il flusso dei dati tra i
processi.
I DFD rappresentano un processo come un insieme di flussi funzionali interconnessi da
depositi di dati, mettendo in luce il concorso dei singoli passaggi elementari (o
sottoprocessi) nel trattamento delle informazioni e le dipendenze funzionali, causate
dall’informazione condivisa, che si creano tra un passaggio e i successivi.
Gli elementi principali:
 Agenti: elementi che producono o consumano dati nel sistema. solitamente sono
elementi esterni, viene utilizzato un rettangolo per rappresentarli;
 Depositi di dati: informazioni che il sistema mantiene. Ogni deposito è
rappresentato con due righe orizzontali parallele, tra le quali è indicato il nome del
deposito de dati;
 Processi: porzioni di sistema che trasformano i dati. Graficamente sono cerchi con il
nome (e una descrizione);
 Flussi: linee attraverso cui l’informazione si propaga. Graficamente sono linee
dotate di un nome che descrive l’azione da cui derivano.

Non devono esistere flussi diretti tra agenti, tra depositi, o tra deposito e agente (i depositi
sono elementi passivi, gli agenti interagiscono solo tramite i processi).
Gli elementi terminali del sistema possono essere solo agenti, depositi, consumatori
dell’informazione (no processi). I flussi di dati devono uscire.
Verificare attentamente i processi che non ricevono flussi di dati in ingresso (i processi
raramente producono propri dati).
Se vi sono diversi DFD, bisogna numerare i processi che si dettagliano in altri schemi
(riconoscimento).

(5 )SISTEMA ERP (ENTERPRISE RESOURCE PLANNING)


Fino ai primi anni ’90 i sistemi informativi erano articolati in isole informatiche autonome di
supporto a una particolare funzione aziendale. Ciò riflette lo sviluppo incrementale del
sistema informativo (tende a procedere per aree), la relativa rigidità nelle organizzazioni,
specializzazione dei produttori di software; ma anche problemi: l’eterogeneità dei sistemi
impone il trattamento di un grande quantitativo di dati, la separazione dei sottosistemi
implica un notevole sforzo informatico nella realizzazione di flussi d’insieme, l’autonomia
dei sottosistemi implica di memorizzare più volte le informazioni su diversi supporti, la
separazione rende difficile le visioni d’insieme dei dati.
La complessità dei sistemi a isole ha favorito la diffusione dei sistemi ERP, pianificazione
delle risorse dell’azienda, la cui principale funzione è il controllo e la gestione ottimale di
tutte le risorse utilizzate nei processi gestionali aziendali (fluire delle informazioni
all’interno dell’azienda.
Vi sono quindi attività routinarie e gestionali (avanzamento della produzione) e attività
interne all’azienda (registrazione e trattamento di eventi che hanno ripercussioni sulla
struttura interna).
I sistemi ERP sono sviluppati da un’unica software house, condividono una base di dati
comune e le procedure sono progettate per interagire e cooperare. Hanno quindi una

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

funzione unificante poiché le informazioni fluiscono immediatamente, senza passaggi di


conversione o elaborazione.
Inoltre sono anche sistemi informativi flessibili, in grado di assecondare l’azienda nei suoi
processi di evoluzione e di crescita. I primi sistemi gestionali erano rigidi nei confronti
dell’organizzazione aziendale, ma anche verso la piattaforma tecnologica (hardware).

I moderni ERP sono sistemi altamente configurabili, svincolati il più possibile


dall’organizzazione aziendale e dall’architettura che li sostiene. La flessibilità è garantita
anche dal fatto che sono articolati in più moduli indipendenti, ognuno dei quali copre
uno specifico ambito aziendale (acquisto e attivazione dei moduli in base alle necessità).
Il dominio tradizione dei sistemi ERP è costituito dalle aziende manifatturiere, per poi
aprirsi a varie tipologie grazie alle caratteristiche di configurabilità.

Scomposizione ERP per sistemi di base


1.Amministrazione
il flusso amministrativo/contabile è l’ambito di prima applicazione delle procedure
informatiche. I vincoli legislativi sono molto stretti e le procedure ben definite e articolate
in modo da poter lasciare poco spazio alle innovazioni o alla variabilità per settore.
Gli obiettivi mirano al supporto delle attività operative (registrazione transazioni,
produzione informazioni di sintesi – contabilità generale). Vi sono poi sottosistemi di
contabilità:
 Contabilità finanziaria: include sistemi che permettono di controllare i flussi
finanziari aziendali (pagamenti);
 Compensi a terzi: azienda funge da sostituto d’imposta versando imposte e ritenute
per altri soggetti;
 Cespiti: beni ammortizzabili, costituiscono parte del patrimonio aziendale;
altri sottoinsiemi orientati alla valutazione effettiva degli andamenti:
 Contabilità analitica: analisi economiche dell’andamento aziendale con definizione
di strutture (centri di costo, ovvero suddivisioni logiche dell’attività aziendale);
 Budget: permette di indicare gli obiettivi dell’azienda e redigere previsioni;
 Controllo di gestione: fornire tempestivamente una visione dello stato dell’azienda.

2.Logistica
le procedure appartenenti al flusso logistico si occupano del trattamento dei materiali
(definizione, movimentazione, analisi dei costi).
Funzioni:
 definizione dell’anagrafica degli articoli (informazioni associate ai prodotti che ne
permettano il riconoscimento e ne descrivano le caratteristiche operative);
 definizione del layout aziendale, ovvero la descrizione dei depositi in modo tale da
poter controllare, tramite movimenti di carico e scarico, la presenza di prodotti al
loro interno;
 movimentazione, ricostruire i flussi del materiale e mantenere una visione
aggiornata sulla giacenza all’interno dell’azienda. Ogni movimento indica, prodotto,
deposito, data, quantità, natura del movimento;
 valutazione dei costi dell’articolo, medio, FIFO, LIFO, standard, permettono
l’adozione di politiche di prezzi ragionate, valorizzazione del magazzino;
 valutazioni inventariali, procedure che permettono di conoscere le giacenze nei vari
depositi e associare un valore alla merce in magazzino.

3.Vendite
le procedure del flusso attivo costruiscono la catena di processi che permette all’azienda
di interagire col cliente. Gli attori principali sono i clienti. Le procedure:

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 definizione delle condizioni commerciali: prezzo, compensi agli intermediari, sconti.


I sistemi erp permettono la definizione dei listini, ma anche la gestione di condizioni
più sofisticate;
 processi di gestione dell’ordine cliente. Fasi dell’ordine
1. ricezione: inserimento con controlli sul cliente e sulle
condizioni commerciali applicate;
2. elaborazione: ordini confermati passano a questa
fase;
3. evasione: prelievo dal magazzino, piani di spedizione,
bolle di consegna, fatturazione;
4. analisi.

4.Acquisti
le procedure del flusso passivo costituiscono la catena di processi che permette
all’azienda l’interazione con i propri fornitori per l’approvvigionamento di materiali o per la
richiesta di lavorazioni o servizi esterni. Gli attori principali sono i fornitori. Le procedure:
 definizione delle condizioni commerciali: importare listini fornitori, calcolare i prezzi
sulla base delle condizioni di costo, decidere il fornitore più conveniente;
 processi di gestione dell’ordine fornitore: raccolta delle richieste di
approvvigionamento ed evasione periodica, sulla base delle urgenze o delle
quantità richieste;
1. raccolta delle richieste;
2. emissione;
3. evasione, ricezione merce e controllo qualità.

5.Produzione
uno dei sottosistemi più articolati degli ERP. Spesso, i produttori di ERP forniscono
sottosistemi di produzione verticalizzati per tipologie aziendali (metodologie e
problematiche legate a ciò che si produce). Il flusso produttivo copre:
 definizione dei dati tecnici: flussi operativi di produzione si basano su informazioni
che definiscono come un prodotto deve essere realizzato e con quali materiali;
1. descrizione della struttura di prodotto: quali e quanti sono i componenti
necessari per ottenere un certo prodotto (se complesso si descrive tramite
una struttura gerarchica;
2. descrizione delle risorse utilizzate: entità utilizzate per il processo produttivo;
3. descrizione del processo produttivo: come utilizzare le risorse dell’azienda;

 pianificazione della produzione: obiettivo primarioutilizzo ottimizzato delle risorse


aziendali (minimizzare i tempi morti di impianti e persone);
1. richieste di produzione;
2. disponibilità di magazzino, disponibilità di materie prime;
3. disponibilità di risorse interne ed esterne, personale e impianti hanno una
disponibilità limitata, numero e competenze.
La pianificazione è un’attività estremamente complessa che deve tenere in
considerazione una quantità rilevante di variabili e di limiti.
I sistemi ERP supportano i responsabili nella definizione dei piani di produzione,
con procedure di diverso livello di complessità.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Avanzamento e controllo della produzione, emissione di tutta la documentazione


necessaria ai processi produttivi. Fase di consuntivazione, permette di conoscere
l’effettivo stato degli impianti di produzione e del materiale prodotto. Registrazione
delle movimentazioni (prelievi di materie prime) e dell’avanzamento effettivo della
lavorazione.
Se la lavorazione è delegata a terze parti, l’avanzamento prevede un flusso di
informazioni che converge nel flusso passivo aziendale (acquisti).

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

(6)SISTEMI OPERAZIONALI COMPLEMENTARI

Sistemi di supporto primario all’ERP

1.controllo qualità
le certificazioni di qualità garantiscono che un’azienda operi seguendo processi ben definiti
che consentono di mantenere standard qualitativi elevati e costanti nel tempo del lavoro e
dei prodotti. L’azienda certificata deve descrivere tutti i processi aziendali e gli elementi
che concorrono a realizzarli.
I sistemi informatici di controllo qualità permettono il trattamento di:
 Informazioni sugli articoli da sottoporre al controllo qualità;
 Informazioni sulle aziende che forniscono prodotti, manodopera e servizi in dorma
continuativa all’azienda (fornitori certificati), che devono anch’essi aderire agli
standard qualitativi definiti per l’azienda;
 Informazioni sul personale, con piani di formazione;
 Informazioni sui dispositivi di misura, con pianificazione e registrazione degli esiti;
 Informazioni sulle macchine e sugli impianti di produzione, con pianificazione e
registrazione delle attività di manutenzione periodica;
 Controlli qualità al ricevimento della merce e durante la produzione, con
archiviazione delle informazioni sul controllo effettuato ed eventuale emissione di
rapporti di non conformità;
 Documenti di flusso (reclami dei clienti, seguiti da indagini e azioni correttive);
 Verifiche ispettive volte all’effettivo utilizzo delle procedure definite.
Punti di contatto tra sistemi di gestione del controllo qualità e sistema gestionale:
 Anagrafica di prodotti e fornitori;
 Flusso attivo (puntualità delle consegne) e flusso passivo (puntualità fornitori);
 Flusso produttivo (magazzino).

2.ricerca e sviluppo
in questa attività l’azienda investe una porzione delle proprie risorse in progetti legati
all’identificazione di nuovi prodotti da proporre sul mercato o di nuove tecnologie da
utilizzare nella produzione. Il principale supporto che l’informatica fornisce è il controllo
sui costi e sull’avanzamento del progetto, condotto tramite strumenti di project
management che permettono di definire piani di avanzamento, di monitorarne
l’evoluzione nel tempo e di valorizzare l’impegno.
I sistemi di project management devono essere integrati:
o Al sottosistema amministrativo dell’ERP per il controllo sugli investimenti pianificati
per la ricerca;
o Al sistema di gestione del personale per l’impegno di risorse sui progetti;
o Ai sistemi di gestione documentale e di workflow, per l’archiviazione e la
distribuzione dei documenti di progetto.
Vi sono strumenti dedicati anche allo sviluppo del progetto, come i sistemi CAD e CAE,
sistemi per la manutenzione della documentazione del prodotto (PDM e PLM). Tutti questi
sistemi si integrano tra di loro (compresi gli ERP).

3.Manutenzione impianti

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

obiettivi che un’azienda si pone nell’adozione di un sistema di supporto alla gestione della
manutenzione:
 Disporre di uno strumento centralizzato e omogeneo delle manutenzioni;
 Facilitare la pianificazione dei controlli (definire cadenza controlli);
 Supportare gli operatori nella gestione dei controlli e nella risoluzione dei guasti con
informazioni complete su natura e dislocazione degli elementi da controllare e sulle
procedure da seguire (riduzione dei tempi di intervento);
 Memorizzare in modo permanente informazioni su interventi effettuati (operatori,
materiali, durata, esito controlli).
I sistemi di manutenzione sono integrati con gli EPR per la contabilizzazione degli
interventi e l’indisponibilità degli impianti.

4.Risorse umane
sistemi per la gestione del personale, nati con funzioni (basate sulla rilevazione delle
presenze) per il computo di paghe e stipendi e per il calcolo dei contributi da versare.
Definizione della collocazione del personale, progettazione piani di formazione e crescita
professionale, mercato in entrata e in uscita.
Memorizzazione dati anagrafici, inquadramento, retribuzione; definizione dei ruoli e delle
competenze. Articolazione, quindi, dell’organigramma aziendale. Nelle PMI la gestione
amministrativo/contabile del personale è spesso delegata all’esterno, mentre la gestione
delle competenze viene effettuata internamente.

5.Sistemi di tesoreria
gestione controllata dei rapporti con gli istituti di credito (contenimento oneri finanziari e
massimizzazione interessi attivi, pianificazione investimenti).

Estensione dell’ERP (ERP II)


Spostamento di prospettiva aziendale dall’interno all’esterno.
Il termine ERP II accentua i rapporti di collaborazione operativa e strategica tra i diversi
partner:
1. l’ERP ha messo a disposizione un patrimonio informativo comune alle varie aree
aziendali, consentendo l’aumento dell’efficienza operativa interna dell’azienda;
2. l’ERP II estende la circolazione delle informazioni a interlocutori esterni, clienti e
aziende fornitrici o cooperanti, con benefici, in termini di tempi di comunicazione e
di correttezza delle informazioni trasmesse, che si traducono in un miglior servizio
al cliente.
gli strumenti principali dell’ERP II sono sistemi che ampliano verso l’esterno le
procedure tipiche degli ERP:
CRM (Customer Relationship Management)
I sistemi CMR danno un forte aiuto nella gestione di tutte le attività commerciali, di
marketing e di postvendita. Obiettivi:
 allargare il portafoglio dei clienti con l’apertura di canali informativi diretti (siti
informativi e call center);
 conoscere il mercato e i bisogni dei potenziali clienti;
 fidelizzare i clienti (servizi postvendita e azioni di marketing personalizzate).
I sistemi CRM raccolgono in forma organizzata le informazioni su clienti e prospect
(possibili clienti futuri), tramite azioni di rilevazione diretta condotte da personale o da
sistemi automatici, o mediante l’acquisto di basi di dati dall’esterno.
Le informazioni sono utilizzate: dagli agenti di vendita, per analisi sui processi di vendita
(valutazione incisività processo o singoli agenti), analisi iniziative mirate, approfondimento
conoscenza del mercato, gestione servizi postvendita, attuare iniziative postvendita.
I sistemi CRM si integrano con quelli ERP nei punti estremi del flusso attivo.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

E-commerce
Gestione di transazioni di vendita e di acquisto su Internet. Canale aggiuntivo, parallelo
alla rete di vendita tradizionale. Consiste nella fornitura diretta ai clienti di servizi e
informazioni, assicurata da applicazioni che gestiscono autonomamente la transazione,
senza l’intervento di intermediari.
B2B (Business to Business)  soluzioni orientata all’integrazione interaziendale
B2C (Business to Customer)  sistemi per mercato end-user.
Le differenze tra i due sono i listini, personalizzati da accordi commerciali per il primo tipo.
L’e-commerce richiede una forte integrazione con il sistema ERP e l’investimento in
infrastruttura informatica per garantire la sicurezza delle transazioni.
SCM (Supply Chain Management)
Una delle fasi più critiche nella gestione della catena del valore è la sincronizzazione del
fabbisogno dell’azienda con la disponibilità dei fornitori. Consegne in tempi garantiti
permettono di minimizzare la giacenza dei magazzini. I SCM sono articolati in processi
orientati alla previsione della domanda da parte del mercato e alla successiva
elaborazione di piani d’acquisto e di produzione. Questi sistemi sono strumenti per il
supporto della comunicazione e delle azioni di coordinamento e di controllo tra aziende
che condividono una porzione di business.

- Sistemi Tecnici -
Sistemi informatici che supportano le attività aziendali legate allo sviluppo dei prodotti,
dalla progettazione alla loro effettiva produzione negli stabilimenti.
Diverse aziende producono beni su commessa (non serializzabili – software, impianti), la
cui realizzazione si basa su un progetto sviluppato per il cliente e prevede tempi
medio/lunghi. La fatturazione è innescata da stati di avanzamento del prodotto intermedi
(saldi lavori in corso su ordinazione). I sistemi per il trattamento delle commesse
consentono:
 la definizione del piano di commessa, tempificazione, valutazione costi,
identificazione punti di avanzamento, consumo risorse;
 analisi dell’avanzamento tramite il rilevamento periodico e visibilità di possibili
scostamenti;
 analisi dei costi (materiale, servizi, personale);
 interazione con i sistemi ERP per la gestione degli acquisti di beni o servizi legati
alla commessa, riconoscimento depositi, emissione fatture.
1.Scheduling di produzione
Attività orientata all’ottimizzazione del carico di produzione e delle spese per i materiali.
Vi sono sistemi elementari ERP che pianificano a capacità infinita, ma sistemi tecnici,
ovvero gli schedulatori di produzione, propongono piani d’uso delle risorse ottimizzati
nel breve periodo (elevata complessità dovuta ai vincoli).
2.CAD (Computer Aided Design)
CAD significa letteralmente progettazione assistita dal computer. Sono strumenti di
supporto alla progettazione: mettono a disposizione del progettista un insieme di
strumenti grafici e di procedure informatiche, permettendogli di concentrare gli sforzi di
progettazione nella fase creativa e nei compiti decisionali. I vantaggi sono il riutilizzo di
vecchi progetti, possibilità di visioni prospettiche diverse, vedere su più fronti il progetto.
L’investimento in sistemi CAD è adatto anche ad aziende di piccola dimensione, che
acquistano inizialmente i moduli base, con possibilità di espansione.
Nelle ultime generazioni di CAD l’abbreviazione dei tempi di sviluppo viene ottenuta
tramite soluzioni che supportano:
 progettazione concorrente: gruppi di persone lavorano contemporaneamente alla
progettazione integrata. L’obiettivo è far emergere tutte le esigenze nella fase
progettuale;

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 virtual prototyping: oltre alla visione 3D vengono aggiunte funzioni di simulazione


dei processi in cui il prodotto è coinvolto;
 integrazione con i sistemi CAM, ERP, PDM.
CAE (Computer Aided Engineering)  sistemi che sommano alla parte progettuale altre
funzioni specifiche adatte alla progettazione in particolari ambiti (oggi integrati nei sistemi
CAD);
CAM (Computer Aided Manufacturing)  integra progettazione, programmazione della
produzione e programmazione di macchina operatrici;
CIM (Computer Integrated Manufacturing)  produzione computerizzata integrata,
indica un insieme di applicazioni e tecnologie che rende il processo produttivo altamente
automatizzato.

- Sistemi di ufficio/organizzazione –
Automazione di ufficio
Strumenti di supporto alle attività tipiche dei ruoli impiegatizi, fortemente destrutturate
(redazione lettere o relazioni), o che hanno carattere di frammentarietà, scarsa
frequenza e imprevedibilità (report e grafici).
I più diffusi sono gli elaboratori di testo, i fogli di calcolo, presentazioni, sistemi di
comunicazione (email e instant messenger), organizer.
Gestione elettronica documentale
La documentazione cresce nel tempo, con costi di archiviazione e tempi di ricerca
crescenti.
L’aumento di disponibilità della memoria di massa a prezzi contenuti ha favorito la
diffusione di sistemi informatici per la gestione documentale. Questi sistemi permettono la
memorizzazione dei documenti in forma elettronica, per poi eseguire un processo di
classificazione e l’applicazione di funzioni quali l’autorizzazione o la garanzia di non
modificabilità.
Document flow e workflow
i sistemi per la gestione del workflow e del document flow servono proprio a definire,
consolidare e rendere disponibili a tutto il personale aziendale gli iter previsti per la
gestione di questo genere di processi. si basano sull’identificazione delle persone che
operano all’interno dell’azienda e sui ruoli che queste ricoprono. Mappano i percorsi
decisionali ed esecutivi corrispondenti agli eventi che possono presentarsi nella vita
aziendale. Inoltre possono seguire l’evolvere di un evento.
I sistemi di document flow hanno per oggetto il documento (foglio di convocazione della
riunione), seguendone i percorsi; i sistemi di workflow esprimono le relazioni tra chi agisce
e i compiti che devono essere eseguiti (flusso di lavoro in cui un passaggio è una
riunione).
Strumenti per il lavoro collaborativo
Diffusione nuova categoria di prodotti software il cui scopo è facilitare e stimolare la
comunicazione tra le persone (email – classica -, portali intranet, canali a banda larga
permettono teleconferenze e condivisione documenti).

(12)SISTEMI INFORMAZIONALI

l’obiettivo principale dei sistemi informativi è sfruttare il patrimonio dei dati, acquisiti tramite
i flussi operazionali e utilizzati prevalentemente come supporto alle attività operative, per
l’identificazione di informazioni di utilità nel processo decisionale.
I primi strumenti di supporto alle decisioni sono stati sistemi di reporting realizzati sulla
base dei sistemi operazionali (aggiunta poi dei fogli elettronici).

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

I limiti del report: staticità dei dati estratti, difficoltà e lentezza dell’iter di realizzazione
(attesa di ore se sistema interno, giorni se terza parte), parzialità (si prendono in
considerazione solo dati attuali).
I limiti dei fogli elettronici: macchinosità (estrazione e inserimento dati), scarso controllo dei
dati, proliferazione di strumenti di calcolo personalizzati e incontrollati, complessità
strutturale del database operazionale (vastità).
Oltre, sia i fogli elettronici che il rapporto non sono adeguati per analizzare elevate
quantità di dati.

I sistemi informazionali rispondono all’esigenza di un’informazione più completa


(Interrogazioni più complesse). I sistemi informazionali facilitano l’analisi dei dati in cui:
 La base di dati comprende l’intero insieme di dati l’interesse per l’azienda (base di
dati operazionale e fonti esterne);
 I dati sono riorganizzati in modo tale da supportare al meglio le attività di analisi;
 La base di dati è intuitiva e mette in relazione i soli dati di interesse per l’analisi;
 Le fonti di dati sono integrate e i dati corretti e consistenti;
 Disponibilità strumenti di analisi con elaborazioni interattive e risposte rapide.

I sistemi operazionali non sono adatti all’estrazione dell’informazione perché loro obiettivo
primario all’ottimizzazione dei flussi operativi.
Data warehouse: I dati informazionali, raccoglie in un unico magazzino tutti i dati di
interesse per l’azienda e relativi alla sua attività di business, sintetizzandoli, integrandoli e
strutturandoli in modo tale da rendere agevole ed efficace la ricerca di informazioni.
Data warehousing: insieme di attività che porta alla definizione, costruzione e
mantenimento della struttura e delle informazioni nel data warehouse.
Decision support system (DSS): sistemi di supporto alle decisioni. Sono tutti quei sistemi
informatici che trovano utilizzo del processo decisionale come supporto all’estrazione delle
informazioni da basi di dati organizzate e alla loro presentazione (browser OLAP).
Data mining: gli strumenti e tecniche utilizzate per estrarre dei dati informazioni nascoste.
Business intelligence: insieme di attività orientate a estrarre informazioni dai dati di
business, solitamente quelli generati dei processi operativi aziendali.
Knowledge management.

Sistemi di data warehouse.


Sono costituiti dal data warehouse vero proprio e dalle procedure che lo utilizzano. Lo
scopo a tradurre e strutture dati operazionale con impieghi e modelli più disparati in
strutture dati omogenei, utilizzabili con profitto nei processi di analisi decisionale. Gli
strumenti di indagine tipici sono gli analizzatori OLAP (strumenti interattivi di analisi
guidata dalle ipotesi sui dati).

Sistemi di data mining


Lo scopo a portare la luce informazioni nascoste nei dati. Sono sistemi in grado di
elaborare quantità enormi di dati classificati secondo modelli anche complesse,
difficilmente trattabili interattivamente da una persona. Si basano sui dati del data
warehouse e sono efficaci in ambiti complessi: ambito commerciale (centri di distribuzione
analizzano preferenze acquisto clienti – carte fedeltà), ambito produttivo (reclami e non
conformità analizzati congiuntamente ai componenti utilizzati - frequenze guasti in
corrispondenza di certi materiali).

Caratteristiche dei dati ai fini informazionali


Punti di scostamento:

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Finalità: I sistemi operazionali hanno come fine l’esecuzione o il suo supporto di


attività correnti, quotidiane, mentre i sistemi informazionali forniscono il substrato
informativo al management nella conoscenza dell’azienda e loro sostengono nel
processo decisionale (descrizione del passato per decidere sul futuro).
 Struttura: I dati dei sistemi operazionali sono articolati attorno a funzioni, procedure
ed eventi, mentre il nucleo dei sistemi informazionali è il tema d’interesse per
l’analisi.
 Utenza e strumenti: sistemi operazionalipersonale esecutivo e primi livelli
management, necessità di strumenti che li guidino \ sistemi di supporto alle
decisioni (informazionali)manager, decisori, necessità di strumenti che li
seguano;
 Storicità dei dati: s.o.  valutazione dello stato corrente aziendale (sistema deve
essere aggiornato, dati storici fanno spazio a velocità di esecuzione) \ processo
decisionale  necessità di mettere in relazione i dati attuali con quelli storici per
conoscere tendere, rilevare problemi e valutare periodicità;
 Livello di dettaglio: s.o.  informazioni puntuali sull’oggetto trattato, livello di
dettaglio massimo \ s.i.  informazione dettagliata è inutile, dati aggregati che
permettano di cogliere forma dell’azienda ed evoluzione della sua attività. Servono
livelli diversi di aggregazione dei dati, indagare nei particolari e capire l’andamento
dell’azienda;
 Tipo di accesso: s.o.  tra le maggiori fonti di dati aziendali. L’accesso è interattivo,
prevede la raccolta e classificazione dei dati \ s.i.  lo scopo è la comprensione dei
dati e delle loro relazioni. Non producono alcun dato questi sistemi, ma
riorganizzano e analizzano dati generati da altri sistemi. L’accesso interattivo è in
sola lettura con processi di analisi che devono reperire rapidamente grandi quantità
di dati ed effettuare aggregazioni per presentare informazioni di sintesi.
Le basi di dati sono quindi differenti se rivolte ai sistemi operazionali o informazionali.

I sistemi informazionali si basano su una struttura dei dati multidimensionale, intuitiva,


facilmente interpretabile ed efficiente nelle ricerche e nelle operazioni di aggregazione e
disgregazione dei dati. Il principio è che il processo di analisi non si articola intorno alle
attività operative, ma intorno a temi descritti da soggetti e da relazioni quantificabili tra i
soggetti (abitudini d’acquisto dei clienti, margini redditività degli articoli).
L’analisi viene effettuata valutando in che misura il soggetto partecipa a eventi trattati
dall’azienda (evento=vendita registrata).
Il modello standard per la rappresentazione dei dati è l’ipercubo, una matrice
multidimensionale che permette di memorizzare di estrarre facilmente i dati relativi a una
classe di eventi. Elemento ottenuto specificando un valore per ogni possibile coordinata:
fatto elementare, che contiene misure numeriche che lo quantificano. Le coordinate
costituiscono le dimensioni di analisi dei fatti.
Esempio analisi economica: fatto=vendita; misure=quantità e importo; dimensioni=cliente
che ha acquistato il prodotto, articolo venduto, data di vendita.
Il modello multidimensionale organizza i dati nei termini delle dimensioni di analisi e di
interesse per l’azienda: intersezione di tutte le dimensioni produce una cella,
corrispondente al fatto elementare.

Fatti
Eventi che accadono nell’ambito dell’attività di un’organizzazione perché questo intende
misurare per valutare le proprie prestazioni, per identificare possibili aree di intervento e
per seguire nel tempo la dinamica dell’attività. Caratteristiche di ogni fatto elementare:
 Attributi che lo collocano nel tempo e nello spazio aziendale (dimensioni, fungono
da coordinate per reperire il fatto);

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Dato numerico (la misura) che ne quantifica l’apporto;


 Informazioni descrittive riferite al fatto e/o alle dimensioni;
è univocamente identificato dalla sua ennupla di coordinate dimensionali.

Misure
Caratteristiche numeriche del fatto, ne descrivono aspetti quantitativi rilevanti per l’analisi.
Sono espresse tramite valori numerici.
Misure calcolate
È possibile calcolare misure nuove tramite formule che richiamano misure esistenti. Tale
calcolo può avvenire al momento del popolamento della base di dati informazionale,
oppure run-time durante l’analisi, utilizzando i valori sulle misure effettive. Nel caso run-
time la misura viene detta calcolata. Trade-off più memoria ma analisi più pesante.
Aggregabilità delle misure
I dati sintetici sono ottenuti aggregando le misure corrispondenti a fatti elementari che
hanno le caratteristiche comuni specificate da chi conduce l’analisi. (* indica il totale del
campo. La misura giacenza non è additiva rispetto alle dimensioni tempo e articolo).
Le misure possono essere riconducibili alla tre seguenti tipologie di informazione:
 Misure di livello: esprimono valori propri del fatto validi nel momenti in cui esso
viene registrato. Non sono mai additive rispetto alla dimensione temporale;
 Misure unitarie: esprimono valori relativi a uno dei soggetti validi nel momento in cui
viene registrato il fatto. Non sono mai additive, ma aggregabili attraverso altri
operatori (no + quindi);
 Misure di flusso: le più comuni nel data warehouse, sono valori complessivi degli
eventi rapportati a un intervallo temporale di riferimento. Si basano su attributi
propri del fatto e sono additive lungo qualsiasi dimensione.
Fatti senza misure proprie
Per alcuni fatti l’unico interesse è che si siano verificati (reclami).

Dimensioni
Insieme dei soggetti a cui vogliamo rapportare i fatti di analisi. Sono le coordinate del
sistema multidimensionale di memorizzazione dei fatti elementari, determinano la
granularità con cui è possibile misurare il fatto (+dimensioni + complessità + informazioni,
quindi nella costruzione delle basi di dati si cerca di ridurre alle poche essenziali).
Ogni dimensione è caratterizzata da un dominio costituito da un numero finito di elementi.
Quando il dominio è continuo (il peso), la dimensione deve essere calcolata applicando
dei criteri di classificazione dei fatti (definizione classi di peso).

Gerarchie
Ogni dimensione può essere la radice di una gerarchia di attributi utilizzati per aggregare i
fatti elementari memorizzati nell’ipercubo (cliente (dimensione)  città-regione.stato
(gerarchia)).
Gli attributi presenti nelle gerarchie si chiamano attributi dimensionali.
L’analisi potrà poi essere condotta attraverso viste si riferiscono alle gerarchie (analisi
riguardo allo stato/alla regione). Per ogni ipercubo possono essere definite gerarchie su
tutte le dimensioni (sul tempo: trimestri, anni, mensilità).
Dimensioni opzionali
Nelle gerarchie gli attributi dimensionali possono essere opzionali, ovvero definiti per
alcuni elementi ma non per altri.
Gerarchie condivise
Le gerarchie sono solitamente invarianti rispetto ai fatti di analisi (gerarchie sul cliente
sono valide per analisi delle vendite, reclami). Inoltre, le gerarchie che hanno

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

un’applicabilità generale sono dette gerarchie condivise, la loro presenza porta


all’adozione di soluzioni particolari.

Caratteristiche strutturali
1.Multidimensionalità: la dimensionalità è il numero di parametri che si devono fornire
per estrarre una specifica informazione. I sistemi informazionali sono multidimensionali,
ogni fatto è descritto da un’ennupla di valori, uno per ogni dimensione di base; l’insieme
delle ennuple di valori ammissibili forma lo spazio dei dati aziendali. L’analisi viene
condotta fissando valori per alcune dimensioni e ottenendo misure di sottospazi
accumunati dalle stesse caratteristiche.
2.Granularità: le informazioni devono poter essere visualizzate a diversi livelli di
aggregazione. La granularità misura il grado di sintesi delle informazioni rispetto agli eventi
su cui si basa. Il grado minimo di aggregazione (zero sintesi) è detto granularità
dell’ipercubo (comprende tutto). L’ipercubo ha granularità minima quando ogni fatto
corrisponde a un solo dato origine. Per limitare lo spazio occupato, il grado di
aggregazione base è solitamente maggiore del grado minimo (i fatti sono poi ottenuti
dall’elaborazione).
3.Arco temporale: la memorizzazione permanente dei dati storici è una delle funzioni
principali dei data warehouse, essenziali per l’analisi, ma inutili per le attività operative.
L’effettiva estensione dipende dal settore merceologico in cui l’azienda opera.
4.Profondità storica: ambiente operazionale  valore corrente. Nei sistemi
informazionali le caratteristiche dei soggetti derivano dalle informazioni memorizzate sulle
strutture anagrafiche dei sistemi operazionali. I dati relativi alle dimensioni vengono
storicizzati, registrandone la variazioni nel tempo.

Caratteristiche funzionali
1.Integrazione dei dati: necessità di dare coerenza ai dati provenienti da diverse
applicazioni e a basi di dati progettate per scopi diversi. Il problema è rendere i dati
accessibili e omogenei riportandoli in un unico ambiente.
2.Accessibilità: facilità d’uso e velocità di risposta. Questi sistemi sono utilizzati da
persone con scarse competenze tecniche.
3.Flessibilità e sintesi: intesa come flessibilità di interrogazione: i sistemi informazionali
mettono a disposizione strumenti per effettuare analisi e non processi da seguire per
estrarre dati. L’utente deve poter articolare le richieste più varie, aggregare dati, essere
accompagnato nel processo di analisi. I livelli di aggregazione disponibili devono essere
molteplici.
4.Correttezza: è necessaria la massima correttezza dei dati. I dati necessari all’analisi
sono spesso poco rilevanti ai fini operazioni (scarsi controlli) e, se le fonti sono diverse, è
possibile che stesse entità siano registrate con informazioni diverse su diversi sistemi
(irriconoscibilità e trattamento diverso da parte del sistema).
5.Completezza: capacità del sistema informazionale di rappresentare tutti gli eventi
importanti per le analisi. Completezza riferita sia al modello (deve contenere l’intero
insieme di fatti necessari alle analisi che interessano l’azienda, e gli stessi fatti devono
essere strutturati in modo da contenere tutte le misure e articolare correttamente le
gerarchie dimensionali) sia alle istanze (popolamento del data warehouse effettuato con
tutti i dati necessari all’analisi).

Il data warehouse è quindi il magazzino unico, completo e consistente dell’informazione


aziendale, contiene dati articolati attorno a tutti i fatti di interesse aziendale, da cui è
possibile estrarre ogni ipercubo su cui basare le analisi.
Il data mart è un data warehouse tematico, derivato dal data warehouse aziendale
limitatatmente ai fatti che riguardano una certa area di indagine. Hanno una complessità

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

inferiore ed è possibile definire data mart con estensioni temporali ridotte o con granularità
dei fatti minore se viene compiuta un’analisi di tendenza, non dettagliata.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

(13)DATA WAREHOUSING
I sistemi di data warehousing rappresentano il nucleo di gran parte dei Decision Support
System, progettati per gestire grandi quantità di dati e fornire rapidamente informazioni,
rapporti e analisi di varia natura.
Oggi, con data warehouse si intende non solo la base di dati utilizzata come supporto
alle decisioni, ma più ampiamente un sistema composto anche dalle applicazioni che
servono per estrarre, analizzare e presentare i dati.
Anni ’80, OLTP (On-Line Technology Processing), nel 1993 OLAP (On-Line Analytical
Processing), termine adatto per identificare gli strumenti orientati a semplificare il processo
decisionale aziendale. Regole per classificare un prodotto come OLAP  definizione
FASMI, ovvero le caratteristiche principali che rendono un sistema adatto all’analisi
interattiva dei dati:
 Veloce (fast): il sistema deve riuscire a rispondere alle interrogazioni in media in 5
secondi. Velocità difficile da ottenere con grosse quantità di dati (soprattutto se
sono richiesti calcoli run-time);
 Analitico (analytical): elaborare analisi statistiche in modo abbastanza semplice per
l’utente finale. Sistema OLAP deve dare la possibilità di eseguire nuovi calcoli
partendo dal risultato dei precedenti, fornire risposte a richieste specifiche,
rappresentare dati elaborati secondo diverse modalità (tabella, grafico, report)
senza che l’utente debba scrivere linee di codice.
 Condiviso (shared): sistemi utilizzati da diversi utenti che condividono la base di dati
di analisi. Il sistema deve fornire la sicurezza affinché la riservatezza dei dati sia
garantita;
 Multidimensionale (multidimensional): fornire una visione concettuale
multidimensionale dei dati;
 Informativo (informational): contenere tutte le informazioni necessarie.
Gli strumenti di analisi OLAP devono integrarsi bene con i sistemi che forniscono i dati.

I sistemi di data warehousing sono articolati in modo molto complesso: costituiti da alcune
basi di dati, diverse per finalità, struttura e tipologia di dati contenuti.
L’elemento centrale è il data warehouse, a monte vi sono gli elementi che permettono la
trasformazione dei dati dalle sorgenti al modello multidimensionale progettato, a valle ci
sono gli eventuali data mart. Le soluzioni di data warehousing operano su due livelli (più
diffuse) creazione e gestione dello spazio delle informazioni aziendali (data warehouse) su
un database e su una piattaforma diverse da quella delle sorgenti dei dati. Quelle a tre
livelli prevedono la staging area. I sistemi a due livelli presentano il primo livello (sorgente
dei dati) e il secondo livello (aree di memorizzazione dei dati informazionali – data
warehouse e data mart).

Modelli concettuali
Solitamente viene realizzato un primo nucleo, attorno ai fatti di maggior interesse per
l’azienda, e da questo si procede poi per sviluppi successivi.
Esistenza di diversi modelli, modello adottato Dimensional Fact Model (DFM), un
modello multidimensionale grafico definito in funzione delle problematiche tipiche del data
warehousing. Descrive i fatti attorno a cui si struttura un data warehouse. Fornisce una
visione concettuale di alto livello, statica, di ogni fatto e delle dimensioni utilizzabili per le
analisi.
Nel DFM i fatti sono rappresentati tramite un rettangolo contenete il nome del fatto e le
misure di valutazione.
Vi sono poi le dimensioni di base (coordinate nello spazio multidimensionale),
rappresentate come circoletti con il nome della dimensione e collegati al fatto tramite archi.
Gli attributi descrittivi sono connotati con una linea. Le gerarchie rappresentano i diversi

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

modi in cui i fatti elementari possono essere aggregati: gli attributi dimensionali di base
definiscono la granularità dei fatti, mentre gli altri nodi definiscono i possibili diversi modi in
cui l’informazione può essere aggregata.
È possibile utilizzare il diagramma Entità-Relazione per descrivere un modello
multidimensionale dei dati, ma risulta sovradimensionato e poco leggibile per
rappresentare questo tipo di struttura dei dati.

Modelli logici
I dati si strutturano in forme multidimensionali, ognuna delle quali descrive un fatto di
interesse. Viene deciso quale DataBaseManagementSystem adottare. I dati soggetti ad
analisi possono essere memorizzati in:
 Database relazionali, riportano il modello multidimensionale definito
concettualmente a un’articolazione di tabelle e relazioni tra tabelle (ogni tabella
memorizza dati di una certa natura);
 Database multidimensionali, basati su strutture già intrinsecamente costruite come
ipercubi.
Le interrogazioni di elaborazione possono essere realizzate dai sistemi di indagine
richiamando:
 Motori di database relazionali, interrogazioni formulate nel linguaggio standard SQL
(tramite query); ROLAP, struttura intrinsecamente multidimensionale dei fatti
realizzata completamente su database relazionali. Gli strumenti di interrogazione
agiscono tramite query SQL standard, con opportune funzioni di aggregazione. I
vantaggi sono la minor occupazione di spazio (occupato solo quello richiesto dai
dati istanziati), più diffusa conoscenza degli strumenti relazionali da parte degli
operatori (minor difficoltà di gestione delle fasi di costruzione e popolamento). Gli
svantaggi sono rappresentati dal fatto che l’esecuzione di query multidimensionali
su strutture dati relazionali è poco efficiente.
 Motori multidimensionali, interrogazioni formulate nel linguaggio multidimensionale;
MOLAP, data warehouse memorizza i dati usando strutture intrinsecamente
multidimensionali: i dati vengono fisicamente memorizzati in vettori e l’accesso è di
tipo posizionale. Il sistema alloca una cella per ogni possibile combinazione dei
valori delle dimensioni e l’accesso a un fatto avviene in modo diretto, sulla base
delle coordinate fornite. Rappresenta una soluzione naturale per i data warehouse.
I problemi critici sono: occupazione di spazio (solo il 20% delle celle contiene
informazioni) e mancanza di standard.
 Elaborazioni in cui il calcolo è eseguito sui computer client, tramite interrogazioni;
HOLAP (soluzione intermedia, hybrid), il data warehouse, che contiene tutti i fatti
elementari e le strutture informative legate alle dimensioni, viene realizzato su una
base di dati relazionale. Le aggregazioni di livello più alto e i data mart, invece,
sono archiviati in basi di dati multidimensionali (vi sono meno dati da aggregare e
l’utilizzo interattivo è più efficace).

Schemi multidimensionali su basi di dati relazionali (esprimibili con tabelle)


Nelle soluzioni ROLAP e HOLAP la modellazione logica del data warehouse è basata
sullo schema a stella e sulle sue varianti.
1. Schema a stella traduce su una struttura relazionale uno schema di fatto: tabella
principale (dei fatti) memorizza un elemento per ogni fatto elementare. Gli elementi
dimensionali sono memorizzati nelle tabelle delle dimensioni.
2. Schema a fiocco di neve riduce la denormalizzazione delle tabelle delle
dimensioni esplicitando alcune delle dipendenze funzionali che caratterizzano le
gerarchie;

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

3. Costellazione di fatti quando diverse tabelle dei fatti condividono alcune delle
tabelle dimensionali. è l’unico approccio da seguire quando vi sono più fatti da
analizzare che coinvolgono gli stessi soggetti.
In questi modelli è la disposizione degli oggetti coinvolti che cambia. Le tabelle delle
dimensioni (lookup table) contengono le informazioni su cui si basano le aggregazioni del
data warehouse.

Ciclo di vita dei sistemi di data warehousing


Costruzione attraverso un approccio iterativo che prevede costruzione e popolamento di
un primo ipercubo di dati. poi ne nascono altri che vengono integrati. Il data warehouse
viene quindi costruito in modo incrementale, integrando progressivamente i fatti
d’interesse e rilasciando i data mart corrispondenti. Questo approccio è particolarmente
efficace poiché le aziende sono frenate nell’investimento in sistemi di supporto alle
decisioni (strumento utile, non necessario), e la costruzione progressiva è la soluzione
meno costosa, oltre a fornire risultati concreti su aree limitate in tempi brevi.
I singoli ipercubi possono essere realizzati successivamente, ma alcune decisioni relative
all’impianto del sistema devono essere prese fin dall’inizio, per costruire un’infrastruttura
adeguata allo sviluppo previsto e per impostare il modello del sistema.
L’identificazione delle basi di dati origine dei dati informazionali (fonti dati), l’identificazione
dell’architettura del sistema e del modello logico di sviluppo della base di dati e la
progettazione dell’infrastruttura informatica dedicata al sistema informazionale sono le
decisioni fondamentali da prendere.

La costruzione di un data mart consiste nella progettazione dei fatti che lo compongono,
nella loro integrazione all’interno del data warehouse, nella realizzazione delle procedure
di alimentazione che li popolano.
1. Analisi delle sorgenti a disposizione: capire quali sono i dati disponibili e verificare
se questi sono compatibili con i requisiti dell’utente. Comporre inoltre uno schema
concettuale unico e uniforme, che sarà il punto di riferimento nella progettazione
dell’alimentazione;
2. Progettazione concettuale degli schemi di fatto previsi nel data mart: per ogni fatto
vengono identificate misure e dimensioni, definiti gli eventuali limiti e progettate le
gerarchie utili all’analisi;
3. Progettazione logica e implementazione fisica dei fatti nel data warehouse:
decisione dettagli come gli schemi, la necessità di ipercubi, tipologia di
interrogazioni e volume stimato dei dati;
4. Progettazione dell’alimentazione: struttura delle procedure che estraggono i dati
dalle sorgenti (trasformazione, pulizia, correzione, caricamento sul data warehouse)

Le procedure di popolamento sono caratterizzate da una sequenza di fasi volte a


trasportare i dati dalle sorgenti alla struttura informazionale finale, in modo da
garantire la correttezza, la consistenza e la completezza.

Le fasi di popolamento:
1. Estrazione dei dati essenziali all’analisi dalle diverse fonti. Tale operazione
definisce quali dati devono essere acquisiti (relativi sia ai fatti che alle dimensioni di
analisi) e come devono essere trattati gli eventi di origine (aggregati alla fonte o
estratti al massimo livello di dettaglio).
i dati estratti dalle fonti vengono memorizzati in un’area temporanea che funge da
area di lavoro per le fasi successive.
L’estrazione incrementale (dati prodotti o modificati dalle sorgenti nell’intervallo di
tempo decorso dall’ultimo aggiornamento del data warehouse) può avvenire:

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 A tre livelli, estrazione automatizzata, guidata da


particolari funzioni o da procedure automatiche sulle
basi di dati operazionali;
 Periodicamente, prelevando dalle fonti tutti i dati
inseriti o modificati rispetto all’ultimo caricamento
(indicatore di ultima modifica-time stamp);
 Confronto diretto con la base di dati informazionale,
prendendo in considerazione tutti gli elementi della
sorgente (no time stamp).
2. Integrazione e trasformazione: i dati, prima di poter essere utilizzati, devono
essere integrati e resi omogenei rispetto al modello aziendale definito nella
progettazione del data warehouse. Queste fasi hanno una funzione normalizzatrice.
Principali azioni:
 Riconciliazione, dati provenienti da diverse fonti ma riferiti allo
stesso soggetto vengono messi in relazione dopo una verifica
su congruenza e omogeneità;
 Riconoscimento di duplicati, dati duplicati su fonti diverse
vengono ricondotti a un’unica istanza;
 Trasformazione di dati continui utilizzati come dimensioni in
parametrizzazioni discrete poiché le dimensioni di analisi
devono avere un dominio discreto e finito;
 Standardizzazione dei formati, i dati vengono modificati nel
formato previso per il data warehouse:
 Congiunzione e spezzamento di campi (Rossi spa
viene spezzata in due campi: rossi spa e spa);
 Standardizzazione di codici di classificazione;
 Standardizzazione formato dei dati.
3. Pulizia: applicazione analisi in grado di rilevare e possibilmente correggere le
situazioni che potrebbero essere critiche o condurre a errori (può precedere la fase
di trasformazione). L’obiettivo è l’innalzamento del livello di qualità dei dati
consolidati nel data warehouse. Errori rilevabili:
 Dati incompleti;
 Dati errati o incomprensibili;
 Dati inconsistenti sulla base di regole che indicano
quali campi devono essere messi in relazione e qual
è il risultato atteso (CAP e città non combaciano).
4. Caricamento dei dati: vengono attuate politiche di aggiornamento attraverso:
l’inserimento dei dati nuovi relativi ai fatti e agli attributi dimensionali
modifica dei dati già presenti sul sistema informazionale. Caricamento dall’esterno
verso l’interno (prima aggiornamento attributi dimensionali, per ultimi i fatti) 
necessità di rispettare i vincoli di dipendenza funzionale dettati dalla struttura dei
fatti.
Le politiche di aggiornamento
Definiscono “come” aggiornare i dati del data warehouse. Gli elementi da aggiornare sono
i fatti e le dimensioni.
I fatti corrispondono a eventi consolidati sui sistemi operazionali, che si suppone siano
controllati e non soggetti a ulteriori variazioni o eliminazioni: l’aggiornamento dei fatti
consiste nel solo inserimento di eventi nuovi.

Per le dimensioni: il modello multidimensionale assume che i valori degli attributi che
popolano le gerarchie siano statici, me le informazioni relative a questi elementi possono
essere soggette a variazioni nel tempo e dare vita alle gerarchie dinamiche.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Le soluzioni di base per le variazioni sulle dimensioni sono non fare nulla o aggiornare
l’elemento sovrascrivendo i valori esistenti con i valori correnti.
Le soluzioni più articolate (e più corrette): creare una nuova istanza dell’elemento variato e
associarla ai fatti che si verificano da oggi in avanti o crearla e inserire dei marcatori
temporali (non è ancorata solamente ai fatti).

Tecniche di analisi dei dati


Analisi OLAP: principale modalità di fruizione delle informazioni presenti sui data
software, consente di navigare sui dati esplorando interattivamente i fatti sulla base del
loro modello multidimensionale. Il paradigma base è l’esplorazione guidata dalle ipotesi,
ovvero l’utente formula un’ipotesi e inoltra una richiesta alla base di dati multidimensionale
per verificarla. L’azione e la ricerca sono sempre stimolate dall’utente. Gli utenti
costruiscono una sessione di analisi complessa in cui ciascun passaggio è conseguenza
dei risultati ottenuti al passaggio precedente. I risultati sono presentati in tabelle o grafici.
Principali operatori OLAP:
 Drill down (scavare), scendere verso un maggior dettaglio delle informazioni;
 Roll up (arrotolare), aggregare, avere visioni più sintetiche e generali con possibile
eliminazione di una delle dimensioni di analisi;
 Slice (affettare), limita l’insieme dei dati di analisi alla sola porzione ottenuta
fissando il valore per una delle dimensioni, concentrandosi su un iperpiano
dell’ipercubo;
 Dice (tagliare a cubetti), limita l’insieme dei dati ad una porzione caratterizzata da
valori prefissati in uno o più attributi dimensionali (selezione di un sottocubo);
 Pivot, ruotare l’ipercubo di analisi ridisponendo le dimensioni nell’esposizione dei
dati. permette di riorganizzare velocemente i dati per mettere in maggior evidenza
un certo soggetto di analisi.

Aree di applicazione nei sistemi aziendali


1. Flusso attivo (in particolare il venduto), qui si concentra l’attenzione nella fase
iniziale dello sviluppo di un progetto di data warehousing. Gli eventi transazionali su
cui basare la costruzione dei fatti sono i documenti che descrivono il flusso (fatture,
ordini);
2. Flusso passivo, valutazione dell’incidenza del costo degli articoli di acquisto,
ripartita sulle caratteristiche dei prodotti o dei fornitori. Analisi di confronto tra
fornitori;
3. Controllo di gestione, confronto dati ottenuti da diverse zone operative di
processo. Tipicamente vengono condotte analisi di marginalità su clienti o prodotti;
4. Logistica, descrizione delle attività sui depositi per comprendere meglio i flussi di
materiale. I fatti sono i movimenti di magazzino;
5. Produzione, indagare sui costi e sull’efficienza del processo produttivo in termini di
materiale e di risorse utilizzate nelle lavorazioni;
6. Controllo qualità, indagini di tipo analitico (reclami, manutenzioni) per
comprendere le caratteristiche di distribuzione e per misurarne il tempo di evasione;
7. CRM (Customer Relationship Management), interazione transazioni registrate
dal sistema ERP con i dati presenti nel sistema CRM. Gli ambiti di indagine sono
l’efficacia delle promozioni o la descrizione del servizio di assistenza ai clienti.
8. Personale, indagare sulle presenze o sulle retribuzioni delle persone impiegate in
azienda.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

(14)DATA MINING
gli strumenti messi a disposizione dagli analizzatori OLAP non sono sufficienti per
condurre profonde analisi sui dati: operano a supporto dei processi deduttivi dei decisori,
sviluppando percorsi di analisi a partire da ipotesi formulate dall’utente. Queste analisi
sono quindi vincolate ai presupposti da cui l’utente parte e in qualche modo limitate al suo
bagaglio cognitivo.
Gli strumenti di data mining servono per elevare il grado di obiettività e di precisione
dell’analisi, estraendola ad aspetti che altrimenti sarebbero sottovalutati o addirittura non
valutati.
Il data mining è l’attività volta a riconoscere automaticamente ed estrarre informazioni da
basi di dati di grandi dimensioni. Viene definito anche come il processo di scoperta della
conoscenza da basi di dati (Knowledge Discovery in Databases, KDD).
Passaggi elementari:
 Pulizia dei dati: i dati devono avere il massimo grado di correttezza, quindi vengono
eliminate le inconsistenze e corretti gli errori;
 Integrazione dei dati: fonti diverse ricondotte a un modello comune e integrate;
 Selezione dei dati: solo i dati ritenuti utili vengono tenuti;
 Trasformazione dei dati: renderli appropriati per l’attività di mining attraverso
riorganizzazioni o aggregazioni;
 Data mining: processo vero e proprio di analisi, funzioni complesse che
scandagliano la base di dati ricercando condizioni notevoli;
 Valutazione dei pattern: viene riportato tutto ciò che è notevole secondo le regole di
analisi, ma non sempre tutto ciò che è rilevato ha interesse, quindi vengono ridotte
le informazioni e individuate quelle interessanti;
 Presentazione della conoscenza: le informazioni estratte dal sistema vengono
presentate attraverso strumenti grafici che diano un’impressione sul carico di
conoscenza apportato dall’estrazione.
Le prime fasi coincidono con le fasi di costruzione e popolamento dei sistemi di data
warehousing.

Processo di data mining  intero insieme dei paesaggi illustrati. L’architettura del
sistema di data mining si appoggia alle seguenti componenti:
 Data warehouse: la base di dati di analisi. Le funzioni di data mining operano su
una porzione dei dati (risultato di un’interrogazione multidimensionale sul data w);
 Base di conoscenza (Knowledge Base): insieme di regole e conoscenze del
sistema “date per note”, utilizzate per guidare la ricerca e per filtrare i risultati
valutando l’effettivo interesse dei pattern rilevati dalle analisi;
 Motore di data mining (Data Mining Engine): composto dall’intero insieme di
funzioni di analisi dei dati. al variare delle dimensioni della base di dati le funzioni
devono rispondere con tempi di computazione che variano linearmente;
 Sistema di valutazione delle condizioni (Pattern Evaluation): interagisce con i
moduli di mining per focalizzare la ricerca sulle condizioni (pattern) interessanti;
 Sistema di presentazione: interfaccia tramite la quale l’utente specifica quali
attività di mining intraprendere, dettaglia ulteriori informazioni per focalizzare la
ricerca, segue percorsi di esplorazione sui dati rilevati e visualizza in modalità
diverse gli elementi estratti in modo da facilitare la comprensione.
Un fattore molto importante dei sistemi di data mining è il modo in cui si integrano con il
sistema di data warehousing (possibilità che siano separati).

Caratteristiche fondamentali sistemi di data mining:

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Scalabilità: capacità di elaborare le funzioni di analisi con tempi di risposta lineari


rispetto alla numerosità dei dati. si cerca di garantire tale requisito attraverso
l’elaborazione su più processori e su sistemi diversi;
 Interpretabilità: facilità con cui l’utente interagisce con l’interfaccia utente per
l’attivazione delle funzioni di analisi e per rappresentare le informazioni da queste
fornite.

L’attività di mining può essere condotta tramite funzioni diverse, quindi ricondotta in due
macroclassi: il mining descrittivo, tramite il quale vengono estratte informazioni che
descrivono le proprietà generali dei dati, e il mining predittivo, che analizzando i dati
presenti determina regole generali e crea modelli da utilizzare per la predizione delle
tendenze nel futuro.
Le funzioni (ognuna permette di ricercare un certo tipo di informazione) sono riconducibili
alle seguenti tipologie di analisi:
 Descrizione di classi e di concetti: descrivere gli elementi disponibili in termini
precisi e concisi. Un primo tipo di descrizione è l’analisi OLAP, in cui gli elementi di
analisi (fatti) vengono aggregati per descrivere il comportamento dei soggetti che
hanno caratteristiche comuni. Con il data mining si parla di concetto (astrazione dei
fatti e dei soggetti disponibili come informazione base del data warehouse) e di
classe (raggruppamento di elementi aventi stesse caratteristiche, non per forza
descritte da una gerarchia dimensionale, ma anche da regole dell’operatore).
 Analisi associativa: scopre le regole associative identificando nella massa dei dati i
valori di attributi che si presentano insieme con elevata frequenza (se si verifica A,
B è probabile).
 Tecniche di classificazione e predizione: utilizzate per costruire modelli che
permettono di ricondurre qualsiasi elemento di classe non nota a una classe nota
sulla base delle caratteristiche di suoi attributi o funzioni che consentono di stimare
il valore assunto da un attributo continuo (dai dati di un campione con
classificazione nota si derivano regole per la costruzione di un modello di
classificazione – rischio clienti sulla base degli insoluti generati).
 Analisi del cluster: dati raggruppati in classi (cluster) sulla base della similitudine
(regole di similitudine determinate dal sistema sulla base dei valori assunti);
 Analisi degli outlier: sono elementi che si discostano dal modello generale dei dati,
presentano qualche anomalia rispetto al profilo generale (spesso contengono dati
errati, ma possono portare alla luce anomalie). Questa analisi viene condotta
quando interessa rilevare l’eccezione (ricerca di frodi quindi utilizzo carte di credito,
intrusioni non autorizzate nei sistemi elettronici quindi orari insoliti, valutazione
efficienza impianti quindi tasso di produzione).
 Analisi evolutiva dei dati: descrive il comportamento nel tempo degli elementi
sottoposti ad analisi, sottolineandone regolarità e tendenze (predire i
comportamenti futuri.

L’utente effettua iterativamente interrogazioni di mining sul sistema, richiedendo analisi


che lo portino via via a una maggiore comprensione dei dati. in ogni analisi, l’utente deve
indicare:
1. Insieme dei dati di analisi che definisce la porzione dei dati da fornire in ingresso
alle funzioni di data mining. Circoscrivere l’insieme dei dati di partenza aiuta a

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

migliorare le prestazioni del sistema. è necessario indicare il cubo su cui


appoggiare l’analisi ed eventualmente specificare ulteriormente i fatti di interesse
tramite condizioni di slice o dice di cubo.
2. Tipo di informazioni da ricercare scegliendo, tra le funzioni disponibili, quella che
si presta meglio al suo obiettivo di conoscenza (descrittivo, di classificazione,
predittivo o di analisi delle eccezioni).
3. Misure di interesse dei pattern (condizioni). Anche se l’insieme dei dati di analisi
è limitato (1.), gli elementi in uscita possono essere molto numerosi e solo alcuni
sono di effettivo interesse per l’analisi. Questo passaggio di post-processing
permette di identificare i pattern su cui focalizzare l’attenzione. Aspetti
caratterizzanti di un pattern interessante:
 Novità, informazione nuova, non conosciuta
(omissione informazioni ridondanti);
 Semplicità, definizione misure oggettive che
indicano il grado di semplicità di un pattern
(lunghezza formula);
 Certezza, regola definita dal pattern deve
essere valida anche sui dati nuovi o diversi,
può essere misurata oggettivamente (analisi
associativa);
 Utilità, regola identificata deve avere un’utilità
potenziale per il decisore. Il supporto è una
misura obiettiva dell’utilità (contributo %).
4. Base di conoscenza. Alcuni parametri utili nella discriminazione dei pattern
dipendono dalla struttura dei dati, dalle regole aziendali e dall’esperienza di chi
conduce l’analisi. Questi parametri devono essere descritti all’interno di una base
di dati dedicata, la base di conoscenza, sotto forma di regole, di soglie o di
relazioni tra elementi. I pattern che esprimono conoscenze note non vengono
visualizzati al termine dell’elaborazione; casi più significativi di conoscenza nota
sono le gerarchie logiche che nei sistemi di data mining possono essere:
 Strutturali, derivano dalle relazioni esistenti
all’interno della struttura dimensionale del data
warehouse;
 Di raggruppamento, definite su un particolare
attributo per organizzarne i valori o per darne
viste gerarchiche alternative;
 Derivate, costruite e trattate dalle funzioni di
data mining;
 Basate su regole, sono di tipo logico e non
sono descritte da valori, ma da regole che
vengono valutate dinamicamente (valore
fatturato cliente supera un valore e diviene
Importante).

5. Visualizzazione del pattern secondo diversi paradigmi può aiutare ad individuare


condizioni interessanti nascoste in alcuni tipi di visualizzazione. Gli alberi di
decisione si utilizzano nell’analisi di classificazione, gli elenchi di regole nelle analisi
associative, i diagrammi di dispersione nelle analisi di clustering.

La generalizzazione è l’attività volta a dare una visione ad alto livello dei dati tramite
concetti che accorpano e riassumono le caratteristiche dei dati di base; gli elementi che un

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

utente può analizzare devono avere una numerosità limitata. Se la specifica indicata
dall’utente dà un insieme troppo numeroso, deve poter essere ulteriormente accorpato.
Un diffuso tipo di generalizzazione è costituito dalle aggregazioni OLAP; un secondo
metodo è l’induzione sugli attributi, che effettua in modo semiautomatico aggregazioni
sui dati di base a partire dai valori presenti sugli attributi e dalle informazioni riportate nella
base di conoscenza. Il secondo metodo astrae le caratteristiche comuni agli elementi
selezionandoli e aggregandoli seguendo due principi:
 Se i valori di un attributo hanno un’elevata variabilità e non esiste un livello di
aggregazione gerarchica noto, l’attributo viene eliminato (inutile ai fini della
generalizzazione);
 Se i valori di un attributo hanno un’elevata variabilità e esiste un livello di
aggregazione gerarchica noto, l’attributo viene sostituito dall’elemento superiore
nella gerarchia.
Il punto critico di questo secondo metodo è l’indicazione di quale sia un valore elevato di
variabilità  definire un valore di soglia V per l’attributo (se i valori superano V si procede
alla generalizzazione) e definire un valore di soglia R per la relazione.

Caratterizzazione
Di tendenza  descrivono i valori attorno a cui una certa misura si dispone.
 Media, centro numerico di un insieme di valori veritiero se valori
omogenei;
 Media pesata, riflette frequenza, importanza e significatività dei valori;
 Mediana, tendenza centrale dei valori ordinandoli e restituendo il valore di
mezzo (se dispari), media dei due mediani (se pari);
 Moda, valore che si rileva più frequentemente nei dati.
Di dispersione  grado di differenziazione dei valori di una misura all’interno di una
classe (prima analisi analizzando valori min e max).
 Varianza, somma del quadrato della distanza tra ciascun valore e il valore
medio, divisa per la numerosità (deviazione standard, quanto si
distribuiscono attorno al valore medio);
 Confidenza, funzione della deviazione standard. Intervallo di valori intorno
alla media che ricadono all’interno di una probabilità data;
 Percentili, limite al di sotto del quale ricade una certa % di dati;
 Quartili.
Boxplot: per ogni classe i dati sono rappresentati da un rettangolo da cui si estendono due
linee. Gli estremi del rettangolo sono il primo e il terzo quartile (quindi l’altezza è l’IQR). Il
valore mediano è segnato con una linea, le linee esterne si estendono al min e al max.

Nella discriminazione le caratteristiche di una classe vengono messe a confronto con


quelle di classi diverse, ma paragonabili.
Gli strumenti per la rappresentazione grafica principali sono:
 Istogramma di frequenza: valori assunti da una variabile tramite una serie di
rettangoli che forniscono il conteggio o la frequenza di dati che rappresentano una
singola classe;
 Plot quantile: dati ordinati in senso crescente rappresentati da un punto (x=quantile)
(y=valore assunto nella distribuzione). Valutazione tendenze e anomalie;
 Scatter plot.

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

Analisi associative
Identificare le condizioni che tendenzialmente si verificano contemporaneamente (articoli
venduti insieme). Individuare pattern che si ripetono su determinate condizioni e che
consentono di derivane la regola AB.
La significatività viene valutata in base alla confidenza: misura della certezza del pattern,
definita come la probabilità condizionata (p che un elemento che contiene A contenga
anche B). =elementi che contengono A e B/elementi contenenti A.
E in base al supporto: misura della frequenza con cui il pattern è stato identificato,
=percentuale degli elementi che soddisfano la regola del pattern rispetto al totale.
Le associazioni forti sono quelle per le quali il supporto è significativo e la confidenza è
elevata. Vengono confrontati con valor idi soglia impostati dall’utente. Le funzioni di mining
associativo ricercano le associazioni forti scandendo la base di dati alla ricerca delle
condizioni che abbiano supporto superiore alla soglia indicata e considerando solo quelle
che hanno il livello di confidenza superiore alla soglia indicata.

Mi sono poi altre tecniche applicate dopo l’identificazione delle regole forti:
 Analisi vincolata da regole: associare determinate regole a un campione;
 Analisi vincolata da valori;
 Analisi di correlazione: individuazione correlazioni negative.

Le regole associative possono essere classificate sulla base di:


 Tipo di valori confrontati;
 Dimensioni utilizzate;
 Livelli di astrazione implicati.

Meccanismi di classificazione e predizione


Utilizzo delle caratteristiche degli eventi rilevati per costruire modelli che possono servire a
predire in qualche misura gli eventi futuri o a stimare il valore di elementi non noti. Le due
linee dell’attività di modellazione sono: l’identificazione di criteri che permettano di
assegnare un soggetto a una certa classe, sulla base di caratteristiche particolari del
soggetto e il calcolo di funzioni di tendenza.
Entrambi i metodo utilizzano un criterio basato su esempi, ovvero sono costruiti su un
sottoinsieme significativo di dati esistenti.

Le tecniche di classificazione fanno parte delle tecniche di apprendimento assistito: I


parametri per la creazione del modello sono forniti dall’utente, che specifica le classi
obiettivo della classificazione, i dati su cui costruire il modello e la classe a cui

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

appartengono. L’utente divide i dati in due sottoinsiemi complementari: training set


(insieme di apprendimento) usato per le regole di classificazione, e testing set (insieme di
verifica), che misura il grado di efficienza del sistema nella classificazione.
Creazione modello di classificazione per la marginalità:
1. funzione di selezione casuale divide l’insieme di clienti in due sottoinsiemi TS e
TR;
2. TR viene suddiviso in AltaMarginalità e BM sulla base del valore di
classificazione noto (a posteriori);
3. Analisi caratteristiche classe AM;
4. Caratteristiche comuni portano d un modello generalizzato di classificazione;
5. Si applica il modello sui dati TS ottenendo AM’ e BM’ (a priori);
6. Si verifica la precisione della classificazione valutando quanti elementi AM’ sono
effettivamente in AM (posteriori).
L’accuratezza del modello è data dalla percentuale di elementi correttamente classificati a
priori.
Un esempio di classificatori sono gli alberi di decisione. Struttura ad albero in cui i nodi
interni sono gli attributi del soggetto, gli archi in uscita da un nodo sono etichettati coi
valori che l’attributo può assumere, i nodi foglia sono le classi. Il punto critico è la scelta
degli attributi, devono condurre a una classificazione corretta nel minor numero di
passaggi. Un attributo è considerato rilevante rispetto a una classe se per suo tramite è
possibile distinguere una classe da un’altra.
I classificatori si distinguono in base alla:
 Accuratezza della previsione;
 Velocità;
 Scalabilità;
 Robustezza;
 Interpretabilità.

La predizione è una tecnica di modellazione analoga alla classificazione, che permette di


identificare valori non noti di elementi il cui dominio è continuo (classificazione opera su
attributi discreti). Principali funzioni di approssimazione:
 Regressione lineare semplice: valori di variabile Y (risposta) sono funzione della
variabile X. Y=q+mX;
 Regressione multilineare: valore di Y è dato dalla combinazione lineare di molte
variabili;
 Regressione non lineare: usata per andamenti poco regolari o non lineari
(esponente > 1, polinomio).

Meccanismi di clustering
Sono utilizzati, come i metodi di classificazione, per identificare elementi con
caratteristiche comuni. Il clustering ripartisce autonomamente gli elementi in classi
anonime e sulla base delle affinità rilevate tramite l’osservazione dei dati. Le classi sono
proposte all’utente come agglomerati spontanei di dati. I cluster devono presentare
massima similarità tra gli elementi appartenenti a una classe e minima similarità tra gli
elementi appartenenti a classi diverse.
Le tecniche:
 Partizionamento: utente indica in quante classi ripartire i dati;
 Classificazione gerarchica: aggregativa (sulla base di similitudini) o divisiva;
 Valutazione della densità degli elementi: calcolo distanza tra gli elementi, cluster
sono identificati dalle zone dense.
Caratteristiche metodi di clustering:
 Scalabilità: tempo di elaborazione tende a crescere esponenzialmente;

Scaricato da Federico Pinna (diosantissimo30@gmail.com)


lOMoARcPSD|5653239

 Robustezza: capacità di classificazione anche in presenza di errori;


 Alta dimensionalità: utilizzo di più attributi di analisi contemporaneamente;
 Capacità di operare con diversi tipi di attributi;
 Capacità di reperire cluster di qualsiasi forma;
 Insensibilità all’ordinamento dei record: stessi raggruppamenti indipendentemente
dal loro ordine iniziale.

L’effetto secondario del clustering è l’identificazione degli outlier (punti isolati).


Applicazioni del data mining:
Analisi finanziaria: dati riguardanti i movimenti finanziari vengono utilizzati per analisi
descrittive, classificazione dei clienti sulle abitudini di pagamenti, analisi outlier per
rilevazioni di frodi.
Marketing
Vendite
Logistica
Flusso passivo
Controllo qualità
Manutenzione
Sicurezza
Gestione delle relazioni con il mercato (carte fedeltà).

Scaricato da Federico Pinna (diosantissimo30@gmail.com)

Potrebbero piacerti anche