INTRODUZIONE

INDICE
Big data analysis e data warehousing a supporto dei sistemi aziendali
Introduzione
CAPITOLO I: BIG DATA ANALYTICS
1.1 DEFINIZIONE E ORIGINI

1.1.1 BREVE STORIA DEL DATA MANAGEMENT
1.1.2 IL MODELLO DELLE 3 V
1.1.3 DALLE 3 V ALLE 7 V
1.2 I POSSIBILI CAMPI DI APPLICAZIONE DELLA BIG DATA ANALYTICS
1.3 APPROFONDIMENTO SUL DATA WAREHOUSE
1.4 AECHITETTURA DEL DATA WEREHOUSE
CAPITOLO II: BIG DATA TOOLS
2.1 LE TECNICHE DI ESTRAZIONE E ANALISI DEI DATI
2.1.1 MODELLI DI OTTIMIZZAZIONE
2.1.2 STATISTICA
2.1.3 MACHINE LEARNING
2.1.4 DATA MINING
2.1.5 RETI NEURALI
2.1.6 APPROCCI DI VISUALIZZAZIONE
2.1.7 ANALISI DELLE RETI SOCIALI
2.1.8 TECNICHE DI RIDUZIONE DEI DATI
2.2 LE TECNOLOGIE
2.2.1 BATCH PROCESSING TOOLS
1
2.2.2 STREAM PROCESSING TOOLS
2.2.3 INTERACTIVE ANALYSIS TOOLS
2.3 I MODELLI DI ANALYTICS
2.4 IL CLOUD COMPUTING
CAPITOLO III: BIG DATA ANALYTICS: AMBITI DI

APPLICAZIONE
3.1 INTERNET E SOCIAL NETWORK
3.2 SETTORE FINANZIARIO
3.3 TURISMO
3.4 SETTORE PUBBLICO E SISTEMA AZIENDALE PRIVATO
3.5 SANITÀ
CAPITOLO IV: OPPORTUNITÀ PER LE AZIENDE
4.1 LA CATENA DEL VALORE
4.2 COME I BIG DATA GENERANO VALORE
4.3 UNO SGUARDO ALLE PMI ITALIANE
Conclusioni
Bibliografia e sitografia
2
INTRODUZIONE
Nell’era moderna dominata dai social e da una intensa presenza virtuale, le

informazioni rappresentano una vera e propria miniera d’oro. I Big Data (BD) sono
diventati un fenomeno di massa creato dall’enorme quantità di informazioni disponibili
online e offline che, una volta elaborate e analizzate al fine di portare alla luce
informazioni e conoscenza non individuabili a priori, pongono l’impresa in una
posizione di vantaggio rispetto a coloro che non ne dispongono. Questo elaborato ha
lo scopo di fornire una panoramica su un argomento che ci vede tutti protagonisti, pur
non comprendendone le dinamiche, attraverso un approccio introduttivo che vuole
rendere il tema accessibile a tutti. Essendo un campo ancora poco esplorato nel nostro
paese, la letteratura in materia disponibile in lingua italiana è piuttosto scarsa,
pertanto si è cercato di reperire più informazioni possibili, soprattutto in lingua inglese,
e di coniugarle all’interno della trattazione.
Il primo è un capitolo preparatorio, che ripercorre la storia evolutiva del Data

Management e dei Database, per definire le necessità che hanno portato allo sviluppo
e all’origine dei Big Data. Si passa poi alla ricerca di una definizione. Impresa non facile,
poiché non ne esiste una vera e propria, quindi se ne analizzano le principali
caratteristiche. Dal modello iniziale c.d. delle “3 V”, che individuava Volume, Varietà e
Velocità, si è passati a un modello che comprende altre quattro qualità: Variabilità,
Valore, Veridicità e Visualizzazione. Sono queste “7 V” a definire cosa sono i BD. Il
capitolo continua con una rapida descrizione di settori in cui viene utilizzata la Big Data
Analytics, al fine di comprenderne meglio l’utilità. Infine si fa una panoramica su un
altro strumento molto utilizzato dalle aziende per l’analisi dei dati, il Data Warehouse,
valorizzandone le differenze rispetto ai BD.
Nel capitolo secondo l’attenzione si focalizza sugli strumenti impiegati per estrarre,
elaborare, analizzare e visualizzare i dati e sulle procedure attraverso cui ricavarne
informazioni. Nella prima parte si esaminano alcune delle tecniche utilizzate per
l’estrazione e l’analisi dei dati, che provengono da diverse discipline: matematica,
statistica, data mining, intelligenza artificiale e sociologia. Nella seconda parte si
3
esegue una panoramica sullo stato dell’arte di alcuni software in uso per dialogare con
i BD. Si effettua una suddivisione di questi software in tre categorie: strumenti batch
processing, che permettono l’elaborazione periodica di grandi quantità di dati;
strumenti stream processing, per elaborazioni in tempo reale e strumenti per l’analisi
interattiva che permettono agli utenti di effettuare percorsi di analisi.
Il terzo capitolo è dedicato a un approfondimento sull’impiego dei Big Data in alcuni

settori, sia pubblici che privati. Sono stati presi in esame: internet e social media,
banche e istituti di credito, turismo, pubbliche amministrazioni e sanità. Per ogni
settore si presentano esempi pratici, al fine di dimostrare come le diverse fonti di dati
possano essere connesse tra loro e come i risultati che scaturiscono dalla loro analisi
possono essere impiegati.
Il quarto e ultimo capitolo analizza nello specifico i Big Data come fonte di opportunità
per il business. Dopo aver esaminato il concetto di “Catena del valore” e rilevato come
i BD generino valore per il business, si riportano alcuni esempi di utilizzo nel mercato
moderno. Infine, basandosi sulla ricerca 2016 dell’Osservatorio Big Data Analytics &
Business Intelligence, si espone una panoramica sull’approccio delle piccole e medie
imprese italiane all’utilizzo di strumenti analytics.
4
CAPITOLO I: BIG DATA ANALYTICS
1.1 DEFINIZIONE E ORIGINI
Big Data Analytics è uno strumento molto importante nel mondo moderno poiché
permette di gestire e manipolare grandi quantità di dati velocemente, al fine di
ottenere risultati che costituiscano valore per l’azienda. Prima di fornire una
definizione più accurata di Big Data e capire cos’è la Big Data Analytics, è importante
ricostruire l’evoluzione del Data Management.
1.1.1 BREVE STORIA DEL DATA MANAGEMENT
I Data Base sono utilizzati fin dall’inizio della storia dell’informatica. Nei primi anni ’60 i
dati erano immagazzinati in flat-file, file che non presentavano alcun tipo di struttura;
uno dei primi modelli di dati, il Flat Data Model, rappresentava i dati in una tabella, il
che rendeva impossibile effettuare relazioni tra le fonti. Verso la metà degli anni ‘60
fanno la loro comparsa: i database gerarchici e i data base in rete. Nei primi i dati sono
presentati in una struttura ad albero, che però non è adatta a gestire relazioni tra nodi
che distando tra loro più di un livello; i secondi hanno una struttura simile a quella di
un grafo. Questi modelli portarono alla creazione dei primi Data Base Management
System1.
Negli anni ’70 alcuni ricercatori della IBM, capeggiati da Edgar F. Codd, proposero un
nuovo approccio alle basi di dati: il Modello Relazionale. Verso la fine del decennio fu
creato anche un modo per permettere l’interazione con i dati raccolti nei Data Base: il
linguaggio SQL (Structured Query Language). L’ottimo riscontro che questo modello
ebbe nelle aziende portò alla luce i primi problemi. Il crescente volume dei dati,
l’aumento dei costi di memorizzazione, la lentezza dell’accesso e la duplicazione dei
dati portarono alla ricerca di tecnologie che potessero supportare il modello
relazionale2.
1
DBMS
2
Fontana F., Caroli M.: Economia e Gestione delle Imprese, McGraw-Hill, (2013).
5
Nel 1976 il Professor Peter Chen formalizzò l’Entity-Relationship Model (Modello E-R),
un modello tuttora utilizzato, grazie al quale gli sviluppatori possono creare nuove
relazioni tra le fonti dei dati senza dover ricorrere a una complessa programmazione.
Negli anni ’90 il problema della crescente quantità di dati che le aziende raccoglievano
per essere analizzati, si ripresenta nuovamente. L’informatico statunitense William
Inmon trova una soluzione: creare un grande magazzino (warehouse) in cui riunire tutti
i dati: il Data Warehouse.
Fino ad allora nelle aziende la funzione svolta dai Data Base era solamente quella di
memorizzare i dati generati dalle operazioni svolte all’interno dei processi gestionali. Il
Data Warehouse invece fa parte di un insieme di tecniche e strumenti informatici detti
Decision Support System (Sistemi di supporto alle decisioni), il cui scopo è fornire
supporto agli organi decisionali dell’azienda attraverso l’estrapolazione di informazioni
di valore da quell’insieme di dati memorizzato nei Data Base.
Sempre negli anni ’90, con la diffusione di internet, ai tradizionali dati si sono aggiunti
immagini, video, audio e contenuti web, rendendo necessaria un’evoluzione delle basi
di dati che permettesse di gestire anche tutte queste nuove informazioni. Inoltre le
esigenze aziendali iniziavano a imporre una sempre maggiore velocità di analisi. I Data
Warehouse vengono alimentati a intervalli di tempo, in genere giornalmente o
settimanalmente; questo può andare bene per attività come pianificazione o reporting
finanziario, ma non basta per settori come il marketing che hanno bisogno di avere
analisi sempre aggiornate e in tempo reale.
Fanno quindi la loro comparsa i Data Base a Oggetti 3 che consentono di gestire anche i
dati non strutturati, come i metadati, tramite un linguaggio e una struttura che
permettono di evitare join e programmazioni complesse, rendendo la manipolazione
dei dati più facile e veloce.
Lo sviluppo di nuove tecnologie, la nascita dei Social Media e il sempre più crescente
utilizzo della rete nella vita quotidiana hanno contribuito a generare negli anni una
quantità davvero considerevole di dati provenienti da varie fonti e con diversi formati,
3
ODBMS
6
rendendo i precedenti strumenti obsoleti, o comunque inadatti per le nuove sfide
aziendali.
Ecco che introduciamo i Big Data: un’evoluzione delle basi di dati tradizionali che,
grazie a nuove tecnologie di raccolta, immagazzinamento ed elaborazione dei dati,
consente alle aziende capacità di analisi ed interpretazione in tempo reale.
1.1.2 IL MODELLO DELLE 3 V
Nel febbraio del 2001 Doug Laney, analista dalla società di consulenza Gartner, nel suo
articolo “3D Data Management” introdusse il c.d. “Modello delle 3 V”, in cui descrive le
dimensioni che caratterizzano i Big Data: volume, varietà e velocità4.
Figura 1 - Le 3 V dei Big Data (Russom, 2011) con adattamenti.
1. VOLUME Il volume si riferisce all’effettiva dimensione del dataset. La mole di dati

trattata è nell’ordine degli Zettabyte (miliardi di Terabyte) ed è sempre in crescente
aumento.
Le 3 V dei Big Data
I Big Data possono anche essere quantificati contando record, transazioni, tabelle o
file. Alcune organizzazioni trovano più utile quantificare i Big Data in termini di tempo.
4
AA VV, E-government, Profili teorici ed applicazioni pratiche del governo digitale, in SARZANA F., DI
IPPOLITO S. (a cura di), La Tribuna, Piacenza, 2003.
7
Ad esempio negli Stati Uniti a causa della legge “Statute of limitations”, che identifica
in sette anni il tempo massimo dopo un evento all'interno del quale possono essere
avviate azioni legali, molte aziende preferiscono mantenere sette anni di dati
disponibili riguardanti il rischio, la conformità e l’analisi giuridica.
La memorizzazione dei dati è cresciuta notevolmente, cambiando sensibilmente da

analogica a digitale dopo il 20005.
2. VARIETA’
La varietà può essere intesa sia come molteplicità di fonti sia come eterogeneità di
formati dei dati. In ogni momento della giornata sono generati dati: siti web, social-
media, e-mail, documenti, immagini, video, file audio, dati GPS, ecc. La varietà dei tipi
di dati rappresenta un cambiamento fondamentale nel modo in cui i dati vengono
memorizzati e analizzati. Le diverse tipologie di dati con cui si ha a che fare sono
difficilmente gestibili con sistemi “tradizionali” e richiedono pertanto tecnologie
specifiche: appunto, le tecnologie Big Data6. Si possono avere dati generati da fonti sia
interne sia esterne, e possono essere rappresentati in diversi formati, solitamente
riconducibili a tre categorie:
 Dati strutturati: sono quei dati che rispettano schemi precisi quali: tipo di
contenuto, lunghezza, formato, etc. Questa è la tipologia di dati tipicamente
usata nei tradizionali Data Base relazionali;
 Dati semi-strutturati: non sono conformi al modello dati di un tipico database
ma possono essere divisi in records più o meno strutturati utilizzando dei
separatori come i tag semantici (es. tag del codice HTML o dei file XML);
 Dati non strutturati: non seguono in nessun modo gli schemi di un tradizionale
database e per questo richiedono tecniche di analisi complesse (es. linguaggio
umano, immagini, audio, video).
5
Hilbert and Lòpez, “The world’s technological capacity to store, communicate and compute
information”, Science, 2011.
6
Capodieci, 2013
8
3. VELOCITA’
Si riferisce velocità con cui i dati si generano, si raccolgono, si aggiornano e si

elaborano; si tende a effettuare analisi dei dati in tempo reale o quasi per cogliere
opportunità al volo e prima dei concorrenti.
1.1.3 DALLE 3 V ALLE 7 V
Il modello iniziale si fermava qui, con il tempo si è esteso andando ad aggiungere le

seguenti caratteristiche7:
4. VARIABILITA’
La variabilità è diversa dalla varietà. Il significato e l’interpretazione dei dati dipendono

dal loro contesto. Nel corso del tempo nuovi significati vengono creati e vecchi
significati scartati. La variabilità infinita dei Big Data presenta quindi una sfida di
decodifica unica al fine di sfruttare al massimo il loro valore.
5. VALORE
Tutti i dati raccolti costituiscono un valore per un’azienda. E’ dall’analisi dei dati che si
colgono opportunità e si trae supporto per i processi decisionali: metodi più efficaci di
vendita, indizi per nuovi prodotti che soddisfino richieste del mercato non rilevate in
precedenza, riduzione dei costi, ecc.
6. VERIDICITA’
La veridicità si riferisce all'attendibilità delle informazioni raccolte: per far sì che i dati
siano sempre accurati sono necessari continui processi di analisi, correzione o
eliminazione di dati inesatti o incompleti. Questa situazione è del tutto normale
quando i dati provengono da diverse fonti e sono rappresentati in formati differenti tra
loro. La veridicità e la qualità dei dati diventano un requisito fondamentale affinché i
dati possano davvero costituire valore.
7. VISUALIZZAZIONE
7
PACE A. - ZACCARIA R.- DE MINICO G. (a cura di), Mezzi di comunicazione e riservatezza: ordinamento
comunitario e ordinamento interno, Napoli, Jovene, 2008
9
Un compito fondamentale per qualsiasi sistema di elaborazione Big Data è di
trasformare l'immensa quantità di dati in qualcosa di facilmente comprensibile e
perseguibile. Utilizzare diagrammi, grafici o cruscotti è il metodo più efficace per
trasmettere i risultati delle analisi effettuate al management.
1.2 I POSSIBILI CAMPI DI APPLICAZIONE DELLA BIG DATA ANALYTICS
L’analisi di queste grandi quantità di dati provenienti da fonti e dispositivi diversi si

rivela di grande utilità in tanti settori.
Nelle imprese le tecniche di Big Data Analytics applicate al marketing e al CRM 8

possono incidere direttamente sul fatturato. Nella produzione se applicate alla supply
chain (Catena di distribuzione) possono apportare benefici in termini di riduzione dei
costi e degli sprechi di risorse. Nelle aree di amministrazione, finanza e controllo posso
influire sulla valutazione del rischio nelle analisi finanziarie.
Nel Settore Pubblico le informazioni ricavate dalle analisi dei Big Data possono essere
impiegate da Ministeri ed enti pubblici per identificare sprechi e inefficienze e
prendere i conseguenti provvedimenti; oppure per gestire la catena dei soccorsi in
caso di catastrofi naturali, analizzando i dati e integrandoli con informazioni sulla
localizzazione degli utenti; per gestire il dispiegamento delle forze di polizia dove e
quando i reati hanno una maggiore probabilità di verificarsi; o ancora possono essere
utilizzate per il cosiddetto “fraud management”, cioè l’identificazione di frodi e delle
evasioni fiscali.
In campo medico le analisi dei big-dati offrono un enorme potenziale per la diagnosi
precoce di patologie o la messa a punto di nuove terapie grazie all’utilizzo dei risultati
dei test clinici. Inoltre possono aiutare a incrementare l’efficienza delle strutture
sanitarie in termini di costi e sostenibilità.
I Big Data trovano la loro applicazione in tanti altri campi, dal turismo al social media
marketing, dal settore bancario a quello scientifico, dal text mining al riconoscimento
di immagini.
8
Customer Relationship Management
10
1.3 APPROFONDIMENTO SUL DATA WAREHOUSE
Il Data Warehouse è una collezione di dati9:
 Orientata al soggetto: si concentra sui concetti di interesse dell’azienda (clienti,

prodotti, vendite, ordini,...) con l’obiettivo di fornire informazioni organizzate in
modo tale da favorire la comprensione e l’analisi.  Integrata: integra dati
provenienti da sorgenti diverse ed eterogenee, con l’obiettivo di restituirne una
visione unificata e coerente;
 Variabile nel tempo: deve permettere analisi che spazino sulla prospettiva di
alcuni anni, perciò viene aggiornato a intervalli regolari;
 Non volatile: il Data Warehouse è un Data Base a sola lettura, poiché i dati non
vengono mai eliminati e gli aggiornamenti vengono eseguiti “a freddo”, cioè
quando il Data Warehouse è fuori linea.
Generalmente la struttura di un Data Warehouse si articola in quattro livelli:
 Livello delle sorgenti: i dati utilizzati possono provenire da fonti di dati

eterogenee: archiviati in Data Base aziendali relazionali oppure provenienti da
sistemi informativi esterni all’azienda.  Livello di alimentazione: i dati devono
essere estratti, ripuliti, completati e integrati, in modo da poter essere
confrontati tra di loro. Gli strumenti ETL (Extraction, Transformation and
Loading) si occupano di questo processo per produrre informazioni dettagliate,
esaurienti e di alta qualità che alimentino il Data Warehouse.
 Livello del warehouse: le informazioni trattate in precedenza sono raccolte in
un singolo contenitore. Accanto al Data Warehouse è presente un ulteriore
contenitore all’interno del quale vengono inseriti i Metadati, cioè le
informazioni aggiuntive sui dati (sorgenti, meccanismi di accesso, procedure,
utenti, ...). In questo livello troviamo anche i Data Mart, sottoinsiemi dei dati
presenti nel Data Warehouse primario che contengono le informazioni
9
RIFKIN J., L’era dell’accesso, La rivoluzione della new economy, Mondadori, 2000.
RIFKIN J., Società a costo marginale zero, Mondadori, 2014
11
suddivise per aree di business, divisioni aziendali o categorie, così da
permettere una maggior velocità di analisi, circoscrivendo la parte dei dati di
interesse.  Livello di analisi: permette la consultazione efficace e flessibile dei
dati integrati con l’obiettivo di realizzare report, analisi e simulazioni.
1.4 Architettura del Data Warehouse
Una delle principali differenze che caratterizza i Data Warehouse rispetto ai Data Base
tradizionali è la rappresentazione multidimensionale dei dati. Questo modello parte
dall’assunzione che gli oggetti che influenzano il processo decisionale sono fatti del
mondo aziendale (vendite, acquisti, produzione...) e le occorrenze di un singolo fatto
corrispondono a eventi accaduti. Per ciascun fatto si possono identificare le misure,
cioè i valori che descrivono quantitativamente gli eventi. Per selezionare e raggruppare
con facilità gli innumerevoli eventi aziendali si immagina di collocarli in uno spazio
multidimensionale i cui assi sono dimensioni di analisi. Il concetto di dimensione ha
dato origine alla metafora, molto diffusa, del cubo per la rappresentazione dei dati
multidimensionali. Esso rappresenta un insieme di eventi, i suoi spigoli descrivono le
dimensioni di analisi e le celle corrispondono agli eventi, caratterizzati da un valore per
ogni misura.
Un’altra delle differenze rispetto ai Data Base operazionali è la modalità di

interrogazione. Nei Data Base operazionali, le interrogazioni sono di tipo OLTP 10 , cioè
eseguono transazioni che in genere leggono e scrivono un numero di record da diverse
tabelle legate da semplici relazioni.
Invece, il tipo di interrogazione utilizzata nei Data Warehouse viene detta OLAP 11e si
basa su un’analisi dinamica e multidimensionale di una quantità elevata di record per
calcolare un insieme di dati numerici di sintesi che possano quantificare le prestazioni
aziendali.
Le principali operazioni che gli strumenti OLAP sono in grado di svolgere durante una
sessione di analisi delle informazioni contenute in un cubo, sono:
10
On-Line Transactional Processing
11
On-Line Analytical Processing
12
 Roll-up: operazione che permette di aumentare l’aggregazione dei dati
eliminando un livello di dettaglio da una gerarchia.
 Drill-down: al contrario permette di diminuire l’aggregazione dei dati
introducendo un ulteriore livello di dettaglio.
 Slice-and-dice: l’operazione di slice esegue una selezione su una dimensione,
ottenendo un sottocubo di quello di partenza: l’operazione di dice esegue una
selezione su una o più dimensioni.
 Drill-across: offre la possibilità di stabilire un collegamento tra due o più cubi al
fine di compararne i dati.
 Pivot: operazione che permette di ruotare gli assi del cubo lasciando inalterati i
dati.
CAPITOLO II: BIG DATA TOOLS
In questo capitolo si evidenzia come ottenere valore dai Big Data, affidandosi a una
serie di strumenti (tools) basati su una vasta gamma di tecniche e tecnologie per
estrarre, elaborare, analizzare e visualizzare i dati e ricavarne informazioni 12.
2.1 LE TECNICHE DI ESTRAZIONE E ANALISI DEI DATI
12
TENE O. – POLONETSKY J., Big Data for all: Privacy and user control in the age of analytics, in 11(5)
Northwestern Journal of Technology and Intellectual Property, 2013, 240 ss.
13
I Big Data hanno bisogno di tecniche particolari per elaborare in modo efficiente grandi
moli di dati in un intervallo di tempo limitato.
Le tecniche di estrazione e analisi utilizzate nei Big Data provengono da discipline

diverse, comprese la matematica, la statistica, il data mining, l’intelligenza artificiale e
la sociologia.
2.1.1 MODELLI DI OTTIMIZZAZIONE
In matematica e informatica, un “problema di ottimizzazione” è un problema il cui

obiettivo è trovare la soluzione migliore tra tutte le soluzioni possibili.
I modelli di ottimizzazione vengono applicati per risolvere problemi quantitativi in

molti campi (fisica, biologia, ingegneria, economia,...) attraverso diversi algoritmi, tra
cui si possono citare: simulated annealing1 (ricottura simulata), quantum annealing2
(ricottura quantistica) e gli algoritmi genetici che si ispirano ai processi naturali
evolutivi.
In generale questi modelli si utilizzano nei processi decisionali, quando si pongono

problemi di allocazione di risorse limitate a diverse attività e si vuole trovare il metodo
più efficace, che permetta di minimizzare i costi oppure massimizzare i guadagni.
Questi metodi di analisi sono molto complessi e spesso richiedono un alto consumo di
tempo e memoria. In alternativa si possono utilizzare metodi per la riduzione dei dati
da analizzare e la parallelizzazione.
2.1.2 STATISTICA
La statistica è una disciplina che ha come fine la raccolta, l’organizzazione e

l’interpretazione dei dati. Le tecniche statistiche sono utilizzate per sfruttare
correlazioni e relazioni causali tra obiettivi diversi. Tuttavia, le tecniche statistiche
standard di solito non sono adatte per gestire i Big Data, quindi molti ricercatori stanno
studiando estensioni delle tecniche classiche o metodi del tutto nuovi.
2.1.3 MACHINE LEARNING
14
Il machine learning (apprendimento automatico) è una branca dell’intelligenza
artificiale che ha lo scopo di progettare algoritmi che permettano ai computer di
imparare senza essere stati esplicitamente programmati. Tra le tecniche utilizzate
figurano: data mining, riconoscimento di pattern, reti neurali artificiali, elaborazione
delle immagini, ecc...
La caratteristica più evidente del machine learning è quella di essere capace di

imparare e prendere decisioni automaticamente e in modo autonomo, pertanto
rappresenta un’importante evoluzione nel modo in cui i big data possono essere gestiti
e analizzati. Grazie a questo strumento è possibile eseguire analisi descrittive e
predittive analizzando i dati raccolti nel corso del tempo, e ottenere ipotesi per il
futuro.
Tra le possibili applicazioni si elencano: il filtraggio delle email per evitare spam,
l'individuazione di intrusioni in una rete o di hacker che cercano di violare banche dati
o il riconoscimento ottico dei caratteri.
2.1.4 DATA MINING
Il data mining è un insieme di tecniche e metodologie che hanno per oggetto

l'estrazione di informazioni di valore da grandi quantità di dati, tra cui: clustering,
classificazione, regressione e regole di associazione.
Il Big Data mining è più impegnativo rispetto ai tradizionali algoritmi di data mining.
Prendendo come esempio il clustering, un modo per raggruppare i Big Data è
estendere i metodi esistenti per far fronte agli enormi carichi di lavoro. La maggior
parte delle estensioni di solito si basano sull'analisi di una certa quantità di campioni di
Big Data, e variano nell’utilizzo dei risultati basati sui campioni per derivare una
partizione per i dati complessivi. I ricercatori si stanno concentrando sulla riduzione
della complessità computazionale.
2.1.5 RETI NEURALI
15
Una rete neurale artificiale13 è un modello matematico che si ispira a una rete neurale
biologica, utilizzando "neuroni" artificiali. Questi modelli matematici possono essere
utilizzati ad esempio per il riconoscimento dei pattern7, l’analisi delle immagini o il
controllo adattativo.
2.1.6 APPROCCI DI VISUALIZZAZIONE
Questa definizione raggruppa le tecniche utilizzate per creare tabelle, immagini,

diagrammi e altri metodi di visualizzazione intuitiva per la comprensione dei dati e
delle informazioni.
“Visualizzare” i Big Data è più difficile rispetto ai tradizionali dataset, a causa della loro
naturale complessità. Molti ricercatori si affidano a tecniche di estrazione dei
parametri e a modellazioni geometriche per cercare di ridurre significativamente le
dimensioni dei dati prima di effettuare il rendering finale. Per interpretazioni più
precise e intuitive dei dati, alcuni ricercatori cercano di eseguire i software di rendering
dei dati in modalità batch, alla massima risoluzione possibile, in modo parallelo.
2.1.7 ANALISI DELLE RETI SOCIALI
La social network analysis (analisi delle reti sociali), una tecnica fondamentale nella
sociologia moderna, vede le relazioni sociali in termini di teoria delle reti, e si compone
di nodi e legami. Viene utilizzata in tantissimi campi: dall’antropologia alla biologia,
dalle scienze della comunicazione all’economia, dalla geografia alla storia. La versione
di Internet delle reti sociali (social media) è una delle forme più evolute di
comunicazione in rete ed è ormai a portata di tutti. Tra le tecniche di social network
analysis si citano: la progettazione del sistema sociale, la modellazione del
comportamento umano, la visualizzazione di reti sociali e l'analisi dell’evoluzione delle
reti sociali. Uno dei principali ostacoli per quanto riguarda la social network analysis è
l’ampiezza dei Big Data; analizzare una rete costituita da milioni o miliardi di oggetti
connessi tra loro è computazionalmente costoso. Due possibili soluzioni a questo
problema sono il social computing e il cloud computing14.
13
artificial neural network - ANN
14
REICHMAN J.H. – SAMUELSON P., Intellectual Property Rights in Data?, in 50 Vanderbilt Law Review,
1997, 51 ss.
16
2.1.8 TECNICHE DI RIDUZIONE DEI DATI
Molti ricercatori considerano le dimensioni elevate dei Big Data come un problema,
anche se il loro volume non andrebbe ridotto, essendo una caratteristica peculiare.
Analizzando lo stato dell’arte delle tecniche per la gestione di grandi moli di dati, si può
riscontrare che la maggior parte delle soluzioni converge verso la riduzione del volume:
si cerca di mappare lo spazio dimensionale dei dati in un’area di minore estensione con
una perdita di informazioni che sia minima. In questo modo si facilita l’elaborazione dei
dati, sia in termini di riduzione dei tempi che in termini di riduzione degli spazi di
memorizzazione.
2.2 LE TECNOLOGIE
Dopo aver parlato delle tecniche per l’estrazione e l’elaborazione dei dati, passiamo a
esaminare quali sono i software che ci permettono effettivamente di dialogare con i
Big Data.
Possiamo suddividere questi software in tre classi: strumenti batch processing,

strumenti stream processing e strumenti per l’analisi interattiva.
2.2.1 BATCH PROCESSING TOOLS
L’elaborazione batch è un modo efficiente di elaborare elevati volumi di dati. I processi

batch possono essere memorizzati durante l'orario di lavoro ed eseguiti durante la
notte o il weekend, quando il computer non è utilizzato.
I dati vengono prima raccolti, poi inseriti nel sistema, ed infine elaborati per ottenere
risultati. L'elaborazione batch è particolarmente utile per operazioni che richiedono
l’utilizzo di un dispositivo per un periodo prolungato di tempo.
APACHE HADOOP Uno dei più famosi e potenti strumenti Big Data basato su batch
processing è Apache Hadoop, una piattaforma open source che fornisce capacità di
archiviazione distribuita e capacità di calcolo, entrambe scalabili. Caratteristiche
fondamentali di Hadoop sono il partizionamento dei dati e il calcolo parallelo di grandi
dataset.
17
La sua architettura è costituita dalle seguenti componenti principali:
 HDFS (Hadoop Distribuited File System) E’ il file system distribuito 15

principale
utilizzato dalle applicazioni Hadoop, esso permette l’archiviazione di file in
cluster16 di computer che vengono visti come una sola unità di memorizzazione.
Un cluster è principalmente composto da NameNode, che gestiscono i metadati
del file system, e DataNode in cui vengono memorizzati effettivamente i dati. I
NameNode hanno anche il compito di creare, distruggere, modificare e leggere
i file. Per esempio, quando un file deve essere creato, questo viene diviso in
segmenti, i quali poi sono distribuiti tra i vari DataNode del cluster, anche in
maniera ridondante per evitare eventuali perdite di informazioni causate da
guasti o malfunzionamenti. I NameNode contengono poi le istruzioni per
ricomporre i vari segmenti, ricostruendo il file per la lettura. Tramite queste
scomposizioni, HDFS riesce a immagazzinare un’enorme quantità di dati,
ottimizzando le operazioni di archiviazione e accesso a un numero
relativamente piccolo di file molto grandi.
 YARN (Yet Another Resource Negotiator) E’ una piattaforma il cui ruolo
primario è quello di programmare e gestire le risorse computazionali di un
cluster Hadoop. L'idea fondamentale di YARN è di dividere le funzionalità di
gestione delle risorse e il processo di pianificazione/controllo in demoni 17
separati.
15
File system: meccanismo con il quale i file sono posizionati e organizzati, su un dispositivo di
archiviazione o su una memoria di massa. Si dice distribuito quando permette di accedere ai file
contenuti su un computer remoto tramite rete, potenzialmente in simultanea da diversi computer.
(Wikipedia, File system, 2016)
16
Cluster: un insieme di computer connessi tramite una rete telematica. (Wikipedia, Computer cluster,
2017)
17
Demone (daemon): in informatica, nei sistemi Unix, e più in generale nei sistemi operativi
multitasking, un demone è un programma eseguito in background, cioè senza che sia sotto il
controllo diretto dell'utente, tipicamente fornendo un servizio all'utente. (Wikipedia, Demone
(informatica), 2016)
18
Utilizza un ResourceManager globale, che gestisce le risorse tra tutte le applicazioni
presenti nel sistema, e un ApplicationMaster per ogni applicazione, che ha il compito di
negoziare le risorse necessarie per lo sviluppo della sua applicazione.
MAPREDUCE
E’ un framework software per scrivere facilmente applicazioni che elaborano grandi

quantità di dati in parallelo su cluster di grandi dimensioni. MapReduce si basa sul
metodo “Divide et impera”, il cui approccio consiste nel dividere un problema in una
sequenza di sotto-problemi più semplici, in modo che le elaborazioni possano essere
delegate ai vari computer del cluster ed eseguite in parallelo. Una volta completata
l’elaborazione, i risultati vengono poi uniti generando il risultato finale. In termini di
cluster, ci sono due tipi di nodi: MasterNodes e WorkerNodes. Il MasterNode prende
l'input, lo divide in piccoli sottoproblemi, e li distribuisce ai WorkerNodes nella fase
Map. Successivamente, il MasterNode raccoglie le risposte a tutti i sottoproblemi e le
combina nella fase Reduce.
APACHE MAHOUT Apache Mahout è un insieme di librerie relative al machine learning

e al data mining in costante crescita che consente la programmazione di algoritmi
scalabili. Alcuni esempi di algoritmi utilizzati in Mahout:  Recommendation mining:
algoritmo che prova a comprendere il comportamento degli utenti e cerca di trovare
elementi che l’utente potrebbe gradire;
 Clustering: algoritmo utilizzato per raggruppare, ad esempio documenti di testo

e li raccoglie per argomento o altro tipo di correlazione;
 Classificazione: algoritmo che impara dai documenti già categorizzati al fine di
dare una categoria (sperabilmente corretta) a quei documenti non ancora
categorizzati;
 Frequent itemset mining: algoritmo che prende dei gruppi di item di vario
genere, ad esempio articoli di un carrello della spesa di un e-shop, e identifica
quali “appaiono” solitamente insieme.
PENTAHO BUSINESS ANALYTICS Pentaho Business Analytics è una piattaforma software

per Big Data in grado di combinare sia dati strutturati che non strutturati. Alle
19
proprietà di scalabilità, accessibilità e una sicurezza, Pentaho aggiunge la possibilità di
generare diverse soluzioni di report, visual analysis interattive e dashboard
personalizzate. La piattaforma permette anche il collegamento con molti dei database
NoSQL più utilizzati, come ad esempio MongoDB o Cassandra. Una volta che la
connessione al database viene stabilita, gli utenti possono effettuare operazioni di drill-
up e drill-down sulle colonne utilizzando diversi gradi di granularità delle informazioni.
Gli utenti possono accedere ai propri dati anche attraverso un’interfaccia webbased.
Con l’utilizzo di procedure guidate, è possibile trasformare i dati in informazioni sulla
base delle quali prendere decisioni velocemente.
2.2.2 STREAM PROCESSING TOOLS
In alcuni campi, ad esempio nel mercato azionario, l’analisi dei flussi di Big Data deve
essere fatta quasi in tempo reale. Quindi le soluzioni di batch processing non sono
utilizzabili, ma vengono sostituite da soluzioni di stream processing, in cui
l’elaborazione dei dati avviene in parallelo per permettere una più veloce risposta alle
interrogazioni.
APACHE STORM Storm è un sistema di calcolo open source specificamente progettato

per l'elaborazione in tempo reale, al contrario di Hadoop, che è per l'elaborazione
batch. Tra le caratteristiche principali si elencano: scalabilità, fault-tolerance 18, e
velocità (è in grado di processare più di un milione di tuple al secondo per nodo).
Pertanto ha molte applicazioni, come ad esempio analisi in tempo reale, machine
learning on-line, calcolo continuo e processi ETL 19.
Un cluster Storm è apparentemente simile a un cluster Hadoop. Tuttavia ci sono un

certo numero di differenze tra le meccaniche di MapReduce e le topologie di Storm: in
MapReduce quando giunge al termine, un’elaborazione finisce; mentre una topologia
elabora messaggi per tutto il tempo, o almeno fino a quando gli utenti non la
terminano. Ci sono due tipi di nodi in un cluster di Storm: il nodo master e i nodi
18
Fault tolerance: capacità di un sistema di continuare a funzionare anche se qualcuno dei suoi
componenti è guasto, grazie alla presenza di riserve pronte a sostituire immediatamente i componenti
danneggiati.
19
Extract, Transform and Load
20
workers. Il nodo master gestisce un demone chiamato Nimbus, che è responsabile
della distribuzione del codice nel cluster, dell’assegnazione dei compiti ai nodi workers
e del monitoraggio dell’intero sistema. Se si verifica un errore nel cluster, il Nimbus lo
rileva e ri-esegue l'attività corrispondente. Ogni nodo worker esegue un demone
chiamato Supervisor. Il Supervisor avvia e arresta i processi nella sua macchina in base
alle direttive che il nodo Nimbus gli ha assegnato. Ogni processo di lavoro esegue un
sottoinsieme di una topologia; una topologia in esecuzione consiste di molti processi di
lavoro sparsi in molte macchine. Il coordinamento tra Nimbus e Supervisors viene fatto
attraverso un altro tipo di demone, detto Zookeeper che registra tutti i loro stati sul
disco locale.
Per effettuare elaborazioni in tempo reale su Storm, si creano le cosiddette

"topologie". Una topologia è un diagramma di calcolo: ogni nodo in una topologia
contiene indicazioni sull’elaborazione, e i collegamenti tra i nodi indicano come i dati
dovrebbero essere passati tra i nodi. Ogni nodo in una topologia Storm viene eseguito
in parallelo. Nella topologia, è anche possibile specificare la quantità di parallelismi che
si desiderano per ogni nodo.
S4 S4 è una piattaforma modulare, che consente ai programmatori di implementare

facilmente applicazioni per l'elaborazione di flussi continui di dati illimitati.
Inizialmente rilasciata da Yahoo! nel 2010, è entrata a far parte dei progetti di Apache
Incubator nel 2011. La piattaforma ha le seguenti caratteristiche: permette
l’elaborazione quasi in tempo reale, è distribuita, decentralizzata, scalabile, fault-
tolerant e event-based. S4 si propone di colmare il divario tra sistemi proprietari
complessi e piattaforme open source batch-oriented, con l’obiettivo di sviluppare una
piattaforma di calcolo ad alte prestazioni che nasconda la complessità insita nel
sistema di elaborazione in parallelo, per permettere ai programmatori di sviluppare
facilmente le applicazioni.
La piattaforma di base è scritta in Java. L'implementazione è modulare e innestabile, le

applicazioni di S4 possono essere facilmente e dinamicamente combinate per creare
sofisticati sistemi di elaborazione in stream20.
20
BASSINI M. - POLLICINO O. (a cura di), Verso un Internet Bill of Rights, Aracne, Roma, 2015.
21
SPLUNK Splunk è una piattaforma che permette la gestione in tempo reale dei dati IT
generati dinamicamente da applicazioni, dispositivi e server, siano essi fisici, virtuali o
nel Cloud. La sua architettura è scalabile e basata su MapReduce, man mano che i
volumi giornalieri e il numero di sorgenti dati aumentano, è possibile aumentare anche
le prestazioni aggiungendo nuovi server standard. Il bilanciamento automatico
ottimizza i carichi di lavoro e i tempi di risposta. La presentazione dei risultati avviene
in modo intuitivo, grazie alle funzioni di reporting e analytics preconfigurate. Splunk
permette di:  individuare relazioni tra eventi o attività;  creare relazioni in base al
tempo, al luogo, o a risultati di ricerche personalizzate;  individuare eventi correlati,
come una transazione o una sessione, e indagare sulle transazioni non andate a buon
fine;  identificare automaticamente anomalie e incidenti utilizzando la potenza del
machine learning. Infine Splunk offre anche la possibilità di collegarsi ad altre
piattaforme, come ad esempio Hadoop, per la condivisione dei dati.
2.2.3 INTERACTIVE ANALYSIS TOOLS
L'analisi interattiva presenta i dati in un ambiente interattivo, consentendo agli utenti

di intraprendere il proprio percorso di analisi delle informazioni. L’utente è
direttamente collegato al computer, e quindi può interagire con esso in tempo reale. I
dati possono essere riesaminati, confrontati e analizzati in formato tabulare o grafico o
entrambi allo stesso tempo.
GOOGLE DREMEL
Nel 2010, Google ha lanciato Dremel un sistema di interrogazione scalabile, interattivo

per l'analisi dei dati nidificate di sola lettura. Dremel ha un'architettura molto diversa
rispetto a quella di Apache Hadoop e non intende sostituirsi a MapReduce, ma
piuttosto può essere utilizzato congiuntamente per ottenere risultati più velocemente.
Infatti, a differenza dei database tradizionali, Dremel è in grado di operare su dati
nidificati “in situ”21, cioè offre la possibilità di accedere ai dati “sul posto”, per esempio,
in un file system distribuito o un altro strato di archiviazione. Il sistema ha la capacità
21
BERTAILS A. ET AL., Le Web sémantique, in Annales des Mines – Réalités industrielles,2011
22
di eseguire query di aggregazione su tabelle di miliardi di righe in pochi secondi
mediante combinazione di alberi di esecuzione multi-livello e un layout dei dati
colonnare. Google fornisce anche una versione SaaS di Dremel: BigQuery.
APACHE DRILL
Apache Drill è un altro sistema open source distribuito per l'analisi interattiva dei Big
Data. E’ simile a Dremel di Google, ma è più flessibile e supportare una varietà di
diversi linguaggi di interrogazione, formati e fonti di dati. Come Dremel, Drill è
specificamente progettato per sfruttare in modo efficiente i dati nidificati e raggiunge
la capacità di elaborare petabyes di dati e miliardi di record in pochi secondi. Un’altra
particolarità che contraddistingue Drill è che una singola query può unire dati
provenienti da più archivi. Infatti Drill supporta una varietà database NoSQL e file
system, come HBase, MongoDB, HDFS, Amazon S3, Google Cloud Storage, e file locali.
Drill e Dremel sono entrambi esperti in interrogazioni ad hoc di dati su larga scala.
Usano HDFS per la conservazione e MapReduce per eseguire l'analisi batch. Tramite la
ricerca di dati memorizzati in forma colonnare o all'interno di un file system distribuito,
è possibile eseguire la scansione di più petabyte di dati in pochi secondi, in risposta a
una query ad hoc.
In conclusione, ogni piattaforma ha il suo punto di forza: alcune sono progettate per
l'elaborazione batch, altre per l’analisi in tempo reale; ciascuna ha funzionalità
specifiche, ad esempio, l'analisi statistica, il machine learning o l'elaborazione flusso di
dati. L’azienda deve valutare quali sono le proprie esigenze e adottare la soluzione che
maggiormente vi si adatta.
2.3 I MODELLI DI ANALYTICS
 L’analisi dei dati può condurre a diversi livelli di conoscenza correlati alla
tipologia di modelli di analytics messi in campo. È possibile identificare tre
categorie principali: Descriptive Analytics: permettono di descrivere la
situazione attuale e quella passata. Sono costituite da un insieme di strumenti
che permettono di effettuare analisi sui fatti storici per fornire una fotografia
23
del momento. Ad esempio con l’analisi descrittiva si possono esaminare i dati
storici dell’utilizzo di energia elettrica per contribuire a pianificare il fabbisogno
energetico e consentire alle aziende elettriche di fissare prezzi ottimali.
 Predictive Analytics: comprendono una varietà di tecniche statistiche di
modellazione, machine learning, data mining e teoria dei giochi che analizzano i
fatti attuali e storici per fare previsioni su eventi futuri.
Un esempio di analisi predittiva è basato sull’utilizzo di sistemi CRM 22 in riferimento a

negozi di ecommerce. Il CRM offre la possibilità di registrare tutti i dati dei clienti: il
dettaglio delle loro spese, i loro comportamenti di acquisto, la loro navigazione sul
web. All’acquisto successivo, il sistema sarà in grado di proporre prodotti cross-selling
o prodotti aggiuntivi di interesse per l’acquirente, basandosi sulle informazioni
precedentemente elaborate.
 Prescriptive Analytics: permettono non solo di fare previsioni sugli eventi futuri,
ma sono in grado di proporre possibili soluzioni operative o strategiche sulla
base delle analisi svolte.
 Automated Analytics: strumenti capaci di mettere in pratica autonomamente
l’azione proposta, a seguito del risultato delle analisi svolte.
2.4 IL CLOUD COMPUTING
Il cloud computing è un insieme di tecnologie che permette di memorizzare, archiviare

ed elaborare calcoli complessi e grandi volumi di dati23. La particolarità di questo
sistema è che elimina la necessità di possedere fisicamente hardware e software,
spesso molto costosi, appoggiandosi a un provider di servizi che mette a disposizione
infrastrutture, spazi dedicati e software specializzati ai quali si può accedere tramite
rete internet o in remoto.
Secondo il NIST (National Institute of Standards and Technology) il cloud computing è

definito da cinque caratteristiche essenziali:
22
Customer Relationship Management
23
WIEBE A., Protection of industrial data – a new property right for the digital economy?, in 12(1)
Journal of Intellectual Property Law & Practice, 2017, 62 ss.
24
 Self-Service: l’utente deve poter richiedere i servizi (banda, potenza
computazionale, applicazioni) autonomamente, senza l’intervento dei gestori
dell’infrastruttura o dei service provider.
 Accessibilità globale: i servizi devono essere accessibili da più luoghi, da più
dispositivi (mobile, tablet, pc desktop o grandi server)e in ogni momento.
 Raggruppamento delle risorse: le risorse IT (storage, processori, macchine
virtuali ecc.) devono essere organizzate in gruppi e non isolate così da poter
servire dinamicamente un numero variabile di utenti secondo le loro richieste.
 Elasticità immediata: le risorse devono poter scalare (verso l’alto e verso il
basso) velocemente e, in alcuni casi, automaticamente.  Misurabilità dei
servizi: l'utilizzo delle risorse può essere monitorato, controllato, e riferito, in
modo trasparente sia per il fornitore e il consumatore del servizio utilizzato.
I modelli di servizio e di distribuzione nel cloud computing sono tre:
 PaaS (Platform as a Service): ad essere erogate sono le infrastrutture per lo

sviluppo e la programmazione di applicazioni. I consumatori in questo caso
sono sviluppatori software che così possono lavorare su piattaforme già
preparate, beneficiando di una riduzione in termini di tempo e costo. Alcuni
esempi di PaaS: Google Cloud Platform, Microsoft Azure.
 SaaS (Software as a Service): il servizio erogato in questo caso è costituito da
un software accessibile dal web. Il consumatore non gestisce ne’ controlla
l'infrastruttura cloud di base. Alcuni esempi di SaaS: Google Docs, Gmail, Office
365.
 IaaS (Infrastructure as a Service): il servizio fornito è costituito dall’intera
infrastruttura, il cliente può decidere di acquistare ambienti di esecuzione,
capacità di memorizzazione o risorse di rete per poter erogare in autonomia i
propri servizi o le proprie applicazioni. Alcuni esempi di IaaS: Rackspace Virtual
Cloud Server e Amazon EC2.
Infine il NIST indica quali sono i modelli di distribuzione del cloud:
25
 Private Cloud: i servizi di cloud computing sono erogati ad un’unica azienda e
alle sue unità. L’infrastruttura può essere gestita da un provider esterno o
dall’azienda stessa.
 Community Cloud: i servizi sono erogati da un’azienda o da un service provider
ad un gruppo ristretto di organizzazioni che condividono alcune caratteristiche.
Anche in questo caso l’infrastruttura può essere gestita da una delle aziende
del gruppo o da un provider esterno.  Public Cloud: i servizi di cloud vengono
erogati tramite Internet da un service provider verso più clienti. La proprietà e
la gestione di infrastrutture, piattaforme e applicazioni sono del service
provider e vengono condivise con i clienti.
 Hybrid Cloud: sono ibridi che utilizzano una combinazione di due o più
infrastrutture (private, community o public).
In conclusione il cloud computing presenta molti aspetti favorevoli per le aziende,

poiché permette loro di concentrarsi sul core business, senza preoccuparsi di questioni
come le infrastrutture, la flessibilità e la disponibilità delle risorse. Inoltre, molti
fornitori di servizi cloud hanno cominciato a integrare nei loro servizi strutture per
l'elaborazione dei dati in parallelo, per facilitare l'accesso degli utenti alle risorse e
incrementare la potenza di calcolo.
26
CAPITOLO III – BIG DATA ANALYTICS: AMBITI DI APPLICAZIONE
Come emerge dai capitoli precedenti, le potenzialità fornite dall’analisi dei Big Data
sono molteplici. Molteplici sono anche i settori in cui queste potenzialità vengono
sfruttate. In questo capitolo si approfondiranno alcuni settori e si presenteranno degli
esempi per poter dimostrare come la Big Data Analytics viene impiegata oggigiorno, ad
eccezione del settore Business che sarà approfondito nel capitolo
3.1 INTERNET E SOCIAL NETWORK
Attualmente il più grande raccoglitore di Big Data è sicuramente Internet, dove si

possono trovare tantissimi tipi di informazioni diverse: testi, immagini, file audio,
video, file log, pagine web, ecc. Sono proprio gli utenti stessi, con le loro iterazioni, a
incrementare questa quantità di dati con informazioni più o meno personali. Basta
27
pensare al diffusissimo uso di Facebook o Instagram, per non parlare poi di Google o
Amazon. Ogni ricerca, ogni parola digitata, ogni clic effettuato. Tutto è registrato,
elaborato e utilizzato per capire chi sono gli utenti, quali sono i loro interessi e
preferenze. Tramite strumenti di predizione si individuano possibili prodotti o servizi di
interesse, che tramite pubblicità vengono poi proposti agli utenti24.
Un esempio è costituito dagli strumenti di advertising utilizzati da Facebook o Google.

Facebook propone i contenuti che “potrebbero interessarci” maggiormente in base
alle ricerche o alle iscrizioni a gruppi o pagine; mostra le persone “che potremmo
conoscere” in base alla città di residenza e alla rete di amicizie; e, soprattutto, fa
apparire in mezzo alle bacheche link sponsorizzati riguardanti argomenti o prodotti che
reputa siano di interesse per l’utente. Stessa cosa fa Google, che ha a sua disposizione
più mezzi, potendo avvalersi dei dati che provengono dal motore di ricerca, da Gmail,
Youtube, Google+, Google Maps, ecc. Il fine è sempre lo stesso: indurre l’utente a
cliccare sui link sponsorizzati. Questo servizio, definito “pay-per-click”, ovviamente
viene venduto alle aziende per fini di marketing. Amazon è uno degli esempi di azienda
che si avvale anche di questa tipologia di servizio. Dopo aver effettuato delle ricerche
di prodotti sul sito, non è affatto raro trovare in giro per la rete (su Google, Facebook,
Youtube, altri portali o riviste on-line) degli annunci relativi proprio a quei prodotti
oggetto di ricerca su Amazon.
3.2 SETTORE FINANZIARIO
Molti esempi di utilizzo di Big Data provengono anche da banche e istituti di credito.
L’analisi inizia unendo insieme dati provenienti dalle diverse fonti a disposizione delle
banche: anagrafiche, transazioni delle carte di pagamento, investimenti finanziari e
immobiliari, elenchi dei fidi e social media. Con il supporto di questi Big Data «le
banche possono fare offerte personalizzate ai propri clienti grazie ad una migliore
profilazione e conoscenza delle loro esigenze, passioni e abitudini di consumo;
individuare frodi tramite alert sui sistemi di pagamento come le carte di credito e
debito e sulle apparecchiature Atm; creare un miglior profilo di rischio credito del
24
PITRUZZELLA G., Big Data, Competition and Privacy: A Look from the Antitrust Perspective, in 23
Concorrenza e mercato, 2016, 15 ss
28
proprio cliente e dei prospect; effettuare previsioni sui trend dei consumi dei loro
clienti; ridurre le inefficienze e favorire l’interazione banca-cliente nella creazione di
nuovi prodotti/servizi (Crowdsoursing)»25.
Ad esempio, alcune società emettitrici delle carte di credito hanno identificato delle
particolari associazioni per valutare il rischio finanziario di una persona. Sembrerebbe,
infatti, che le persone che acquistano feltrini per i mobili rappresentino i clienti
migliori, perché secondo le ricerche sarebbero più attente e propense a colmare i
propri debiti nei tempi giusti.
3.3 TURISMO
L’analisi dei Big Data viene utilizzata anche nel settore del turismo da compagnie
aeree, catene alberghiere e viaggiatori, per rendere più confortevole un viaggio anche
in caso di imprevisti.
L’azienda spagnola Amadeus ha ideato un’app che, in caso di annullamento del volo,
consente di trovare mete alternative, tendendo presente gusti e preferenze del
viaggiatore.
La compagnia aerea KLM, invece, dopo aver analizzato gli status sui social dei
viaggiatori, regala loro oggetti utili per il viaggio prima della partenza dall’aeroporto.
Tourism Australia ha sfruttato l’analisi Big Data per indirizzare meglio i suoi
investimenti pubblicitari. Secondo alcuni sondaggi le persone che non erano mai state
in Australia, assegnavano al paese un punteggio piuttosto basso per quanto riguardava
il turismo enogastronomico, dovendosi poi ricredere. La media dei turisti, dopo aver
visitato il paese, lo classifica al terzo posto come appeal enogastronomico, dopo
Francia e Italia. A seguito di questa analisi Tourism Australia ha deciso di investire 8,6
milioni di dollari in una campagna digitale mirata su cibo e vino.
3.4 SETTORE PUBBLICO E SISTEMA AZIENDALE PRIVATO
In America, l'analisi dei Big Data viene utilizzata da anni nel settore pubblico, sia dai
servizi di intelligence, per scandagliare milioni di dati al giorno alla ricerca di potenziali
25
Camiciola, 2016
29
pericoli per la nazione, ma anche dai Ministeri e dagli enti pubblici per identificare
sprechi e inefficienze. I Big Data possono essere utilizzati anche per gestire i soccorsi
nelle catastrofi naturali, integrando i dati con le informazioni sulla localizzazione degli
utenti, tramite GIS Data (Geographic Information System). Un esempio è stato il loro
utilizzo durante l'uragano Irene, analizzando post sui social, foto, e video in tempo
reale, unitamente ai dati sulla loro posizione geografica, è stato possibile direzionare i
soccorsi in maniera efficiente. La Florida Division of Emergency Management ha messo
a punto un sito26 e un’app basati esattamente su queste unioni di dati per capire quali
sono le zone a rischio e individuare eventuali persone isolate che necessitano di
soccorso. Un altro esempio è l’utilizzo dei Big Data da parte dei corpi di polizia per
prevedere le zone in cui potrebbero verificarsi dei crimini, censendo le aree dove sono
stati commessi. A Los Angeles il tasso di criminalità è sceso del 13% in 4 mesi
utilizzando l’analisi27.
Ogni azienda può essere concepita come un insieme di attività suddivise in attività
primarie (che concorrono alla produzione e distribuzione del bene/servizio) e attività di
supporto o infrastrutturali (che sostengono le attività primarie). Alcuni processi con un
elevato grado di complessità possono essere ulteriormente scomposti. A titolo di
esempio si riporta di seguito la suddivisione di un processo campione dell’area dei
Crediti.
 MAPPATURA DEI PROCESSI
La descrizione delle attività può essere molto time-consuming. È necessario saper

valutare il trade off tra dettaglio della mappatura e suoi obiettivi..
1 Il process mapping concorre a definire i processi esistenti in

un’organizzazione.
2 La metodologia di mappatura deve essere univoca in azienda e il metodologo
deve avere una competenza organizzativa.
26
www.floridadisaster.org
27
1Giuseppe Roccasalva, 201, p. 97, “I Big Data e gli strumenti di visualizzazione analitica: interazioni e
studi induttivi per le P.A.”.
30
3 La descrizione del processo deve avvenire con il coinvolgimento del process
owner, sia in fase di prima mappatura che in fase di revisione periodica
4 La mappa del processo deve essere disegnata sulla base di quello che è il processo
reale, che potrebbe non corrispondere a quanto ritenuto dal management.
5 La mappa del processo deve essere verificata e concordata con il management.
6 La mappatura non deve necessariamente essere dettagliata in prima release e
comunque il livello di dettaglio dipende dall’uso che si vuole fare di queste
informazioni.
7 Le fonti informative devono essere eterogenee:
8 La mappatura deve considerare anche le attività anomale e le eccezioni al
processo normale.
La revisione della descrizione dei processi è fondamentale perché questi siano

aggiornati:
1. Assegnare una precisa responsabilità di revisione in capo al process owner

2. Individuare una serie di stakeholder del processo erendere disponibile a loro il
processo
3. Rendere dinamica la mappatura dei processi attraverso integrazione di attività
strettamente connesse ai processi
4. Misurare e valutare l’evoluzione del processo secondo alcuni indicator (anche
sintetici e parziali)
5. Sviluppare strumenti di simulazione e valutazione dei cambiamenti dei
processi.
Si utilizzano capacità esterne presso le software house: SAP Microsoft, Apple, IBM,
SAS. Gli outsourcer non fanno solo software ma li gestiscono nel tempo. La proprietà
intellettuale è di un esterno e infatti si paga la licenza d'uso.
3.5 SANITÀ
Anche nell’ambito sanitario, come già citato, i Big Data giocano un ruolo importante. Si
segnala il fallimentare “Google Flu Trends”, un interessante progetto di Google, il cui
scopo era stimare l’andamento dell’influenza in tempo reale in America, basandosi
31
sull’analisi delle parole chiave ricercate. Mentre nel 2008 Google era riuscito con
successo a prevedere l’avanzamento dei focolai di influenza negli USA più velocemente
dello stesso ministero della salute, nella stagione 2012/2013 ha sovrastimato di più del
doppio i casi di influenza. Ricercatori sostengono che questo errore sia stato dovuto
proprio dagli algoritmi utilizzati per il suggerimento di risultati. In pratica i dati che
Google Flu Trends analizzava erano gli stessi che Google aveva contribuito a creare,
inducendo un aumento dell’uso di determinati termini, su cui si basava la previsione
dell’influenza.
Due esempi di successo invece vengono proprio dall’Italia, protagonisti principali sono:
Cineca, ARNO e CORE. Cineca è un Consorzio Interuniversitario senza scopo di lucro
formato da 70 università italiane, 6 Enti di Ricerca Nazionali e il MIUR, il cui scopo è
promuovere l’utilizzo delle IT a favore della ricerca scientifica e tecnologica. Nel 1987
Cineca ha creato l’Osservatorio ARNO, che si occupa della raccolta delle prestazioni
sanitarie erogate ogni singola ASL convenzionata, con il fine di monitorare i consumi e
valutare l’efficacia e l’appropriatezza clinica delle prestazioni erogate. ARNO mette
quindi a disposizione degli utenti un enorme database, che è stato integrato da un
gruppo di lavoro che ha in seguito realizzato una società, denominata CORE
(Collaborative Outcome Research Evaluation) per attività di ricerca in ambito sanitario.
Con la collaborazione di altri partner di ricerca, queste tre figure sono state in grado di
trovare delle correlazioni importanti in ambito sanitario, affidandosi all’analisi dei Big
Data.
Nell’ambito dell’osteoporosi, le ricerche condotte hanno rilevato che i pazienti a

rischio di interruzione delle terapie sono: i maschi, i più giovani (quindi quelli per cui la
cura è più importante), i cardiopatici, i depressi e quelli in politerapia (cioè che devono
assumere più di 5 farmaci). I risultati evidenziano che se queste classi fossero seguite
con maggiore attenzione dal medico curante probabilmente si ridurrebbero in modo
significativo i costi del SSN e si offrirebbe una migliore qualità della vita ai pazienti
malati di osteoporosi.
32
Il secondo esempio di analisi dei Big Data viene da uno studio di vita reale sullo
scompenso cardiaco, fatto da ANMCO 28 , CORE ed ARNO. Lo studio ha preso in esame
pazienti dimessi dopo un ricovero ospedaliero per scompenso cardiaco, registrandone
le caratteristiche cliniche, i trattamenti farmacologici, eventuale riospedalizzazione e i
costi diretti per il SSN per un intero anno. Mettendo tutti questi dati in relazione è
stato possibile dimostrare come i risultati reali fossero molto diversi da quelli
solitamente dettati dalla letteratura in materia di studi controllati: età, sesso e
trattamenti prevalenti descritti in letteratura non corrispondono ai risultati ottenuti
dallo studio. Inoltre nel corso dell’anno di osservazione il 56,6% dei pazienti è stato
nuovamente ricoverato, e il 49% di loro per cause non cardiovascolari. Lo studio quindi
evidenzia come, con un approccio differente che tenga conto anche delle
multipatologie dei pazienti, sarebbe possibile ridurre il numero di secondi ricoveri,
migliorando la salute dei cittadini e riducendo i costi per il SSN.
28
Associazione Nazionale Medici Cardiologi Ospedalieri
33
CAPITOLO IV– OPPORTUNITÀ PER LE AZIENDE
In precedenza si è evidenziato come le informazioni che scaturiscono da analisi di Big

Data siano un’importante fonte di valore per le aziende. Dopo aver spiegato il concetto
di catena del valore e il suo coinvolgimento nelle analisi dei dati, si porteranno ad
esempio alcune applicazioni pratiche dei Big Data nelle aziende.
4.1 LA CATENA DEL VALORE
La catena del valore è un modello teorizzato da Michael Porter nel 1985, che descrive
la struttura di un’organizzazione come un insieme di processi primari e di supporto.
«La catena del valore disaggrega un’azienda nelle sue attività strategicamente rilevanti
allo scopo di comprendere l’andamento dei costi e le fonti interne di
differenziazione»29 .
La catena del valore è quindi un sistema di attività dipendenti tra loro, poiché il modo
in cui un’attività viene realizzata influisce sui costi e sulle prestazioni delle altre. Come
fare quindi a massimizzare le prestazioni di tutte le attività? Sfruttando gli strumenti
che Big Data Analytics mette a disposizione. Come emerso durante la trattazione dei
29
Porter, 1987
34
precedenti capitoli, le analisi dei dati provenienti dalla molteplicità di fonti, interne ed
esterne all’azienda, possono rivelare sprechi o suggerire soluzioni non ancora prese in
esame per il miglioramento di processi o prodotti.
4.2 COME I BIG DATA GENERANO VALORE
Uno delle attività in cui sicuramente i Big Data sono considerati un’importante fonte di
valore è il Marketing. Come già citato in precedenza, l’analisi dei dati è molto sfruttata
nella costruzione dei c.d. “metodi di raccomandazione”, tra cui fanno parte, ad
esempio, algoritmi che riescono a predire se una shopper donna è incinta. Tracciando
le sue ricerche sul web e i suoi acquisti, questi programmi sono in grado di individuare
se l’utente è in dolce attesa, ed ecco che tramite siti di ecommerce o mailing list, le si
propongono offerte speciali e coupon su prodotti mirati.
Analizzando diverse fonti di dati, l'azienda può avere una visione molto chiara di quelle
che sono le idee e le impressioni dei clienti sul suo brand e sui suoi prodotti. Un
esempio recente è rappresentato da Netflix. All’inizio della sua storia, Netflix non era
altro che una piattaforma di streaming di contenuti (film, telefilm, documentari,
cartoni animati) prodotti e realizzati da altri, ma negli ultimi anni sta avendo un gran
successo per la produzione di contenuti originali. Netflix ha a disposizione un enorme
database, costituito dai dati demografici dei suoi utenti, dalle loro serie preferite, serie
abbandonate a metà, picchi di attenzione, ecc. Analizzando i dati sulla visione dei
programmi da parte degli utenti, riesce a identificare schemi ricorrenti, abitudini e
gusti condivisi nelle diverse nazioni. L'azienda ha condotto una ricerca su 30 serie
televisive trasmesse in tutto il mondo per trovare quali sono state le puntate che
hanno catturato l'attenzione di almeno il 70% degli spettatori (sia a livello di singolo
paese che su scala globale), che hanno poi continuato a guardare le stesse serie per
tutte le puntate. Da questi dati è emerso che molti comportamenti degli utenti sono
universali. Gli abbonati hanno le stesse preferenze, seguono le stesse serie, si
identificano con gli stessi personaggi, pur essendo di nazionalità o etnie diverse. Così
35
Netflix, grazie ai Big Data, è in grado di identificare le tematiche “calde” e produce
contenuti che riscuotono enormi successi internazionali in termini di audience.
Anche nel settore della logistica e dei trasporti la Big Data Analytics gioca un ruolo
dominante. Prendiamo l’esempio di PTV Group, azienda tedesca che produce software
e servizi di consulenza nei settori del trasporto, della logistica, e del geomarketing 30.
Uno degli obiettivi di chi utilizza questa tipologia di software è prevedere con
precisione la durata e i costi di ciascun viaggio.
31
Anche gli strumenti CRM (Customer Relationship Management) costituiscono un
buon esempio per dimostrare come la raccolta, l’analisi e la visualizzazione dei dati
funzionino in concreto. Il CRM fornisce strumenti analitici che riassumono le
informazioni sui clienti, raccolte attraverso vari canali, trasformandole in dati che,
tramite analisi appropriate, possono essere tradotti in azioni commerciali. Utilizzando
gli strumenti CRM nei servizi di vendita o post-vendita, le aziende possono
comprendere meglio i loro clienti e fornire loro un servizio personalizzato.
Personalizzare le interazioni con i clienti aiuta ad aumentare la fedeltà, differenziando
l’azienda rispetto ai concorrenti, e allo stesso tempo, con le giuste informazioni, il
settore commerciale può essere in grado di identificare e trasformare i contatti in
vendite effettive.
30
Geomarketing: approccio di marketing che utilizza le informazioni riferite al territorio (dati
georeferenziati) per analizzare, pianificare ed attuare le attività di marketing. (Wikipedia,
Geomarketing, 2016) aggiornamenti in tempo reale del traffico forniti dai navigatori satellitari,
i limiti di velocità, le restrizioni di peso e altezza, le zone di controllo delle emissioni, le
restrizioni temporali di accesso a determinate aree fino ai dati relativi alle tariffe di pedaggio.
Grazie all’analisi di tutte queste variabili il software è in grado di pianificare percorsi ottimali
per i carichi, stimare accuratamente i costi e fornire suggerimenti in caso di traffico o
imprevisti. Tutte queste informazioni possono anche essere messe a disposizione dei clienti,
per comunicare in tempo reale l’arrivo della merce e gestire gli eventuali tempi di attesa.
31
Il CRM può essere definito come un processo integrato e strutturato per la gestione delle
relazioni con la clientela, il cui scopo è la costruzione di relazioni personalizzate di lungo
periodo con il cliente, in grado di aumentare la soddisfazione dei clienti e, in ultima analisi, il
valore per il cliente e per l’impresa. (Farinet & Ploncher, 2002)
36
Questi sono solo alcuni dei tantissimi esempi di applicazioni pratiche che possiamo
trovare nelle grandi aziende di tutto il mondo, ma effettivamente, in Italia qual è la
situazione? Essendo il nostro tessuto imprenditoriale costituito prevalentemente da
piccole e medie imprese (PMI), si vuole ora analizzare qual è il loro rapporto con
queste nuove fonti di valore.
4.3 UNO SGUARDO ALLE PMI ITALIANE
Nell’ambito della Ricerca 2016, l’Osservatorio Big Data Analytics & Business
Intelligence ha condotto una rilevazione in tutta Italia che ha coinvolto 803 imprese,
tra piccole e medie32, con l’obiettivo di «comprendere la maturità del mercato degli
Analytics e il ruolo svolto da parte delle PMI» 33 . Come era prevedibile, l’utilizzo degli
strumenti Analytics in Italia da parte di piccole e medie imprese è ancora scarso,
rispetto all’uso ormai consolidato che ne fanno le grandi. Solo una PMI su tre ha
riservato parte del Budget 2016 destinato alle ICT a tali strumenti, equivalente al 34%.
Per quanto riguarda la collocazione geografica, le imprese del nord-est mostrano,

anche se di poco, un’adozione più diffusa rispetto alle altre con il 39%. Seguono con il
35% quelle nel centro, 31% nel sud e nelle isole ed infine 30% da quelle nel nord-ovest.
Invece relativamente all’analisi settoriale, si evidenzia come alcuni settori siano più al
passo con i tempi rispetto ad altri: «sono circa una su due le organizzazioni che
adottano soluzioni di Analytics appartenenti al settore delle Banche e Assicurazioni
(55%), e Grande Distribuzione Organizzata (47%); seguono, più distaccati, il settore
della Pubblica Amministrazione e Sanità (39%), del Manifatturiero (34%), delle
Telecomunicazioni e Media (28%), delle Utility (24%) e, per ultimo, dei Servizi (23%)»
(Osservatorio Big Data Analytics & Business Intelligence, 2016).
Per quanto riguarda la tipologia di analisi più diffusa, dai risultati emerge che la
maggior parte delle aziende prese in esame si affida a modelli descriptive analytics,
32
Si sono considerate piccole le imprese aventi tra 10 e 49 addetti, e medie le imprese aventi
tra 50 e 249 addetti.
33
Osservatorio Big Data Analytics & Business Intelligence, 2016
37
26%. Mentre l’utilizzo di modelli predictive analytics è ancora piuttosto limitato, solo il
16%. I modelli prescriptive e automated analytics risultano essere poco conosciuti.
Tra le PMI che usufruiscono di soluzioni Analytics emerge che sono in minoranza (18%)
le aziende che si affidano a strutture esterne o che ancora utilizzano software
generalisti (es. foglio elettronico). Il 41% possiede software di visualizzazione e analisi
dei dati dedicati, anche se solo parzialmente integrati con i propri sistemi informativi, e
il restante 41%, invece utilizza software avanzati e integrati.
CONCLUSIONI
Considerando l’utilizzo intensivo ed esteso dei dispositivi elettronici e digitali che ogni
giorno producono dati, si può affermare che i Big Data rappresentino una fonte
inestimabile di valore. Mentre in precedenza le informazioni in circolazione erano
poche e non sempre affidabili, oggi giorno siamo noi stessi a produrne in abbondanza
ogni volta che utilizziamo un dispositivo elettronico, che sia uno smartphone, un pc, un
tablet o un navigatore. Basta riflettere con quanta frequenza ci connettiamo ai social
network, facciamo acquisti tramite app, consultiamo le nostre email o effettuiamo
operazioni bancarie online. Qualunque cosa digitiamo, fotografiamo o registriamo, la
musica che ascoltiamo, tutto va ad alimentare le enormi basi di dati che abbiamo
imparato a definire Big Data. Lo scopo di questa trattazione era fornire una
panoramica su questi strumenti e mettere a fuoco le opportunità che offrono alle
aziende. Non è difficile immaginare come, in un futuro nemmeno tanto lontano, i BD
saranno in grado di permettere alle imprese di proporre un’offerta sulla base di
desideri non ancora divenuti domanda.
Le opportunità sono sempre seguite da sfide. La sfida, in questo caso, sta nel saper
gestire i problemi legati ai Big Data e le difficoltà che si incontrano quando ci si trova ad
analizzare un volume sempre più crescente di Petabyte di dati. Il primo problema è
38
rappresentato dalle infrastrutture, che non evolvono alla stessa velocità dei dati che
devono elaborare. Questo ha ovvie implicazioni anche sulle prestazioni dei metodi di
elaborazione dei dati, soprattutto per analisi in tempo reale.
In secondo luogo si deve considerare anche la qualità dei dati. Come dimostrato
dall’esempio di Google Flu Trends, i dati devono avere determinate caratteristiche: « 
accuratezza, intesa come perfetta rispondenza del dato con la realtà che rappresenta;
 attualità, cioè il giusto tempo con il quale il dato è creato o aggiornato;
 coerenza, dato non contraddittorio con altri dati, all’interno del sistema o tra
sistemi;
 completezza, ove tutti gli attributi necessari sono presenti, con tutte le fonti;
 credibilità, nel caso in cui la fonte del dato è certa.» 34
Altra problematica rilevante è la sicurezza dei dati e della tutela della privacy.
Soprattutto sui social network, si corre il rischio di non comprendere a fondo il
significato delle nostre condivisioni, spesso accettando condizioni poco chiare che
permettono a terze parti di accedere alle nostre informazioni. La raccolta e l’analisi di
enormi banche dati, da parte di più soggetti, può mettere in serio pericolo la privacy,
argomento che è stato protagonista anche del convegno dal titolo “Big Data e Privacy.
La nuova geografia dei poteri.”, organizzato dal Garante per la privacy in occasione
dell’ultima Giornata europea per la protezione dei dati personali (30 gennaio 2017).
Proprio nel tentativo di trovare un difficile equilibrio tra Big Data e privacy, il Garante
Europeo per la Protezione dei Dati Personali già nel novembre del 2015 ha presentato
un documento dal titolo “Meeting the Challenges of Big Data: A Call for Transparency,
User Control, Data Protection by Design and Accountability”, nel quale sono descritti
gli aspetti più critici dell’attuale normativa comunitaria, e dove vengono indicate le
linee guida per il trattamento dei BD in conformità alla normativa vigente.
Con l’evoluzione della tecnologia, la ricerca e lo sviluppo di nuovi algoritmi, la

condivisione di informazioni, ma soprattutto con una maggiore consapevolezza da
34
Natale, 2016
39
parte di imprese e utenti, in futuro si sarà in grado anche di risolvere le problematiche
che derivano dalla crescita esponenziale di questi enormi volumi di dati.
Concludendo, le opportunità generate dalla Big Data Analytics sono tante e

potenzialmente alla portata di tutte le aziende, sia del settore privato che pubblico.
Nello specifico, se le piccole e medie imprese italiane riusciranno a riconoscere
l’importanza di questi strumenti, investendo risorse e competenze, potranno
sicuramente trarne vantaggi che al momento nemmeno immaginano.
BIBLIOGRAFIA E SITOGRAFIA
AA VV, E-government, Profili teorici ed applicazioni pratiche del governo digitale, in

SARZANA F., DI IPPOLITO S. (a cura di), La Tribuna, Piacenza, 2003.
PITRUZZELLA G., Big Data, Competition and Privacy: A Look from the Antitrust
Perspective, in 23 Concorrenza e mercato, 2016, 15 ss
Caccavella,F.2013, novembre 11
Data Warehouse. Teoria e pratica della progettazione. McGraw-Hill Education. Russom,

P. (2011).
Data-intensive applications, challenges, techniques and technologies: A survey on Big

Data. Information Sciences(275), 314-347.
Colarocco, V. (2016, aprile 05). La privacy ai tempi dei Big Data. Tratto il giorno marzo
06, 2017 da Owl Italia: http://owlitalia.com/la-privacy-aitempi-dei-big-data Farinet, A.,
& Ploncher, E. (2002).
Fontana F., Caroli M.: Economia e Gestione delle Imprese, McGraw-Hill, (2013).
Garante per la protezione dei dati personali. (2017, gennaio 31).
Giuseppe Roccasalva, 201, p. 97, “I Big Data e gli strumenti di visualizzazione analitica:
interazioni e studi induttivi per le P.A.”.
40
Holmes, A. (2015). Hadoop in Practice second edition. Shelter Island: Manning. Hosting
Talk. (2015, maggio 2015). Machine learning la prossima frontiera dei big data. Tratto il
giorno febbraio 2017, 24 da Hosting Talk: http://www.hostingtalk.it/machine-learning-
prossima-frontiera-bigdata/ Hurwitz, J., Nugent, A., Halper, F., & Kaufman, M. (2013).
Big Data for Dummies. Hoboken, New Jersey: John Wiley & Sons, Inc. Karthik Kambatla,
Giorgos Kollias, Vipin Kumar, & Ananth Grama. (2014). Trend in big data analytics.
Journal of Parallel and Distributed Computing(74), 2561-2573.
Lazzarin, D. (2014, ottobre 27).
Magnani, F. (2014, gennaio 21).
Mell, P., & Grance, T. (2011, settembre).
Osservatorio Big Data Analytics & Business Intelligence. (2016). La Ricerca. Big Data:
guidare il cambiamento, liberare valore. Milano. Pescatore, F. (2011, luglio 1).
La Storia dei Database, le origini. Tratto il giorno febbraio 16, 2017 da Appunti Digitali:
http://www.appuntidigitali.it/15929/la-storia-dei-database-le-origini/ Pillon, S. (2016,
novembre 02).
PACE A. - ZACCARIA R.- DE MINICO G. (a cura di), Mezzi di comunicazione e

riservatezza: ordinamento comunitario e ordinamento interno, Napoli, Jovene, 2008
REICHMAN J.H. – SAMUELSON P., Intellectual Property Rights in Data?, in 50 Vanderbilt

Law Review, 1997, 51 ss.
RIFKIN J., L’era dell’accesso, La rivoluzione della new economy, Mondadori, 2000.
RIFKIN J., Società a costo marginale zero, Mondadori, 2014
Rezzani, A. (2013). Big Data - Architettura, tecnologie e metodi per l'utilizzo di grandi
basi di dati. Sant'Arcangelo di Romagna: Maggioli. Rizzi, S., & Golfarelli, M. (2006).
TENE O. – POLONETSKY J., Big Data for all: Privacy and user control in the age of
analytics, in 11(5) Northwestern Journal of Technology and Intellectual Property, 2013,
240 ss.
41
https://www.splunk.com/it_it The Apache Software Foundation. (2017, gennaio 20).
https://it.wikipedia.org/w/index.php?title=Speciale:Cita&page=Demon
https//it.wikipedia.org/w/index.php?title=Geomarketing&oldid=83789200
//it.wikipedia.org/w/index.php?title=Simulated_annealing&oldid=8251
//it.wikipedia.org/w/index.php?title=Analisi_della_regressione&oldid=
//it.wikipedia.org/w/index.php?title=Apprendimento_automatico&oldid
//it.wikipedia.org/w/index.php?title=Byte&oldid=85731392 Wikipedia.
//it.wikipedia.org/w/index.php?title=Calcolo_parallelo&oldid=8555925 L'enciclopedia
http://www.html.it/articoli/cos-e-il-cloud-2/ Camiciola, A. (2016, gennaio 28).
https://www.linkedin.com/pulse/big-data-nel-futuro-digitale-dellebanche-andrea-
camiciola Capodieci, G. (2013, luglio 1)
http://losviluppatore.it/big-data-dalla-teoria-allimplementazione/ Casto, G. (2016,

gennaio 09).
42

INTRODUZIONE

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

INTRODUZIONE

Caricato da

Copyright:

Formati disponibili

INDICE

Big data analysis e data warehousing a supporto dei sistemi aziendali

CAPITOLO I: BIG DATA ANALYTICS

1.1 DEFINIZIONE E ORIGINI

CAPITOLO II: BIG DATA TOOLS

2.1 LE TECNICHE DI ESTRAZIONE E ANALISI DEI DATI

2.1.1 MODELLI DI OTTIMIZZAZIONE

2.1.3 MACHINE LEARNING

2.1.4 DATA MINING

2.1.5 RETI NEURALI

2.1.6 APPROCCI DI VISUALIZZAZIONE

2.1.7 ANALISI DELLE RETI SOCIALI

2.1.8 TECNICHE DI RIDUZIONE DEI DATI

2.2.1 BATCH PROCESSING TOOLS

2.2.3 INTERACTIVE ANALYSIS TOOLS

2.3 I MODELLI DI ANALYTICS

2.4 IL CLOUD COMPUTING

CAPITOLO III: BIG DATA ANALYTICS: AMBITI DI

3.1 INTERNET E SOCIAL NETWORK

3.2 SETTORE FINANZIARIO

3.4 SETTORE PUBBLICO E SISTEMA AZIENDALE PRIVATO

CAPITOLO IV: OPPORTUNITÀ PER LE AZIENDE

4.1 LA CATENA DEL VALORE

4.2 COME I BIG DATA GENERANO VALORE

4.3 UNO SGUARDO ALLE PMI ITALIANE

Nell’era moderna dominata dai social e da una intensa presenza virtuale, le

Il primo è un capitolo preparatorio, che ripercorre la storia evolutiva del Data

Il terzo capitolo è dedicato a un approfondimento sull’impiego dei Big Data in alcuni

1.1 DEFINIZIONE E ORIGINI

1.1.1 BREVE STORIA DEL DATA MANAGEMENT

1.1.2 IL MODELLO DELLE 3 V

Figura 1 - Le 3 V dei Big Data (Russom, 2011) con adattamenti.

1. VOLUME Il volume si riferisce all’effettiva dimensione del dataset. La mole di dati

Le 3 V dei Big Data

La memorizzazione dei dati è cresciuta notevolmente, cambiando sensibilmente da

Si riferisce velocità con cui i dati si generano, si raccolgono, si aggiornano e si

1.1.3 DALLE 3 V ALLE 7 V

Il modello iniziale si fermava qui, con il tempo si è esteso andando ad aggiungere le

La variabilità è diversa dalla varietà. Il significato e l’interpretazione dei dati dipendono

1.2 I POSSIBILI CAMPI DI APPLICAZIONE DELLA BIG DATA ANALYTICS

L’analisi di queste grandi quantità di dati provenienti da fonti e dispositivi diversi si

Nelle imprese le tecniche di Big Data Analytics applicate al marketing e al CRM 8

Il Data Warehouse è una collezione di dati9:

 Orientata al soggetto: si concentra sui concetti di interesse dell’azienda (clienti,

Generalmente la struttura di un Data Warehouse si articola in quattro livelli:

 Livello delle sorgenti: i dati utilizzati possono provenire da fonti di dati

1.4 Architettura del Data Warehouse

Un’altra delle differenze rispetto ai Data Base operazionali è la modalità di

CAPITOLO II: BIG DATA TOOLS

2.1 LE TECNICHE DI ESTRAZIONE E ANALISI DEI DATI

Le tecniche di estrazione e analisi utilizzate nei Big Data provengono da discipline

2.1.1 MODELLI DI OTTIMIZZAZIONE

In matematica e informatica, un “problema di ottimizzazione” è un problema il cui

I modelli di ottimizzazione vengono applicati per risolvere problemi quantitativi in

In generale questi modelli si utilizzano nei processi decisionali, quando si pongono

La statistica è una disciplina che ha come fine la raccolta, l’organizzazione e

2.1.3 MACHINE LEARNING

La caratteristica più evidente del machine learning è quella di essere capace di

2.1.4 DATA MINING

Il data mining è un insieme di tecniche e metodologie che hanno per oggetto

2.1.5 RETI NEURALI

2.1.6 APPROCCI DI VISUALIZZAZIONE

Questa definizione raggruppa le tecniche utilizzate per creare tabelle, immagini,