Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduzione
2.1.2 STATISTICA
2.2 LE TECNOLOGIE
1
2.2.2 STREAM PROCESSING TOOLS
3.3 TURISMO
3.5 SANITÀ
Conclusioni
Bibliografia e sitografia
2
INTRODUZIONE
Nel capitolo secondo l’attenzione si focalizza sugli strumenti impiegati per estrarre,
elaborare, analizzare e visualizzare i dati e sulle procedure attraverso cui ricavarne
informazioni. Nella prima parte si esaminano alcune delle tecniche utilizzate per
l’estrazione e l’analisi dei dati, che provengono da diverse discipline: matematica,
statistica, data mining, intelligenza artificiale e sociologia. Nella seconda parte si
3
esegue una panoramica sullo stato dell’arte di alcuni software in uso per dialogare con
i BD. Si effettua una suddivisione di questi software in tre categorie: strumenti batch
processing, che permettono l’elaborazione periodica di grandi quantità di dati;
strumenti stream processing, per elaborazioni in tempo reale e strumenti per l’analisi
interattiva che permettono agli utenti di effettuare percorsi di analisi.
Il quarto e ultimo capitolo analizza nello specifico i Big Data come fonte di opportunità
per il business. Dopo aver esaminato il concetto di “Catena del valore” e rilevato come
i BD generino valore per il business, si riportano alcuni esempi di utilizzo nel mercato
moderno. Infine, basandosi sulla ricerca 2016 dell’Osservatorio Big Data Analytics &
Business Intelligence, si espone una panoramica sull’approccio delle piccole e medie
imprese italiane all’utilizzo di strumenti analytics.
4
CAPITOLO I: BIG DATA ANALYTICS
Big Data Analytics è uno strumento molto importante nel mondo moderno poiché
permette di gestire e manipolare grandi quantità di dati velocemente, al fine di
ottenere risultati che costituiscano valore per l’azienda. Prima di fornire una
definizione più accurata di Big Data e capire cos’è la Big Data Analytics, è importante
ricostruire l’evoluzione del Data Management.
I Data Base sono utilizzati fin dall’inizio della storia dell’informatica. Nei primi anni ’60 i
dati erano immagazzinati in flat-file, file che non presentavano alcun tipo di struttura;
uno dei primi modelli di dati, il Flat Data Model, rappresentava i dati in una tabella, il
che rendeva impossibile effettuare relazioni tra le fonti. Verso la metà degli anni ‘60
fanno la loro comparsa: i database gerarchici e i data base in rete. Nei primi i dati sono
presentati in una struttura ad albero, che però non è adatta a gestire relazioni tra nodi
che distando tra loro più di un livello; i secondi hanno una struttura simile a quella di
un grafo. Questi modelli portarono alla creazione dei primi Data Base Management
System1.
Negli anni ’70 alcuni ricercatori della IBM, capeggiati da Edgar F. Codd, proposero un
nuovo approccio alle basi di dati: il Modello Relazionale. Verso la fine del decennio fu
creato anche un modo per permettere l’interazione con i dati raccolti nei Data Base: il
linguaggio SQL (Structured Query Language). L’ottimo riscontro che questo modello
ebbe nelle aziende portò alla luce i primi problemi. Il crescente volume dei dati,
l’aumento dei costi di memorizzazione, la lentezza dell’accesso e la duplicazione dei
dati portarono alla ricerca di tecnologie che potessero supportare il modello
relazionale2.
1
DBMS
2
Fontana F., Caroli M.: Economia e Gestione delle Imprese, McGraw-Hill, (2013).
5
Nel 1976 il Professor Peter Chen formalizzò l’Entity-Relationship Model (Modello E-R),
un modello tuttora utilizzato, grazie al quale gli sviluppatori possono creare nuove
relazioni tra le fonti dei dati senza dover ricorrere a una complessa programmazione.
Negli anni ’90 il problema della crescente quantità di dati che le aziende raccoglievano
per essere analizzati, si ripresenta nuovamente. L’informatico statunitense William
Inmon trova una soluzione: creare un grande magazzino (warehouse) in cui riunire tutti
i dati: il Data Warehouse.
Fino ad allora nelle aziende la funzione svolta dai Data Base era solamente quella di
memorizzare i dati generati dalle operazioni svolte all’interno dei processi gestionali. Il
Data Warehouse invece fa parte di un insieme di tecniche e strumenti informatici detti
Decision Support System (Sistemi di supporto alle decisioni), il cui scopo è fornire
supporto agli organi decisionali dell’azienda attraverso l’estrapolazione di informazioni
di valore da quell’insieme di dati memorizzato nei Data Base.
Sempre negli anni ’90, con la diffusione di internet, ai tradizionali dati si sono aggiunti
immagini, video, audio e contenuti web, rendendo necessaria un’evoluzione delle basi
di dati che permettesse di gestire anche tutte queste nuove informazioni. Inoltre le
esigenze aziendali iniziavano a imporre una sempre maggiore velocità di analisi. I Data
Warehouse vengono alimentati a intervalli di tempo, in genere giornalmente o
settimanalmente; questo può andare bene per attività come pianificazione o reporting
finanziario, ma non basta per settori come il marketing che hanno bisogno di avere
analisi sempre aggiornate e in tempo reale.
Fanno quindi la loro comparsa i Data Base a Oggetti 3 che consentono di gestire anche i
dati non strutturati, come i metadati, tramite un linguaggio e una struttura che
permettono di evitare join e programmazioni complesse, rendendo la manipolazione
dei dati più facile e veloce.
Lo sviluppo di nuove tecnologie, la nascita dei Social Media e il sempre più crescente
utilizzo della rete nella vita quotidiana hanno contribuito a generare negli anni una
quantità davvero considerevole di dati provenienti da varie fonti e con diversi formati,
3
ODBMS
6
rendendo i precedenti strumenti obsoleti, o comunque inadatti per le nuove sfide
aziendali.
Ecco che introduciamo i Big Data: un’evoluzione delle basi di dati tradizionali che,
grazie a nuove tecnologie di raccolta, immagazzinamento ed elaborazione dei dati,
consente alle aziende capacità di analisi ed interpretazione in tempo reale.
Nel febbraio del 2001 Doug Laney, analista dalla società di consulenza Gartner, nel suo
articolo “3D Data Management” introdusse il c.d. “Modello delle 3 V”, in cui descrive le
dimensioni che caratterizzano i Big Data: volume, varietà e velocità4.
I Big Data possono anche essere quantificati contando record, transazioni, tabelle o
file. Alcune organizzazioni trovano più utile quantificare i Big Data in termini di tempo.
4
AA VV, E-government, Profili teorici ed applicazioni pratiche del governo digitale, in SARZANA F., DI
IPPOLITO S. (a cura di), La Tribuna, Piacenza, 2003.
7
Ad esempio negli Stati Uniti a causa della legge “Statute of limitations”, che identifica
in sette anni il tempo massimo dopo un evento all'interno del quale possono essere
avviate azioni legali, molte aziende preferiscono mantenere sette anni di dati
disponibili riguardanti il rischio, la conformità e l’analisi giuridica.
2. VARIETA’
La varietà può essere intesa sia come molteplicità di fonti sia come eterogeneità di
formati dei dati. In ogni momento della giornata sono generati dati: siti web, social-
media, e-mail, documenti, immagini, video, file audio, dati GPS, ecc. La varietà dei tipi
di dati rappresenta un cambiamento fondamentale nel modo in cui i dati vengono
memorizzati e analizzati. Le diverse tipologie di dati con cui si ha a che fare sono
difficilmente gestibili con sistemi “tradizionali” e richiedono pertanto tecnologie
specifiche: appunto, le tecnologie Big Data6. Si possono avere dati generati da fonti sia
interne sia esterne, e possono essere rappresentati in diversi formati, solitamente
riconducibili a tre categorie:
Dati strutturati: sono quei dati che rispettano schemi precisi quali: tipo di
contenuto, lunghezza, formato, etc. Questa è la tipologia di dati tipicamente
usata nei tradizionali Data Base relazionali;
Dati semi-strutturati: non sono conformi al modello dati di un tipico database
ma possono essere divisi in records più o meno strutturati utilizzando dei
separatori come i tag semantici (es. tag del codice HTML o dei file XML);
Dati non strutturati: non seguono in nessun modo gli schemi di un tradizionale
database e per questo richiedono tecniche di analisi complesse (es. linguaggio
umano, immagini, audio, video).
5
Hilbert and Lòpez, “The world’s technological capacity to store, communicate and compute
information”, Science, 2011.
6
Capodieci, 2013
8
3. VELOCITA’
4. VARIABILITA’
5. VALORE
Tutti i dati raccolti costituiscono un valore per un’azienda. E’ dall’analisi dei dati che si
colgono opportunità e si trae supporto per i processi decisionali: metodi più efficaci di
vendita, indizi per nuovi prodotti che soddisfino richieste del mercato non rilevate in
precedenza, riduzione dei costi, ecc.
6. VERIDICITA’
La veridicità si riferisce all'attendibilità delle informazioni raccolte: per far sì che i dati
siano sempre accurati sono necessari continui processi di analisi, correzione o
eliminazione di dati inesatti o incompleti. Questa situazione è del tutto normale
quando i dati provengono da diverse fonti e sono rappresentati in formati differenti tra
loro. La veridicità e la qualità dei dati diventano un requisito fondamentale affinché i
dati possano davvero costituire valore.
7. VISUALIZZAZIONE
7
PACE A. - ZACCARIA R.- DE MINICO G. (a cura di), Mezzi di comunicazione e riservatezza: ordinamento
comunitario e ordinamento interno, Napoli, Jovene, 2008
9
Un compito fondamentale per qualsiasi sistema di elaborazione Big Data è di
trasformare l'immensa quantità di dati in qualcosa di facilmente comprensibile e
perseguibile. Utilizzare diagrammi, grafici o cruscotti è il metodo più efficace per
trasmettere i risultati delle analisi effettuate al management.
Nel Settore Pubblico le informazioni ricavate dalle analisi dei Big Data possono essere
impiegate da Ministeri ed enti pubblici per identificare sprechi e inefficienze e
prendere i conseguenti provvedimenti; oppure per gestire la catena dei soccorsi in
caso di catastrofi naturali, analizzando i dati e integrandoli con informazioni sulla
localizzazione degli utenti; per gestire il dispiegamento delle forze di polizia dove e
quando i reati hanno una maggiore probabilità di verificarsi; o ancora possono essere
utilizzate per il cosiddetto “fraud management”, cioè l’identificazione di frodi e delle
evasioni fiscali.
In campo medico le analisi dei big-dati offrono un enorme potenziale per la diagnosi
precoce di patologie o la messa a punto di nuove terapie grazie all’utilizzo dei risultati
dei test clinici. Inoltre possono aiutare a incrementare l’efficienza delle strutture
sanitarie in termini di costi e sostenibilità.
I Big Data trovano la loro applicazione in tanti altri campi, dal turismo al social media
marketing, dal settore bancario a quello scientifico, dal text mining al riconoscimento
di immagini.
8
Customer Relationship Management
10
1.3 APPROFONDIMENTO SUL DATA WAREHOUSE
11
suddivise per aree di business, divisioni aziendali o categorie, così da
permettere una maggior velocità di analisi, circoscrivendo la parte dei dati di
interesse. Livello di analisi: permette la consultazione efficace e flessibile dei
dati integrati con l’obiettivo di realizzare report, analisi e simulazioni.
Una delle principali differenze che caratterizza i Data Warehouse rispetto ai Data Base
tradizionali è la rappresentazione multidimensionale dei dati. Questo modello parte
dall’assunzione che gli oggetti che influenzano il processo decisionale sono fatti del
mondo aziendale (vendite, acquisti, produzione...) e le occorrenze di un singolo fatto
corrispondono a eventi accaduti. Per ciascun fatto si possono identificare le misure,
cioè i valori che descrivono quantitativamente gli eventi. Per selezionare e raggruppare
con facilità gli innumerevoli eventi aziendali si immagina di collocarli in uno spazio
multidimensionale i cui assi sono dimensioni di analisi. Il concetto di dimensione ha
dato origine alla metafora, molto diffusa, del cubo per la rappresentazione dei dati
multidimensionali. Esso rappresenta un insieme di eventi, i suoi spigoli descrivono le
dimensioni di analisi e le celle corrispondono agli eventi, caratterizzati da un valore per
ogni misura.
Invece, il tipo di interrogazione utilizzata nei Data Warehouse viene detta OLAP 11e si
basa su un’analisi dinamica e multidimensionale di una quantità elevata di record per
calcolare un insieme di dati numerici di sintesi che possano quantificare le prestazioni
aziendali.
Le principali operazioni che gli strumenti OLAP sono in grado di svolgere durante una
sessione di analisi delle informazioni contenute in un cubo, sono:
10
On-Line Transactional Processing
11
On-Line Analytical Processing
12
Roll-up: operazione che permette di aumentare l’aggregazione dei dati
eliminando un livello di dettaglio da una gerarchia.
Drill-down: al contrario permette di diminuire l’aggregazione dei dati
introducendo un ulteriore livello di dettaglio.
Slice-and-dice: l’operazione di slice esegue una selezione su una dimensione,
ottenendo un sottocubo di quello di partenza: l’operazione di dice esegue una
selezione su una o più dimensioni.
Drill-across: offre la possibilità di stabilire un collegamento tra due o più cubi al
fine di compararne i dati.
Pivot: operazione che permette di ruotare gli assi del cubo lasciando inalterati i
dati.
In questo capitolo si evidenzia come ottenere valore dai Big Data, affidandosi a una
serie di strumenti (tools) basati su una vasta gamma di tecniche e tecnologie per
estrarre, elaborare, analizzare e visualizzare i dati e ricavarne informazioni 12.
12
TENE O. – POLONETSKY J., Big Data for all: Privacy and user control in the age of analytics, in 11(5)
Northwestern Journal of Technology and Intellectual Property, 2013, 240 ss.
13
I Big Data hanno bisogno di tecniche particolari per elaborare in modo efficiente grandi
moli di dati in un intervallo di tempo limitato.
Questi metodi di analisi sono molto complessi e spesso richiedono un alto consumo di
tempo e memoria. In alternativa si possono utilizzare metodi per la riduzione dei dati
da analizzare e la parallelizzazione.
2.1.2 STATISTICA
14
Il machine learning (apprendimento automatico) è una branca dell’intelligenza
artificiale che ha lo scopo di progettare algoritmi che permettano ai computer di
imparare senza essere stati esplicitamente programmati. Tra le tecniche utilizzate
figurano: data mining, riconoscimento di pattern, reti neurali artificiali, elaborazione
delle immagini, ecc...
Tra le possibili applicazioni si elencano: il filtraggio delle email per evitare spam,
l'individuazione di intrusioni in una rete o di hacker che cercano di violare banche dati
o il riconoscimento ottico dei caratteri.
Il Big Data mining è più impegnativo rispetto ai tradizionali algoritmi di data mining.
Prendendo come esempio il clustering, un modo per raggruppare i Big Data è
estendere i metodi esistenti per far fronte agli enormi carichi di lavoro. La maggior
parte delle estensioni di solito si basano sull'analisi di una certa quantità di campioni di
Big Data, e variano nell’utilizzo dei risultati basati sui campioni per derivare una
partizione per i dati complessivi. I ricercatori si stanno concentrando sulla riduzione
della complessità computazionale.
15
Una rete neurale artificiale13 è un modello matematico che si ispira a una rete neurale
biologica, utilizzando "neuroni" artificiali. Questi modelli matematici possono essere
utilizzati ad esempio per il riconoscimento dei pattern7, l’analisi delle immagini o il
controllo adattativo.
“Visualizzare” i Big Data è più difficile rispetto ai tradizionali dataset, a causa della loro
naturale complessità. Molti ricercatori si affidano a tecniche di estrazione dei
parametri e a modellazioni geometriche per cercare di ridurre significativamente le
dimensioni dei dati prima di effettuare il rendering finale. Per interpretazioni più
precise e intuitive dei dati, alcuni ricercatori cercano di eseguire i software di rendering
dei dati in modalità batch, alla massima risoluzione possibile, in modo parallelo.
La social network analysis (analisi delle reti sociali), una tecnica fondamentale nella
sociologia moderna, vede le relazioni sociali in termini di teoria delle reti, e si compone
di nodi e legami. Viene utilizzata in tantissimi campi: dall’antropologia alla biologia,
dalle scienze della comunicazione all’economia, dalla geografia alla storia. La versione
di Internet delle reti sociali (social media) è una delle forme più evolute di
comunicazione in rete ed è ormai a portata di tutti. Tra le tecniche di social network
analysis si citano: la progettazione del sistema sociale, la modellazione del
comportamento umano, la visualizzazione di reti sociali e l'analisi dell’evoluzione delle
reti sociali. Uno dei principali ostacoli per quanto riguarda la social network analysis è
l’ampiezza dei Big Data; analizzare una rete costituita da milioni o miliardi di oggetti
connessi tra loro è computazionalmente costoso. Due possibili soluzioni a questo
problema sono il social computing e il cloud computing14.
13
artificial neural network - ANN
14
REICHMAN J.H. – SAMUELSON P., Intellectual Property Rights in Data?, in 50 Vanderbilt Law Review,
1997, 51 ss.
16
2.1.8 TECNICHE DI RIDUZIONE DEI DATI
Molti ricercatori considerano le dimensioni elevate dei Big Data come un problema,
anche se il loro volume non andrebbe ridotto, essendo una caratteristica peculiare.
Analizzando lo stato dell’arte delle tecniche per la gestione di grandi moli di dati, si può
riscontrare che la maggior parte delle soluzioni converge verso la riduzione del volume:
si cerca di mappare lo spazio dimensionale dei dati in un’area di minore estensione con
una perdita di informazioni che sia minima. In questo modo si facilita l’elaborazione dei
dati, sia in termini di riduzione dei tempi che in termini di riduzione degli spazi di
memorizzazione.
2.2 LE TECNOLOGIE
Dopo aver parlato delle tecniche per l’estrazione e l’elaborazione dei dati, passiamo a
esaminare quali sono i software che ci permettono effettivamente di dialogare con i
Big Data.
I dati vengono prima raccolti, poi inseriti nel sistema, ed infine elaborati per ottenere
risultati. L'elaborazione batch è particolarmente utile per operazioni che richiedono
l’utilizzo di un dispositivo per un periodo prolungato di tempo.
APACHE HADOOP Uno dei più famosi e potenti strumenti Big Data basato su batch
processing è Apache Hadoop, una piattaforma open source che fornisce capacità di
archiviazione distribuita e capacità di calcolo, entrambe scalabili. Caratteristiche
fondamentali di Hadoop sono il partizionamento dei dati e il calcolo parallelo di grandi
dataset.
17
La sua architettura è costituita dalle seguenti componenti principali:
15
File system: meccanismo con il quale i file sono posizionati e organizzati, su un dispositivo di
archiviazione o su una memoria di massa. Si dice distribuito quando permette di accedere ai file
contenuti su un computer remoto tramite rete, potenzialmente in simultanea da diversi computer.
(Wikipedia, File system, 2016)
16
Cluster: un insieme di computer connessi tramite una rete telematica. (Wikipedia, Computer cluster,
2017)
17
Demone (daemon): in informatica, nei sistemi Unix, e più in generale nei sistemi operativi
multitasking, un demone è un programma eseguito in background, cioè senza che sia sotto il
controllo diretto dell'utente, tipicamente fornendo un servizio all'utente. (Wikipedia, Demone
(informatica), 2016)
18
Utilizza un ResourceManager globale, che gestisce le risorse tra tutte le applicazioni
presenti nel sistema, e un ApplicationMaster per ogni applicazione, che ha il compito di
negoziare le risorse necessarie per lo sviluppo della sua applicazione.
MAPREDUCE
19
proprietà di scalabilità, accessibilità e una sicurezza, Pentaho aggiunge la possibilità di
generare diverse soluzioni di report, visual analysis interattive e dashboard
personalizzate. La piattaforma permette anche il collegamento con molti dei database
NoSQL più utilizzati, come ad esempio MongoDB o Cassandra. Una volta che la
connessione al database viene stabilita, gli utenti possono effettuare operazioni di drill-
up e drill-down sulle colonne utilizzando diversi gradi di granularità delle informazioni.
Gli utenti possono accedere ai propri dati anche attraverso un’interfaccia webbased.
Con l’utilizzo di procedure guidate, è possibile trasformare i dati in informazioni sulla
base delle quali prendere decisioni velocemente.
In alcuni campi, ad esempio nel mercato azionario, l’analisi dei flussi di Big Data deve
essere fatta quasi in tempo reale. Quindi le soluzioni di batch processing non sono
utilizzabili, ma vengono sostituite da soluzioni di stream processing, in cui
l’elaborazione dei dati avviene in parallelo per permettere una più veloce risposta alle
interrogazioni.
18
Fault tolerance: capacità di un sistema di continuare a funzionare anche se qualcuno dei suoi
componenti è guasto, grazie alla presenza di riserve pronte a sostituire immediatamente i componenti
danneggiati.
19
Extract, Transform and Load
20
workers. Il nodo master gestisce un demone chiamato Nimbus, che è responsabile
della distribuzione del codice nel cluster, dell’assegnazione dei compiti ai nodi workers
e del monitoraggio dell’intero sistema. Se si verifica un errore nel cluster, il Nimbus lo
rileva e ri-esegue l'attività corrispondente. Ogni nodo worker esegue un demone
chiamato Supervisor. Il Supervisor avvia e arresta i processi nella sua macchina in base
alle direttive che il nodo Nimbus gli ha assegnato. Ogni processo di lavoro esegue un
sottoinsieme di una topologia; una topologia in esecuzione consiste di molti processi di
lavoro sparsi in molte macchine. Il coordinamento tra Nimbus e Supervisors viene fatto
attraverso un altro tipo di demone, detto Zookeeper che registra tutti i loro stati sul
disco locale.
21
SPLUNK Splunk è una piattaforma che permette la gestione in tempo reale dei dati IT
generati dinamicamente da applicazioni, dispositivi e server, siano essi fisici, virtuali o
nel Cloud. La sua architettura è scalabile e basata su MapReduce, man mano che i
volumi giornalieri e il numero di sorgenti dati aumentano, è possibile aumentare anche
le prestazioni aggiungendo nuovi server standard. Il bilanciamento automatico
ottimizza i carichi di lavoro e i tempi di risposta. La presentazione dei risultati avviene
in modo intuitivo, grazie alle funzioni di reporting e analytics preconfigurate. Splunk
permette di: individuare relazioni tra eventi o attività; creare relazioni in base al
tempo, al luogo, o a risultati di ricerche personalizzate; individuare eventi correlati,
come una transazione o una sessione, e indagare sulle transazioni non andate a buon
fine; identificare automaticamente anomalie e incidenti utilizzando la potenza del
machine learning. Infine Splunk offre anche la possibilità di collegarsi ad altre
piattaforme, come ad esempio Hadoop, per la condivisione dei dati.
GOOGLE DREMEL
22
di eseguire query di aggregazione su tabelle di miliardi di righe in pochi secondi
mediante combinazione di alberi di esecuzione multi-livello e un layout dei dati
colonnare. Google fornisce anche una versione SaaS di Dremel: BigQuery.
APACHE DRILL
Apache Drill è un altro sistema open source distribuito per l'analisi interattiva dei Big
Data. E’ simile a Dremel di Google, ma è più flessibile e supportare una varietà di
diversi linguaggi di interrogazione, formati e fonti di dati. Come Dremel, Drill è
specificamente progettato per sfruttare in modo efficiente i dati nidificati e raggiunge
la capacità di elaborare petabyes di dati e miliardi di record in pochi secondi. Un’altra
particolarità che contraddistingue Drill è che una singola query può unire dati
provenienti da più archivi. Infatti Drill supporta una varietà database NoSQL e file
system, come HBase, MongoDB, HDFS, Amazon S3, Google Cloud Storage, e file locali.
Drill e Dremel sono entrambi esperti in interrogazioni ad hoc di dati su larga scala.
Usano HDFS per la conservazione e MapReduce per eseguire l'analisi batch. Tramite la
ricerca di dati memorizzati in forma colonnare o all'interno di un file system distribuito,
è possibile eseguire la scansione di più petabyte di dati in pochi secondi, in risposta a
una query ad hoc.
In conclusione, ogni piattaforma ha il suo punto di forza: alcune sono progettate per
l'elaborazione batch, altre per l’analisi in tempo reale; ciascuna ha funzionalità
specifiche, ad esempio, l'analisi statistica, il machine learning o l'elaborazione flusso di
dati. L’azienda deve valutare quali sono le proprie esigenze e adottare la soluzione che
maggiormente vi si adatta.
L’analisi dei dati può condurre a diversi livelli di conoscenza correlati alla
tipologia di modelli di analytics messi in campo. È possibile identificare tre
categorie principali: Descriptive Analytics: permettono di descrivere la
situazione attuale e quella passata. Sono costituite da un insieme di strumenti
che permettono di effettuare analisi sui fatti storici per fornire una fotografia
23
del momento. Ad esempio con l’analisi descrittiva si possono esaminare i dati
storici dell’utilizzo di energia elettrica per contribuire a pianificare il fabbisogno
energetico e consentire alle aziende elettriche di fissare prezzi ottimali.
Predictive Analytics: comprendono una varietà di tecniche statistiche di
modellazione, machine learning, data mining e teoria dei giochi che analizzano i
fatti attuali e storici per fare previsioni su eventi futuri.
Prescriptive Analytics: permettono non solo di fare previsioni sugli eventi futuri,
ma sono in grado di proporre possibili soluzioni operative o strategiche sulla
base delle analisi svolte.
Automated Analytics: strumenti capaci di mettere in pratica autonomamente
l’azione proposta, a seguito del risultato delle analisi svolte.
24
Self-Service: l’utente deve poter richiedere i servizi (banda, potenza
computazionale, applicazioni) autonomamente, senza l’intervento dei gestori
dell’infrastruttura o dei service provider.
Accessibilità globale: i servizi devono essere accessibili da più luoghi, da più
dispositivi (mobile, tablet, pc desktop o grandi server)e in ogni momento.
Raggruppamento delle risorse: le risorse IT (storage, processori, macchine
virtuali ecc.) devono essere organizzate in gruppi e non isolate così da poter
servire dinamicamente un numero variabile di utenti secondo le loro richieste.
Elasticità immediata: le risorse devono poter scalare (verso l’alto e verso il
basso) velocemente e, in alcuni casi, automaticamente. Misurabilità dei
servizi: l'utilizzo delle risorse può essere monitorato, controllato, e riferito, in
modo trasparente sia per il fornitore e il consumatore del servizio utilizzato.
25
Private Cloud: i servizi di cloud computing sono erogati ad un’unica azienda e
alle sue unità. L’infrastruttura può essere gestita da un provider esterno o
dall’azienda stessa.
Community Cloud: i servizi sono erogati da un’azienda o da un service provider
ad un gruppo ristretto di organizzazioni che condividono alcune caratteristiche.
Anche in questo caso l’infrastruttura può essere gestita da una delle aziende
del gruppo o da un provider esterno. Public Cloud: i servizi di cloud vengono
erogati tramite Internet da un service provider verso più clienti. La proprietà e
la gestione di infrastrutture, piattaforme e applicazioni sono del service
provider e vengono condivise con i clienti.
Hybrid Cloud: sono ibridi che utilizzano una combinazione di due o più
infrastrutture (private, community o public).
26
CAPITOLO III – BIG DATA ANALYTICS: AMBITI DI APPLICAZIONE
Come emerge dai capitoli precedenti, le potenzialità fornite dall’analisi dei Big Data
sono molteplici. Molteplici sono anche i settori in cui queste potenzialità vengono
sfruttate. In questo capitolo si approfondiranno alcuni settori e si presenteranno degli
esempi per poter dimostrare come la Big Data Analytics viene impiegata oggigiorno, ad
eccezione del settore Business che sarà approfondito nel capitolo
27
pensare al diffusissimo uso di Facebook o Instagram, per non parlare poi di Google o
Amazon. Ogni ricerca, ogni parola digitata, ogni clic effettuato. Tutto è registrato,
elaborato e utilizzato per capire chi sono gli utenti, quali sono i loro interessi e
preferenze. Tramite strumenti di predizione si individuano possibili prodotti o servizi di
interesse, che tramite pubblicità vengono poi proposti agli utenti24.
Molti esempi di utilizzo di Big Data provengono anche da banche e istituti di credito.
L’analisi inizia unendo insieme dati provenienti dalle diverse fonti a disposizione delle
banche: anagrafiche, transazioni delle carte di pagamento, investimenti finanziari e
immobiliari, elenchi dei fidi e social media. Con il supporto di questi Big Data «le
banche possono fare offerte personalizzate ai propri clienti grazie ad una migliore
profilazione e conoscenza delle loro esigenze, passioni e abitudini di consumo;
individuare frodi tramite alert sui sistemi di pagamento come le carte di credito e
debito e sulle apparecchiature Atm; creare un miglior profilo di rischio credito del
24
PITRUZZELLA G., Big Data, Competition and Privacy: A Look from the Antitrust Perspective, in 23
Concorrenza e mercato, 2016, 15 ss
28
proprio cliente e dei prospect; effettuare previsioni sui trend dei consumi dei loro
clienti; ridurre le inefficienze e favorire l’interazione banca-cliente nella creazione di
nuovi prodotti/servizi (Crowdsoursing)»25.
Ad esempio, alcune società emettitrici delle carte di credito hanno identificato delle
particolari associazioni per valutare il rischio finanziario di una persona. Sembrerebbe,
infatti, che le persone che acquistano feltrini per i mobili rappresentino i clienti
migliori, perché secondo le ricerche sarebbero più attente e propense a colmare i
propri debiti nei tempi giusti.
3.3 TURISMO
L’analisi dei Big Data viene utilizzata anche nel settore del turismo da compagnie
aeree, catene alberghiere e viaggiatori, per rendere più confortevole un viaggio anche
in caso di imprevisti.
L’azienda spagnola Amadeus ha ideato un’app che, in caso di annullamento del volo,
consente di trovare mete alternative, tendendo presente gusti e preferenze del
viaggiatore.
La compagnia aerea KLM, invece, dopo aver analizzato gli status sui social dei
viaggiatori, regala loro oggetti utili per il viaggio prima della partenza dall’aeroporto.
Tourism Australia ha sfruttato l’analisi Big Data per indirizzare meglio i suoi
investimenti pubblicitari. Secondo alcuni sondaggi le persone che non erano mai state
in Australia, assegnavano al paese un punteggio piuttosto basso per quanto riguardava
il turismo enogastronomico, dovendosi poi ricredere. La media dei turisti, dopo aver
visitato il paese, lo classifica al terzo posto come appeal enogastronomico, dopo
Francia e Italia. A seguito di questa analisi Tourism Australia ha deciso di investire 8,6
milioni di dollari in una campagna digitale mirata su cibo e vino.
In America, l'analisi dei Big Data viene utilizzata da anni nel settore pubblico, sia dai
servizi di intelligence, per scandagliare milioni di dati al giorno alla ricerca di potenziali
25
Camiciola, 2016
29
pericoli per la nazione, ma anche dai Ministeri e dagli enti pubblici per identificare
sprechi e inefficienze. I Big Data possono essere utilizzati anche per gestire i soccorsi
nelle catastrofi naturali, integrando i dati con le informazioni sulla localizzazione degli
utenti, tramite GIS Data (Geographic Information System). Un esempio è stato il loro
utilizzo durante l'uragano Irene, analizzando post sui social, foto, e video in tempo
reale, unitamente ai dati sulla loro posizione geografica, è stato possibile direzionare i
soccorsi in maniera efficiente. La Florida Division of Emergency Management ha messo
a punto un sito26 e un’app basati esattamente su queste unioni di dati per capire quali
sono le zone a rischio e individuare eventuali persone isolate che necessitano di
soccorso. Un altro esempio è l’utilizzo dei Big Data da parte dei corpi di polizia per
prevedere le zone in cui potrebbero verificarsi dei crimini, censendo le aree dove sono
stati commessi. A Los Angeles il tasso di criminalità è sceso del 13% in 4 mesi
utilizzando l’analisi27.
Ogni azienda può essere concepita come un insieme di attività suddivise in attività
primarie (che concorrono alla produzione e distribuzione del bene/servizio) e attività di
supporto o infrastrutturali (che sostengono le attività primarie). Alcuni processi con un
elevato grado di complessità possono essere ulteriormente scomposti. A titolo di
esempio si riporta di seguito la suddivisione di un processo campione dell’area dei
Crediti.
26
www.floridadisaster.org
27
1Giuseppe Roccasalva, 201, p. 97, “I Big Data e gli strumenti di visualizzazione analitica: interazioni e
studi induttivi per le P.A.”.
30
3 La descrizione del processo deve avvenire con il coinvolgimento del process
owner, sia in fase di prima mappatura che in fase di revisione periodica
4 La mappa del processo deve essere disegnata sulla base di quello che è il processo
reale, che potrebbe non corrispondere a quanto ritenuto dal management.
5 La mappa del processo deve essere verificata e concordata con il management.
6 La mappatura non deve necessariamente essere dettagliata in prima release e
comunque il livello di dettaglio dipende dall’uso che si vuole fare di queste
informazioni.
7 Le fonti informative devono essere eterogenee:
8 La mappatura deve considerare anche le attività anomale e le eccezioni al
processo normale.
Si utilizzano capacità esterne presso le software house: SAP Microsoft, Apple, IBM,
SAS. Gli outsourcer non fanno solo software ma li gestiscono nel tempo. La proprietà
intellettuale è di un esterno e infatti si paga la licenza d'uso.
3.5 SANITÀ
Anche nell’ambito sanitario, come già citato, i Big Data giocano un ruolo importante. Si
segnala il fallimentare “Google Flu Trends”, un interessante progetto di Google, il cui
scopo era stimare l’andamento dell’influenza in tempo reale in America, basandosi
31
sull’analisi delle parole chiave ricercate. Mentre nel 2008 Google era riuscito con
successo a prevedere l’avanzamento dei focolai di influenza negli USA più velocemente
dello stesso ministero della salute, nella stagione 2012/2013 ha sovrastimato di più del
doppio i casi di influenza. Ricercatori sostengono che questo errore sia stato dovuto
proprio dagli algoritmi utilizzati per il suggerimento di risultati. In pratica i dati che
Google Flu Trends analizzava erano gli stessi che Google aveva contribuito a creare,
inducendo un aumento dell’uso di determinati termini, su cui si basava la previsione
dell’influenza.
Due esempi di successo invece vengono proprio dall’Italia, protagonisti principali sono:
Cineca, ARNO e CORE. Cineca è un Consorzio Interuniversitario senza scopo di lucro
formato da 70 università italiane, 6 Enti di Ricerca Nazionali e il MIUR, il cui scopo è
promuovere l’utilizzo delle IT a favore della ricerca scientifica e tecnologica. Nel 1987
Cineca ha creato l’Osservatorio ARNO, che si occupa della raccolta delle prestazioni
sanitarie erogate ogni singola ASL convenzionata, con il fine di monitorare i consumi e
valutare l’efficacia e l’appropriatezza clinica delle prestazioni erogate. ARNO mette
quindi a disposizione degli utenti un enorme database, che è stato integrato da un
gruppo di lavoro che ha in seguito realizzato una società, denominata CORE
(Collaborative Outcome Research Evaluation) per attività di ricerca in ambito sanitario.
Con la collaborazione di altri partner di ricerca, queste tre figure sono state in grado di
trovare delle correlazioni importanti in ambito sanitario, affidandosi all’analisi dei Big
Data.
32
Il secondo esempio di analisi dei Big Data viene da uno studio di vita reale sullo
scompenso cardiaco, fatto da ANMCO 28 , CORE ed ARNO. Lo studio ha preso in esame
pazienti dimessi dopo un ricovero ospedaliero per scompenso cardiaco, registrandone
le caratteristiche cliniche, i trattamenti farmacologici, eventuale riospedalizzazione e i
costi diretti per il SSN per un intero anno. Mettendo tutti questi dati in relazione è
stato possibile dimostrare come i risultati reali fossero molto diversi da quelli
solitamente dettati dalla letteratura in materia di studi controllati: età, sesso e
trattamenti prevalenti descritti in letteratura non corrispondono ai risultati ottenuti
dallo studio. Inoltre nel corso dell’anno di osservazione il 56,6% dei pazienti è stato
nuovamente ricoverato, e il 49% di loro per cause non cardiovascolari. Lo studio quindi
evidenzia come, con un approccio differente che tenga conto anche delle
multipatologie dei pazienti, sarebbe possibile ridurre il numero di secondi ricoveri,
migliorando la salute dei cittadini e riducendo i costi per il SSN.
28
Associazione Nazionale Medici Cardiologi Ospedalieri
33
CAPITOLO IV– OPPORTUNITÀ PER LE AZIENDE
La catena del valore è un modello teorizzato da Michael Porter nel 1985, che descrive
la struttura di un’organizzazione come un insieme di processi primari e di supporto.
«La catena del valore disaggrega un’azienda nelle sue attività strategicamente rilevanti
allo scopo di comprendere l’andamento dei costi e le fonti interne di
differenziazione»29 .
La catena del valore è quindi un sistema di attività dipendenti tra loro, poiché il modo
in cui un’attività viene realizzata influisce sui costi e sulle prestazioni delle altre. Come
fare quindi a massimizzare le prestazioni di tutte le attività? Sfruttando gli strumenti
che Big Data Analytics mette a disposizione. Come emerso durante la trattazione dei
29
Porter, 1987
34
precedenti capitoli, le analisi dei dati provenienti dalla molteplicità di fonti, interne ed
esterne all’azienda, possono rivelare sprechi o suggerire soluzioni non ancora prese in
esame per il miglioramento di processi o prodotti.
Uno delle attività in cui sicuramente i Big Data sono considerati un’importante fonte di
valore è il Marketing. Come già citato in precedenza, l’analisi dei dati è molto sfruttata
nella costruzione dei c.d. “metodi di raccomandazione”, tra cui fanno parte, ad
esempio, algoritmi che riescono a predire se una shopper donna è incinta. Tracciando
le sue ricerche sul web e i suoi acquisti, questi programmi sono in grado di individuare
se l’utente è in dolce attesa, ed ecco che tramite siti di ecommerce o mailing list, le si
propongono offerte speciali e coupon su prodotti mirati.
Analizzando diverse fonti di dati, l'azienda può avere una visione molto chiara di quelle
che sono le idee e le impressioni dei clienti sul suo brand e sui suoi prodotti. Un
esempio recente è rappresentato da Netflix. All’inizio della sua storia, Netflix non era
altro che una piattaforma di streaming di contenuti (film, telefilm, documentari,
cartoni animati) prodotti e realizzati da altri, ma negli ultimi anni sta avendo un gran
successo per la produzione di contenuti originali. Netflix ha a disposizione un enorme
database, costituito dai dati demografici dei suoi utenti, dalle loro serie preferite, serie
abbandonate a metà, picchi di attenzione, ecc. Analizzando i dati sulla visione dei
programmi da parte degli utenti, riesce a identificare schemi ricorrenti, abitudini e
gusti condivisi nelle diverse nazioni. L'azienda ha condotto una ricerca su 30 serie
televisive trasmesse in tutto il mondo per trovare quali sono state le puntate che
hanno catturato l'attenzione di almeno il 70% degli spettatori (sia a livello di singolo
paese che su scala globale), che hanno poi continuato a guardare le stesse serie per
tutte le puntate. Da questi dati è emerso che molti comportamenti degli utenti sono
universali. Gli abbonati hanno le stesse preferenze, seguono le stesse serie, si
identificano con gli stessi personaggi, pur essendo di nazionalità o etnie diverse. Così
35
Netflix, grazie ai Big Data, è in grado di identificare le tematiche “calde” e produce
contenuti che riscuotono enormi successi internazionali in termini di audience.
Anche nel settore della logistica e dei trasporti la Big Data Analytics gioca un ruolo
dominante. Prendiamo l’esempio di PTV Group, azienda tedesca che produce software
e servizi di consulenza nei settori del trasporto, della logistica, e del geomarketing 30.
Uno degli obiettivi di chi utilizza questa tipologia di software è prevedere con
precisione la durata e i costi di ciascun viaggio.
31
Anche gli strumenti CRM (Customer Relationship Management) costituiscono un
buon esempio per dimostrare come la raccolta, l’analisi e la visualizzazione dei dati
funzionino in concreto. Il CRM fornisce strumenti analitici che riassumono le
informazioni sui clienti, raccolte attraverso vari canali, trasformandole in dati che,
tramite analisi appropriate, possono essere tradotti in azioni commerciali. Utilizzando
gli strumenti CRM nei servizi di vendita o post-vendita, le aziende possono
comprendere meglio i loro clienti e fornire loro un servizio personalizzato.
Personalizzare le interazioni con i clienti aiuta ad aumentare la fedeltà, differenziando
l’azienda rispetto ai concorrenti, e allo stesso tempo, con le giuste informazioni, il
settore commerciale può essere in grado di identificare e trasformare i contatti in
vendite effettive.
30
Geomarketing: approccio di marketing che utilizza le informazioni riferite al territorio (dati
georeferenziati) per analizzare, pianificare ed attuare le attività di marketing. (Wikipedia,
Geomarketing, 2016) aggiornamenti in tempo reale del traffico forniti dai navigatori satellitari,
i limiti di velocità, le restrizioni di peso e altezza, le zone di controllo delle emissioni, le
restrizioni temporali di accesso a determinate aree fino ai dati relativi alle tariffe di pedaggio.
Grazie all’analisi di tutte queste variabili il software è in grado di pianificare percorsi ottimali
per i carichi, stimare accuratamente i costi e fornire suggerimenti in caso di traffico o
imprevisti. Tutte queste informazioni possono anche essere messe a disposizione dei clienti,
per comunicare in tempo reale l’arrivo della merce e gestire gli eventuali tempi di attesa.
31
Il CRM può essere definito come un processo integrato e strutturato per la gestione delle
relazioni con la clientela, il cui scopo è la costruzione di relazioni personalizzate di lungo
periodo con il cliente, in grado di aumentare la soddisfazione dei clienti e, in ultima analisi, il
valore per il cliente e per l’impresa. (Farinet & Ploncher, 2002)
36
Questi sono solo alcuni dei tantissimi esempi di applicazioni pratiche che possiamo
trovare nelle grandi aziende di tutto il mondo, ma effettivamente, in Italia qual è la
situazione? Essendo il nostro tessuto imprenditoriale costituito prevalentemente da
piccole e medie imprese (PMI), si vuole ora analizzare qual è il loro rapporto con
queste nuove fonti di valore.
Nell’ambito della Ricerca 2016, l’Osservatorio Big Data Analytics & Business
Intelligence ha condotto una rilevazione in tutta Italia che ha coinvolto 803 imprese,
tra piccole e medie32, con l’obiettivo di «comprendere la maturità del mercato degli
Analytics e il ruolo svolto da parte delle PMI» 33 . Come era prevedibile, l’utilizzo degli
strumenti Analytics in Italia da parte di piccole e medie imprese è ancora scarso,
rispetto all’uso ormai consolidato che ne fanno le grandi. Solo una PMI su tre ha
riservato parte del Budget 2016 destinato alle ICT a tali strumenti, equivalente al 34%.
Invece relativamente all’analisi settoriale, si evidenzia come alcuni settori siano più al
passo con i tempi rispetto ad altri: «sono circa una su due le organizzazioni che
adottano soluzioni di Analytics appartenenti al settore delle Banche e Assicurazioni
(55%), e Grande Distribuzione Organizzata (47%); seguono, più distaccati, il settore
della Pubblica Amministrazione e Sanità (39%), del Manifatturiero (34%), delle
Telecomunicazioni e Media (28%), delle Utility (24%) e, per ultimo, dei Servizi (23%)»
(Osservatorio Big Data Analytics & Business Intelligence, 2016).
Per quanto riguarda la tipologia di analisi più diffusa, dai risultati emerge che la
maggior parte delle aziende prese in esame si affida a modelli descriptive analytics,
32
Si sono considerate piccole le imprese aventi tra 10 e 49 addetti, e medie le imprese aventi
tra 50 e 249 addetti.
33
Osservatorio Big Data Analytics & Business Intelligence, 2016
37
26%. Mentre l’utilizzo di modelli predictive analytics è ancora piuttosto limitato, solo il
16%. I modelli prescriptive e automated analytics risultano essere poco conosciuti.
Tra le PMI che usufruiscono di soluzioni Analytics emerge che sono in minoranza (18%)
le aziende che si affidano a strutture esterne o che ancora utilizzano software
generalisti (es. foglio elettronico). Il 41% possiede software di visualizzazione e analisi
dei dati dedicati, anche se solo parzialmente integrati con i propri sistemi informativi, e
il restante 41%, invece utilizza software avanzati e integrati.
CONCLUSIONI
Considerando l’utilizzo intensivo ed esteso dei dispositivi elettronici e digitali che ogni
giorno producono dati, si può affermare che i Big Data rappresentino una fonte
inestimabile di valore. Mentre in precedenza le informazioni in circolazione erano
poche e non sempre affidabili, oggi giorno siamo noi stessi a produrne in abbondanza
ogni volta che utilizziamo un dispositivo elettronico, che sia uno smartphone, un pc, un
tablet o un navigatore. Basta riflettere con quanta frequenza ci connettiamo ai social
network, facciamo acquisti tramite app, consultiamo le nostre email o effettuiamo
operazioni bancarie online. Qualunque cosa digitiamo, fotografiamo o registriamo, la
musica che ascoltiamo, tutto va ad alimentare le enormi basi di dati che abbiamo
imparato a definire Big Data. Lo scopo di questa trattazione era fornire una
panoramica su questi strumenti e mettere a fuoco le opportunità che offrono alle
aziende. Non è difficile immaginare come, in un futuro nemmeno tanto lontano, i BD
saranno in grado di permettere alle imprese di proporre un’offerta sulla base di
desideri non ancora divenuti domanda.
Le opportunità sono sempre seguite da sfide. La sfida, in questo caso, sta nel saper
gestire i problemi legati ai Big Data e le difficoltà che si incontrano quando ci si trova ad
analizzare un volume sempre più crescente di Petabyte di dati. Il primo problema è
38
rappresentato dalle infrastrutture, che non evolvono alla stessa velocità dei dati che
devono elaborare. Questo ha ovvie implicazioni anche sulle prestazioni dei metodi di
elaborazione dei dati, soprattutto per analisi in tempo reale.
In secondo luogo si deve considerare anche la qualità dei dati. Come dimostrato
dall’esempio di Google Flu Trends, i dati devono avere determinate caratteristiche: «
accuratezza, intesa come perfetta rispondenza del dato con la realtà che rappresenta;
attualità, cioè il giusto tempo con il quale il dato è creato o aggiornato;
coerenza, dato non contraddittorio con altri dati, all’interno del sistema o tra
sistemi;
completezza, ove tutti gli attributi necessari sono presenti, con tutte le fonti;
credibilità, nel caso in cui la fonte del dato è certa.» 34
Altra problematica rilevante è la sicurezza dei dati e della tutela della privacy.
Soprattutto sui social network, si corre il rischio di non comprendere a fondo il
significato delle nostre condivisioni, spesso accettando condizioni poco chiare che
permettono a terze parti di accedere alle nostre informazioni. La raccolta e l’analisi di
enormi banche dati, da parte di più soggetti, può mettere in serio pericolo la privacy,
argomento che è stato protagonista anche del convegno dal titolo “Big Data e Privacy.
La nuova geografia dei poteri.”, organizzato dal Garante per la privacy in occasione
dell’ultima Giornata europea per la protezione dei dati personali (30 gennaio 2017).
Proprio nel tentativo di trovare un difficile equilibrio tra Big Data e privacy, il Garante
Europeo per la Protezione dei Dati Personali già nel novembre del 2015 ha presentato
un documento dal titolo “Meeting the Challenges of Big Data: A Call for Transparency,
User Control, Data Protection by Design and Accountability”, nel quale sono descritti
gli aspetti più critici dell’attuale normativa comunitaria, e dove vengono indicate le
linee guida per il trattamento dei BD in conformità alla normativa vigente.
39
parte di imprese e utenti, in futuro si sarà in grado anche di risolvere le problematiche
che derivano dalla crescita esponenziale di questi enormi volumi di dati.
BIBLIOGRAFIA E SITOGRAFIA
PITRUZZELLA G., Big Data, Competition and Privacy: A Look from the Antitrust
Perspective, in 23 Concorrenza e mercato, 2016, 15 ss
Caccavella,F.2013, novembre 11
Colarocco, V. (2016, aprile 05). La privacy ai tempi dei Big Data. Tratto il giorno marzo
06, 2017 da Owl Italia: http://owlitalia.com/la-privacy-aitempi-dei-big-data Farinet, A.,
& Ploncher, E. (2002).
Fontana F., Caroli M.: Economia e Gestione delle Imprese, McGraw-Hill, (2013).
Giuseppe Roccasalva, 201, p. 97, “I Big Data e gli strumenti di visualizzazione analitica:
interazioni e studi induttivi per le P.A.”.
40
Holmes, A. (2015). Hadoop in Practice second edition. Shelter Island: Manning. Hosting
Talk. (2015, maggio 2015). Machine learning la prossima frontiera dei big data. Tratto il
giorno febbraio 2017, 24 da Hosting Talk: http://www.hostingtalk.it/machine-learning-
prossima-frontiera-bigdata/ Hurwitz, J., Nugent, A., Halper, F., & Kaufman, M. (2013).
Big Data for Dummies. Hoboken, New Jersey: John Wiley & Sons, Inc. Karthik Kambatla,
Giorgos Kollias, Vipin Kumar, & Ananth Grama. (2014). Trend in big data analytics.
Journal of Parallel and Distributed Computing(74), 2561-2573.
Osservatorio Big Data Analytics & Business Intelligence. (2016). La Ricerca. Big Data:
guidare il cambiamento, liberare valore. Milano. Pescatore, F. (2011, luglio 1).
La Storia dei Database, le origini. Tratto il giorno febbraio 16, 2017 da Appunti Digitali:
http://www.appuntidigitali.it/15929/la-storia-dei-database-le-origini/ Pillon, S. (2016,
novembre 02).
RIFKIN J., L’era dell’accesso, La rivoluzione della new economy, Mondadori, 2000.
RIFKIN J., Società a costo marginale zero, Mondadori, 2014
Rezzani, A. (2013). Big Data - Architettura, tecnologie e metodi per l'utilizzo di grandi
basi di dati. Sant'Arcangelo di Romagna: Maggioli. Rizzi, S., & Golfarelli, M. (2006).
TENE O. – POLONETSKY J., Big Data for all: Privacy and user control in the age of
analytics, in 11(5) Northwestern Journal of Technology and Intellectual Property, 2013,
240 ss.
41
https://www.splunk.com/it_it The Apache Software Foundation. (2017, gennaio 20).
https://it.wikipedia.org/w/index.php?title=Speciale:Cita&page=Demon
https//it.wikipedia.org/w/index.php?title=Geomarketing&oldid=83789200
//it.wikipedia.org/w/index.php?title=Simulated_annealing&oldid=8251
//it.wikipedia.org/w/index.php?title=Analisi_della_regressione&oldid=
//it.wikipedia.org/w/index.php?title=Apprendimento_automatico&oldid
//it.wikipedia.org/w/index.php?title=Byte&oldid=85731392 Wikipedia.
//it.wikipedia.org/w/index.php?title=Calcolo_parallelo&oldid=8555925 L'enciclopedia
https://www.linkedin.com/pulse/big-data-nel-futuro-digitale-dellebanche-andrea-
camiciola Capodieci, G. (2013, luglio 1)
42