Mariani 24ORE Business School 06 03 2020

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
Master
Big Data e Business Analytics
Paolo Mariani
Andrea Marletta

6 marzo 2021
FONDAMENTI DI BIG DATA
• Small-Open-Social-Big Data: come definirli, contestualizzarli e utilizzarli
• Le fonti informative
• Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive
• Apprendimento supervisionato e non supervisionato
• Introduzione agli strumenti e linguaggi da utilizzare per implementare le diverse tipologie di analisi: R e R Studio

Dati: Small, Open e Big



Da qualche anno un “diluvio” di dati sembra avere investito

imprese enti ed istituzioni. Si è passati dai dati Small a quelli Big,
dalla loro quasi totale indisponibilità a quelli Open. Alla parabola
ascendente dei dati è seguita quella discendente delle
informazioni, passando dal loro utilizzo mirato per il supporto alle
decisioni a quello di una generale disponibilità non finalizzata.
Per trovare una migliore accessibilità e fruibilità è aumentato il
ricorso alle metodologie che permettono di isolare il segnale dal
rumore. Il contesto “Big” si candida ad essere uno dei primi ambiti
per esplorare le nuove opportunità offerte dai dati, dalla
tecnologia, dalle tecniche di analisi.
Le applicazioni che verranno realizzate e commentate durante

l’incontro offriranno lo spunto per supportare ricercatori e aziende
nel focalizzare gli obiettivi e orientare le attività.
The data deluge refers to the situation where the sheer volume of new data
being generated is overwhelming the capacity of institutions to manage it and
researchers to make use of it.


SMALL DATA
… chiamati anche ‘microdati’,

sono insiemi di dati elementari,
collezionati a fini statistici per il
raggiungimento di specifici
obiettivi.
Si prestano ad essere trattati

con metodologie e tecniche
note e condivise.


OPEN DATA
… dati messi a disposizione per essere liberamente utilizzati,
riutilizzati e redistribuiti, con a volte alcune prescrizioni.


https://www.ibm.com/it-it/analytics/spss-trials

BIG DATA
… compongono un insieme gigantesco e in continuo

accrescimento, istante per istante, in ogni luogo del mondo,
generato spesso inconsapevolmente da milioni di persone, con
riferimento a tantissime tematiche. Questo enorme giacimento
informativo viene usualmente definito come Big Data ma non
bisogna lasciarsi ingannare da una prima traduzione dei termini,
non solo sono ‘grandi dati’ o più semplicemente tanti dati.

OGGI
Le aziende dispongono di una capacità di storage molto maggiore
rispetto a quella del passato, residente e ancora non
completamente utilizzata.
Le risorse umane sono formate per gestire gli aspetti tecnologici e

di analisi in azienda.
Il patrimonio digitale è sostanzialmente generato dall’azienda.
A fronte di un grande interesse per lo sviluppo tecnologico e di

analisi si percepisce una latente diffidenza legata al non controllo.

DOMANI
Le aziende disporranno di una capacità di storage molto maggiore
rispetto a quella di oggi, non residente e potenzialmente non
limitata.
Le risorse umane saranno formate per gestire gli aspetti

tecnologici e di analisi non in azienda.
Il patrimonio digitale sarà sostanzialmente generato al di fuori

dell’azienda.
In relazione allo sviluppo tecnologico e di analisi si procederà ad

un crescente utilizzo di risorse esterne.

Dati Big Data
Volume Megabyte MB – 10 ^6 Zettabyte ZB – 10^21
Velocità Non in tempo reale Tempo reale

Varietà Strutturati e raramente integrati Strutturati e Non strutturati
da più fonti Da integrare poiché da più fonti
Valore Elevato Da dimostrare
Veridicità Elevata Contenuta
Validità Elevata Limitata e con elevata obsolescenza

temporale
Visualizzazione Elevata Contenuta

Il contesto attuale e gli scenari a breve
Alcune tappe del percorso IT ➢ Arriva il WEB
➢ Mainframe ➢ Digitale
➢ Personal computer ➢ Social
COBOL, Amazon.com
Edsel ARPANET Internet
Web Web as a Web Services,

Darkness
Awareness Platform Resources Eliminated
Dot-Com Bubble Web 2.0 Web Scale

The ObligatoryTimeline Slide (Mike Culver@AWS)
Computing

Le fonti informative
Banking
Social
Media
Finance
Our
Gaming Customer Known
History
Entertain Purchase

… nuovi dati e nuove fonti
• Rilevanza dei concetti statistici: devono contenere misurazioni e prodotti statistici
che riflettano le esigenze degli utilizzatori.
• Accessibilità: l’informazione deve essere chiara e ottenuta in modo semplice.
• Attendibilità: ci deve essere un alto grado di corrispondenza tra i dati contenuti nelle
fonti e la realtà.
• Comparabilità: devono permettere di affiancare le informazioni integrandole con altre,

analoghe, provenienti da altre sorgenti.
• Completezza: spesso non sono disponibili i dati per alcune aree territoriali o segmenti.
• Tempestività: il momento della rilevazione non deve essere troppo distante

dall’istante in cui vengono diffusi e resi disponibili i dati
• Periodicità: devono aggiornare periodicamente le informazioni che mettono a

disposizione.
• Qualità: attenzione alla produzione del dato statistico.

… nuovi dati e nuove fonti
SMALL DATA BIG DATA

Rilevanza dei concetti statistici ALTA DA DIMOSTRARE
Accessibilità ALTA BASSA
Attendibilità ALTA DA DIMOSTRARE
Comparabilità MEDIA DA DIMOSTRARE
Completezza ALTA BASSA
Tempestività BASSA ALTA
Periodicità BASSA ALTA

Il trend della Business Intelligence

DATA SCIENCE
BIG DATA
CRM
ROI
Data Mining
OLAP
Reporting

Tempo
Data warehouse
Traditional
analytic tools

SEGNALE
Data warehouse
Traditional
analytic
tools
RUMORE


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

The study is based ona sample of 58,466 volunteers from the United States, obtained through themy Personality Facebook application
(www.mypersonality. org/wiki), which included their Facebook profile information, a list of their Likes (n = 170 Likes per person on average),
psychometric test scores, and survey information. Users and their Likes were represented as a sparse user–Like matrix, the entries of which
were set to 1 if there existed an association between a user and a Like and 0 otherwise. The dimensionality of the user–Like matrix was
reduced using singular-value decomposition (SVD) (24). Numeric variables such as age or intelligence were predicted using a linear regression
model, whereas dichotomous variables such as gender or sexual orientation were predicted using logistic
regression. In both cases, we applied 10-fold cross-validation and used the k =100 top SVD components. For sexual orientation, parents’
relationship status, and drug consumption only k = 30 top SVD components were used because of the smaller number of users for which this
information was available.

Relative popularity of selected Likes

within groups of Democrat, Homosexual,
Christian, and African American users.
Because Likes differed greatly in
popularity (e.g., “Barack Obama” was
nearly four times more popular than “Mitt
Romney”), we calculated relative
popularity by dividing the frequencies of
associations with a given Like within the
studied groups by the respective
frequency in the entire sample. Relative
popularity was transformed into a
percentile scale. Error bars signify 95%
confidence intervals of the population
proportion. For example, The Colbert
Report is relatively popular within
Democrats and Homosexual groups
(93th and 80th percentile respectively)
but rather unpopular among Christians
and African Americans (24th and 35th
percentile, respectively).

‘Predict my profile’

Data Mining
Processo di analisi, svolto in modo semiautomatico, di una grande quantità

di dati grezzi al fine di scoprire il modello (“pattern”) che li governa, o una
regola significativa, da cui ricavare conoscenze utili applicabili al contesto
operativo quali previsioni e classificazioni.
Machine Learning (Apprendimento Automatico) – Statistica - Supporto alle Decisioni

Data il data mining prevede una serie di fasi del

Mining processo che possono essere svolte solo con
l’intervento dell’uomo
Processo di analisi, svolto in modo semiautomatico, di una grande quantità di dati

grezzi al fine di scoprire il modello (“pattern”) che li governa, o una regola
significativa, da cui ricavare conoscenze utili applicabili al contesto operativo quali
previsioni e classificazioni.
uno strumento che oltre a fornire un procedimento che ad un dato input permetta di
l’output richiesto descriva anche con associare il corrispondente output senza
quale logica il sistema reale necessariamente conoscere il funzionamento
raggiunge quel definito output intrinseco del sistema reale (reti neurali)
Data Mining
Non Supervisionato: Problemi di Supervisionato: Problemi di

esplorazione dati, approccio in cui classificazione e di regressione,
non sappiamo cosa dover ricercare approccio in cui sappiamo quello che
nei dati e lasciamo che siano i dati stiamo cercando. Approccio top-
stessi a indicarci un risultato, a down.
suggerire la loro struttura (o
pattern). Approccio bottom-up.

Data Mining
Principio della Progettazione Sperimentale
Il modello viene inizialmente addestrato con

il training set. Possibile Overfitting
Il modello viene rifinito con il test set per
risolvere eventuale Overfitting
Si verificano le prestazioni del modello con
l’evaluation set

Cluster Analysis: Algoritmo K-means - non supervisionato
Per clustering si intende la segmentazione di un gruppo eterogeneo in sottogruppi (cluster)

omogenei al loro interno ed eterogenei tra di loro. Ciò che distingue il clustering dalla
classificazione è che non si fa ricorso a classi predefinite.
• L’algoritmo suddivide un determinato set di dati in un numero predefinito di cluster: la “k” di k-means. Il
termine “means” sta per media statistica e in questo contesto si riferisce alla distribuzione media di tutti i
componenti di un particolare cluster.
• Per formare i cluster, a ogni record vengono assegnate delle coordinate in un determinato “spazio dei
record” (fig.1). Lo spazio ha tante dimensioni quanti sono i campi nei record. Il valore di ciascun campo
rappresenta la coordinata del campo. Perché questa interpretazione geometrica sia utile, tutti i campi
devono essere trasformati in numeri e i numeri a loro volta normalizzati, in modo che due variazioni in
due dimensioni diverse possano essere comparabili.
• I record vengono assegnati ai cluster, tramite un processo iterativo che inizia da cluster centrati in
posizioni sostanzialmente casuali all’interno dello spazio dei record, e sposta i centroidi (ossia i
baricentri dei cluster) finché ciascuno di questi ultimi non occupa stabilmente il centro di un gruppo di
record

Cluster Analysis: Algoritmo K-means

Per esempio, scegliamo k=3 e i seguenti semi iniziali:

Assegniamo ogni record al cluster con il centroide (o seme) più vicino

Questa prima iterazione ha individuato nuovi cluster: ci calcoliamo i centroidi (o semi) di essi, e
riaggreghiamo in base a questi

Si riaggrega ogni record al cluster del centroide più vicino.

L’algoritmo termina perché i centroidi, e quindi i confini dei cluster, non variano più

• Nel metodo k-means la scelta di k, che determina il numero di cluster che

verranno individuati, è predefinita dal ricercatore. Se il numero non
corrisponde alla struttura naturale dei dati, la tecnica non darà buoni risultati.
• Il ricercatore può fornire un intervallo per il numero di cluster entro cui cercare.
• Il rilevamento automatico dei cluster può essere applicato senza nulla
conoscere della struttura da scoprire.

Componenti principali (Analisi fattoriale)
Metodo usato per formare combinazioni lineari non correlate delle variabili
osservate.
La prima componente spiega la parte più alta di variabilità.
Le componenti successive spiegano porzioni di variabilità decrescenti e sono tutte

non correlate fra loro.

grazie

Mariani 24ORE Business School 06 03 2020

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Mariani 24ORE Business School 06 03 2020

Caricato da

Copyright:

Formati disponibili

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

FONDAMENTI DI BIG DATA

• Small-Open-Social-Big Data: come definirli, contestualizzarli e utilizzarli

• Apprendimento supervisionato e non supervisionato

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Da qualche anno un “diluvio” di dati sembra avere investito

Le applicazioni che verranno realizzate e commentate durante

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

… chiamati anche ‘microdati’,

Si prestano ad essere trattati

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

… compongono un insieme gigantesco e in continuo

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Le risorse umane sono formate per gestire gli aspetti tecnologici e

Il patrimonio digitale è sostanzialmente generato dall’azienda.

A fronte di un grande interesse per lo sviluppo tecnologico e di

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Le risorse umane saranno formate per gestire gli aspetti

Il patrimonio digitale sarà sostanzialmente generato al di fuori

In relazione allo sviluppo tecnologico e di analisi si procederà ad

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Dati Big Data

Volume Megabyte MB – 10 ^6 Zettabyte ZB – 10^21

Velocità Non in tempo reale Tempo reale

Veridicità Elevata Contenuta

Validità Elevata Limitata e con elevata obsolescenza

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Il contesto attuale e gli scenari a breve

Alcune tappe del percorso IT ➢ Arriva il WEB

➢ Personal computer ➢ Social

Web Web as a Web Services,

Dot-Com Bubble Web 2.0 Web Scale

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Gaming Customer Known

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

• Accessibilità: l’informazione deve essere chiara e ottenuta in modo semplice.

• Comparabilità: devono permettere di affiancare le informazioni integrandole con altre,

• Tempestività: il momento della rilevazione non deve essere troppo distante

• Periodicità: devono aggiornare periodicamente le informazioni che mettono a

• Qualità: attenzione alla produzione del dato statistico.

… nuovi dati e nuove fonti

SMALL DATA BIG DATA

Accessibilità ALTA BASSA

Attendibilità ALTA DA DIMOSTRARE

Comparabilità MEDIA DA DIMOSTRARE

Completezza ALTA BASSA

Tempestività BASSA ALTA

Periodicità BASSA ALTA

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Il trend della Business Intelligence

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021