Sei sulla pagina 1di 45

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Master
Big Data e Business Analytics

Paolo Mariani
Andrea Marletta

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


6 marzo 2021

FONDAMENTI DI BIG DATA

• Small-Open-Social-Big Data: come definirli, contestualizzarli e utilizzarli

• Le fonti informative

• Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

• Apprendimento supervisionato e non supervisionato

• Introduzione agli strumenti e linguaggi da utilizzare per implementare le diverse tipologie di analisi: R e R Studio

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Da qualche anno un “diluvio” di dati sembra avere investito


imprese enti ed istituzioni. Si è passati dai dati Small a quelli Big,
dalla loro quasi totale indisponibilità a quelli Open. Alla parabola
ascendente dei dati è seguita quella discendente delle
informazioni, passando dal loro utilizzo mirato per il supporto alle
decisioni a quello di una generale disponibilità non finalizzata.
Per trovare una migliore accessibilità e fruibilità è aumentato il
ricorso alle metodologie che permettono di isolare il segnale dal
rumore. Il contesto “Big” si candida ad essere uno dei primi ambiti
per esplorare le nuove opportunità offerte dai dati, dalla
tecnologia, dalle tecniche di analisi.

Le applicazioni che verranno realizzate e commentate durante


l’incontro offriranno lo spunto per supportare ricercatori e aziende
nel focalizzare gli obiettivi e orientare le attività.
Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
Dati: Small, Open e Big

The data deluge refers to the situation where the sheer volume of new data
being generated is overwhelming the capacity of institutions to manage it and
researchers to make use of it.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

SMALL DATA

… chiamati anche ‘microdati’,


sono insiemi di dati elementari,
collezionati a fini statistici per il
raggiungimento di specifici
obiettivi.

Si prestano ad essere trattati


con metodologie e tecniche
note e condivise.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

OPEN DATA
… dati messi a disposizione per essere liberamente utilizzati,
riutilizzati e redistribuiti, con a volte alcune prescrizioni.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


https://www.ibm.com/it-it/analytics/spss-trials

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

BIG DATA

… compongono un insieme gigantesco e in continuo


accrescimento, istante per istante, in ogni luogo del mondo,
generato spesso inconsapevolmente da milioni di persone, con
riferimento a tantissime tematiche. Questo enorme giacimento
informativo viene usualmente definito come Big Data ma non
bisogna lasciarsi ingannare da una prima traduzione dei termini,
non solo sono ‘grandi dati’ o più semplicemente tanti dati.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

OGGI
Le aziende dispongono di una capacità di storage molto maggiore
rispetto a quella del passato, residente e ancora non
completamente utilizzata.

Le risorse umane sono formate per gestire gli aspetti tecnologici e


di analisi in azienda.

Il patrimonio digitale è sostanzialmente generato dall’azienda.

A fronte di un grande interesse per lo sviluppo tecnologico e di


analisi si percepisce una latente diffidenza legata al non controllo.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

DOMANI
Le aziende disporranno di una capacità di storage molto maggiore
rispetto a quella di oggi, non residente e potenzialmente non
limitata.

Le risorse umane saranno formate per gestire gli aspetti


tecnologici e di analisi non in azienda.

Il patrimonio digitale sarà sostanzialmente generato al di fuori


dell’azienda.

In relazione allo sviluppo tecnologico e di analisi si procederà ad


un crescente utilizzo di risorse esterne.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Dati Big Data

Volume Megabyte MB – 10 ^6 Zettabyte ZB – 10^21

Velocità Non in tempo reale Tempo reale


Varietà Strutturati e raramente integrati Strutturati e Non strutturati
da più fonti Da integrare poiché da più fonti
Valore Elevato Da dimostrare

Veridicità Elevata Contenuta

Validità Elevata Limitata e con elevata obsolescenza


temporale
Visualizzazione Elevata Contenuta

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Dati: Small, Open e Big

Il contesto attuale e gli scenari a breve

Alcune tappe del percorso IT ➢ Arriva il WEB

➢ Mainframe ➢ Digitale

➢ Personal computer ➢ Social

COBOL, Amazon.com
Edsel ARPANET Internet

Web Web as a Web Services,


Darkness
Awareness Platform Resources Eliminated

Dot-Com Bubble Web 2.0 Web Scale


The ObligatoryTimeline Slide (Mike Culver@AWS)

Computing

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le fonti informative

Banking
Social
Media
Finance

Our

Gaming Customer Known

History

Entertain Purchase

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le fonti informative
… nuovi dati e nuove fonti
• Rilevanza dei concetti statistici: devono contenere misurazioni e prodotti statistici
che riflettano le esigenze degli utilizzatori.

• Accessibilità: l’informazione deve essere chiara e ottenuta in modo semplice.

• Attendibilità: ci deve essere un alto grado di corrispondenza tra i dati contenuti nelle
fonti e la realtà.

• Comparabilità: devono permettere di affiancare le informazioni integrandole con altre,


analoghe, provenienti da altre sorgenti.

• Completezza: spesso non sono disponibili i dati per alcune aree territoriali o segmenti.

• Tempestività: il momento della rilevazione non deve essere troppo distante


dall’istante in cui vengono diffusi e resi disponibili i dati

• Periodicità: devono aggiornare periodicamente le informazioni che mettono a


disposizione.

• Qualità: attenzione alla produzione del dato statistico.


Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
Le fonti informative

… nuovi dati e nuove fonti

SMALL DATA BIG DATA


Rilevanza dei concetti statistici ALTA DA DIMOSTRARE

Accessibilità ALTA BASSA

Attendibilità ALTA DA DIMOSTRARE

Comparabilità MEDIA DA DIMOSTRARE

Completezza ALTA BASSA

Tempestività BASSA ALTA

Periodicità BASSA ALTA

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le fonti informative

Il trend della Business Intelligence


DATA SCIENCE

BIG DATA

CRM
ROI

Data Mining

OLAP

Reporting

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Tempo
Le fonti informative

Data warehouse

Traditional
analytic tools

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le fonti informative

SEGNALE

Data warehouse
Traditional
analytic
tools

RUMORE

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le fonti informative

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

The study is based ona sample of 58,466 volunteers from the United States, obtained through themy Personality Facebook application
(www.mypersonality. org/wiki), which included their Facebook profile information, a list of their Likes (n = 170 Likes per person on average),
psychometric test scores, and survey information. Users and their Likes were represented as a sparse user–Like matrix, the entries of which
were set to 1 if there existed an association between a user and a Like and 0 otherwise. The dimensionality of the user–Like matrix was
reduced using singular-value decomposition (SVD) (24). Numeric variables such as age or intelligence were predicted using a linear regression
model, whereas dichotomous variables such as gender or sexual orientation were predicted using logistic

regression. In both cases, we applied 10-fold cross-validation and used the k =100 top SVD components. For sexual orientation, parents’
relationship status, and drug consumption only k = 30 top SVD components were used because of the smaller number of users for which this
information was available.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Relative popularity of selected Likes


within groups of Democrat, Homosexual,
Christian, and African American users.
Because Likes differed greatly in
popularity (e.g., “Barack Obama” was
nearly four times more popular than “Mitt
Romney”), we calculated relative
popularity by dividing the frequencies of
associations with a given Like within the
studied groups by the respective
frequency in the entire sample. Relative
popularity was transformed into a
percentile scale. Error bars signify 95%
confidence intervals of the population
proportion. For example, The Colbert
Report is relatively popular within
Democrats and Homosexual groups
(93th and 80th percentile respectively)
but rather unpopular among Christians
and African Americans (24th and 35th
percentile, respectively).

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

‘Predict my profile’

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Data Mining

Processo di analisi, svolto in modo semiautomatico, di una grande quantità


di dati grezzi al fine di scoprire il modello (“pattern”) che li governa, o una
regola significativa, da cui ricavare conoscenze utili applicabili al contesto
operativo quali previsioni e classificazioni.

Machine Learning (Apprendimento Automatico) – Statistica - Supporto alle Decisioni

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Data il data mining prevede una serie di fasi del


Mining processo che possono essere svolte solo con
l’intervento dell’uomo

Processo di analisi, svolto in modo semiautomatico, di una grande quantità di dati


grezzi al fine di scoprire il modello (“pattern”) che li governa, o una regola
significativa, da cui ricavare conoscenze utili applicabili al contesto operativo quali
previsioni e classificazioni.

uno strumento che oltre a fornire un procedimento che ad un dato input permetta di
l’output richiesto descriva anche con associare il corrispondente output senza
quale logica il sistema reale necessariamente conoscere il funzionamento
raggiunge quel definito output intrinseco del sistema reale (reti neurali)
Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Data Mining

Non Supervisionato: Problemi di Supervisionato: Problemi di


esplorazione dati, approccio in cui classificazione e di regressione,
non sappiamo cosa dover ricercare approccio in cui sappiamo quello che
nei dati e lasciamo che siano i dati stiamo cercando. Approccio top-
stessi a indicarci un risultato, a down.
suggerire la loro struttura (o
pattern). Approccio bottom-up.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Data Mining

Principio della Progettazione Sperimentale

Il modello viene inizialmente addestrato con


il training set. Possibile Overfitting
Il modello viene rifinito con il test set per
risolvere eventuale Overfitting
Si verificano le prestazioni del modello con
l’evaluation set

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means - non supervisionato

Per clustering si intende la segmentazione di un gruppo eterogeneo in sottogruppi (cluster)


omogenei al loro interno ed eterogenei tra di loro. Ciò che distingue il clustering dalla
classificazione è che non si fa ricorso a classi predefinite.
• L’algoritmo suddivide un determinato set di dati in un numero predefinito di cluster: la “k” di k-means. Il
termine “means” sta per media statistica e in questo contesto si riferisce alla distribuzione media di tutti i
componenti di un particolare cluster.

• Per formare i cluster, a ogni record vengono assegnate delle coordinate in un determinato “spazio dei
record” (fig.1). Lo spazio ha tante dimensioni quanti sono i campi nei record. Il valore di ciascun campo
rappresenta la coordinata del campo. Perché questa interpretazione geometrica sia utile, tutti i campi
devono essere trasformati in numeri e i numeri a loro volta normalizzati, in modo che due variazioni in
due dimensioni diverse possano essere comparabili.

• I record vengono assegnati ai cluster, tramite un processo iterativo che inizia da cluster centrati in
posizioni sostanzialmente casuali all’interno dello spazio dei record, e sposta i centroidi (ossia i
baricentri dei cluster) finché ciascuno di questi ultimi non occupa stabilmente il centro di un gruppo di
record

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

Per esempio, scegliamo k=3 e i seguenti semi iniziali:

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

Assegniamo ogni record al cluster con il centroide (o seme) più vicino

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

Questa prima iterazione ha individuato nuovi cluster: ci calcoliamo i centroidi (o semi) di essi, e
riaggreghiamo in base a questi

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

Si riaggrega ogni record al cluster del centroide più vicino.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

L’algoritmo termina perché i centroidi, e quindi i confini dei cluster, non variano più

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Cluster Analysis: Algoritmo K-means

• Nel metodo k-means la scelta di k, che determina il numero di cluster che


verranno individuati, è predefinita dal ricercatore. Se il numero non
corrisponde alla struttura naturale dei dati, la tecnica non darà buoni risultati.

• Il ricercatore può fornire un intervallo per il numero di cluster entro cui cercare.
• Il rilevamento automatico dei cluster può essere applicato senza nulla
conoscere della struttura da scoprire.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive

Componenti principali (Analisi fattoriale)

Metodo usato per formare combinazioni lineari non correlate delle variabili
osservate.

La prima componente spiega la parte più alta di variabilità.

Le componenti successive spiegano porzioni di variabilità decrescenti e sono tutte


non correlate fra loro.

Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021


Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
grazie
Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021

Potrebbero piacerti anche