Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Master
Big Data e Business Analytics
Paolo Mariani
Andrea Marletta
• Le fonti informative
• Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive
• Introduzione agli strumenti e linguaggi da utilizzare per implementare le diverse tipologie di analisi: R e R Studio
The data deluge refers to the situation where the sheer volume of new data
being generated is overwhelming the capacity of institutions to manage it and
researchers to make use of it.
SMALL DATA
OPEN DATA
… dati messi a disposizione per essere liberamente utilizzati,
riutilizzati e redistribuiti, con a volte alcune prescrizioni.
BIG DATA
OGGI
Le aziende dispongono di una capacità di storage molto maggiore
rispetto a quella del passato, residente e ancora non
completamente utilizzata.
DOMANI
Le aziende disporranno di una capacità di storage molto maggiore
rispetto a quella di oggi, non residente e potenzialmente non
limitata.
➢ Mainframe ➢ Digitale
COBOL, Amazon.com
Edsel ARPANET Internet
Computing
Banking
Social
Media
Finance
Our
History
Entertain Purchase
• Attendibilità: ci deve essere un alto grado di corrispondenza tra i dati contenuti nelle
fonti e la realtà.
• Completezza: spesso non sono disponibili i dati per alcune aree territoriali o segmenti.
BIG DATA
CRM
ROI
Data Mining
OLAP
Reporting
Data warehouse
Traditional
analytic tools
SEGNALE
Data warehouse
Traditional
analytic
tools
RUMORE
The study is based ona sample of 58,466 volunteers from the United States, obtained through themy Personality Facebook application
(www.mypersonality. org/wiki), which included their Facebook profile information, a list of their Likes (n = 170 Likes per person on average),
psychometric test scores, and survey information. Users and their Likes were represented as a sparse user–Like matrix, the entries of which
were set to 1 if there existed an association between a user and a Like and 0 otherwise. The dimensionality of the user–Like matrix was
reduced using singular-value decomposition (SVD) (24). Numeric variables such as age or intelligence were predicted using a linear regression
model, whereas dichotomous variables such as gender or sexual orientation were predicted using logistic
regression. In both cases, we applied 10-fold cross-validation and used the k =100 top SVD components. For sexual orientation, parents’
relationship status, and drug consumption only k = 30 top SVD components were used because of the smaller number of users for which this
information was available.
‘Predict my profile’
Data Mining
uno strumento che oltre a fornire un procedimento che ad un dato input permetta di
l’output richiesto descriva anche con associare il corrispondente output senza
quale logica il sistema reale necessariamente conoscere il funzionamento
raggiunge quel definito output intrinseco del sistema reale (reti neurali)
Paolo Mariani - FONDAMENTI DI BIG DATA - Milano, 06/03/2021
Le diverse tipologie di analisi possibili: dalle analisi descrittive alle analisi predittive
Data Mining
Data Mining
• Per formare i cluster, a ogni record vengono assegnate delle coordinate in un determinato “spazio dei
record” (fig.1). Lo spazio ha tante dimensioni quanti sono i campi nei record. Il valore di ciascun campo
rappresenta la coordinata del campo. Perché questa interpretazione geometrica sia utile, tutti i campi
devono essere trasformati in numeri e i numeri a loro volta normalizzati, in modo che due variazioni in
due dimensioni diverse possano essere comparabili.
• I record vengono assegnati ai cluster, tramite un processo iterativo che inizia da cluster centrati in
posizioni sostanzialmente casuali all’interno dello spazio dei record, e sposta i centroidi (ossia i
baricentri dei cluster) finché ciascuno di questi ultimi non occupa stabilmente il centro di un gruppo di
record
Questa prima iterazione ha individuato nuovi cluster: ci calcoliamo i centroidi (o semi) di essi, e
riaggreghiamo in base a questi
L’algoritmo termina perché i centroidi, e quindi i confini dei cluster, non variano più
• Il ricercatore può fornire un intervallo per il numero di cluster entro cui cercare.
• Il rilevamento automatico dei cluster può essere applicato senza nulla
conoscere della struttura da scoprire.
Metodo usato per formare combinazioni lineari non correlate delle variabili
osservate.