Sei sulla pagina 1di 19

Statistica per l’Impresa

a.a. 2016/2017

Tecniche di Analisi Multidimensionale


Analisi dei Gruppi

Roberta Pappadà
Trieste, 10 aprile 2017
Indice

1. Analisi dei Gruppi: Introduzione

2. Misure di distanza e indici di similarità


3. Metodi gerarchici
• Algoritmi agglomerativi
• Algoritmi divisivi

4. Metodi non gerarchici


• Metodo delle K-medie

5. Valutazione di un raggruppamento

6. Applicazione in ambito aziendale

1
Analisi dei Gruppi: Introduzione
Motivazioni (I)

L’obbiettivo generale di una procedura di classificazione è


suddividere i dati in classi (gruppi), ove il numero di tali classi non
sia noto a priori

• L’analisi dei gruppi (cluster analysis) è l’insieme delle tecniche


statistiche attraverso le quali si assegna ciascun individuo
(unità statistica) a un gruppo sulla base delle caratteristiche
(variabili) note;
• uno degli scopi dell’indagine è decidere se esistano dei gruppi
con una chiara valenza interpretativa;
• i gruppi ottenuti devono essere caratterizzati da un elevato
grado di omogeneità interna delle unità statistiche a essi
appartenenti e disomogeneità tra gli stessi.

Analisi dei Gruppi: Introduzione 2


Motivazioni (II)

Le tecniche di clustering trovano applicazione nella suddivisione dei


consumatori o dei prodotti in sottoinsiemi omogenei nel loro
interno (segmentazione del mercato e dei consumatori).
L’analisi dei gruppi può far emergere informazioni interessanti sulle
caratteristiche degli individui e sui loro comportamenti, premesse
per azioni di marketing mirate.

“However, clusters are not necessarily customer segments, because they


do not have the human intelligence that goes into segmentation.”
G.S. Linoff, M.J.A. Berry (2009)
Data Mining Techniques: Theory and Practice Course Notes

Analisi dei Gruppi: Introduzione 3


Classificazione supervisionata e non

Approccio supervisionato: è noto a priori che le n unità osservate


appartengono a due o più popolazioni.
• L’obiettivo è stabilire un criterio per assegnare correttamente
ulteriori unità alla rispettiva popolazione di appartenenza;
• Esempio: la classificazione dei messaggi di posta elettronica come
spam o non spam
• Tecniche: analisi discriminante e alberi di classificazione.
Approccio non supervisionato: l’esistenza di una ‘sensata’
partizione delle unità in gruppi non è scontata.
• Si utilizza una opportuna misura del grado di vicinanza tra le coppie
di elementi da classificare;
• Esempio: suddividere diversi modelli di automobili sulla base di
alcune variabili (cilindrata, prezzo, peso, etc.)
• Tecniche: metodi di raggruppamento gerarchici e non
Analisi dei Gruppi: Introduzione 4
È un buon raggruppamento?

Analisi dei Gruppi: Introduzione 5


È un buon raggruppamento?

Analisi dei Gruppi: Introduzione 5


È un buon raggruppamento?

Analisi dei Gruppi: Introduzione 5


È un buon raggruppamento?

Analisi dei Gruppi: Introduzione 5


È un buon raggruppamento?

Principi di omogeneità e separazione tra gruppi

• Omogeneità: le unità assegnate ad un medesimo gruppo


devono essere tra loro simili
• Separazione: i gruppi devono essere il più possibile distinti

Analisi dei Gruppi: Introduzione 6


Matrice dei dati (I)

Disponiamo di osservazioni relative a p caratteristiche (o caratteri)


di n individui (unità statistiche). Formalmente abbiamo cioè una
matrice di dati
 
x11 . . . x1j . . . x1p
 . .. .. 
 .. . . 
 
X =  xi1 . . . xij . . . xip 
 
 . .. .. 
 .
 . . . 

xn1 . . . xnj . . . xnp

• xij è l’osservazione della j-ma variabile sull’ i-mo soggetto;


• xj = (x1j , . . . , xij , . . . , xnj ): osservazioni della variabile j;
• xi = (xi1 , . . . , xij , . . . , xip ) profilo della i-ma unità.
Analisi dei Gruppi: Introduzione 7
Matrice dei dati (II)

singoli prodotti dell’azienda, diversi stabili-


menti produttivi, reparti di uno stabilimento,
unità statistiche i dipendenti, i clienti (analisi intra-aziendali)

diverse aziende concorrenti, un campione dei


consumatori dei prodotti del settore (analisi
inter-aziendali)

regioni di un Paese, settori produttivi

caratteri qualitativi in scala nominale e/o ordinale,


quantitativi su scala a intervalli e/o scala di
rapporti

Analisi dei Gruppi: Introduzione 8


Matrice dei dati: Esempio

La matrice dei dati consiste nelle osservazioni relative a 3 variabili


quantitative e 3 qualitative dicotomiche (1=presenza, 0=assenza)
per 10 modelli di home theatre.

MARCA PREZZO POTENZA CASSE DVDREC WIREL. RDS


1 Akai 4200 208 150 4 0 0 0
2 Hitachi K180 161 160 4 0 0 0
3 Lg DAT200 210 320 4 0 0 1
4 Waitec HTXE 120 120 3 0 0 1
5 Genesis AV3 520 600 6 0 0 0
6 Kenwood SLIM1. 452 240 6 0 0 1
7 Orion HTS2965 260 500 5 0 0 0
8 Pioneer DCS323 280 500 6 0 0 0
9 Samsung UP30 230 500 5 0 0 1
10 Yamaha YHT941 850 1000 8 1 1 1

Analisi dei Gruppi: Introduzione 9


Matrice dei dati: Standardizzazione

Se nella matrice dei dati sono presenti caratteri quantitativi


espressi in unità di misura differenti può essere utile adottare una
trasformazione delle variabili data da
xik − x̄k
zik =
σk
• x̄k è la media aritmetica della variabile k-ma (media sui valori
del vettore colonna xk )
• σk è lo scostamento quadratico medio (standard deviation)
della variabile k-ma
Si ottiene la matrice dei dati standardizzati
Z = [zik ]

in cui i vettori colonna hanno tutti media zero e varianza unitaria.


Analisi dei Gruppi: Introduzione 10
Matrice dei dati standardizzati: Esempio (I)

Caratteristiche di 10 modelli di home theatre.


MARCA PREZZO POTENZA CASSE
1 Akai 4200 208 150 4
2 Hitachi K180 161 160 4
3 Lg DAT200 210 320 4
4 Waitec HTXE 120 120 3
5 Genesis AV3 520 600 6
6 Kenwood SLIM1. 452 240 6
7 Orion HTS2965 260 500 5
8 Pioneer DCS323 280 500 6
9 Samsung UP30 230 500 5
10 Yamaha YHT941 850 1000 8
Media 329.10 409.00 5.10
Deviazione standard 209.93 256.84 1.37
Analisi dei Gruppi: Introduzione 11
Matrice dei dati standardizzati: Esempio (II)

Per il modello Akai 4200


z11 = (208 − 329.10)/209.93 = −0.58
z12 = (150 − 409.00)/256.84 = −1.01
z13 = (4 − 5.10)/1.37 = −0.80
...
 
−0.58 −1.01 −0.80
−0.80 −0.97 −0.80
 
−0.57 −0.35 −0.80
 
−1.00 −1.13 −1.53
 
 0.91 0.74 0.65 
 
La matrice dei dati standardizzati è Z = 
 0.59 −0.66 0.65 

−0.33 −0.07
 
0.35
 
−0.23 0.35 0.65 
 
−0.47 0.35 −0.07
2.48 2.30 2.11
Analisi dei Gruppi: Introduzione 12
Metodi di raggruppamento

Le tecniche statistiche di per l’analisi dei gruppi si dividono in

• algoritmi gerarchici
• algoritmi non gerarchici (metodi di partizione)

I metodi gerarchici comprendono

• Algoritmi Agglomerativi: si parte da n gruppi ciascuno


essendo singoletto e, attraverso successive agglomerazioni
questi vengono raggruppati fino a ottenere un unico gruppo
contenente tutti le n unità
• Algoritmi Divisivi: si parte dalla partizione costituita da un
unico elemento e la si suddivide a ciascun passo sino ad
arrivare alla partizione in n costituenti tutti singoletti

Analisi dei Gruppi: Introduzione 13


Bibliografia

Bracalente, B., Cossignani, M., Mulas, A. (2009) Statistica


aziendale. McGraw-Hill Education.
Zani, S., & Cerioli, A. (2007). Analisi dei dati e data mining
per le decisioni aziendali. Giuffrè editore.

14

Potrebbero piacerti anche