Sei sulla pagina 1di 10

Per definire gli obbiettivi aziendali e le relative strategie, ogni azienda deve conoscere le caratteristiche, i

bisogni e i comportamenti della propria clientela (i quali avranno un alto grado di eterogeneità).

Segmentazione di mercato -> Processo tramite il quale le aziende suddividono la domanda in insieme di
clienti potenziali caratterizzati da elevata omogeneità all’interno dei segmenti ed una sufficiente
differenziazione tra i diversi segmenti.
-> Obbiettivo: raggruppare individui caratterizzati da funzioni di domanda il più simile possibile.

Ogni potenziale consumatore dovrebbe essere studiato come un segmento a sé stante, questo però in
pratica è impossibile in quanto comporta costi per l’azienda che supererebbero di gran lunga i benefici.

Dal punto di vista applicativo possiamo individuare 2 modalità di segmentazione:

1) Per omogeneità: Individuare diversi segmenti di domanda sulla base di un insieme di variabili
osservate, senza presupporre l’esistenza di un modello che studi la loro dipendenza.
2) Per obbiettivi: La popolazione viene suddivisa in sottopopolazioni utilizzando una determinata
variabile (es. la redditività della clientela) e si individuano una serie di variabili che possono influire
in maniera rilevante sulla variabile principale considerata.
-> Legame tra variabile dipendente e variabili esplicative.

Analisi dei gruppi: Tecnica che permette di raggruppare gli individui tra loro più simili in relazione a
determinate caratteristiche.
-> Obbiettivo: ridurre la dimensionalità della matrice nel senso delle righe.

5.1 – ANALISI DEI GRUPPI

Analisi dei gruppi: Insieme delle tecniche statistiche che hanno l’obiettivo di raggruppare un insieme di
unità appartenenti ad un collettivo in un certo numero di gruppi, sulla base della loro similarità in relazione
ad un insieme di variabili.
Caratteristiche dei gruppi ottenuti -> Omogenei al loro interno ed elevata disomogeneità tra i gruppi stessi.

Si parte da una matrice di dati X (nxp) oppure da una matrice delle distanze D (nxn).
In entrambi i casi è fondamentale la scelta delle p variabili. -> Le variabili scelte possono essere di QUALSIASI
natura (sia qualitative che quantitative).

Nell’ambito delle tecniche statistiche di analisi dei gruppi, una prima distinzione va fatta tra:

1) Metodi gerarchici -> Caratterizzati da una gerarchia di raggruppamento, il raggruppamento finale


viene fatto per passaggi successivi.
a. Agglomerativi
b. Divisivi
2) Metodi NON gerarchici -> Il raggruppamento viene fatto direttamente (in g gruppi)

5.1.1 – I METODI GERARCHICI AGGLOMERATIVI

-> Questi metodi sono così chiamati perché procedono per agglomerazioni successive delle unità statistiche.

La procedura parte da n gruppi, formati ciascuno da 1 solo individuo, per poi passare a n-1 gruppi, poi a n-2
….n-3,n-4, fino ad arrivare ad un unico gruppo costituito da TUTTE le n unità statistiche del collettivo.
Obbiettivo -> Raggruppare le unità statistiche in un certo numero (limitato) di gruppi.
Come scelgo i gruppi? Sufficiente Omogeneità all’interno e un numero basso di gruppi. Così da non rendere
troppo articolata l’interpretazione del raggruppamento.

SCHEMA DI RAGGRUPPAMENTO DEI METODI GERARCHICI AGGLOMERATIVI:

1) Si parte da n gruppi, ognuno formato da UNA unità del collettivo.


-> La distanza tra i gruppi è fornita dalla matrice delle distanze D (nxn).
2) Si ricerca il valore minimo all’interno della matrice D (eccezione della diagonale principale che ha
tutti valori 0!). Questo valore indica le 2 unità più simili, ovvero quelle che presentano profili riga
più omogenei nella matrice dei dati.
3) Si procede alla fusione delle unità corrispondenti a tale valore minimo. Si eliminano dalla matrice
D le due righe e le due colonne corrispondenti.
-> Ottengo: Dn-2;n-2
4) Si aggiunge una nuova riga e una nuova colonna.
-> Ottengo: Dn-1;n-1
5) Si torna a seguire lo step n° 2 fino a quando si arriva ad ottenere un solo gruppo formato da
TUTTE le n unità del collettivo in esame.

Ma la domanda è: come calcolo le nuove distanze del punto 4?

Punto di partenza:

- Dkl -> Valore minimo nella matrice D


- Ck -> Gruppo 1
- Cl -> Gruppo 2

Ck + Cl = Cm (gruppo 3)

Ci sono varie opzioni, partendo dalla matrice delle distanze D:

1) METODO DEL LEGAME SINGOLO:


➔ La distanza tra il nuovo gruppo risultante dalla fusione e tutti i preesistenti è definita come la
distanza minore che, prima della fusione, avevano i gruppi oggetto di fusione con tutti gli altri.

Djm = min (Djk, Djl)

Vantaggi: semplicità di calcolo, poso sensibile ai valori anomali.


Limite: produce gruppi tendenzialmente “allungati/a salsiccia” (aggregazione progressiva al primo
gruppo).

2) METODO DEL LEGAME COMPLETO


-> Distanze maggiori che, prima della fusione, avevano i gruppi oggetto di fusione con tutti gli altri.

Djm = max (DJK, DJL)

Vantaggi: nessuno.
Limiti: Molto influenzato dalla presenza di valori anomali, tanto da rendere necessaria una
preventiva analisi ad hoc. Produce molti gruppi di dimensioni simili.

3) METODO DI MCQUITTY:
-> Le distanze sono definite come la media aritmetica semplice tra le distanze che, prima della
fusione, avevano i gruppi oggetto di fusione con tutti gli altri.

DJM = (DJK+DJL)/2
Posizione intermedia tra i primi due elencati in termini di vantaggi e svantaggi.

4) METODO DEL LEGAME MEDIO:


-> Media aritmetica tra le distanze che, prima della fusione, avevano i gruppi oggetto di fusione con
tutti gli altri, ponderata con le numerosità dei gruppi oggetto di fusione.
DJM = (DJKNK + DJLNL) /NM

Posizione intermedia.
Tende ad unire gruppi con bassa varianza interna e a produrre gruppi con varianze interne simili.

NB: Alla prima interazione il metodo del legame medio coincide con il metodo McQuitty.

I successivi metodi, invece, partono dalla matrice dei dati X, contenente i profili delle n unità statistiche
secondo p variabili quantitative.

1) METODO DEL CENTROIDE: La distanza tra i gruppi è posta pari alla distanza euclidea tra i centroidi o
baricentri, costituiti dai valori medi delle p variabili considerate, calcolati sulle unità appartenenti ai
gruppi. Anche in questo caso vengono fusi i gruppi che presentano distanza minima.

DJM = (NKDJK + NLDJL)/NM – NKNLDKL/NM2

Vantaggi: Metodo robusto agli outlier (valori anomali). Metodo che da luogo a fusioni successive
con livelli di distanza decrescenti.

2) METODO WARD: Questo metodo si basa sulla scomposizione della devianza totale in devianza
entro i gruppi e devianza tra i gruppi. A ogni interazione viene considerata l’unione di tutte le
possibili coppie di gruppi e viene fusa la coppia che da luogo alla minore varianza ENTRO i gruppi.

Limite: Produce gruppi di dimensioni analoghe ed è molto sensibile agli outliers

Il processo di fusione può essere rappresentato attraverso il dendogramma.


-> Grafico che riporta sull’asse orizzontale (ascisse = X), non quantitativo, le unità che partecipano al
processo di fusione, mentre sull’asse verticale (ordinate = Y) il livello di distanza a cui avviene la
fusione tra i diversi gruppi.

NB: Aggregazioni che nel dendogramma avvengono molto “in alto” (livello di distanza elevato) si riferiscono
a gruppi NON omogenei al loro interno.
E’ consigliabile fermare il processo di aggregazione ad un livello di distanza MINORE, identificando un più
elevato numero di gruppi ma caratterizzati da una sufficiente omogeneità interna.

Possibile domanda esame: Quanti gruppi naturali proponi si compongano? NB che anche la singola unità
statistica è un gruppo, va quindi contata!!
5.1.1 – METODI GERARCHICI DIVISIVI (FDT)

Questi metodi sono esattamente il contrario di quanto visto fino ad ora.


Il punto di partenza è un unico gruppo formato da TUTTE le unità statistiche e si procede per divisione
successive, fino ad arrivare a n gruppi formati ciascuno da una unità.

Si tratta di metodi molto onerosi dal punto di vista computazionale.

Di seguito i 2 metodi divisivi più utilizzati:

1) METODI BASATI SULLA DISTANZA TRA CENTROIDI


Si parte dalla matrice dei dati X composta da SOLO variabili quantitative.
- Come prima cosa si procede a dividere le n unità in due gruppi e tra le possibili soluzioni viene scelta
quella che minimizza la somma delle devianze interne ai 2 gruppi.
- Ad ogni passo successivo si individua il gruppo che presenta la massima devianza interna e si scinde in
due sottogruppi replicando il passo precedente.

Limiti: metodi molto onerosi computazionalmente e non applicabili in caso di variabili qualitative o
miste. Producono inoltre gruppi di uguale numerosità.

2) METODI BASATI SUI PUNTI NODALI


Metodi molto meno onerosi e utilizzabili su variabili di qualsiasi tipo.
Si parte dalla matrice delle distanze D, composta da variabili di qualsiasi tipo. Successivamente vengono
individuate le 2 unità più distanti tra loro e vengono identificate come NODI. Tutte le altre unità
vengono assegnate ai due nodi sulla base della distanza minima.
Si ripete l’operazione fino ad ottenere n gruppi.

5.1.3 – METODI NON GERARCHICI (FDT)

Questi metodi hanno come obiettivo quello di classificare le n unità statistiche in un numero prefissato di
gruppi, senza effettuare agglomerazioni o divisioni successive.
Richiedono, quindi, che il numero di gruppi sia specificato a priori (a differenza dei metodi gerarchici in cui la
scelta dei gruppi può essere fatta a posteriori).

Prerequisito: Matrice dei dati X (SOLO variabili quantitative).

Algoritmi iterativi: Questi metodi effettuano un raggruppamento provvisorio che ad ogni interazione
successiva viene modificato per ottimizzare la funzione obiettivo. Il sistema si ferma quando non sono
possibili ulteriori miglioramenti.

L’algoritmo più utilizzato nell’ambito di questi metodi è quello denominato K-means:

1) Come prima cosa si specificano i k punti iniziali (seed) nello spazio in modo causale o ragionato.
2) Assegno le unità a seed più vicino (distanza minima – assegnazione provvisoria).
3) Calcolo k centroidi, cioè i valori medi delle p variabili nei gruppi
4) Assegno le unità al centroide più vicino.
5) Procedo al ricalcolo del centroide e alla riallocazione delle unità fino al raggiungimento di una
configurazione stabile.
Questi algoritmi richiedono una preventiva analisi della matrice dei dati al fine di valutare l’opportunità
di eventuali standardizzazioni delle variabili, poiché variabili con varianza maggiore tendono ad avere
maggiore importanza nella formazione dei gruppi rispetto a variabili con varianza minore.

In alternativa al criterio del centroide più vicino, per la riallocazione delle unità si può ricorrere alla
scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi.

5.1.4 – LA SCELTA DEL MEDOTO DI RAGGRUPPAMENTO E DEL NUMERO OTTIMO DI GRUPPI

La scelta del metodo per realizzare una analisi di raggruppamento è un’operazione non semplice che
richiede un certo tipo di esperienza. Va ricordato che NON esiste un metodo migliore, la scelta va fatta
in base alla tipologia di dati a disposizione.

Se abbiamo a che fare con variabili miste o qualitative -> SOLO metodi gerarchici.
Questi metodi permettono di scegliere il gruppo a posteriori (vantaggio). In particolare, il metodo del
legame completo può fornire ottimi risultati a patto che venga fatta un’analisi preliminare per
identificare ed eliminare i valori anomali.

Se abbiamo a che fare con variabili quantitative -> Qualsiasi tipo di metodo.
Fondamentale uno studio preliminare per valutare processi di standardizzazione o correlazione.

I metodi gerarchici risultato maggiormente sensibili alla presenza di valori anomali e non consentono di
modificare una aggregazione effettuata ad un passo precedente
-> Una volta unite due unità in un gruppo, non è possibile dividerle.

I metodi non gerarchici non presentano questo problema. Richiedono però la preventiva indicazione del
numero di gruppi e la definizione dei punti iniziali.

3 diverse tipologie di strategie di analisi:

- Prima si ricorre ad analisi gerarchica per individuare il numero ottimale dei gruppi e i punti iniziali
Successivamente si procede ad un’analisi non gerarchica.
- Preliminare analisi non gerarchica, specificando un elevato numero di gruppi al fine di individuare
valori anomali e i principali gruppi significativi
Successivamente si procede ad un’analisi gerarchica.
- Nel caso di dataset di grandi dimensioni, si può procedere con una analisi non gerarchica con il
metodo k-mens in modo da identificare un numero elevato di gruppi. Si passa poi successivamente
ad un’analisi gerarchica per raggruppare i gruppi ottenuti.

Importante è fare attenzione al trade-off: numero di gruppo contenuto in modo da evitare di disperdere
le risorse e l’esigenza di individuare gruppi dotati di sufficiente omogeneità interna.

Nei metodi gerarchici (variabili miste) -> Valori di distanza elevati significa che in quella fase della
procedura si stanno unendo gruppi che sono piuttosto diversi tra loro. Un criterio di scelta è quello di
arrestare il processo di aggregazione immediatamente prima di uno dei “salti” nella sequenza dei valori
di distanza riportati nel dendogramma.

Quando si ha a che fare con variabili quantitative il criterio di scelta del numero di gruppi può essere
fondato anche sull’indicatore ottenuto rapportando ai diversi passi di aggregazione la devianza tra i
gruppi alla devianza totale.
Nel passo in cui tale indicatore subisce una riduzione più consistenze vuol dire che bisogna arrestarsi.
TRE INDISPENDABILI STRUMENTI

Tabella di riepilogo: Questo strumento ha lo scopo di riepilogare quanto osservato in un algoritmo


gerarchico agglomerativo.

La tabella è composta come segue:

Step N° Gruppi Unità Fuse Distanza Fusione Differenza


relativa o % tra
distanza fusione
Questa tabella permette di capire dove arrestare l’algoritmo.

Dendogramma: Strumento che ha lo scopo di riepilogare quanto osservato in un algoritmo gerarchico


agglomerativo.
E’ rappresentato tramite un sistema di assi cartesiani con:
- Asse X -> Unità coinvolte (NON quantitativo)
- Asse Y -> Distanza di fusione
Lo scree plot: Rappresentato su un sistema di assi cartesiani con:
- Asse X -> Distanze di fusione
- Asse Y -> Numero gruppi.
C’è una linea spezzata che collega le coordinate.

------------------------------------------------------------Domande Kahoot #6 ---------------------------------------------------

1) Il principale scopo della Cluster Analysis è determinare i gruppi di variabili che siano molto
omogenei al proprio interno:
a. Vero
b. Falso

2) Alcune affermazioni vere sui metodi aggregativi gerarchici:


a. Al contrario dei metodi non gerarchici, non aggregano direttamente in g gruppi;
b. Presentano, come situazione iniziale, tutte le unità in un solo gruppo;
c. Ad ogni step eliminano 2 righe e 2 colonne corrispondenti alla distanza minima;
d. Il metodo McQuitty procede come il legame medio ma senza usare ponderazione

3) Il metodo del centroide non è molto robusto agli outlier: Questi pesano parecchio, usando questo
metodo di clustering:
a. Vero
b. Falso

4) Il dendogramma verticale rappresenta le distanze di fusione sull’asse delle Y e il numero di gruppi


ottenuto ad uno step su X
a. Vero
b. Falso

5) Nel metodo basato sui punti nodali, come primo step si identificano le due unità più distanti tra
loro, i nodi:
a. Vero
b. Falso
6) Si parla ora di metodi NON gerarchici, scegli le uniche 2 affermazioni vere:
a. Ad ogni interazione ottimizzano la funzione obiettivo finchè niente migliora
b. K-means: fissa k punti iniziali e assegna tutte le unità ad uno di essi.
c. Se si scelgono diversi punti iniziali la soluzione finale può cambiare
d. In questi casi si preferisce evitare la standardizzazione.

7) Nello scree plot la conformazione a gomito (punto critico) si osserva quando si ha un elevato balzo
nelle distanze:
a. Vero
b. Falso

8) Scegli l’unica affermazione vera:


a. Buona strategia: prima applica un algoritmo non gerarchico, poi uno gerarchico;
b. È sempre opportuno arrivare a massimizzare il numero di gruppi ottenuti
c. Prima di usare il metodo del legame completo è opportuno studiare gli ouliter
d. Alg. Gerarchici: li arresto con aumento cospicuo della omogeneità interna.

9) Nei metodi gerarchici divisivi con il metodo del centroide inizialmente si suddividono i gruppi che
minimizzano la somma delle devianze interne
a. Vero
b. Falso

10) I metodi NON gerarchici richiedono solo variabili qualitative


a. Vero
b. Falso -> solo variabili quantitative

11) Nel metodo del legame medio la distanza tra i gruppi è calcolata come media aritmetica tra le
distanze prima della fusione ponderata con la numerosità dei gruppi prima della fusione
a. Vero
b. Falso

12) Il metodo del legame singolo tende a produrre cluster allungati


a. Vero
b. Falso

13) Il metodo di Ward unisce ad ogni interazione la coppia di gruppi che ha la minore varianza entro i
gruppi
a. Vero
b. Falso

14) La devianza totale è scomponibile in correlazione tra i gruppi e distanza tra i gruppi
a. Vero
b. FALSO

15) I gruppi ottenuti tramite la segmentazione per omogeneità si basano su un modello che studia la
dipendenza del fenomeno da una serie di variabili osservate
a. Vero
b. Falso

Potrebbero piacerti anche