Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
bisogni e i comportamenti della propria clientela (i quali avranno un alto grado di eterogeneità).
Segmentazione di mercato -> Processo tramite il quale le aziende suddividono la domanda in insieme di
clienti potenziali caratterizzati da elevata omogeneità all’interno dei segmenti ed una sufficiente
differenziazione tra i diversi segmenti.
-> Obbiettivo: raggruppare individui caratterizzati da funzioni di domanda il più simile possibile.
Ogni potenziale consumatore dovrebbe essere studiato come un segmento a sé stante, questo però in
pratica è impossibile in quanto comporta costi per l’azienda che supererebbero di gran lunga i benefici.
1) Per omogeneità: Individuare diversi segmenti di domanda sulla base di un insieme di variabili
osservate, senza presupporre l’esistenza di un modello che studi la loro dipendenza.
2) Per obbiettivi: La popolazione viene suddivisa in sottopopolazioni utilizzando una determinata
variabile (es. la redditività della clientela) e si individuano una serie di variabili che possono influire
in maniera rilevante sulla variabile principale considerata.
-> Legame tra variabile dipendente e variabili esplicative.
Analisi dei gruppi: Tecnica che permette di raggruppare gli individui tra loro più simili in relazione a
determinate caratteristiche.
-> Obbiettivo: ridurre la dimensionalità della matrice nel senso delle righe.
Analisi dei gruppi: Insieme delle tecniche statistiche che hanno l’obiettivo di raggruppare un insieme di
unità appartenenti ad un collettivo in un certo numero di gruppi, sulla base della loro similarità in relazione
ad un insieme di variabili.
Caratteristiche dei gruppi ottenuti -> Omogenei al loro interno ed elevata disomogeneità tra i gruppi stessi.
Si parte da una matrice di dati X (nxp) oppure da una matrice delle distanze D (nxn).
In entrambi i casi è fondamentale la scelta delle p variabili. -> Le variabili scelte possono essere di QUALSIASI
natura (sia qualitative che quantitative).
Nell’ambito delle tecniche statistiche di analisi dei gruppi, una prima distinzione va fatta tra:
-> Questi metodi sono così chiamati perché procedono per agglomerazioni successive delle unità statistiche.
La procedura parte da n gruppi, formati ciascuno da 1 solo individuo, per poi passare a n-1 gruppi, poi a n-2
….n-3,n-4, fino ad arrivare ad un unico gruppo costituito da TUTTE le n unità statistiche del collettivo.
Obbiettivo -> Raggruppare le unità statistiche in un certo numero (limitato) di gruppi.
Come scelgo i gruppi? Sufficiente Omogeneità all’interno e un numero basso di gruppi. Così da non rendere
troppo articolata l’interpretazione del raggruppamento.
Punto di partenza:
Ck + Cl = Cm (gruppo 3)
Vantaggi: nessuno.
Limiti: Molto influenzato dalla presenza di valori anomali, tanto da rendere necessaria una
preventiva analisi ad hoc. Produce molti gruppi di dimensioni simili.
3) METODO DI MCQUITTY:
-> Le distanze sono definite come la media aritmetica semplice tra le distanze che, prima della
fusione, avevano i gruppi oggetto di fusione con tutti gli altri.
DJM = (DJK+DJL)/2
Posizione intermedia tra i primi due elencati in termini di vantaggi e svantaggi.
Posizione intermedia.
Tende ad unire gruppi con bassa varianza interna e a produrre gruppi con varianze interne simili.
NB: Alla prima interazione il metodo del legame medio coincide con il metodo McQuitty.
I successivi metodi, invece, partono dalla matrice dei dati X, contenente i profili delle n unità statistiche
secondo p variabili quantitative.
1) METODO DEL CENTROIDE: La distanza tra i gruppi è posta pari alla distanza euclidea tra i centroidi o
baricentri, costituiti dai valori medi delle p variabili considerate, calcolati sulle unità appartenenti ai
gruppi. Anche in questo caso vengono fusi i gruppi che presentano distanza minima.
Vantaggi: Metodo robusto agli outlier (valori anomali). Metodo che da luogo a fusioni successive
con livelli di distanza decrescenti.
2) METODO WARD: Questo metodo si basa sulla scomposizione della devianza totale in devianza
entro i gruppi e devianza tra i gruppi. A ogni interazione viene considerata l’unione di tutte le
possibili coppie di gruppi e viene fusa la coppia che da luogo alla minore varianza ENTRO i gruppi.
NB: Aggregazioni che nel dendogramma avvengono molto “in alto” (livello di distanza elevato) si riferiscono
a gruppi NON omogenei al loro interno.
E’ consigliabile fermare il processo di aggregazione ad un livello di distanza MINORE, identificando un più
elevato numero di gruppi ma caratterizzati da una sufficiente omogeneità interna.
Possibile domanda esame: Quanti gruppi naturali proponi si compongano? NB che anche la singola unità
statistica è un gruppo, va quindi contata!!
5.1.1 – METODI GERARCHICI DIVISIVI (FDT)
Limiti: metodi molto onerosi computazionalmente e non applicabili in caso di variabili qualitative o
miste. Producono inoltre gruppi di uguale numerosità.
Questi metodi hanno come obiettivo quello di classificare le n unità statistiche in un numero prefissato di
gruppi, senza effettuare agglomerazioni o divisioni successive.
Richiedono, quindi, che il numero di gruppi sia specificato a priori (a differenza dei metodi gerarchici in cui la
scelta dei gruppi può essere fatta a posteriori).
Algoritmi iterativi: Questi metodi effettuano un raggruppamento provvisorio che ad ogni interazione
successiva viene modificato per ottimizzare la funzione obiettivo. Il sistema si ferma quando non sono
possibili ulteriori miglioramenti.
1) Come prima cosa si specificano i k punti iniziali (seed) nello spazio in modo causale o ragionato.
2) Assegno le unità a seed più vicino (distanza minima – assegnazione provvisoria).
3) Calcolo k centroidi, cioè i valori medi delle p variabili nei gruppi
4) Assegno le unità al centroide più vicino.
5) Procedo al ricalcolo del centroide e alla riallocazione delle unità fino al raggiungimento di una
configurazione stabile.
Questi algoritmi richiedono una preventiva analisi della matrice dei dati al fine di valutare l’opportunità
di eventuali standardizzazioni delle variabili, poiché variabili con varianza maggiore tendono ad avere
maggiore importanza nella formazione dei gruppi rispetto a variabili con varianza minore.
In alternativa al criterio del centroide più vicino, per la riallocazione delle unità si può ricorrere alla
scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi.
La scelta del metodo per realizzare una analisi di raggruppamento è un’operazione non semplice che
richiede un certo tipo di esperienza. Va ricordato che NON esiste un metodo migliore, la scelta va fatta
in base alla tipologia di dati a disposizione.
Se abbiamo a che fare con variabili miste o qualitative -> SOLO metodi gerarchici.
Questi metodi permettono di scegliere il gruppo a posteriori (vantaggio). In particolare, il metodo del
legame completo può fornire ottimi risultati a patto che venga fatta un’analisi preliminare per
identificare ed eliminare i valori anomali.
Se abbiamo a che fare con variabili quantitative -> Qualsiasi tipo di metodo.
Fondamentale uno studio preliminare per valutare processi di standardizzazione o correlazione.
I metodi gerarchici risultato maggiormente sensibili alla presenza di valori anomali e non consentono di
modificare una aggregazione effettuata ad un passo precedente
-> Una volta unite due unità in un gruppo, non è possibile dividerle.
I metodi non gerarchici non presentano questo problema. Richiedono però la preventiva indicazione del
numero di gruppi e la definizione dei punti iniziali.
- Prima si ricorre ad analisi gerarchica per individuare il numero ottimale dei gruppi e i punti iniziali
Successivamente si procede ad un’analisi non gerarchica.
- Preliminare analisi non gerarchica, specificando un elevato numero di gruppi al fine di individuare
valori anomali e i principali gruppi significativi
Successivamente si procede ad un’analisi gerarchica.
- Nel caso di dataset di grandi dimensioni, si può procedere con una analisi non gerarchica con il
metodo k-mens in modo da identificare un numero elevato di gruppi. Si passa poi successivamente
ad un’analisi gerarchica per raggruppare i gruppi ottenuti.
Importante è fare attenzione al trade-off: numero di gruppo contenuto in modo da evitare di disperdere
le risorse e l’esigenza di individuare gruppi dotati di sufficiente omogeneità interna.
Nei metodi gerarchici (variabili miste) -> Valori di distanza elevati significa che in quella fase della
procedura si stanno unendo gruppi che sono piuttosto diversi tra loro. Un criterio di scelta è quello di
arrestare il processo di aggregazione immediatamente prima di uno dei “salti” nella sequenza dei valori
di distanza riportati nel dendogramma.
Quando si ha a che fare con variabili quantitative il criterio di scelta del numero di gruppi può essere
fondato anche sull’indicatore ottenuto rapportando ai diversi passi di aggregazione la devianza tra i
gruppi alla devianza totale.
Nel passo in cui tale indicatore subisce una riduzione più consistenze vuol dire che bisogna arrestarsi.
TRE INDISPENDABILI STRUMENTI
1) Il principale scopo della Cluster Analysis è determinare i gruppi di variabili che siano molto
omogenei al proprio interno:
a. Vero
b. Falso
3) Il metodo del centroide non è molto robusto agli outlier: Questi pesano parecchio, usando questo
metodo di clustering:
a. Vero
b. Falso
5) Nel metodo basato sui punti nodali, come primo step si identificano le due unità più distanti tra
loro, i nodi:
a. Vero
b. Falso
6) Si parla ora di metodi NON gerarchici, scegli le uniche 2 affermazioni vere:
a. Ad ogni interazione ottimizzano la funzione obiettivo finchè niente migliora
b. K-means: fissa k punti iniziali e assegna tutte le unità ad uno di essi.
c. Se si scelgono diversi punti iniziali la soluzione finale può cambiare
d. In questi casi si preferisce evitare la standardizzazione.
7) Nello scree plot la conformazione a gomito (punto critico) si osserva quando si ha un elevato balzo
nelle distanze:
a. Vero
b. Falso
9) Nei metodi gerarchici divisivi con il metodo del centroide inizialmente si suddividono i gruppi che
minimizzano la somma delle devianze interne
a. Vero
b. Falso
11) Nel metodo del legame medio la distanza tra i gruppi è calcolata come media aritmetica tra le
distanze prima della fusione ponderata con la numerosità dei gruppi prima della fusione
a. Vero
b. Falso
13) Il metodo di Ward unisce ad ogni interazione la coppia di gruppi che ha la minore varianza entro i
gruppi
a. Vero
b. Falso
14) La devianza totale è scomponibile in correlazione tra i gruppi e distanza tra i gruppi
a. Vero
b. FALSO
15) I gruppi ottenuti tramite la segmentazione per omogeneità si basano su un modello che studia la
dipendenza del fenomeno da una serie di variabili osservate
a. Vero
b. Falso