Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Dispense cluster
Capitolo V
ANALISI DEI GRUPPI
di Andrea Cerioli e Sergio Zani
stenuti nel prima anna di corso, voto media negli esami del prima
anna, reddito familiare. L' analisi discriminante si propane d'indivi-
duare un'opportuna funzione di tali variabili che consenta di distin-
guere le due popolazioni (laureati e non). quindi i valori
delle medesime variabili per un nuovo insieme di studenti (ad esem-
pio, quelli iscritti lo scorso anno), e possibile prevedere quelli che si
laureeranno entro sei anni dall'immatricolazione, distinguendoli dai re-
stanti, con una ridotta probabilita di errore nell' assegnazione degli stu-
denti aile due popolazioni.
Un secondo esempio, d'interesse economico, e la classificazione
delle aziende che richiedono un prestito ad una banca in« aziende sol-
vibili » ed « aziende a rischio ». Sulla base dei dati passati, la banca puo
distinguere n azietide che hanno ottenuto un prestito in due categorie:
quelle che hanna rimborsato regolarmente il medesimo e le altre (che
hanna ritardato i pagamenti, non hanna effettuato i rimborsi, etc.).
Se per ciasctina di tali aziende la banca conosce un insieme di variabili
- desumibili ad esempio dai bilanci - mediante 1' analisi discriminante
e possibile classificare una nuova azienda che richiede un prestito (e
che fornisce i valori delle suddette variabill) nella classe di quelle solvi-
bill oppure di quelle a rischio, minimizzando la probabilita di errore
nell' assegnazione. Chiaramente questa conoscenza costituira la pre-
messa essenziale per la decisione di concedere o meno il prestito.
L' analisi dei gruppi - comunemente indicata con la dizione in-
glese cluster analysis - e invece un metoda tipicamente esplorativo:
esso consiste nella ricerca nelle n osservazioni p-dimensionali di gruppi
di unita tra lora simili, non sapendo a priori se tali gruppi omogenei
esistono effettivamente nel data set. Classificazioni di questa tipo assu-
mono una chiara valenza interpretativa solo nei casi in cui nei dati sono
realmente presenti dlelle strutture di gruppo, che vengono individuate
dalla metodologia statistica. La cluster analysis ha dun que 1' obiettivo
di riconoscere gruppi che appaiono con « naturalezza » nelle osserva-
zioni (1).
Un classica applicazione della cluster analysis e la segmentazione
del mercato, che puo essere riferita ai tipi di prodotto o aile categorie
; ..;:'
(7} Si puo in tal caso parlare di « stabilita » della cluster analysis (Gordon and
De Cata, 1988). Un concetto simile- . .anche se non equivalente- e quello di «va-
lidith> delia procedura di dassificazione, che si riferisce alia sua capacita di mettere
in luce le strutture di gruppo realmente presenti nei &\ti. Per un' am pia rassegna al
riguardo si rimanda a Milligan (1996) e Gordon (1999, cap. 7). · ·
(8) Un'esposizione d'ettagliata dei metodi di verifica di tali modelli esula dagli
obiettivi della presente trattazione; per ulteriori approfondimenti si vedano Bock
(1985), Hartigan (1985) e le rassegne di Bock (1996a, b) e Gordon (1996a).
FIG. 5.3. Istogrammi bidimensional£ per 103 /ondi comuni d'investimento rzferiti alta
coppia di indicator£: Rendimento media annuale (3 anni); Volatilita (3 anm).
,..
""'
0
0
8
0
cQ)
c :::II
g
0
:a
=
..
J[
IIi
:1
g -
::::ll
0 ....
...,..._ .. _....,.._.. c - --
----Q ---
(5.2)
(5.3)
(5.5)
tata nella tab. 4.3. Vogliamo dassificare le reti televisive in gruppi sulla
base dell' analogia della loro programmazione. Essen do le variabili tutte
espresse nella stessa unita di misura (ore di trasmissione), possiamo
operare sui valori originari, senza effettuare la standardizzazione.
TAB. 5 .2. Matrice delle distanze della citta a blocchi tra le reti televisive ottenuta dopo £!
prima passo della procedura gerarchica con it metoda dellegame singolo.
(RAIUNO, RAITRE RETE4 CANALES I11\LIA1
RAIDUE)
(RAIUNO, RAIDUE) 1626 2285 2921 2916
RAITRE 1626 1869 4373 3230
RETE4 2285 18:69 5206 3171
CANALES 2921 4373 5206 5993
I11\LIA1 2916 3230 3171 5993
..
'. l
TAB. 5.3. Matrice delle distanze della dtta a blocchi tra le reti televisive ottenuta dopo il
secondo passo della procedura gerarchica con zl metodo dellegame singolo.
TAB. 5.4. Programma di agglomerazione di SPSS per !a classi/icazione delle reti televi-
sive con il metoda dellegame singolo e !a distanza della citta a blocchi.
TAB. 5.5. Programma di agglomerazione di SPSS per la classificazione delle reti televi-
sive con il metodo dellegame completo e la distanza della ct'tta a blocchi.
5. Il dendrogram rna
FIG. 5 .4. Diagrammi ad albero ottenuti nella classi/icazione delle reti televisive col me-
toda dellegame singolo e dellegame completo.
LEGAME SINGOLO LEGAME COMPLETO
STADIO
5
4
3
2
I£) l!l
0 w w w
_J 0 w w w
_J
z ::::> ·z ::::>
w
I-
::::> 0
0::
I- ""'w"
I-
<{
z ::::> 0
0::
C:
""'w"
I- _J
<{
z
w <{ <( <( w <{ <( <( <{ w <{
0:: 0:: 0:: 0:: 0:: (.) 0:: 0:: 0:: 0:: (.)
FIG. 5.5. Dendrogramma ottenuto tramite SPSS nella classzficazione delle reti televisive
col metoda dellegame singolo.
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
RAIUNO 1 -+---+
RAIDUE 2 -+ +-------+
RAITRE 3 - - --- + +-----------------------------------+
RETE'l .q -------------+ I
ITALIA1 6 -------------------------------------------------+
CANALES 5 . -------------------------------------------------+
dice che P e piii fine di P* se ogni gruppo di P* e formato da uno o piu gruppi di P
(rna non viceversa).
(13) La denomill!lazione deriva dal greco 8cv8pov, che vuol dire albero.
Esempio. Nella fig. 5.5 e nella fig. 5.6 sono riportati i dendro-
grammi dell' esempio precedente, corrispondenti rispettivamente al me-
todo dellegame singolo e dellegame completo, ottenuti da SPSS sce-
gliendo r opzione: gra/ici- dendrogramma. Facciamo notare che con i
due criteri i livelli di distanza ai quali si formano i gruppi sono diversi,
ad eccezione del primo passo della classificazione.
FIG. 5.6. Dendrogramma ottenuto tramite SPSS nella classi/icazione delle rett' televisive
rol metoda del legame completo.
using Complete Linkage
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
RAIUNO 1 -+-----------+
RAIDUE 2 -+ +-----+
RAITRE 3 -----+-------+ +-----------------------------+
RETE4 4 -----+ I I
ITALIA 1 6 -------------------+ I
CANALES 5 -------------------------------------------------+
·.'
FIG. 5.7. Insieme d'elementi in R2, suddiviso in tre gruppi che corrispondono alia par-
tiziane ben strutturata.
.• •••....••••
• ••
•
••••
••
.....
....
. .••.•·•
•••••
, •
,
•• •••
•
•• •••
•••
•••••
••••
••• • ••••
'.'
(14) In qualche caso- come ad esempio quando si ein presenza d'un gruppo
compatto e di uno o piu outliers momto lontani da esso - la partizione ben struttu-
rata mini:male puo risultare troppo aggregata.
FIG. 5.8. Metodo dellegame singolo: a) ef/etto catena,· b) gruppi di/orma non circolare
individuabilt'.
..... ..........•••••
•••• •
.... .•:.
••• .I
.-:.. ......
,
••••• •• •• • • • ••
•••• ••
.... ......,. ..••...
,
•·•• ••••
•••
••• •• . ..
,
,.
•••••••••
• •• •••••
••••
••••
•••••
••
•• ••••••
•
•••••
•••••
••
•• ••••
a) ••• b)
(15) Illi metoda dellegame singolo consente di ottenere anche l'albero di mi-
nima lunghezza (minimum spanning tree), che e il grafo che unisce gli n punti nel
piano, in modo che dascuno di questi sia raggiunto una sola volta, e tale chela lun-
ghezza dei segmenti tra essi sia la minima possibile tra tutte le n(n - 1)/2 distanze
(Gower and Ross, 1969; Gordon, 1999, pp. 53-55).
(5.6)
Ovviamente, il calcolo del centroide d'un gruppo di unita richiede
la conoscenza dei rispettivi valori delle p variabili, che si possono leg-
gere nella matrice dei dati.
Facciamo notare che, per un principia di coerenza, la distanza tra i
centroidi deve essere del medesimo tipo (euclidea, della dtta a blocchi,
etc.) utilizzato nella matrice delle distanze.
n
centroide del nuovo gruppo che si forma puo essere calcolato
(avvalendosi della proprieta associativa della media aritmetica) in fun-
zione dei centroidi dei due gruppi di partenza:
.
centrozde (C1 u Cz) =
x1n1 + x2n2
. (5.7)
n1 + n2
(5.8)
(5.9)
W=LWt (5.10)
l=l
(5 .11)
(5.12)
(16) Per la scomposizione della devianza d'una singola variabile si veda il Vol.
I, pp. 126-130.
(5.13)
FIG. 5.9. Dendrogramma ottenuto tramite SPSS nella classi/icazione delle aziende ali-
mentart· con la distanza euclidea sugli scostamenti standardizzati ed il metoda
del legame media.
Dendrogram using Average Linkage (Between Groups)
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
BARILJI..A 1 -+-+
KRAFT 5 -+ +- +
GAL BANi! 4 ---+ +---+
STAR 10 -----+ +-----------+
LAVAZZA 6 ---------+ +-------+
FERRERO 3 ---------------------+ +-------------------+
ERIDANIA 2 -+---------------------+ I I
NESTLE' 7 -+ +-----+ I
PARMALAT 8 -----------------------+ I
PLASUON 9 -------------------------------------------------+
FIG. 5.10. Dendrogramma ottenuto tramite SPSS nella classi/icazione delle aziende ali-
mentari con Ia dzstanza euclidea sugl£ scostamenti standardizzati ed il metoda
del centroide.
Dendrogram using Centroid Method
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+--- ------+
BARILLA 1 -+
KRAFT 5 -+
GALBANI .q -+---+
STAR 10 -+ +---------+
LAVAZZA 6 -----+ +---------+
ERIDANIA 2 -+-------------+ +---+
NESTLE' 7 -+ I +-------------------+
FERRERO 3 I I
PARMALAT 8 -----------------------------+ I
PLASMON 9 -------------------------------------------------+
(5.15)
RMSSTD= (5.16)
Le ultime due colonne della tab. 5.7 contengono i valori degli in-
did R2 e RMSSID per i successivi passi del processo di agglomera-
zione. Dai risultati indicati emerge una variazione sensibile di entrambi
i coefficienti passando dalla partizione con 4 gruppi a quella seguente
con 3 gruppi ed un cambiamento ancora pili accentuato considerando
la classificazione con soli 2 gruppi. Tali modificazioni testimoniano un
peggioramento moho rilevante delle soluzioni via via ottenute: ad esem-
pio, passando da 3 a 2 clusters, la quota di variabilita totale delle 4 va-
riabili « spiegata» dalia suddivisione in gruppi si riduce dal 78.9% a
meno del 48%.
TAB. 5.7. Output del programma SAS per la classi/icazione delle reti televisive con il me-
toda dellegame completo e la distanza euclidea.
... li..._
P\P* 1 0 Tot.
1 en CIO C! .
0 co1 Coo co.
Tot. C.! c.o (;)
ove:
c11 numero di coppie di unita che appartengono allo stesso gruppo
sia nella partizione P sia in P*;
c10 numero di coppie di'lmita che appartengono allo stesso gruppo
nella partizione P rna appartengono a gruppi diversi in P*;
c01 numero di coppie di unita che appartengono allo stesso gruppo
nella partizione P* rna appartengono a gruppi diversi in P;
c00 numero di coppie di unita che appartengono a gruppi diversi sia
nella partizione P sia in P*.
Si ha inoltre: c1. =en+ c10, c.1 = cu +em ed analogamente per
co. e c.o. Ovviamente, cu + c10 + em + coo =
Si noti che le quantita c11 e coo indicano il numero di cop pie d' ele-
menti « trattate » in modo analogo nelle due partizioni. Esse forniscono
·•··.
d'unita statistiche.·
Per fortuna, una procedura di calcolo cosi laboriosa non e neces-
saria in pratica, poiche e possibile riscrivere l'indice RP;P* in funzione
degli elementi di P e P*. A tale scopo, indichiamo con { C1 , ... , Cg} i
clusters che costituiscono la partizione P e con { Ci , ... , quelli c;.}
che formano P*. Le corrisppndenti numerosita sono date, rispettiva-
mente, da { nl' ... '
ng} e l ni' ... ' n;.}.
n passo seguente consiste
nel prendere in esame il gruppo in cui ciascuna unita statistica e clas-
sificata in P e quello cui appartiene in P*. La sintesi di tali informa-
zioni da quindi luogo alia seguente tabella a doppia entrata (cfr. il
Vol. I, p. 31):
n= LLnrc
r=l c=l
(5.18)
Rp.p•
,
= 1+
15
11
= 0.8
che coincide ·con quello ottenuto in precedenza. Si noti che l'« eti-
chetta » associata ai diversi gruppi nelle due classificazioni e assoluta-
mente irrilevante ai fini del confronto: cio che conta e soltanto il fatto
che le unita statistiche appartengano o meno allo stesso cluster- qua-
lunque sia il suo numero progressive - in P ed in P*.
, r
TAB. 5 .8. Classi/icazione delle coppie di reti televisive in base al duster di appartenenza
nelle partizioni di quattro gruppi ottenute tramite il metodo del legame sin-
golo (P) ed il metodo dellegame completo (P*).
p "-- P* 1 0 Tot.
1 1 2 3
0 1 11 12
Tot. 2 13 15
TAB. 5.9. Classi/icazione delle reti televisive in base al duster di appartenenza nelle par-
. tizioni di quattro gruppi ottenute tramite il metodo dellegame singolo (P) ed
il metodo dellegame completo (P* ).
. <J
.
TAB. 5.10. Caratteristiche tecniche e prezzo di listino per 42 autovetture presenti sul
mercato italiano nel1998 (fonte: Quattroruote, novembre 1998).
FIG. 5.12. Dendrogramma ottenuto tramite SPSS nella classi/icazione delle autovetture
(compresa Jaguar) con la distanza euclidea sugli scostamenti standardizzati ed
il metoda del legame media.
Dendrogram using Average Linkage (Between Groups)
c AS E 0 5 10 15 20 25
Label Num
P406 31 -+-----+
XANTIA 41 -+ +-----+
AUDI4 4 -----+ I I
VECTRA 39 -- - --+-+ I
PAS SAT 33 -----+ I
A156 1 -------+-+ I
CIVIC 10 -------+ +---+-------+
MAREA 24 ---------+ I I
A166 2 -------+ I I
BMW320 6 -------+-----+ +---------------------+
MERC200 26 -------+ I I
LANCIAK 21 -------+-+ I I
VOLV070 40 -------+ +-----------+ +-----+
AUDI6 5 ---------+ I I
BMW528 7 -------------+-------------+ I I
MERC320 27 -------------+ +---------------+ I
JAGUAR 42 ---------------------------+ I
FIAT500 14 -+---+ I
FIAT600 15 -+ +-------+ I
PANDA 32 -----+ I I
COR SA 13 -+ - + I I
POLO 34 -+ +-+ +-------------+ I
IBIZA 19 ---+ +-----+ I I I
LUPO 23 ---+-+ I I I I
P106 29 ---+ +-+ I I
PUNT055 35 -----+-+ I I I
SAXO 37 -----+ +---+ I I
KA 20 -----+-+ I I
TWINGO 38 -----+ +- - --- -- - -------------+
CLIO 11 -+-+ I
P206 30 -+ +-+ I
FIESTA 16 ---+ +---------+ I
MICRA 28 -+-+ I I I
PUNT075 36 -+ +-+ I I
LANCIAY 22 ---+ I I
BRAVA 8 ---+---+ +-----------+
BRAVO 9 ---+ +-+ I
ASTRA 3 -+---+ I I I
GOLF 18 -+ +-+ +-+ I
FOCUS 17 -----+ I +---+
COROLLA 12 ---------+ I
MEGANE 25 -----------+
i_'
i
FIG. 5.13 . Dendrogramma ottenuto tramite SPSS nella classi/t'cazione delle autovetture
(compresa Jaguar) con la distanza city-block sugli scostamenti standardizzati
ed il metoda del legame media.
Dendrogram using Average Linkage (Between Groups)
CASE 0 5 10 15 20 25
Label Num +-- -- -----+------- - -+---------+---------+---------+
FIAT500 14 -+ - +
FIAT600 15 -+ +---+
PANDA 32 ---+ I
LUPO 23 - +-+ +-------+
P106 29 -+ +- + I I
CORSA 13 - +- + I I I
POLO 34 -+ I +-+ I
IBIZA 19 ---+ I I
PUNT055 35 ---+- + I
SAXO 37 ---+ I I
KA 20 ---+-+ +------- - -----+
TWINGO 38 - --+ I I
MICRA 28 -+ I I
PUNT075 36 -+-+ I I
CLIO 11 -+ I I I
P206 30 -+ +-----+ I I
FIESTA 16 -+ I I I I
LANCIAY 22 -- - + I I I
BRAVA 8 -+-+ +-----+ I
BRAVO 9 -+ +- + I I
ASTRA 3 -+ I I I I
GOLF 18 - +-+ I I +----------------- - -+
FOCUS 17 -+ . +---+ I I
MEGANE 25 ----- + I I
COROLLA 12 - - -- -+ I I
A166 2 ---+- + I I
BMW320 6 ---+ +- + I I
MERC200 26 -----+ I I I
P406 31 -+-+ +----- - -+ I I
XANTIA 41 -+ +---+ I I I
AUDI4 4 ---+ I I I I
PAS SAT 33 -- -+ I I I I
VECTRA 39 ---+ I I I I
A156 1 -- - +-+ I +-------------+ I
MAREA 24 ---+ +- + I I
CIVIC 10 - --- - + I I
LANCIAK 21 ---+-+ I I
VOLV070 40 - --+ + -- - --+ I I
AUDI6 5 --- - - + +---+ I
BMW52B 7 -------+---+ I
MERC320 27 -------+ I
JAGUAR 42 -------------------------------------------------+ .
'.
FIG. 5.14. Dendrogramma ottenuto tramite SPSS nella classi/icazione delle autovetture
(esclusa Jaguar) con la distanza euclidea sugli scostamenti standardizzati ed il
metodo dellegame medio.
Dendrogram using Average Linkage (Between Groups)
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---- -- ---+---------+---------+
P406 31 -+---+
XANTIA 41 -+ +-+
VECTRA 39 -----+ +-----+
AUDI4 4 - ----+-+ I
PAS SAT 33 -----+ +-+
A156 1 --- ----+---+ I I
CIVIC 10 -------+ +-+ +-------+
MAREA 24 -- - - -------+ I I
A166 2 -------+ I I
BMW320 6 -------+-------+ +-------------+
MERC200 26 -------+ I I
AUDI6 5 -------+---+ I +-----------+
LANCIAK 21 ---- ---+ +-----------+ I I
VOLV070 40 -----------+ I I
BMW528 7 ---- ---------- -+--- ----- - - - ----- - --- - + I
MERC320 27 ---------------+ I
FIAT500 14 -+---+ I
FIAT600 15 -+ +---------+ I
PANDA 32 ___ ..:. _+ I
I
CORSA 13 -+-+ I I
POLO 34 -+ +---+ +-----------+ I
IBIZA 19 -- - + +---+ I I I
LUPO 23 ---+---+ I I I I
P106 29 ---+ +---+ I I
PUNT055 35 -----+..:.--+ I I I
SAXO 37 -----+ +-+ I I
KA 20 -------+-+ I I
TWINGO 38 -------+ +---------------------+
CLIO 11 ---+ I
P206 30 ---+- + I
FIESTA 16 ---+ +---------+ I
MICRA 28 -+-+ I I I
PUNT075 36 -+ +-+ I I
LANCIAY 22 ---+ I I
BRAVA 8 ---+---+ +-----------+
BRAVO 9 ---+ +-+ I
ASTRA 3 -+ ---+ I I I
GOLF 18 -+ +-+ +-+ I
FOCUS 17 ---- -+ I +- --+
COROLLA 12 ---------+ I
MEGANE 25 -----------+
., . '.
finale d'una sola eli esse elipendera dunque dagli obiettivi specifici del
ricercatore e dalla sua volonta eli privilegiare la coesione interna dei
gruppi oppure la sintesi della partizione finale.
(24) Data sets di dimensioni cosi grandi sono ormai frequenti in numerosi set-
tori d'applicazione: si vedano, ad esempio, Eddy, Mockus and Oue (1996) e
Hruschka and Natter (1999). In simili casi una metodologia aiternativa all'analisi
classificatoria puo essere costituita dalle reti neurali, che saranno illustrate nel succes-
sivo capitola 8. Entrambe le tecniche- cluster analysis e reti neurali- costituiscono
strumenti essenziali di quell' approccio esplorativo allo studio di grandi masse di dati
denominato data mining, gia menzionato nel capitola 1.
,_ ..,
moria centrale molto pili elevata per il salvataggio della matrice delle
distanze.
Le tecniche non gerarchiche sono solitamente utilizzate anche nelle
applicazioni in cui n e dell' ordine di qualche centinaia di unita, poiche
- - a caiusa dell' elevato numero di aggregazioni -. il dendrogramma as-
sociato ad un algoritmo gerarchico risulterebbe comunque di difficile
lettura ed interpretazione. Inoltre, esse possono essere preferibili
quando !'interesse della ricerca consiste nella caratterizzazione delle pe-
culiarita dei gruppi (ad esempio, tramite il calcolo dei centroidi e delle
misure di variabilita multidimensionale dei clusters), piuttosto che nella
studio del comportamento delle singole unita nei successivi passi del-
l' agglomerazione gerarchica.
A fronte delle potenzialita indicate, i metodi di classificazione non
gerarchici presentano tuttavia anche alcuni inconvenienti, legati soprat-
tutto alia necessita di definite preventivamente:
i) il valore di g, doe il numero di gruppi della partizione « ottima »
che si vuole ricavare;
ii) la configurazione di partenza dei clusters, necessaria per inizia-
lizzare 1' algoritmo iterativo di classificazione.
Tali problemi saranno affrontati nel successivo n. 12.2, dopa l'illu-
strazione d'un particolare algoritmo non gerarchico: quello delle k-me-
die.
r·'
ralmente in modo tale che essi siano abbastanza distanti tra loro. Si co-
struisce quindi la partizione iniziale, costituita da g gruppi, allocando
ciascuna unita al cluster il cui polo risulta il piu vicino.
2) Per ogni elemento si calcola la distanza dai centroidi dei g
gruppi: se la distanza minima none ottenuta in corrispondenza del cen-
troide del gruppo di appartenenza, l'unita e riassegnata al cluster corri-
spondente al centroide piu vicino. In caso di riallocazione di un'unita,
si ricak ola il centroide sia del nuovo sia del vecchio gruppo di appar-
tenenza.
3) Si ripete il passo 2 sino a quando non e raggiunta la conver-
genza dell' algoritmo, doe finche non si verifica alcuna modificazione
dei poli - · e quindi dei gruppi- rispetto all'iterazione precedente.
In alternativa, se si vogliono ridurre i tempi di calcolo, la condi-
zione di arresto prevista al punto 3 della procedura puo essere sostituita
da una regola meno restrittiva, che prevede 1' interruzione della proce-
dura in ciascuno dei seguenti casi:
3a) convergenza d.ell' algoritmo;
3b) distanza tra ciascun centroide calcolato nell'iterazione corrente
ed il conispondente centroide nell'iterazione precedente non superiore
ad una soglia prefissata;
3c) raggiungimento del numero massimo di iterazioni prescelto.
Per ottenere una partizione con un diverso numero di gruppi, ad
esempio g*' e necessaria ripetere tutti i passi del procedimento, par-
tendo d alla fase 1 e sostituendo g con g*.
Le successive fasi della metodologia illustrata richiedono il calcolo
ripetuto della distanza tra ciascun pun to ed i centroidi dei g gruppi: tale
procedura appartiene dunque alla classe di algoritmi di classificazione
che adottano la tecnica denominata « ordinamento rispetto al centroide
piu vicino » (nearest centroid sorting) . La tp.etrica utilizzata nel calcolo
di queste distanze e solitamente quella euclidea, in quanto essa garanti-
see b convergenza della procedura iterativa (Anderberg, 1973,
p. 166) (25). Pertanto, all'iterazione t, la distanza tra l'unita i-esima
ed il del gruppo l (i = 1' . . . ' n; l = 1' ... ' g) e data da:
d(x;,xi')) = t(
s=l
x;, - x;:Jt (5.19)
mero eli gruppi e dei semi iniziali. Si noti che molte delle considerazioni
svolte in questa paragrafo hanno validita piu generale rispetto al solo
metoda delle k-medie, potendosi applicate a qualunque algoritmo di
tipo non gerarchico.
o -
TAB. 5.12. Cronologia delle iterazioni per la classi/icazione delle reti televisive tramz'te la
procedura k-medie di SPSS (g=3).
Modifiche ai centri
dei cluster
Iterazione 1 2 3
1 923.817 0.000 0.000
2 0.000 0.000 0.000
TAB. 5.13. Cluster di appartenenza e distanza dal corrispondente centroide per ciascuna
rete televisiva nella partizione con 3 gruppi ottenuta tramite la procedura k-
medie di SPSS.
pleto, con il medesimo numero eli gruppi (cfr. il n. 4.2). Tale corrispon-
denza non vale pero in generale e non risulta solitamente verificata nelle
applicazioni a data sets piu complessi.
TAB. 5.14. Centroidi de.i clusters finali ottenuti nella classi/icazione delle reti televisive
tramite la procedura k-medie di SPSS (g=3).
Cluster
1 2 3
FILM 1349 1167 582
TELEFILM 1153 3119 1193
VARlETA' 1071 795 2166
NEWS 1438 1261 3372
Total STD = T )
Within STD = W )
TAB. 5.15. Centrot'di dei clusters iniziali nella classi/icazione dei/ondi d'investimento
tramite la procedura k-medie di SPSS (g=2).
Cluster
1 2
Performance% (12 mesi) 24.60 -0.60
Rendim. med. ann. (3 anni) 49.10 10.80
Volatilita (3 anni) 22.00 9.10
TAB. 5.16. Cronologia delle iterazioni per la classi/icazione dei/ondi d'investimento tra-
mite la procedura k-medie di SPSS (g=2).
Modifiche ai centri
dei cluster
Iterazione 1 2
1 19.711 14.164
2 1.508 2.537
3 0.176 0.280
4 0.247 0.313
5 0.000 0.000
;
1
TAB. 5.17. Numero di elementi in dascuno dei clusters otten uti nella classz/icazione dei
1
fondi d investimento tramite la procedura k-medie di SPSS (g=2) e distanze
tra i rispettivi centroidi.
TAB. 5.18. Centroidi dei clustersfinali ottenuti nella classzficazione deifondi d investi-
1
Cluster
1 2
Performance% (12 mesi) 12.2491 9.1609
Rendim. med. ann. (3 anni) 31.4807 · 18.1000
Volatilita (3 anni) 21.3596 11.3130
TAB. 5.19. Statistiche delle variabili ed indici di banta della partizione ottenuta nella
classi/icazione dei /ondi d)t·nvestimento tramite la procedura Fastclus di
SAS (g=2).