Sei sulla pagina 1di 32

UNIVERSIT DEL SALENTO

FACOLT DI SCIENZE DELLA FORMAZIONE, SCIENZE POLITICHE E SOCIALI


Corso Di Laurea Magistrale in Metodologia dellIntervento Psicologico

ANALISI IN COMPONENTI PRINCIPALI E


ANALISI DEI CLUSTER APPLICATA ALLO STUDIO
DELLE RELAZIONI INTERPERSONALI DI 31
STUDENTI DELLA SCUOLA SECONDARIA DI I
GRADO

Docente:
Prof.Enrico Ciavolino

ANNO ACCADEMICO 2013/2014

Tesina a cura di:


Serena Bianco
Francesca Lacerenza
Codruta Terbea

ANALISI IN COMPONENTI PRINCIPALI E ANALISI DEI CLUSTER APPLICATA


ALLO STUDIO DELLE RELAZIONI INTERPERSONALI DI 31 STUDENTI DELLA
SCUOLA SECONDARIA DI I GRADO
A cura di: Serena Bianco; Codruta Terbea; Francesca Lacerenza

INDICE
1. ANALISI IN COMPONENTI PRINCIPALI (ACP)
1.1.

Introduzione ............................................................................................................................. 2

1.2.

Descrizione del caso studio e delle variabili ............................................................................ 2

1.3.

Il processo di analisi ................................................................................................................. 3

1.4.

Interpretazione dei dati e conclusioni .................................... Error! Bookmark not defined.

2. ANALISI DEI CLUSTER


2.1.
2.4.

MISURE DI DISTANZA .................................................................................................................. 21

2.5.

CREAZIONE DEI CLUSTER .......................................................................................................... 22

2.6.

INTERPRETAZIONE DEI DATI E CONCLUSIONI .................................................................. 30

1. ANALISI IN COMPONENTI PRINCIPALI (ACP)


1.1. INTRODUZIONE
LAnalisi in Componenti Principali (ACP) una tecnica di analisi statistica fattoriale che mira a
ridurre la dimensionalit dello spazio del fenomeno che stiamo studiando, riducendolo ad uno
spazio di due (massimo) tre dimensioni, per migliorare linterpretabilit del fenomeno stesso. Ci
possibile estraendo nuove variabili latenti che sintetizzano la variabilit complessiva dei dati; tali
variabili latenti sono definite componenti principali proprio perch riescono a spiegare gran parte
della variabilit complessiva del fenomeno. LACP applicabile esclusivamente su dati
quantitativi. Vengono utilizzate matrici di n righe e p colonne - dove per riga ci sono gli individui e
per colonna le variabili.

1.2. DESCRIZIONE DEL CASO STUDIO E DELLE VARIABILI


Il caso studio che prenderemo in esame fa parte di un progetto che si posto lobiettivo di:
analizzare la percezione che gli studenti hanno della qualit delle loro relazioni con il mondo dei
pari e con il mondo adulto; esplorare il rapporto tra qualit percepita delle relazioni e valutazioni di
profitto ottenute nel primo semestre, nellipotesi che la prima variabile organizzi le forme e la
qualit della partecipazione degli studenti al setting formativo e conseguentemente i loro risultati.
Per rilevare la qualit delle relazioni interpersonali, percepita dagli studenti coinvolti dallindagine,
stato utilizzato Il TRI (Test delle Relazioni Interpersonali, di Bruce Bracken). Si tratta di uno
strumento normato su un vasto campione nazionale di bambini e adolescenti di et compresa fra i 9
e i 19 anni e frequentemente utilizzato in ambito psicopedagogico. Lo strumento si compone di 5
scale, che valutano separatamente le relazioni con coetanei, coetanee, madre, padre e insegnanti.
I dati grezzi di ciascuna scala vengono trasformati in 5 indici sintetici e in un Indice Globale delle
Relazioni (IGR) - espressi in punteggi standard - grazie al riferimento alle tabelle contenute nel
manuale di siglatura del test, che tengono conto dellet e del sesso del rispondente.
La siglatura permette di ottenere 5 indici sintetici e un Indice Globale delle Relazioni (IGR). LIGR
viene espresso anche in punti T, sempre attraverso le tabelle.
La tabella seguente presenta le classificazioni dei punteggi ottenibili al TRI, che descrivono la
percezione della qualit delle relazioni lungo un continuum che va dal positivo al negativo.
Tab. Classificazione delle relazioni interpersonali nelle diverse fasce di punteggi standard
Fasce di punteggio
Classificazione
Sopra 125
Relazioni estremamente positive
111-125
Relazioni positive
90-110
Relazioni nella norma
76-89
Relazioni negative
Sotto 76
Relazioni estremamente negative

Applicheremo lanalisi in componenti principali su otto variabili (la relazione con: madre, padre,
coetanei, coetanee, insegnanti; lIGR; il punteggio espresso in punti T; la media dei voti), relative a
31 studenti frequentanti la scuola secondaria di I grado di Monteroni (LE). Per garantire la privacy,
il nome dello studente stato sostituito da un codice numerico (da 1 a 31), lo stesso riportato sul
test da lui compilato.
Come abbiamo gi accennato per quanto riguarda gli scopi dellACP, si cercher di ridurre la
variabilit complessiva estraendo nuove componenti principali capaci di descrivere in modo pi
sintetico il fenomeno indagato.

Di seguito presentato il dataset sul quale verr effettuata lanalisi:


STUDENTI

MADRE

PADRE

COETANEI

COETANEE

INSEGNANTI

IGR

PUNTI T

MEDIA VOTI

94

90

110

102

88

97

48

6,5

98

106

92

102

85

97

48

7,3

97

102

99

93

104

102

51

6,5

89

97

84

93

85

82

38

7,5

101

96

101

97

94

99

49

5,9

90

85

113

87

79

85

40

7,4

72

73

69

76

82

65

27

4,9

103

112

93

90

84

97

48

5,8

75

83

102

112

75

82

38

6,5

10

83

83

90

101

98

86

41

6,3

11

79

112

114

110

97

104

53

7,5

12

90

94

79

90

104

85

40

6,1

13

92

86

68

99

93

73

32

5,3

14

88

91

105

109

86

94

46

8,1

15

99

102

105

99

104

104

53

7,5

16

96

104

120

103

97

107

55

7,4

17

99

107

106

99

107

106

54

6,7

18

94

90

72

69

97

72

31

5,7

19

91

100

98

108

93

99

49

8,8

20

78

81

91

75

96

69

29

4,7

21

91

77

113

119

84

95

47

5,8

22

85

85

95

98

96

87

41

7,1

23

75

75

76

70

102

65

27

5,8

24

96

95

88

106

97

96

47

6,7

25

83

90

96

85

97

84

39

6,3

26

102

100

96

81

88

90

43

6,3

27

106

105

127

73

111

106

54

28

81

66

87

101

95

76

34

6,2

29

92

95

119

90

95

100

50

6,3

30

95

94

101

100

90

95

47

7,2

31

97

95

108

107

111

109

56

8,4

1.3. IL PROCESSO DI ANALISI


Dopo aver salvato il dataset in formato .csv, lo carichiamo in RStudio:
> Data.set.ACP<-read.csv("C:/Users/Asus/Desktop/II anno MIP/I
semestre/Statistica avanzata/Data set ACP.csv", sep=";", dec=",")
> View(Data.set.ACP)

Definiamo un oggetto X equivalente al dataset completo, meno la prima colonna che contiene
esclusivamente il numero delenco degli studenti perci non partecipa allanalisi:
> X<-as.matrix(Data.set.ACP[,2:9])
> View(X)

COETANEI

COETANEE

INSEGNANTI

PUNTI T

MEDIA.VOTI

MADRE
94

PADRE
90

110

102

88

IGR
97

48

6,5

98

106

92

102

85

97

48

7,3

97

102

99

93

104

102

51

6,5

89

97

84

93

85

82

38

7,5

101

96

101

97

94

99

49

5,9

90

85

113

87

79

85

40

7,4

72

73

69

76

82

65

27

4,9

103

112

93

90

84

97

48

5,8

75

83

102

112

75

82

38

6,5

10

83

83

90

101

98

86

41

6,3

11

79

112

114

110

97

104

53

7,5

12

90

94

79

90

104

85

40

6,1

13

92

86

68

99

93

73

32

5,3

14

88

91

105

109

86

94

46

8,1

15

99

102

105

99

104

104

53

7,5

16

96

104

120

103

97

107

55

7,4

17

99

107

106

99

107

106

54

6,7

18

94

90

72

69

97

72

31

5,7

19

91

100

98

108

93

99

49

8,8

20

78

81

91

75

96

69

29

4,7

21

91

77

113

119

84

95

47

5,8

22

85

85

95

98

96

87

41

7,1

23

75

75

76

70

102

65

27

5,8

24

96

95

88

106

97

96

47

6,7

25

83

90

96

85

97

84

39

6,3

26

102

100

96

81

88

90

43

6,3

27

106

105

127

73

111

106

54

28

81

66

87

101

95

76

34

6,2

29

92

95

119

90

95

100

50

6,3

30

95

94

101

100

90

95

47

7,2

31

97

95

108

107

111

109

56

8,4

Calcoliamo la media aritmetica per ogni colonna, per ottenere una prima sintesi delle otto variabili;
arrotondiamo alla terza cifra decimale:
> medie<-colMeans(X)
> View(round(medie,3))

1
2
3
4
5
6
7
8

row.names
MADRE
PADRE
COETANEI
COETANEE
INSEGNANTI
IGR
PUNTI.T
MEDIA.VOTI

X
90.677
92.613
97.323
94.968
94.000
90.581
43.710
6.597

Costruiamo ora una matrice contenente le medie di colonna ripetute per le 31 osservazioni:
> M<-matrix(1,31,1)
> Xm<-M%*%medie

Si pu cos ottenere la matrice dei dati centrati, attraverso la differenza tra ogni singolo valore della
matrice iniziale e la media aritmetica della colonna alla quale ogni valore appartiene. Anche in
questo caso arrotondiamo i valori ottenuti alla terza cifra decimale. Si ottiene una matrice centrata,
dove la nube dei punti viene traslata nel baricentro B dato dalle medie; in questo caso la media
aritmetica per colonna della matrice X centrata 0, in quanto la media diventata il baricentro.
> Xc<-(X-Xm)
> View(round(Xc,3))
MADRE

PADRE

COETANEI

COETANEE

INSEGNANTI

IGR

PUNTI.T

MEDIA.VOTI

3.323

-2.613

12.677

7.032

-6

6.419

4.29

-0.097

7.323

13.387

-5.323

7.032

-9

6.419

4.29

0.703

6.323

9.387

1.677

-1.968

10

11.419

7.29

-0.097

-1.677

4.387

-13.323

-1.968

-9

-8.581

-5.71

0.903

10.323

3.387

3.677

2.032

8.419

5.29

-0.697

-0.677

-7.613

15.677

-7.968

-15

-5.581

-3.71

0.803

-18.677

-19.613

-28.323

-18.968

-12

-25.581

-16.71

-1.697

12.323

19.387

-4.323

-4.968

-10

6.419

4.29

-0.797

-15.677

-9.613

4.677

17.032

-19

-8.581

-5.71

-0.097

10

-7.677

-9.613

-7.323

6.032

-4.581

-2.71

-0.297

11

-11.677

19.387

16.677

15.032

13.419

9.29

0.903

12

-0.677

1.387

-18.323

-4.968

10

-5.581

-3.71

-0.497

13

1.323

-6.613

-29.323

4.032

-1

-17.581

-11.71

-1.297

14

-2.677

-1.613

7.677

14.032

-8

3.419

2.29

1.503

15

8.323

9.387

7.677

4.032

10

13.419

9.29

0.903

16

5.323

11.387

22.677

8.032

16.419

11.29

0.803

17

8.323

14.387

8.677

4.032

13

15.419

10.29

0.103

18

3.323

-2.613

-25.323

-25.968

-18.581

-12.71

-0.897

19

0.323

7.387

0.677

13.032

-1

8.419

5.29

2.203

20

-12.677

-11.613

-6.323

-19.968

-21.581

-14.71

-1.897

21

0.323

-15.613

15.677

24.032

-10

4.419

3.29

-0.797

22

-5.677

-7.613

-2.323

3.032

-3.581

-2.71

0.503

23

-15.677

-17.613

-21.323

-24.968

-25.581

-16.71

-0.797

24

5.323

2.387

-9.323

11.032

5.419

3.29

0.103

25

-7.677

-2.613

-1.323

-9.968

-6.581

-4.71

-0.297

26

11.323

7.387

-1.323

-13.968

-6

-0.581

-0.71

-0.297

27

15.323

12.387

29.677

-21.968

17

15.419

10.29

-0.597

28

-9.677

-26.613

-10.323

6.032

-14.581

-9.71

-0.397

29

1.323

2.387

21.677

-4.968

9.419

6.29

-0.297

30

4.323

1.387

3.677

5.032

-4

4.419

3.29

0.603

31

6.323

2.387

10.677

12.032

17

18.419

12.29

1.803

Per avere una misura iniziale del rapporto tra le otto variabili, costruiamo la matrice delle
devianze/codevianze (Xc'Xc). Si tratta di una matrice diagonale e simmetrica, caratterizzata dal
fatto che gli elementi sulla diagonale maggiore (che va da sinistra a destra) rappresentano la
5

codevianza delle variabili con se stesse (quindi la devianza), mentre gli elementi al di sopra e al di
sotto della diagonale maggiore costituiscono la codevianza fra le differenti variabili e sono identici
fra loro (infatti solitamente gli elementi al di sopra della diagonale si possono omettere).
> cod<-crossprod(Xc)
> View(round(cod,3))
row.names

MADRE

PADRE

COETANEI

COETANEE

INSEGN.

IGR

PUNTI.T

MEDIA.VOTI

203.677

668.000

2349.806

1551.097

56.268

MADRE

2386.774

2081.129

1498.226

PADRE

2081.129

3907.355

2166.871

570.613

794.000

3307.968

2196.516

137.661

COETANEI

1498.226

2166.871

6768.774

2079.323

468.000

4511.194

3023.903

186.632

COETANEE

203.677

570.613

2079.323

5028.968

-680.000

2541.581

1714.710

207.297

INSEGNANTI

668.000

794.000

468.000

-680.000

2428.000

1114.000

738.000

14.400

IGR

2349.806

3307.968

4511.194

2541.581

1114.000

4937.548

3296.226

218.458

PUNTI.T

1551.097

2196.516

3023.903

1714.710

738.000

3296.226

2202.387

145.971

MEDIA.VOTI

56.268

137.661

186.632

207.297

14.400

218.458

145.971

27.730

Dato che la codevianza (come la devianza) risente dellinfluenza della numerosit del campione,
preferibile utilizzare la covarianza. Dividiamo la matrice centrata per 1/radq(n-1); poi calcoliamo la
covarianza come Xcn'Xcn. La divisione indicata utilizzata quando abbiamo un campione con
bassa numerosit, come nel nostro caso.
> Xcn<-Xc*1/(sqrt(31-1))
> cov<-t(Xcn)%*%Xcn
> View(round(cov,3))
row.names

MADRE

PADRE

COETANEI

COETANEE

INSEGN.

IGR

PUNTI.T

MEDIA.VOTI

MADRE

79.559

PADRE

69.371

130.245

72.229

19.020

26.467

110.266

73.217

4.589

COETANEI

49.941

72.229

225.626

69.311

15.600

150.373

100.797

6.221

COETANEE

6.789

19.020

69.311

167.632

-22.667

84.719

57.157

6.910

INSEGNANTI

22.267

26.467

15.600

-22.667

80.933

37.133

24.600

0.480

IGR

78.327

110.266

150.373

84.719

37.133

164.585

109.874

7.282

PUNTI.T

51.703

73.217

100.797

57.157

24.600

109.874

73.413

4.866

1.876

4.589

6.221

6.910

0.480

7.282

4.866

0.924

MEDIA.VOTI

69.371

49.941

6.789

22.267

78.327

51.703

1.876

La covarianza risolve il problema relativo alla numerosit campionaria, ma presenta il limite di


dipendere sempre dallunit di misura impiegata. Per ottenere una misura a-dimensionale,
calcoliamo la deviazione standard (sd) relativa alle colonne, ottenuta come radice quadrata della
covarianza.
> sigma<-apply(X,2,sd)
> View(round(sigma,3))
row.names

MADRE

8.920

PADRE

11.413

COETANEI

15.021

COETANEE

12.947

INSEGNANTI

8.996

IGR

12.829

PUNTI.T

8.568

MEDIA.VOTI

0.961

Successivamente creiamo la matrice delle deviazioni standard (come fatto in precedenza per la
matrice delle medie):
> SD<-matrix(1,31,1)
> SD<-SD%*%sigma

Ora proseguiamo con la standardizzazione delle variabili, che si ottiene moltiplicando la matrice
centrata per il reciproco della deviazione standard:
> Z<-Xcn*(1/SD)
> View(round(Z,3))
MADRE

PADRE

COETANEI

COETANEE

INSEGNANTI

0.068

-0.042

0.154

0.099

-0.122

IGR
0.091

PUNTI.T
0.091

MEDIA.VOTI
-0.018

0.150

0.214

-0.065

0.099

-0.183

0.091

0.091

0.134

0.129

0.150

0.020

-0.028

0.203

0.163

0.155

-0.018

-0.034

0.070

-0.162

-0.028

-0.183

-0.122

-0.122

0.172

0.211

0.054

0.045

0.029

0.000

0.120

0.113

-0.132

-0.014

-0.122

0.191

-0.112

-0.304

-0.079

-0.079

0.153

-0.382

-0.314

-0.344

-0.267

-0.244

-0.364

-0.356

-0.322

0.252

0.310

-0.053

-0.070

-0.203

0.091

0.091

-0.151

-0.321

-0.154

0.057

0.240

-0.386

-0.122

-0.122

-0.018

10

-0.157

-0.154

-0.089

0.085

0.081

-0.065

-0.058

-0.056

11

-0.239

0.310

0.203

0.212

0.061

0.191

0.198

0.172

12

-0.014

0.022

-0.223

-0.070

0.203

-0.079

-0.079

-0.094

13

0.027

-0.106

-0.356

0.057

-0.020

-0.250

-0.250

-0.246

14

-0.055

-0.026

0.093

0.198

-0.162

0.049

0.049

0.285

15

0.170

0.150

0.093

0.057

0.203

0.191

0.198

0.172

16

0.109

0.182

0.276

0.113

0.061

0.234

0.241

0.153

17

0.170

0.230

0.105

0.057

0.264

0.219

0.219

0.020

18

0.068

-0.042

-0.308

-0.366

0.061

-0.264

-0.271

-0.170

19

0.007

0.118

0.008

0.184

-0.020

0.120

0.113

0.418

20

-0.259

-0.186

-0.077

-0.282

0.041

-0.307

-0.313

-0.360

21

0.007

-0.250

0.191

0.339

-0.203

0.063

0.070

-0.151

22

-0.116

-0.122

-0.028

0.043

0.041

-0.051

-0.058

0.096

23

-0.321

-0.282

-0.259

-0.352

0.162

-0.364

-0.356

-0.151

24

0.109

0.038

-0.113

0.156

0.061

0.077

0.070

0.020

25

-0.157

-0.042

-0.016

-0.141

0.061

-0.094

-0.100

-0.056

26

0.232

0.118

-0.016

-0.197

-0.122

-0.008

-0.015

-0.056

27

0.314

0.198

0.361

-0.310

0.345

0.219

0.219

-0.113

28

-0.198

-0.426

-0.125

0.085

0.020

-0.208

-0.207

-0.075

29

0.027

0.038

0.263

-0.070

0.020

0.134

0.134

-0.056

30

0.088

0.022

0.045

0.071

-0.081

0.063

0.070

0.115

31

0.129

0.038

0.130

0.170

0.345

0.262

0.262

0.342

In questa maniera abbiamo standardizzato i dati e i valori ottenuti sono diventati adimensionali, non
essendo pi influenzati dallunit di misura. Abbiamo eliminato leffetto della metrica, in modo da
poter confrontare i dati tra di loro.
A questo punto costruiamo la matrice di correlazione (R) pre-moltiplicando la matrice Z (centrata e
standardizzata) per il suo trasposto (R=Z'Z). La matrice di correlazione ha tutti 1 sulla diagonale
maggiore e le correlazioni al di fuori della diagonale. La somma degli elementi sulla diagonale
maggiore si chiama traccia e rappresenta la varianza totale, ovvero la misura della variabilit
complessiva del fenomeno (che in questo caso pari a 8).
> R<-t(Z)%*%Z
> View(round(R,3))
COETANEI

COETANEE

INSEGNANTI

MADRE

row.names

MADRE
1.000

PADRE
0.681

0.373

0.059

0.277

IGR
0.684

PUNTI.T
0.677

MEDIA.VOTI
0.219

PADRE

0.681

1.000

0.421

0.129

0.258

0.753

0.749

0.418

COETANEI

0.373

0.421

1.000

0.356

0.115

0.780

0.783

0.431

COETANEE

0.059

0.129

0.356

1.000

-0.195

0.510

0.515

0.555

INSEGNANTI

0.277

0.258

0.115

-0.195

1.000

0.322

0.319

0.055

IGR

0.684

0.753

0.780

0.510

0.322

1.000

1.000

0.590

PUNTI.T

0.677

0.749

0.783

0.515

0.319

1.000

1.000

0.591

MEDIA.VOTI

0.219

0.418

0.431

0.555

0.055

0.590

0.591

1.000

Ora possiamo effettuare lAnalisi in Componenti Principali (ACP), con lo scopo di massimizzare la
variabilit spiegata e di minimizzare quella residua.
Attraverso il comando eigen, otteniamo una lista di due elementi:
- gli autovalori (eig$values), che rappresentano la variabilit spiegata del fenomeno;
- gli autovettori (eig$vectors), che rappresentano la variabilit residua.
> eig<-eigen(R)

Dalloggetto eig, estraiamo gli autovalori:


> lambda<-eig$values
> round(lambda,3)
[1] 4.444 1.470 0.748 0.600 0.432 0.270 0.036 0.000

Rapportando ogni (lambda) alla varianza totale, data dalla traccia della matrice di correlazione R,
si ottiene la quota di varianza spiegata da ciascuna componente rispetto alla variabilit totale.
> varexp<-lambda/sum(diag(R))*100
> round(varexp,3)
[1] 55.552 18.379

9.345

7.499

5.397

3.377

0.447

0.004

Calcolando la varianza spiegata cumulata, determiniamo la quota di varianza spiegata da pi


componenti - sempre rispetto alla variabilit totale:
> var_cum<-cumsum(varexp)
> round(var_cum,3)
[1]

55.552

73.931

83.276

90.775

96.172

99.549

99.996

100.000

Illustriamo la variabilit spiegata dalle diverse componenti con un diagramma a barre degli
autovalori (scree-plot).
> barplot(lambda,main="Scree-plot autovalori",
xlab="n.componenti",ylab="lambda",col="turquoise3")

Ora dobbiamo scegliere tra le otto componenti quelle che spiegano la maggior parte del fenomeno
indagato. Una parte dei dati a disposizione verr tralasciata, ma si otterr una descrizione pi
sintetica e utile del fenomeno.
La scelta delle componenti pu essere fatta secondo tre diversi criteri:
- Quota di varianza spiegata sul totale: la soglia convenzionale utilizzata quella dell80%;
facendo riferimento alla varianza spiegata cumulata, nel nostro caso le prime 3 componenti
spiegano l83,276% della variabilit complessiva dei dati.
-

Scelta delle componenti che spiegano una varianza superiore a quella spiegata da ogni
singola variabile originaria: poich ogni variabile originaria ha varianza=1, si scelgono le
CP i cui autovalori risultano > 1. Nel caso studio, la condizione risulta soddisfatta dalle
prime due componenti (la prima ha = 4,444; la seconda ha = 1,470).

Valutazione dello scree-plot: vengono scelte le componenti precedenti al punto in cui c


una caduta evidente dello scree-plot, dunque della varianza spiegata da ciascun fattore. In
questo caso, lo stacco netto avviene fra la prima e la seconda componente, per cui dovrebbe
essere scelta solo la prima CP.

Nel caso preso in esame, i tre criteri non combaciano; valutiamo con attenzione come ottenere una
migliore interpretabilit del fenomeno. Sembra opportuno scegliere le prime 2 componenti dato che:
- in relazione al primo criterio, esse spiegano il 73,931% della variabilit totale dunque una
quota piuttosto significativa;
- in relazione al secondo criterio, sono le sole componenti con autovalore maggiore di 1;
- in relazione al terzo criterio, il salto massimo nello scree-plot si trova tra le prime due
componenti in quanto la prima spiega gi il 55,552% della variabilit complessiva; tuttavia
la seconda spiega il 18,379%, che comunque una quota troppo rilevante per poter essere
esclusa dallanalisi.
Estraiamo ora gli autovettori u dalloggetto eig.
> u<-eig$vectors

> View(round(u,3))
V1

V2

V3

V4

V5

V6

V7

V8

-0.334

0.365

-0.439

0.133

0.338

0.613

0.234

0.012

-0.373

0.253

-0.316

0.344

-0.248

-0.642

0.324

0.005

-0.364

-0.120

0.039

-0.745

-0.337

0.088

0.419

0.003

-0.239

-0.608

0.137

0.115

0.625

-0.172

0.349

0.002

-0.146

0.541

0.783

0.057

0.171

-0.023

0.198

0.003

-0.469

0.008

0.018

-0.104

0.097

-0.079

-0.491

-0.716

-0.469

0.002

0.023

-0.111

0.098

-0.088

-0.513

0.698

-0.314

-0.355

0.270

0.520

-0.522

0.400

0.021

0.003

Ora calcoliamo le componenti principali, moltiplicando gli autovettori per la matrice standardizzata:
> CP<-Z%*%u
> View(round(CP,3))
V1

V2

V3

V4

-0.149

-0.123

-0.094

-0.145

-0.231

-0.089

-0.226

0.193

-0.273

0.218

0.053

0.018

0.138

-0.120

-0.119

-0.182

0.116

0.079

0.908

8
9

V5

V6

V7

V8

0.050

0.045

-0.015

-0.001

-0.002

-0.026

-0.013

0.001

0.058

-0.049

-0.042

-0.005

0.242

-0.136

0.018

0.027

0.002

-0.135

-0.077

0.152

0.021

-0.024

-0.005

-0.210

-0.164

-0.119

-0.256

0.187

0.020

0.001

-0.036

-0.075

-0.037

-0.046

-0.080

-0.123

0.003

-0.173

0.164

-0.417

0.062

0.044

-0.108

-0.022

0.002

0.263

-0.512

-0.087

-0.116

-0.019

-0.112

0.028

-0.003

10

0.185

-0.074

0.172

-0.009

0.100

-0.034

-0.018

0.004

11

-0.405

-0.188

0.146

-0.001

-0.135

-0.330

0.024

0.002

12

0.168

0.212

0.111

0.143

0.090

-0.060

0.004

0.001

13

0.461

0.065

-0.077

0.164

0.267

-0.013

0.084

0.003

14

-0.165

-0.347

0.015

0.066

-0.087

0.067

0.012

0.000

15

-0.426

0.105

0.102

0.070

0.008

0.038

-0.004

0.006

16

-0.511

-0.035

0.019

-0.083

-0.053

-0.025

0.017

0.005

17

-0.445

0.211

0.085

0.008

0.078

-0.079

0.011

0.000

18

0.488

0.364

-0.088

0.154

-0.045

0.080

0.023

-0.001

19

-0.331

-0.239

0.087

0.248

-0.114

0.046

-0.004

-0.005

20

0.649

0.185

0.053

-0.192

-0.057

-0.091

0.060

-0.005

21

-0.045

-0.345

-0.067

-0.292

0.269

0.056

0.008

0.003

22

0.099

-0.108

0.150

0.032

-0.026

0.044

0.001

-0.005

23

0.752

0.194

0.243

0.021

-0.135

0.018

-0.008

0.005

24

-0.131

-0.005

0.013

0.128

0.177

0.000

-0.017

-0.005

25

0.207

0.071

0.091

-0.044

-0.104

-0.054

0.002

-0.005

26

-0.022

0.190

-0.278

0.027

-0.062

0.081

0.003

-0.002

27

-0.456

0.539

0.020

-0.281

-0.097

0.060

0.027

0.002

28

0.465

-0.181

0.216

-0.063

0.137

0.130

0.003

-0.001

29

-0.213

0.063

-0.017

-0.244

-0.074

-0.018

-0.027

-0.001

10

30

-0.158

-0.094

-0.064

0.035

-0.007

0.068

-0.009

0.005

31

-0.549

0.006

0.333

0.094

0.028

0.122

-0.031

0.000

Calcoliamo il FACTOR PATTERN o matrice dei pesi, che costituita dalle correlazioni tra le
variabili originarie (x) e le nuove componenti principali (CP) o variabili latenti e rappresenta il
contributo di ciascuna variabile nel determinare le componenti principali. Un peso elevato indica
che la variabile influisce molto sulla componente, quindi questa spiega buona parte della varianza
totale attribuibile a quella variabile.
> FP<-round(cor(X,CP),3)

Arrotondiamo alla terza cifra decimale, come fatto finora.


> View(round(FP,3))
row.names

V1

V2

V3

V4

V5

V6

V7

V8

MADRE

-0.705

0.443

-0.380

0.103

0.222

0.319

0.044

0.000

PADRE

-0.787

0.307

-0.273

0.266

-0.163

-0.334

0.061

0.000

COETANEI

-0.767

-0.145

0.034

-0.577

-0.221

0.046

0.079

0.000

COETANEE

-0.504

-0.737

0.119

0.089

0.411

-0.090

0.066

0.000

INSEGNANTI

-0.307

0.656

0.677

0.044

0.112

-0.012

0.038

0.000

IGR

-0.989

0.010

0.015

-0.080

0.064

-0.041

-0.093

-0.013

PUNTI.T

-0.988

0.003

0.020

-0.086

0.064

-0.046

-0.097

0.013

MEDIA.VOTI

-0.661

-0.431

0.233

0.403

-0.343

0.208

0.004

0.000

Selezioniamo le prime 2 CP, come abbiamo precedentemente stabilito, e studiamo le correlazioni


fra le variabili originarie e le due nuove variabili latenti ottenute.
> FP4ax<-FP[,1:2]
> View(round(FP4ax,3))
row.names

V1

V2

MADRE

-0.705

0.443

PADRE

-0.787

0.307

COETANEI

-0.767

-0.145

COETANEE

-0.504

-0.737

INSEGNANTI

-0.307

0.656

IGR

-0.989

0.010

PUNTI.T

-0.988

0.003

MEDIA.VOTI

-0.661

-0.431

Adesso rappresentiamo le variabili nello spazio Rn, tracciando il cerchio delle correlazioni con le
prime due CP.
> par()$pty
[1] "m"
> par(pty="s")
> plot(FP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1,1),ylim=c(-1,1))
> variabili<-row.names(FP)

11

> text(FP[,1],FP[,2],labels=variabili)
> abline(h=0,v=0)
> install.packages(plotrix)
> library("plotrix", lib.loc="C:/Users/Asus/Documents/R/win-library/3.0")
> draw.circle(0,0,c(-1,0,1),border="turquoise3")
> for(j in 1:8)
+ arrows(0,0,FP[j,1],FP[j,2],length=0.1)

I punti/vettori sono rappresentati su un piano cartesiano i cui due assi sono intestati alle CP scelte.
Le coordinate dei punti sono date dalle correlazioni della variabile con le due CP rappresentate.

Cerchio delle correlazioni assi CP1 e CP2


Interpretiamo i fattori considerando la correlazione di ciascuna variabile con l'asse. Maggiore la
lunghezza della freccia e la vicinanza all'asse, maggiore la correlazione con il fattore. Gli angoli
tra punti-variabile possono essere interpretati come correlazioni tra le stesse.
Rappresentiamo ora le unit statistiche o individui nello spazio Rp, cio la posizione dei 31 studenti
allinterno dello spazio fattoriale delle variabili, mediante un grafico i cui due assi sono intestati alle
due CP scelte e i punti/vettori relativi vengono tracciati usando - come ascissa e ordinata - i
corrispondenti elementi delle CP.
> plot(CP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1.5,1.5),ylim=c(1.5,1.5))
> STUDENTI<-Data.set.ACP$STUDENTI

12

> text(CP[,1],CP[,2],labels=STUDENTI)
> abline(h=0,v=0,lty=2,lwd=1.5)

Posizione degli individui (studenti) sui primi due fattori


Infine costruiamo una rappresentazione congiunta degli individui e delle variabili, per capire come
si posizionano individui e variabili rispetto ai due fattori.
> biplot(CP[,1:2],FP[,1:2],xlim=c(-1,1), ylim=c(-1,1),xlab="CP1",ylab= "CP2",
main="Biplot individui-variabili")
> draw.circle(0,0, c(-1,0,1),border=" turquoise3")
> abline(h=0,v=0,lty=2,lwd=1.5)

13

Dato che la variabile coetanei non risulta ben rappresentata, preferibile escluderla dallanalisi.
Rielaboriamo il grafico, senza la variabile coetanei per poter procedere allinterpretazione dei
risultati.
> FP.senza.coetanei<-read.csv(C:/Users/Asus/Desktop/FP senza
coetanei.csv,sep=;)
> FP<-as.matrix(FP.senza.coetanei[,2:9])
> FP4ax<-FP[,1:3]
> FP4ax
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]

row.names
"MADRE"
"PADRE"
"COETANEE"
"INSEGNANTI"
"IGR"
"PUNTI.T"
"MEDIA.VOTI"

V1
"-0.705"
"-0.787"
"-0.504"
"-0.307"
"-0.989"
"-0.988"
"-0.661"

V2
" 0.443"
" 0.307"
"-0.737"
" 0.656"
" 0.010"
" 0.003"
"-0.431"

1.4. INTERPRETAZIONE DEI RISULTATI E CONCLUSIONI


Il test esamina le relazioni in 3 principali contesti di esperienza: le relazioni interpersonali con i
pari, le relazioni familiari e le relazioni scolastiche.
CP1- fattori extra-familiari
CP2. Fattori intra-familiari
14

15

2. ANALISI DEI CLUSTER


2.1. INTRODUZIONE
Lanalisi dei cluster una tecnica statistica fattoriale che ha come obiettivo quello di creare dei
gruppi, che racchiudano i diversi elementi del fenomeno oggetto di studio, che risultino al contempo
il pi possibile:
- omogenei al loro interno;
- il pi possibile differenti gli uni dagli altri.
Questoperazione viene effettuata al fine di offrire una descrizione pi sintetica e globale del
fenomeno stesso.
Le tecniche di clustering si basano su misure relative alla somiglianza tra gli elementi. In molti
approcci questa similarit, o meglio, dissimilarit, concepita in termini di distanza in uno spazio
multidimensionale.
La bont delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica,
e quindi da com calcolata la distanza.
Tale analisi si compone di 4 fasi:
Scelta delle variabili;
Rilevazione dei dati;
Elaborazione dei dati;
Verifica e utilizzo dei risultati.
Il cluster una volta ottenuto, utile se:
Abbastanza numeroso
Chiaramente identificabile
Stabile
Redditizio
Facilmente raggiungibile
Vi sono inoltre alcune caratteristiche peculiari della cluster analysis:
- robustezza (affinch si possano rilevare i dati anomali);
- scalabilit (osservazione di grandi database);
- osservabilit di variabili differenti (qualitative, quantitative);
- variabili con ruoli diversi (attive e passive).
Indici di Dissimilarit: una misura del grado di dissimilarit, ovvero di diversit tra i e j.
Il tipo di indice dipende dal tipo di variabile, ma di solito soddisfa i seguenti requisiti:
o 0
o =0
o =

2.2. DESCRIZIONE DEL CASO E STUDIO DELLE VARIABILI


Lanalisi del cluster verr effettuata a partire dal data set gi utilizzato per lanalisi in componenti
principali (ACP).

16

Sono stati tuttavia presi in considerazione esclusivamente 31 osservazioni, messi in relazione con le
variabili precedenti.
X MADRE PADRE COETANEI COETANEE INSEGNANTI IGR
PUNTI. T MEDIA. VOTI
1
0.068
-0.042
0.154
0.099
-0.122
0.091
0.091
-0.018
1
2 2 0.150
3 3 0.129

0.214 -0.065

0.099

-0.183

0.091 0.091

0.134

0.150 0.020

-0.028

0.203

0.163 0.155

-0.018

4 4 -0.034 0.070 -0.162


5 5 0.211 0.054 0.045

-0.028

-0.183

-0.122 -0.122

0.172

0.029

0.000

0.120 0.113

-0.132

6 6 -0.014 -0.122 0.191

-0.112

-0.304

-0.079 -0.079

0.153

7 7 -0.382 -0.314 -0.344


8 8 0.252 0.310 -0.053

-0.267

-0.244

-0.364 -0.356

-0.322

-0.070

-0.203

0.091 0.091

-0.151

9 9 -0.321 -0.154 0.057


10 10 -0.157 -0.154 -0.089
11 11 -0.239 0.310 0.203

0.240

-0.386

-0.122 -0.122

-0.018

0.085

0.081

-0.065 -0.058

-0.056

0.212

0.061

0.191 0.198

0.172

12 12 -0.014 0.022 -0.223

-0.070

0.203

-0.079 -0.079

-0.094

13 13 0.027

0.057

-0.020

-0.250 -0.250

-0.246

14 14 -0.055 -0.026 0.093

0.198

-0.162

0.049 0.049

0.285

15 15 0.170

0.150 0.093

0.057

0.203

0.191 0.198

0.172

16 16 0.109

0.182 0.276

0.113

0.061

0.234 0.241

0.153

17 17 0.170

0.230 0.105

0.057

0.264

0.219 0.219

0.020

18 18 0.068

-0.042 -0.308

-0.366

0.061

-0.264 -0.271

-0.170

19 19 0.007

0.118 0.008

0.184

-0.020

0.120 0.113

0.418

20 20 -0.259 -0.186 -0.077

-0.282

0.041

-0.307 -0.313

-0.360

21 21 0.007

0.339

-0.203

0.063 0.070

-0.151

22 22 -0.116 -0.122 -0.028

0.043

0.041

-0.051 -0.058

0.096

23 23 -0.321 -0.282 -0.259

-0.352

0.162

-0.364 -0.356

-0.151

24 24 0.109

0.156

0.061

0.077 0.070

0.020

25 25 -0.157 -0.042 -0.016

-0.141

0.061

-0.094 -0.100

-0.056

26 26 0.232

0.118 -0.016

-0.197

-0.122

-0.008 -0.015

-0.056

27 27 0.314

0.198 0.361

-0.106 -0.356

-0.250 0.191

0.038 -0.113

-0.310

0.345

0.219 0.219

-0.113

28 28 -0.198 -0.426 -0.125


29 29 0.027 0.038 0.263

0.085

0.020

-0.208 -0.207

-0.075

-0.070

0.020

0.134 0.134

-0.056

30 30 0.088
31 31 0.129

0.022 0.045

0.071

-0.081

0.063 0.070

0.115

0.038 0.130

0.170

0.345

0.262 0.262

0.300

2.3. IL PROCESSO DI ANALISI


Costruiamo loggetto X, che corrisponde al data set privato della prima colonna, contenente le
denominazioni dei.
MADRE
1
2
3
4
5
6
7
8

0.068
0.150
0.129
-0.034
0.211
-0.014
-0.382
0.252

PADRE COETANEI COETANEE INSEGNANTI


-0.042
0.214
0.150
0.070
0.054
-0.122
-0.314
0.310

0.154
-0.065
0.020
-0.162
0.045
0.191
-0.344
-0.053

0.099
0.099
-0.028
-0.028
0.029
-0.112
-0.267
-0.070

-0.122
-0.183
0.203
-0.183
0.000
-0.304
-0.244
-0.203

IGR
0.091
0.091
0.163
-0.122
0.120
-0.079
-0.364
0.091

PUNTI.
T
0.091
0.091
0.155
-0.122
0.113
-0.079
-0.356
0.091

MEDIA.
VOTI
-0.018
0.134
-0.018
0.172
-0.132
0.153
-0.322
-0.151
17

9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

-0.321
-0.157
-0.239
-0.014
0.027
-0.055
0.170
0.109
0.170
0.068
0.007
-0.259
0.007
-0.116
-0.321
0.109
-0.157
0.232
0.314
-0.198
0.027
0.088
0.129

-0.154
-0.154
0.310
0.022
-0.106
-0.026
0.150
0.182
0.230
-0.042
0.118
-0.186
-0.250
-0.122
-0.282
0.038
-0.042
0.118
0.198
-0.426
0.038
0.022
0.038

0.057
-0.089
0.203
-0.223
-0.356
0.093
0.093
0.276
0.105
-0.308
0.008
-0.077
0.191
-0.028
-0.259
-0.113
-0.016
-0.016
0.361
-0.125
0.263
0.045
0.130

0.240
0.085
0.212
-0.070
0.057
0.198
0.057
0.113
0.057
-0.366
0.184
-0.282
0.339
0.043
-0.352
0.156
-0.141
-0.197
-0.310
0.085
-0.070
0.071
0.170

-0.386
0.081
0.061
0.203
-0.020
-0.162
0.203
0.061
0.264
0.061
-0.020
0.041
-0.203
0.041
0.162
0.061
0.061
-0.122
0.345
0.020
0.020
-0.081
0.345

-0.122
-0.065
0.191
-0.079
-0.250
0.049
0.191
0.234
0.219
-0.264
0.120
-0.307
0.063
-0.051
-0.364
0.077
-0.094
-0.008
0.219
-0.208
0.134
0.063
0.262

-0.122
-0.058
0.198
-0.079
-0.250
0.049
0.198
0.241
0.219
-0.271
0.113
-0.313
0.070
-0.058
-0.356
0.070
-0.100
-0.015
0.219
-0.207
0.134
0.070
0.262

-0.018
-0.056
0.172
-0.094
-0.246
0.285
0.172
0.153
0.020
-0.170
0.418
-0.360
-0.151
0.096
-0.151
0.020
-0.056
-0.056
-0.113
-0.075
-0.056
0.115
0.300

18

Poich la misura della distanza fra le righe risente dellunit di misura, lanalisi non verr effettuata
sulla matrice x, ma su una nuova matrice Z, standardizzata:
> Z<-scale(Z)
> View(round(Z,3))

MADRE PADRE COETANEI COETANEE INSEGNANTI IGR PUNTI.T MEDIA.VOTI


-0.229
0.843
0.542
-0.668
0.498 0.499
-0.094
1 0.373
0.822
1.173
-0.356
0.542
-1.002
0.498
0.499
0.750
2
0.823
0.109
-0.154
1.112
0.893 0.849
-0.094
3 0.707
-0.186
0.384
-0.887
-0.154
-1.002
-0.668
0.961
4
0.669
0.297
0.246
0.159
0.000
0.657 0.619
-0.727
5 1.156
-0.077
-0.667
1.046
-0.614
-1.665
-0.432
0.856
6
0.433
-2.093
-1.719
-1.884
-1.462
-1.336
-1.950
-1.783
7
1.994
1.699
-0.290
-0.384
-1.112
0.498 0.499
-0.833
8 1.381
-1.759
-0.842
0.312
1.314
-2.114
-0.668
-0.094
9
0.669
-0.860
-0.842
-0.488
0.465
0.444
-0.317
-0.305
10
0.356
1.699
1.112
1.161
0.334
1.046 1.085
0.961
11 -1.310
-0.077
0.122
-1.222
-0.384
1.112
-0.432
-0.516
12
0.433
0.148
-0.579
-1.950
0.312
-0.110
-1.369
-1.361
13
1.370
-0.141
0.509
1.084
-0.887
0.268 0.269
1.589
14 -0.301
0.823
0.509
0.312
1.112
1.046 1.085
0.961
15 0.932
0.998
1.511
0.619
0.334
1.282 1.320
0.856
16 0.597
1.261
0.575
0.312
1.446
1.200 1.200
0.117
17 0.932
0.373
-0.229
-1.687
-2.005
0.334
-1.484
-0.939
18
1.447
0.647
0.044
1.007
-0.110
0.657 0.619
2.328
19 0.038
-1.419
-1.018
-0.422
-1.544
0.224
-1.714
-1.994
20
1.682
-1.368
1.046
1.856
-1.112
0.345 0.384
-0.833
21 0.038
-0.636
-0.667
-0.154
0.235
0.224
-0.317
0.539
22
0.280
-1.759
-1.543
-1.419
-1.928
0.887
-1.950
-0.833
23
1.994
0.209
-0.619
0.854
0.334
0.422 0.384
0.117
24 0.597
-0.860
-0.229
-0.088
-0.772
0.334
-0.547
-0.305
25
0.515
1.271
0.647
-0.088
-1.079
-0.668
-0.082
-0.305
26
0.044
1.085
1.977
-1.698
1.889
1.200 1.200
-0.622
27 1.721
-1.085
-2.332
-0.685
0.465
0.110
-1.133
-0.411
28
1.140
0.209
1.440
-0.384
0.110
0.734 0.734
-0.305
29 0.148
0.122
0.246
0.389
-0.444
0.345 0.384
0.645
30 0.482
0.209
0.712
0.931
1.889
1.435 1.435
1.673
31 0.707
19

20

Mettiamo in luce ora il fatto che lanalisi deve essere effettuata sulle righe e, nel caso specifico,
sulle 31 osservazioni, presenti nella prima colonna del dataset:
> rownames(Z)<-Matrice Z[,1]

2.4. MISURE DI DISTANZA


Partendo dalla matrice dei dati, ricordiamo che i suoi (n) vettori riga rappresentano le n unit
statistiche. Ciascuna unit statistica quindi un vettore di p-elementi, contenenti i valori da essa
assunti sulla prima, la seconda, la j-esima e la p-esima variabile.
A questo punto iniziamo a calcolare la distanza fra le righe, vi sono differenti tipi di misura della
distanza:
Quando gli elementi di cui necessario calcolare la distanza sono numeri, una distanza
calcolabile quella Euclidea:
La distanza euclidea presenta il vantaggio di essere pi sensibile ai valori anomali.
Unaltra distanza quella di Manhattan che consente una pi robusta visualizzazione e non si fa
influenzare dai valori estremi:
=

Calcoliamo prima la distanza euclidea, approssimata alla seconda cifra decimale:


> d<-dist(Z)
> d<-round(d,2)
> d

Tabella 1 distanza euclidea (GUARDA IL FILE DI WORD)

Calcoliamo ora la distanza di Manhattan:


> d_m<-dist(Z,method="manhattan")
> d_m<-round(d_m,2)
> d_m

21

Tabella 2 distanza di Man.(GUARDA IL FILE DI WORD)

2.5. CREAZIONE DEI CLUSTER


Iniziamo quindi a raggruppare le osservazioni, vi sono diversi legami che possono creare dei
cluster, e quelli maggiormente utilizzati sono i seguenti:
1) LEGAME SINGOLO: la distanza tra due gruppi determinata dalla distanza minore
esistente fra i rispettivi elementi dei gruppi, esso risulta essere nella composizione dei
cluster molto veloce, con lunico svantaggio che si riscontra nella formazione dei gruppi
filiformi, ovvero troppo omogenei tra loro.
=min()

2) LEGAME COMPLETO: la distanza tra due gruppi determinata dalla distanza maggiore
esistente fra i rispettivi elementi dei gruppi, esso risulta essere pi lento rispetto al lega
singolo, e definisce dei gruppi omogenei allinterno ed eterogenei allesterno.
=max()

3) LEGAME MEDIO: la distanza tra i due gruppi determinate dalla media aritmetica delle
distanze fra tutti gli elementi dei gruppi stessi.

Procediamo con il metodo del legame singolo, questo metodo denominato anche del salto
minimo, che sta a significare che la distanza tra i due gruppi data dalla minore delle distanze tra i
rispettivi elementi.
hc_s<-hclust(d,method="single")
plot(hc_s)

22

Grafico 1 Cluster Dendrogram per il metodo del legame singolo

Laltezza (heigth) indica il punto di fusione, ovvero il punto in corrispondenza del quale gli
elementi vengono raggruppati.

Costruiamo ora un nuovo grafico, denominato screeplot:


> n<-nrow(Z)
> n_clus<-seq(n-1,1)
> d_fus_s<-hc_s$height

plot(d_fus_s,n_clus,"b",main="Screeplo-Legame

singolo",xlab="Distanza
di
gruppi",cex=0.6,col="darkblue",lwd=2.5)

Fusione",ylab="N.di

23

Grafico 2 Scree-plot per il metodo del legame singolo


Un criterio per la scelta del numero di partizione da conservare: se nel passaggio da g a g+1 gruppi
si registra un forte incremento della distanza di fusione, si deve tagliare a g gruppi.
Utilizzando lo scree-plot, il taglio va effettuato nel tratto in cui la curva reduce notevolmente la sua
pendenza, appiattendosi.

cbind(hc_s$merge,hc_s$height)
[,1] [,2] [,3]
[1,] -10 -22
[2,]
-3 -17
[3,] -15
2
[4,]
-1 -30
[5,] -24
4
[6,]
-2
5
[7,] -16
3
[8,] -25
1
[9,] -29
6
[10,] -31
7
[11,]
-5
9
[12,]
10
11
[13,] -14
12
[14,] -19
13
[15,]
-8 -26
[16,] -12
8
[17,]
14
15
[18,]
16
17
[19,] -20 -23

1.01
1.02
1.03
1.07
1.37
1.40
1.40
1.45
1.49
1.50
1.51
1.53
1.53
1.54
1.66
1.69
1.84
1.84
1.86

24

[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]

-28
-4
-21
-11
-6
-13
-7
-18
26
-27
-9

18
20
21
22
23
24
19
25
27
28
29

1.93
1.99
1.99
2.17
2.32
2.35
2.39
2.45
2.62
2.72
2.83

Il campo $merge riporta la coppia di ogni elemento accorpato per ogni algoritmo di
raggruppamento, a seconda del legame scelto. I valori preceduti da - indicano il singolo elemento,
mentre i valori positivi rappresentano i cluster precedenti. Il campo $height riporta la distanza
considerata per la fusione degli elementi/gruppi.

Passiamo ora allanalisi dei cluster con il metodo del legame completo:
hc_c<-hclust(d,method="complete")
plot(hc_c)

Grafico 3 Cluster Dendrogram per il metodo del legame completo


25

In questo caso i gruppi si formano a distanze maggiori e il dendrogramma ha i rami pi lunghi.


> plot(d_fus_s,n_clus,"b",main="Screeplo-Legame completo",xlab="Distanza di
Fusione",ylab="N.di gruppi",cex=0.6,col="darkblue",lwd=2.5)

Grafico 4 Scree-plot per il metodo del legame completo

cbind(hc_c$merge,hc_c$height)

[,1] [,2] [,3]


[1,] -10 -22
[2,]
-3 -17
[3,]
-1 -30
[4,] -15
2
[5,] -25
1
[6,] -14 -19
[7,]
-5 -24
[8,]
-8 -26
[9,] -20 -23
[10,]
3
7
[11,] -16 -29
[12,] -12
5
[13,]
-2
10
[14,]
4
11
[15,]
-4
-6
[16,] -13 -18
[17,]
-7
9
[18,]
8
13

1.01
1.02
1.07
1.27
1.47
1.54
1.58
1.66
1.86
1.88
1.97
2.10
2.15
2.31
2.37
2.45
2.53
2.76

26

[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]
>

-11
-9
-28
-31
16
19
15
20
24
-27
23
28

6
-21
12
14
17
22
18
21
25
27
26
29

2.82
2.83
3.17
3.26
3.56
3.66
3.80
4.44
4.91
5.71
6.21
8.34

Effettuiamo infine le stesse operazioni con il metodo del legame medio:


hc_a<-hclust(d,method="average")
plot(hc_a)

Grafico 5 Cluster Dendrogram per il metodo del legame medio

27

d_fus_a<-hc_a$height
plot(d_fus_a,n_clus,"b",main="Scree-plot
Legame
Medio",xlab="Distanza
Fusione",ylab="N. di Gruppi",cex=0.6,col="darkblue",lwd=2.5)

di

Grafico 6 Scree-plot per il metodo del legame medio


cbind(hc_a$merge,hc_a$height)

[,1] [,2]
[1,] -10
[2,]
-3
[3,]
-1
[4,] -15
[5,] -25
[6,] -14
[7,]
-5
[8,]
3
[9,]
-8
[10,] -16
[11,] -20
[12,] -12
[13,]
-2

[,3]
-22 1.010000
-17 1.020000
-30 1.070000
2 1.150000
1 1.460000
-19 1.540000
-24 1.580000
7 1.605000
-26 1.660000
4 1.746667
-23 1.860000
5 1.870000
8 1.870000

28

[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]

-31
-29
-4
9
-13
-7
-11
14
-28
-9
20
18
-6
19
24
-27
27

10
13
12
15
-18
11
6
17
16
-21
21
22
23
25
26
28
29

2.050000
2.092000
2.367500
2.384167
2.450000
2.460000
2.685000
2.725750
2.728000
2.830000
2.989744
3.033333
3.105000
3.631250
3.868958
4.309474
4.493409

Esempio di composizione dei cluster per ogni metodo (taglio a 4 gruppi):


cut_4<-rbind(cutree(hc_s,4),cutree(hc_c,4),cutree(hc_a,4))
rownames(cut_4)<-c("singolo","completo","medio")

Tabella 3 Clusters per ogni metodo

TABELLA..????????NON ESCE!!!!dovrebbe uscire pi o meno cos per con 31


colonne!!!

Row.names
singolo
completo
medio

1
1
1
1

2
1
2
2

3
2
2
2

4
1
1
1

5
1
3
2

6
1
3
2

7
3
3
3

8
4
4
4

9
4
4
4

10
4
4
4

11
2
2
2

12
4
4
4

13
4
4
4

14
2
2
2

Il comando cutree effettua il taglio dellalbero dopo aver specificato o il numero di gruppi/partizioni
da conservare, o la distanza (altezza) di soglia a cui effettuare il taglio.
Lanalisi dei cluster pu essere eseguita a seguito di una tecnica di riduzione della complessit del
fenomeno.

29

2.6. INTERPRETAZIONE DEI DATI E CONCLUSIONI


Lanalisi dei cluster condotta secondo le tre differenti metodiche del legame singolo, medio e
completo ha permesso di mettere in evidenza i differenti risultati e quindi di effettuare una
comparazione tra differenti algoritmi.
I cluster realizzati nelle tre metodiche, anche se in parte sono sovrapponibili tra loro (metodo
singolo e medio), mostrano notevoli differenze nella loro composizione. Effettuando un taglio a
4 gruppi (tabella 3), infatti, la soluzione con legame completo fornisce un output estremamente
diverso..

30

BIBLIOGRAFIA
-

Appunti lezione Prof. re Enrico Ciavolino

Appunti lezione Dott. ssa Mariangela Nitti

31