Sei sulla pagina 1di 83

Università degli Studi di Salerno

Corso di Laurea Specialistica in Informatica

Corso di Metodi e Tecniche per l’analisi


’analisi dei dati

Rapporto sull’uso del cellulare in


Italia

Docente: Studente:
Prof. Amelia Giuseppina Nobile Giovanni Cannizzaro
Matricola:0521/000857

Anno Accademico 2009-2010


2009
Rapporto sull’uso del cellulare in Italia MTAD

Sommario

Introduzione...................................................................................................... 3
Fonti .................................................................................................................. 3
L’uso del cellulare..............................................................................................4
I motivi per cui si usa il cellulare ..................................................................... 8
Le funzioni più utilizzate ..................................................................................11
Analisi visuale ................................................................................................. 14
Analisi Descrittiva .......................................................................................... 21
Analisi delle variabili singolarmente ..........................................................22
Correlazione tra le variabili ........................................................................... 37
Analisi Cluster ................................................................................................. 56
Metodi gerarchici ......................................................................................... 57
Metodi gerarchici agglomerativi in dettaglio ............................................. 59
Il metodo del legame singolo .................................................................... 59
Il metodo del legame completo ................................................................. 59
Il metodo del legame medio ...................................................................... 59
Il metodo del centroide............................................................................. 60
Il metodo della mediana .......................................................................... 60
Metodi non gerarchici .................................................................................... 72
Conclusioni ..................................................................................................... 83

2
Rapporto sull’uso del cellulare in Italia MTAD

Introduzione

L’obiettivo di questa relazione è quello di fare un analisi statistica riguardante l’uso dei
telefoni cellulari in Italia, nell’anno 2006, avendo a disposizione una mole importante di
dati. Si cercherà di svolgere un’analisi in modo dettagliato e completo, cercando di cogliere
gli aspetti più importanti e interpretare i dati ottenuti nel modo migliore possibile.

Fonti

I dati utilizzati per l'analisi, datati 206, sono stati pubblicati dall'ISTAT (Istituto
Nazionale di Statistica).

3
Rapporto sull’uso del cellulare in Italia MTAD

L’uso del cellulare

Nel 2006 il 77,4% delle persone di 6 anni e più utilizza il telefono cellulare. Importanti
sono le differenze di genere: l’81,2% degli uomini fa uso del cellulare contro il 73,9% delle
donne ma queste differenze dipendono fortemente dall’età; tra i giovani fino ai 34 anni,
infatti, la quota di donne che usa il cellulare è superiore a quella degli utilizzatori maschi
ma, a partire dai 35 anni la situazione si capovolge e nelle età successive il divario diventa
molto ampio (Prospetto 1).
L’uso del cellulare è comunque molto influenzato dall’età. Le persone che lo usano sono,
infatti, il 28,7% dai 6 ai 10 anni, raggiungono l’80,0& già dagli 11 ai 14 anni, per poi
superare il 93% dai 15 ai 44 anni. La quota di utilizzatori decresce dopo i 45 anni ma si
riduce significativamente solo tra gli ultrasessantacinquenni (Prospetto 1).
L’uso del cellulare è molto diffuso su tutto il territorio nazionale, anche se si riscontrano
comunque delle leggere differenze. La quota di utilizzatori è, infatti, dell’80,0% al Centro
mentre al Sud è del 74,2 %. Considerando la frequenza con cui si usa il cellulare si
evidenzia come tale mezzo di comunicazione sia entrato a far parte profondamente del
vissuto quotidiano. Il 73,6% degli utilizzatori ricorrono al cellulare tutti i giorni, e il 20,3%
almeno una volta a settimana. Solo il 6,0% degli utenti fa un uso saltuario del cellulare
(una o più volte al mese o più raramente). L’utilizzo quotidiano del cellulare è diffuso
soprattutto tra i giovani (oltre il 90% degli utilizzatori dai 17 ai 34 anni) e tra i dirigenti,
imprenditori e liberi professionisti (91,2%) mentre un uso più saltuario è diffuso
soprattutto tra gli anziani (Prospetto 1).

4
Rapporto sull’uso del cellulare in Italia MTAD

Prospetto 1 - Persone di 6 anni e più per uso del cellulare, frequenza con cui lo usano,
sesso, classe di età e ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più
con le stesse caratteristiche)

SESSO, CLASSI DI ETÀ E Usa il cellulare Usa il cellulare Frequenza di utilizzo (a)
RIPARTIZIONI GEOGRAFICHE No SI Tutti i Una o più Qualche Qualche
Giorni volte volta al volta
a mese all'anno
settimana
Sesso
Maschi 16,0 81,2 76,2 18,4 3,8 1,6
Femmine 23,6 73,9 71,0 22,3 4,6 2,1
Totale 19,9 77,4 73,6 20,3 4,2 1,8

Classi di Età
6-10 66,3 28,7 26,2 43,1 21,0 9,6
11-14 17,0 80,0 70,1 23,0 5,0 1,9
15-17 2,8 93,1 89,3 9,7 0,9 0,1
18-19 2,8 94,4 94,4 5,0 0,4 0,2
20-24 1,9 95,1 94,5 5,0 0,4 -
25-34 2,4 95,1 89,6 9,6 0,6 0,3
35-44 3,9 93,4 81,7 16,2 1,6 0,5
45-54 7,7 89,8 73,7 21,7 3,3 1,3
55-59 16,2 81,6 64,1 27,8 6,3 1,8
60-64 22,8 74,8 53,9 33,4 9,3 3,4
65-74 39,6 58,5 39,7 42,2 11,9 6,2
75 e più 71,2 26,6 28,8 43,6 16,7 10,8
Totale 19,9 77,4 73,6 20,3 4,2 1,8

RIPARTIZIONI GEOGRAFICHE
Italia Nord Occidentale 18,1 78,8 70,1 21,9 5,4 2,6
Italia Nord Orientale 21,3 76,8 69,6 22,7 5,1 2,5
Italia Centrale 17,6 80,0 73,1 21,0 4,5 1,4
Italia Meridionale 22,8 74,2 78,2 18,3 2,5 1,0
Italia Insulare 19,9 77,6 80,4 15,6 2,8 1,3
Italia 19,9 77,4 73,6 20,3 4,2 1,8

(a) per 100 persone di 6 anni e più che usano il cellulare

5
Rapporto sull’uso del cellulare in Italia MTAD

Grafico 1 (Uso per fascia d’età)

Grafico 2 (Frequenza d’uso per fascia d’età)

6
Rapporto sull’uso del cellulare in Italia MTAD

Grafico 3 (Uso del cellulare per Zona)

Grafico 4 (Frequenza d’uso per zona)

7
Rapporto sull’uso del cellulare in Italia MTAD

I motivi per cui si usa il cellulare

Le esigenze familiari vengono al primo posto tra le motivazioni che spingono all’utilizzo del
telefono cellulare. Infatti, il 75,2% degli utilizzatori usa il cellulare per essere più facilmente
in contatto con i genitori e i familiari mentre il 42,2% lo usa per essere più facilmente in
contatto con gli amici. Il cellulare viene utilizzato anche per sentirsi più sicuri poiché il
34,6% degli utilizzatori lo usa per far meglio fronte a eventuali imprevisti, contrattempi e
urgenze e il 19,9% dichiara che avere il cellulare a disposizione li fa sentire più sicuri in
caso di pericolo. Inoltre, il 29,9% ritiene che il telefono cellulare sia comodo perché evita di
dover cercare un telefono pubblico quando occorre. Usare il cellulare per ragioni di lavoro
è solo la quinta motivazione (30,0%) a conferma del fatto che il cellulare copre una gamma
di esigenze comunicative molto ampia che va ben al di là della sola sfera lavorativa.
Importante è anche la quota di persone che usano il cellulare per motivi di assistenza: il
7,1% dichiara di usare il cellulare perché ha genitori o parenti anziani o malati e l’1,5%
perché ha bisogno personalmente di essere assistito (Prospetto 2).
Ovviamente le motivazioni differiscono molto a seconda dell’età e del sesso. Ad esempio, le
donne che usano il cellulare per ragioni di lavoro sono solo il 17,0% rispetto al 42,6% dei
maschi e tali differenze si mantengono forti anche a parità di condizione professionale;
infatti, tra gli occupati usano il cellulare per ragioni di lavoro il 64,5% dei maschi rispetto
al 37,8% delle femmine. Al contrario, sono soprattutto le donne che usano il cellulare per
sentirsi più sicure in caso di pericolo (25,1% rispetto al 14,9%) e per far meglio fronte a
imprevisti, contrattempi e urgenze (36,4% rispetto al 32,9%). Infine, gli uomini lo usano
più delle donne per essere più facilmente in contatto con gli amici (43,4% rispetto al 41,0%
delle donne) mentre le donne lo usano più degli uomini per essere più facilmente in
contatto con i genitori e i familiari (79,0% rispetto al 71,6% degli uomini). Tra i giovani dai
15 fino ai 24 anni l’uso del cellulare per essere più facilmente in contatto con gli amici è più
importante dell’uso per contattare genitori o familiari. Inoltre, è molto elevata anche la
quota di giovani che usano il cellulare per il piacere di parlare con chi vogliono in qualsiasi
momento e in qualunque luogo. Per ragioni di lavoro e per far meglio fronte a imprevisti e
contrattempi il cellulare è usato soprattutto dalle persone tra i 25 e i 54 anni. Gli
ultrasessantacinquenni, invece, hanno la quota più elevata di persone che usano il cellulare
perché si sentono più sicuri in caso di pericolo. I motivi per cui si usa il telefono cellulare
sono influenzati anche dalla condizione professionale.

8
Rapporto sull’uso del cellulare in Italia MTAD

Prospetto 2 - Persone di 6 anni e più che usano il cellulare per motivo per cui
lo usa, sesso, classe di età,ripartizione geografica - Anno 2006 (per 100 persone
di 6 anni e più che usano il cellulare con le stesse caratteristiche)

SESSO, CLASSI DI Ragioni Per il Per Per Perché Per poter Perché Per far Perché è Altro
ETÀ E di piacere essere essere ho essere più mi meglio comodo
RIPARTIZIONI lavoro di par più più genitori,parenti facilmente sento fronte non
GEOGRAFICHE lare con facilmente facilmente anziani, assistito più a imprevisti, dover
chi voglio, in in malati (salute sicuro/a contrattempi, cercare
in contatto contatto Handicap) in caso urgenze un
qualsiasi con i con gli di telefono
momento genitori, amici pericolo pubblico
ed familiari
in
qualunque
luogo
Sesso
Maschi 42,6 31,1 71,6 43,4 6,4 1,3 14,9 32,9 29,7 1,2
Femmine 17,0 33,5 79,0 41,0 8,0 1,7 25,1 36,4 30,1 1,3
Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3

Classi di Età
6-10 - 16,2 72,4 34,6 1,1 0,2 13,8 8,9 9,9 7,5
11-14 - 44,0 72,4 71,9 1,6 0,7 25,0 24,7 24,3 2,8
15-17 2,5 58,3 68,2 83,4 1,5 0,5 22,3 37,9 37,7 1,6
18-19 8,4 62,8 71,1 84,9 2,2 0,7 24,1 42,5 42,5 0,7
20-24 24,8 56,4 74,3 74,7 2,9 0,3 23,5 42,6 39,9 0,9
25-34 42,4 46,0 73,6 58,8 5,2 0,7 20,9 38,3 34,6 1,5
35-44 45,8 30,2 76,9 37,6 9,7 0,9 18,8 37,1 30,5 1,1
45-54 41,8 21,7 77,8 27,4 12,5 0,8 16,7 34,0 28,1 0,7
55-59 28,6 18,6 76,6 23,4 10,7 1,5 18,0 34,2 27,8 0,7
60-64 17,6 18,3 75,0 22,3 7,9 2,5 16,0 30,9 25,3 1,1
65-74 6,8 15,7 75,9 16,8 4,3 4,0 22,6 28,4 23,9 1,1
75 e più 1,6 11,0 74,4 13,0 2,3 11,1 26,1 25,3 16,2 0,8
Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3

RIPARTIZIONI
GEOGRAFICHE
Italia Nord 30,4 32,6 74,3 39,2 7,2 1,5 19,0 36,3 32,9 1,4
Occidentale
Italia Nord 32,5 31,9 72,5 42,5 6,6 1,3 19,1 38,3 32,9 1,7
Orientale
Italia Centrale 31,7 33,6 75,7 42,8 7,0 2,0 19,9 34,7 29,1 1,2
Italia 27,5 31,2 76,6 44,3 7,6 1,5 21,1 30,5 25,7 0,9
Meridionale
Italia Insulare 27,3 32,0 78,4 43,5 7,2 1,2 21,4 32,9 27,7 1,1
Italia 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3

9
Rapporto sull’uso del cellulare in Italia MTAD

Grafico 5 (Motivi d’uso per età)

Grafico 6 (Motivi d’uso per zona)

10
Rapporto sull’uso del cellulare in Italia MTAD

Le funzioni più utilizzate

Tra le numerose funzioni aggiuntive disponibili attualmente sul telefono cellulare quella
maggiormente utilizzata resta l’invio e la ricezione di Sms che è utilizzata dal 36,7% delle
persone che usano il cellulare. Al secondo posto troviamo l’utilizzo della rubrica telefonica
(29,3%) seguita dall’utilizzo della fotocamera (18,0%). Il 17,3% dei fruitori del telefono
cellulare utilizza l’agenda diario e la sveglia mentre l’invio di Mms è solo al quinto posto
(13,6%). A seguire troviamo l’uso della calcolatrice (13,1%), il controllo dei consumi
(12,8%) e l’uso di suonerie polifoniche e/o loghi (10,3%). Le funzioni più avanzate sono
ancora utilizzate da un’esigua minoranza di utenti: l’accesso ad Internet tramite cellulare è
usato dal 2,9 % degli utenti e ancora meno sono coloro i quali usano l’e-mail (2,2%),
utilizzano software istallati dall’utente (1,3%) o usano il cellulare per acquisti o
consultazioni di servizi finanziari (0,2%) (Prospetto 3).
Le funzioni utilizzate sono influenzate principalmente dall’età. Il quadro cambia
completamente se si considerano i giovani fruitori che sono utilizzatori onnivori di tutte le
funzioni contenute nei cellulari. In particolare, per i bambini dai 6 ai 10 anni la funzione
più utilizzata è giocare con i videogiochi (38,1%) seguita dall’invio e ricezione di Sms
(29,6%) e dalla fotocamera (19,2%). Tra i ragazzi tra gli 11 e i 14 anni, invece, la funzione
principale diventa l’invio e ricezione di Sms (70,1%), seguito dall’uso della rubrica
telefonica (47,9%), dai videogiochi (47,8%) e dalla fotocamera (43,6%). Tra i 15-17enni
oltre alle funzioni utilizzate dai più giovani assume rilevanza anche l’invio e ricezione di
Mms (47,4%) e l’utilizzo di suonerie polifoniche e loghi (40,4%). Infine tra le persone dai
20 ai 24 anni diventano rilevanti anche funzioni pratiche come l’uso della rubrica
telefonica (55,7%) e l’agenda diario e la sveglia (41,9%). L’utilizzo delle funzioni aggiuntive
decresce rapidamente al crescere dell’età ed è tanto più raro quanto più la funzione è
complessa. Ad esempio l’invio e ricezione di Sms che è utilizzata da oltre il 70% degli utenti
fino ai 24 anni scende al 36,2% già tra le persone dai 35 ai 44 anni (Prospetto 3).

11
Rapporto sull’uso del cellulare in Italia MTAD

Prospetto 3 - Persone di 6 anni e più che usano il cellulare per classe di età e
funzioni utilizzate - Anno 2006 (per100 persone di 6 anni e più che usano il cellulare
con le stesse caratteristiche)

FUNZIONI UTILIZZATE 6-10 11-14 15-17 18-19 20-24 25-34 35-44 45-54 55-59 60-64 65-74 75 e Totale
più
La segreteria 3,6 10,5 13,7 14,6 15,7 14,6 10,8 8,4 5,6 3,7 1,7 0,9 9,6
telefonica
Il controllo dei 6,0 20,7 23,9 26,6 27,4 19,5 12,2 7,5 5,9 4,8 2,3 0,8 12,8
consumi
La rubrica telefonica 17,7 47,9 59,9 62,9 55,7 42,5 29,3 19,3 14,2 8,9 5,0 3,0 29,3
Invio e ricezione di 29,6 70,1 80,0 78,8 71,8 52,8 36,2 22,7 15,1 10,2 5,3 1,9 36,7
SMS
Invio e ricezione di 8,7 33,3 47,4 44,8 36,5 21,0 9,0 3,7 2,0 1,1 0,3 0,2 13,6
MMS
L’agenda-diario, 15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
promemoria, sveglia
Suonerie polifoniche, 15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
loghi
Inviare e ricevere 0,7 3,6 4,6 6,5 4,1 3,6 2,5 1,2 0,6 0,1 0,4 - 2,2
email
Accesso ad Internet, 1,7 7,5 9,5 9,9 6,0 4,5 2,3 1,0 0,3 0,1 0,1 0,1 2,9
WAP
Acquisti, consultazioni 0,2 0,4 0,2 0,4 0,2 0,3 0,2 0,1 0,1 - 0,1 - 0,2
servizi finanziari e
Ascoltare musica, 6,0 22,1 22,7 18,6 11,3 5,0 2,5 0,7 0,3 0,0 0,1 - 5,1
lettore MP3, radio
Fotocamera 19,2 43,6 56,6 53,1 43,4 26,5 13,5 6,5 3,6 2,6 1,0 0,1 18,0
Giocare con i 38,1 47,8 37,3 31,8 19,6 8,6 4,3 1,0 0,5 0,0 0,1 - 9,0
videogiochi
Videofonia 2,8 10,5 11,3 9,9 7,8 4,9 2,4 0,9 0,4 03, 0,3 0,1 3,3
Capacità video 4,2 16,6 26,2 24,8 16,5 7,7 3,0 1,3 0,8 0,2 0,2 0,1 5,9
Connettività 2,0 12,20 22,2 21,6 14,5 8,0 3,9 1,9 0,6 0,2 0,3 - 5,7
aggiuntiva
Utilizzare software 0,5 2,7 4,5 5,9 2,8 1,8 1,0 0,4 0,1 0,1 - 0,0 1,3
installati dall’utente
Calcolatrice 10,4 33,0 38,9 35,0 31,1 19,5 10,7 5,1 2,9 1,5 0,5 - 13,1
Altro 0,5 1,1 0,9 0,9 0,8 0,8 0,3 0,1 0,3 0,1 0,2 0,6 0,5

12
Rapporto sull’uso del cellulare in Italia MTAD

Grafico 7 (Tipologie d’uso per età)

13
Rapporto sull’uso del cellulare in Italia MTAD

Analisi visuale

Dopo avere svolto una prima analisi, vogliamo eseguire un secondo procedimento, l’analisi
visuale, con la quale andremo ad esaminare in maniera più dettagliata i dati riguardanti la
“Frequenza d’uso” ed i “Motivi di utilizzo” per quanto riguarda le aree geografiche del
nostro paese; ossia la zona Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed
Insulare. Questa operazione viene svolta mediante l’utilizzo del software R, grazie al
comando plot si è proceduto alla creazione dei grafici a bastoncino, tanti quante sono le
variabili rappresentanti un particolare aspetto. Sull’asse delle ascisse vengono riportate le
zone, mentre sull’asse delle ordinate vengono riportate le percentuali. Questi grafici ci
consentiranno di capire meglio, per ogni tipo di frequenza e motivo di utilizzo, qual è la
zona del nostro paese, maggiormente interessata.

14
Rapporto sull’uso del cellulare in Italia MTAD

15
Rapporto sull’uso del cellulare in Italia MTAD

16
Rapporto sull’uso del cellulare in Italia MTAD

Da un’analisi dei suddetti grafici sono state fatte le seguenti osservazioni:

 Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare ogni
giorno.
 Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare, una o più volte a settimana.
 Gli utenti della zona Nord-Occidentale, sono quelli che usano maggiormente il
qualche volta al mese.
 Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare, qualche volta all’anno.
 Gli utenti della zona Nord-Orientale sono, quelli che usano maggiormente il
cellulare per lavoro.
 Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per
sentirsi liberi.
 Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per
sentire i familiari.
 Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare
per sentire gli amici.
 Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare
per essere rintracciabili.
 Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per
motivi di Salute.
 Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per
sentirsi più sicuri.
 Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare per eventuali imprevisti.
 Gli utenti della zona Nord (Orientale e Occidentale), sono quelli che usano
maggiormente il cellulare per comodità.
 Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare per altri motivi.

17
Rapporto sull’uso del cellulare in Italia MTAD

Grazie al comando pie() del programma R sono stati creati dei grafici a torta per
evidenziare meglio quanto detto e rilevato dai precedenti grafici a bastoncino.

18
Rapporto sull’uso del cellulare in Italia MTAD

19
Rapporto sull’uso del cellulare in Italia MTAD

20
Rapporto sull’uso del cellulare in Italia MTAD

Analisi Descrittiva

La statistica descrittiva viene utilizzata per analizzare il comportamento dei fenomeni


oggetti di studio. Ogni fenomeno viene descritto tramite categorie di dati (es. qualitativo). I
dati vengono quindi usati per ricavare misure di sintesi che consentono di comprendere
il comportamento del fenomeno in esame. I nostri dati contengono le percentuali
riguardanti l’uso del cellulare nel nostro paese durante il 2006. Quella che verrà effettuata
in seguito è un’analisi dettagliata dei dati in nostro possesso, per confermare
scientificamente quanto osservato dalla precedente Analisi Visuale, grazie all’aiuto di
indici di sintesi, detti anche statistiche, che sono utili a descrivere i dati numerici.

Gli indici di sintesi utilizzati sono i seguenti:

 media, mediana che sono indici di posizione poiché descrivono attorno a


quali valori è centrato l’insieme dei dati.

 quartili che sono indici di posizione che si ottengono dividendo l’insieme dei
dati ordinati in quattro parti uguali: il primo quartile Q1 è un valore tale che il 25%
dei dati ordinati è minore o uguale di Q1,il secondo quartile Q2 è un valore tale che
il 50% dei dati ordinati minore o uguale di Q2, Q2 coincide con la mediana,il terzo
quartile Q3 è un valore tale che il 75% dei dati ordinati è minore o uguale a Q3.

 varianza e deviazione standard che sono indici di dispersione dei dati


poiché misurano la dispersione dei dati attorno alla media.

Media campionaria: è la quantità

Mediana campionaria: dati un insieme di dati di ampiezza n, lo si ordini dal minore al


maggiore. Se n è dispari, si definisce mediana il valore che è in posizione (n+1)/2,mentre se
n è pari la mediana è invece definita come la media aritmetica dei valori che occupano le
posizioni n/2 e n/2+1.

Varianza campionaria: dati un insieme di dati numerici x1,x2…xn si definisce v.c. la


quantità:

21
Rapporto sull’uso del cellulare in Italia MTAD

Deviazione standard campionaria: è la radice quadrata della varianza campionaria,


ossia:

*Nota. Media e Media sono statistiche utili, come detto, per descrivere i valori centrali dei
dati. La media utilizza tutti i dati ed è influenzata in modo sensibile da valori molto bassi o
alti. La mediana dipende solo da uno dei due valori centrali della distribuzione e non
risente dei dati estremi.

Analisi delle variabili singolarmente

Per ogni variabile, verrà quindi determinato, il Minimo dei valori del campione in esame, il
primo Quartile, la Mediana, la Media, il terzo Quartile, e il Massimo dei valori del
campione in esame. Prima sull’insieme dei dati non divisi, e successivamente considerando
i dati delle zone suddivise in 5 gruppi (Nord-Occidentale, Nord-Orientale, Centrale,
Meridionale ed Insulare). Verrà quindi calcolata la Varianza e la Deviazione Standard. Il
ricavato verrà messo a confronto per trarre delle conclusioni rilevanti.

Si utilizzano le funzioni summary(v), var(v), sd(v) del linguaggio R, per ottenere quanto
espresso sopra.

Analisi degli utenti che usano il cellulare ogni giorno

Min. 1st Qu. Median Mean 3rd Qu. Max.

69.60 70.10 73.10 74.28 78.20 80.40

Varianza: 23.397
Deviazione Standard: 4.837045

22
Rapporto sull’uso del cellulare in Italia MTAD

Grazie all’aiuto di un boxplot, vengono illustrate alcune caratteristiche della distribuzione


dei dati: la centralità, la forma, la dispersione e la presenza di eventuali valori anomali,
detti “outlier”(un valore distante dalle altre osservazioni disponibili). La centralità è
espressa dalla mediana. La forma simmetrica o asimmetrica può essere dedotta
esaminando le distanze del primo e del terzo quartile dalla linea mediana. La dispersione è
dedotta esaminando le distanze del baffo superiore da Q3 e del baffo inferiore da Q1
(Quartili).

23
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare una o più volte a settimana

Min. 1st Qu. Median Mean 3rd Qu. Max.

15.6 18.3 21.0 19.9 21.9 22.7

Varianza: 8.525
Deviazione Standard: 2.91976

24
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare qualche volta al mese

Min. 1st Qu. Median Mean 3rd Qu. Max.

2.50 2.80 4.50 4.06 5.10 5.40

Varianza: 1.773
Deviazione Standard: 1.331540

25
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare qualche volta all’anno

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 1.30 1.40 1.76 2.50 2.60

Varianza: 0.543
Deviazione Standard: 0.7368853

26
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per Lavoro

Min. 1st Qu. Median Mean 3rd Qu. Max.

27.30 27.50 30.40 29.88 31.70 32.50

Varianza: 5.692
Deviazione Standard: 2.385791

27
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per sentirsi liberi

Min. 1st Qu. Median Mean 3rd Qu. Max.

31.20 31.90 32.00 32.26 32.60 33.60

Varianza: 0.808
Deviazione Standard: 0.8988882

28
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per sentire la famiglia

Min. 1st Qu. Median Mean 3rd Qu. Max.

72.5 74.3 75.7 75.5 76.6 78.4

Varianza: 5.025
Deviazione Standard: 2.241651

29
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per sentire gli amici

Min. 1st Qu. Median Mean 3rd Qu. Max.

39.20 42.50 42.80 42.46 43.50 44.30

Varianza: 3.803
Deviazione Standard: 1.950128

30
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per essere rintracciabili

Min. 1st Qu. Median Mean 3rd Qu. Max.

6.60 7.00 7.20 7.12 7.20 7.60

Varianza: 0.132
Deviazione Standard: 0.3633180

31
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per motivi di salute

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.2 1.3 1.5 1.5 1.5 2.0

Varianza: 0.095
Deviazione Standard: 0.3082207

32
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per sicurezza

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.0 19.1 19.9 20.1 21.1 21.4

Varianza: 1.235
Deviazione Standard: 1.111306

33
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per gli imprevisti

Min. 1st Qu. Median Mean 3rd Qu. Max.

30.50 32.90 34.70 34.54 36.30 38.30

Varianza: 9.068
Deviazione Standard: 3.011312

34
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per comodità

Min. 1st Qu. Median Mean 3rd Qu. Max.

25.70 27.70 29.10 29.66 32.90 32.90

Varianza: 10.208
Deviazione Standard: 3.194996

35
Rapporto sull’uso del cellulare in Italia MTAD

Analisi degli utenti che usano il cellulare per altri motivi

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.90 1.10 1.20 1.26 1.40 1.70

Varianza: 0.093
Deviazione Standard: 0.304959

36
Rapporto sull’uso del cellulare in Italia MTAD

Correlazione tra le variabili

Nelle pagine seguenti viene illustrata l’analisi della correlazione fra le variabili in esame,
tale analisi ci porterà a dire qual è il legame che esiste (se esiste) fra coppie di due variabili
prese in considerazione.

Per verificare la dipendenza fra due variabili X e Y si procede nel disegnare il diagramma
di dispersione o scatterplot. Sull’asse delle ascisse si pongono i dati relativi a una delle
due variabili, su quello delle ordinate quelli relativi all’altra variabile e le singole
osservazioni si rappresentano con punti o cerchietti. Lo scatterplot evidenzia se i punti
sono sparsi senza regolarità oppure se esiste una qualche regolarità (variabili connesse
mediante relazione lineare).

Per avere una misura quantitativa della correlazione tra le variabili è stata considerata la
covarianza campionaria tra le due variabili X eY ,data dalla seguente formula:

Quando la Cxy > 0 si dice che le variabili sono correlate positivamente, se Cxy < 0 si dice
che le variabili sono correlate negativamente, se Cxy = 0 le variabili non sono correlate.

Per avere una misura quantitativa della correlazione tra le variabili è stato anche
considerato il coefficiente di correlazione campionario che è uguale al rapporto fra
la covarianza di X e Y e il prodotto degli scarti quadratici medi di X e di Y, ossia:

Analogamente, quando la rxy > 0 si dice che le variabili sono correlate positivamente, se
rxy < 0 si dice che le variabili sono correlate negativamente, se rxy = 0 le variabili non
sono correlate.

Il coefficiente di correlazione campionario è compreso tra -1 e 1, tali valori vengono


raggiunti quando tra X e Y vi è una relazione lineare (perfetta negativa o perfetta positiva)
37
Rapporto sull’uso del cellulare in Italia MTAD

e in tal caso i punti dello scatterplot giacciono tutti su di una retta. Nello scatterplot inoltre
il segno di rxy indica la direzione della retta interpolante. È positivo se xi e yi tendono a
essere grandi e piccoli insieme, nel qual caso la retta interpolante punta verso l’alto. È
negativo invece se quando xi è grande e yi è piccolo e viceversa, nel qual caso la retta
interpolante punta verso il basso.

(* xi e yi per i=1….n (valori di X e Y) (x e y negato,indicano medie campionarie) s=sqm).

In R le covarianze campionarie e le correlazioni campionarie fra una coppia di variabili


numeriche prese in esame sono state ottenute immediatamente attraverso le seguenti
funzioni:

covarianze: cov(X,Y)

correlazioni: cor(X,Y)

in R gli scatterplot sono stati ottenuti con le seguenti linee di codice di esempio:

plot (Var1,Var2, xlab=”NomeVar1”,ylab=”NomeVar2”)

abline(lm(Var2 ~ Var1)) //aggiunge allo scatterplot la linea interpolante stimata

38
Rapporto sull’uso del cellulare in Italia MTAD

Ecco riportati i risultati ottenuti

• Correlazione tra le variabili

TTIG e QVSETT

Covarianza: -13.8375

Correlazione: -0.979784

• Correlazione tra le variabili

TTIG e QVMESE

Covarianza: -6.2035

Correlazione: -0.9631686

• Correlazione tra le variabili

TTIG e QVANNO

Covarianza: -3.086

Correlazione: -0.8657967

39
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

QVSETT e QVMESE

Covarianza: 3.4975

Correlazione: 0.8996139

• Correlazione tra le variabili

QVSETT e QVANNO

Covarianza: 1.6375

Correlazione: 0.7610868

• Correlazione tra le variabili

QVMESE e QVANNO

Covarianza: 0.8755

Correlazione: 0.8922815

40
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LAVORO e LIBERTA’

Covarianza: 1.2165

Correlazione: 0.5672493

• Correlazione tra le variabili

LAVORO e FAMIGLIA

Covarianza: -4.555

Correlazione: -0.8517025

• Correlazione tra le variabili

LAVORO e AMICIZIA

Covarianza: -2.0085

Correlazione: -0.4316942

41
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LAVORO e RINTRACCIABILITA’

Covarianza: -0.722

Correlazione: -0.8329478

• Correlazione tra le variabili

LAVORO e SALUTE

Covarianza: 0.29

Correlazione: 0.3943699

• Correlazione tra le variabili

LAVORO e SICUREZZA

Covarianza: -2.3225

Correlazione: -0.8759711

42
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LAVORO e IMPREVISTI

Covarianza: 6.226

Correlazione: 0.8666045

• Correlazione tra le variabili

LAVORO e COMODITA’

Covarianza: 5.909

Correlazione: 0.7751954

• Correlazione tra le variabili

LAVORO e ALTRO

Covarianza: 0.5965

Correlazione: 0.819854

43
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LIBERTA’ e FAMIGLIA

Covarianza: -0.245

Correlazione: -0.1215885

• Correlazione tra le variabili

LIBERTA’ e AMICIZIA

Covarianza: -0.722

Correlazione: -0.4118778

• Correlazione tra le variabili

LIBERTA’ e RINTRACCIABILITA’

Covarianza: -0.119

Correlazione: -0.3643798

44
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LIBERTA’ e SALUTE

Covarianza: 0.205

Correlazione: 0.7399227

• Correlazione tra le variabili

LIBERTA’ e SICUREZZA

Covarianza: -0.42

Correlazione: -0.4204459

• Correlazione tra le variabili

LIBERTA’ e IMPREVISTI

Covarianza: 1.042

Correlazione: 0.3849517

45
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

LIBERTA’ e COMODITA’

Covarianza: 0.973

Correlazione: 0.3387949

• Correlazione tra le variabili

LIBERTA’ e ALTRO

Covarianza: 0.058

Correlazione: 0.2115830

• Correlazione tra le variabili

FAMIGLIA e AMICIZIA

Covarianza: 2.225

Correlazione: 0.5089778

46
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

FAMIGLIA e RINTRACCIABILITA’

Covarianza: 0.55

Correlazione: 0.675317

• Correlazione tra le variabili

FAMIGLIA e SALUTE

Covarianza: -0.0425

Correlazione: -0.06151189

• Correlazione tra le variabili

FAMIGLIA e SICUREZZA

Covarianza: 2.2875

Correlazione: 0.9182472

47
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

FAMIGLIA e IMPREVISTI

Covarianza: -5.64

Correlazione: -0.835517

• Correlazione tra le variabili

FAMIGLIA e COMODITA’

Covarianza: -5.94

Correlazione: -0.8293695

• Correlazione tra le variabili

FAMIGLIA e ALTRO

Covarianza: -0.59

Correlazione: -0.863063

48
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

AMICIZIA e RINTRACCIABILITA’

Covarianza: 0.161

Correlazione: 0.2272353

• Correlazione tra le variabili

AMICIZIA e SALUTE

Covarianza: -0.0375

Correlazione: -0.06238875

• Correlazione tra le variabili

AMICIZIA e SICUREZZA

Covarianza: 1.6675

Correlazione: 0.7694302

49
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

AMICIZIA e IMPREVISTI

Covarianza: -3.668

Correlazione: -0.6246121

• Correlazione tra le variabili

AMICIZIA e COMODITA’

Covarianza: -4.987

Correlazione: -0.8003978

• Correlazione tra le variabili

AMICIZIA e ALTRO

Covarianza: -0.322

Correlazione: -0.5414411

50
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

RINTRACCIABILITA’ e SALUTE

Covarianza: 0.005

Correlazione: 0.04464998

• Correlazione tra le variabili

RINTRACCIABILITA’ e SICUREZZA

Covarianza: 0.26

Correlazione: 0.6439511

• Correlazione tra le variabili

RINTRACCIABILITA’ e IMPREVISTI

Covarianza: -0.976

Correlazione: -0.8920868

51
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

RINTRACCIABILITA’ e COMODITA’

Covarianza: -0.854

Correlazione: -0.7356997

• Correlazione tra le variabili

RINTRACCIABILITA’ e ALTRO

Covarianza: -0.099

Correlazione: -0.8935251

• Correlazione tra le variabili

SALUTE e SICUREZZA

Covarianza: -0.0725

Correlazione: -0.2116619

52
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

SALUTE e IMPREVISTI

Covarianza: -0.045

Correlazione: -0.04848361

• Correlazione tra le variabili

SALUTE e COMODITA’

Covarianza: -0.085

Correlazione: -0.0863151

• Correlazione tra le variabili

SALUTE e ALTRO

Covarianza: -0.0175

Correlazione: -0.1861807

53
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

SICUREZZA e IMPREVISTI

Covarianza: -2.975

Correlazione: -0.8889918

• Correlazione tra le variabili

SICUREZZA e COMODITA’

Covarianza: -3.3

Correlazione: -0.929416

• Correlazione tra le variabili

SICUREZZA e ALTRO

Covarianza: -0.2875

Correlazione: -0.8483262

54
Rapporto sull’uso del cellulare in Italia MTAD

• Correlazione tra le variabili

IMPREVISTI e COMODITA’

Covarianza: 9.252

Correlazione: 0.9616334

• Correlazione tra le variabili

IMPREVISTI e ALTRO

Covarianza: 0.902

Correlazione: 0.9822212

• Correlazione tra le variabili

COMODITA’ e ALTRO

Covarianza: 0.913

Correlazione: 0.9370418

55
Rapporto sull’uso del cellulare in Italia MTAD

Analisi Cluster

Quella che verrà mostrata nelle pagine seguenti è l’analisi dei cluster. Si tratta di una
metodologia che permette di raggruppare in sottoinsiemi, detti cluster, entità (unità)
appartenenti a un insieme più ampio. I metodi attraverso cui ottenere tale analisi hanno lo
scopo di ottenere raggruppamenti in base alla somiglianza, in modo che gli elementi di
uno stesso gruppo siano tra loro il più possibile simili e gli elementi
appartenenti a gruppi distinti siano tra loro il più possibile diversi. Si vuole
distribuire le osservazioni in gruppi, tale che il grado di associazione sia alto tra i membri
dello stesso gruppo e basso tra i membri di gruppi diversi. Alta omogeneità all’interno dei
gruppi e alta eterogeneità tra gruppi distinti.

Problema: individuare m cluster di unità I con I=(I1..I2..In) tali che Ii appartenga solo a un
unico sottoinsieme.

Le unità assegnate allo stesso cluster sono dette simili, le unità che sono assegnate a
differenti cluster sono dette dissimili.

La somiglianza viene definita tramite una misura di distanza tra due unità, con d>=0.
Un criterio per risolvere il problema di clustering potrebbe essere quello di assegnare due
unità (o individui) allo stesso cluster se la distanza tra due unità Xi e Yi è piccola, e a
differenti cluster se la distanza è grande.

La misura di distanza più comune è la metrica euclidea, la quale però è molto


influenzata dall’unità di misura in base alla quale è valutata ciascuna caratteristica
osservabile posseduta da ogni unità in I (ci possono essere discordanze applicando un
unità di misura anziché un’altra es. cm e metro). Per ovviare a ciò è opportuno
standardizzare prima le misure, in maniera tale da poter effettuare un confronto tra le
misure.

In R è possibile fare ciò attraverso la funzione scale (X, center=TRUE, scale=TRUE) dove
X è una matrice numerica, center e scale a TRUE attuano la standardizzazione. Dopo lo
scalamento si ottiene una matrice con dati standardizzati Z.

Es. Z<-scale(X)

D<-dist (Z, method=”euclidean”, diag=TRUE, upper=”TRUE”)

La funzione dist restituisce la matrice delle distanze D calcolata usando le misure di


distanza (euclidea) tra le righe della matrice Z di dati.

Scelta la misura di distanza si procede alla scelta di un algoritmo di raggruppamento delle


unità osservate. I metodi di raggruppamento praticabili si distinguono in metodi
gerarchici e i metodi non gerarchici.

56
Rapporto sull’uso del cellulare in Italia MTAD

Metodi gerarchici

I metodi gerarchici agglomerativi, quelli presi in considerazione nell’analisi, partono da


una situazione in cui si hanno n cluster distinti ognuno contenente un solo individuo, per
giungere attraverso le successive unioni di cluster a una situazione in cui si ha un solo
cluster contenente tutti gli n individui. L’obiettivo dei metodi gerarchici è quello di
ottenere una sequenza di partizioni che possono essere rappresentate graficamente
mediante una struttura ad albero chiamata dendrogramma, nella quale sull’insieme
delle ordinate sono riportati i livelli di distanza,mentre sull’asse delle ascisse sono riportati
i singoli individui (o unità). A ogni livello di distanza corrisponde una partizione,mentre ad
ogni partizione corrispondono infiniti livelli di distanza compresi tra quelli che
individuano due successive unioni o divisioni.

Molti metodi di analisi gerarchica sono caratterizzati da una struttura comune che si
riflette in un algoritmo generale esplicitato come segue:

• Passo 1: A partire dalla matrice X originaria dei dati o dalla matrice scalata, si
considera la matrice delle distanze D (o di similarità S) tra gli elementi considerati
come singoli cluster contenenti un solo elemento.
• Passo 2: Si individuare la coppia di cluster meno distanti (o più somiglianti) e si
raggruppano in un unico cluster; si calcola la distanza (o similarità) di questo
cluster originato dall’agglomerazione di tutti gli altri gruppi già esistenti.
• Passo 3: Si costruire una nuova matrice di distanza (o di similarità) che risulterà
essere ridotta di una riga e di una colonna rispetto a quella che precedente.
• Passo 4: Si lavora sulla matrice ottenuta, rieseguendo i passi 2 e 3 fino a esaurire
tutte le possibilità di raggruppamento. Si ottiene una matrice 2x2. Ciò richiede n-1
iterazioni.
• Passo 5: Si rappresenta graficamente il processo di agglomerazione con un
dendrogramma (asse ordinate i livelli di distanza, ascisse riportano le unità).

L’analisi gerarchica agglomerativa si esegue in R con la funzione

hclust (d,method=”complete”)

d : è un oggetto creato tramite la funzione dist();

method : seleziona il metodo gerarchico agglomerativo scelto.

Infatti ogni metodo gerarchico agglomerativo si differenzia dagli altri per il modo in cui si
individuano i due cluster meno distanti (o più somiglianti) e per il modo in cui si
determina la distanza (o similarità) che intercorre tra il cluster ottenuto e i rimanenti.

57
Rapporto sull’uso del cellulare in Italia MTAD

In base alle considerazioni precedenti method può assumere le seguenti opzioni:

1. “single” che indica il metodo del legame singolo (o semplice).


2. “complete” che indica il metodo del legame completo (o composto).
3. “average” che indica il metodo del legame medio.
4. “centroid” che indica il metodo del centroide.
5. “median” che indica il metodo della mediana.

Per ottenere il dendrogramma si impiega la funzione

plot(z,labels=NULL,hang=0.1,main=”Dendrogramma”,sub=”NULL”,xlab=NULL)

z : è un oggetto (output) creato dalla funzione hclust();

labels: etichette;

hang: altezza alla quale le etichette vengono visualizzate sotto il dendrogramma;

main, sub, xlab :sono comandi grafici.

58
Rapporto sull’uso del cellulare in Italia MTAD

Metodi gerarchici agglomerativi in dettaglio

Il metodo del legame singolo

Tale metodo assume come distanza tra i gruppi G1 e G2, la minima distanza tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.

d(G1, G2)= min d(xi ,xj) ∀ xi є G1 e ∀ xj є G2

La caratteristica principale del metodo descritto è la monotonia: la tipologia dei gruppi non
cambia per qualsiasi trasformazione di d(ij).

Inoltre esso conduce alla formazione di clusters concatenati a causa dell’assenza di nuclei
intorno ai quali tali clusters si sviluppano.

Il metodo del legame completo

Tale metodo assume come distanza tra i gruppi G1 e G2, la massima distanza tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.

d(G1, G2)= max d(xi ,xj) ∀ xi є G1 e ∀ xj є G2

Esso tende a produrre cluster senza alcun effetto di concatenamento. Come il metodo del
legame semplice, anche il metodo del legame composto è invariante rispetto a
trasformazioni monotone della distanza.

Il metodo del legame medio

Tale metodo assume come distanza tra i gruppi G1 e G2, la distanza media tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2. L’algoritmo quindi è simile a
quello descritto precedentemente tranne che nella diversa definizione della distanza.

d(Gi, Gj)  
∑ є  ∑ є  
,



59
Rapporto sull’uso del cellulare in Italia MTAD

Il metodo del centroide

Anche in questo caso si utilizza un algoritmo a stadi simile a quello visto precedentemente.
Partendo da una matrice di distanze D, ad ogni stadio si fondono i gruppi più vicini; in
questo caso si assume come distanza tra i gruppi qulla tra i loro centroidi (centri di
gravità). Se per esempio ad un certo punto si hanno due cluster Gi e Gj contenenti
rispettivamente ni e nj osservazioni, la distanza tra Gi e Gj è definita come:

d(Gi,Gj)= d(
 ,
 )

avendo posto

 

 = ∑ є 
 e
 = ∑ є 

 

In questo caso è come se ogni volta che si forma un gruppo esso fosse sostituito dal suo
centroide.

Il metodo della mediana

È simile a quello del centroide, con la differenza che la procedura è indipendente dalla
numerosità dei cluster. Infatti, quando due gruppi si aggregano, il nuovo centroide è
calcolato con la semisomma dei due centroidi precedenti. Il metodo della mediana così
come il metodo del legame singolo può dare origine alla formazione di una catena tra gli
elementi.

Come aiuto alla rappresentazione grafica del dendrogramma, sono state utilizzate oltre
ovviamente a plot, ulteriori funzioni:

axis(side=4,at=round(c(0,hls$height),1)) : es. hls rappresenta output di hclust

che permette di costruire l’asse delle altezze alla destra del grafico arrotondando i numeri
alla prima cifra decimale.

rect.hclust ()

che permette di disegnare rettangoli attorno ai cluster individuati.

cutree (tree ,k=NULL, h=NULL)

che permette di ottenere una suddivisione in cluster in corrispondenza di un determinato


livello di distanza, o in corrispondenza di un prefissato numero di cluster; tree è l’output di
hclust, k è il numero di cluster, h è l’altezza (livello di distanza:punto in cui i cluster si
agglomerano) alla quale il dendrogramma viene tagliato. L’output di cutree è un vettore
60
Rapporto sull’uso del cellulare in Italia MTAD

che contiene numeri associati ai cluster in cui sono state inserite le varie unità (o
individui).

Esecuzione

La prova pratica di esecuzione consiste nel cercare di raggruppare in cluster le zone che
hanno molte somiglianze tra loro, e si confronteranno i risultati ottenuti dall’applicazione
dei differenti metodi gerarchici agglomerativi. Il confronto lo si effettua analizzando i
risultati attraverso i vari dendrogrammi creati, ciascuno per ogni metodo gerarchico
agglomerativo. Un aiuto nel confronto è dato dall’evidenziazione, nei grafici, attraverso
rettangoli colorati, di un certo numero di gruppi.

Verrà mostrato per ogni metodo applicato, anche l’output della corrispondente funzione
cutree, la quale conterrà i numeri interi positivi associati ai cluster in cui sono state inserite
le varie unità (in pratica si vedrà in quali cluster sono state inserite le varie nazioni). Con
tale output vengono mostrati i risultati numerici osservabili dai dendrogrammi.

Scelto k=3 come parametro per la funzione rect.hclust(), vengono evidenziati tre gruppi
contenenti ciascuno un certo numero di zone.

61
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame singolo

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

62
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame completo

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

63
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame medio

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

64
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del centroide

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

65
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo della mediana

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

66
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame singolo

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

67
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame completo

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

68
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del legame medio

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

69
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo del centroide

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

70
Rapporto sull’uso del cellulare in Italia MTAD

Risultati del metodo gerarchico agglomerativo della mediana

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

71
Rapporto sull’uso del cellulare in Italia MTAD

Metodi non gerarchici

L’obiettivo dei metodi non gerarchici è quello di ripartire le n unità, in k cluster, ottenendo
un'unica partizione finale. Con tali tecniche è possibile riallocare gli individui già
classificati ad un livello precedente dell’analisi. In alcuni metodi non gerarchici di
clustering si assume che il numero di cluster in cui suddividere l’insieme delle n unità sia
fissato a priori, in altri si determina nel corso dell’analisi.

Il metodo non gerarchico utilizzato nella nostra analisi è il metodo di k-means, che
consiste nei passi descritti nel seguente algoritmo:

• Passo 1: Si fissa a priori il numero k di cluster, specificando k punti di riferimento


iniziali (k vettori delle caratteristiche) [scegliendo gli elementi o prendendo la
configurazione determinata con una tecnica gerarchica] che inducono una prima
partizione.
• Passo 2: Si considerano gli n-k elementi restanti e si attribuisce a ciascuno di essi il
cluster da cui ha distanza minore dal punto di riferimento.
• Passo 3: Si calcola il centroide di ognuno dei k gruppi ottenuti, essi saranno i punti
di riferimento per i nuovi cluster.
• Passo 4: Si valuta la distanza di ogni vettore delle caratteristiche da ogni centroide,
ottenuto al passo precedente. Se la distanza minima non è ottenuta in
corrispondenza del centroide del gruppo di appartenenza, allora si sposta
l’individuo presso il cluster che ha il centroide più vicino.
• Passo 5: Si ricalcolano i centroidi dei k gruppi ottenuti.
• Passo 6: Si ripete il procedimento a partire dal passo 4 fino a che i centroidi non
subiscono altre modifiche rispetto all’iterazione precedente. Si procede così
iterativamente a spostamenti successivi fino a raggiungere una configurazione
stabile, ossia gli elementi all’interno di ogni cluster non cambiano al ripetersi del
procedimento.

Per garantire la convergenza della procedura iterativa, come misura di distanza tra i vettori
delle caratteristiche e i centroidi viene utilizzata la distanza euclidea.

Esecuzione

Si è presa la configurazione ottenuta con una tecnica gerarchica, si sono dati all’algoritmo i
campi per l’esecuzione, si elimina la prima colonna della matrice dei centroidi ottenuta con
la funzione aggregate(), usando tali centroidi si applica il metodo k-means, il quale effettua
una serie di iterazioni di controllo, vengono poi visualizzati i risultati ottenuti, e infine
vengono rappresentati graficamente i cluster generati tramite k-means. Questo
procedimento viene ripetuto per ogni configurazione ottenuta durante l’analisi attraverso i
metodi gerarchici del precedente paragrafo, configurazioni che rappresentano le partizioni
iniziali da dare in input, per l’applicazione poi di k-means.

72
Rapporto sull’uso del cellulare in Italia MTAD

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

73
Rapporto sull’uso del cellulare in Italia MTAD

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

74
Rapporto sull’uso del cellulare in Italia MTAD

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

75
Rapporto sull’uso del cellulare in Italia MTAD

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

76
Rapporto sull’uso del cellulare in Italia MTAD

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

77
Rapporto sull’uso del cellulare in Italia MTAD

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

78
Rapporto sull’uso del cellulare in Italia MTAD

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

79
Rapporto sull’uso del cellulare in Italia MTAD

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

80
Rapporto sull’uso del cellulare in Italia MTAD

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

81
Rapporto sull’uso del cellulare in Italia MTAD

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole


1 1 2 3 3

82
Rapporto sull’uso del cellulare in Italia MTAD

Conclusioni

Da quanto si è potuto evincere dall’analisi dei risultati dei metodi gerarchici è possibile
notare come la struttura dei gruppi è quasi la stessa, infatti, la funzione rect.hclust(), mette
in evidenza 3 gruppi contenente ciascuno sempre le stesse zone. Da questa analisi vediamo
che la divisione geografica è netta anche per quanto riguarda questo “Rapporto sull’uso del
cellulare in Italia” con una netta differenza tra Nord, Centro, e Sud (isole comprese), i
cluster creati rappresentano appunto questa suddivisione, il primo che raggruppa la zona
Meridionale e Insulare, il secondo, la zona Centrale, ed il terzo la zona Nord-Occidentale e
Nord-Orientale. E’ da notare che il cluster della zona Centrale è molto vicino a quello della
zona Nord, anziché a quello della zona sud.

Da quanto si è potuto evincere dall’analisi dei risultati del metodo non gerarchico k-means,
applicato per ogni configurazione gerarchica iniziale data in input come partizione iniziale,
si ottengono gli stessi gruppi ottenuti nell’analisi gerarchica.

I metodi gerarchici non consentono di modificare la configurazione raggiunta, ovvero una


volta che un individuo è stato attribuito ad un cluster permane al suo interno per sempre.
Il metodo non gerarchico del k-means, applicato usando una configurazione gerarchica
iniziale, lo si deve preferire, poiché con esso è possibile riallocare gli individui già
classificati ad un livello precedente dell’analisi, fino a che si vengono a formare gruppi
stabili (ossia gli elementi non cambiano più gruppo). Risulta utile quindi combinare i
metodi gerarchici e non gerarchici per verificare la stabilità dei gruppi.

83

Potrebbero piacerti anche