Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Docente: Studente:
Prof. Amelia Giuseppina Nobile Giovanni Cannizzaro
Matricola:0521/000857
Sommario
Introduzione...................................................................................................... 3
Fonti .................................................................................................................. 3
L’uso del cellulare..............................................................................................4
I motivi per cui si usa il cellulare ..................................................................... 8
Le funzioni più utilizzate ..................................................................................11
Analisi visuale ................................................................................................. 14
Analisi Descrittiva .......................................................................................... 21
Analisi delle variabili singolarmente ..........................................................22
Correlazione tra le variabili ........................................................................... 37
Analisi Cluster ................................................................................................. 56
Metodi gerarchici ......................................................................................... 57
Metodi gerarchici agglomerativi in dettaglio ............................................. 59
Il metodo del legame singolo .................................................................... 59
Il metodo del legame completo ................................................................. 59
Il metodo del legame medio ...................................................................... 59
Il metodo del centroide............................................................................. 60
Il metodo della mediana .......................................................................... 60
Metodi non gerarchici .................................................................................... 72
Conclusioni ..................................................................................................... 83
2
Rapporto sull’uso del cellulare in Italia MTAD
Introduzione
L’obiettivo di questa relazione è quello di fare un analisi statistica riguardante l’uso dei
telefoni cellulari in Italia, nell’anno 2006, avendo a disposizione una mole importante di
dati. Si cercherà di svolgere un’analisi in modo dettagliato e completo, cercando di cogliere
gli aspetti più importanti e interpretare i dati ottenuti nel modo migliore possibile.
Fonti
I dati utilizzati per l'analisi, datati 206, sono stati pubblicati dall'ISTAT (Istituto
Nazionale di Statistica).
3
Rapporto sull’uso del cellulare in Italia MTAD
Nel 2006 il 77,4% delle persone di 6 anni e più utilizza il telefono cellulare. Importanti
sono le differenze di genere: l’81,2% degli uomini fa uso del cellulare contro il 73,9% delle
donne ma queste differenze dipendono fortemente dall’età; tra i giovani fino ai 34 anni,
infatti, la quota di donne che usa il cellulare è superiore a quella degli utilizzatori maschi
ma, a partire dai 35 anni la situazione si capovolge e nelle età successive il divario diventa
molto ampio (Prospetto 1).
L’uso del cellulare è comunque molto influenzato dall’età. Le persone che lo usano sono,
infatti, il 28,7% dai 6 ai 10 anni, raggiungono l’80,0& già dagli 11 ai 14 anni, per poi
superare il 93% dai 15 ai 44 anni. La quota di utilizzatori decresce dopo i 45 anni ma si
riduce significativamente solo tra gli ultrasessantacinquenni (Prospetto 1).
L’uso del cellulare è molto diffuso su tutto il territorio nazionale, anche se si riscontrano
comunque delle leggere differenze. La quota di utilizzatori è, infatti, dell’80,0% al Centro
mentre al Sud è del 74,2 %. Considerando la frequenza con cui si usa il cellulare si
evidenzia come tale mezzo di comunicazione sia entrato a far parte profondamente del
vissuto quotidiano. Il 73,6% degli utilizzatori ricorrono al cellulare tutti i giorni, e il 20,3%
almeno una volta a settimana. Solo il 6,0% degli utenti fa un uso saltuario del cellulare
(una o più volte al mese o più raramente). L’utilizzo quotidiano del cellulare è diffuso
soprattutto tra i giovani (oltre il 90% degli utilizzatori dai 17 ai 34 anni) e tra i dirigenti,
imprenditori e liberi professionisti (91,2%) mentre un uso più saltuario è diffuso
soprattutto tra gli anziani (Prospetto 1).
4
Rapporto sull’uso del cellulare in Italia MTAD
Prospetto 1 - Persone di 6 anni e più per uso del cellulare, frequenza con cui lo usano,
sesso, classe di età e ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più
con le stesse caratteristiche)
SESSO, CLASSI DI ETÀ E Usa il cellulare Usa il cellulare Frequenza di utilizzo (a)
RIPARTIZIONI GEOGRAFICHE No SI Tutti i Una o più Qualche Qualche
Giorni volte volta al volta
a mese all'anno
settimana
Sesso
Maschi 16,0 81,2 76,2 18,4 3,8 1,6
Femmine 23,6 73,9 71,0 22,3 4,6 2,1
Totale 19,9 77,4 73,6 20,3 4,2 1,8
Classi di Età
6-10 66,3 28,7 26,2 43,1 21,0 9,6
11-14 17,0 80,0 70,1 23,0 5,0 1,9
15-17 2,8 93,1 89,3 9,7 0,9 0,1
18-19 2,8 94,4 94,4 5,0 0,4 0,2
20-24 1,9 95,1 94,5 5,0 0,4 -
25-34 2,4 95,1 89,6 9,6 0,6 0,3
35-44 3,9 93,4 81,7 16,2 1,6 0,5
45-54 7,7 89,8 73,7 21,7 3,3 1,3
55-59 16,2 81,6 64,1 27,8 6,3 1,8
60-64 22,8 74,8 53,9 33,4 9,3 3,4
65-74 39,6 58,5 39,7 42,2 11,9 6,2
75 e più 71,2 26,6 28,8 43,6 16,7 10,8
Totale 19,9 77,4 73,6 20,3 4,2 1,8
RIPARTIZIONI GEOGRAFICHE
Italia Nord Occidentale 18,1 78,8 70,1 21,9 5,4 2,6
Italia Nord Orientale 21,3 76,8 69,6 22,7 5,1 2,5
Italia Centrale 17,6 80,0 73,1 21,0 4,5 1,4
Italia Meridionale 22,8 74,2 78,2 18,3 2,5 1,0
Italia Insulare 19,9 77,6 80,4 15,6 2,8 1,3
Italia 19,9 77,4 73,6 20,3 4,2 1,8
5
Rapporto sull’uso del cellulare in Italia MTAD
6
Rapporto sull’uso del cellulare in Italia MTAD
7
Rapporto sull’uso del cellulare in Italia MTAD
Le esigenze familiari vengono al primo posto tra le motivazioni che spingono all’utilizzo del
telefono cellulare. Infatti, il 75,2% degli utilizzatori usa il cellulare per essere più facilmente
in contatto con i genitori e i familiari mentre il 42,2% lo usa per essere più facilmente in
contatto con gli amici. Il cellulare viene utilizzato anche per sentirsi più sicuri poiché il
34,6% degli utilizzatori lo usa per far meglio fronte a eventuali imprevisti, contrattempi e
urgenze e il 19,9% dichiara che avere il cellulare a disposizione li fa sentire più sicuri in
caso di pericolo. Inoltre, il 29,9% ritiene che il telefono cellulare sia comodo perché evita di
dover cercare un telefono pubblico quando occorre. Usare il cellulare per ragioni di lavoro
è solo la quinta motivazione (30,0%) a conferma del fatto che il cellulare copre una gamma
di esigenze comunicative molto ampia che va ben al di là della sola sfera lavorativa.
Importante è anche la quota di persone che usano il cellulare per motivi di assistenza: il
7,1% dichiara di usare il cellulare perché ha genitori o parenti anziani o malati e l’1,5%
perché ha bisogno personalmente di essere assistito (Prospetto 2).
Ovviamente le motivazioni differiscono molto a seconda dell’età e del sesso. Ad esempio, le
donne che usano il cellulare per ragioni di lavoro sono solo il 17,0% rispetto al 42,6% dei
maschi e tali differenze si mantengono forti anche a parità di condizione professionale;
infatti, tra gli occupati usano il cellulare per ragioni di lavoro il 64,5% dei maschi rispetto
al 37,8% delle femmine. Al contrario, sono soprattutto le donne che usano il cellulare per
sentirsi più sicure in caso di pericolo (25,1% rispetto al 14,9%) e per far meglio fronte a
imprevisti, contrattempi e urgenze (36,4% rispetto al 32,9%). Infine, gli uomini lo usano
più delle donne per essere più facilmente in contatto con gli amici (43,4% rispetto al 41,0%
delle donne) mentre le donne lo usano più degli uomini per essere più facilmente in
contatto con i genitori e i familiari (79,0% rispetto al 71,6% degli uomini). Tra i giovani dai
15 fino ai 24 anni l’uso del cellulare per essere più facilmente in contatto con gli amici è più
importante dell’uso per contattare genitori o familiari. Inoltre, è molto elevata anche la
quota di giovani che usano il cellulare per il piacere di parlare con chi vogliono in qualsiasi
momento e in qualunque luogo. Per ragioni di lavoro e per far meglio fronte a imprevisti e
contrattempi il cellulare è usato soprattutto dalle persone tra i 25 e i 54 anni. Gli
ultrasessantacinquenni, invece, hanno la quota più elevata di persone che usano il cellulare
perché si sentono più sicuri in caso di pericolo. I motivi per cui si usa il telefono cellulare
sono influenzati anche dalla condizione professionale.
8
Rapporto sull’uso del cellulare in Italia MTAD
Prospetto 2 - Persone di 6 anni e più che usano il cellulare per motivo per cui
lo usa, sesso, classe di età,ripartizione geografica - Anno 2006 (per 100 persone
di 6 anni e più che usano il cellulare con le stesse caratteristiche)
SESSO, CLASSI DI Ragioni Per il Per Per Perché Per poter Perché Per far Perché è Altro
ETÀ E di piacere essere essere ho essere più mi meglio comodo
RIPARTIZIONI lavoro di par più più genitori,parenti facilmente sento fronte non
GEOGRAFICHE lare con facilmente facilmente anziani, assistito più a imprevisti, dover
chi voglio, in in malati (salute sicuro/a contrattempi, cercare
in contatto contatto Handicap) in caso urgenze un
qualsiasi con i con gli di telefono
momento genitori, amici pericolo pubblico
ed familiari
in
qualunque
luogo
Sesso
Maschi 42,6 31,1 71,6 43,4 6,4 1,3 14,9 32,9 29,7 1,2
Femmine 17,0 33,5 79,0 41,0 8,0 1,7 25,1 36,4 30,1 1,3
Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3
Classi di Età
6-10 - 16,2 72,4 34,6 1,1 0,2 13,8 8,9 9,9 7,5
11-14 - 44,0 72,4 71,9 1,6 0,7 25,0 24,7 24,3 2,8
15-17 2,5 58,3 68,2 83,4 1,5 0,5 22,3 37,9 37,7 1,6
18-19 8,4 62,8 71,1 84,9 2,2 0,7 24,1 42,5 42,5 0,7
20-24 24,8 56,4 74,3 74,7 2,9 0,3 23,5 42,6 39,9 0,9
25-34 42,4 46,0 73,6 58,8 5,2 0,7 20,9 38,3 34,6 1,5
35-44 45,8 30,2 76,9 37,6 9,7 0,9 18,8 37,1 30,5 1,1
45-54 41,8 21,7 77,8 27,4 12,5 0,8 16,7 34,0 28,1 0,7
55-59 28,6 18,6 76,6 23,4 10,7 1,5 18,0 34,2 27,8 0,7
60-64 17,6 18,3 75,0 22,3 7,9 2,5 16,0 30,9 25,3 1,1
65-74 6,8 15,7 75,9 16,8 4,3 4,0 22,6 28,4 23,9 1,1
75 e più 1,6 11,0 74,4 13,0 2,3 11,1 26,1 25,3 16,2 0,8
Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3
RIPARTIZIONI
GEOGRAFICHE
Italia Nord 30,4 32,6 74,3 39,2 7,2 1,5 19,0 36,3 32,9 1,4
Occidentale
Italia Nord 32,5 31,9 72,5 42,5 6,6 1,3 19,1 38,3 32,9 1,7
Orientale
Italia Centrale 31,7 33,6 75,7 42,8 7,0 2,0 19,9 34,7 29,1 1,2
Italia 27,5 31,2 76,6 44,3 7,6 1,5 21,1 30,5 25,7 0,9
Meridionale
Italia Insulare 27,3 32,0 78,4 43,5 7,2 1,2 21,4 32,9 27,7 1,1
Italia 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3
9
Rapporto sull’uso del cellulare in Italia MTAD
10
Rapporto sull’uso del cellulare in Italia MTAD
Tra le numerose funzioni aggiuntive disponibili attualmente sul telefono cellulare quella
maggiormente utilizzata resta l’invio e la ricezione di Sms che è utilizzata dal 36,7% delle
persone che usano il cellulare. Al secondo posto troviamo l’utilizzo della rubrica telefonica
(29,3%) seguita dall’utilizzo della fotocamera (18,0%). Il 17,3% dei fruitori del telefono
cellulare utilizza l’agenda diario e la sveglia mentre l’invio di Mms è solo al quinto posto
(13,6%). A seguire troviamo l’uso della calcolatrice (13,1%), il controllo dei consumi
(12,8%) e l’uso di suonerie polifoniche e/o loghi (10,3%). Le funzioni più avanzate sono
ancora utilizzate da un’esigua minoranza di utenti: l’accesso ad Internet tramite cellulare è
usato dal 2,9 % degli utenti e ancora meno sono coloro i quali usano l’e-mail (2,2%),
utilizzano software istallati dall’utente (1,3%) o usano il cellulare per acquisti o
consultazioni di servizi finanziari (0,2%) (Prospetto 3).
Le funzioni utilizzate sono influenzate principalmente dall’età. Il quadro cambia
completamente se si considerano i giovani fruitori che sono utilizzatori onnivori di tutte le
funzioni contenute nei cellulari. In particolare, per i bambini dai 6 ai 10 anni la funzione
più utilizzata è giocare con i videogiochi (38,1%) seguita dall’invio e ricezione di Sms
(29,6%) e dalla fotocamera (19,2%). Tra i ragazzi tra gli 11 e i 14 anni, invece, la funzione
principale diventa l’invio e ricezione di Sms (70,1%), seguito dall’uso della rubrica
telefonica (47,9%), dai videogiochi (47,8%) e dalla fotocamera (43,6%). Tra i 15-17enni
oltre alle funzioni utilizzate dai più giovani assume rilevanza anche l’invio e ricezione di
Mms (47,4%) e l’utilizzo di suonerie polifoniche e loghi (40,4%). Infine tra le persone dai
20 ai 24 anni diventano rilevanti anche funzioni pratiche come l’uso della rubrica
telefonica (55,7%) e l’agenda diario e la sveglia (41,9%). L’utilizzo delle funzioni aggiuntive
decresce rapidamente al crescere dell’età ed è tanto più raro quanto più la funzione è
complessa. Ad esempio l’invio e ricezione di Sms che è utilizzata da oltre il 70% degli utenti
fino ai 24 anni scende al 36,2% già tra le persone dai 35 ai 44 anni (Prospetto 3).
11
Rapporto sull’uso del cellulare in Italia MTAD
Prospetto 3 - Persone di 6 anni e più che usano il cellulare per classe di età e
funzioni utilizzate - Anno 2006 (per100 persone di 6 anni e più che usano il cellulare
con le stesse caratteristiche)
FUNZIONI UTILIZZATE 6-10 11-14 15-17 18-19 20-24 25-34 35-44 45-54 55-59 60-64 65-74 75 e Totale
più
La segreteria 3,6 10,5 13,7 14,6 15,7 14,6 10,8 8,4 5,6 3,7 1,7 0,9 9,6
telefonica
Il controllo dei 6,0 20,7 23,9 26,6 27,4 19,5 12,2 7,5 5,9 4,8 2,3 0,8 12,8
consumi
La rubrica telefonica 17,7 47,9 59,9 62,9 55,7 42,5 29,3 19,3 14,2 8,9 5,0 3,0 29,3
Invio e ricezione di 29,6 70,1 80,0 78,8 71,8 52,8 36,2 22,7 15,1 10,2 5,3 1,9 36,7
SMS
Invio e ricezione di 8,7 33,3 47,4 44,8 36,5 21,0 9,0 3,7 2,0 1,1 0,3 0,2 13,6
MMS
L’agenda-diario, 15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
promemoria, sveglia
Suonerie polifoniche, 15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3
loghi
Inviare e ricevere 0,7 3,6 4,6 6,5 4,1 3,6 2,5 1,2 0,6 0,1 0,4 - 2,2
email
Accesso ad Internet, 1,7 7,5 9,5 9,9 6,0 4,5 2,3 1,0 0,3 0,1 0,1 0,1 2,9
WAP
Acquisti, consultazioni 0,2 0,4 0,2 0,4 0,2 0,3 0,2 0,1 0,1 - 0,1 - 0,2
servizi finanziari e
Ascoltare musica, 6,0 22,1 22,7 18,6 11,3 5,0 2,5 0,7 0,3 0,0 0,1 - 5,1
lettore MP3, radio
Fotocamera 19,2 43,6 56,6 53,1 43,4 26,5 13,5 6,5 3,6 2,6 1,0 0,1 18,0
Giocare con i 38,1 47,8 37,3 31,8 19,6 8,6 4,3 1,0 0,5 0,0 0,1 - 9,0
videogiochi
Videofonia 2,8 10,5 11,3 9,9 7,8 4,9 2,4 0,9 0,4 03, 0,3 0,1 3,3
Capacità video 4,2 16,6 26,2 24,8 16,5 7,7 3,0 1,3 0,8 0,2 0,2 0,1 5,9
Connettività 2,0 12,20 22,2 21,6 14,5 8,0 3,9 1,9 0,6 0,2 0,3 - 5,7
aggiuntiva
Utilizzare software 0,5 2,7 4,5 5,9 2,8 1,8 1,0 0,4 0,1 0,1 - 0,0 1,3
installati dall’utente
Calcolatrice 10,4 33,0 38,9 35,0 31,1 19,5 10,7 5,1 2,9 1,5 0,5 - 13,1
Altro 0,5 1,1 0,9 0,9 0,8 0,8 0,3 0,1 0,3 0,1 0,2 0,6 0,5
12
Rapporto sull’uso del cellulare in Italia MTAD
13
Rapporto sull’uso del cellulare in Italia MTAD
Analisi visuale
Dopo avere svolto una prima analisi, vogliamo eseguire un secondo procedimento, l’analisi
visuale, con la quale andremo ad esaminare in maniera più dettagliata i dati riguardanti la
“Frequenza d’uso” ed i “Motivi di utilizzo” per quanto riguarda le aree geografiche del
nostro paese; ossia la zona Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed
Insulare. Questa operazione viene svolta mediante l’utilizzo del software R, grazie al
comando plot si è proceduto alla creazione dei grafici a bastoncino, tanti quante sono le
variabili rappresentanti un particolare aspetto. Sull’asse delle ascisse vengono riportate le
zone, mentre sull’asse delle ordinate vengono riportate le percentuali. Questi grafici ci
consentiranno di capire meglio, per ogni tipo di frequenza e motivo di utilizzo, qual è la
zona del nostro paese, maggiormente interessata.
14
Rapporto sull’uso del cellulare in Italia MTAD
15
Rapporto sull’uso del cellulare in Italia MTAD
16
Rapporto sull’uso del cellulare in Italia MTAD
Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare ogni
giorno.
Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare, una o più volte a settimana.
Gli utenti della zona Nord-Occidentale, sono quelli che usano maggiormente il
qualche volta al mese.
Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare, qualche volta all’anno.
Gli utenti della zona Nord-Orientale sono, quelli che usano maggiormente il
cellulare per lavoro.
Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per
sentirsi liberi.
Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per
sentire i familiari.
Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare
per sentire gli amici.
Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare
per essere rintracciabili.
Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per
motivi di Salute.
Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per
sentirsi più sicuri.
Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare per eventuali imprevisti.
Gli utenti della zona Nord (Orientale e Occidentale), sono quelli che usano
maggiormente il cellulare per comodità.
Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il
cellulare per altri motivi.
17
Rapporto sull’uso del cellulare in Italia MTAD
Grazie al comando pie() del programma R sono stati creati dei grafici a torta per
evidenziare meglio quanto detto e rilevato dai precedenti grafici a bastoncino.
18
Rapporto sull’uso del cellulare in Italia MTAD
19
Rapporto sull’uso del cellulare in Italia MTAD
20
Rapporto sull’uso del cellulare in Italia MTAD
Analisi Descrittiva
quartili che sono indici di posizione che si ottengono dividendo l’insieme dei
dati ordinati in quattro parti uguali: il primo quartile Q1 è un valore tale che il 25%
dei dati ordinati è minore o uguale di Q1,il secondo quartile Q2 è un valore tale che
il 50% dei dati ordinati minore o uguale di Q2, Q2 coincide con la mediana,il terzo
quartile Q3 è un valore tale che il 75% dei dati ordinati è minore o uguale a Q3.
21
Rapporto sull’uso del cellulare in Italia MTAD
*Nota. Media e Media sono statistiche utili, come detto, per descrivere i valori centrali dei
dati. La media utilizza tutti i dati ed è influenzata in modo sensibile da valori molto bassi o
alti. La mediana dipende solo da uno dei due valori centrali della distribuzione e non
risente dei dati estremi.
Per ogni variabile, verrà quindi determinato, il Minimo dei valori del campione in esame, il
primo Quartile, la Mediana, la Media, il terzo Quartile, e il Massimo dei valori del
campione in esame. Prima sull’insieme dei dati non divisi, e successivamente considerando
i dati delle zone suddivise in 5 gruppi (Nord-Occidentale, Nord-Orientale, Centrale,
Meridionale ed Insulare). Verrà quindi calcolata la Varianza e la Deviazione Standard. Il
ricavato verrà messo a confronto per trarre delle conclusioni rilevanti.
Si utilizzano le funzioni summary(v), var(v), sd(v) del linguaggio R, per ottenere quanto
espresso sopra.
Varianza: 23.397
Deviazione Standard: 4.837045
22
Rapporto sull’uso del cellulare in Italia MTAD
23
Rapporto sull’uso del cellulare in Italia MTAD
Analisi degli utenti che usano il cellulare una o più volte a settimana
Varianza: 8.525
Deviazione Standard: 2.91976
24
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 1.773
Deviazione Standard: 1.331540
25
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 0.543
Deviazione Standard: 0.7368853
26
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 5.692
Deviazione Standard: 2.385791
27
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 0.808
Deviazione Standard: 0.8988882
28
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 5.025
Deviazione Standard: 2.241651
29
Rapporto sull’uso del cellulare in Italia MTAD
Analisi degli utenti che usano il cellulare per sentire gli amici
Varianza: 3.803
Deviazione Standard: 1.950128
30
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 0.132
Deviazione Standard: 0.3633180
31
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 0.095
Deviazione Standard: 0.3082207
32
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 1.235
Deviazione Standard: 1.111306
33
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 9.068
Deviazione Standard: 3.011312
34
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 10.208
Deviazione Standard: 3.194996
35
Rapporto sull’uso del cellulare in Italia MTAD
Varianza: 0.093
Deviazione Standard: 0.304959
36
Rapporto sull’uso del cellulare in Italia MTAD
Nelle pagine seguenti viene illustrata l’analisi della correlazione fra le variabili in esame,
tale analisi ci porterà a dire qual è il legame che esiste (se esiste) fra coppie di due variabili
prese in considerazione.
Per verificare la dipendenza fra due variabili X e Y si procede nel disegnare il diagramma
di dispersione o scatterplot. Sull’asse delle ascisse si pongono i dati relativi a una delle
due variabili, su quello delle ordinate quelli relativi all’altra variabile e le singole
osservazioni si rappresentano con punti o cerchietti. Lo scatterplot evidenzia se i punti
sono sparsi senza regolarità oppure se esiste una qualche regolarità (variabili connesse
mediante relazione lineare).
Per avere una misura quantitativa della correlazione tra le variabili è stata considerata la
covarianza campionaria tra le due variabili X eY ,data dalla seguente formula:
Quando la Cxy > 0 si dice che le variabili sono correlate positivamente, se Cxy < 0 si dice
che le variabili sono correlate negativamente, se Cxy = 0 le variabili non sono correlate.
Per avere una misura quantitativa della correlazione tra le variabili è stato anche
considerato il coefficiente di correlazione campionario che è uguale al rapporto fra
la covarianza di X e Y e il prodotto degli scarti quadratici medi di X e di Y, ossia:
Analogamente, quando la rxy > 0 si dice che le variabili sono correlate positivamente, se
rxy < 0 si dice che le variabili sono correlate negativamente, se rxy = 0 le variabili non
sono correlate.
e in tal caso i punti dello scatterplot giacciono tutti su di una retta. Nello scatterplot inoltre
il segno di rxy indica la direzione della retta interpolante. È positivo se xi e yi tendono a
essere grandi e piccoli insieme, nel qual caso la retta interpolante punta verso l’alto. È
negativo invece se quando xi è grande e yi è piccolo e viceversa, nel qual caso la retta
interpolante punta verso il basso.
covarianze: cov(X,Y)
correlazioni: cor(X,Y)
in R gli scatterplot sono stati ottenuti con le seguenti linee di codice di esempio:
38
Rapporto sull’uso del cellulare in Italia MTAD
TTIG e QVSETT
Covarianza: -13.8375
Correlazione: -0.979784
TTIG e QVMESE
Covarianza: -6.2035
Correlazione: -0.9631686
TTIG e QVANNO
Covarianza: -3.086
Correlazione: -0.8657967
39
Rapporto sull’uso del cellulare in Italia MTAD
QVSETT e QVMESE
Covarianza: 3.4975
Correlazione: 0.8996139
QVSETT e QVANNO
Covarianza: 1.6375
Correlazione: 0.7610868
QVMESE e QVANNO
Covarianza: 0.8755
Correlazione: 0.8922815
40
Rapporto sull’uso del cellulare in Italia MTAD
LAVORO e LIBERTA’
Covarianza: 1.2165
Correlazione: 0.5672493
LAVORO e FAMIGLIA
Covarianza: -4.555
Correlazione: -0.8517025
LAVORO e AMICIZIA
Covarianza: -2.0085
Correlazione: -0.4316942
41
Rapporto sull’uso del cellulare in Italia MTAD
LAVORO e RINTRACCIABILITA’
Covarianza: -0.722
Correlazione: -0.8329478
LAVORO e SALUTE
Covarianza: 0.29
Correlazione: 0.3943699
LAVORO e SICUREZZA
Covarianza: -2.3225
Correlazione: -0.8759711
42
Rapporto sull’uso del cellulare in Italia MTAD
LAVORO e IMPREVISTI
Covarianza: 6.226
Correlazione: 0.8666045
LAVORO e COMODITA’
Covarianza: 5.909
Correlazione: 0.7751954
LAVORO e ALTRO
Covarianza: 0.5965
Correlazione: 0.819854
43
Rapporto sull’uso del cellulare in Italia MTAD
LIBERTA’ e FAMIGLIA
Covarianza: -0.245
Correlazione: -0.1215885
LIBERTA’ e AMICIZIA
Covarianza: -0.722
Correlazione: -0.4118778
LIBERTA’ e RINTRACCIABILITA’
Covarianza: -0.119
Correlazione: -0.3643798
44
Rapporto sull’uso del cellulare in Italia MTAD
LIBERTA’ e SALUTE
Covarianza: 0.205
Correlazione: 0.7399227
LIBERTA’ e SICUREZZA
Covarianza: -0.42
Correlazione: -0.4204459
LIBERTA’ e IMPREVISTI
Covarianza: 1.042
Correlazione: 0.3849517
45
Rapporto sull’uso del cellulare in Italia MTAD
LIBERTA’ e COMODITA’
Covarianza: 0.973
Correlazione: 0.3387949
LIBERTA’ e ALTRO
Covarianza: 0.058
Correlazione: 0.2115830
FAMIGLIA e AMICIZIA
Covarianza: 2.225
Correlazione: 0.5089778
46
Rapporto sull’uso del cellulare in Italia MTAD
FAMIGLIA e RINTRACCIABILITA’
Covarianza: 0.55
Correlazione: 0.675317
FAMIGLIA e SALUTE
Covarianza: -0.0425
Correlazione: -0.06151189
FAMIGLIA e SICUREZZA
Covarianza: 2.2875
Correlazione: 0.9182472
47
Rapporto sull’uso del cellulare in Italia MTAD
FAMIGLIA e IMPREVISTI
Covarianza: -5.64
Correlazione: -0.835517
FAMIGLIA e COMODITA’
Covarianza: -5.94
Correlazione: -0.8293695
FAMIGLIA e ALTRO
Covarianza: -0.59
Correlazione: -0.863063
48
Rapporto sull’uso del cellulare in Italia MTAD
AMICIZIA e RINTRACCIABILITA’
Covarianza: 0.161
Correlazione: 0.2272353
AMICIZIA e SALUTE
Covarianza: -0.0375
Correlazione: -0.06238875
AMICIZIA e SICUREZZA
Covarianza: 1.6675
Correlazione: 0.7694302
49
Rapporto sull’uso del cellulare in Italia MTAD
AMICIZIA e IMPREVISTI
Covarianza: -3.668
Correlazione: -0.6246121
AMICIZIA e COMODITA’
Covarianza: -4.987
Correlazione: -0.8003978
AMICIZIA e ALTRO
Covarianza: -0.322
Correlazione: -0.5414411
50
Rapporto sull’uso del cellulare in Italia MTAD
RINTRACCIABILITA’ e SALUTE
Covarianza: 0.005
Correlazione: 0.04464998
RINTRACCIABILITA’ e SICUREZZA
Covarianza: 0.26
Correlazione: 0.6439511
RINTRACCIABILITA’ e IMPREVISTI
Covarianza: -0.976
Correlazione: -0.8920868
51
Rapporto sull’uso del cellulare in Italia MTAD
RINTRACCIABILITA’ e COMODITA’
Covarianza: -0.854
Correlazione: -0.7356997
RINTRACCIABILITA’ e ALTRO
Covarianza: -0.099
Correlazione: -0.8935251
SALUTE e SICUREZZA
Covarianza: -0.0725
Correlazione: -0.2116619
52
Rapporto sull’uso del cellulare in Italia MTAD
SALUTE e IMPREVISTI
Covarianza: -0.045
Correlazione: -0.04848361
SALUTE e COMODITA’
Covarianza: -0.085
Correlazione: -0.0863151
SALUTE e ALTRO
Covarianza: -0.0175
Correlazione: -0.1861807
53
Rapporto sull’uso del cellulare in Italia MTAD
SICUREZZA e IMPREVISTI
Covarianza: -2.975
Correlazione: -0.8889918
SICUREZZA e COMODITA’
Covarianza: -3.3
Correlazione: -0.929416
SICUREZZA e ALTRO
Covarianza: -0.2875
Correlazione: -0.8483262
54
Rapporto sull’uso del cellulare in Italia MTAD
IMPREVISTI e COMODITA’
Covarianza: 9.252
Correlazione: 0.9616334
IMPREVISTI e ALTRO
Covarianza: 0.902
Correlazione: 0.9822212
COMODITA’ e ALTRO
Covarianza: 0.913
Correlazione: 0.9370418
55
Rapporto sull’uso del cellulare in Italia MTAD
Analisi Cluster
Quella che verrà mostrata nelle pagine seguenti è l’analisi dei cluster. Si tratta di una
metodologia che permette di raggruppare in sottoinsiemi, detti cluster, entità (unità)
appartenenti a un insieme più ampio. I metodi attraverso cui ottenere tale analisi hanno lo
scopo di ottenere raggruppamenti in base alla somiglianza, in modo che gli elementi di
uno stesso gruppo siano tra loro il più possibile simili e gli elementi
appartenenti a gruppi distinti siano tra loro il più possibile diversi. Si vuole
distribuire le osservazioni in gruppi, tale che il grado di associazione sia alto tra i membri
dello stesso gruppo e basso tra i membri di gruppi diversi. Alta omogeneità all’interno dei
gruppi e alta eterogeneità tra gruppi distinti.
Problema: individuare m cluster di unità I con I=(I1..I2..In) tali che Ii appartenga solo a un
unico sottoinsieme.
Le unità assegnate allo stesso cluster sono dette simili, le unità che sono assegnate a
differenti cluster sono dette dissimili.
La somiglianza viene definita tramite una misura di distanza tra due unità, con d>=0.
Un criterio per risolvere il problema di clustering potrebbe essere quello di assegnare due
unità (o individui) allo stesso cluster se la distanza tra due unità Xi e Yi è piccola, e a
differenti cluster se la distanza è grande.
In R è possibile fare ciò attraverso la funzione scale (X, center=TRUE, scale=TRUE) dove
X è una matrice numerica, center e scale a TRUE attuano la standardizzazione. Dopo lo
scalamento si ottiene una matrice con dati standardizzati Z.
Es. Z<-scale(X)
56
Rapporto sull’uso del cellulare in Italia MTAD
Metodi gerarchici
Molti metodi di analisi gerarchica sono caratterizzati da una struttura comune che si
riflette in un algoritmo generale esplicitato come segue:
• Passo 1: A partire dalla matrice X originaria dei dati o dalla matrice scalata, si
considera la matrice delle distanze D (o di similarità S) tra gli elementi considerati
come singoli cluster contenenti un solo elemento.
• Passo 2: Si individuare la coppia di cluster meno distanti (o più somiglianti) e si
raggruppano in un unico cluster; si calcola la distanza (o similarità) di questo
cluster originato dall’agglomerazione di tutti gli altri gruppi già esistenti.
• Passo 3: Si costruire una nuova matrice di distanza (o di similarità) che risulterà
essere ridotta di una riga e di una colonna rispetto a quella che precedente.
• Passo 4: Si lavora sulla matrice ottenuta, rieseguendo i passi 2 e 3 fino a esaurire
tutte le possibilità di raggruppamento. Si ottiene una matrice 2x2. Ciò richiede n-1
iterazioni.
• Passo 5: Si rappresenta graficamente il processo di agglomerazione con un
dendrogramma (asse ordinate i livelli di distanza, ascisse riportano le unità).
hclust (d,method=”complete”)
Infatti ogni metodo gerarchico agglomerativo si differenzia dagli altri per il modo in cui si
individuano i due cluster meno distanti (o più somiglianti) e per il modo in cui si
determina la distanza (o similarità) che intercorre tra il cluster ottenuto e i rimanenti.
57
Rapporto sull’uso del cellulare in Italia MTAD
plot(z,labels=NULL,hang=0.1,main=”Dendrogramma”,sub=”NULL”,xlab=NULL)
labels: etichette;
58
Rapporto sull’uso del cellulare in Italia MTAD
Tale metodo assume come distanza tra i gruppi G1 e G2, la minima distanza tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.
La caratteristica principale del metodo descritto è la monotonia: la tipologia dei gruppi non
cambia per qualsiasi trasformazione di d(ij).
Inoltre esso conduce alla formazione di clusters concatenati a causa dell’assenza di nuclei
intorno ai quali tali clusters si sviluppano.
Tale metodo assume come distanza tra i gruppi G1 e G2, la massima distanza tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.
Esso tende a produrre cluster senza alcun effetto di concatenamento. Come il metodo del
legame semplice, anche il metodo del legame composto è invariante rispetto a
trasformazioni monotone della distanza.
Tale metodo assume come distanza tra i gruppi G1 e G2, la distanza media tra coppie di
elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2. L’algoritmo quindi è simile a
quello descritto precedentemente tranne che nella diversa definizione della distanza.
d(Gi, Gj)
∑ є ∑ є
,
59
Rapporto sull’uso del cellulare in Italia MTAD
Anche in questo caso si utilizza un algoritmo a stadi simile a quello visto precedentemente.
Partendo da una matrice di distanze D, ad ogni stadio si fondono i gruppi più vicini; in
questo caso si assume come distanza tra i gruppi qulla tra i loro centroidi (centri di
gravità). Se per esempio ad un certo punto si hanno due cluster Gi e Gj contenenti
rispettivamente ni e nj osservazioni, la distanza tra Gi e Gj è definita come:
d(Gi,Gj)= d(
,
)
avendo posto
= ∑ є
e
= ∑ є
In questo caso è come se ogni volta che si forma un gruppo esso fosse sostituito dal suo
centroide.
È simile a quello del centroide, con la differenza che la procedura è indipendente dalla
numerosità dei cluster. Infatti, quando due gruppi si aggregano, il nuovo centroide è
calcolato con la semisomma dei due centroidi precedenti. Il metodo della mediana così
come il metodo del legame singolo può dare origine alla formazione di una catena tra gli
elementi.
Come aiuto alla rappresentazione grafica del dendrogramma, sono state utilizzate oltre
ovviamente a plot, ulteriori funzioni:
che permette di costruire l’asse delle altezze alla destra del grafico arrotondando i numeri
alla prima cifra decimale.
rect.hclust ()
che contiene numeri associati ai cluster in cui sono state inserite le varie unità (o
individui).
Esecuzione
La prova pratica di esecuzione consiste nel cercare di raggruppare in cluster le zone che
hanno molte somiglianze tra loro, e si confronteranno i risultati ottenuti dall’applicazione
dei differenti metodi gerarchici agglomerativi. Il confronto lo si effettua analizzando i
risultati attraverso i vari dendrogrammi creati, ciascuno per ogni metodo gerarchico
agglomerativo. Un aiuto nel confronto è dato dall’evidenziazione, nei grafici, attraverso
rettangoli colorati, di un certo numero di gruppi.
Verrà mostrato per ogni metodo applicato, anche l’output della corrispondente funzione
cutree, la quale conterrà i numeri interi positivi associati ai cluster in cui sono state inserite
le varie unità (in pratica si vedrà in quali cluster sono state inserite le varie nazioni). Con
tale output vengono mostrati i risultati numerici osservabili dai dendrogrammi.
Scelto k=3 come parametro per la funzione rect.hclust(), vengono evidenziati tre gruppi
contenenti ciascuno un certo numero di zone.
61
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
62
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
63
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
64
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
65
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
66
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
67
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
68
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
69
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
70
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
71
Rapporto sull’uso del cellulare in Italia MTAD
L’obiettivo dei metodi non gerarchici è quello di ripartire le n unità, in k cluster, ottenendo
un'unica partizione finale. Con tali tecniche è possibile riallocare gli individui già
classificati ad un livello precedente dell’analisi. In alcuni metodi non gerarchici di
clustering si assume che il numero di cluster in cui suddividere l’insieme delle n unità sia
fissato a priori, in altri si determina nel corso dell’analisi.
Il metodo non gerarchico utilizzato nella nostra analisi è il metodo di k-means, che
consiste nei passi descritti nel seguente algoritmo:
Per garantire la convergenza della procedura iterativa, come misura di distanza tra i vettori
delle caratteristiche e i centroidi viene utilizzata la distanza euclidea.
Esecuzione
Si è presa la configurazione ottenuta con una tecnica gerarchica, si sono dati all’algoritmo i
campi per l’esecuzione, si elimina la prima colonna della matrice dei centroidi ottenuta con
la funzione aggregate(), usando tali centroidi si applica il metodo k-means, il quale effettua
una serie di iterazioni di controllo, vengono poi visualizzati i risultati ottenuti, e infine
vengono rappresentati graficamente i cluster generati tramite k-means. Questo
procedimento viene ripetuto per ogni configurazione ottenuta durante l’analisi attraverso i
metodi gerarchici del precedente paragrafo, configurazioni che rappresentano le partizioni
iniziali da dare in input, per l’applicazione poi di k-means.
72
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
73
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
74
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
75
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
76
Rapporto sull’uso del cellulare in Italia MTAD
(Frequenza d’uso)
Risultati numerici
77
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
78
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
79
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
80
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
81
Rapporto sull’uso del cellulare in Italia MTAD
(Motivi d’uso)
Risultati numerici
82
Rapporto sull’uso del cellulare in Italia MTAD
Conclusioni
Da quanto si è potuto evincere dall’analisi dei risultati dei metodi gerarchici è possibile
notare come la struttura dei gruppi è quasi la stessa, infatti, la funzione rect.hclust(), mette
in evidenza 3 gruppi contenente ciascuno sempre le stesse zone. Da questa analisi vediamo
che la divisione geografica è netta anche per quanto riguarda questo “Rapporto sull’uso del
cellulare in Italia” con una netta differenza tra Nord, Centro, e Sud (isole comprese), i
cluster creati rappresentano appunto questa suddivisione, il primo che raggruppa la zona
Meridionale e Insulare, il secondo, la zona Centrale, ed il terzo la zona Nord-Occidentale e
Nord-Orientale. E’ da notare che il cluster della zona Centrale è molto vicino a quello della
zona Nord, anziché a quello della zona sud.
Da quanto si è potuto evincere dall’analisi dei risultati del metodo non gerarchico k-means,
applicato per ogni configurazione gerarchica iniziale data in input come partizione iniziale,
si ottengono gli stessi gruppi ottenuti nell’analisi gerarchica.
83