Sei sulla pagina 1di 53

Introduzione alla Statistica

E. Di Nardo, a.a. 15/16 1


Che cosa è la Statistica?
La statistica indaga su fenomeni collettivi, ossia
fenomeni che coinvolgono un insieme di individui,
oggetti, beni. Tale indagine è condotta
raccogliendo informazioni relative a tali collettivi
e traducendo tali informazioni in un modello
numerico che possa essere analizzato
semplicemente. Popolazione = il collettivo preso in esame

Unità statistica = il singolo elemento della popolazione


E. Di Nardo, a.a. 15/16 2
Che cosa è una variabile statistica?
Una variabile statistica è una caratteristica oggetto di indagine.

Esempio:

E. Di Nardo, a.a. 15/16 3


Tipologie di analisi statistiche

Insieme di tecniche per organizzare,


riassumere e presentare i dati.

Ma non si tratta solo di grafici….

ESEMPI:
o Il 2% delle lavatrici vendute da un negozio X presenta difetti di funzionamento.

o In questa classe, il voto medio è 25/30.

o Lo studente più anziano in questa classe ha 27 anni.

o Tra le adolescenti il colore maggiormente diffuso degli abiti è il nero.

E. Di Nardo, a.a. 15/16 4


Insieme di tecniche che consentono di generalizzare all’intera popolazione
e con un certo margine di errore i risultati ottenuti da un sottoinsieme della
popolazione, detto campione.

Esempio: Se in questa classe l’altezza media è 172cm, è possibile asserire che 172 cm
è l’altezza media della popolazione costituita dagli studenti UNIBAS?
Qualora la risposta fosse positiva, sono sicuro al 100% della validità di questa asserzione?
E. Di Nardo, a.a. 15/16 5
Esempi: A) Se gli studenti in questa classe si disponessero per altezza, come i signori di
questa fotografia, potremmo «proiettare» il profilo di questa curva su tutta la popolazione
di studenti UNIBAS?

B) Petrolio si o petrolio no?

E. Di Nardo, a.a. 15/16 6


Classificazione delle variabili statistiche

Variabili qualitative (o mutabili statistiche) : i valori


assunti sono non-numerici.
Esempi: il colore degli occhi; la nazionalità; lo stato civile;
l’affidabilità; l’attitudine ai lavori manuali; fasce di reddito…
Variabili (quantitative): i valori assunti sono numeri.
Esempi: la statura; il peso; il numero di stanze di un appartamento;
il numero di figli… Sconnessi
(Nominali)
Qualitative Modalità
Ordinali

Valori Discreti
Classi di
Modalità
Continui
Quantitative

E. Di Nardo, a.a. 15/16 Modalità Discreti 7


*Elaborata dallo psicofisico
Stanley Smith Stevens Scala Nominale
(1946)

I dati sono organizzati in categorie e non possono essere ordinati.

1. Indicare il genere Questo è un primo esempio di


Maschio RILEVAZIONE DEI DATI
Femmina Mutuamente esclusive

2. Quale è il colore dei tuoi capelli? Schede


Castani Questionari
Neri Interviste (anche telefoniche)
Biondi Esaustive Exit Poll
Bianchi
Non so Tipo

3. Dove abiti? Totale (censimento)


Centro città Parziale (campionaria)
Periferia città Occasionale (sondaggi)
Contrade Periodica

E. Di Nardo, a.a. 15/16 8


Scala Ordinale
I dati sono organizzati in categorie che possiedono un criterio di
ordinamento.

1. Il tuo giudizio all’esame di III media è stato:


Sufficiente
Distinto
Buono
Ogni categoria esprime un rango Ottimo
(ossia una posizione) Eccellente

La distanza tra ranghi non 2. A quale fascia ISEE appartieni?


necessariamente è quantificabile I (0-4.500,01)
II (4.500,01-7.000)
Non sono possibili operazioni III (7.000,01-12.000)
numeriche tra ranghi, ma solo IV (12.000,01-18.000)
confronti (relazioni di ordine) …
Non sono in fascia ISEE

E. Di Nardo, a.a. 15/16 9


L’istituto nazionale di statistica
(ISTAT: http://www.istat.it/it/ )
mette a disposizione banche
dati sulle indagini effettuate
sul territorio nazionale.

E. Di Nardo, a.a. 15/16 10


Scala Intervallare

La distanza tra ranghi non La distanza tra ranghi è quantificabile


necessariamente è quantificabile rispetto ad un intervallo preso come unità
di misura.

Scale che misurano la stessa grandezza


0 Celsius = 32 Fahrenheit ma con unità di misura diverse possono
associare allo stesso oggetto più numeri.

La temperatura

Nei test psicoattidunali non necessariamente Operazioni di


lo zero corrisponde a nessuna attitudine. Standardizzazione

E. Di Nardo, a.a. 15/16 11


Scala Rapporto
Per questo tipo di misure, lo zero non è arbitrario e corrisponde all’elemento di
intensità nulla (assenza di proprietà) rispetto all’unità misurata.

L’altezza

Il peso

La velocità
Il tempo

E. Di Nardo, a.a. 15/16 12


Come rappresentare i dati?
Il modo più semplice ed immediato per rappresentare i dati è costituito da tabelle.

Colore capelli N° persone


carattere (carattere) (frequenza assoluta)

Neri 10
Castani Frequenze
6 assolute
modalità Rossi 1
biondi 5
totale 22

La frequenza assoluta indica quante volte la MODALITÀ di un carattere


si ripete
Creare tabelle in R
E’ possibile verificare quale sia
tale directory digitando dal
prompt di R:
>getwd()

Il percorso completo va specificato con il comando > setwd(..)

Per leggere i dati nel file ed assegnarli a una variabile in R


> dati<-read.table('datasetcapelli.txt',header=TRUE)

Per rendere disponibili i dati nel workspace > attach(dati)


> head(dati)
Capelli
1 Neri
2 Castani Per visionare la parte iniziale del vettore contenente i dati
3 Biondi
4 Neri
5 Biondi
6 Rossi
E. Di Nardo, a.a. 15/16 14
Per contare le occorrenze delle modalità nel vettore dati, il comando è
table(). Il parametro di input è la variabile dati.

> obj<-table(dati)
> obj
dati Colore capelli N° persone
Biondi Castani Neri Rossi (carattere) (frequenza assoluta)
5 6 10 1
> summary(obj) Neri
Number of cases in table: 22
10
Number of factors: 1 Castani 6
Rossi 1
Per avere la tabella iniziale:
biondi 5
> data<-data.frame(obj)
> data totale 22
dati Freq
1 Biondi 5
2 Castani 6
3 Neri 10
4 Rossi 1

E. Di Nardo, a.a. 15/16 15


Come rappresentare i dati?

Seriazione statistica: Carattere quantitativo


Con classi di modalità

Frequenza assoluta: numero di Peso (in grammi) # neonati


volte in cui si verifica la modalità i 1.800-2.200 10
2.200-2.600 32
# stanze # appartamenti
2.600-3.000 120
1 300
3.000-3.400 254
2 500
3.400-3.800 134
3 2.000
3.800-4.200 40
4 3.000
4.200-4.600 10
5 150
6 100
7 300
Con modalità
E. Di Nardo, a.a. 15/16 16
Dalle modalità alle classi di modalità
In caso di modalità numerose, è preferibile una rappresentazione in classi di
modalità.

Peso (kg) Freq.Assoluta


52 1
54 1 Classi di Modalità Freq.Assoluta
55 2 [50;60) 4
61 1 [60;70) 7
63 1 [70;80) 4
68 2 Totale 15
69 3
71 1
73 1
75 1
76 1
Totale 15
E. Di Nardo, a.a. 15/16 17
Dai dati alle classi di modalità
Per ripartire i dati nelle classi di modalità usiamo il comando cut()
1. Definizione un vettore contenente i dati

> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)


> length(peso)
[1] 15
> data[1]
2. Definizione di un vettore contenente gli estremi
pesotab
> limiti<-c(50,60,70,80) 1 (50,60]
2 (60,70]
3. Ripartizione dei dati nelle classi 3 (70,80]
> data[2]
> pesotab<-factor(cut(peso,breaks=limiti)) Freq
> obj1<-table(pesotab) 14
> obj1 27
pesotab 34
(50,60] (60,70] (70,80]
4 7 4
E. Di Nardo, a.a. 15/16 18
Come rappresentare i dati?

Serie statistica: Carattere qualitativo ANNO VENDITE AUTO


1996 10.000
TITOLO DI N.PERSONE 1997 15.000
N.PERSONE
STUDIO 2
1998 20.000
lic.elementare 2.000 3.000
1999 18.000
lic. Media 6.000 4.000
2000 17.000
diploma 10.000 7.000
2001 22.000
laurea 2.000 11.000 2002 23.000
2003 10.000

Serie storica: variabile quantitativa


La frequenza assoluta non consente di rilevata per modalità temporale.
confrontare due insiemi di dati anche
se si riferiscono alla stessa specie, Taglia: è il numero di unità statistiche
poiché il numero di casi complessivo è esaminate
diverso.
Frequenza relativa

E. Di Nardo, a.a. 15/16 19


La frequenza relativa di una certa modalità è data dal rapporto tra la
frequenza assoluta di tale modalità ed il numero totale dei casi. Quando
moltiplicate per 100 si dicono percentuali.
Consideriamo i dati presenti nella seguente tabella
Colore capelli frequenze
Calcolo FREQUENZE RELATIVE
(carattere) assolute
neri 10 10 6
×100 = 45,45 ×100 = 27,27
castani 6 22 22
rossi 1
biondi 5 1 5
×100 = 4,54 ×100 = 22,72
TOTALE 22 22
22
Colore frequenze frequenze
capelli assolute relative %
neri 10 45,46
castani 6 27,27
rossi 1 4,55
biondi 5 22,72
TOTALE 22 100
E. Di Nardo, a.a. 15/16 20
> data<-data.frame(obj) > data<-data.frame(round(prop.table(obj)*100,2))
> data > data
dati Freq dati Freq
1 Biondi 5 1 Biondi 22.73
2 Castani 6 2 Castani 27.27
3 Neri 10 3 Neri 45.45
4 Rossi 1 4 Rossi 4.55

Colore frequenze frequenze


capelli assolute relative %
neri 10 45,46
castani 6 27,27
rossi 1 4,55
biondi 5 22,72
TOTALE 22 100

E. Di Nardo, a.a. 15/16 21


# stanze # appartamenti Freq.rel Perc.
1 300 300/6350=0,047 0,047*100=4,7%
2 500 500/6350=0,079 7,9%
3 2.000 0,315 31,5%
4 3.000 0,472 47,2%
5 150 0,024 2,4%
6 100 0,016 1,6%
7 300 0,047 4,7%
300+500+2000+3000+150+100+300= 6350 (taglia)
Peso (in grammi) # neonati Peso (in grammi) # neonati
1.800-2.200 10 10/600=0,017 1,7%
2.200-2.600 32 32/600=0,053 5,3% Completare
la tabella
2.600-3.000 120 0,2 20%
3.000-3.400 254 0,423 …
3.400-3.800 134 0,223 …
3.800-4.200 40 0,067 …
4.200-4.600 10 0,017 ..
E. Di Nardo, a.a. 15/16 22
Frequenze cumulate
Talvolta può essere utile calcolare anche la frequenza cumulata (percentuale o relativa)
# stanze # appartamenti %Relativa Freq.Cum. Freq.Cum.%
1 300 4,7% 0,047 4,7%
2 500 7,9% 0,126 12,6%
3 2.000 31,5% 0,441 44,1%
4 3.000 47,2% 0,913 91,3%
5 150 2,4% 0,937 93,7%
6 100 1,6% 0,953 95,3%
7 300 4,7% 1,000 100,0%
Come si leggono i risultati in tabella relativi alla freq. cumulata?
Il 12,6% degli intervistati ha appartamenti con un massimo di 2 stanze.
Il 31,5% degli intervistati ha appartamenti con 3 stanze.
Meno del 3% degli intervistati ha appartamenti con 5 stanze.
Che percentuale di intervistati ha appartamenti con 5 stanze o più?
Che percentuale di intervistati ha 3 o 4 stanze?

E. Di Nardo, a.a. 15/16 23


Per il data set Capelli, è possibile calcolare le frequenze cumulate?
Per il data set Peso, è possibile calcolare le frequenze cumulate?
> peso<-c(52,54,55,55,61,63,68,68,69,69,69,71,73,75, 76)
> length(peso)
[1] 15 > pesotab<-factor(cut(peso,breaks=limiti))
> obj1<-table(pesotab)
> limiti<-c(50,60,70,80) > obj1
pesotab
(50,60] (60,70] (70,80]
4 7 4
> data<-data.frame(round(prop.table(obj1)*100,2))
> data
pesotab Freq
> freqcum<-cumsum(data$Freq)
1 (50,60] 26.67
2 (60,70] 46.67 > datacum<-data.frame(data$pesotab, freqcum)
3 (70,80] 26.67 > datacum
data.pesotab freqcum
> data$Freq
[1] 26.67 46.67 26.67 1 (50,60] 26.67
> cumsum(data$Freq) 2 (60,70] 73.34
[1] 26.67 73.34 100.01 3 (70,80] 100.01
>
>
E. Di Nardo, a.a. 15/16 24
Rappresentazione dei dati

I dati raccolti in tabelle possono essere


rappresentati attraverso grafici che offrono il
vantaggio di una descrizione del fenomeno in
forma visiva.

E. Di Nardo, a.a. 15/16 25


Serve a rappresentare serie o seriazioni geografiche, ossia
Cartogramma quegli elementi costitutivi della popolazione che rappre-
sentano modalità geografiche.

Esempio di serie
statistica
(variabile: potenziale)

Modalità

E. Di Nardo, a.a. 15/16 26


Al sud siamo più bravi?

E. Di Nardo, a.a. 15/16 27


Istogrammi (diagramma a barre)

Veneto
Valle D'Aosta
Umbria
Trentino
Toscana
Sicilia
Sardegna
Puglia
Piemonte La Lombardia ha il
Molise
maggior numero di
Marche
Lombardia incidenti.
Liguria
Lazio
Friuli
Emilia Rom.
Campania
Calabria
Basilicata
Abbruzzo

0 10000 20000 30000 40000 50000 60000 70000 80000


E. Di Nardo, a.a. 15/16 28
Sul sito dell’ACI…

…aprendo il file…

E. Di Nardo, a.a. 15/16 29


Incidenti stradali anno 2009: Totale: Parco macchine 2009
Tasso: Incidenti regionali/Parco macchine regionale
Tasso %: Tasso per 100

Regione Incidenti Totale Tasso Tasso%


Abruzzo 7252 827.395 0,009 0,88
Basilicata 1726 344.575 0,005 0,50
La Lombardia detiene ancora
Calabria 6570 1.174.244 0,006 0,56 il primato?
Campania 21587 3.370.661 0,006 0,64
Emilia Rom. 38497 2.673.730 0,014 1,44 Impossibile v isualizzare l'immagine.

Friuli 8207 758.581 0,011 1,08


Lazio 53240 3.807.796 0,014 1,40
Liguria 17048 837.669 0,020 2,04
Lombardia 74672 5.739.731 0,013 1,30
Marche 12373 979.722 0,013 1,26
Molise 933 195.784 0,005 0,48
Piemonte 25341 2.780.528 0,009 0,91
Puglia 24377 2.237.119 0,011 1,09
Sardegna 8628 980.716 0,009 0,88
Sicilia 26528 3.071.508 0,009 0,86
Toscana 34380 2.352.930 0,015 1,46
Trentino 5097 558.423 0,009 0,91
Umbria 5680 599.935 0,009 0,95
Valle D'Aosta 642 140.470 0,005 0,46
Veneto 29396 2.912.984 0,010 1,01

E. Di Nardo, a.a. 15/16 30


Tasso%
Veneto
Valle D'Aosta
Umbria
Trentino
Toscana
Sicilia
Sardegna
Puglia
Piemonte
Molise
Marche
Lombardia
Liguria
Lazio
Friuli
Emilia Rom.
Campania
Calabria
Basilicata
Abbruzzo
0,00 0,50 1,00 1,50 2,00 2,50

E. Di Nardo, a.a. 15/16 31


E mettendo a confronto i due grafici…

Tasso%

Valle D'Aosta
Trentino
Sicilia
Puglia
Tasso
Molise
Tasso%
Lombardia
Lazio
Emilia Rom.
Calabria
Abbruzzo
0,00 0,50 1,00 1,50 2,00 2,50

Valle D'Aosta

Trentino

Sicilia

Frequenze assolute Puglia

Molise

Lombardia

Lazio

Emilia Rom.

Calabria

Abbruzzo
0 10000 20000 30000 40000 50000 60000 70000 80000
E. Di Nardo, a.a. 15/16 32
Diagrammi circolari (torte)

Un cerchio – che rappresenta tutto


il campione – viene diviso in spicchi.
L’area di ogni spicchio rappresenta
la frequenza relativa.

Finalità principale: Abitanti Torino (1999)


evitare ordinamenti anche nel 0 - 24 anni 25 - 44 anni 45 - 64 anni oltre 64 anni

caso di variabili quantitative. Esempio di seriazione


21% 20%
statistica

Esempio di serie statistica 28% 31%

Suddivisione per fasce di età degli abitanti di Torino

E. Di Nardo, a.a. 15/16 33


> B<-dati.frame$Freq
> percentlabels<- round(100*B/sum(B), 1)
> pielabels<- paste(percentlabels, "%", sep="")
> pie(B, main="Capelli", col=rainbow(4), labels=pielabels, cex=0.8)
> legend('topleft', c('Biondi','Castani','Neri','Rossi'), cex=0.8,
fill=rainbow(4))
> Capelli

Biondi
Castani
Neri
Rossi

28.6% 23.8%

Diagrammi circolari (torte) in R


4.8%

42.9%

E. Di Nardo, a.a. 15/16 34


Ideogrammi
Sono rappresentazioni mediante figure stilizzate che rappresentano il
fenomeno studiato.

Prod.zucche qt
Mary 10
Anne 20
Jo 40

E. Di Nardo, a.a. 15/16 35


Prod.zucche qt
Mary 10
Anne 20
Jo 40

Con questo diverso ideogramma l’impressione è diversa:

la prima zucca occupa uno spazio rettangolare xy (x è la base e y l’altezza),


la seconda zucca (con dimensioni raddoppiate) occupa uno spazio 4xy
la terza zucca (con dimensioni quadruplicate) uno spazio 16xy.

Il rapporto tra le produzioni di Mary ed Anne è di 1 a 4 (e non 1 a 2, come il rapporto


tra 10 e 20 correttamente indicherebbe), mentre il rapporto tra le produzioni di Mary
e Joe è addirittura pari ad 1 a 16 (piuttosto che 1 a 4).

Questo tipo di grafico non è molto utilizzato

E. Di Nardo, a.a. 15/16 36


Diagrammi cartesiani
Usati soprattutto per serie temporali, ossia per visualizzare un fenomeno nel tempo

ANNO VENDITE AUTO


1996 10.000
Produzione
1997 15.000 25000
1998 20.000
20000
1999 18.000
15000
2000 17.000
Produzione
2001 22.000 10000

2002 23.000 5000


2003 10.000
0
1996 1997 1998 1999 2000 2001 2002 2003

La linea continua è facoltativa.

E. Di Nardo, a.a. 15/16 37


Un esempio concreto di serie storica

30

Denominatore aggiornato con no. di aumenti di capitale, scissioni, fusioni


E. Di Nardo, a.a. 15/16 38
Utilità: facile lettura nei confronti.
Temperatura media a dicembre (linea blu).
Legenda del grafico: Temperatura media nazionale (linea scura)
Temperatura a dicembre (linea verde)

E. Di Nardo, a.a. 15/16 39


Diagrammi cartesiani
Per studiare il grado di dipendenza tra due insiemi di dati

Esempio: La tabella riporta il peso e l’altezza di 10 atleti.

Domanda: E’ possibile
ipotizzare che il peso e
l’altezza degli studenti siano
legati da una relazione lineare?

E. Di Nardo, a.a. 15/16 40


Diagrammi polari
Sono usati per particolari serie storiche con carattere di ciclicità.

Lunedì Martedì Mercoledì Giovedì Venerdì


50 40 30 40 50

assenze
lunedì
50
40
30
20
venerdì martedì
10
0
assenze

giovedì mercoledì

E. Di Nardo, a.a. 15/16 41


Istogrammi (diagramma a barre)
Città # disoccupati
per 100.000
Atlanta 7300 Disoccupati per 100.000
Boston 5400 10000
9000
Chicago 6700 8000
7000
Los Angeles 8900 6000
5000
New York 8200 4000
3000
Washington 8900 2000
1000
0
Disoccupati per 100.000 Atlanta Boston Chicago Los Angeles New York Washington

Freq.relative % 16%
20%
Atlanta
12% Boston Diagramma a torta
18% Chicago
15% Los Angeles
19% New York
Washington

E. Di Nardo, a.a. 15/16 42


Istogrammi per variabili quantitative
Esempio: Il Signor X è il preside di una certa scuola e vuole preparare un rapporto
sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona
pertanto un campione di 30 studenti e chiede a ciascuno di loro il numero di ore
trascorse a studiare.

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6;
12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8;
33,8; 23,2; 12,9; 27,1; 16,6

Costruire una rappresentazione grafica dei dati.


Ore
Un diagramma cartesiano non 40

sarebbe significativo. 35
30
25
20
Ore
15
10
5
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
E. Di Nardo; a.a. 15/16 43
Istogrammi usando R
Determinare il numero delle classi di modalità.
In tal caso taglia= 30: 30 5,47~6

> ore<-read.table(‘datasetore.txt',header=TRUE)
> attach(ore)
> head(ore)
ORE
1 15.0
2 23.7
3 19.7
4 15.4 > ore_frame<-data.frame(ore)
5 18.3
6 23.0
> ore_frame$ORE
[1] 15.0 23.7 19.7 15.4 18.3 23.0 14.2 20.8 13.5 20.7 17.4 18.6 12.9 20.3 13.7
[16] 21.4 18.3 29.8 17.1 18.9 10.3 26.1 15.7 14.0 17.8 33.8 23.2 12.9 27.1 16.6

> hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,main='ore di


studio',xlab='ore di studio')
E. Di Nardo, a.a. 15/16 44
ore di studio

0.073

0.06
0.053

0.047
0.04
Density

0.02
0.02

0.007
0.00

10 15 20 25 30 35

ore di studio
E. Di Nardo, a.a. 15/16 45
> str(objhist)
List of 6
$ breaks : num [1:6] 10 15 20 25 30 35
$ counts : int [1:5] 8 11 7 3 1
$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667
$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5
$ xname : chr "ore_frame$ORE"
$ equidist: logi TRUE
- attr(*, "class")= chr "histogram"

> sum(objhist$counts)
[1] 30
> sum(objhist$density)*5
[1] 1
La somma delle aree dei rettangoli è pari a

0.0533*5+0.07333*5+0.04667*5+0.02*5+0.00667*5

E. Di Nardo, a.a. 15/16 46


Istogramma delle densità
Criticità: Al decrescere del numero delle classi la frequenza relativa decresce.

ore di studio > str(objhist)


0.083 0.083
List of 6
$ breaks : num [1:13] 10 12 14 16 18 20 22 24
0.08

26 28 ...
0.067 0.067 0.067
$ counts : int [1:12] 1 5 4 4 5 4 3 0 2 1 ...
0.06

$ density : num [1:12] 0.0167 0.0833 0.0667


0.05 0.0667 0.0833 ...
$ mids : num [1:12] 11 13 15 17 19 21 23 25
Density

0.04

0.033 27 29 ...
$ xname : chr "ore_frame$ORE"
$ equidist: logi TRUE
0.02

0.017 0.017 0.017


- attr(*, "class")= chr "histogram"

0 0
0.00

10 15 20 25 30

ore di studio

Istogramma con 10 classi


47
E. Di Nardo, a.a. 15/16
La regola del pollice
Una linea guida o principio:
In una distribuzione di frequenza, le frequenze assolute
devono assumere un valore pari almeno a 5.

0,30

0,25

0,20

0,15

0,10

0,05

0,00

[10;10.5)
[11.5;12)
[13;13.5)
[14.5;15)
[16;16.5)
[17.5;18)
[19;19.5)
[20.5;21)
[22;22.5)
[23.5;24)
[25;25.5)
[26.5;27)
[28;28.5)
[29.5;30)
[31;31.5)
[32.5;33)
E. Di Nardo, a.a. 15/16 48
> lines(density(ore_frame$ORE),col='red',lwd=3)

ore di studio

0.073

0.06
0.053

0.04 0.047
Density

0.02
0.02

0.007
0.00

10 15 20 25 30 35

ore di studio

E. Di Nardo, a.a. 15/16 49


…E a proposito di confronti…
Il vantaggio principale nell’uso della densità
è la possibilità di confrontare insiemi di
dati diversi.

Esempio: Il Signor X vuole confontare i risultati ottenuti con quelli di un’altra scuola
ad indirizzo diverso. Gli vengono forniti i dati di un secondo campione di 26 studenti.

25,8; 23,2; 10,1; 24,2; 21,0; 22.3; 15,1; 22,4; 28,3; 25,7; 19,8; 21,4;
17,7; 19,3; 18,2; 21,5; 23,3; 24,3; 20,9; 27,0; 22,3; 20,9; 21,1; 25,1;
23,9; 21,1
ore di studio
E’ possibile confrontare
i due istogrammi?
0.073
0.06

0.053 a) Si riferiscono a taglie diverse


0.047
b) Le classi di modalità hanno
0.04

ampiezza diversa
Density

0.02
c) Gli assi sono diversi!
0.02

0.007
0.00

10 15 20 25 30 35

ore di studio
E. Di Nardo, a.a. 15/16 50
> objhist1<-hist(ore_frame$ORE,prob=TRUE, col='blue',labels=T,breaks=6,
main='Ore di studio I scuola',xlab='ore di studio',ylim=range(0,0.12))

> str(objhist1)
List of 6
Ore di studio I scuola
$ breaks : num [1:6] 10 15 20 25 30 35
$ counts : int [1:5] 8 11 7 3 1
0.12

$ density : num [1:5] 0.05333 0.07333 0.04667 0.02 0.00667


$ mids : num [1:5] 12.5 17.5 22.5 27.5 32.5
0.10

$ xname : chr "ore_frame$ORE"


$ equidist: logi TRUE
0.08

0.073
- attr(*, "class")= chr "histogram"
Density

0.06

0.053
0.047
Il modo corretto di confrontare
i due insiemi di dati è
0.04

a) costruire un istogramma delle densità


0.02 b) uniformare asse x e asse y.
0.02

0.007
0.00

10 15 20 25 30 35

ore di studio

E. Di Nardo, a.a. 15/16 51


> objhist1<-hist(ore_frame2$ORE2,prob=TRUE, col='blue',labels=T,breaks=6,
main='Ore di studio II scuola',xlab='ore di studio',ylim=range(0,0.12),
xlim=range(10,35))
>

Ore di studio II scuola


0.12

0.115
0.10
0.08

Cosa si deduce dal confronto dei grafici?


Density

0.06
0.04

0.038 0.038
0.02

0.008
0.00

10 15 20 25 30 35

ore di studio

E. Di Nardo, a.a. 15/16 52


…E allora «Ditelo con un grafico»…

Intervento disponibile su:


https://www.youtube.com/watch?v=Tm7HiCExFlw

E. Di Nardo, a.a. 15/16 53