Sei sulla pagina 1di 25

Lezione 3

Lezione 3

RAPPRESENTAZIONI GRAFICHE

In numerosi casi le informazioni contenute nelle distribuzioni di frequenza


vengono rappresentate mediante grafici, che hanno lo scopo di mettere in
evidenza le caratteristiche fondamentali dell’assetto distributivo di una variabile
e possono essere utilizzati sia nella fase preliminare di analisi dei dati, sia nella
fase finale di presentazione dei risultati ottenuti.

Questo perché i grafici sono facilmente comprensibili e non richiedono


conoscenze particolari: di conseguenza sono frequentemente utilizzati dai vari
mezzi di comunicazione.

Le forme che possono assumere i grafici sono molto diverse fra loro e variano a
seconda della natura della variabile considerata, nel senso che alcune
rappresentazioni grafiche sono idonee per certi tipi di variabile ma non per altri.

Il grafico a torta è usato specialmente per variabili qualitative. Qui di seguito ne è


riportato un esempio

Distribuzione degli occupati irregolari per settore (dati Istat, 2016)

1
Lezione 3

In questo caso le diverse “fette” della torta hanno un’ampiezza che dipende dalla
frequenza associata alle modalità. Questo tipo di rappresentazione è usata in
numerose circostanze ed è di facile facile costruzione con i più comuni software,
ma a mano libera è un po’ laboriosa.
Per questo motivo si esamineranno in dettaglio grafici diversi, descritti qui di
seguito, distinti a seconda del tipo di variabile.

2
Lezione 3

1) VARIABILI QUALITATIVE SCONNESSE


Per queste variabili si può usare un grafico a colonne (o grafico a barre)

Per la costruzione di un grafico a colonne (o a barre) si utilizza un sistema di assi


cartesiani: sulle ascisse si riportano, equispaziandole, le k modalità della variabile
e da quei punti si innalzano dei rettangoli (oppure parallelepipedi, cilindri, …) di
altezza proporzionale alla frequenza (assoluta o relativa) corrispondente.

Esempio
La seguente distribuzione riporta la distribuzione della materia meno gradita da
300 studenti di un liceo classico

Materia Frequenza assoluta


Educazione fisica 10
Geografia 65
Storia 45
Inglese 78
Italiano 22
Matematica 80
300

Una possibile rappresentazione grafica di questa distribuzione è riportata nel


grafico seguente

100
frequenza assoluta

90
80
70
60
50
40
30
20
10
0
Ed.fisica Geografia Storia Inglese Italiano Matematica
materia
3
Lezione 3

Come si vede, i confronti fra le diverse materie sono possibili, ma sarebbero resi
più semplici se si ordinassero le materie a seconda del valore assunto dalla
frequenza corrispondente (in senso crescente o decrescente).
Questa è in effetti la convenzione che viene utilizzata quando la variabile risulta
sconnessa.
Per l’esempio appena considerato una rappresentazione grafica corretta è quindi
la seguente

100
frequenza assoluta

90
80
70
60
50
40
30
20
10
0
Ed.fisica Italiano Storia Geografia Inglese Matematica
materia

La regola adottata nel rappresentare graficamente una variabile sconnessa


mediante un grafico a barre consiste nell’ordinare i rettangoli in base al valore
delle frequenze

Va notato che questo tipo di grafico assume una stessa forma se sull’asse delle
ordinate si riportano le frequenze assolute oppure le frequenze relative, per cui
la rappresentazione può essere fatta indifferentemente con un tipo di frequenza
o con l’altro (si ha solo un cambio di scala sull’asse delle ordinate).

Una rappresentazione grafica alternativa si ottiene scambiando le ascisse con le


ordinate. Si ottiene in questo modo una rappresentazione che prende il nome di
grafico a nastri.
4
Lezione 3

Considerata, per esempio, la seguente distribuzione del numero totale dei casi di
coronavirus per regione in Italia, aggiornata alle ore 17:00 del 9 marzo 2020,

Regione Frequenza assoluta


Abruzzo 30
Basilicata 5
Calabria 11
Campania 120
Emilia Romagna 1386
Friuli V.G. 93
Lazio 102
Liguria 109
Lombardia 5469
Marche 323
Molise 14
Piemonte 350
Puglia 50
Sardegna 19
Sicilia 54
Toscana 208
Trentino A.A. 42
Umbria 28
Valle d'Aosta 15
Veneto 744
9172

il corrispondente grafico a nastri assume la forma seguente

5
Lezione 3

Basilicata

Calabria

Molise

Valle d'Aosta

Sardegna

Umbria

Abruzzo

Trentino A.A.

Puglia

Sicilia
R Friuli V.G.
e Lazio
g Liguria
i Campania
o Toscana
n Marche
e Piemonte

Veneto

Emilia Romagna

Lombardia

0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00 4000,00 4500,00 5000,00 5500,00 6000,00

casi totali

6
Lezione 3

2) VARIABILI QUALITATIVE ORDINABILI


I precedenti grafici sono utilizzati anche quando la variabile è qualitativa
ordinabile e le regole che si devono seguire sono le medesime, con un’unica
differenza: le modalità di una variabile ordinabile vanno elencate (in ascissa o in
ordinata) in base al loro ordine naturale.

La regola adottata nel rappresentare graficamente una variabile qualitativa


ordinabile mediante un grafico a barre o un grafico a nastri consiste nell’elencare
gli elementi seguendo l’ordine naturale delle modalità assunte dalla variabile

Esempio
La seguente distribuzione riporta i dati di un’indagine effettuata da Almalaurea
sui laureati in economia e commercio in Italia aggiornata all’aprile 2019.
La distribuzione delle risposte alla domanda circa l’adeguatezza del carico di
studio alla durata del corso è riportata nella tabella seguente

Valutazione Frequenza relativa


Decisamente no 0.011
Più no che sì 0.101
Più sì che no 0.573
Decisamente sì 0.315
1.000

In questo caso una rappresentazione grafica a barre adeguata è la successiva, in


cui l’ordinamento delle modalità rispetta il loro ordine naturale.

7
Lezione 3

0,6
frequenza relativa

0,5

0,4

0,3

0,2

0,1

0
Decisamente no Più no che sì Più sì che no Decisamente sì
valutazione

8
Lezione 3

3) VARIABILI QUANTITATIVE DISCRETE


La rappresentazione grafica di una distribuzione relativa a una variabile
quantitativa discreta segue le medesime regole descritte per un grafico a barre,
ma vengono utilizzati segmenti al posto di rettangoli, cilindri o prallelepipedi.

Una rappresentazione grafica adeguata per una distribuzione relativa a una


variabile discreta è il cosiddetto diagramma ad aste nel quale le intensità della
variabile sono riportate sull’asse delle ascisse nella posizione determinata dalla
scala di misura adottata e da ciascuno di questi punti si innalza un segmento di
altezza proporzionale alla frequenza (relativa o assoluta) corrispondente.

Esempio
La seguente distribuzione indica il numero di esami superati dagli iscritti al primo
anno di un certo corso di laurea nel momento dell’iscrizione all’anno successivo
Esami Frequenza
superati relativa
0 0.20
1 0.09
2 0.13
3 0.22
4 0.22
5 0.11
6 0.03
1.00

Il diagramma ad aste assume la forma riportata nella figura successiva

9
Lezione 3

0,3

0,25
frequenza relativa

0,2

0,15

0,1

0,05

0
0 1 2 3 4 5 6 7

esami superati

10
Lezione 3

4)VARIABILI QUANTITATIVE CONTINUE


Se la distribuzione è relativa a una variabile continua, nella prima colonna della
tabella compaiono le classi di valori e non le singole determinazioni. In questi casi
la distribuzione della variabile all'interno delle singole classi non è nota e per
poterla rappresentare graficamente occorre formulare delle ipotesi.

Non essendo nota la reale distribuzione all’interno di ciascuna classe si adotta


l’ipotesi di distribuzione uniforme che consiste nel ripartire la frequenza
complessiva della classe in maniera proporzionale alla sua ampiezza.

Seguendo questa regola, considerata una determinata classe:


- a due sottointervalli di pari ampiezza si attribuisce la stessa frazione della
frequenza della classe
- a un sottointervallo di un'ampiezza doppia si attribuisce una frazione di
frequenza doppia e così via…

Esempio
Se la frequenza relativa associata a un intervallo (0, 2] è 0.3, la frazione di
frequenza associata agli intervalli (0, 1] e (1, 2] è 0.15, mentre all’intervallo
(0, 0.5] è associata una frequenza pari a 0.075.

Considerato un sottointervallo di una certa classe, la frazione di frequenza


associata a questo sottointervallo si calcola dividendo la frequenza relativa
associata alla classe per l’ampiezza della classe, ottenendo la cosiddetta densità di
frequenza, e moltiplicando questa densità per l’ampiezza del sottointervallo.

11
Lezione 3

In simboli, considerando la j-esima classe (cj-1, cj] a cui è associata la frequenza


relativa fj la densità di frequenza è pari a

𝑓𝑗 𝑓𝑗
ℎ𝑗 = =
𝑐𝑗 − 𝑐𝑗−1 ∆𝑗

dove j = cj - cj-1 corrisponde all’ampiezza della classe.

La densità di frequenza così ottenuta misura l’addensamento delle frequenze


nella classe e, per come è stata calcolata, risulta costante all'interno della classe.

Considerando ora un sottointervallo (a, b] contenuto nella classe (cj-1, cj] la


frazione di frequenza ad esso associato è dato dal prodotto fra la densità e
l’ampiezza del sottointervallo, ossia da

ℎ𝑗 × (𝑏 − 𝑎)

Esempio
Considerata la seguente distribuzione

X Frequenza
2− 3 4
3− 5 6
5 − 10 6
16

si calcoli la densità di frequenza per ciascuna classe di valori e si determini la


frazione di frequenza associata all’intervallo (3.05, 3.15).
12
Lezione 3

Innanzitutto è necessario calcolare le frequenze relative, poi le ampiezze delle


classi e infine i rapporti fra ciascuna frequenza relativa e l’ampiezza
corrispondente, così come mostrato nella tabella successiva.

X Frequenza relativa Ampiezza Densità


2− 3 0.250 1 0.2500
3− 5 0.375 2 0.1875
5 − 10 0.375 5 0.0750
1.000

La frazione di frequenza associata all’intervallo (3.05, 3.15) si ottiene dal prodotto


0.1875×(3.15-3.05)=0.01875.

Si vede facilmente che la frequenza associata a un singolo valore (cioè a un


intervallo di ampiezza nulla) è necessariamente uguale a zero.

Di conseguenza la frazione di frequenza per (a, b), a, b, (a, b o a, b) è sempre la
stessa.

L’importanza della densità di frequenza deriva dal fatto che al crescere


dell'ampiezza di un intervallo anche la frequenza corrispondente tenderà a
crescere. Per questo motivo non si possono utilizzare le frequenze (assolute o
relative) per confrontare le informazioni fornite da intervalli di diversa ampiezza.

La densità di frequenza, non dipendendo dall’ampiezza degli intervalli, misura


l’addensamento delle osservazioni.

13
Lezione 3

La rappresentazione grafica corretta per una distribuzione in classi relativa a una


variabile continua è il cosiddetto istogramma, costituito da un insieme di
rettangoli affiancati aventi per base le diverse classi e per altezza la densità di
frequenza corrispondente.

Nel caso della distribuzione considerata nell’esempio precedente l’istogramma


assume la forma successiva

0,3

0,25

0,2
densità

0,15

0,1

0,05

0
0 1 2 3 4 5 6 7 8 9 10 11 12

Si deve notare che l’area di ciascun rettangolo (ottenuta come prodotto della base
per l’altezza) corrisponde alla frequenza relativa associata alla classe.
Dalla formula della densità di frequenza risulta infatti che la frequenza
complessiva associata al j-esimo intervallo è data dal prodotto fra la densità della
classe e la sua ampiezza

𝑓𝑗 = ℎ𝑗 × ∆𝑗

Per la j-esima classe (cj-1, cj], quindi, il rettangolo corrispondente avrà una base

pari a j , un’altezza pari a hj mentre la sua area è fj.

14
Lezione 3

INDICI DI POSIZIONE
In statistica si utilizzano svariati indici per evidenziare le caratteristiche
principali della variabile rilevata sull’insieme delle unità statistiche esaminate. Le
cosiddette medie (o indici di posizione) descrivono sinteticamente l’insieme delle
osservazioni mediante una sola modalità o un unico valore numerico, a seconda
che la variabile considerata sia qualitativa o quantitativa.

Si distinguono in
- Medie di posizione, che possono essere determinate per variabili qualsiasi
- Medie analitiche, che possono essere determinate solo per variabili quantitative,
in quanto richiedono l’esecuzione di operazioni algebriche

Una qualsiasi media effettua la sintesi di tutte le informazioni contenute nei dati
originali attraverso una sola determinazione, per cui la media di una variabile
qualitativa coincide con una delle k modalità osservate, mentre la media di una
variabile quantitativa risulta sempre interna al suo intervallo di variazione.

In questa lezione si esamineranno alcune delle più comuni medie di posizione,


mentre nella successiva si studierà una particolare media analitica e le sue
proprietà

15
Lezione 3

MODA (o valore modale)


La media di posizione più semplice è la cosidetta moda che può essere
determinata per una variabile qualsiasi

In una distribuzione relativa a una variabile qualitativa (sconnessa o ordinabile)


o in una distribuzione relativa a una variabile quantitativa discreta la moda
corrisponde alla determinazione che presenta la frequenza (assoluta o relativa)
più elevata.

Se esistono più determinazioni a cui è associata la stessa frequenza massima, tutte


queste determinazioni sono altrettante mode (si può parlare in questo caso di
distribuzioni bimodali, trimodali e così via).

La moda si individua facilmente anche sulla rappresentazione grafica associata


alla distribuzione dato che corrisponde alla determinazione a cui è associato il
rettangolo o il segmento con l’altezza maggiore (per grafici a colonna o diagrammi
ad asta) oppure al rettangolo con la base maggiore (per grafici a nastro).

In una distribuzione relativa a una variabile quantitativa continua la classe


modale corrisponde all’intervallo che presenta la densità di frequenza più elevata.

16
Lezione 3

La moda si determina in maniera molto semplice e ha il pregio di non risentire


della eventuale presenza di valori anomali (cioè della presenza di osservazioni
estremamente diverse da tutte le altre), ma ha un uso piuttosto limitato a causa
di alcuni difetti:
- non è molto utile se le determinazioni assunte dalla variabile sono numerose,
specie se la massima frequenza non è molto più elevata delle altre.
- Per una distribuzione in classi, la classe modale dipende dalla scelta degli
intervalli.

ESERCIZI
1) Data la seguente serie di voti
21 24 30 24 26 25 24 28
il voto modale è 24

2) Considerata la seguente distribuzione espressa mediante le frequenze


cumulate, determinare la moda
X Frequenza relativa cumulata
-2 0.250
-1 0.425
0 0.550
1 0.750
2 0.900
3 1.000

Occorre innanzitutto calcolare le frequenze relative


X Frequenza relativa
-2 0.250
-1 0.175
0 0.125
1 0.200
2 0.150
3 0.100
1.000
La moda è -2
17
Lezione 3

3) Considerata la seguente distribuzione, determinare la classe modale


X Frequenza relativa
0– 1 0.10
1– 5 0.30
5 – 10 0.40
10 – 20 0.20
1.00

Occorre innanzitutto calcolare le densità


X Ampiezza densità
0– 1 1 0.100
1– 5 4 0.075
5 – 10 5 0.080
10 – 20 10 0.020

La classe modale è la prima

18
Lezione 3

QUANTILI
Altri indici di posizione che vengono frequentemente calcolati se la variabile è
almeno ordinabile sono i cosiddetti quantili.

Per semplicità in questa lezione si considerano solo i casi relativi a una variabile
quantitativa discreta o alla sequenza di una variabile continua, ma i quantili
possono essere determinati anche per variabili qualitative ordinabili e per
distribuzioni in classi, mentre non possono essere determinati per variabili
qualitative sconnesse (o non ordinabili)

Date n osservazioni relative a una variabile quantitativa discreta X, il quantile di


ordine p (con 0 < p < 1), indicato con xp, è quel valore della variabile per cui la
proporzione di osservazioni inferiori o uguali a xp è almeno pari a p.

Se per un gruppo di studenti il quantile di ordine 0.25 è pari a 40 CFU, un quarto


degli studenti ha un numero di crediti inferiore o uguale a 40; se in una
distribuzione di stature x0,8 vale 178 centimetri, significa che l’80% delle unità ha
una statura inferiore o uguale a 178 centimetri.

Fra tutti i possibili quantili che possono essere considerati, alcuni sono di uso più
comune. In particolare si usano spesso
- i tre quartili (x0.25, x0.5, x0.75)
- i nove decili (x0.1, x0.2, …, x0.9)
- i novantanove centili (x0.01, x0.02, …, x0.99)

19
Lezione 3

Il quantile più utilizzato in assoluto è la mediana x0.5 che corrisponde al secondo


quartile, al quinto decile e al cinquantesimo centile. La mediana è quella
determinazione della variabile per cui la metà delle osservazioni presenta un
valore inferiore o uguale a x0.5

L’uso della mediana è molto comune. Per esempio, nel report dell’Istat
“CONDIZIONI DI VITA, REDDITO E CARICO FISCALE DELLE FAMIGLIE” del 6
dicembre 2018 si legge “Metà delle famiglie residenti in Italia percepisce un
reddito netto non superiore a 25.091 euro l’anno (circa 2.090 euro al mese;
+2,3% rispetto al 2015). Il reddito mediano cresce in tutte le ripartizioni: da
+0,6% del Nord-ovest a +3,9% del Nord-est.”

I quantili possono essere determinati sia su una sequenza di osservazioni, sia su


una distribuzione di frequenza

20
Lezione 3

1) SEQUENZA DI n OSSERVAZIONI

Data una sequenza di n osservazioni, il quantile xp di ordine p è l’osservazione che


nella sequenza ordinata occupa il posto corrispondente alla parte intera
superiore del prodotto np, indicato con ⌈𝑛𝑝⌉

Per “parte intera superiore” si intende che se il prodotto np dà origine a un


numero intero si considera quel risultato, se invece dà origine a un numero che
non è intero si prende l’intero immediatamente superiore.

ESEMPI
1) Considerata la seguente sequenza di voti ottenuti da uno studente
24 18 27 22 30
si determini il quantile di ordine p = 0.5 della variabile.

In questo caso n=5 per cui


⌈𝑛𝑝⌉ = ⌈5 × 0.5⌉ = ⌈2.5⌉ = 3
Il quantile di ordine 0.5 occupa quindi il terzo posto nella sequenza ordinata
18 22 24 27 30
e il quantile cercato risulta x0.5 = x(3 )= 24.

2) Considerata la seguente sequenza di voti ottenuti da uno studente


18 22 24 25 27 30
si determini il quantile di ordine p = 0.5 della variabile.

In questo caso n=6 per cui


⌈𝑛𝑝⌉ = ⌈6 × 0.5⌉ = ⌈3⌉ = 3

La sequenza ordinata è
18 22 24 25 27 30
e il quantile cercato risulta x0.5 = x(3 )= 24.

La necessità di considerare l’ordinamento delle determinazioni esclude la


possibilità di determinare i quantili per variabili non ordinabili.
21
Lezione 3

ESERCIZI
1) Considerata la seguente sequenza di osservazioni relative a una variabile
continua, si determini il valore dei tre quartili
2.0 1.8 1.9 2.8 2.9 3.0 3.1 4.8 5.5 3.1

La sequenza ordinata risulta


1.8 1.9 2.0 2.8 2.9 3.0 3.1 3.1 4.8 5.5

Il primo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.25⌉ = ⌈2.5⌉ = 3


per cui x0.25 = x(3) = 2.0

Il secondo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.5⌉ = ⌈5⌉ = 5


per cui x0.5 = x(5) = 2.9

Il terzo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.75⌉ = ⌈7.5⌉ = 8


per cui x0.75 = x(8) = 3.1

2) Considerata la sequenza ordinata dei voti in statistica ottenuti da 12 studenti:


20 20 22 22 22 24 24 25 27 27 28 28
determinare i quantili di ordine 0.2, 0.5 e 0.8.

Il secondo decile occupa il posto ⌈12 × 0.2⌉ = 3,


Il secondo quartile occupa il posto ⌈12 × 0.5⌉ = 6
L’ottavo decile occupa il posto ⌈12 × 0.8⌉ = 10

Risulta quindi x0.25 = 22,


x0.5 = 24,
x0.75 = 27.

Si osservi che uno stesso valore della variabile può corrispondere a più quantili di
ordine diverso.

22
Lezione 3

2) DISTRIBUZIONI DI FREQUENZA
Il procedimento di calcolo dei quantili per una distribuzione di frequenza è lo
stesso utilizzato al caso precedente, anche se può sembrare diverso.
Data la distribuzione riportata nella tabella successiva

X Frequenza assoluta
-2 3
-1 5
0 2
10

la determinazione dei tre quartili potrebbe essere effettuata costruendo la


sequenza ordinata corrispondente
-2 -2 -2 -1 -1 -1 -1 -1 0 0
ed utilizzando quest’ultima, ma esiste un metodo più semplice di procedere
(specie quando n è molto elevato). Il metodo utilizzato si basa sulle frequenze
assolute cumulate.

Dato che, per definizione, xp occupa il posto ⌈𝑛𝑝⌉, in una distribuzione di


frequenza relativa a una variabile quantitativa discreta X il quantile di ordine p
corrisponde alla determinazione cj a cui è associata la prima frequenza assoluta
cumulata Nj maggiore o uguale a ⌈𝑛𝑝⌉

Per la distribuzione precedente si ha


X Frequenza assoluta cumulata
-2 3
-1 8
0 10

Dato che il primo quartile occupa il posto ⌈10 × 0.25⌉ = 3, x0.25 = -2, in quanto la
frequenza assoluta cumulata associata a tale valore è esattamente uguale a 3.
23
Lezione 3

La mediana, invece, occupa il posto ⌈10 × 0.5⌉ = 5 per cui x0.5 = -1, dato che il
valore della frequenza assoluta cumulata associata a tale valore è pari a 8.
La determinazione -1 è infatti quel valore della variabile in corrispondenza del
quale la frequenza assoluta cumulata assume per la prima volta un valore
maggiore di 5 (in corrispondenza dell’intensità precedente era uguale a 3).
Il terzo quartile, infine, occupa il posto ⌈10 × 0.75⌉ = 8 per cui x0.75 = -1.

Si controlla facilmente che i medesimi risultati si sarebbero potuti ottenere sulla


sequenza ordinata.

Esercizio
Data la seguente distribuzione dei risultati sufficienti ottenuti in una prova
intermedia espressa in quindicesimi, si determinino i quantili di ordine 0.25, 0.3
e 0.5.
X Frequenza assoluta
8 17
9 25
10 40
11 35
12 27
13 18
14 10
15 8
180

Le frequenze assolute cumulate risultano le seguenti

24
Lezione 3

X Frequenza assoluta cumulata


8 17
9 42
10 82
11 117
12 144
13 162
14 172
15 180

Il posto occupato dal primo quartile è ⌈180 × 0.25⌉ = 45, per cui x0.25 = 10.
Il posto occupato dal terzo decile è ⌈180 × 0.3⌉ = 54, per cui x0.3 = 10.
Il posto occupato dalla mediana è ⌈180 × 0.5⌉ = 90, per cui x0.5 = 11.

25

Potrebbero piacerti anche