LEZIONE 7
𝑠 = 𝑠𝑥 = √𝑠𝑥2
Le sue formule di calcolo, che variano a seconda di come sono organizzati i dati
raccolti, si ottengono immediatamente dalle corrispondenti formule della
varianza semplicemente effettuandone la radice quadrata
𝑛
1
𝑠𝑥 = 𝑠 = √ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑖=1
𝑘 𝑘
1 2 2
𝑠𝑥 = 𝑠 = √ ∑(𝑐𝑗 − 𝑥̅ ) × 𝑛𝑗 = √∑(𝑐𝑗 − 𝑥̅ ) × 𝑓𝑗
𝑛
𝑗=1 𝑗=1
𝑘 𝑘
1 2 2
𝑠𝑥 = 𝑠 = √ ∑(𝑐̅𝑗 − 𝑥̅ ) × 𝑛𝑗 = √∑(𝑐̅𝑗 − 𝑥̅ ) × 𝑓𝑗
𝑛
𝑗=1 𝑗=1
1
Lezione 7
Esercizio
Considerata la seguente distribuzione in classi, si calcoli la deviazione standard
della X
X densità
-5 – -3 0.2
-3 – -1 0.1
-1 – 3 0.1
2
Lezione 7
DIMOSTRAZIONE
Indicate rispettivamente con 𝑠𝑥2 e con 𝑠𝑦2 le varianze della X e della Y è noto che
𝑠𝑦2 = 𝑏 2 𝑠𝑥2
Calcolando la radice quadrata di entrambi i termini dell’uguaglianza risulta
𝑠𝑦 = |𝑏|𝑠𝑥
Si nota come, quale che sia il segno assunto dal parametro 𝑏, la deviazione
standard della variabile trasformata non possa mai assumere un risultato
minore di zero, in accordo con le proprietà che devono essere rispettate da un
qualsiasi indice che misuri la variabilità di una variabile.
Anche la deviazione standard risulta quindi invariante rispetto a traslazioni
dell’origine, ma non rispetto a variazioni dell’unità di misura utilizzata,
esattamente come accadeva per la varianza.
Esercizi
1) Considerata una variabile X per la quale la deviazione standard è risultata
pari a 4.6, determinare la deviazione standard della variabile trasformata
1
𝑌 =4− 𝑋
2
Risulta
1 1
𝑠𝑦 = |− | 𝑠𝑥 = × 4.6 = 2.3
2 2
3
Lezione 7
La variabile Z ha quindi una media sempre pari a 0 e una varianza sempre pari
a 1.
Questa variabile trasformata, che verrà ripresa molto spesso in seguito, è detta
variabile scarto standardizzato
4
Lezione 7
COEFFICIENTE DI VARIAZIONE
In molte situazioni reali si ha interesse a confrontare la variabilità di variabili
differenti, spesso rilevate con unità di misura diverse o aventi ordini di
grandezza diversi.
Esempi di questo genere si hanno quando si analizza la distribuzione di un
gruppo di unità statistiche sulle quali si è rilevato congiuntamente il peso e la
statura, oppure quando si vogliono confrontare le distribuzioni di una stessa
variabile (ad esempio il peso) rilevata su un gruppo di individui adulti e su un
gruppo di neonati. Nel primo caso le unità di misura potrebbero essere il
chilogrammo e il centimetro, mentre nel secondo caso una deviazione standard
pari, per esempio, a un chilogrammo, assumerebbe un’importanza diversa a
seconda che ci si riferisse a individui adulti o a neonati.
Allo stesso modo, gli indici di variabilità finora esaminati non permetterebbero
un confronto della variabilità di distribuzioni di redditi espressi in valute
differenti.
5
Lezione 7
Questo indice, però, non può essere utilizzato in ogni situazione. Trattandosi di
un indice che misura la variabilità, dovrà necessariamente assumere valori
maggiori o uguali a zero: pertanto non si può utilizzare quando la variabile X
assume valori negativi, in quanto la media della variabile, che compare al
denominatore del CV, potrebbe risultare negativa.
Il suo utilizzo, inoltre, è fortemente sconsigliato se la variabile X ha una media
prossima allo zero, in quanto il CV assumerebbe un valore tendente a infinito.
PROPRIETÀ
Considerata una variabile quantitativa X di media 𝑥̅ e varianza 𝑠𝑥2 si determini
il coefficiente di variazione della trasformazione lineare Y= 𝑎+bX
6
Lezione 7
DIMOSTRAZIONE
Considerata l’espressione del coefficiente di variazione della variabile Y, il
risultato richiesto si ottiene sostituendo al posto del numeratore e del
denominatore le espressioni della media e della deviazione standard di una
trasformazione lineare. Risulta quindi
𝑠𝑦 |𝑏|𝑠𝑥
𝐶𝑉𝑦 = =
𝑦̅ 𝑎 + 𝑏𝑥̅
Si vede quindi che questo indice varia al variare dei valori assunti da 𝑎 e b
ESEMPIO
Considerata la seguente distribuzione
X Frequenza relativa
0 0.35
3 0.35
5 0.30
1.00
mentre per la Y si ha
𝑦̅ = 3 × 2.55 + 2 = 9.65 𝑠𝑦2 = 9 × 4.1475 = 37.3275
√37.3275
𝐶𝑉𝑦 = ≈ 0.6331
9.65
7
Lezione 7
INDICI DI FORMA
Gli ultimi indici che verranno descritti per una singola variabile (ossia per le
cosiddette distribuzioni univariate), prima di passare all’analisi delle
cosiddette distribuzioni bivariate (relative, cioè, a due variabili), sono i
cosiddetti indici di forma.
Questi indici sono utilizzati per evidenziare altri aspetti dell'assetto
distributivo di una variabile quantitativa precisandone, appunto, la forma e si
basano sul calcolo dei momenti centrali di vario ordine.
SIMMETRIA O ASIMMETRIA
Il concetto di simmetria o asimmetria di una distribuzione risulta di facile
comprensione se si esamina la sua rappresentazione grafica, ma è molto più
complesso da esprimersi a parole.
I due grafici seguenti, per esempio,
Centro di simmetria
14
12
frequenza assoluta
10
8
6
4
2
0
0 1 2 3 4 5
8
Lezione 7
9
Lezione 7
o, in altri termini, le frequenze più elevate si trovano nella prima metà del
campo di variazione
14
12
frequenza assoluta
10
0
0 2 4 6 8
10
Lezione 7
Considerato che x = [-1, 13] il suo centro risulta uguale a 6 e gli scarti
assumono i valori riportati nella sequenza successiva
Scarti
-7 -6 -3 0 3 6 7
11
Lezione 7
𝑋 − 𝑥̅
𝑍=
𝑠𝑥
PROPRIETÀ
12
Lezione 7
DIMOSTRAZIONE
Per definizione, data la variabile Y, l’indice di asimmetria di Fisher è dato da
𝑚
̅ 3𝑦
𝑎3𝑦 =
𝑠𝑦3
̅ 3𝑦 𝑏 3 𝑚
𝑚 ̅ 3𝑥 𝑏3 𝑚
̅ 3𝑥
𝑎3𝑦 = 3 = 3 3 = 3 3 = 𝑠𝑒𝑔𝑛𝑜(𝑏)𝑎3𝑥
𝑠𝑦 |𝑏 |𝑠𝑥 |𝑏 | 𝑠𝑥
13
Lezione 7
ESEMPIO
Considerata una variabile X per la quale l’indice di asimmetria di Fisher è
risultato pari a -1.5, si determini il valore dell’indice di asimmetria di Fisher
perla variabile trasformata Y=-2X+0.5.
Risulta
(−2)3
𝑎3𝑦 = 𝑎 = −𝑎3𝑥 = 1.5
|(−2)3 | 3𝑥
14
Lezione 7
CURTOSI
La distribuzione di una variabile può presentare “code” più o meno “spesse”,
nel senso che le frequenze possono risultare più o meno addensate in
corrispondenza dei valori estremi assunti dalla variabile.
I cosiddetti indici di curtosi sono utilizzati proprio per misurare lo spessore
delle code della distribuzione, ossia il grado di concentrazione delle frequenze
in corrispondenza degli estremi del campo di variazione della variabile.
Per avere un’idea di cosa si intenda misurare con gli indici di curtosi è utile
confrontare i due grafici seguenti: nel primo (colorato in arancione) le
frequenze in corrispondenza degli estremi del campo di variazione sono più
addensate rispetto a quanto si nota nel secondo grafico (colorato in viola). Il
grafico in arancione ha code più spesse del grafico in viola.
15
Lezione 7
𝑋 − 𝑥̅
𝑍=
𝑠𝑥
16
Lezione 7
In particolare:
- Per 𝑎4 < 3 la distribuzione si dice platicurtica: le frequenze sono poco
concentrate intorno alla media, per cui le code sono piuttosto spesse
- Per 𝑎4 = 3 la distribuzione si dice mesocurtica o normocurtica
- Per 𝑎4 > 3 la distribuzione si dice leptocurtica: le frequenze sono molto
concentrate intorno alla media, per cui le code sono poco spesse
seconda parte del corso, ma per il momento vale la pena anticipare che una
distribuzione normale è sempre simmetrica (per cui l’indice di Fisher sarà pari
a zero), mentre ha un valore dell’indice di curtosi che è esattamente pari a 3 (da
qui la definizione di distribuzione normocurtica).
Dato che, come si vedrà nell’ultima parte di questo corso di Statistica, i
procedimenti inferenziali sono molto più semplici quando la distribuzione
reale di una variabile può essere approssimata in modo soddisfacente da una
normale, si procede a calcolare l’indice di asimmetria di Fisher e l’indice di
curtosi sulla distribuzione osservata, per verificare se tale distribuzione può
essere approssimata da questo modello. Tanto più l’indice di asimmetria sarà
prossimo a zero e l’indice di curtosi sarà prossimo a 3, tanto più il modello
normale potrebbe risultare adeguato per approssimare la distribuzione
osservata.
PROPRIETÀ
Considerata una variabile quantitativa X ed indicata con 𝑠𝑥2 la sua varianza, con
𝑚
̅ 4𝑥 il quarto momento centrale e con 𝑎4𝑥 l’indice di curtosi, l’indice di curtosi
di una trasformazione lineare del tipo
Y = a + bX
risulta
𝑎4𝑦 = 𝑎4𝑥
18
Lezione 7
DIMOSTRAZIONE
Per definizione, data la variabile Y, l’indice di curtosi è dato da
𝑚
̅ 4𝑦
𝑎4𝑦 =
𝑠𝑦4
̅ 4𝑦 𝑏 4 𝑚
𝑚 ̅ 4𝑥 𝑚
̅ 4𝑥
𝑎4𝑦 = 4 = 4 4 = 4 = 𝑎4𝑥
𝑠𝑦 𝑏 𝑠𝑥 𝑠𝑥
19
Lezione 7
In questa lezione si esamina solo il grafico più utilizzato nelle situazioni reali,
ossia quello che considera i tre quartili come indici di posizione e la differenza
interquartile come indice di variabilità.
Tutti questi indici sono stati descritti nelle lezioni precedenti, ma per la
costruzione del boxplot è necessario anche il calcolo di altre due quantità, dette
valore adiacente inferiore (usualmente abbreviato in VAI) e valore adiacente
superiore (usualmente abbreviato in VAS), che risultano particolarmente utili
per individuare eventuali valori anomali.
Una volta calcolati anche questi due valori, si può procedere alla costruzione
del boxplot, di cui si riporta di seguito un esempio
20
Lezione 7
Come si nota dalla figura, il primo e il terzo quartile delimitano il rettangolo che
compone la parte centrale del grafico (per costruzione questo rettangolo
contiene al suo interno il 50% circa delle n osservazioni complessive, essendo
delimitato dai quantili di ordine 0.25 e 0.75).
Se la differenza interquartile è piccola le osservazioni risultano concentrate
intorno alla mediana, mentre all'aumentare del suo valore le osservazioni
risulteranno più disperse.
La mediana divide il rettangolo in due parti e le distanze x0.5−x0.25 e x0.75−x0.5
forniscono informazioni sulla forma della distribuzione.
21
Lezione 7
Dal rettangolo si tracciano quindi due segmenti: quello al di sotto del rettangolo
parte dalla metà della base inferiore e si ferma in corrispondenza del VAI,
mentre quello al di sopra del rettangolo parte dalla metà della base superiore e
si ferma in corrispondenza del VAS.
Nella maggior parte delle situazioni reali i boxplot vengono utilizzati per
confrontare gli assetti distributivi di una stessa variabile rilevata su gruppi di
unità statistiche differenti, per cui vengono disegnati uno di fianco all’altro.
22