Sei sulla pagina 1di 163

Anno accademico 2020/2021

Riassunti di Statistica
psicometrica
Università degli Studi di Napoli Federico II
Docente: Domenico Vistocco
Riassunti di: Michela Angius
PRIMA PROVA INTERCORSO
Indice degli argomenti
1 Statistica e glossario di base 5
Che cos’è la statistica?
Diversi processi che danno origine ai dati statistici
Glossario di base
2 Popolazione, campione e unità statistica 7
3 Variabile statistica 8
Tipologie di variabili statistiche e operazioni possibili
Esempi di variabili statistiche
4 Analisi statistiche, tabella dei dati e serie 10
La matrice o tabella dei dati
Esempio di matrice dei dati
Serie grezza
Serie ordinata
5 Frequenze e distribuzioni di frequenze 12
La frequenza assoluta
Tabella di sintesi delle frequenze assolute
Esempio di frequenza assoluta
La frequenza relativa
Tabella di sintesi delle frequenze relative
Esempio di frequenze relative
La frequenza percentuale
La tabella di sintesi delle frequenze percentuali
Esempio di frequenze percentuali
Le frequenze assolute cumulate
Esempio di frequenze assolute cumulate
Le frequenze relative cumulate
Esempio di frequenze relative cumulate
Le frequenze percentuali cumulate
Esempio di frequenze percentuali cumulate
6 Classi e distribuzione per classi 19
Le classi di modalità
La tabella di frequenza per classi
La notazione degli intervalli
Riassunti di Michela Angius 2
Esempio di distribuzione per classi
L’ampiezza di una classe
Tipologie di distribuzioni per classi
Intensità di una classe
Rappresentazione di una distribuzione per classi con ampiezze diverse
Il valore centrale
7 Medie 24
Tipologie di medie
Media aritmica
Proprietà della media aritmetica
La media aritmetica per una distribuzione di frequenza
La media aritmetica per classi
La trasformazione lineare e la media aritmica
La moda
La mediana
La mediana in classi
I quartili e i percentili
I percentili in una distribuzione per classi
8 Variabilità 36
Tipologie di indici di variabilità
Assiomi sugli indici di variabilità
Indici di mutua variabilità
La differenza semplice media
Esempio sulla differenza semplice media
La normalizzazione dell’indice di mutua variabilità
Gli indici di variabilità rispetto alla media aritmetica
La devianza
La varianza
Lo scarto quadratico medio o deviazione standard
Il coefficiente di variazione
Il campo di variazione
La semidifferenza Interquartilica
Lo scostamento semplice mediano
9 Trasformazioni lineari 45
La trasformazione lineare: media e variabilità
Tre tipologie di trasformazioni lineari: centratura, riduzione e standardizzazione

Riassunti di Michela Angius 3


10 Forma ed indici di forma 51
La forma di una distribuzione
La simmetria di una distribuzione
Il ruolo degli scarti nella simmetria
L’asimmetria
L’indice di asimmetria di Fisher
L’indice di asimmetria di Hotelling-Solomon
L’indice di asimmetria di Yule-Bowley
La curtosi e l’indice di curtosi di Fisher
11 Analisi della varianza/devianza 60
La scomposizione della devianza
La statistica F di Fisher
L’indice eta quadro
12 Distribuzione normale e normalità 65
La distribuzione normale
Le caratteristiche della curva gaussiana
Media e varianza di una distribuzione normale
La distribuzione normale standardizzata
Il test chi quadro

Riassunti di Michela Angius 4


Riassunti di Statistica Psicometrica 1. Statistica e glossario di base

1 Statistica e glossario di base

LA STATISTICA
Cos’è e a cosa serve la statistica
La statistica è una disciplina scientifica che ha come finalità l’analisi dei dati per estrarre
informazioni utili a prendere le “migliori” decisioni.

I DIVERSI PROCESSI CHE DANNO ORIGINE AI DATI STATISTICI


Le diverse tipologie di indagini statistiche
Un’indagine statistica è uno studio che riguarda un collettivo statistico, le cui unità sono entità
(persone, imprese, abitazioni) individuabili e osservabili, chiamata popolazione reale o finita.
L’indagine statistica può essere:
 Censuaria: lo studio statistico è condotto con l’osservazione della totalità delle unità
statistiche di una popolazione;
 Campionaria: limitata a una parte delle unità della popolazione, ossia a un campione.
Divisione del campo della statistica metodologica
Il campo della statistica metodologica si divide in:
 Statistica descrittiva: quando i metodi statistici sono applicati a variabili rilevate sulla
popolazione. Si considera il campione quando l’intera popolazione non è conoscibile. Se
il campione è scelto secondo opportune metodologie allora le informazioni derivate
dall’analisi del campione sono estendibili all’intera popolazione entro un certo margine
di errore (rilevazione dati, costruzione distribuzioni di frequenza, presentazioni grafiche e
tabellari).
 Statistica inferenziale: quando i metodi statistici sono applicati a variabili rilevate sul
campione, e sono considerati validi sull’intera popolazione.

GLOSSARIO DI BASE
 Sommatoria: ∑ 𝑓(𝑥)
 Frequenza assoluta: 𝑛
 Frequenza relativa: 𝑓
 Frequenza percentuale: 𝑝
 Frequenza assoluta cumulata: 𝑁
 Frequenza relativa cumulata: 𝐹
 Frequenza percentuale cumulata: 𝑃
 Ampiezza della classe: 𝐴
 Densità della classe: ℎ
 Classe: 𝐶
 Valore centrale della classe: 𝑥
Riassunti di Michela Angius 5
Riassunti di Statistica Psicometrica 1. Statistica e glossario di base

 Media aritmetica (per il campione): 𝑥̅


 Media aritmetica (per la popolazione): 𝜇
 Moda: 𝑀
 Mediana: 𝑀

Riassunti di Michela Angius 6


Riassunti di Statistica Psicometrica 2. Popolazione, campione e unità statistica

2 Popolazione, campione e unità statistica

LA POPOLAZIONE, IL CAMPIONE E L’UNITÀ STATISTICA


Il collettivo statistico/popolazione
Il collettivo statistico (anche definito popolazione) è totalità dei casi individuali in cui il
fenomeno studiato si manifesta. È qualsiasi insieme rispetto al quale si realizza il fenomeno
oggetto di studio.
Il campione
Il campione è una parte della totalità dei casi che viene sottoposta a osservazione. È qualsiasi
sottoinsieme derivato da una popolazione e finalizzato allo studio del fenomeno.
L’unità statistica
L’unità statistica è un elemento della popolazione o del campione su cui si manifesta il
fenomeno.
Esempio di collettivo statistico, campione e unità statistica
Il Ministero dell’Istruzione decide di analizzare statisticamente i dati relativi alla preparazione
in lingua inglese dei bambini che studiano presso le scuole primarie italiane.
In questo caso di studio la totalità di bambini frequentanti le scuole primarie italiane sono il
collettivo statistico su cui il Ministero andrà a svolgere un’analisi censuaria.
Se il Ministero non possiede le risorse adatte per svolgere un’indagine sulla totalità di bambini
che compongono la popolazione statistica, sceglierà un numero di bambini più ristretto per
svolgere l’indagine; questo insieme più ristretto si definisce campione.
Ogni singolo bambino, al quale sottoporre l’indagine statistica sulla sua preparazione in lingua
inglese, rappresenta l’unità statistica dell’indagine.

Riassunti di Michela Angius 7


Riassunti di Statistica Psicometrica 3. Variabile statistica

3 Variabile statistica

LA VARIABILE STATISTICA E LE MODALITÀ


La variabile statistica
La variabile è l’aspetto misurabile del fenomeno che viene rilevato su ciascun elemento della
popolazione e/o campione. Le variabili sono lo strumento con cui si misura operativamente il
fenomeno.
Le modalità
La modalità è la manifestazione concreta (o osservazione) della variabile sulle unità. Le
modalità possono anche essere definite come i diversi modi con cui il carattere/variabile si
manifesta nelle unità statistiche del collettivo.
Esempio sulle variabili e sulle modalità
Una scuola elementare ha intenzione di analizzare il colore dei capelli e il colore degli occhi dei
suoi alunni.
In tale indagine le variabili statistiche che vengono analizzate dalla scuola sono:
 Il colore dei capelli;
 Il colore degli occhi.
Le modalità, per ciascuna variabile potrebbero essere:
 Per la variabile colore dei capelli: neri, castani, biondi, rossi;
 Per la variabile colore degli occhi: neri, marroni, verdi, azzurri, grigi, ecc..

LE TIPOLOGIE DI VARIABILI STATISTICHE


Tipologie di variabili statistiche e operazioni possibili
Le variabili statistiche possono essere:

Riassunti di Michela Angius 8


Riassunti di Statistica Psicometrica 3. Variabile statistica

 Qualitative: quando la loro manifestazione sulle unità statistiche (la modalità) è un


attributo non numerico (parole o etichette in generale). Le variabili qualitative possono
essere:
o Nominale (o sconnesse): quando le modalità non ammettono nessun ordine
naturale, ossia date due modalità distinte si può solo affermare se queste sono
uguali o diverse (ad esempio il sesso: maschio o femmina). I caratteri qualitativi
sconnessi possono essere di due tipi:
 Dicotomici: possono assumere solo due modalità (maschio o femmina,
promosso o bocciato);
 Politomici: assumono un numero finito di modalità distinte (colore di una
stanza).
o Ordinabili: quando le modalità ammettono un ordine naturale, ossia se date due
sue modalità è possibile dare un ordine specificando che una precede l’altra (ad
esempio il grado di soddisfazione per un servizio: poco, abbastanza, molto).
 Quantitative: quando la loro manifestazione sulle unità statistiche (detta in questo caso
intensità) è un numero. Le variabili quantitative possono essere:
o Discrete: quando le intensità sono esprimibili con numeri naturali (non ha senso
il valore con decimali rispetto alla natura della variabile);
o Continue: quando le intensità sono esprimibili con numeri reali (ha senso il valore
con decimali).
Tipologia di variabile Operazioni possibili
Qualitativa nominale =𝑜 ≠
Qualitativa ordinale =𝑜 ≠
<𝑜 >
Quantitativa =𝑜 ≠
<𝑜 >
Operazioni algebriche

Esempi di variabili statistiche


Il colore dei capelli degli alunni, esposto come esempio in precedenza, è una variabile
qualitativa nominale politomica, in quanto, le possibili modalità sono rappresentabili con un
numero finito di colori (neri, castani, biondi, rossi).
Il mese di nascita di ogni alunno è una variabile qualitativa ordinabile, in quanto, le possibili
modalità sono rappresentabili con i mesi dell’anno, che a loro volta possono essere ordinati fra
loro (da Gennaio a Dicembre).
Il numero di fratelli di ciascun alunno è una variabile quantitativa discreta, in quanto non ha
senso logico dire che uno di essi ha due fratelli e mezzo.
L’altezza di ogni bambino [misurata in metri] è una variabile quantitativa continua, dato che è
logico dire che uno di essi è alto 1,35 m.

Riassunti di Michela Angius 9


Riassunti di Statistica Psicometrica 4. Analisi statistiche, tabella dei dati e serie

4 Analisi statistiche, tabella dei dati e serie

LE ANALISI STATISTICHE
Tipologie di analisi statistiche
Le analisi sui dati, svolte con lo studio della statistica, possono distinguersi in base al numero di
variabile coinvolte:
 Analisi univariate: con lo studio di una sola variabile statistica, con lo scopo di capire le
caratteristiche essenziali;
 Analisi bivariate: con lo studio di due variabili statistiche, lo scopo è di identificare le
possibili relazioni esistenti fra queste due;
 Analisi multivariate: studio di più di due variabili.
Esempi di analisi statistiche univariate e bivariate
Un’analisi statistica univariata può essere condotta sul peso di un campione di clienti di un fast
food, per studiare alcune caratteristiche essenziali, come il peso medio o la variabilità dei dati
raccolti.
Un’analisi bivariata può essere condotta – sempre sullo stesso campione di clienti di un fast food
– tra il peso di questi e il numero di volte che essi si recano al fast food per mangiare o cenare.
L’obiettivo di tale analisi è scoprire se esistono relazioni statistiche tra queste due componenti.

LA TABELLA DEI DATI


La matrice o tabella dei dati
La matrice dei dati è una tabella che rappresenta i dati rilevati in funzione di un certo numero
di variabili (poste come colonne) e di un certo numero di unità (poste come righe).
È rappresentabile nel seguente modo:
X Y ... W ... Z
1 x1 y1 ... w1 ... z1
2 x2 y2 ... w2 ... z2
... ... ... ... ... ... ...
i xi yi ... w3 ... zi
... ... ... ... ... ... ...
n xn yn ... wn ... zn

Esempio di matrice dei dati


Possiamo rappresentare tramite una matrice dei dati le rilevazioni fatte su sei clienti del fast
food (le sei unità dell’analisi) riguardanti la loro età, il loro peso e il numero di volte che si sono
recati in un fast food nell’ultima settimana (le tre variabili statistiche dell’analisi):

Riassunti di Michela Angius 10


Riassunti di Statistica Psicometrica 4. Analisi statistiche, tabella dei dati e serie

Unità Età Peso (in Volte al


kg) fast-food
1 33 82 3
2 38 75 1
3 23 73 1
4 48 97 6
5 16 77 4
6 63 82 3

LE SERIE
La serie grezza
La serie grezza è la rappresentazione in serie dei dati rilevati su un certo numero di unità
statistiche per una sola variabile.
Partendo da una matrice di dati è possibile estrapolare una serie grezza, prendendo
esclusivamente una variabile e i suoi relativi valori.
In una generica variabile X, la sua serie grezza è formata da:
x1 x2 ... xi ... xn

Esempio di serie grezza


Partendo dalla matrice dei dati precedente è possibile estrapolare la serie grezza relativa all’età
delle sei unità statistiche:
33 38 23 48 16 63
Da notare che mentre nella matrice dei dati l’età era rappresentata in colonna, in questo
esempio la serie grezza è rappresentata in riga (le rilevazioni sono state capovolte).
Serie ordinata
Laddove ha senso è possibile definire una serie ordinata come una serie grezza le cui rilevazioni
vengono ordinate in modo:
 Crescente, quando: 𝑥 < 𝑥 < ⋯ < 𝑥 < ⋯ < 𝑥
 Decrescente, quando: 𝑥 > 𝑥 > ⋯ > 𝑥 > ⋯ > 𝑥
Esempio di serie ordinata
Possiamo ordinare in senso crescente la serie grezza dell’esempio precedente:
16 23 33 38 48 63
E in ordine decrescente:
63 48 38 33 23 16

Riassunti di Michela Angius 11


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

5 Frequenze e distribuzioni di frequenze

LE FREQUENZE ASSOLUTE, RELATIVE E PERCENTUALI


La frequenza assoluta
Definiamo frequenza assoluta il numero di volte che una modalità è presente nei dati rilevati
(ovvero il numero di volte che viene osservata nella popolazione o nel campione).
La tabella di sintesi delle frequenze assolute
Per la rappresentazione delle frequenze assolute può essere introdotta la tabella di sintesi delle
frequenze assolute:
Modalità Frequenza
assoluta
Modalità 1 n1
Modalità 2 n2
... ...
Modalità i ni
... ...
Modalità k nk
N
Dove:
 ni: il valore della frequenza relativa i-esima;
 N: è il numero totale di unità statistiche, pari alla somma di tutte le frequenze assolute:

𝑁= 𝑥

Esempio di frequenza assoluta


In uno studio sulle caratteristiche personali dei dipendenti di un’azienda si rileva il numero di
figlio di ciascuna unità statistica (il singolo dipendente). La serie grezza risultante, dove la
variabile statistica è il numero di figli, è la seguente:
1 1 0 3 4 3 2 2 0 1
Dai dati appena esposti possiamo costruire la tabella di sintesi delle frequenze assolute:
Numero di Frequenza
figli assoluta
0 2
1 3
2 2

Riassunti di Michela Angius 12


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

3 2
4 1
10
La frequenza relativa
La frequenza relativa associata alla modalità è la quota parte del collettivo su cui si osserva la
modalità.
La frequenza relativa si calcola come:
frequenza assoluta della modalità
frequenza relativa =
numero totale di unità
In formato algebrico:
𝑛
𝑓 =
𝑁
Quindi, la somma di tutte le frequenze relative osservate è pari a 1:

𝑓 =1

La tabella di sintesi delle frequenze relative


Avendo a disposizione la tabella di sintesi delle frequenze assolute è possibile aggiungere una
nuova colonna per rappresentare le frequenze relative:
Modalità Frequenza Frequenza
assoluta relativa
Modalità 1 n1 f1
Modalità 2 n2 f2
... ... ...
Modalità i ni fi
... ... ...
Modalità k nk fk
N 1

Esempio di frequenze relative


Continuando con l’esempio delle frequenze assolute, si ha:
Numero di Frequenza Frequenze
figli assoluta relative
0 2 0,2
1 3 0,3
2 2 0,2
3 2 0,2

Riassunti di Michela Angius 13


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

4 1 0,1
10 1,0
Procedimento:
1) Sommare tutte le frequenze assolute (ni), per ottenere il numero totale di unità:
2 + 3 + 2 + 2 + 1 = 10 ← 𝑁
2) Per trovare il primo valore della frequenza relativa (f1) divideremo la prima frequenza
assoluta (n1) con il numero totale di unità (N):
𝑛 2
𝑓 = = = 0,2
𝑁 10
3) Svolgere il passo n. 2 per tutte le modalità e frequenze assolute.
Come possiamo osservare la sommatoria di tutte le frequenze relative è pari a 1:
0,2 + 0,3 + 0,2 + 0,2 + 0,1 = 1
La frequenza percentuale
La frequenza percentuale (pi) è la versione in percentuale della frequenza relativa. Si ottiene
moltiplicando ogni frequenza relativa per cento:
𝑝 = 𝑓 ∙ 100
da cui:
𝑛
𝑝 = ∙ 100
𝑁
Quindi, la somma di tutte le frequenze percentuali è sempre uguale a 100:

𝑝 = 100

La tabella di sintesi delle frequenze percentuali


Avendo a disposizione la tabella di sintesi delle frequenze relative è possibile aggiungere una
nuova colonna per rappresentare le frequenze percentuali:
Modalità Frequenza Frequenza Frequenza
assoluta relativa percentuale
Modalità 1 n1 f1 p1
Modalità 2 n2 f2 p2
... ... ... ...
Modalità i ni fi pi
... ... ... ...
Modalità k nk fk pk
N 1 100

Esempio di frequenze percentuali


Continuando con l’esempio delle frequenze assolute, si ha:
Riassunti di Michela Angius 14
Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

Numero di Frequenza Frequenze Frequenze


figli assoluta relative percentuali
0 2 0,2 20%
1 3 0,3 30%
2 2 0,2 20%
3 2 0,2 20%
4 1 0,1 10%
10 1,0 100%
Procedimento:
1) Moltiplicare per cento ogni frequenza relativa. Nel caso della prima frequenza
percentuale:
𝑝 = 𝑓 ∙ 100 = 0,2 ∙ 100 = 20
2) Svolgere il passaggio n. 2 per ogni frequenza relativa.
Si può notare come la somma di tutte le frequenze percentuali è pari a 100:
20 + 30 + 20 + 20 + 10 = 100

LE FREQUENZE CUMULATE: ASSOLUTE, RELATIVE E PERCENTUALI


Le frequenze assolute cumulate
La frequenza assoluta cumulata (Ni), associata ad una modalità o a una classe di modalità, è
pari alla somma della frequenza assoluta della modalità e di quelle che la precedono:

𝑁 = 𝑛 (𝑁 = 𝑛 ; 𝑁 = 𝑁)

Quindi, ad esempio, per calcolare la frequenza assoluta cumulata della quarta modalità si
sommano le frequenze assolute della prima, della seconda, della terza e della quarta modalità.
Esempio di frequenze assolute cumulate
Continuando con l’esempio delle frequenze assolute, si ha:
Numero di Frequenza F. assolute
figli assoluta cumulate
0 2 2
1 3 5
2 2 7
3 2 9
4 1 10
10
Procedimento:
1) La prima frequenza assoluta cumulata è sempre uguale alla prima frequenza assoluta

Riassunti di Michela Angius 15


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

2) La seconda frequenza assoluta cumulata è uguale alla somma della prima frequenza
assoluta e la seconda:
2+3=5
3) La terza frequenza assoluta cumulata è uguale alla somma della prima frequenza
assoluta, la seconda e la terza:
2+3+2= 7
4) La quarta frequenza assoluta cumulata è uguale alla somma della prima frequenza
assoluta, la seconda, la terza e la quarta:
2+3+2+2= 9
5) La quinta (e ultima) frequenza assoluta cumulata è uguale alla somma della prima
frequenza assoluta, la seconda, la terza, la quarta e la quinta:
2 + 3 + 2 + 2 + 1 = 10
Si può notare come l’ultima frequenza assoluta cumulata coincide con il numero totale di unità:
2 + 3 + 2 + 2 + 1 = 10 = 𝑁 = 𝑁
Le frequenze relative cumulate
Riprendendo il concetto di frequenze assolute cumulate, definiamo le frequenze relative
cumulate (Fi) come la somma della frequenza relativa della modalità e di quelle delle modalità
che la precedono:

𝐹 = 𝑓 (𝐹 = 𝑓 ; 𝐹 = 1)

Il metodo di calcolo sarà identico a quello delle frequenze assolute cumulate.


L’ultima frequenza relativa cumulata sarà pari a uno, ovvero alla sommatoria di tutte le
frequenze relative.
Esempio di frequenze relative cumulate
Continuando con l’esempio delle frequenze assolute e relative, si ha:
Numero di Frequenza Frequenze F. relativa
figli assoluta relative cumulata
0 2 0,2 0,2
1 3 0,3 0,5
2 2 0,2 0,7
3 2 0,2 0,9
4 1 0,1 1,0
10 1,0
Procedimento:
1) La prima frequenza relativa cumulata è sempre uguale alla prima frequenza relativa
2) La seconda frequenza relativa cumulata è uguale alla somma della prima frequenza
relativa e la seconda:

Riassunti di Michela Angius 16


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

0,2 + 0,3 = 0,5


3) La terza frequenza relativa cumulata è uguale alla somma della prima frequenza
relativa, la seconda e la terza:
0,2 + 0,3 + 0,2 = 0,7
4) La quarta frequenza relativa cumulata è uguale alla somma della prima frequenza
relativa, la seconda, la terza e la quarta:
0,2 + 0,3 + 0,2 + 0,2 = 0,9
5) La quinta (e ultima) frequenza relativa cumulata è uguale alla somma della prima
frequenza relativa, la seconda, la terza, la quarta e la quinta:
0,2 + 0,3 + 0,2 + 0,2 + 0,1 = 1
Si può notare come l’ultima frequenza relativa cumulata è pari a uno:
0,2 + 0,3 + 0,2 + 0,2 + 0,1 = 1 = 𝐹
Le frequenze percentuali cumulate
Riprendendo il concetto di frequenze assolute e relative cumulate, definiamo le frequenze
percentuali cumulate (Pi) come la somma della frequenza percentuale della modalità e di quelle
delle modalità che la precedono:

𝑃 = 𝑝 (𝑃 = 𝑝 ; 𝑃 = 100)

Il metodo di calcolo sarà identico a quello delle frequenze assolute e relative cumulate.
L’ultima frequenza percentuale cumulata sarà pari a cento, ovvero alla sommatoria di tutte le
frequenze percentuali.
Esempio di frequenze percentuali cumulate
Continuando con l’esempio delle frequenze assolute, relative e percentuali, si ha:
Numero di Frequenza Frequenze Frequenze F. percentuali
figli assoluta relative percentuali cumulate
0 2 0,2 20% 20%
1 3 0,3 30% 50%
2 2 0,2 20% 70%
3 2 0,2 20% 90%
4 1 0,1 10% 100%
10 1,0 100%
Procedimento:
1) La prima frequenza percentuale cumulata è sempre uguale alla prima frequenza
percentuale
2) La seconda frequenza percentuale cumulata è uguale alla somma della prima frequenza
percentuale e la seconda:
20 + 30 = 50

Riassunti di Michela Angius 17


Riassunti di Statistica Psicometrica 5. Frequenze e distribuzioni di frequenze

3) La terza frequenza percentuale cumulata è uguale alla somma della prima frequenza
percentuale, la seconda e la terza:
20 + 30 + 20 = 70
4) La quarta frequenza percentuale cumulata è uguale alla somma della prima frequenza
percentuale, la seconda, la terza e la quarta:
20 + 30 + 20 + 20 = 90
5) La quinta (e ultima) frequenza percentuale cumulata è uguale alla somma della prima
frequenza percentuale, la seconda, la terza, la quarta e la quinta:
20 + 30 + 20 + 20 + 10 = 100
Si può notare come l’ultima frequenza percentuale cumulata è pari a cento:
20 + 30 + 20 + 20 + 10 = 100 = 𝑃

Riassunti di Michela Angius 18


Riassunti di Statistica Psicometrica 6. Classi e distribuzione per classi

6 Classi e distribuzione per classi

LE CLASSI STATISTICHE
Le classi di modalità
Se svolgendo un’analisi statistica ci imbattiamo in una numerosità del collettivo grande (ad
esempio in un’analisi censuaria), anche le modalità saranno altrettanto numerose, rendendo
complicato se non impossibile uno studio corretto dei dati rilevati.
Se le modalità fanno riferimento a variabili statistiche quantitative si possono raggruppare le
diverse rilevazioni in classi di modalità. Quindi, le classi ci aiutano ad ottenere una sintesi
efficace, ma distruttiva, di una molteplicità di dati, raggruppando le unità statistiche in base ad
un criterio di vicinanza.
Le classi devono essere:
 Esaustive: rappresentare tutte le rilevazioni in nostro possesso;
 Mutuamente esclusive: non possono contenere unità statistiche che sono
contemporaneamente in due classi diverse.
La tabella di frequenza per classi
Introducendo delle classi (le quali possono essere anche decise, nel modo migliore per
aumentare l’efficacia di sintesi, da noi) possiamo rappresentarle in tabella con il numero delle
frequenze assolute, relative e percentuali.
Questi valori vengono calcolati dalle lunghe serie grezze nello stesso modo delle distribuzioni
esposte in precedenza, aggregando i diversi dati in base alle delineazioni fatte nella definizione
delle classi.
Classe Frequenza Frequenza Frequenza
assoluta relativa percentuale
x0 – x 1 n1 f1 p1
x1 – x 2 n2 f2 p2
... ... ... ...
xi-1 - xi ni fi pi
... ... ... ...
xk-1 - xk nk fk pk
dove:
 x0: estremo inferiore della prima classe;
 x1: estremo superiore della prima classe.
La notazione degli intervalli
Ogni classe rappresenta un intervallo tra due modalità, tale intervallo può essere:

Riassunti di Michela Angius 19


Riassunti di Statistica Psicometrica 6. Classi e distribuzione per classi

 Chiuso a sinistra: l’estremo inferiore è incluso nella classe, il superiore no


𝑥 |−𝑥 →𝑥 ≤𝑥 <𝑥
 Chiuso a destra: l’estremo superiore è incluso nella classe, l’inferiore no
𝑥 −|𝑥 →𝑥 <𝑥 ≤𝑥
 Chiuso sia a sinistra che a destra: entrambi gli estremi sono inclusi nella classe
𝑥 |−|𝑥 → 𝑥 ≤ 𝑥 ≤ 𝑥
 Aperto sia a sinistra che a destra: nessuno dei due estremi è incluso nella classe
𝑥 −𝑥 →𝑥 <𝑥 <𝑥
Esempio di una distribuzione per classi
L’ISTAT conduce un’indagine statistica sul fatturato di tutte le imprese italiane. Lo stesso ente
pubblico divide le modalità in classi come segue:
Classe di fatturato (in euro) Frequenza Frequenza Frequenza
assoluta relativa percentuale
0 |- 100.00 125.123 0,491 49,1%
100.000 |- 1.000.000 88.105 0,346 34,6%
1.000.000 |- 10.000.000 20.107 0,079 7,9%
10.000.000 |- 500.000.000 18.330 0,072 7,2%
500.000.000 |- 100.000.000.000 2.980 0,012 1,2%
254.645 1,000 100%

L’ampiezza di una classe


L’ampiezza di una classe è la differenza tra l’estremo superiore e l’estremo inferiore della classe
stessa:
𝐴 = estremo superiore − estremo inferiore
Esempio dell’ampiezza di una classe
Riprendendo l’esempio dello studio dell’ISTAT sul fatturato delle imprese italiane, si ha:
Classe di fatturato (in euro) Ampiezza
0 |- 100.00 100.000
100.000 |- 1.000.000 900.000
1.000.000 |- 10.000.000 9.000.000
10.000.000 |- 500.000.000 490.000.000
500.000.000 |- 100.000.000.000 99.500.000.000
Procedimento:
1) L’ampiezza della prima classe viene calcolata come la differenza dell’estremo superiore
(100.000) e dell’estremo inferiore (0):
100.000 − 0 = 100.000

Riassunti di Michela Angius 20


Riassunti di Statistica Psicometrica 6. Classi e distribuzione per classi

2) L’ampiezza della seconda classe viene calcolata come la differenza dell’estremo


superiore (1.000.000) e dell’estremo inferiore (100.000):
1.000.000 − 100.000 = 900.000
3) L’ampiezza della terza classe viene calcolata come la differenza dell’estremo superiore
(10.000.000) e dell’estremo inferiore (1.000.000):
10.000.000 − 1.000.000 = 9.000.000
4) L’ampiezza della quarta classe viene calcolata come la differenza dell’estremo superiore
(500.000.000) e dell’estremo inferiore (10.000.000):
500.000.000 − 10.000.000 = 490.000.000
5) L’ampiezza della quinta classe viene calcolata come la differenza dell’estremo superiore
(100.000.000.000) e dell’estremo inferiore (500.000.000):
100.000.000.000 − 500.000.000 = 99.500.000.000
In questo caso siamo di fronte ad una distribuzione per classi con ampiezze diverse.
Tipologie di distribuzioni per classi
Una distribuzione per classi può essere:
 In classi di uguale ampiezza: quando le classi presentano tutte ampiezze uguali. È,
generalmente la più usata, dando al lettore la possibilità di concentrarsi solo sui dati
relativi alle frequenze. Inoltre, da vantaggi nella sintesi grafica;
 In classi di diversa ampiezza: quando le classi presentano ampiezze diverse. Di solito si
usa se vi sono necessità specifiche, per una rappresentazione veritiera, nella definizione
delle classi. In questi casi vi è la necessità di calcolare l’ampiezza e la densità (o intensità)
di ciascuna classe.
L’intensità di una classe
Si definisce intensità di una classe il rapporto tra la sua frequenza relativa e la sua ampiezza:
𝑓
ℎ =
𝐴
Esempio dell’intensità di una classe
L’allenatore di una squadra di basket vuole analizzare l’altezza dei suoi cestiti, suddividendola
nelle seguenti classi di altezza:
Classe di Frequenza Frequenza Ampiezza Intensità
altezza (in cm) assoluta relativa (in cm)
170 |- 185 3 0,111 15 0,0074
185 |- 195 7 0,259 10 0,0259
195 |- 205 11 0,407 10 0,0407
205 |- 220 6 0,222 15 0,0148
27 1,000
Procedimento:

Riassunti di Michela Angius 21


Riassunti di Statistica Psicometrica 6. Classi e distribuzione per classi

1) Per calcolare l’intensità della prima classe dividiamo la sua frequenza relativa con la sua
ampiezza:
0,111
ℎ = = 0,0074
15
2) Seguiamo lo stesso procedimento per le restanti tre classi:
0,259 0,407 0,222
ℎ = = 0,0259 → ℎ = = 0,0407 → ℎ = = 0,0148
10 10 15
Rappresentazione di una distribuzione per classi con ampiezza diversa
Se la distribuzione per classi è ad ampiezze uguali, la sua rappresentazione grafica viene svolta
tramite un istogramma semplice, dove l’altezza di ogni rettangolo è la sua frequenza assoluta o
relativa, mentre la base è unitaria.
Se, invece, la distribuzione per classi è ad ampiezze diverse si procede con un istogramma
particolare, dove per ogni rettangolo raffigurante una singola classe:
 La base è l’ampiezza della classe;
 L’altezza è l’intensità della classe stessa.
Esempio di una rappresentazione grafica di una distribuzione per classi diverse
Continuando con l’esempio dell’allenatore di basket, possiamo rappresentare graficamente –
tramite un istogramma – la distribuzione per classi:

Il valore centrale di una classe


Il valore centrale di una classe è la semisomma dei suoi valori estremi:
estremo superiore + estremo inferiore
𝑥 =
2
Esempio sul valore centrale di una classe
Continuando con l’esempio dell’allenatore di basket, calcoliamo i valori centrali di ciascuna
classe:
Classe di Valore
altezza (in cm) centrale
170 |- 185 177,5
185 |- 195 190

Riassunti di Michela Angius 22


Riassunti di Statistica Psicometrica 6. Classi e distribuzione per classi

195 |- 205 200


205 |- 220 212,5
Procedimento:
1) Per il calcolo del valore centrale della prima classe sommiamo i due estremi e dividiamo
tale somma per due:
170 + 185
𝑥 = = 177,5
2
2) Per i restanti valori centrali procediamo nello stesso modo del punto n. 1:
185 + 195 195 + 205 205 + 220
𝑥 = = 190 → 𝑥 = = 200 → 𝑥 = = 212,5
2 2 2

Riassunti di Michela Angius 23


Riassunti di Statistica Psicometrica 7. Medie

7 Medie

LE MEDIE
Cosa sono e a cosa servono le medie
Le medie sono strumenti con i quali si sintetizzano le distribuzioni statistiche.
L’uso del termine in plurale sottolinea che nella teoria e nella pratica statistica esistono una
pluralità di medie, oltre alla “famosa” media aritmetica, che permettono la sintesi, che
possiedono proprietà e metodi di calcolo differenti.
Tipologie di medie
Possono essere usate, per la sintesi di una distribuzione le seguenti tipologie di medie:
 La media aritmetica;
 La moda;
 La mediana;
 I quartili (primo e terzo);
 I percentili.

LA MEDIA ARITMETICA
La media aritmetica
Si definisce media aritmetica, la quantità determinata attraverso la somma di tutte le modalità
osservate, divisa per la numerosità del collettivo:
𝑥 + 𝑥 + ⋯𝑥 1
𝑥̅ = = ∙ 𝑥
𝑁 𝑁

Esempio di calcolo della media aritmetica


Un gruppo di otto bambini ha ottenuto i seguenti punteggi ad un test attitudinale di
matematica:
Bambino Punteggio
1 160
2 80
3 78
4 64
5 95
6 127
7 140
8 65
809

Riassunti di Michela Angius 24


Riassunti di Statistica Psicometrica 7. Medie

Procedimento:
1) Sommiamo i punteggi di ciascun bambino (xi):
160 + 80 + 78 + 64 + 95 + 127 + 140 + 65 = 809
2) Dividiamo tale somma per il numero di bambini (N) per ottenere la media aritmetica:
809
𝑥̅ = = 101,125
8
Le proprietà della media aritmetica
La media aritmetica gode delle seguenti proprietà statistiche:
 Criterio di Cauchy: questa proprietà dice che la media aritmetica è interna (proprietà
di internalità), essendo compresa fra il minimo e il massimo dei termini della
distribuzione:
min ≤ 𝑥̅ ≤ max
 Criterio di Chisini: la media aritmetica conserva l’ammontare totale;
 Proprietà di baricentricità: la somma algebrica degli scarti dalla media aritmetica è
identicamente nulla:

(𝑥 − 𝑥̅ ) = 0

 Criterio di Wald: la somma degli scarti quadratici dei termini di una distribuzione da
una costante c è minima quando c è uguale alla media aritmetica:

(𝑥 − 𝑥̅ ) = min (𝑥 − 𝑐)

 La somma dei termini della distribuzione è uguale alla media aritmetica moltiplicata
per il numero di unità.

𝑥 = 𝑁 ∙ 𝑥̅

La media aritmetica per una distribuzione di frequenze


Se la distribuzione in analisi è espressa in frequenze assolute, la media aritmetica si calcola
come:
1
𝑥̅ = ∙ 𝑥 ∙𝑛
𝑁
Se la distribuzione è per frequenze relative:

𝑥̅ = 𝑥 ∙𝑓

Esempio di calcolo della media aritmetica in una distribuzione di frequenze

Riassunti di Michela Angius 25


Riassunti di Statistica Psicometrica 7. Medie

Il sindaco di una piccola cittadina vuole analizzare, tramite un’indagine censuaria, quante volte
al mese la sua popolazione si reca alla villa comunale:
Numero di Numero di Frequenza xi n i xi fi
volte (xi) cittadini (ni) relativa (fi)
0 23 0,088 0 0,000
1 80 0,307 80 0,307
2 77 0,295 154 0,590
3 65 0,249 195 0,747
4 12 0,046 48 0,184
5 4 0,015 20 0,075
261 1,000 497 1,903
Procedimento per il calcolo delle media tramite le frequenze assolute:
1) Sommiamo tutte le frequenze assolute per determinare il numero di cittadini coperti
dall’indagine censuaria:
𝑁 = 23 + 80 + 77 + 65 + 12 + 4 = 261
2) Nella tabella delle frequenze, creiamo una nuova colonna (xi ni) che avrà per ogni riga il
prodotto tra il numero di volte che il cittadino si è recato alla villa comunale e il numero
di cittadini (la sua frequenza assoluta). Ad esempio, per le prime tre modalità si avrà:
𝑥 𝑛 = 0 ∙ 23 = 0 → 𝑥 𝑛 = 1 ∙ 80 = 80 → 𝑥 𝑛 = 2 ∙ 77 = 154
3) Sommiamo tutti i prodotti sviluppati al punto n. 2. Il risultato verrà scritto nella cella in
basso all’ultimo prodotto xknk:
0 + 80 + 154 + 195 + 48 + 20 = 497
4) Dividiamo il risultato ottenuto dalla sommatoria del punto n. 3 con il risultato della
sommatoria del punto n. 1 per ottenere la media aritmetica:
497
𝑥̅ = = 1,904
261
5) Il risultato mostra che mediamente la popolazione comunale si reca alla propria villa
1,904 al mese.
Procedimento per il calcolo delle media tramite le frequenze relative:
1) Nella tabella delle frequenze, creiamo una nuova colonna (xi fi) che avrà per ogni riga il
prodotto tra il numero di volte che il cittadino si è recato nell’ultimo mese alla villa
comunale e la sua frequenza relativa. Ad esempio, per le prime tre modalità si avrà:
𝑥 𝑓 = 0 ∙ 0,088 = 0 → 𝑥 𝑓 = 1 ∙ 0,307 = 0,307 → 𝑥 𝑓 = 2 ∙ 0,295 = 0,295
2) Per ottenere la media aritmetica di tale distribuzione di frequenze, basta sommare tutti
i prodotti xifi calcolati al punto n. 1:
0,000 + 0,307 + 0,590 + 0,747 + 0,184 + 0,075 = 1,903

Riassunti di Michela Angius 26


Riassunti di Statistica Psicometrica 7. Medie

3) Questa media aritmetica differisce di pochissimo da quella calcolata con le frequenze


relative, questo per motivi di errori dovuti da arrotondamento nelle moltiplicazioni tra
valori molto piccoli.
La media aritmetica per classi
Il calcolo della media aritmetica per una distribuzione in classi differisce dai metodi esposti fin
ora. In primo luogo, dato che il raccoglimento dei dati in classi è distruttivo, la media sarà solo
un’approssimazione al suo valore reale, calcolabile solo con la serie completa non suddivisa in
classi.
Per il calcolo bisogna, in primo luogo, estrapolare per ogni classe il suo valore centrale, per poi
successivamente moltiplicarlo per le sue frequenze. Nel caso in cui la distribuzione in classi fosse
espressa in frequenze assolute:
1
𝑥̅ ≈ ∙ 𝑥 ∙𝑛
𝑁
Se fosse espressa in frequenze relative:

𝑥̅ ≈ 𝑥 ∙𝑓

Esempio di calcolo della media aritmetica per classi


Il Ministero dell’Istruzione attraverso una relazione su base nazionale di un collettivo di 201 classi
prima media (il nostro campione), vuole studiare la distribuzione del numero di alunni per classi.
La tabella seguente si riferisce alla distribuzione delle frequenze assolute delle classi:
Alunni Numero Valore xini
classi (ni) centrale
8 -| 12 1 10 10
12 -| 16 4 14 56
16 -| 20 15 18 270
20 -| 24 41 22 902
24 -| 28 65 26 1.690
28 -| 32 75 30 2.250
201
Procedimento:
1) Calcoliamo il valore centrale di ciascuna classe. Ad esempio, per le prime due classi si
avrà:
12 + 8 16 + 12
𝑥 = = 10 → 𝑥 = = 14
2 2
2) Aggiungiamo una nuova colonna xini dove moltiplichiamo il valore centrale per il
corrispondente numero di classi (ni). Ad esempio, per le prime due classi si avrà:
𝑥 𝑛 = 1 ∙ 10 = 10 → 𝑥 𝑛 = 4 ∙ 14 = 56

Riassunti di Michela Angius 27


Riassunti di Statistica Psicometrica 7. Medie

3) Sommiamo tutti i valori calcolati dai prodotti svolti al passo n. 2, aggiungendo tale
somma nella casella al di sotto dell’ultimo prodotto xini. Nel nostro caso:
10 + 56 + 270 + 902 + 1.690 + 2.250 = 5.178
4) Sommiamo tutte le frequenze assolute per ricavare il numero totale delle classi
campione (N):
1 + 4 + 15 + 41 + 65 + 75 = 201
5) Per calcolare la media aritmetica dividiamo la sommatoria calcolata al punto n. 3 con
quella calcolata al punto n. 4:
5.178
𝑥̅ ≈ ≈ 25,84
201
6) La grandezza media delle classi è di 25,84 alunni.
La trasformazione lineare e la media aritmetica
Una trasformazione lineare di una variabile quantitativa X nella variabile quantitativa Y ha la
seguente forma algebrica:
𝑦 = 𝑎 + 𝑏𝑥
La media di una distribuzione della variabile Y soddisfa sempre la seguente relazione:
𝑦 = 𝑎 + 𝑏𝑥̅
dove:
 𝑦: media della variabile Y;
 𝑥̅ : media della variabile X.
Quindi possiamo concludere che la media di una trasformazione lineare (Y) è uguale alla
trasformazione lineare della media (X).
Esempio sulla trasformazione lineare della media
In un ascensore di un grande centro commerciale è scritto: “Carico
max: 1.000 kg, e per motivi di sicurezza l’ascensore non parte se tale
peso è superato”.
Supponiamo che siano già dentro 13 persone, il cui peso medio è di 69,5
kg, e che un altro signore di 90 kg stia entrando: l’ascensore partirà?
Partiamo dalla funzione di trasformazione lineare:
𝑦 = 𝑎 + 𝑏𝑥
Che, per quanto riguarda le medie aritmetiche può essere rappresentata come:
𝑦 = 𝑎 + 𝑏𝑥̅
Definiamo come (a) il peso della persona aggiuntiva:
𝑎 = 90 𝑘𝑔
Definiamo come (b) il numero delle persone già presenti in ascensore (è il parametro che
“accompagna” moltiplicando la media di X):
𝑏 = 13

Riassunti di Michela Angius 28


Riassunti di Statistica Psicometrica 7. Medie

La media data dalla traccia dell’esercizio è di 69,5 kg, quindi:


𝑥̅ = 69,5 𝑘𝑔
Sostituiamo tutte i valori nella funzione di trasformazione lineare della media per calcolare il
peso totale delle persone presenti in ascensore con la persona aggiuntiva:
𝑦 = 90𝑘𝑔 + 13 ∙ 69,5𝑘𝑔 = 993,5𝑘𝑔
Il peso totale è minore del peso massimo sopportato, quindi, l’ascensore partirà.

LA MODA
La moda
Per i caratteri qualitativi e quantitativi discreti, la moda è la modalità cui è associata la
frequenza (relativa o assoluta) maggiore.
Per i caratteri quantitativi sintetizzati per classi si parla di distribuzione modale individuata
come la classe cui è associata l’intensità di frequenza maggiore.
Esempio di individuazione della moda in una distribuzione per frequenze
Individuiamo la moda nell’esempio del sindaco e della villa comunale:
Numero di Numero di
volte (xi) cittadini (ni)
0 23
1 80
2 77
3 65
4 12
5 4
261
Come si può facilmente notare la moda è il numero di volte con frequenza assoluta (ni) (ovvero
con il maggior numero di cittadini) maggiore; in questo caso è 1 volta:
𝑀 =1
Esempio di individuazione della moda in una distribuzione per classi
Calcoliamo la moda nell’esempio del numero di alunni per classi dello studio elaborato dal MIR:
Alunni Numero Valore
classi (ni) centrale
8 -| 12 1 10
12 -| 16 4 14
16 -| 20 15 18
20 -| 24 41 22
24 -| 28 65 26

Riassunti di Michela Angius 29


Riassunti di Statistica Psicometrica 7. Medie

28 -| 32 75 30
201
In primo luogo, notiamo che le ampiezze delle classi sono uguali, quindi non andiamo a
osservare l’intensità, ma direttamente le frequenze assolute.
Ricordiamo che la moda è la modalità cui è associata la frequenza (relativa o assolta
maggiore); in questo caso la frequenza maggiore è 75, associata all’intervallo 28 -| 32 (classe
modale).
Più precisamente la moda coincide con il valore centrale della classe modale, nel nostro caso:
32 + 28
𝑥 =𝑀 = = 30
2
LA MEDIANA
La mediana
La mediana (Me) è il valore che bipartisce l’insieme dei dati in due gruppi di uguale numerosità.
Se N è dispari si chiama mediana la quantità di m che occupa il posto centrale, cioè il posto:
𝑁+1
𝑚=
2
della graduatoria dei termini ordinati.
Quindi, la mediana è:
𝑀 =𝑥
Se n è pari, si assume come mediana la media aritmetica dei termini che occupano i due posti
centrali della graduatoria dei termini ordinati:
𝑁 𝑁
𝑚 = ;𝑚 = +1
2 2
In questo caso, la mediana è:
𝑥 +𝑥
𝑀 =
2
Esempio di calcolo della mediana
Un gruppo di otto bambini ha ottenuto i seguenti punteggi ad un test attitudinale di
matematica:
Bambino Punteggio
1 160
2 80
3 78
4 64
5 95
6 127
7 140

Riassunti di Michela Angius 30


Riassunti di Statistica Psicometrica 7. Medie

8 65
809
Procedimento:
1) Ordiniamo i dati in modo crescente. La serie grezza è:
160 80 78 64 95 127 140 65
Quindi la serie ordinata sarà:
64 65 78 80 95 127 140 160

2) Dopo aver ordinato i dati, numeriamoli:


1 2 3 4 5 6 7 8
64 65 78 80 95 127 140 160

3) La numerosità dei bambini (N) è uguale ad 8;


4) Essendo N=8 un numero pari e ricordando che se N è pari, si assume come mediana la
media aritmetica dei termini che occupano i due posti centrali della graduatoria dei
termini ordinati:
𝑁 8 𝑁 8
𝑚 = = = 4; 𝑚 = + 1 = + 1 = 5
2 2 2 2
N.B.: i due valori m1 e m2 equivalgono alle posizioni della seria ordinata;
5) La nostra mediana, quindi, si troverà esattamente tra la quarta e la quinta posizione.
Ora, basterà fare la semisomma dei valori xi in tali posizioni, ovvero:
𝑥 +𝑥 80 + 95
𝑀 = = = 87,5
2 2
6) Il valore mediano dei risultati al test dei bambini è 87,5 punti.
La mediana in classi
Quando la distribuzione è di frequenza per classi, la mediana può essere approssimata a:
0,5 − 𝐹
𝑀 =𝐼 + ∙𝐴
𝐹 −𝐹
dove:
 Im: è l’estremo inferiore della classe mediana;
 Fm: è la frequenza relativa cumulata della classe mediana;
 Fm-1: è la frequenza relativa cumulata della classe precedente a quella della mediana;
 Am: è l’ampiezza della classe mediana.
Esempio di calcolo della mediana in una distribuzione per classi
Calcoliamo la mediana nell’esempio del numero di alunni per classi dello studio elaborato dal
MIR:

Riassunti di Michela Angius 31


Riassunti di Statistica Psicometrica 7. Medie

Alunni Numero Valore Ampiezza Frequenza F. relativa


classi (ni) centrale (Ai) relativa (fi) cumulata
(Fi)
8 -| 12 1 10 4 0,005 0,005
12 -| 16 4 14 4 0,020 0,025
16 -| 20 15 18 4 0,075 0,100
20 -| 24 41 22 4 0,204 0,304
24 -| 28 65 26 4 0,323 0,627
28 -| 32 75 30 4 0,373 1,000
201 1,000
Procedimento:
1) Calcoliamo l’ampiezza di tutte le classi Ai. Vediamo che queta distribuzione è per classi
di uguale ampiezza (A=4);
2) Calcoliamo la frequenza relativa di ciascuna classe (fi);
3) Cumuliamo le frequenze relative per ottenere le frequenze relative cumulate (Fi);
4) Sapendo che la frequenza relativa cumulata della mediana è sempre pari a 0,5,
cerchiamo tale valore nella colonna delle frequenze relative cumulate calcolate al punto
n. 3.
La frequenza relativa cumulata che contiene il valore 0,5 è 0,627 che corrisponde
all’intervallo (classe) 24 -| 28.
Questo perché la prima classe contiene le frequenze relative cumulate da 0 a 0,005; la
seconda da 0,005 a 0,025; la terza da 0,025 a 0,100; la quarta da 0,100 a 0,304; mentre
la quinta (la nostra classe mediana) contiene le frequenze relative cumulate da 0,304 a
0,627 (quindi anche il valore 0,5, ovvero la frequenza relativa cumulata della mediana);
5) Adesso procediamo al calcolo del valore della mediana:
a. L’estremo inferiore della classe mediana (Im) è: 24;
b. La frequenza relativa cumulata della classe mediana (Fm) è: 0,627;
c. La frequenza relativa cumulata della classe precedente a quella mediana (Fm-1) è:
0,304;
d. L’ampiezza della classe mediana (Am) è: 4.
Ricostruiamo la formula della mediana per classi:
0,5 − 𝐹
𝑀 =𝐼 + ∙𝐴
𝐹 −𝐹
da cui:
0,5 − 0,304
𝑀 = 24 + ∙ 4 = 26,43
0,627 − 0,304
I QUARTILI E I PERCENTILI
I tre quartili

Riassunti di Michela Angius 32


Riassunti di Statistica Psicometrica 7. Medie

I quartili sono i valori che dividono la distribuzione in quattro parti di uguale numerosità. I
quartili sono:
 Primo quartile: divide la distribuzione in due parti distinte, la prima contenente il 25% dei
valori, la seconda il 75%.
Corrisponde al 25-esimo percentile ed è pari, in una distribuzione per frequenze, al valore
dell’unità statistica presente nella posizione:
𝑥 = 𝑁 ∙ 0,25
Quindi, il primo quartile in una distribuzione per frequenze (assolute o relative) è:
𝑄 =𝑥
In una distribuzione per classi:
0,25 − 𝐹
𝑄 =𝐼 + ∙𝐴
𝐹 −𝐹
 Secondo quartile: corrisponde al valore che divide la serie ordinata in due parti uguali. È
la mediana:
𝑀 =𝑄
 Terzo quartile: divide la distribuzione in due parti distinte, la prima contenente il 75% dei
valori, la seconda il 25%.
Corrisponde al 75-esimo percentile ed è pari, in una distribuzione per frequenze, al valore
dell’unità statistica presente nella posizione:
𝑥 = 𝑁 ∙ 0,75
Quindi, il terzo quartile in una distribuzione per frequenze (assolute o relative) è:
𝑄 =𝑥
In una distribuzione per classi:
0,75 − 𝐹
𝑄 =𝐼 + ∙𝐴
𝐹 −𝐹
N.B.: per il calcolo del primo e del terzo quartile per classi, il procedimento è lo stesso della
mediana per classi.
Esempio del calcolo del primo e del terzo quartile in una distribuzione per classi
Calcoliamo il primo e il terzo quartile nell’esempio del numero di alunni per classi dello studio
elaborato dal MIR:
Alunni Numero Valore Ampiezza Frequenza F. relativa
classi (ni) centrale (Ai) relativa (fi) cumulata
(Fi)
8 -| 12 1 10 4 0,005 0,005
12 -| 16 4 14 4 0,020 0,025
16 -| 20 15 18 4 0,075 0,100
20 -| 24 41 22 4 0,204 0,304
24 -| 28 65 26 4 0,323 0,627

Riassunti di Michela Angius 33


Riassunti di Statistica Psicometrica 7. Medie

28 -| 32 75 30 4 0,373 1,000
201 1,000
Procedimento per il primo quartile:
1) Sapendo che la frequenza relativa cumulata del primo quartile è sempre pari a 0,25,
cerchiamo tale valore nella colonna delle frequenze relative cumulate calcolate.
La frequenza relativa cumulata che contiene il valore 0,25 è 0,304 che corrisponde
all’intervallo (classe) 20 -| 24.
Questo perché la prima classe contiene le frequenze relative cumulate da 0 a 0,005; la
seconda da 0,005 a 0,025; la terza da 0,025 a 0,100; la quarta (la nostra classe con il
primo quartile) da 0,100 a 0,304.
2) Adesso procediamo al calcolo del valore del primo quartile:
a. L’estremo inferiore della classe del primo quartile (IQ1) è: 20;
b. La frequenza relativa cumulata della classe del primo quartile (FQ1) è: 0,304;
c. La frequenza relativa cumulata della classe precedente a quella del primo
quartile (FQ1-1) è: 0,100;
d. L’ampiezza della classe del primo quartile (AQ1) è: 4.
Ricostruiamo la formula del primo quartile per classi:
0,25 − 𝐹
𝑄 =𝐼 + ∙𝐴
𝐹 −𝐹
da cui:
0,25 − 0,100
𝑄 = 20 + ∙ 4 = 22,94
0,304 − 0,100
Procedimento per il terzo quartile:
1) Sapendo che la frequenza relativa cumulata del terzo quartile è sempre pari a 0,75,
cerchiamo tale valore nella colonna delle frequenze relative cumulate calcolate.
La frequenza relativa cumulata che contiene il valore 0,75 è 1,000 che corrisponde
all’intervallo (classe) 28 -| 32.
2) Adesso procediamo al calcolo del valore del terzo quartile:
a. L’estremo inferiore della classe del terzo quartile (IQ3) è: 28;
b. La frequenza relativa cumulata della classe del terzo quartile (FQ3) è: 1,000;
c. La frequenza relativa cumulata della classe precedente a quella del terzo quartile
(FQ3-1) è: 0,627;
d. L’ampiezza della classe del terzo quartile (AQ3) è: 4.
Ricostruiamo la formula del terzo quartile per classi:
0,75 − 𝐹
𝑄 =𝐼 + ∙𝐴
𝐹 −𝐹
da cui:
0,75 − 0,627
𝑄 = 28 + ∙ 4 = 29,310
1 − 0,627

Riassunti di Michela Angius 34


Riassunti di Statistica Psicometrica 7. Medie

I percentili
I percentili sono particolari indici di posizione calcolati in modo analogo alla mediana e ai
quartili.
Se α è un numero compreso fra 0 e 1 (inclusi), il percentile α% è il numero Pα tale che alla sua
sinistra si accumulano non meno della quota parte α dei dati della serie ordinata.
Il 25-esimo percentile corrisponde al primo quartile, il 50-esimo percentile corrisponde alla
medina e il 75-esimo percentile corrisponde al terzo quartile.
Per il calcolo dei percentili in una distribuzione per frequenze, individuiamo in primo luogo la
posizione del percentile nella serie ordinata come:
𝑥 =𝑁∙𝛼
Il percentile sarà:
𝑃𝛼 = 𝑥
I percentili in una distribuzione per classi
Per il calcolo dei percentili in una distribuzione per classi la formula è simile a quella della
mediana e dei quartili:
𝛼−𝐹
𝑃𝛼 = 𝐼 + ∙𝐴
𝐹 −𝐹

Riassunti di Michela Angius 35


Riassunti di Statistica Psicometrica 8. Variabilità

8 Variabilità

LA VARIABILITÀ E GLI INDICI DI VARIABILITÀ


Cos’è la variabilità
La variabilità di un fenomeno è la sua attitudine a presentarsi con differenti modalità.
Per misurare la variabilità di una distribuzione statistica si introducono indici di variabilità, che
hanno l’onere di misurare l’intensità di variabilità del fenomeno rappresentato dalle serie di
rilevazioni.
Tipologie di indici di variabilità
Si distinguono tre tipologie di indici di variabilità che misurano rispettivamente:
 La variabilità rispetto ad un riferimento: indici di dispersione;
 La distanza tra due posizioni opposte: intervalli di variazione (o range in inglese);
 La disuguaglianza, ovvero la diversità fra le unità statistiche della distribuzione
(differenze medie).
Assiomi sugli indici di variabilità
Un indice, per essere considerato come indice di variabilità, deve rispettare i seguenti assiomi:
 L’indice deve sempre essere positivo o nullo:
≥0
 Se la distribuzione in analisi presenta modalità sempre uguali, è quindi costante, l’indice
deve assumere valore nullo:
=0
 Le misure di variabilità devono essere invarianti (almeno in senso di riferimento) rispetto
a trasformazioni lineari della distribuzione.
Seconda classificazione degli indici di variabilità
Inoltre, gli indici di variabilità possono essere classificati in:
 Indici di variabilità assoluta: possono essere usati solo per confrontare la variabilità di
distribuzioni misurate con le stesse unità di misura. Sono, quindi, espressi nell’unità di
misura dei dati della distribuzione (ad esempio in cm o in kg);
 Indici di variabilità relativa: servono per confrontare la variabilità di distribuzioni
misurate con unità di misura diverse (ad esempio tra una distribuzione che esprime il
peso di una classe di alunni e la loro altezza). Per questo motivo, sono espressi con numeri
puri.

GLI INDICI DI MUTUA VARIABILITÀ


La differenza semplice media
Si definisce differenza semplice media la seguente quantità:
Riassunti di Michela Angius 36
Riassunti di Statistica Psicometrica 8. Variabilità

1
∆= 𝑥 −𝑥
𝑁(𝑁 − 1)

dove:
 N: è la numerosità della serie in esame;
 ∑ 𝑥 − 𝑥 : tale sommatoria indica che bisogna sommare tutti gli scarti in valore
assoluto facendo ruotare i contatori (i e j), ma escludendo dalle somme i casi in cui i = j.
Esempio sulla differenza semplice media
È stato rilevato il voto preso all’ultimo esame di Statistica da quattro alunni scelti casualmente
da una classe:
Alunno Voto (xi,j)
1 30
2 21
3 23
4 28
Procedimento:
1) Notiamo che la numerosità è pari a quattro alunni, quindi:
𝑁 = 4 →𝑁−1= 4−1= 3
2) Il prodotto:
𝑁(𝑁 − 1) = 4 ∙ 3 = 12
3) Procediamo sommando le differenze tra i voti in valore assoluto. Per facilitare il calcolo
costruiamo una tabella come segue, dove all’interno di ogni cella al di sopra della
diagonale superiore, poniamo la differenza in valore assoluto dei voti, mentre nel totale
sommiamo i valori della riga:
X 30 21 23 28 Totale
30 0 9 7 2 18
21 0 2 7 9
23 0 5 5
28 0 0
Totale 32
La sommatoria della formula della differenza semplice media è pari alla cella
individuabile come Totale – Totale (32 in questo esempio)

𝑥 − 𝑥 = |30 − 21| + |30 − 23| + |30 − 28| + |21 − 23| + |21 − 28| + |23 − 28| = 32

4) Per calcolare la differenza semplice media dividiamo il valore della sommatoria


calcolato al passo n. 3 e il valore del prodotto calcolato al punto n. 2:

Riassunti di Michela Angius 37


Riassunti di Statistica Psicometrica 8. Variabilità

1 32
∆= 𝑥 −𝑥 = = 2,667
𝑁(𝑁 − 1) 12

Accorgimenti sulla differenza semplice media


Possiamo dedurre accorgimenti sulla differenza semplice media:
 Il minimo valore di Δ è 0, ciò avviene quando i valori sono costanti e la variabilità è nulla;
 Il massimo valore di Δ si verifica quando tutti i valori fino a (N-1) sono uguali a zero,
mentre l’ultimo (N) è pari a 𝑁𝑥̅ , ovvero uguale al prodotto tra la numerosità e la media
della distribuzione.
In questo ultimo caso, è facile notare che la differenza semplice media è:
∆ = 2𝑥̅
Da questi accorgimenti possiamo concludere che:
0 ≤ ∆≤ 2𝑥̅
La normalizzazione dell’indice di mutua variabilità
Possiamo normalizzare l’indice della differenza semplice media, con la finalità di renderlo
relativo (quindi confrontabile con qualsiasi altra distribuzione) ad un intervallo chiuso tra 0 e 1:

0≤ ≤1
2𝑥̅
Esempio sulla normalizzazione della differenza semplice media
Continuiamo l’esempio sulla differenza semplice media introdotto precedentemente: avevamo
calcolato Δ = 2,667.
Ora si procede calcolando la media della distribuzione:
30 + 21 + 23 + 28
𝑥̅ = = 25,5
4
Normalizziamo la differenza semplice media:
2,667
0≤ ≤1
2 ∙ 25,5
da cui:
0 ≤ 0,052 ≤ 1
Si può notare come la differenza semplice media normalizzata (0,052) è molto più vicina al
valore 0 (che corrisponde alla variabilità nulla) che al valore 1 (che corrisponde alla variabilità
massima della distribuzione.
Possiamo quindi concludere che la nostra distribuzione (i voti dei quattro alunni) ha una
variabilità relativa minima.

GLI INDICI DI VARIABILITÀ RISPETTO ALLA MEDIA ARITMETICA


Le caratteristiche essenziali degli indici di variabilità rispetto alla media aritmetica
Gli indici di variabilità rispetto alla media aritmetica presuppongono che vengano tenuti in
considerazione gli scarti delle modalità rilevate, rispetto alla media.

Riassunti di Michela Angius 38


Riassunti di Statistica Psicometrica 8. Variabilità

Per far si che questi abbiano un valore maggiore o uguale a zero (primo assioma degli indici di
variabilità) bisogna:
 O porre lo scarto in valore assoluto, ad esempio:

|𝑥 − 𝑥̅ |

 O porre lo scarto elevato al quadrato, ad esempio:

(𝑥 − 𝑥̅ )

Di solito, per costruire ed usare un indice di variabilità efficace, si sceglie la seconda opzione, in
quanto: la media aritmetica è il centro di ordine 2, ovvero minimizza la somma degli scarti al
quadrato.
La devianza
Si definisce devianza la quantità che corrisponde agli scarti dalla media aritmetica al
quadrato:

DEV(𝑋) = (𝑥 − 𝑥̅ )

Tale indice presenta un punto debole fondamentale: esso aumenta o diminuisce in funzione
della numerosità delle rilevazioni da analizzare.
Per calcolare la devianza in una distribuzione per frequenze assolute:

DEV(𝑋) = [(𝑥 − 𝑥̅ ) ∙ 𝑛 ]

Per frequenze relative:

DEV(𝑋) = [(𝑥 − 𝑥̅ ) ∙ 𝑓 ]

Per frequenze assolute in classi:

DEV(𝑋) = [(𝑥 − 𝑥̅ ) ∙ 𝑛 ]

oppure se la distribuzione e per classi in frequenze relative:

DEV(𝑋) = [(𝑥 − 𝑥̅ ) ∙ 𝑓 ]

Esempio di calcolo della devianza


Consideriamo l’esempio, svolto nella parte relativa alle medie, del gruppo di otto bambini al test
attitudinale di matematica:
Bambino Punteggio xi-x (xi-x)2

Riassunti di Michela Angius 39


Riassunti di Statistica Psicometrica 8. Variabilità

1 160 58,875 3.466,266


2 80 -21,125 446,266
3 78 -23,125 534,766
4 64 -37,125 1.378,266
5 95 -6,125 37,516
6 127 25,875 669,516
7 140 38,875 1.511,266
8.043,862
Procedimento:
1) Calcoliamo la media della distribuzione (già fatto precedentemente):
𝑥̅ = 101,125
2) Aggiungiamo una nuova colonna alla tabella (definiamola xi-x) nella quale calcoliamo
gli scarti del punteggio con la media. Ad esempio, per i primi due bambini si avrà:
𝑥 − 𝑥̅ = 160 − 101,125 = 58,875 → 𝑥 − 𝑥̅ = 80 − 101,125 = −21,125
3) Aggiungiamo un’ulteriore colonna (definiamola (xi-x)2) nella quale calcoliamo i quadrati
dei valori calcolati al punto precedente. Ad esempio, per i primi due bambini si avrà:
4) Procediamo sommando tutti i valori calcolati al punto n. 3:
3.466,266 + 446,266 + 534,766 + 1.378,266 + 37,516 + 669,516 + 1.511,266 = 8.043,862
Tale risultato verrà messo nella cella al di sotto l’ultima riga della colonna (xi-x)2.
5) La devianza di questa distribuzione è 8.043,862
La varianza
Si definisce varianza la media degli scarti dalla media al quadrato:
1 1
𝜎 (𝑋) = ∙ (𝑥 − 𝑥̅ ) = ∙ DEV(𝑋)
𝑁 𝑁

Quindi è pari al rapporto tra la devianza e la numerosità (N).


La varianza è un indice di variabilità più efficiente della devianza in quanto il suo valore non
dipende in alcun modo dalla variazione della numerosità della distribuzione.
Esempio di calcolo della varianza
Continuiamo l’esempio dei bambini usato per il calcolo della varianza.
Una volta calcolata la devianza della distribuzione (per il calcolo si rinvia a più sopra) basta
dividerla per la numerosità (N). Nel nostro caso N è 8 (ci sono otto bambini) e la devianza pari
a 8.043,862:
1 1 8.043,862
𝜎 (𝑋) = ∙ (𝑥 − 𝑥̅ ) = ∙ DEV(𝑋) = = 1.005,483
𝑁 𝑁 8
La varianza della distribuzione è 1.005,483.
Lo scarto quadratico medio o deviazione standard

Riassunti di Michela Angius 40


Riassunti di Statistica Psicometrica 8. Variabilità

Si definisce scarto quadratico medio (o deviazione standard) la radice quadrata della varianza:

1
𝜎(𝑋) = 𝜎 (𝑋) = ∙ (𝑥 − 𝑥̅ )
𝑁

Esempio di calcolo dello scarto quadratico medio


Do nuovo, completiamo l’esempio dei bambini.
Una volta calcolata la devianza e la varianza, basta porre sotto radice quadrata quest’ultima:
𝜎(𝑋) = 𝜎 (𝑋) = 1.005,483 = 31,709
Si può, grossolanamente, affermare che mediamente vi è uno scarto di 31,709 di punteggio tra
il voto di un bambino della distribuzione e la media della distribuzione stessa.
Il coefficiente di variazione
Il coefficiente di variazione è un indice di variabilità rispetto alla media aritmetica che, al
contrario della devianza, varianza e scarto quadratico medio (che erano di variabilità assoluta),
è di variabilità relativa (percentuale). Esso è:
𝜎
CV = ∙ 100
𝑥̅
Esempio sul coefficiente di variazione
Concludiamo l’esempio svolto con il punteggio ai test attitudinali di matematica da parte degli
otto bambini calcolando il coefficiente di variazione.
Ricordiamo che:
 Lo scarto quadratico medio è: 31,709;
 La media aritmetica della distribuzione è: 101,125.
Allora:
𝜎 31,709
CV = ∙ 100 = ∙ 100 = 31,356%
𝑥̅ 101,125
Si può concludere che i punteggi degli otto bambini al test attitudinale di matematica variano
del 31,356%.

ALTRI INDICI DI VARIABILITÀ


Il campo di variazione
Il campo di variazione è pari alla differenza tra il valore massimo e il valore minimo della
distribuzione:
𝐴 = max (𝑥) − min (𝑥)
Esempio di calcolo del campo di variazione
Ampliando lo studio sulla variabilità della distribuzione dei punteggi degli otto bambini al test
attitudinale di matematica, calcoliamo il campo di variazione, osservando che:
 Il punteggio massimo è stato di 160, registrato dal bambino n. 1;

Riassunti di Michela Angius 41


Riassunti di Statistica Psicometrica 8. Variabilità

 Il punteggio minimo è stato di 64, registrato dal bambino n. 4.


Il campo di variazione sarà:
𝐴 = max(𝑥) − min(𝑥) = 160 − 64 = 96
La semidifferenza interquartilica
La semidifferenza interquartilica è la media aritmetica degli scarti dei quarti dalla mediana in
valore assoluto:
1
𝛿𝑄 = ∙ (𝑄 − 𝑄 )
2
ovvero, pari alla media della differenza interquartilica.
Esempio di calcolo della semidifferenza interquartilica
Per fare un esempio sulla semidifferenza interquartilica prendiamo i dati calcolati dall’esempio
fatto in precedenza per il primo e il terzo quartile.
Dopo aver svolto i calcoli (vedi pag. 32) osserviamo che:
 Il primo quartile è: 22,94;
 Il terzo quartile è: 29,31.
Calcoliamo la semidifferenza interquartilica come:
1 29,31 − 22,94 6,37
𝛿𝑄 = ∙ (𝑄 − 𝑄 ) = = = 3,185
2 2 2
Lo scostamento semplice mediano
Prima avevamo introdotto gli indici di variabilità di scostamento dei valori dalla media
aritmetica. Prendendo i concetti teorici esposti per tali classi di indici, introduciamo lo
scostamento semplice mediano come:
1
𝑆𝑆𝑀 = |𝑥 − 𝑀 |
𝑁

Esempio di calcolo dello scostamento semplice mediano


Riprendiamo l’esempio degli otto bambini al test attitudinale di matematica:
Bambino Punteggio xi-Me |xi-Me|
1 160 72,5 72,5
2 80 -7,5 7,5
3 78 -9,5 9,5
4 64 -23,5 23,5
5 95 7,5 7,5
6 127 39,5 39,5
7 140 52,5 52,5
8 65 -22,5 22,5
809 235,0

Riassunti di Michela Angius 42


Riassunti di Statistica Psicometrica 8. Variabilità

Procedimenti:
1) Ricordiamo che la mediana di tale distribuzione (vedi pag. 28) è 87,5;
2) Aggiungiamo una nuova colonna (definendola xi-Me) alla tabella, nella quale svolgiamo
la differenza tra il punteggio del singolo bambino e il valore mediano (87,5). Ad esempio,
per i primi due bambini si avrà:
𝑥 − 𝑀 = 160 − 87,5 = 72,5 → 𝑥 − 𝑀 = 80 − 87,5 = −7,5
3) Aggiungiamo una seconda colonna (definendola |xi-Me|), nella quale poniamo in valore
assoluto gli scostamenti dalla mediana calcolati al punto n. 3. Ad esempio, per i primi
due bambini si avrà:
|𝑥 − 𝑀 | = |72,5| = 72,5 → |𝑥 − 𝑀 | = |−7,5| = 7,5
4) Sommiamo tutti i valori assoluti calcolati al punto n. 3:
72,5 + 7,5 + 9,5 + 23,5 + 7,5 + 39,5 + 52,5 + 22,5 = 235

Tale risultato verrà posto al di sotto dell’ultima riga della colonna |xi-Me|.
5) Per calcolare lo scostamento semplice mediano dividiamo il risultato della sommatoria
ottenuta al punto n. 4 con la numerosità (N):
235
𝑆𝑆𝑀 = = 29,375
8
IL BOX-PLOT
La rappresentazione con box-plot
Il box plot è un grafico statistico che mostra diverse informazioni utili su di una distribuzione: i
limiti calcolati della distribuzione, il primo e il terzo quartile, la mediana (secondo quartile) e la
possibile presenza di valori anomali.
Il box plot è formato da tre elementi principali:
 Una linea o un punto che indicano la presenza della media o della mediana della
distribuzione;
 Un rettangolo (da lì box) la cui altezza indica la differenza interquartile, in quanto gli
estremi del rettangolo indicano il primo e il terzo quartile;
 Due segmenti che partono dal triangolo e i cui estremi sono determinati in base ai valori
estremi o i limiti della distribuzione.
Limite inferiore e limite superiore della distribuzione
In primo luogo, bisogna calcolare il limite inferiore e il limite superiore. Il limite inferiore è:
𝐿 = 𝑄 − 1,5(𝑄 − 𝑄 )
mentre:
𝐿 = 𝑄 + 1,5(𝑄 − 𝑄 )
dove:
 𝑄 − 𝑄 : la differenza interquartile, un indice di variabilità assoluta.

Riassunti di Michela Angius 43


Riassunti di Statistica Psicometrica 8. Variabilità

I valori anomali
I valori xi della distribuzione che eccedono i limiti (inferiori rispetto al limite inferiore o superiori
rispetto al limite superiore) appena calcolati vengono definiti valori anomali e rappresentati
da punti all’esterno del box plot.
Il grafico box-plot
Il grafico box-plot è rappresentabile come:

Riassunti di Michela Angius 44


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

9 Trasformazioni lineari

LA TRASFORMAZIONE LINEARE
La trasformazione lineare
Ricordiamo che una trasformazione lineare di una variabile quantitativa X nella variabile
quantitativa Y ha la seguente forma algebrica:
𝑦 = 𝑎 + 𝑏𝑥
dove:
 a: il coefficiente di traslazione lineare;
 b: il coefficiente di scala.
La trasformazione lineare della media
Ricordiamo che la media di una distribuzione della variabile Y soddisfa sempre la seguente
relazione:
𝑦 = 𝑎 + 𝑏𝑥̅
dove:
 𝑦: è la media della distribuzione con variabile Y;
 𝑥̅ : è la media della distribuzione con variabile X.
Quindi, la media di una trasformazione lineare (𝑦) è uguale alla trasformazione lineare delle
media di X (𝑎 + 𝑏𝑥̅ ).
La trasformazione lineare e la variabilità
La trasformazione lineare di una variabile (in una seconda variabile) può anche essere usata
per gli indici di variabilità. Per quanto riguarda la varianza e lo scarto quadratico medio, la
trasformazione lineare applicata ad esse risente solo della presenza del coefficiente di scala (b).
Se si applica la formula generale della trasformazione lineare:
𝑦 = 𝑎 + 𝑏𝑥
si ha che la varianza di una trasformazione lineare della variabile X in Y è:
𝜎 (𝑦) = 𝑏 ∙ 𝜎 (𝑥)
La trasformazione lineare dello scarto quadratico medio sarà:
𝜎(𝑦) = 𝑏 ∙ 𝜎(𝑥)
Esempio di trasformazione lineare di una distribuzione
Prendiamo in considerazione una distribuzione della variabile X rappresentata dal seguente
grafico:

Riassunti di Michela Angius 45


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

Applichiamo una trasformazione lineare di traslazione della distribuzione di partenza X di


cinque unità, per avere una nuova distribuzione Y con i valori di X traslati di cinque. Quindi si ha:
𝑦 =5+𝑥
dove:
 a: il coefficiente di traslazione è pari a 5;
 b: il coefficiente di scala è pari ad 1.
La traslazione avrà il seguente effetto grafico sulla distribuzione X:

Osserviamo le caratteristiche della nuova distribuzione Y (trasformazione lineare di traslazione


di cinque unità della distribuzione X):
 Il minimo della distribuzione si è spostato di cinque unità, così come il massimo;
 La media è traslata di cinque unità;
 La variabilità, intesa come dispersione rispetto alla media, non cambia. Da questo si
intuisce che l’unico coefficiente che incide sulla variabilità è il coefficiente di scala (b),
infatti in entrambe le distribuzioni è uguale.

TRE TIPOLOGIE DI TRASFORMAZIONI LINEARI


Tipologie di trasformazioni lineari
Di tutte le trasformazioni lineari possibili ci sono tre di queste che hanno maggiore interesse
delle altre:
 La centratura: rende la media della nuova distribuzione trasformata uguale a zero. Serve
per eliminare l’effetto di medie in distribuzioni diverse, dato che rende tutte le
distribuzioni (per essere successivamente confrontate) a media zero;
 La riduzione: rende lo scarto quadratico medio e la varianza di una distribuzione pari ad
uno;

Riassunti di Michela Angius 46


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

 La standardizzazione: rende la media della nuova distribuzione pari a zero e scarto


quadratico medio e varianza pari ad uno. Deriva, quindi, sia dalla centratura che dalla
riduzione.
La centratura
L’operazione di centratura di una distribuzione quantitativa parte dalla sottrazione della media
alla variabile X:
𝑦 = 𝑋 − 𝑥̅
dove:
 a: il coefficiente di traslazione è pari a −𝑥̅ ;
 b: il coefficiente di scala è pari a 1.
Analizziamo la media della nuova distribuzione (Y) e dimostriamo che essa è pari a zero:
 Ricordiamo che la media di una trasformazione lineare è pari alla trasformazione
lineare della media della distribuzione di partenza:
𝑦 = 𝑎 + 𝑏𝑥̅
 Sostituiamo i valori dei coefficienti dell’operazioni di centratura nella funzione generale
di trasformazione lineare della media:
𝑦 = −𝑥̅ + 𝑥̅ = 0
 Da questo vediamo che la media della nuova distribuzione Y (ottenuta tramite la
centratura della distribuzione di partenza X) è pari a zero.
La riduzione
L’operazione di riduzione di una distribuzione quantitativa parte dal rapporto (divisione) tra la
variabile X e lo scarto quadratico medio della distribuzione stessa:
𝑋 1
𝑦= →𝑦= 𝑋
𝜎(𝑋) 𝜎(𝑋)
dove:
 a: il coefficiente di traslazione è pari zero (non vi è alcun valore sommato ad X);
 b: il coefficiente di scala è pari a 1/𝜎(𝑋) (coefficiente che accompagna X).
La formula generale della varianza di una trasformazione lineare ricordiamo (vedi pag. 43)
essere:
𝜎(𝑦) = 𝑏 ∙ 𝜎(𝑥)
dato che il coefficiente di scala della riduzione è:
1
𝑏=
𝜎(𝑋)
quindi:
1
𝜎(𝑦) = 𝑏 ∙ 𝜎(𝑥) → 𝜎(𝑦) = ∙ 𝜎(𝑥) → 𝜎(𝑦) = 1
𝜎(𝑋)

Riassunti di Michela Angius 47


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

La standardizzazione
L’operazione di standardizzazione di una variabile quantitativa unisce le due trasformazioni
lineari viste in precedenza.
La centratura è:
𝑦 = 𝑋 − 𝑥̅
La riduzione è:
𝑋
𝑦=
𝜎(𝑋)
Otteniamo la standardizzazione (definiamola Z) come:
𝑋 − 𝑥̅
𝑍=
𝜎(𝑋)
 a: il coefficiente di traslazione pari a −𝑥̅ /𝑋;
 b: il coefficiente di scala pari a 1/𝜎(𝑋).
La nuova distribuzione standardizzata (Z) avrà:
 Media pari a zero:
𝑧̅ = 0
 Varianza e scarto quadratico medio pari a uno:
𝜎 (𝑍) = 𝜎(𝑍) = 1
Esempio di centratura, riduzione e standardizzazione di una distribuzione
È stato rilevato il livello di ansia di cinque pazienti:
Paziente 1 2 3 4 5
X (livello di ansia) 61 53 60 88 30

La media di tale distribuzione è:


1 292
𝑥̅ = ∙ (61 + 53 + 60 + 88 + 30) = = 58,4
5 5
La varianza di tale distribuzione è:
1
𝜎 (𝑋) = ∙ [(61 − 58,4) + (53 − 58,4) + (60 − 58,4) + (88 − 58,4) + (30 − 58,4) ] =
5
1
𝜎 (𝑋) = ∙ [(2,6) + (−5,4) + (1,6) + (29,6) + (−28,4) ] =
5
1 1.721,2
𝜎 (𝑋) = ∙ (6,76 + 29,16 + 2,56 + 876,16 + 806,56) = = 344,24
5 5
Lo scarto quadratico medio della distribuzione è:
𝜎(𝑋) = 344,24 = 18,55
Andiamo a centrare la distribuzione X:
𝑦 = 𝑋 − 𝑥̅ = 𝑋 − 58,4

Riassunti di Michela Angius 48


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

Paziente 1 2 3 4 5
X (livello di ansia) 61 53 60 88 30
Y (livello di ansia
2,6 -5,4 1,6 29,6 -28,4
centrato)

La media della distribuzione Y (centratura di X) è:


1 0
𝑦 = ∙ (2,6 − 5,4 + 1,6 + 29,6 − 28,4) = = 0
5 5
Ecco dimostrato come la media di una distribuzione centrata è pari a zero.
Andiamo ad effettuare l’operazione di riduzione sulla distribuzione X (in questo caso chiamiamo
la distribuzione con riduzione R):
𝑋 𝑋
𝑟= =
𝜎(𝑋) 18,55
Paziente 1 2 3 4 5
X (livello di ansia) 61 53 60 88 30
R (livello di ansia
3,29 2,86 3,23 4,74 1,62
con riduzione)

Calcoliamo la media della distribuzione R con riduzione:


1 15,74
∙ (3,29 + 2,86 + 3,23 + 4,74 + 1,62) =
𝑟̅ = = 3,15
5 5
Calcoliamo la varianza e lo scarto quadratico medio della distribuzione R con riduzione per
dimostrare che questa è pari a uno:
1
𝜎 (𝑅) = ∙ [(3,29 − 3,15) + (2,86 − 3,15) + (3,23 − 3,15) + (4,74 − 3,15)
5
+ (1,62 − 3,15) ] =
1
𝜎 (𝑅) = ∙ [(0,14) + (−0,29) + (0,08) + (1,59) + (−1,53) ] =
5
1 4,98
𝜎 (𝑅) = ∙ (0,02 + 0,08 + 0,01 + 2,53 + 2,34) = = 0,996 ≈ 1
5 5
Il valore è approssimabile ad uno, dato che nel calcolo della varianza vi sono state
approssimazioni.
Lo scarto quadratico medio sarà:
𝜎(𝑅) = √1 = 1
Da questo si può evincere come la varianza e lo scarto quadratico medio di una distribuzione
con riduzione hanno un valore unitario.
Infine, standardizziamo la distribuzione X:
𝑋 − 𝑥̅ 𝑋 − 58,4
𝑍= =
𝜎(𝑋) 18,55

Riassunti di Michela Angius 49


Riassunti di Statistica Psicometrica 9. Trasformazioni lineari

Paziente 1 2 3 4 5
X (livello di ansia) 61 53 60 88 30
Z (livello di ansia
0,14 -0,29 0,09 1,60 -1,53
standardizzato)

La media della distribuzione standardizzata Z è:


1 0,01
𝑧̅ = ∙ (0,14 − 0,29 + 0,09 + 1,60 − 1,53) = = 0,002 ≈ 0
5 5
La varianza della distribuzione standardizzata Z è:
1
𝜎 (𝑍) = ∙ [(0,14 − 0) + (−0,29 − 0) + (0,09 − 0) + (1,60 − 0) + (−1,53 − 0) ] =
5
1
𝜎 (𝑍) = ∙ [(0,14) + (−0,29) + (0,09) + (1,60) + (−1,53) ] =
5
1 5,01
𝜎 (𝑍) = ∙ (0,02 + 0,08 + 0,01 + 2,56 + 2,34) = = 1,002 ≈ 1
5 5
Lo scarto quadratico medio della distribuzione standardizzata Z è:
𝜎(𝑍) = √1 = 1
Una tabella riassuntiva dell’esercizio
Paziente 1 2 3 4 5
X (livello di ansia) 61 53 60 88 30
Y (livello di ansia
2,6 -5,4 1,6 29,6 -28,4
centrato)
R (livello di ansia
3,29 2,86 3,23 4,74 1,62
con riduzione)
Z (livello di ansia
0,14 -0,29 0,09 1,60 -1,53
standardizzato)

Riassunti di Michela Angius 50


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

10 Forma ed indici di forma

LA FORMA DI UNA DISTRIBUZIONE


La forma
La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali
relativamente alla simmetria o alla curtosi.
Per analizzare la forma di una distribuzione di dati statistici vi è bisogno che tale distribuzione
sia espressa in frequenze (assolute o relative), quindi, studiare la forma di una distribuzione
semplice è inutile.
Gli indici di forma
Due distribuzioni possono avere la stessa posizione e la stessa variabilità ma possono differire
per l’importanza dei valori più grandi o più piccoli, rispetto al valore centrale, a causa di un
comportamento differenziato nelle due “code” della distribuzione.
Gli indici di forma completano il quadro degli indicatori sintetici delle caratteristiche delle
distribuzioni statistiche di caratteri quantitativi: fin qui abbiamo visto le medie e gli indici di
variabilità.
Gli indici di forma possono classificarsi in:
 Indici di asimmetria: misurano quanto una distribuzione è asimmetrica e di che
tipologia di asimmetria si tratta (positiva o negativa);
 Indici di curtosi: misura l’altezza della gobba di una distribuzione e di conseguenza dello
spessore delle code.

LA SIMMETRIA DI UNA DISTRIBUZIONE


La simmetria
Una distribuzione è simmetrica quando è speculare rispetto ad un asse di simmetria centrale.
Una distribuzione simmetrica può essere di varie tipologie:
a. Distribuzione unimodale (gaussiana):

Riassunti di Michela Angius 51


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

Affinché una distribuzione unimodale sia simmetrica la moda deve necessariamente essere al
centro. Inoltre, se la distribuzione è sia simmetriche che unimodale (quindi gaussiana) la media,
la mediana e la moda coincidono: l’asse di simmetria (linea tratteggiata in rosso nella figura)
coincide con la media, la mediana e la moda:
𝑥̅ = 𝑀 = 𝑀
b. Distribuzione bimodale

Una distribuzione bimodale è una distribuzione simmetrica dove sono presenti due mode, nella
figura rappresentati dai due rettangoli estremi. In questo caso si ha una coincidenza solo di
media e mediana ma non di moda:
𝑥̅ = 𝑀 ≠ 𝑀
c. Distribuzione con assenza di moda.

In questo caso la distribuzione è simmetrica ma priva di moda, dunque a coincidere sono solo
media e mediana:
𝑥̅ = 𝑀
Il ruolo degli scarti nella simmetria
Gli scarti rispetto all’asse di simmetria servono ad evincere se una distribuzione data è
simmetrica. Se la distribuzione è simmetrica, ad ogni scarto negativo corrisponderà uno scarto
positivo di uguale grandezza.
Il metodo di determinazione della simmetria in base agli scarti consiste nel confrontare la
somma degli scarti negativi con la somma degli scarti positivi:
Scarti -6 -2 0 2 6

Riassunti di Michela Angius 52


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

Scarti al
36 4 0 4 36
quadrato
Scarti al
-216 -8 0 8 216
cubo

In questo semplice caso si può facilmente osservare come la somma degli scarti negativi è -8,
vi è la presenza di un termine neutro al centro (il valore zero) e la somma degli scarti positivi è
8. Quindi, secondo il metodo degli scarti vi è simmetria nella distribuzione.
Tuttavia, il metodo degli scarti presenta alcune inconvenienze:
 È un metodo rapido e veloce per distribuzioni semplici aventi pochi valori;
 Seguendo la proprietà di baricentricità la somma degli scarti negativi è sempre uguale
alla somma degli scarti positivi ma con segno opposto.
Quindi, non è possibile usare il metodo degli scarti come indice di simmetria/asimmetria di una
distribuzione statistica, dato che affinché una distribuzione sia simmetrica si dovrebbero avere
esattamente gli stessi scarti negativi e positivi.
Per risolvere tale problema basta elevare al cubo (dato che in questo modo non si perderebbe
il segno) la somma degli scarti: se la distribuzione fosse simmetrica gli scarti negativi elevati al
cubo manterrebbero l’eguaglianza con gli scarti positivi elevati al cubo.
Ricapitolando: non si può attuare il metodo degli scarti prendendo questi in maniera singola
(elevati alla prima) dato che il metodo entrerebbe in conflitto con la proprietà della
baricentricità, neanche farlo prendendoli al quadrato avrebbe senso dato che perderebbero di
segno e non sarebbe possibile confrontare l’uguaglianza tra positivi e negativi. L’elevazione al
cubo (alla terza), invece, ci permette di ovviare tali problematiche.

L’ASIMMETRIA
L’asimmetria
Una distribuzione di frequenza si definisce asimmetrica se è priva di un asse di asimmetria,
ovvero un asse rispetto al quale la distribuzione si può rappresentare in due parti
rispettivamente speculari.
Vari criteri e relativi indici sono utili per misurare il grado di asimmetria di una distribuzione:
 Indice di asimmetria di Fisher;
 Indice di asimmetria di Hotelling-Solomon;
 Indice di asimmetria di Yule-Bowley.
L’indice di asimmetria di Fisher
L’indice di asimmetria di Fisher parte dalle considerazioni svolte fin ora relative all’uso dei cubi
all’interno del metodo degli scarti. Se l’obiettivo è quello di costruire un indice di asimmetria che
non sia influenzato dal numero di rilevazioni, è possibile introdurre la media degli scarti al cubo:
1 𝑥 − 𝑥̅
𝛾 = ∙
𝑁 𝜎

Riassunti di Michela Angius 53


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

Quest’ultima formula espone l’indice di Fisher per una distribuzione in serie grezza.
Se la distribuzione è in frequenze assolute l’indice di Fisher assume la seguente forma:
1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎
Se la distribuzione è di frequenze per classi:
1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎

L’interpretazione dell’indice di asimmetria di Fisher


Se il valore dell’indice di Fisher è pari a zero la distribuzione è simmetrica:
𝛾 = 0 → la distribuzione è simmetrica
Nel caso in cui tale indice fosse diverso da zero la distribuzione è asimmetrica, più in particolare:
 Se 𝛾 < 0: la distribuzione è asimmetrica negativa, ciò significa che la coda lunga della
distribuzione è posta verso sinistra, mentre la maggior parte dei valori è concentrata
sulla destra:

In questo caso:
𝑀 > 𝑀 > 𝑥̅
 Se 𝛾 > 0: la distribuzione è asimmetrica positiva, ciò significa che la coda lunga della
distribuzione è posta verso destra, mentre la maggior parte dei valori è concentrata sulla
sinistra:

𝑀 < 𝑀 < 𝑥̅
Esempio sull’indice di asimmetria di Fisher

Riassunti di Michela Angius 54


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

Alle porte di un negozio di abbigliamento è presente un tablet che permette ai clienti di dare
una valutazione alla loro esperienza all’interno del negozio: essi possono dare un punteggio da
1 a 6 in ordine di soddisfazione crescente. Alla fine della prima giornata di implementazione del
sistema i dipendenti del negozio osservano i seguenti dati:
Valutazione (xi) Persone (ni)
1 3
2 2
3 8
4 5
5 12
6 10
40
Procedimento:
1. Calcoliamo la media della distribuzione:
1 1
𝑥̅ = ∙ (1 ∙ 3 + 2 ∙ 2 + 3 ∙ 8 + 4 ∙ 5 + 5 ∙ 12 + 6 ∙ 10) = ∙ (3 + 4 + 24 + 20 + 60 + 60)
40 40
171
= = 4,275
40
2. Calcoliamo lo scarto quadratico medio della distribuzione (la formula estesa comprende
la devianza e la radice della varianza):

1
𝜎= ∙ (𝑥 − 𝑥̅ ) ∙ 𝑛
𝑁

da cui:

1
𝜎= ∙ [(1 − 4,275) ∙ 3 + (2 − 4,275) ∙ 2 + (3 − 4,275) ∙ 8 + (4 − 4,275) ∙ 5 +]
40

[+(5 − 4,275) ∙ 12 + (6 − 4,275) ∙ 10] =

1 91,975
𝜎= ∙ (32,177 + 10,351 + 13,005 + 0,378 + 6,308 + 29,756) = = 2,300
40 40
= 1,516
3. Possiamo risolvere l’equazione relativa al calcolo dell’indice di asimmetria F di Fisher:
1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎

1 1 − 4,275 2 − 4,275 3 − 4,275 4 − 4,275


𝛾 = ∙ ∙3+ ∙2+ ∙8+ ∙5
40 1,516 1,516 1,516 1,516
5 − 4,275 6 − 4,275
+ ∙ 12 + ∙ 10 =
1,516 1,516

Riassunti di Michela Angius 55


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

1 25,906
𝛾 = ∙ (−30,233 − 6,750 − 4,758 − 0,029 + 1,312 + 14,732) = − = −0,647
40 40
4. Possiamo concludere che tale distribuzione presenta un’asimmetria negativa, dato che
il valore della 𝛾 di Fisher è -0,647 (un numero negativo).
L’indice di asimmetria di Hotelling-Solomon
Confrontando i valori della media e della mediana si ricavano informazioni sul grado di
asimmetria di una distribuzione, se:
𝑥̅ − 𝑀
Da queste considerazioni Hotelling e Solomon hanno dimostrato che:
|𝑥̅ − 𝑀 | < 𝜎
Essi hanno introdotto un indice di asimmetria (chiamato A1) definito nell’intervallo (-1,1) pari a:
𝑥̅ − 𝑀
𝐴 =
𝜎
−1 ≤ 𝐴 ≤ 1
L’indice di asimmetria di Yule-Bowley
Continuando le considerazioni tra indici di posizione introdotte dagli studi statistici di Hotelling
e Solomon, Yule-Bowley hanno sfruttato la relazione:
𝑄 >𝑀 >𝑄
Per costruire l’indice di asimmetria A2:
𝑄 + 𝑄 − 2𝑀
𝐴 =
𝑄 −𝑄

LA CURTOSI
La curtosi
La curtosi è l’allontanamento di una distribuzione dalla normalità (per la teoria relativa ad una
distribuzione normale vedi parte 12).
È un concetto statistico utile all’analisi della forma di una distribuzione, più nello specifico, la
curtosi misura lo spessore delle code di una distribuzione, ovvero il c.d. grado di appiattimento
di questa.
Distribuzione plati-, lepto- e normocurtica
Una distribuzione statistica può essere:
 Normocurtica: quando non vi è curtosi, quindi la distribuzione è definibile come normale,
i valori sono normalmente concentrati intorno alla media;
 Platicurtica: quando la distribuzione presenta un maggiore appiattimento rispetto alla
condizione di normalità della distribuzione stessa, ciò significa che i valori sono poco
concertati introno alla media;

Riassunti di Michela Angius 56


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

 Leptocurtica: quando la distribuzione presenta un maggiore allungamento rispetto alla


condizione di normalità, ciò significa che i valori sono maggiormente concentrati
intorno alla media.

L’indice di curtosi di Fisher


L’indice di curtosi (gamma quattro) è calcolabile come:
1 𝑥 − 𝑥̅
𝛾 = ∙
𝑁 𝜎

Tale formula espone l’indice di curtosi di Fisher per una distribuzione in serie grezza.
Se la distribuzione è in frequenze assolute l’indice gamma quattro assume la seguente forma:
1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎

Se la distribuzione è di frequenze per classi:


1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎

Interpretazione del valore dell’indice di curtosi


Per comprendere se una distribuzione è normo-, lepto- o platicurtica bisogna analizzare il
valore dell’indice di curtosi (gamma quattro). Se:
 𝛾 = 3: la distribuzione è normocurtica;
 𝛾 < 3: la distribuzione è platicurtica;
 𝛾 > 3: la distribuzione è leptocurtica.
Esempio sull’indice di curtosi di Fisher
Continuando con l’esempio dell’indice di asimmetria di Fisher, calcoliamo per la medesima
distribuzione l’indice di curtosi. Ricordiamo che:
 La distribuzione è per frequenze assolute (𝑛 );
 La media della distribuzione è pari a 4,275;
 Lo scarto quadratico medio della distribuzione è pari a 1,516;

Riassunti di Michela Angius 57


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

 L’indice di asimmetria di Fisher è pari a -0,647 (asimmetria negativa).


La formula per il calcolo dell’indice di curtosi di Fisher per distribuzioni per frequenze assolute è:
1 𝑥 − 𝑥̅
𝛾 = ∙ ∙𝑛
𝑁 𝜎

Riportiamo la distribuzione:
Valutazione (xi) Persone (ni)
1 3
2 2
3 8
4 5
5 12
6 10
40
Procedimento:
1. Con i dati già in mano applichiamo direttamente la formula di gamma quattro:
1 1 − 4,275 2 − 4,275 3 − 4,275 4 − 4,275
𝛾 = ∙ ∙3+ ∙2+ ∙8+ ∙5
40 1,516 1,516 1,516 1,516
5 − 4,275 6 − 4,275
+ ∙ 12 + ∙ 10 =
1,516 1,516
1
𝛾 = ∙ (21,78 ∙ 3 + 5,07 ∙ 2 + 0,50 ∙ 8 + 0,01 ∙ 5 + 0,05 ∙ 12 + 1,68 ∙ 10) =
40
1 96,93
𝛾 = ∙ (65,34 + 10,14 + 4,00 + 0,05 + 0,60 + 16,80) = = 2,42
40 40
2. L’indice di asimmetria di Fisher (gamma quattro) è pari a 2,42, molto vicino al valore di
normalità (3), quindi si può concludere che la distribuzione è platicurtica, anche se molto
vicina ad essere normocurtica.

LA TRASFORMAZIONE LINEARE DELL’INDICE DI ASIMMETRIA E DI CURTOSI


La trasformazione lineare dell’indice di asimmetria di Fisher
Seguendo la formula generale di trasformazione lineare di una distribuzione:
𝑦 = 𝑎 + 𝑏𝑥
L’indice di asimmetria di Fisher (𝛾 ) di una distribuzione trasformata Y risulta:
𝛾 (𝑌) = 𝑠𝑒𝑔𝑛𝑜(𝑏)𝛾 (𝑋)
dove:
 𝑠𝑒𝑔𝑛𝑜(𝑏): è il segno del coefficiente di scala della funzione di trasformazione lineare.
Esempio della trasformazione lineare dell’indice di asimmetria di Fisher
Sia data una distribuzione con indice di asimmetria di Fisher:

Riassunti di Michela Angius 58


Riassunti di Statistica Psicometrica 10. Forma ed indici di forma

𝛾 (𝑋) = 1,2
Applicata alla distribuzione X di partenza una trasformazione lineare:
𝑦 = 2𝑥
dove:
 a: coefficiente di traslazione è pari a zero;
 b: coefficiente di scala è pari a +2, quindi il segno di b è +.
L’indice di asimmetria della nuova distribuzione Y trasformata sarà:
𝛾 (𝑌) = 𝑠𝑒𝑔𝑛𝑜(𝑏)𝛾 (𝑋) = +1,2
La trasformazione lineare dell’indice di curtosi di Fisher
L’indice di curtosi di Fisher (𝛾 ) non risente dell’effetto delle trasformazioni lineari, quindi:
𝛾 (𝑌) = 𝛾 (𝑋)

Riassunti di Michela Angius 59


Riassunti di Statistica Psicometrica 11. Analisi di due variabili

11 Analisi della varianza/devianza

LA SCOMPOSIZIONE DELLA DEVIANZA


L’analisi di sottogruppi di una distribuzione
Uno dei compiti principali della statistica descrittiva è quello relativo a determinare se da una
data distribuzione di una variabile, la sua variabilità deriva o meno da una caratteristica
distinguibile delle componenti del gruppo in esame.
Ad esempio, in merito allo studio sull’efficacia di un vaccino la casa farmaceutica produttrice
rileva la quantità di anticorpi presenti all’interno dell’organismo di un gruppo di tester. In tale
gruppo è stato somministrato sia il vaccino reale, sia il placebo. L’obiettivo della ricerca
sull’efficacia sta nel calcolare se la presenza di anticorpi, e la relativa variabilità di tale valore
all’interno della distribuzione di persone partecipanti al trial, deriva dalla somministrazione del
vaccino reale o del placebo. A tal fine si scompone la distribuzione totale delle persone che
hanno partecipato al trial in due sottogruppi, uno con solo le persone a cui è stato
somministrato il vaccino reale e uno con solo le persone a cui è stato somministrato il placebo.
Se il risultato dello studio statistico condotto dalla casa farmaceutica dichiara:
 Indipendenza in media relativa alla variabilità della quantità degli anticorpi presenti
nelle persone della distribuzione originale, tra vaccino reale e placebo essa potrà
concludere che il vaccino non è efficace;
 Dipendenza tra i due sottogruppi, allora la variabilità del valore degli anticorpi fra le
persone che hanno partecipato al trial dipende dalla loro presenza o meno all’interno di
uno dei due gruppi, ovvero se è stato somministrato il vaccino reale o il placebo. In questo
caso si può concludere che il vaccino è efficace.
Il teorema della scomposizione della devianza
Uno dei teoremi utili a questo scopo è quello relativo alla scomposizione della devianza.
Se si scompone una variabile X in G sottogruppi (almeno due), aventi ognuno di essi numerosità:
𝑁 ,𝑁 ,…,𝑁
e medie:
𝑥̅ , 𝑥̅ , … , 𝑥̅
La devianza totale DEV(X) è data dalla somma della devianza interna/spiegata (between) e
della devianza esterna/residua (within):
𝐷𝐸𝑉(𝑋) = 𝐷𝐸𝑉 + 𝐷𝐸𝑉
Da ciò il nome di scomposizione della devianza.
La devianza spiegata viene calcolata come la differenza al quadrato delle medie di ciascun
gruppo con la media totale della variabile X, moltiplicata per la numerosità di ciascun gruppo:

Riassunti di Michela Angius 60


Riassunti di Statistica Psicometrica 11. Analisi di due variabili

𝐷𝐸𝑉 = [(𝑥̅ − 𝑥̅ ) ∙ 𝑁 ]

Mentre, la devianza residua può essere calcolata in maniera residua come la differenza tra la
devianza totale e la devianza spiegata:
𝐷𝐸𝑉 = 𝐷𝐸𝑉(𝑋) − 𝐷𝐸𝑉
dove la devianza totale (o complessiva) può anche essere calcolata come la sommatoria della
differenza tra ogni valore e la media totale della variabile X al quadrato:

𝐷𝐸𝑉(𝑋) = 𝑥 , − 𝑥̅

Quindi:

𝐷𝐸𝑉 = 𝑥 , − 𝑥̅ − [(𝑥̅ − 𝑥̅ ) ∙ 𝑁 ]

Esempio sulla scomposizione della devianza


La seguente tabella riporta i punteggi ottenuti da un gruppo di bambini, distinti in base al
genere, ad un test di socievolezza:
Genere Punteggio
F 5
F 7
F 9
F 6
F 10
M 6
M 9
M 6
M 7
M 7
M 5
M 4

La variabile X rappresenta il voto al test di socievolezza e la distribuzione viene suddivisa in due


sottogruppi (G=2) (femmine e maschi).
Per quanto riguarda la serie grezza delle sole femmine (la numerosità del sottogruppo è di 5):
Genere Punteggio
F 5
F 7

Riassunti di Michela Angius 61


Riassunti di Statistica Psicometrica 11. Analisi di due variabili

F 9
F 6
F 10
Per quanto riguarda la serie grezza di soli maschi (la numerosità del sottogruppo è di 7):
Genere Punteggio
M 6
M 9
M 6
M 7
M 7
M 5
M 4
Procedimento per il calcolo della devianza totale, spiegata e residua:
1. Calcoliamo la devianza spiegata:

𝐷𝐸𝑉 = [(𝑥̅ − 𝑥̅ ) ∙ 𝑁 ]

a. Calcoliamo la media delle sole femmine:


1 37
𝑥̅ = ∙ (5 + 7 + 9 + 6 + 10) = = 7,40
5 5
b. Calcoliamo la media dei soli maschi:
1 44
𝑥̅ = ∙ (6 + 9 + 6 + 7 + 7 + 5 + 4) = = 6,28
7 7
c. Calcoliamo la media totale:
1 44 + 37 81
𝑥̅ = ∙ (5 + 7 + 9 + 6 + 10 + 6 + 9 + 6 + 7 + 7 + 5 + 4) = = = 6,75
12 12 12
d. La devianza spiegata sarà:
𝐷𝐸𝑉 = (7,40 − 6,75) ∙ 5 + (6,28 − 6,75) ∙ 7 = 2,11 + 1,55 = 3,66
2. Calcoliamo la devianza totale:
𝐷𝐸𝑉(𝑋) = (5 − 6,75) + (7 − 6,75) + (9 − 6,75) + (6 − 6,75) + (10 − 6,75)
+ (6 − 6,75) + (9 − 6,75) + (6 − 6,75) + (7 − 6,75) + (7 − 6,75)
+ (5 − 6,75) + (4 − 6,75) = 36,25
3. Calcoliamo la devianza residua:
𝐷𝐸𝑉 = 𝐷𝐸𝑉(𝑋) − 𝐷𝐸𝑉 = 36,25 − 3,66 = 32,60

INDICI DI INDIPENDENZA E DIPENDENZA


La statistica F di Fisher

Riassunti di Michela Angius 62


Riassunti di Statistica Psicometrica 11. Analisi di due variabili

Nel suo grande contributo alla statistica descrittiva, Ronald Fisher ha introdotto anche un indice
valido per il calcolo della dipendenza o dell’indipendenza fra due variabili o valori di due
distribuzioni.
La statistica F di Fisher si calcola mediante i valori ottenuti dalla scomposizione della devianza,
come il rapporto tra la devianza spiegata e la devianza residua:
𝐷𝐸𝑉
𝐹=
𝐷𝐸𝑉
L’interpretazione della statistica F di Fisher
L’indice/statistica F di dipendenza di Fisher è interpretabile come:
 𝐹 tende a 0: vi è un segnale di indipendenza in media fra le due variabili/distribuzioni;
 𝐹 tende a ∞: vi è un maggiore grado di dipendenza fra le due variabili/distribuzioni.
L’obiettivo finale del calcolo della statistica F di Fisher sta nell’interpretare a cosa è dovuta una
variabilità all’interno di una doppia distribuzione (ad esempio tra maschi e femmine), se una
delle due caratteristiche (essere maschio o essere femmina) incidono sul diverso valore della
variabile, infatti:
 A maggiore devianza spiegata corrisponderà un valore superiore della statistica F di
Fisher (in quanto essa è al numeratore del rapporto), significando che le differenze che
provocano la variabilità è spiegata dall’essere di una o dell’altra distribuzione;
 A minore devianza spiegata corrisponderà un valore tende a zero della statistica F di
Fisher, avvicinandoci al caso di indipendenza in media e alla mancanza completa di
relazione tra variabilità nella distribuzione e spiegazione dell’essere o meno di un
sottogruppo.
Esempio sulla statistica F di Fisher
Continuiamo l’esempio relativo al punteggio dei bambini al test di socievolezza per
determinare tramite la statistica F di Fisher se la variabilità presente all’interno della
distribuzione completa (fatta sia da maschi che da femmine) è spiegata o meno
dall’appartenenza dei bambini ad un dato sottogruppo (maschi o femmine), cioè se la
variabilità presente nei punteggi della socievolezza dipende dal genere dei bambini.
Ricordiamo che:
 La devianza spiegata della distribuzione (maschi e femmine) era:
𝐷𝐸𝑉 = 3,66
 La devianza totale della distribuzione era:
𝐷𝐸𝑉(𝑋) = 36,25
 La devianza residua della distribuzione era:
𝐷𝐸𝑉 = 32,60
Da tali valori è possibile calcolare direttamente la statistica F di Fisher come:
𝐷𝐸𝑉 3,66
𝐹= = = 0,112
𝐷𝐸𝑉 32,60

Riassunti di Michela Angius 63


Riassunti di Statistica Psicometrica 11. Analisi di due variabili

Dal valore appena calcolato possiamo concludere che la statistica F di Fisher è tendente a zero,
quindi vi è un maggior livello di indipendenza in media rispetto a dipendenza, quindi non vi è
ragione per affermare che la socievolezza dipende dal genere, ovvero dall’appartenere al
sottogruppo dei maschi o delle femmine.
L’indice eta quadro
Un ulteriore indice per la rappresentazione del grado di indipendenza o di dipendenza
all’interno di una distribuzione è eta quadro, calcolabile come:
𝐷𝐸𝑉
𝜂 =
𝐷𝐸𝑉(𝑋)
Interpretazione dell’indice eta quadro
L’indice eta quadro, essendo compreso tra 0 ≤ 𝜂 ≤ 1, può essere interpretato come segue:
 Se 𝜂 tende 0: vi è un maggior grado di indipendenza;
 Se 𝜂 tende 1: vi è un maggior grado di dipendenza.
Le conclusioni da trarre dall’interpretazione dell’eta quadro sono analoghe a quelle della
statistica F di Fisher.
Esempio dell’eta quadro
Continuiamo l’esempio relativo al punteggio dei bambini al test di socievolezza per
determinare tramite l’eta quadro se la variabilità presente all’interno della distribuzione
completa (fatta sia da maschi che da femmine) è spiegata o meno dall’appartenenza dei
bambini ad un dato sottogruppo (maschi o femmine), cioè se la variabilità presente nei
punteggi della socievolezza dipende dal genere dei bambini. Inoltre, se la conclusione tratta
dall’esempio della statistica F di Fisher è condivisa dall’interpretazione dell’indice eta quadro.
Ricordiamo che:
 La devianza spiegata della distribuzione (maschi e femmine) era:
𝐷𝐸𝑉 = 3,66
 La devianza totale della distribuzione era:
𝐷𝐸𝑉(𝑋) = 36,25
 La devianza residua della distribuzione era:
𝐷𝐸𝑉 = 32,60
 La statistica F di Fisher era:
𝐹 = 0,112
 Quindi si era concluso che vi era indipendenza tra il genere e il punteggio al test di
socievolezza.
Calcoliamo direttamente l’indice eta quadro come segue:
𝐷𝐸𝑉 3,66
𝜂 = = = 0,101
𝐷𝐸𝑉(𝑋) 36,25
Dall’interpretazione del valore dell’indice si può concludere, in linea con l’analisi della statistica
F di Fisher, che vi è un maggior grado di indipendenza.
Riassunti di Michela Angius 64
Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

12 Distribuzione normale e normalità

LA DISTRIBUZIONE NORMALE
La distribuzione normale
La distribuzione normale è una distribuzione campanulare completamente simmetrica. Ciò
significa che se mettiamo al centro un punto di separazione avremo che la parte di destra è
esattamente speculare alla parte di sinistra.

La distribuzione normale è anche conosciuta come distribuzione gaussiana, dal suo autore: il
matematico tedesco Carl Friedrich Gauss.
L’importanza della distribuzione normale
L’importanza della distribuzione normale nello studio statistico è data dal fatto che molti
fenomeni naturali segno una distribuzione simile a quella normale (ad esempio il peso o l’altezza
di un gruppo di individui), anche fenomeni di stampo psicologico (come il quoziente intellettivo
e la scala d’ansia) tendono ad avere scale di misurazione tarate in funzione di punteggi che
seguono un andamento simili-normale.
Le caratteristiche della curva gaussiana
Le principali caratteristiche della curva gaussiana sono le seguenti:
 La frequenza dei valori della distribuzione più elevata coincide con il valore medio
centrale che decresce spostandosi a destra e a sinistra;
 Allontanandosi dalla media la curva si avvicina sempre più all’asse orizzontale delle
ascese senza mai toccarlo (asintoto orizzontale);
 L’area complessiva sottesa alla curva normale è uguale ad uno, perché (da un punto di
vista dello studio statistico della probabilità) comprende tutte le probabilità di un dato
evento analizzabile mediante la statistica inferenziale. Tale area è calcolabile come
l’integrale definito della funzione gaussiana.
Esempio teorico di un fenomeno normale/gaussiano
Prendiamo come esempio di distribuzione normale una distribuzione per frequenze relative (𝑓 )
dell’altezza (in cm) di un gruppo di individui. Tali valori si concentrano introno alla media della

Riassunti di Michela Angius 65


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

distribuzione e la frequenza relativa degli individui di una data altezza decresce con lo
spostamento, verso destra o verso sinistra, rispetto al valore in cm della media della
distribuzione stessa.

Questo andamento tra valori probabili e valori rari (ovvero i più esterni rispetto al valore
centrale) è presente in molti fenomeni naturali dove la maggior parte dei valori si trova
concentrata rispetto al centro della curva e quando si analizzano valori più bassi o valori più
alti rispetto alla media la frequenza diminuisce.

MEDIA E VARIANZA DI UNA DISTRIBUZIONE NORMALE


I due parametri della curva gaussiana
Una curva normale è caratterizzata da una funzione di tipo gaussiana:
1 ( )
𝑦= 𝑒
𝜎√2𝜋
dove:
 𝜎 : varianza della distribuzione;
 𝜋: pi greco pari a 3,14;
 𝑥: il valore della variabile quantitativa X sotto esame;
 𝜇: media aritmetica della distribuzione (𝑥̅ );
Quindi, oltre che dal valore della variabile quantitativa X, la distribuzione normale dipenderà
dalla varianza e dalla media della distribuzione in esame. Si può scrivere la formula della
distribuzione normale/gaussiana in maniera ridotta come:
𝑋~𝑁(𝜇; 𝜎 )
Si legge: “X si distribuisce secondo una distribuzione normale N con media mu e varianza sigma
quadro”
Variazione della media della distribuzione
Cosa accade se varia la media di una distribuzione normale X, ovvero se:
𝑋~𝑁(𝜇; 𝜎 ) → 𝑌~𝑁(𝜇 ; 𝜎 )
Si forma una nuova distribuzione normale Y con stessa varianza ma con media diversa, sul
piano grafico e algebrico la media della distribuzione, insieme alla distribuzione stessa si sposta
verso destra o verso sinistra:

Riassunti di Michela Angius 66


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

N.B.: nelle distribuzioni normali la media viene rappresentata dal simbolo greco 𝜇 (mu) in
quanto fa riferimento alla media di una variabile di una popolazione, mentre usiamo il simbolo
latino 𝑥̅ per la media c.d. campionaria.

In questo caso:
 La distribuzione originale X in rosso ha media pari a 100 e varianza pari a 15:
𝑋~𝑁(𝜇 = 100; 𝜎 = 15)
 La distribuzione traslata verso destra in blu Y ha stessa varianza e media pari a 120;
𝑌~𝑁(𝜇 = 120; 𝜎 = 15)
 La distribuzione traslata verso sinistra in verde W ha stessa varianza e media pari a 80.
𝑊~𝑁(𝜇 = 80; 𝜎 = 15)
Variazione della varianza della distribuzione normale
Cosa accade se varia la varianza di una distribuzione normale X, ovvero se:
𝑋~𝑁(𝜇; 𝜎 ) → 𝑌~𝑁(𝜇; 𝜎 )
Si forma una nuova distribuzione normale Y con stessa media ma con varianza diversa, sul
piano grafico e algebrico la distribuzione si appiattisce o si stringe intorno al valore della media:

In questo caso:
 La distribuzione originale X in rosso ha media pari a 100 e varianza pari a 15:

Riassunti di Michela Angius 67


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

𝑋~𝑁(𝜇 = 100; 𝜎 = 15)


 La distribuzione in blu Y ha stessa media e varianza maggiore (curva più piatta) pari a
20;
𝑌~𝑁(𝜇 = 100; 𝜎 = 20)
 La distribuzione in verde W ha stessa media e varianza minore (curva più stretta) pari a
5.
𝑊~𝑁(𝜇 = 100; 𝜎 = 5)

LA DISTRIBUZIONE NORMALE STANDARDIZZATA


Le proprietà della distribuzione normale
La distribuzione normale gode della seguente proprietà:
 Qualunque trasformazione lineare di una distribuzione normale continua ad essere una
distribuzione normale: l’importanza di tale proprietà risiede nel fatto che ci permette di
standardizzare una distribuzione normale in una c.d. distribuzione normale
standardizzata (vedi dopo);
La standardizzazione della distribuzione normale
Se, grazie alla proprietà sopra descritta, qualsiasi tipo di trasformazione lineare di una
distribuzione normale continua ad essere una distribuzione normale, possiamo fare una
trasformazione lineare di standardizzazione su di una qualsiasi distribuzione gaussiana per
facilitare i calcoli in alcuni esercizi specifici di statistica (che vedremo successivamente).
Ricordiamo che la standardizzazione segue la seguente formula/funzione:
𝑋 − 𝑥̅
𝑍=
𝜎(𝑋)
Nel nostro caso specifico:
𝑋−𝜇
𝑍=
𝜎
da cui:
𝑋~𝑁(𝜇; 𝜎 ) → 𝑍~𝑁(0,1)
ovvero possiamo trasformazione, grazie alla standardizzazione, una qualsiasi distribuzione
normale in una distribuzione normale specifica con media pari a zero e varianza/scarto
quadratico medio pari ad uno.
Le caratteristiche di una distribuzione normale standardizzata
La distribuzione normale standardizzata ha le seguenti caratteristiche:
 L’area sottesa alla curva normale standardizzata è pari ad uno (o 100%):

Riassunti di Michela Angius 68


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

 La media di una distribuzione normale standardizzata (pari a zero) divide in due parti
uguali l’area sottesa, a destra avremo il 0,5 (50%) valori più grandi della distribuzione,
mentre a sinistra i restanti 50% dei valori minori della media:

 Se si prende uno scarto quadratico medio pari ad uno sia a destra che a sinistra della
media pari a zero, si racchiudono i valori della distribuzione normale standardizzata
entro un intervallo pari al 0,6826 (68,26%) dei dati:

 Se si prende uno scarto quadratico medio pari a due sia a destra che a sinistra della
media pari a zero, si racchiudono i valori della distribuzione normale standardizzata
entro un intervallo pari al 0,9545 (95,45%) dei dati:

Riassunti di Michela Angius 69


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

 Se si prende uno scarto quadratico medio pari a tre sia a destra che a sinistra della
media pari a zero, si racchiudono i valori della distribuzione normale standardizzata
entro un intervallo pari al 0,9545 (95,45%) dei dati:

 Se si prende uno scarto quadratico medio pari a quattro sia a destra che a sinistra della
media pari a zero, si racchiudono i valori della distribuzione normale standardizzata
entro un intervallo pari a circa uno (100%) dei dati:

ESERCIZI CON LA TAVOLA DELLA NORMALE STANDARDIZZATA


La tavola della distribuzione normale standardizzata

Riassunti di Michela Angius 70


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

Alcuni esercizi di statistica possono chiedere, dato un fenomeno che si distribuisce secondo una
distribuzione normale di calcolare il numero di dati che è compreso all’interno di un
determinato intervallo.
Ciò viene svolto mediante la standardizzazione della distribuzione normale iniziale e
l’individuazione delle aree sottese grazie all’uso delle tavole sulla distribuzione normale
standardizzata.
Esempi sull’uso della tavola della normale standardizzata
Se:
𝑋~𝑁(𝜇 = 100; 𝜎 = 196)
determinare quanto vale l’area sottesa nell’intervallo 𝑃(86 ≤ 𝑋 ≤ 128)
Procedimento:
1. Standardizziamo la distribuzione normale:
𝑋−𝜇
𝑍=
𝜎
2. Calcoliamo lo scarto quadratico medio:
𝜎= 𝜎 = √196 = 14
3. Calcoliamo i valori standardizzati del limite inferiore dell’intervallo dell’area da
calcolare:
86 − 100 −14
𝑧 = = = −1
14 14
4. Calcoliamo i valori standardizzati del limite inferiore dell’intervallo dell’area da
calcolare:
128 − 100 28
𝑧 = = =2
14 14
5. L’area da calcolare è la seguente:

6. Per calcolare l’area [nella figura in rosso], compresa tra 𝑃 (−1 ≤ 𝑍 ≤ 2) ci aiutiamo con
le tavole sulla normale standardizzata fornite dal professore. Esse forniscono il valore
delle aree alla sinistra dei valori standardizzati z, quindi l’area 𝑃 (−1 ≤ 𝑍 ≤ 2) può essere
intesa come 𝑃 (−1 ≤ 𝑍 ≤ 0) + 𝑃 (0 ≤ 𝑍 ≤ 2);

Riassunti di Michela Angius 71


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

7. Per calcolare l’area 𝑃 (−1 ≤ 𝑍 ≤ 0) sottraiamo a 0,5 (semi-area sottesa sinistra alla
media pari a zero) il valore dell’area riscontrata per 𝑧 = −1 sulle tavole del professore:

𝑃 (−1 ≤ 𝑍 ≤ 0) = 0,5 − 0,15866 = 0,34134


8. Per calcolare l’area 𝑃 (0 ≤ 𝑍 ≤ 2) sottraiamo a 0,5 l’area riscontrata dal valore -2 (in
quanto la curva gaussiana è simmetrica, quindi l’area alla sinistra di 𝑧 = −2 è uguale
all’area alla destra di 𝑧 = 2):

𝑃 (0 ≤ 𝑍 ≤ 2) = 0,5 − 0,02275 = 0,47725


9. L’area sarà:
𝑃 (−1 ≤ 𝑍 ≤ 2) = 0,34134 + 0,47725 = 0,8186 ≈ 0,82

IL TEST CHI QUADRO


Il test chi quadro
Il test chi quadro ha l’obiettivo di calcolare se una distribuzione in esame si avvicina ad una
distribuzione di tipo normale.
Esso lo fa confrontando i valori effettivi della distribuzione (ovvero le frequenze osservate) e le
c.d. frequenze teoriche o attese, ovvero le frequenze che ci aspetteremmo nel caso in cui la
distribuzione sotto esame è di tipo normale. Il chi quadro confronta, quindi le frequenze
osservate su di un istogramma con una curva normale.
Il test statistico chi quadro per una distribuzione in classi in frequenze assolute consta dei
seguenti procedimenti:
1. Calcolo delle frequenze relative:
𝑛
𝑓 =
𝑁
2. Cumuliamo le frequenze relative in 𝐹 ;
3. Calcolo della media della distribuzione:
1
𝑥̅ = (𝑥 ∙ 𝑛 )
𝑁
4. Calcolo dello scarto quadratico medio della distribuzione:

Riassunti di Michela Angius 72


Riassunti di Statistica Psicometrica 12. Distribuzione normale e normalità

1
𝜎= [(𝑥 − 𝑥̅ ) ∙ 𝑛 ]
𝑁

5. Standardizziamo gli estremi superiori delle classi della distribuzione per frequenze
assolute:
𝑥 − 𝑥̅
𝑧=
𝜎
6. Troviamo nelle tavole della normale standardizzata i valori delle z calcolate nel punto
precedente. Queste saranno le frequenze relative cumulate teoriche della distribuzione
normale da dover confrontare con la distribuzione per classi di partenza:
𝐹∗
7. Eseguiamo l’operazione inversa della cumulazione per le frequenze relative cumulate
teoriche trovate nel punto precedente, per calcolare le frequenze relative teoriche della
distribuzione normale da confrontare:
𝑓 ∗ = 𝐹∗ − 𝐹∗
8. Calcolare le frequenze assolute teoriche come:
𝑛∗ = 𝑓 ∗ ∙ 𝑁
9. Calcolare il chi quadro come:
(𝑛∗ − 𝑛 )
𝜒 =
𝑛∗

10. Calcolare la contingenza quadratica media come:


𝜒
Φ =
𝑁
Interpretazione del valore del chi quadro
Se il:
𝜒 =0
allora:
𝑛 = 𝑛∗
per ogni classe della distribuzione, quindi, è possibile concludere che se il chi quadro è pari a
zero, la distribuzione “empirica” in esame è una distribuzione normale. Logicamente, al tendere
del valore del chi quadro verso zero, la distribuzione empirica diventerà sempre più una
distribuzione simil-normale.

Riassunti di Michela Angius 73


Anno accademico 2020/2021

Riassunti di Statistica
psicometrica
Università degli Studi di Napoli Federico II
Docente: Domenico Vistocco
Riassunti di: Michela Angius
SECONDA PROVA INTERCORSO
Indice degli argomenti
13 Probabilità e statistica 76
Cos’è la probabilità?
Tre pilastri della probabilità
Operazioni sugli eventi
Due eventi particolari
Rappresentazione grafica della probabilità
Relazioni tra eventi
Probabilità e sue proprietà
Probabilità condizionata
Teorema di Bayes
14 Variabili casuali 92
Concetto e definizioni variabili casuali
Variabili casuali discrete
Variabili casuali continue
15 Particolari modelli di variabili casuali 99
Modelli di variabili casuali
Distribuzione uniforme discreta
Distribuzione bernoulliana
Distribuzione binomiale
Teorema del limite centrale

Riassunti di Michela Angius 75


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

13 Probabilità e statistica

INTRODUZIONE ALLA PROBABILITÀ


Perché studiare la probabilità nella statistica
Riprendendo gli studi statistici intrapresi nella prima parte del corso, e riguardanti la statistica
descrittiva, si può facilmente notare come l’introduzione di un argomento come quello della
probabilità a primo impatto sembri uno sconvolgimento radicale degli argomenti fin ora
trattati.
Invece, la probabilità è fondamentale per la statistica, dato che, nel caso in cui vogliamo
ampliare le nostre osservazioni campionarie a realtà più grandi (ai c.d. universi statistici), è
necessario mettere in atto determinati meccanismi statistici per ampliare correttamente i
nostri calcoli e rilevazioni sui sottoinsiemi della realtà osservata.
In molti studi, quindi, non si dispone di dati ed osservazioni sull’intera popolazione (vedi
pacchetto di riassunti precedenti) e per “estrapolare” dal campione a nostra disposizione
informazioni utili e corrette sul fenomeno e sulla popolazione ci si deve fornire di alcuni concetti
e strumenti statistici legati alla probabilità.
La fase di estrazione ed il campionamento
Se si vuole studiare da un punto di vista statistico un fenomeno reale, ma non si dispone di risorse
e capacità per analizzarlo sull’intera popolazione di riferimento (compiere quindi una c.d.
analisi censuaria – vedi sempre pacchetto di riassunti precedente), bisogna in primo luogo
compiere una fase di estrazione di un campione.
Tale fase di estrazione, se opportunamente svolta in maniera casuale grazie all’aiuto dato dalla
probabilità, ci permette di “governare” l’errore che è insito al successivo passaggio di
trasformazione delle rilevazioni e dei calcoli sul campione a dati “probabili” sull’intera
popolazione.
La fase di generalizzazione dei risultati: la statistica inferenziale
Dopo aver estratto un campione della popolazione iniziale è possibile usare strumenti statistici
per ottenere informazioni sulla popolazione di riferimento. Questo avviene nella fase di
generalizzazione delle rilevazioni dal particolare (campione) al generale (popolazione), definita
come operazione di inferenza statistica.
L’obiettivo della statistica inferenziale è quello di capire se le misurazioni che abbiamo ottenuto,
tramite gli strumenti della sintesi descrittiva (teoria completa esposta nei riassunti precedenti),
sono valide e fino a che punto, ovvero con che margine di errore sono valide o errate, anche per
la popolazione sotto esame.
Esempio sull’importanza della probabilità nella statistica
Prendiamo in considerazione uno studio svolto dall’Università Federico II sul reddito percepito
dalle famiglie di Napoli durante l’ultimo anno (2020) segnato dagli effetti economici della

Riassunti di Michela Angius 76


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

pandemia da Covid-19, per confrontarlo con un altro studio sullo stesso fenomeno [reddito
percepito dalle famiglie] ma relativo a quelle di Milano, svolto dall’Università Bocconi, e
osservare le differenze tra di esse.
L’Università non ha, però, a propria disposizione né risorse economiche né tempo materiale per
chiedere e – quindi – rilevare da ciascuna famiglia napoletana il reddito percepito nell’ultimo
anno. La statistica, grazie all’uso della probabilità, permette di svolgere la stessa analisi su un
campione, ad esempio di 600 famiglie napoletane (un numero affrontabile dalle risorse e dai
tempi concessi all’Università), e da essa estrapolare informazioni utili e parzialmente corrette
sul reddito di tutte le famiglie di Napoli (l’universo relativo allo studio in questione).
Logicamente, tra le rilevazioni e i relativi calcoli statistici svolti sul campione e quelli reali della
popolazione esiste un errore differenziale che può essere, anch’esso, studiato ed analizzato dagli
strumenti sulla probabilità offerti dalla statistica.
Così, ad esempio, si conclude lo studio sulle 600 famiglie napoletane affermando, con una
sicurezza del 95%, che il reddito medio percepito dalla totalità delle famiglie napoletane
durante il 2020 è stato compreso tra 26.400 e 30.000€, senza chiedere a ciascuna di esse, ma
a solo ad una parte (600) scelta casualmente nella fase di estrazione del campione.

I TRE PILASTRI DELLA PROBABILITÀ


I tre pilastri dello studio della probabilità
Per affrontare in maniera schematica la probabilità statistica è possibile definirla a partire da
tre pilastri fondamentali:
 L’esperimento probabilistico;
 L’evento;
 La probabilità in senso stretto.
L’esperimento probabilistico
Si definisce esperimento probabilistico la rilevazione di un fenomeno di cui non abbiamo la
certezza dell’esito finale. Quindi, l’esperimento probabilistico è un qualunque esperimento
scientifico caratterizzato dall’incertezza.
Esempi di esperimento probabilistico
Tipici esempi di esperimenti probabilistici possono essere:
 Il lancio di una moneta;
 Il lancio di un dado da sei facce;
 Il pescaggio di una carta da un mazzo di carte napoletane;
 La vittoria di una squadra in una partita di calcio.
L’evento
Un po’ più complessa rispetto all’esperimento probabilistico, è la definizione di evento.
Banalmente, però, si può definire l’evento come l’esito o il risultato di un esperimento
probabilistico.
Gli eventi possono distinguersi in:
Riassunti di Michela Angius 77
Riassunti di Statistica Psicometrica 13. Probabilità e statistica

 Eventi elementari (detti anche atomi): eventi “composti” da esiti singoli;


 Eventi in senso ampio: possono essere composti da diversi eventi elementari
opportunamente collegati fra di loro, creando così dei macroeventi.
Esempi di evento
Riprendendo i quattro esempi di esperimento probabilistico esposti in precedenza, si possono
avere come:
 Eventi elementari:
o Lancio di una moneta → {testa; croce}
o Lancio di un dado a sei facce → {1; 2, 3, 4, 5, 6}
o Il pescaggio di una carta da un mazzo di carte napoletane → solo alcuni esempi
{asso di bastoni, tre di denari, re di coppe};
o La vittoria di una squadra in una partita di calcio → se la partita è uno scontro
diretto tra Napoli e Roma {Napoli, Roma}.
 Eventi in senso ampio:
o Lancio di una moneta → {testa o croce}
o Lancio di un dado a sei facce → {numero pari, numeri dispari, numero superiore
a quattro, ecc...}
o Il pescaggio di una carta da un mazzo di carte napoletane → solo alcuni esempi
{carta di denari, figura, ecc...};
o La vittoria di una squadra in una partita di calcio → se la partita è uno scontro
diretto tra Napoli e Roma {Napoli o Roma}.
La probabilità
Una definizione in senso stretto di probabilità è data dal concetto di valutazione numerica che
si assegna ad un esito in un esperimento probabilistico.
La probabilità è, quindi, espressa da un numero compreso tra 0 e 1:
0≤𝑃≤1
anche rappresentabile su scala percentuale come un numero compreso tra 0 e 100%:
0% ≤ 𝑃 ≤ 100%
Esempi di probabilità
Relativi agli esempi sugli eventi e sugli esperimenti probabilistici possono essere introdotti alcuni
esempi sulla probabilità come:
 Qual è la probabilità percentuale dell’uscita di testa in un lancio di una moneta?
 Qual è la probabilità che esca un numero maggiore di due nel lancio di un dado di sei
facce?
 Qual è la probabilità percentuale di pescare casualmente una figura di denari da un
mazzo di carte napoletane?
 Qual è la probabilità che il Napoli vinca contro la Roma stasera?

Riassunti di Michela Angius 78


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

DUE EVENTI PARTICOLARI


I due eventi particolari
Per un efficace studio della probabilità statistica è necessario introdurre due tipologie
particolari di eventi:
 L’evento certo;
 L’evento impossibile.
L’evento certo e lo spazio campione
L’evento certo è l’evento che sicuramente si verificherà come il risultato di un esperimento
probabilistico.
Numericamente la probabilità assegnata all’evento certo è pari ad uno (o cento percento):
𝑃 = 1 = 100%
L’evento certo viene anche indicato come spazio campione (con simbologia 𝑆 oppure Ω) in
quanto può essere visto come l’insieme di tutti i possibili esiti che si possono osservare da un
esperimento probabilistico.
Esempio di evento certo
Esempi di eventi certi collegati agli eventi e agli esperimenti probabilistici esposti prima
possono essere:
 La probabilità che con il lancio di una moneta esca o testa o croce;
 La probabilità che nel lancio di un dado a sei facce esca 1 o 2 o 3 o 4 o 5 o 6;
 La probabilità che nello scontro diretto tra Napoli e Roma vinca o il Napoli o la Roma.
In questi casi gli spazi campione degli esperimenti probabilistici sono:
 Ω = {testa, croce}
 Ω = {1,2,3,4,5,6}
 Ω = {Napoli, Roma}
L’evento impossibile
L’evento impossibile è, invece, quell’evento che sicuramente non si verifica come risultato di un
esperimento probabilistico.
Numericamente la probabilità assegnata all’evento impossibile è pari a zero:
𝑃=0
Con la rappresentazione algebrica degli insiemi, l’evento impossibile può essere definito come
l’insieme vuoto:
∅ = {}
Esempi di eventi impossibili
Per fare degli esempi sugli eventi impossibili ci si può “divertire” definendo eventi che non hanno
nulla a che fare con l’esperimento probabilistico, così che:
 La probabilità che esca il sette bello in un lancio di una moneta è un evento impossibile;

Riassunti di Michela Angius 79


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

 La probabilità che esca Napoli nel lancio di un dado a sei facce è un evento impossibile;
 La probabilità che vinca il dieci di coppe nello scontro diretto fra Napoli e Roma è un
evento impossibile.
Altri tipici esempi, più “realistici o logici”, collegati agli stessi esperimenti probabilistici sono:
 La probabilità che esca un otto dal lancio di un dado a sei facce;
 La probabilità che si peschi l’asso di cuori dall’estrazione di una carta da un mazzo di
carte napoletano;
 La probabilità che vinca la Juventus nello scontro diretto tra Napoli e Roma.

OPERAZIONI SUGLI EVENTI


Operazioni sugli eventi e algebra degli insiemi
Considerando gli eventi come insiemi di eventi elementari è possibile introdurre le operazioni
tipiche dell’algebra degli insiemi per arricchire il nostro studio sulla probabilità statistica:
 Operazione di negazione;
 Operazione di intersezione;
 Operazione di unione.
L’operazione di negazione
La probabilità legata alla negazione di un evento è la probabilità complementare dell’evento
stesso. L’evento di negazione è l’evento che si verifica se non si verifica l’evento iniziale.
Se indichiamo l’evento da negare come 𝐸, l’evento negato tramite l’operazione di negazione è
indicabile come 𝐸 (si legge E negato), oppure come 𝐸 (si legge E complementare).
L’operazione algebrica derivante dalla probabilità viene svolta sottraendo da uno la
probabilità numerica dell’evento iniziale 𝐸:
𝐸 = 1 − 𝑃(𝐸)
Esempio dell’operazione di negazione
Definiamo come evento in analisi la probabilità che esca due al lancio di un dado a sei facce.
L’evento negazione dell’evento originari è dato dalla probabilità che non esca il due al lancio di
un dado a sei facce, o più nello specifico che esca o 1 o 3 o 4 o 5 o 6.
In questo caso:
𝐸 = {2}
𝐸 = {1,3,4,5,6}
Definiamo numericamente la probabilità che esca due dal lancio di un dado a sei facce come
il numero 0,167 (il perché di questo numero, ovvero come determinare numericamente la
probabilità verrà esposto successivamente) (1/6). L’evento negazione, o complementare è dato
da:
𝐸 = 1 − 𝑃(𝐸) = 1 − 0,167 = 0,833
In questo caso è possibile notare come vi è probabilità maggiore nell’avverarsi dell’evento
negazione che dell’evento originario.

Riassunti di Michela Angius 80


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

L’operazione di intersezione
L’operazione di intersezione viene fatta avendo come “input” due eventi. L’evento risultante
dall’operazione di intersezione è l’evento che si verifica quando si verificano
contemporaneamente i due eventi.
È possibile indicare l’operazione di negazione come:
𝐺 =𝐸∩𝐹
che si legge E intersecato F.
La probabilità dell’intersezione ed eventi dipendenti ed indipendenti
La probabilità dell’evento di intersezione è calcolabile solo dopo aver analizzato sei i due eventi
(E ed F) sono:
 Indipendenti fra loro: l’avverarsi di uno non condiziona l’avverarsi dell’altro;
 Non indipendenti fra loro: l’avverarsi di uno condiziona l’avverarsi dell’altro evento.
La probabilità dell’intersezione di due eventi indipendenti è:
𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸) ∙ 𝑃(𝐹)
La probabilità dell’intersezione di due eventi dipendenti è:
𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸|𝐹) ∙ 𝑃(𝐹)
ovvero la probabilità che avvenga E essendosi già avverato F;
𝑃(𝐹 ∩ 𝐸) = 𝑃(𝐹|𝐸) ∙ 𝑃(𝐸)
ovvero la probabilità che avvenga F essendosi già verificato E.
La probabilità 𝑃(𝐸|𝐹) è la probabilità condizionata di E avverato F ed è possibile calcolarla
mediante la formula inversa:
𝑃(𝐸 ∩ 𝐹)
𝑃(𝐹|𝐸) =
𝑃(𝐹)
Esempio dell’operazione di intersezione di due eventi indipendenti
Ci si chiede qual è la probabilità che esca un sei di bastoni pescando casualmente una carta
da un mazzo di carte napoletane.
In questo caso l’evento può essere scomposto in due eventi elementari intersecati fra di loro,
ovvero:
 L’evento E: pesco una carta ed esce sei;
 L’evento F: pesco una carta ed esce una carta di bastoni.
Questi due eventi sono indipendenti fra di loro perché l’avverarsi di uno non dipende
dall’avverarsi dell’altro (se esce un sei non condiziona il successivo o il contemporaneo avverarsi
dell’uscita di una carta di bastoni), quindi la probabilità dell’intersezione è calcolabile come:
𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸) ∙ 𝑃(𝐹)
La probabilità che esca un sei è pari al numero 0,1 (4/40) mentre che esca una carta di bastoni
è di 0,25 (1/4) (di nuovo, l’assegnazione di tali numeri alla probabilità di un evento verrà esposta
successivamente), quindi la probabilità che esca un sei di bastoni è:

Riassunti di Michela Angius 81


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸) ∙ 𝑃(𝐹) = 0,1 ∙ 0,25 = 0,025


Ovvero lo stesso numero corrispondente alla probabilità che esca una generica carta (in questo
caso il sei di bastoni).
Esempio dell’operazione di intersezione di due eventi non indipendenti
Ci si chiede qual è la probabilità che esca da un’estrazione del lotto il numero sei dopo che è già
uscito il numero ventitré (estrazione senza ripetizione in quanto nel lotto non si reinserisce il
numero all’intero della “cesta”).
In questo caso gli eventi sono:
 Evento E: esce il numero sei;
 Evento F: esce il numero ventitré.
Le probabilità degli eventi sono:
 𝑃(𝐸) = 0,0111 (1/90)
 𝑃(𝐹) = 0,0111 (1/90)
La probabilità intersezione (esce prima ventitré e dopo il sei dopo essere uscito il ventitré) è:
𝑃(𝐸 ∩ 𝐹) = 𝑃(𝐸|𝐹) ∙ 𝑃(𝐹)
dove 𝑃(𝐸|𝐹) è la probabilità che esca il sei dopo essere uscito il ventitré, pari a 0,0112 (1/89)(più
alta perché già sappiamo che i numeri che potrebbero uscire nel giro successivo sono uno in
meno):
𝑃(𝐸 ∩ 𝐹) = 0,0112 ∙ 0,0111 = 0,00012
L’operazione di unione
L’operazione di unione, come quella di intersezione, viene fatta avendo come “input” due eventi.
L’evento risultante dall’operazione di intersezione è l’evento che si verifica quando si verificano
o uno o l’altro dei due eventi (oppure in senso inclusivo).
È possibile indicare l’operazione di negazione come:
𝐺 =𝐸∪𝐹
che si legge E unito F.
La probabilità dell’unione dei due eventi si calcola sommando la probabilità dei due singoli
eventi sottratta all’intersezione fra i due:
𝑃(𝐸 ∪ 𝐹) = 𝑃(𝐸) + 𝑃(𝐹) − 𝑃(𝐸 ∩ 𝐹)
Esempio dell’operazione di unione
Ci si chiede qual è la probabilità che da un mazzo di carte napoletane esca una figura o una
carta di bastoni.
In questo caso i due eventi sono:
 Evento E: esce una figura;
 Evento F: esce una carta di bastoni.
La probabilità dei due eventi è:
 𝑃(𝐸) = 0,3 (12/40)

Riassunti di Michela Angius 82


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

 𝑃(𝐹) = 0,25 (1/4)


La probabilità di intersezione 𝑃(𝐸 ∩ 𝐹) sarebbe pari alla probabilità che esca una figura di
bastoni, corrispondente al numero 0,075 (3/40). Quindi la probabilità che esca una figura o una
carta di bastoni è:
𝑃(𝐸 ∪ 𝐹) = 𝑃(𝐸) + 𝑃(𝐹) − 𝑃(𝐸 ∩ 𝐹) = 0,3 + 0,25 − 0,075 = 0,475

RAPPRESENTAZIONE GRAFICA DEGLI EVENTI


La rappresentazione grafica degli eventi mediante i diagrammi di Venn
Richiamando l’analogia tra insiemi algebrici ed eventi è possibile introdurre come
rappresentazione grafica dei secondi [eventi probabilistici] quella tipica dei primi [insiemi],
riguardante i diagrammi di Venn.
Secondo i diagrammi di Venn applicati alla probabilità statistica si può rappresentare:
 Un evento elementare (come il pescaggio dell’asso di denari da un mazzo di carte
napoletane) come un punto nello spazio;
 Un evento in senso ampio (come il pescaggio di una carta di denari) come un insieme
(linea curva chiusa) di punti nello spazio, ovvero gli eventi elementari che compongono
il macroevento in considerazione;
 Lo spazio campione come l’insieme che racchiude tutti i possibili eventi elementari e
macroeventi, di solito si rappresenta come un rettangolo o quadrato.
Esempio di rappresentazione grafica con diagramma di Venn
Rappresentiamo graficamente, tramite un diagramma di Venn, l’esperimento probabilistico
del lancio di un dado a sei facce con due eventi:
 Evento E: esce un numero dispari:
𝐸 = {1,3,5}
 Evento F: esce un numero pari:
𝐹 = {2,4,6}

Eventi particolari ed operazioni con gli eventi nei diagrammi di Venn


Tramite i diagrammi di Venn possono essere rappresentati sia:

Riassunti di Michela Angius 83


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

 Gli eventi particolari:


o Evento certo: rappresentato nell’esempio precedente dall’insieme spazio
campione, ovvero dal rettangolo Ω;
o Evento impossibile: rappresentato dall’insieme vuoto, quindi da una linea curva
con al suo interno nessun evento elementare (punto):

 Le operazioni con gli eventi:


o Negazione: area in rosso:

o Intersezione: area in rosso:

o Unione: area in rosso:

Riassunti di Michela Angius 84


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

RELAZIONI FRA EVENTI


L’inclusione
Si dice che un evento è incluso in un altro quando tutti gli eventi elementari del primo sono parte
anche del secondo.
Si definisce come:
𝐸⊂𝐹
si legge: E incluso in F.
In un diagramma di Venn l’inclusione può essere rappresentata come:

Esempio di inclusione
Un esempio di inclusione tra due eventi può essere visto quando, in un esperimento
probabilistico di pescare una carta da un mazzo di carte napoletane, i due eventi sono:
 Evento E: esce una figura di spade;
 Evento F: esce una carta di spade.
In questo caso di può affermare che l’evento E è incluso nell’evento F dato che:
𝐸 = {DONNA ; CAVALLO ; RE }
𝐹 = {1 ;2 ;3 ;4 ;5 ;6 ;7 ; DONNA ; CAVALLO ; RE }

La necessarietà
Vi è relazione di necessarietà quando l’unione di due o più eventi ha come risultato lo spazio
campione (Ω), ovvero se i due eventi coprono insieme tutti i possibili eventi elementari
dell’esperimento probabilistico.
Due eventi, quindi, sono necessari se:
𝐸∪𝐹 =Ω
oppure, in termini probabilistici:
𝑃(𝐸) + 𝑃(𝐹) = 1 = 100%
Due tipici eventi necessari sono un generico evento E e la sua negazione 𝐸 .
Esempio di necessarietà
Un tipico esempio di relazione di necessarietà è dato dai due possibili eventi elementari del
lancio di una moneta: testa o croce.

Riassunti di Michela Angius 85


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

La partizione
Sia dato un evento E, rappresentato dall’insieme E in un diagramma di Venn. Si dice che due o
più sottoinsiemi dell’evento E formano una partizione quando:
1. Nessuno degli eventi deve essere impossibile, quindi nessun insieme vuoto:
∀𝐸 ≠ 0 per 1 < 𝑖 < 𝑛
2. Qualunque sottoinsieme si prenda la loro intersezione deve essere vuota;
∀(𝐸 ∩ 𝐸 ) 1 < 𝑖 < 𝑛 e 1 < 𝑗 < 𝑛
3. L’unione di tutti gli eventi della partizione deve essere lo spazio campione.

𝐸 =𝐸

Si può rappresentare graficamente con il seguente digramma di Venn (partizione per un evento
definito sotto il nome di A):

PROBABILITÀ E SUE PROPRIETÀ


La determinazione numerica della probabilità
Uno dei modi più usati per la determinazione numerica della probabilità di un evento si basa
sul rapporto tra la frequenza assoluta dei possibili esiti positivi dell’evento e il numero totale degli
esiti degli eventi possibili (che formano lo spazio campione Ω):
𝑛(𝐸)
𝑃(𝐸) =
𝑛
dove:
 𝑛(𝐸): frequenza assoluta degli esiti favorevoli o positivi;
 𝑛: il numero totale degli esiti degli eventi possibili.
Esempio sulla determinazione numerica della probabilità
Si calcoli la probabilità che da un mazzo di carte napoletane esca come esito di un pescaggio
una figura di spade.
Si può facilmente calcolare tale probabilità dell’evento ricordandoci che il numero totale
(frequenza assoluta) di carte figura di spade all’interno di un mazzo di carte napoletane è pari
a tre:

Riassunti di Michela Angius 86


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

𝐸 = {DONNA ; CAVALLO ; RE }
mentre il totale di carte presenti all’interno di un mazzo di carte napoletane è pari a quaranta.
Quindi:
𝑛(𝐸) 3
𝑃(𝐸) = = = 0,075 = 7,5%
𝑛 40
Si può concludere che la probabilità di pescare casualmente da un mazzo di carte napoletane
una figura di spade è del 7,5%.
Proprietà algebriche della probabilità
Continuando con l’analisi della determinazione della probabilità numerica, si possono
introdurre sette proprietà fondamentali (alcune già esposte e spiegate in precedenza):
 La probabilità dello spazio campione è pari ad uno (già esposta prima):
𝑃(Ω) = 1
 La probabilità di un generico evento sottoinsieme dello spazio campione è sempre
maggiore o uguale a zero:
𝑃(𝐸) ≥ 0
 La probabilità dell’evento impossibile è pari a zero (già esposta prima):
𝑃(∅) = 0
 La probabilità dell’evento negazione è pari alla sottrazione di uno con la probabilità
dell’evento iniziale (già esposta prima):
𝑃(𝐸 ) = 1 − 𝑃(𝐸)
 La probabilità di un generico evento sottoinsieme dello spazio campione è sempre
minore o uguale ad uno:
𝑃(𝐸) ≤ 1
 La probabilità di un evento incluso è sempre minore o uguale alla probabilità dell’evento
che lo include:
𝑃(𝐸) ≤ 𝑃(𝐹) se 𝐸 ⊂ 𝐹
 La probabilità dell’unione è sempre pari alla somma delle probabilità sottratta alla
probabilità dell’intersezione dei due eventi (già esposta prima):
𝑃(𝐸 ∪ 𝐹) = 𝑃(𝐸) + 𝑃(𝐹) − 𝑃(𝐸 ∩ 𝐹)

LA PROBABILITÀ CONDIZIONATA
La probabilità condizionata di due eventi
La probabilità condizionata di un evento rispetto ad un altro, è relativa alla possibilità che un
evento (E) avvengo dopo che si sia già verificato un altro evento (F).
Riprendendo le formule già esposte riguardanti l’operazione di intersezione tra due eventi non
indipendenti, è possibile definire la probabilità condizionata come:
𝑃(𝐸 ∩ 𝐹)
𝑃(𝐸|𝐹) =
𝑃(𝐹)

Riassunti di Michela Angius 87


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

Presupposto necessario per la presenza di una probabilità condizionata è il fatto che i due eventi
devono essere non indipendenti fra di loro.
Il condizionamento tra eventi può anche essere inteso come il sistema usato nel calcolo delle
probabilità per aggiornare le informazioni a nostra disposizione nel caso di esperimenti
probabilistici senza ripetizione.
Esempio di probabilità condizionata di due eventi
Si stima che negli Stati Uniti il 30% degli adulti è obeso, che il 3% è diabetico e il 2% è sia obeso
che diabetico. Si voglia determinate la probabilità che scelto casualmente, un adulto
statunitense sia:
 Diabetico se obeso;
 Obeso se diabetico.
Definiamo come evento:
 𝐸: adulto obeso;
 𝐹: adulto diabetico.
Le relative probabilità, date dalla traccia dell’esempio sono:
 𝑃(𝐸) = 0,3 = 30%
 𝑃(𝐹) = 0,03 = 3%
 𝑃(𝐸 ∩ 𝐹) = 0,02 = 2%
Definiamo la prima richiesta di probabilità condizionata (adulto statunitense diabetico se
obeso) come:
𝑃(𝐸 ∩ 𝐹)
𝑃(𝐹|𝐸) =
𝑃(𝐸)
dove si chiede qual è la probabilità che un individuo sia obeso (evento E) dopo che si sia già
avverata l’evento F, ovvero dopo che si sia già scelto casualmente un adulto statunitense
diabetico:
𝑃(𝐸 ∩ 𝐹) 0,02
𝑃(𝐹|𝐸) = = = 0,0667 = 6,67%
𝑃(𝐸) 0,3
Definiamo la seconda richiesta di probabilità condizionata (adulto statunitense obeso se
diabetico) come:
𝑃(𝐸 ∩ 𝐹)
𝑃(𝐸|𝐹) =
𝑃(𝐹)
dove si chiede qual è la probabilità che un individuo sia diabetico (evento F) dopo che si sia già
avverata l’evento E, ovvero dopo che si sia già scelto casualmente un adulto statunitense obeso:
𝑃(𝐸 ∩ 𝐹) 0,02
𝑃(𝐹|𝐸) = = = 0,6667 = 66,67%
𝑃(𝐹) 0,03
La probabilità condizionata di tre eventi o più eventi
Nel caso in cui si deve calcolare la probabilità condizionata di tre eventi, ovvero che si avveri un
evento E dopo che si sia prima avverato F e prima ancora G, si usa la regola del prodotto per il
calcolo della probabilità dell’intersezione di tre eventi non indipendenti:
Riassunti di Michela Angius 88
Riassunti di Statistica Psicometrica 13. Probabilità e statistica

𝑃(𝐸 ∩ 𝐹 ∩ 𝐺) = 𝑃(𝐸|𝐹 ∩ 𝐺) ⋅ 𝑃(𝐹|𝐺) ⋅ 𝑃(𝐺)


Se gli eventi da calcolare sono più di tre si procede in maniera analoga, espandendo la formula
del prodotto per il calcolo della probabilità dell’intersezione di n eventi non indipendenti.
Il diagramma ad albero
Per analizzare le probabilità di una serie complessa di eventi è possibile rappresentare queste
mediante un diagramma ad albero.
Nel seguente esempio sarà mostrato un diagramma ad albero per il lancio di una moneta per
tre volte:

Ulteriore esempio di diagramma ad albero


Si voglia costruire un diagramma ad albero che rappresenti i possibili eventi elementari
riguardanti la composizione di un numero di tre cifre con 4 e 7:

TEOREMA DI BAYES
Il teorema di Bayes per il calcolo di probabilità condizionate
Il teorema di Bayes risolve il problema legato alla c.d. probabilità a posteriori, relativa alla
probabilità che un dato evento (E) sia l’effetto di uno tra k possibili eventi (definibili anche cause)
incompatibili fra loro.
Questo concetto è opposto a quello di probabilità a priori che andrebbe ad individuare qual è
la probabilità che A avvenga in funzione dell’evento k.
La probabilità a posteriori può essere calcolata con il teorema di Bayes come:

Riassunti di Michela Angius 89


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 )
𝑃(𝐶 |𝐸) =
∑ 𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 )
dove:
 𝑃(𝐶 |𝐸): probabilità a posteriori, ovvero che l’evento E sia l’effetto dell’evento/causa 𝐶 ;
 𝑃(𝐶 ): probabilità dell’evento/causa 𝐶 ;
 𝑃(𝐸|𝐶 ): probabilità a priori, ovvero che si avveri l’evento E dato per avverato
l’evento/causa 𝐶 ;
 𝑃(𝐶 ): probabilità dell’evento/causa generico 𝐶
 𝑃(𝐸|𝐶 ): probabilità a priori, ovvero che si avveri l’evento E dato per avverato
l’evento/causa generico 𝐶 .
Esempio sul teorema di Bayes
Un esame del sangue riconosce una certa malattia al 99% dei casi quando essa è in atto in un
paziente. Tuttavia, l’esame fornisce un falso positivo (esito positivo quando il paziente è sano)
nel 2% dei pazienti. Supponendo che lo 0,5% della popolazione totale abbia la malattia, qual è
la probabilità che una persona scelta a caso abbia effettivamente la malattia se il test è
positivo?
In questo caso/esempio sul teorema di Bayes il nostro obiettivo è quello di calcolare quale sia la
probabilità condizionata a posteriori che un soggetto scelto a caso abbia la mattia in questione
se il risultato del test fatto ad esso dà esito positivo.
Indichiamo con:
 𝐶 : soggetto estratto casualmente abbia la malattia;
 E: il test fatto al soggetto sia positivo.
Sappiamo che la probabilità che una persona malata dia esito positivo al test è pari al 99%,
quindi:
𝑃(𝐸|𝐶 ) = 0,99 = 99%
Mentre, la probabilità che una persona dia esito positivo al test non essendo realmente malata
è del 2%:
𝑃(𝐸|𝐶 ) = 0,02 = 2%
Sapendo inoltre che la probabilità che una persona sia effettivamente malata è del 0,05%:
𝑃(𝐶 ) = 0,005 = 0,5%
Quindi, la probabilità che scegliendo a caso una persona sia sana è:
𝑃(𝐶 ) = 1 − 𝑃(𝐶 ) = 1 − 0,005 = 0,995 = 99,5%
Si può usare il teorema di Bayes per calcolare la probabilità condizionata a posteriori che una
persona scelta a caso nella popolazione sia effettivamente malata dando esito positivo al test:
𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 ) 𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 )
𝑃(𝐶 |𝐸) = = =
∑ 𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 ) 𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 ) + 𝑃(𝐶 ) ⋅ 𝑃(𝐸|𝐶 )

Riassunti di Michela Angius 90


Riassunti di Statistica Psicometrica 13. Probabilità e statistica

0,005 ⋅ 0,99
= = 0,199
0,005 ⋅ 0,99 + 0,995 ⋅ 0,02
In questo caso la sommatoria al denominatore della formula del teorema di Bayes ha solo due
componenti, ovvero le due possibili cause dell’evento E (positività al test) sono che una persona
sia effettivamente malata (nostra incognita nell’esempio) o che la persona sia sana.
Si può concludere che la probabilità che una persona scelta a caso abbia la mattia in questione
se il risultato del test fatto ad esso dà esito positivo è del 19,9%.

Riassunti di Michela Angius 91


Riassunti di Statistica Psicometrica 14. Variabili casuali

14 Variabili casuali

CONCETTO E DEFINIZIONI VARIABILI CASUALI


Il concetto di variabile casuale
Una variabile casuale è una quantità che modifica (da lì variabile) il proprio valore in base
all’esito di un esperimento probabilistico detto anche prova casuale (da lì casuale).
L’introduzione del concetto probabilistico della variabile casuale permette di passare dallo
spazio campionario Ω della probabilità, i cui eventi elementari 𝜔 erano qualitativi (ad esempio
TTT configurava l’esito di tre volte testa), ad uno spazio numerico ℝ i cui elementi siano
quantitativi (ad esempio X=3 nel caso di esito di tre volte testa).
Matematicamente, una variabile casuale X è una funzione definita sullo spazio campionario Ω
che associa un numero reale x ad ogni evento elementare 𝜔 di Ω.

Definizione di variabile casuale


Possiamo ora dare una definizione specifica matematica di variabile casuale:
“Si definisce variabile casuale una funzione dello spazio Ω degli eventi che ad ogni evento,
appartenente ad una partizione di Ω, associa uno e un solo numero reale.”
Notazione riguardante le variabili casuali
Solitamente le variabili casuali si indicano con la lettera maiuscola (𝑋, 𝑌) e con la minuscola i
valori che esse possono assumere (𝑥 ,𝑦 ); tali valori vengono chiamati anche “determinazioni” o
“realizzazioni” della variabile casuale.
Distribuzione di probabilità e funzione di probabilità
Una distribuzione di probabilità che definisce il comportamento di una variabile casuale può
essere rappresentata analiticamente con la c.d. funzione di probabilità:
𝑓(𝑥) = 𝑃(𝑋 = 𝑥)
ovvero quella funzione di x che assegna ad ogni valore della x stessa un determinato valore di
probabilità P(X=x).
Proprietà della funzione di probabilità
Due sono le proprietà fondamentali riguardanti la funzione di probabilità:

Riassunti di Michela Angius 92


Riassunti di Statistica Psicometrica 14. Variabili casuali

 Il valore della funzione di probabilità (la probabilità associata ad ogni x) è sempre


maggiore o uguale a zero:
𝑓(𝑥) ≥ 0 ∀𝑥
 La somma di tutte le probabilità associate a ciascuna x è sempre uguale ad uno:

𝑓(𝑥) = 1

La funzione di ripartizione
Un modo alternativo per rappresentare algebricamente una distribuzione di probabilità di una
variabile casuale è la c.d. funzione di ripartizione:

𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = 𝑓(𝑡)

ovvero quella funzione che ad ogni valore di x corrisponde tutta la probabilità cumulata
precedente al valore x stesso.

VARIABILI CASUALI DISCRETE


Le variabili casuali discrete
Una variabile casuale può essere distinguibile in:
 Discreta;
 Continua.
Una variabile casuale è discreta quando può assumere:
 Un numero finito di valori casuali;
 Un’infinità numerabile di valori casuali.
Per operare con una variabile casuale discreta (X), è opportuno ordinare i valori (x) in senso
crescente e assegnare a ciascuno di essi un livello di probabilità (p) che gli compete. A tal fine,
è logico assegnare a ciascun singolo valore (x) la probabilità dell’unione degli eventi elementari
(𝜔 ) a cui è associato tale valore (x):
𝑃(𝑋 = 𝑥) = 𝑃(𝐸 ) con 𝐸 = {𝜔: 𝑋(𝜔) = 𝑥}
ovvero: la probabilità associata a ciascun valore quantitativo x, è uguale alla probabilità
dell’evento x (𝐸 ), dove l’evento in questione è quell’evento che fa corrispondere alla
determinazione x gli eventi elementari 𝜔 corrispondenti nello spazio campione Ω.
Esempio di variabile casuale discreta
In un gruppo di 100 persone ci sono 62 maggiorenni e 38 minorenni. Studiare la distribuzione
di probabilità dell’esperimento probabilistico di scelta di una persona casuale.
In primo luogo, analizziamo l’esperimento probabilistico in maniera qualitativa, così come fatto
nella parte precedente relativa alla probabilità. Lo spazio campione è:
Ω = {𝜔 : minorenne; 𝜔 : maggiorenne}
Definendo come probabilità del primo e del secondo evento:
38
𝑃(𝜔 ) = = 0,38
100
Riassunti di Michela Angius 93
Riassunti di Statistica Psicometrica 14. Variabili casuali

62
𝑃(𝜔 ) = = 0,62
100
Definiamo come:
 𝑥 = 0 → determinazione di: “Persona minorenne”;
 𝑥 = 1 → determinazione di: “Persona maggiorenne”.
La distribuzione di probabilità della variabile casuale che descrive l’esperimento probabilistico
è:
x 0 1
f(x) 0,38 0,62

La funzione di probabilità può essere rappresentata mediante una funzione definita a tratti:
0 altrove
𝑓(𝑥) = 0,38 per 𝑥=0
0,62 per 𝑥 = 1
Mentre, la funzione di ripartizione ha la seguente distribuzione e funzione algebrica:
x 0 1
F(x) 0,38 1,00

0 per 𝑥 < 0
𝐹(𝑥) = 0,38 per 𝑥 = 0
1,00 per 𝑥 > 0
La rappresentazione grafica delle funzioni di probabilità e di ripartizione
Ogni analisi riguardante le variabili casuali può concludersi con la rappresentazione grafica su
di un sistema di assi cartesiani della distribuzione di probabilità in questione. In questo caso:
 Asse delle ascisse (x): si collocano i valori della x, ovvero le determinazioni possibili della
variabile casuale;
 Asse delle ordinate (y): si collocano i valori della f(x), ovvero delle probabilità collegate
alla determinazione x della variabile casuale
Ragionamento analogo può essere fatto per le funzioni di ripartizione, dove al posto dei valori
della f(x) sull’asse delle ordinate (y) devono essere collocati i valori corrispondenti di x alla
funzione di ripartizione F(x).
Un ulteriore metodo, più efficace per distribuzioni di probabilità semplici e con pochi valori, è la
rappresentazione mediate un grafico a colonne dei valori della x e della funzione di probabilità.
Esempio di rappresentazione grafica della funzione di probabilità
Per rappresentare la distribuzione di probabilità dell’esempio precedente, riguardante le
persone maggiorenni e minorenni, conviene tracciare un grafico a colonne, dove per ogni
singola colonna corrisponde un valore della x.
Nel nostro caso, quindi, ci saranno due colonne (x=0 e x=1) e l’altezza sarà data dal valore della
probabilità legata f(x):

Riassunti di Michela Angius 94


Riassunti di Statistica Psicometrica 14. Variabili casuali

Esempio di rappresentazione grafica di funzione di ripartizione


Per introdurre un esempio di rappresentazione grafica di una funzione di ripartizione,
abbandoniamo l’esempio precedente, dato che il numero dei valori è così esiguo da non poter
permettere un’utile rappresentazione.
Prendiamo ad esempio la funzione di ripartizione che descrive la distribuzione di probabilità
collegata al lancio di un dado a sei facce. La distribuzione di probabilità è la seguente (a ciascun
valore delle facce è stato dato un valore della determinazione x):
x 1 2 3 4 5 6
f(x) 0,167 0,167 0,167 0,167 0,167 0,167

Mentre, la distribuzione di ripartizione è:


x 1 2 3 4 5 6
F(x) 0,167 0,333 0,500 0,667 0,833 1,000

rappresentabile come:

Sintesi di una variabile casuale discreta


È possibile compiere un’analisi di sintesi della variabile casuale, così come si è visto nel primo
pacchetto di riassunti sulla statistica descrittiva, mediante il calcolo di:
 Media aritmetica: definita valore atteso (expected value) dato che è la determinazione
x con maggiore probabilità di esito;
 Varianza;
 Scarto quadratico medio.
Riassunti di Michela Angius 95
Riassunti di Statistica Psicometrica 14. Variabili casuali

La media: il valore atteso di una variabile casuale discreta


La media o valore atteso di una variabile casuale discreta è pari alla sommatoria di tutte le
determinazioni moltiplicate per la loro probabilità:

𝜇 = 𝐸(𝑋) = [𝑥 ∙ 𝑓(𝑥)]

dove E(X) è il termine indicante la media, dall’inglese Expected value.


Esempio di calcolo del valore atteso di una variabile casuale discreta
Prendiamo il caso della seguente distribuzione di probabilità:
x -1 0 1 2 3 4
f(x) 0,1 0,2 0,3 0,2 0,1 0,1

Applichiamo la formula del valore atteso:


𝐸(𝑋) = (−1 ∙ 0,1) + (0 ∙ 0,2) + (1 ∙ 0,3) + (2 ∙ 0,2) + (3 ∙ 0,1) + (4 ∙ 0,1) =
𝐸(𝑋) = −0,1 + 0 + 0,3 + 0,4 + 0,3 + 0,4 = 1,3
Il valore atteso della distribuzione f(x) di probabilità è pari a 1,3.
La varianza di una variabile casuale discreta
La varianza di una variabile casuale discreta è calcolabile come:

𝜎 = 𝑉𝐴𝑅(𝑋) = {[𝑥 − 𝐸(𝑋)] ∙ 𝑓(𝑥)}

Esempio di calcolo della varianza di una variabile casuale discreta


Continuiamo con l’esempio del calcolo del valore atteso:
𝑉𝐴𝑅(𝑋) = [(−1 − 1,3) ∙ 0,1] + [(0 − 1,3) ∙ 0,2] + [(1 − 1,3) ∙ 0,3] + [(2 − 1,3) ∙ 0,2]
+ [(3 − 1,3) ∙ 0,1] + [(4 − 1,3) ∙ 0,1] =
𝑉𝐴𝑅(𝑋) = (5,29 ∙ 0,1) + (1,69 ∙ 0,2) + (0,09 ∙ 0,3) + (0,49 ∙ 0,2) + (2,89 ∙ 0,1) + (7,29 ∙ 0,1) =
𝑉𝐴𝑅(𝑋) = 0,529 + 0,338 + 0,027 + 0,098 + 0,289 + 0,729 = 2,01
La varianza della distribuzione di probabilità in analisi è 2,01.
Lo scarto quadratico medio di una variabile casuale discreta
Lo scarto quadratico medio di una variabile casuale discreta è sempre calcolabile come la
radice quadrata della varianza:

𝜎 = 𝑆𝐷(𝑋) = 𝑉𝐴𝑅(𝑋) = {[𝑥 − 𝐸(𝑋)] ∙ 𝑓(𝑥)}

Esempio di calcolo dello scarto quadratico medio di una variabile casuale discreta
Completiamo l’esempio riguardante la sintesi della distribuzione di probabilità esposta
nell’esempio del calcolo del valore atteso, calcolando lo scarto quadratico medio, ponendo
sotto radice il valore della varianza calcolata nell’esempio precedente:
𝑆𝐷(𝑋) = 2,01 = 1,418

Riassunti di Michela Angius 96


Riassunti di Statistica Psicometrica 14. Variabili casuali

Lo scarto quadratico medio della distribuzione di probabilità in esame è 1,418.

VARIABILI CASUALI CONTINUE


Le variabili casuali continue
Una variabile casuale è definibile continua quando può assumere tutti i valori di un determinato
intervallo (o insieme di intervalli) di numeri reali.
La funzione di densità
La funzione di probabilità di una variabile casuale continua è definita funzione di densità. Una
qualsiasi funzione analitica può essere definita come funzione di densità se:
 Non è negativa:
𝑓(𝑥) ≥ 0 ∀𝑥
 L’area sottesa alla funzione è pari a 1. Quindi, l’integrale della funzione di densità è pari a
1 per tutto il dominio della funzione o per tutto l’insieme ℝ:

𝑓(𝑥) 𝑑𝑥 = 1

La probabilità interna ad un intervallo


Per calcolare qual è la probabilità interna ad un intervallo definito dalla funzione di densità è
possibile calcolare l’integrale definito nell’intervallo stesso.
Ad esempio, avendo scelto due valori a, b come gli esterni di un intervallo cui vorremmo sapere
la probabilità, si ha:

𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑓(𝑥)𝑑𝑥

La funzione di ripartizione di una variabile casuale continua


La funzione di ripartizione di una variabile casuale continua assegna a ciascun valore di x, la
sommatoria delle probabilità precedenti a tale valore (così come definita per le variabili casuali
discrete). In particolare:

𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = 𝑓(𝑥)𝑑𝑥

Rappresentazione grafica di una funzione di densità e di ripartizione


Il metodo di rappresentazione grafica di una funzione di densità e di ripartizione è lo stesso,
mediante un sistema di assi cartesiani, esposto per le variabili casuali discrete.
Ad esempio, riportiamo la rappresentazione grafica della più famosa funzione di densità, già
vista nel pacchetto di riassunti precedente: la distribuzione normale standardizzata:

Riassunti di Michela Angius 97


Riassunti di Statistica Psicometrica 14. Variabili casuali

Il valore atteso, la varianza e lo scarto quadratico medio di una variabile casuale


continua
Per il calcolo del valore atteso e della varianza di una variabile casuale continua si necessita il
calcolo integrale, come di fatto già visto per il calcolo della probabilità interna ad un intervallo.
Il valore atteso è calcolabile come:

𝐸(𝑋) = [𝑥 ∙ 𝑓(𝑥)]𝑑𝑥

La varianza, invece:

𝑉𝐴𝑅(𝑋) = {[𝑥 − 𝐸(𝑋)] ∙ 𝑓(𝑥)} 𝑑𝑥

Come sempre, lo scarto quadratico medio è pari alla radice della varianza:
𝑆𝐷(𝑋) = 𝑉𝐴𝑅(𝑋)
I quantili di una distribuzione di variabile casuale continua
Un quantile di una distribuzione di variabile casuale continua (X) è il valore della funzione di
ripartizione della variabile casuale continua stessa (F(X)) alla sinistra di un dato livello di
probabilità relativo a un determinato valore della variabile casuale continua stessa (𝑥 ).
Quindi, il quantile è pur sempre definibile come l’area sottesa alla funzione di densità relativo
ad un determinato valore della variabile casuale (𝑥 ):

Riassunti di Michela Angius 98


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

15 Particolari modelli di variabili casuali

MODELLI DI VARIABILI CASUALI


Cosa sono e a che servono i modelli di variabili casuali
La teoria fin ora esposta relativa all’analisi delle variabili casuali è utile a comprendere i
fondamenti di generiche distribuzioni di probabilità.
Però, in natura e nella realtà esistono alcuni modelli probabilistici che possono essere più
facilmente rappresentati rispetto alle formule fin ora affrontate sulle variabili casuali discrete e
continue.
Alcuni modelli fondamentali di variabili casuali
Si introducono così particolari modelli di variabili casuali, distinguibili anche in questo caso in:
 Discrete:
o Uniforme discreta;
o Bernoulliana;
o Binomiale;
o Poissoniana.
 Continue:
o Uniforme continua;
o Esponenziale;
o Normale e normale standardizzata (già viste nel pacchetto di riassunti
precedente);
o Chi-quadrato;
o t-Student.
Almeno per ora, nel nostro caso, analizzeremo solo alcune distribuzioni discrete, più in
particolare l’uniforme discreta, la bernoulliana e la binomiale.

DISTRIBUZIONE UNIFORME DISCRETA


La distribuzione uniforme discreta
La distribuzione uniforme discreta assegna la stessa probabilità di esito di un evento ai primi n
numeri naturali dell’esperimento probabilistico.
Tale distribuzione descrive alla perfezione i fenomeni casuali che hanno come caratteristica
fondamentale probabilità di esito uguali per tutti gli eventi elementari, come il lancio di una
moneta non truccata o il lancio di un dado a sei facce.
La distribuzione è rappresentabile semplicemente come:
𝑋~𝑈𝑑(𝑛)
Funzione di probabilità della distribuzione uniforme discreta
La funzione di probabilità della distribuzione uniforme discreta è:

Riassunti di Michela Angius 99


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

1
𝑓(𝑥) =
𝑛
dove:
 n: il numero di eventi elementari che compongono l’esperimento probabilistico.
Valore atteso e varianza in una distribuzione uniforme discreta
La formula per il calcolo del valore atteso di una distribuzione uniforme discreta è semplificabile
come:
𝑛+1
𝐸(𝑋) =
2
La varianza:
𝑛 −1
𝑉𝐴𝑅(𝑋) =
12
Esempio sulla distribuzione uniforme discreta
Si analizzi la distribuzione di probabilità del lancio di un dado a 12 facce.
Come ben si comprende la probabilità di esito di una qualsiasi delle dodici facce è sempre
uguale, dato che il dado da aleatorietà uguale per tutte e dodici; quindi, l’esperimento
probabilistico può essere facilmente rappresentato da una distribuzione uniforme discreta con
n=12, pari al numero di dodici possibili eventi elementari:
𝑋~𝑈𝑑(𝑛 = 12)
La funzione di probabilità sarà:
1 1
𝑓(𝑥) = =
𝑛 12
La distribuzione di probabilità sarà:
x 1 2 3 4 5 6 7 8 9 10 11 12
f(x) 0,083 0,083 0,083 0,083 0,083 0,083 0,083 0,083 0,083 0,083 0,083 0,083
F(x) 0,083 0,167 0,249 0,333 0,416 0,500 0,583 0,667 0,750 0,833 0,916 1,000

Il valore atteso:
12 + 1 13
𝐸(𝑋) = = = 6,5
2 2
La varianza:
12 − 1 144 − 1
𝑉𝐴𝑅(𝑋) = = = 11,91
12 12
Lo scarto quadratico medio:
𝑆𝐷(𝑋) = 11,91 = 3,45

DISTRIBUZIONE BERNOULLIANA
La distribuzione bernoulliana

Riassunti di Michela Angius 100


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

Alla base di una distribuzione bernoulliana vi è un solo esperimento probabilistico con due
possibili eventi:
 𝐸
 𝐸 : evento negazione di E con probabilità pari a 1 − 𝐸.
Alcuni esempi tipici di fenomeni naturali o sociali che si distribuiscono secondo una
bernoulliana sono:
 Il sesso casuale di un neonato (che può essere maschio o femmina);
 Il risultato di un lancio di una moneta (che può essere testa o croce);
 L’esito di uno studente ad un esame (che può essere promosso o bocciato).
Ogni singola esecuzione dell’esperimento probabilistico è definita prova bernoulliana.
Associamo per convenzione:
 x=1: all’esito positivo dell’evento 𝐸 (quindi esito negativo di 𝐸 ) e lo definiamo successo
della prova bernoulliana;
 x=0: all’esito negativo dell’evento 𝐸 (quindi esito positivo di 𝐸 ) e lo definiamo insuccesso
della prova bernoulliana.
Le probabilità numeriche connesse sono:
 𝜋: probabilità dell’esito positivo dell’evento 𝐸;
 1 − 𝜋: probabilità dell’esito negativo dell’evento 𝐸.
La distribuzione è facilmente rappresentabile come:
𝑋~Ber(𝜋)
Funzione di probabilità della distribuzione bernoulliana
Avendo esposto alcune definizioni di base riguardanti la distribuzione bernoulliana è possibile
definire la sua funzione di probabilità specifica come:
𝑓(𝑥) = 𝜋 (1 − 𝜋)
Valore atteso e varianza in una distribuzione bernoulliana
Rispetto ad applicare per completo le formule sul valore atteso, la varianza e lo scarto
quadratico medio in una distribuzione bernoulliana, è possibile osservare che in tale
distribuzione particolare esse possono essere ridotte a:
 Valore atteso:
𝐸(𝑋) = 𝜋
 Varianza:
𝑉𝐴𝑅(𝑋) = 𝜋(1 − 𝜋)
 Scarto quadratico medio:
𝑆𝐷(𝑋) = 𝜋(1 − 𝜋)
Esempio sulla distribuzione bernoulliana

Riassunti di Michela Angius 101


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

Il professore di Statistica dell’Università di Napoli ha deciso di analizzare la distribuzione di


probabilità riguardante gli esiti dei suoi esami, osservano che negli ultimi anni la probabilità
che uno studente passasse al primo appello l’esame è del 0,388 (38,8%).
Definiamo:
 E: lo studente passa l’esame al primo appello (da cui x=1);
 𝐸 : lo studente viene bocciato al primo appello (da cui x=0).
Le probabilità sono:
 𝑃(𝐸) = 𝜋 = 0,388
 𝑃(𝐸 ) = 1 − 𝜋 = 1 − 0,388 = 0,612
La distribuzione in questione può essere rappresentata come:
𝑋~Ber(𝜋 = 0,388)
La funzione di probabilità sarà:
𝑓(𝑥) = 0,388 ∙ 0,612
La distribuzione di probabilità sarà:
x 0 1
f(x) 0,612 0,388
F(x) 0,612 1,000
Il valore atteso è:
𝐸(𝑋) = 0,388
La varianza è:
𝑉𝐴𝑅(𝑋) = 0,388 ∙ 0,612 = 0,237
Lo scarto quadratico medio è:
𝑆𝐷(𝑋) = 0,237 = 0,487

DISTRIBUZIONE BINOMIALE
La distribuzione binomiale
La distribuzione binomiale è la distribuzione di probabilità della variabile casuale discreta che
deriva dal numero di successi in n prove indipendenti di un esperimento bernoulliano (vedi
sopra).
Gli elementi alla base di una distribuzione binomiale sono:
 La ripetizione di n prove bernoulliane;
 La costanza della probabilità di successo nelle prove bernoulliane (𝜋 deve essere
costante);
 L’indipendenza di ciascuna prova bernoulliana.
Quindi quando si vuole analizzare i risultati di un numero definito di successive prove
bernoulliane indipendenti è possibile costruire una semplice distribuzione binomiale.
La distribuzione binomiale può essere facilmente rappresentata come:
𝑋~Bin(𝑛, 𝜋)

Riassunti di Michela Angius 102


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

dove:
 n: numero di prove bernoulliane da eseguire;
 𝜋: probabilità di esito positivo della singola prova bernoulliana.
Funzione di probabilità della distribuzione binomiale
La funzione di probabilità della distribuzione binomiale è simile a quella della distribuzione
bernoulliana:
𝑛
𝑓(𝑥) = 𝜋 (1 − 𝜋)
𝑥
dove:
 : coefficiente binomiale, pari a:
𝑛 𝑛!
=
𝑥 𝑥! (𝑛 − 𝑥)!
dove n! è il valore fattoriale di n, ovvero il prodotto di tutti i numeri da n ad 1. Ad esempio:
5! = 5 ∙ 4 ∙ 3 ∙ 2 ∙ 1 = 120
Valore atteso e varianza in una distribuzione binomiale
Il valore atteso di una distribuzione binomiale è:
𝐸(𝑋) = 𝑛 ∙ 𝜋
La varianza, invece, è calcolabile come:
𝑉𝐴𝑅(𝑋) = 𝑛𝜋(1 − 𝜋)
Quindi, lo scarto quadratico medio (sempre pari alla radice della varianza) è:
𝑆𝐷(𝑋) = 𝑛𝜋(1 − 𝜋)
Simmetria e asimmetria di una distribuzione binomiale
Una distribuzione binomiale è:
 Asimmetrica positiva: quando 𝜋 < 0,5;
 Simmetrica: quando 𝜋 = 0,5;
 Asimmetrica negativa: quando 𝜋 > 0,5.
Esempio sulla distribuzione binomiale
Una moneta non truccata (quindi con la stessa probabilità testa e croce) è lanciata sette volte.
Studiare la distribuzione binomiale dell’esperimento probabilistico nel caso di esito testa.
La distribuzione di probabilità è rappresentabile come:
𝑋~Bin(𝑛 = 7, 𝜋 = 0,5)
La funzione di probabilità è:
7 7!
𝑓(𝑥) = 0,5 ∙ 0,5 = 0,5 ∙ 0,5
𝑥 𝑥! (7 − 𝑥)!
La distribuzione di probabilità è:
x 0 1 2 3 4 5 6 7

Riassunti di Michela Angius 103


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

f(x) 0,008 0,055 0,164 0,273 0,273 0,164 0,055 0,008


F(x) 0,008 0,063 0,227 0,500 0,773 0,937 0,992 1,000

(Per il calcolo ci si può aiutare – per velocizzare – con il sito internet Binomial distribution applet
calculator, anche se una buona calcolatrice scientifica permette comunque di eseguire calcoli
del genere).
Il valore atteso della distribuzione è:
𝐸(𝑋) = 7 ∙ 0,5 = 3,5
La varianza è:
𝑉𝐴𝑅(𝑋) = 7 ∙ 0,5 ∙ 0,5 = 1,75
Lo scarto quadratico medio:
𝑆𝐷(𝑋) = 1,75 = 1,322
NOTA: le probabilità definite dalle determinazioni (x) fanno riferimento a quanta probabilità vi
è di uscita di x/7 volte l’esito faccia nel lancio della moneta. Quindi, ad esempio, vi è una
probabilità del 0,063 (6,3%) che in 7 lanci di moneta esca x=1 volta testa.
Dato che la probabilità è pari a 0,5, la distribuzione binomiale è simmetrica, così come si può
facilmente evincere dalla rappresentazione:

Esercizio del professore Vistocco sulla distribuzione binomiale


In un esperimento di laboratorio, un topo deve scegliere tra tre percorsi alternativi, che lo
conducono a premere un pulsante. Solo premendo uno dei tre pulsanti verrà offerto al topo un
pezzo di formaggio. Lungo i percorsi sono presenti una serie di stimoli alternativi. Sotto l’ipotesi
che il topo si muova completamente a caso lungo il labirinto e non risponda agli stimoli presenti,
calcolare la probabilità che effettuando l’esperimento su cinque topi:
 Nessuno riesca ad ottenere un pezzo di formaggio;
 Tutti riescono ad ottenere un pezzo di formaggio;
 Almeno due topi riescono ad ottenere un pezzo di formaggio.
Risoluzione:
Se consideriamo la singola prova di un topo come una prova bernoulliana i cui esiti sono:
 𝐸: il topo compie il percorso giusto e ottiene il pezzo di formaggio;
 𝐸 : il topo non compie il percorso giusto e non ottiene il pezzo di formaggio.

Riassunti di Michela Angius 104


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

Dato che il topo non risponde agli stimoli presenti e si muove completamente a caso la
probabilità che scelga in maniera completamente casuale il percorso giusto è (determinazione
della probabilità):
1
𝑃(𝐸) = = 0,333
3
ovvero il rapporto tra casi favorevoli (1 percorso) su casi totali possibili (3 percorsi).
La probabilità negazione dell’evento E, ovvero che il topo sbagli percorso è data da:
𝑃(𝐸 ) = 1 − 𝑃(𝐸) = 1 − 0,333 = 0,667
La distribuzione è binomiale dato che la prova bernoulliana appena esposta viene ripetuta in
maniera indipendente per cinque topi diversi, quindi la distribuzione in questione è
rappresentabile come:
𝑋~Bin(𝑛 = 5; 𝜋 = 0,333)
dove:
 n: numero di prove bernoulliane, in questo caso il numero di topi che compiono la prova
indipendente;
 𝜋: probabilità di esito, ovvero che il topo nella singola prova bernoulliana indipendente
compia il percorso giusto e prenda il pezzo di formaggio.
La funzione di probabilità binomiale è:
5 5!
𝑓(𝑥) = 0,333 ∙ 0,667 = 0,333 ∙ 0,667
𝑥 𝑥! (5 − 𝑥)!
La distribuzione può essere così rappresentata:
x 0 1 2 3 4 5
f(x) 0,132 0,330 0,329 0,164 0,041 0,004
F(x) 0,132 0,462 0,791 0,955 0,996 1,000

Adesso che abbiamo analizzato in maniera generale la distribuzione binomiale che


caratterizza il problema dell’esercizio, si può rispondere alle domande poste:
 Nessuno riesca ad ottenere un pezzo di formaggio (𝑥 = 0):
𝑓(0) = 0,132 = 13,2%
 Tutti riescono ad ottenere un pezzo di formaggio (𝑥 = 5):
𝑓(5) = 0,004 = 0,4%
 Almeno due topi riescono ad ottenere un pezzo di formaggio (𝑥 ≤ 2)

Riassunti di Michela Angius 105


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

𝑓(0) + 𝑓(1) + 𝑓(2) = 0,132 + 0,330 + 0,329 = 0,791 = 79,1% = 𝐹(2)


Si noti che quest’ultima richiesta (al meno) è facilmente riscontrabile come il valore della
funzione di ripartizione del numero richiesto, in questo caso: 𝐹(2) = 0,791.

IL TEOREMA DEL LIMITE CENTRALE


Il teorema del limite centrale
Il teorema del limite centrale (TLC) afferma che la somma di un grande numero di variabili
casuali indipendenti e dotate dello stesso tipo di distribuzione, è approssimativamente normale,
indipendentemente dalla distribuzione soggiacente.
Esempio del teorema del limite centrale
Vediamo cosa avviene se aumentiamo il numero di prove nell’esempio del lancio della moneta
riguardante la distribuzione binomiale.
Inizialmente abbiamo visto il caso della moneta lanciata sette volte:
𝑋~Bin(𝑛 = 7, 𝜋 = 0,5)

Se diminuiamo tale valore di prove ad una (n=1) si ottiene il caso estremo della distribuzione
bernoulliana:

Prendiamo un valore basso di prove (n=3):

Riassunti di Michela Angius 106


Riassunti di Statistica Psicometrica 15. Particolari modelli di variabili casuali

Aumentiamo sensibilmente il numero di prove a 100 (n=100):

Quindi, si può facilmente notare come in una binomiale, soprattutto se la probabilità della
singola prova bernoulliana è (come in questo caso) pari a 0,5, all’aumentare del numero di
prove la distribuzione tende a diventare una distribuzione normale:
lim BINOMIALE → NORMALE

Riassunti di Michela Angius 107


Anno accademico 2020/2021

Riassunti di Statistica
psicometrica
Università degli Studi di Napoli Federico II
Docente: Domenico Vistocco
Riassunti di: Michela Angius
TERZA PROVA INTERCORSO
Indice degli argomenti
16 Inferenza statistica 110
Introduzione all’inferenza statistica
Livelli di conoscenza e campionamento
Teorema del limite centrale nell’inferenza statistica
Variabili casuali campionarie
Strumenti della statistica inferenziale e statistiche campionarie
17 Stima e stimatori 115
Concetto di stima statistica
Stimatori naturali
Proprietà degli stimatori
18 Verifica delle ipotesi 120
Concetto di verifica delle ipotesi
Errori di decisione e livello di significatività
Test per la verifica delle ipotesi sulla media
Test per la verifica delle ipotesi sulla varianza
Test per la verifica delle ipotesi sulla proporzione
19 Verifica delle ipotesi 136
Distribuzione F di Fisher e test dell’omogeneità delle varianze
Analisi della varianza ANOVA
20 Statistica bivariata 140
Concetto di statistica bivariata
Statistica bivariata con variabili qualitative: Chi quadro e contingenza
Statistica bivariata con variabili quantitative: covarianza e indice di correlazione
Bravais-Pearson

Riassunti di Michela Angius 109


Riassunti di Statistica Psicometrica 16. Inferenza statistica

16 Inferenza statistica

INTRODUZIONE ALL’INFERENZA STATISTICA


L’inferenza statistica
L’inferenza statistica è un insieme di metodi di calcolo statistico che si basa sul concetto
generale della probabilità; più nello specifico, l’obiettivo dell’inferenza statistica è quello di
ottenere una serie di informazioni utili e (in parte, dato che è sempre insito un margine di errore)
corrette sulla popolazione, estraendo da essa un campione, secondo alcuni metodi di
campionamento:

È un processo induttivo che, pur non potendo contare su tutti i dati necessari per descrivere un
collettivo statistico, cerca di stimare con una certa probabilità di errore, se essi siano o meno
attendibili.
L’induzione, dunque, contrariamente alla deduzione, si fonda su basi incerte ma tenta di
colmare le lacune di informazione che si hanno ogni qualvolta non si può osservare tutta la
popolazione, ma solo una parte di essa.
Esempio di analisi di inferenza statistica
Un tipico esempio di analisi inferenziale proviene dalle intenzioni al voto, o sondaggi politici:
l’organizzazione SWG compie sondaggi politici periodicamente, andando a domandare ad un
campione dell’intera popolazione italiana la propria intenzione al voto.
Logicamente, lo studio condotto dalla SWG non può essere messo in atto su ogni singolo
cittadino con diritto al voto, e per tale motivo si necessita di un’analisi campionaria:
 In primo luogo, la SWG estrae tramite alcuni metodi propri di campionamento un
campione dalla popolazione, con l’obiettivo di ridurre al minimo i costi della ricerca,
massimizzando i risultati, ovvero ottenendo come prodotto dello studio informazioni utili
e con basso livello di errore statistico;
 In secondo luogo, la SWG compie, tramite gli strumenti tipici della statistica inferenziale,
un’analisi sul campione per ottenere le informazioni sull’intera popolazione.
I sondaggi politici della SWG sono un importante termometro politico, possibile solo grazie
all’uso della statistica inferenziale.
Un esempio di risultati tratti dall’ultimo studio statistico-politico della SWG (17 maggio 2021):
Riassunti di Michela Angius 110
Riassunti di Statistica Psicometrica 16. Inferenza statistica

Partito politico Intenzione di voto


Lega 21,0%
Fratelli d’Italia 19,5%
Partito Democratico 19,2%
Movimento 5 Stelle 16,8%
Forza Italia 7,0%
Altri 16,5%

Nelle note dello studio la SWG sottolinea che lo studio è stato condotto con:
 Un campione di 1.200 cittadini maggiorenni (molto inferiore rispetto alle decine di
milioni di italiani con diritto al voto);
 Un livello di errore statistico del 2,8%;
 Un intervallo di confidenza del 95%.
Queste due ultime componenti, pilastri centrali della statistica inferenziale, verranno
specificamente esposte nelle parti successive del riassunto.

LIVELLI DI CONOSCENZA E IL CAMPIONAMENTO


I tre livelli di conoscenza della popolazione
Data una popolazione ed un carattere X da voler analizzare (come l’intenzione al voto
nell’esempio precedente), è possibile classificare il grado di conoscenza del carattere nella
popolazione come:
 Si conosce la distribuzione completa relativa al carattere X nella popolazione, quindi si
hanno tutte le informazioni che si necessitano (una sorta di analisi censuaria);
 Non si conosce la distribuzione completa, ma si possono ottenere informazioni tramite
l’analisi di un campione che descrive la popolazione in base ad un modello probabilistico
noto;
 Non si ha nessuna conoscenza della caratteristica nella popolazione, quindi è impossibile
trarre delle informazioni utili da essa.
Come si può intuire, nella statistica inferenziale ci si occupa del secondo caso di studio, mentre
nella statistica fin ora esposta negli altri pacchetti di riassunti (statistica descrittiva) si è riusciti
a studiare il carattere in condizioni tipiche del primo punto.
La fase di estrazione del campione
L’estrazione di un campione dalla popolazione può essere intesa, da un punto di vista
probabilistico (vedi secondo pacchetto di riassunti) come l’esecuzione di un numero di
esperimenti probabilistici aventi come:
 Spazio campione (Ω) l’intera popolazione osservabile;
 Funzione di probabilità (o di densità) la distribuzione di frequenze osservabili nella
popolazione, e se non conosciuta un modello – come quello normale – che riesce a
simularlo.

Riassunti di Michela Angius 111


Riassunti di Statistica Psicometrica 16. Inferenza statistica

L’estrazione del campione può essere svolta in maniera casuale dalla popolazione (ad esempio
nel caso del sondaggio politico SWG è più conveniente estrarre casualmente 1.200 adulti, che
selezionarli mediante un particolare metodo discriminatorio), di solito svolta mediante il
metodo del campionamento casuale semplice (tutti gli individui nella popolazione hanno
uguale probabilità di essere inclusi nel campione, dato che l’estrazione del campione è casuale).
Il campione casuale
In statistica inferenziale si definisce campione casuale un insieme di variabili casuali
indipendenti aventi tutte la distribuzione 𝑓(𝑥) tipica della popolazione di partenza.
Un importante caratteristica del campione casuale estratto da una popolazione infinita è data
dal fatto che qualsiasi operazione statistica svolta sul campione casuale, come una
trasformazione lineare, avrà sempre come risultato una variabile casuale.
Esempio di analisi inferenziale su una popolazione infinita
Si immagini di avere una popolazione con numerosità infinita:
𝑁→∞
In questo caso è impossibile compiere un’analisi censuaria di volume infinito sul carattere di
interesse della popolazione. È conveniente, quindi, cercare di estrarre – nella maniera migliore–
dalla popolazione di numerosità infinta un campione di numerosità finita limitata:
𝑛 → limito
Gli spazi nell’inferenza
Può essere introdotto uno schema semplificativo del processo inferenziale mediante il quale è
possibile definire i diversi spazi di studio nella statistica inferenziale, più nello specifico:

dove:
 Spazio parametrico: alberga tutti i possibili valori che il parametro della popolazione da
dover analizzare può assumere (spazio di interesse);
 Spazio della statistica: presenta tutte le trasformazioni campionarie utili ad ottenere
informazioni sul parametro della popolazione da dover analizzare;
 Spazio campionario: l’insieme dei campioni (spazio di lavoro della statistica
inferenziale).

TEOREMA DEL LIMITE CENTRALE NELL’INFERENZA STATISTICA


Il teorema del limite centrale nell’inferenza statistica

Riassunti di Michela Angius 112


Riassunti di Statistica Psicometrica 16. Inferenza statistica

Un esempio di analisi inferenziale può essere condotto a riguardo la media del valore delle
rilevazioni fatte sul carattere di un campione (la c.d. media campionaria), con lo scopo di
estrapolare da suddetta informazione un valore significativamente giusto della media della
popolazione.
Unendo concetti tipici della probabilità, con altri della statistica descrittiva è possibile associare
la variabile casuale della media campionaria ad una distribuzione di probabilità nota, grazie
al teorema del limite centrale.
Infatti, se la numerosità campionaria 𝑛 è grande (di solito si intende almeno 30 rilevazioni, 𝑛 =
30) e se i campioni sono indipendenti, allora al crescere di 𝑛, la distribuzione della variabile
casuale della media campionaria tende a distribuirsi secondo una curva normale di:
 Media: 𝜇
 Varianza:
Da tali osservazioni teoriche, posti alla base del processo inferenziale, è possibile derivare che la
distribuzione della media campionaria è standardizzabile e quindi, più facilmente analizzabile
dal punto di vista inferenziale, potendo finalmente – tramite strumenti statistici che verranno
esposti prossimamente – studiare dati utili da usare nel processo induttivo di estrapolazione di
informazioni sull’interna popolazione.
La standardizzazione della variabile casuale media campionaria sarà:
𝑥̅ − 𝜇
𝑍 = 𝜎 ~𝑁(0,1)
√𝑛
dove:
 𝑥̅ : le media campionarie rilevate nello studio sui campioni;
 𝜇: la media della popolazione (incognita del processo inferenziale);
 : lo scarto quadratico medio della distribuzione delle media campionarie.

VARIABILI CASUALI CAMPIONARIE


Le variabili casuali e le variabili casuali campionarie
Nel precedente pacchetto di riassunti, relativo alla probabilità, si è analizzato il concetto
statistico di variabile casuale; adesso, in base alle conoscenze sulle variabili casuali già acquisite
è possibile introdurre una differenza tra:
 Le variabili casuali naturali (già viste in precedenza, come la bernoulliana o la binomiale)
sono state definite sulla base di evidenze empiriche o su spazi campionari associati ad
esperimenti casuali reali;
 La variabili casuali campionarie sono ottenute attraverso trasformazioni di variabili
casuali naturali o di variabili casuali campionarie. Una variabile casuale campionaria
può riferirsi ad una statistica delle popolazione ad un parametro della popolazione, in
quest’ultimo caso la variabile casuale campionaria è anche definibile come uno
stimatore del parametro (vedi dopo).
La somma campionaria, il valore atteso e la varianza
Riassunti di Michela Angius 113
Riassunti di Statistica Psicometrica 16. Inferenza statistica

Si prenda in considerazione un campione casuale composto da una serie di variabili casuali


naturali indipendenti e identicamente distribuite (notazione di tale caratteristica è i.i.d.). Si
definisce somma campionaria la variabile casuale campionaria:

𝑊= 𝑋

ovvero la sommatoria del valore di tutte le variabili casuali naturali indipendenti (un esempio
di somma campionaria sarà esposto nelle pagine successive).
Il valore atteso della variabile casuale campionaria W sarà:

𝐸(𝑊) = 𝑛𝜇 = 𝜇

La varianza, invece, sarà:


𝑉𝐴𝑅(𝑊) = 𝑛𝜎
La proprietà di riproduttività
Una variabile casuale gode della c.d. proprietà della riproduttività rispetto al somma
campionaria, se la variabile casuale W si distribuisce nella stessa maniera della variabile
casuale inziale.

STRUMENTI DELLA STATISTICA INFERENZIALE E STATISTICHE CAMPIONARIE


I due strumenti principali della statistica inferenziale
La statistica inferenziale, per compiere in maniera corretta il suo processo di analisi induttiva
del carattere dal campione alla popolazione, si serve di due strumenti principali:
 La stima dei parametri di una popolazione: dai valori dei campioni si tenta di stimare il
valore del parametro di interesse relativo alla popolazione (ad esempio avendo la media
del campione o di una serie di campioni, si tenta di stimare la media dell’intera
popolazione). In questo caso la statistica campionaria usata si definirà stimatore;
 La verifica delle ipotesi statistiche: con la quale si accetterà o meno una certa ipotesi
statistica nulla o alternativa. In questo caso la statistica campionaria usata si definirà
statistica test.
Le statistiche campionarie e la media campionaria
Considerato un campione casuale (così come definito in precedenza), possono essere costruite
trasformazioni lineari, c.d. statistiche campionarie, utili a calcolare indici statistici come la
media, la mediana o la varianza della popolazione.
Un esempio tipico di statistica campionaria è la media campionaria, definibile come 𝑋,
trasformazione lineare da poter compiere su un campione casuale per ottenere un utile
informazione, tramite la stima, della media della popolazione.
Nota: la media aritmetica di un campione è un numero, mentre la media campionaria è una
statistica campionaria, una funzione utile nel processo inferenziale per ottenere informazioni
sulla media della popolazione, partendo dalle media aritmetica del campione.

Riassunti di Michela Angius 114


Riassunti di Statistica Psicometrica 17. Stima e stimatori

17 Stima e stimatori

CONCETTO DI STIMA STATISTICA


I concetti alla base della stima
Come già scritto, la stima è un procedimento statistico-induttivo che ci permette di “stimare” il
valore di un parametro 𝜃 di una popolazione (ad esempio il reddito medio delle famiglie di
Napoli), svolgendo un’analisi di un suo campione estratto casualmente.
La stima statistica si fonda su alcuni concetti di base, alcuni già esposti, quali:
 Il campione casuale: insieme di variabili casuali distribute secondo una certa funzione e
caratterizzata da un insieme di parametri (come la media, la varianza, ecc...);
 Lo stimatore (𝑇): è una variabile casuale campionaria, definita da una funzione
algebrica nello spazio parametrico, che viene usata come strumento di statistica
induttiva per stimare dalle rilevazioni fatte dal campione casuale il parametro 𝜃 di una
popolazione di interesse:
𝑇( ) = 𝑓(𝑋 , 𝑋 , … , 𝑋 |𝜃)
dove: 𝑇( ) è la statistica campionaria dello stimatore per un determinato spazio campionario
di dimensione n, rappresentata dalla funzione algebrica 𝑓 che “agisce” su uno spazio di
campioni definito dalla variabile casuale 𝑋 = {𝑋 , 𝑋 , … , 𝑋 }, per la stima del parametro 𝜃 della
popolazione.
 La stima in senso stretto (𝑡): è il valore numerico che la funzione dello stimatore assume
in corrispondenza di un particolare campione. In questo caso, una volta estratto
casualmente un campione dalla popolazione, la stima è rappresentabile come:
𝑡( ) = 𝑓(𝑥 , 𝑥 , … , 𝑥 |𝜃)
dove: 𝑡( ) è il valore numerico della stima ottenuto tramite l’uso della funzione dello stimatore
𝑇( ) sul determinato campione estratto casualmente i cui valori sono {𝑥 , 𝑥 , … , 𝑥 }, tutto riferito
al parametro 𝜃.
 Spazio parametrico: è l’insieme di tutti i possibili valori che il parametro 𝜃 in analisi può
assumere;

STIMATORI NATURALI
Due concetti fondamentali e simili sulla stima statistica
Nel processo di stima è possibile distinguere due concetti fondamentali e simili fra di loro:
 Stima parametrica: quando dal campione si vuole stimare, come esposto prima, il valore
di un parametro che caratterizza l’intera popolazione;
 Stimatori naturale: si utilizza per determinare la statistica campionaria per la
popolazione.
La media campionaria

Riassunti di Michela Angius 115


Riassunti di Statistica Psicometrica 17. Stima e stimatori

Già accennata in precedenza, la media campionaria 𝑋 è lo stimatore naturale della media di


una popolazione, in un processo statistico-induttivo di analisi di un campione.
Dato un campione casuale estratto dalla popolazione, se la variabile causale X si distribuisce
secondo una normale:
𝑋~𝑁(𝜇, 𝜎 )
si definisce media campionaria la funzione-stimatore:
1
𝑋= 𝑋
𝑁

dove:
 𝑋: la media campionaria;
 𝑁: la numerosità campionaria;
 𝑋 : i valori del carattere X (o della variabile casuale) relativi al campione casuale;
 ∑ 𝑋 : ciò che in precedenza avevamo definito somma campionaria.
Esempio di media campionaria
Il Ministero dell’Istruzione decide di svolgere un’analisi campionaria di statistica inferenziale per
stimare l’altezza media degli alunni italiani nelle scuole elementari. A tal fine estrae
casualmente dalla popolazione di interesse (formata da tutti gli studenti italiani delle scuole
elementari) un campione – abbastanza esiguo – di dieci alunni, osservando in esso il carattere
X relativo all’altezza in cm:
Studente 1 2 3 4 5 6 7 8 9 10
Altezza
155 161 152 156 154 153 163 160 158 153
(in cm)

Al fine di stimare il parametro media della popolazione, il ministero procede al suo calcolo
tramite lo stimatore naturale della media della popolazione, ovvero la media campionaria:
1 1
𝑋= 𝑋 = ∙ (155 + 161 + 152 + 156 + 154 + 153 + 163 + 160 + 158 + 153)
𝑁 10
1.565
= = 156,5 cm
10
Pur sempre con un troppo elevato margine di errore, dato che la numerosità campionaria è
troppo esigua rispetto alla numerosità della popolazione, il ministero conclude che l’altezza
media degli studenti italiani frequentati le scuole elementari è di 156,5 cm.
Logicamente, all’aumentare della numerosità del campione le rilevazioni sull’altezza si
avvicinano sempre di più alla reale distribuzione del carattere sull’intera popolazione, e la stima
del parametro media diventerà sempre più precisa e con un margine di errore minore.
La varianza campionaria
La varianza campionaria è lo stimatore naturale della varianza della popolazione, usata nel
processo di stima parametrica.
Riassunti di Michela Angius 116
Riassunti di Statistica Psicometrica 17. Stima e stimatori

Sempre se la variabile casuale X che rappresenta la distribuzione della caratteristica in esame


sull’intera popolazione si distribuisce secondo una normale, allora:
1
𝑆 = (𝑋 − 𝑋)
𝑁−1

Esempio di varianza campionaria


Riprendiamo l’esempio dello studio dell’altezza degli studenti delle scuole elementari svolta dal
ministero, con l’obiettivo di stimare il parametro varianza dell’altezza degli studenti nella
popolazione:
1
𝑆 = (𝑋 − 𝑋)
𝑁−1
1
𝑆 = [(155 − 156,5) + (161 − 156,5) + (152 − 156,5) + (156 − 156,5)
10 − 1
+ (154 − 156,5) + (153 − 156,5) + (163 − 156,5) + (160 − 156,5)
+ (158 − 156,5) + (153 − 156,5) ] =
1
𝑆 = [(−1,5) + (4,5) + (−4,5) + (−0,5) + (−2,5) + (−3,5) + (6,5) + (3,5) + (1,5)
9
+ (−3,5) ] =
1
𝑆 = (2,25 + 20,25 + 20,25 + 0,25 + 6,25 + 12,25 + 42,25 + 12,25 + 2,25 + 12,25) =
9
130,5
𝑆 = = 14,5
9
PROPRIETÀ DEGLI STIMATORI
Le proprietà degli stimatori
Dato che l’uso degli stimatori è necessario per la stima dei parametri dalle rilevazioni fatte da
un campione casuale al valore nella popolazione, allora è altrettanto necessario che la funzione
dello stimatore sia in grado di fornire informazioni sulla popolazione il più possibile precise,
quindi con un margine di errore basso.
Uno stimatore è definibile statisticamente buono, e/o migliore rispetto ad altri, se gode delle
seguenti proprietà:
 Correttezza o non distorsione;
 Efficienza;
 Consistenza;
 Sufficienza.
La proprietà della correttezza o della non distorsione
In maniera teorica, uno stimatore gode della proprietà della correttezza (anche definita
proprietà della non distorsione) se la stima da esso risultante (𝑡( ) ) coincide con il parametro
della popolazione da stimare:
𝐸[𝑇(𝑋 )] = 𝜃

Riassunti di Michela Angius 117


Riassunti di Statistica Psicometrica 17. Stima e stimatori

ovvero: la “speranza matematica” derivante dall’uso dello stimatore (stima in senso stretto) è
uguale al parametro obiettivo della stima nella popolazione.
Invece, in maniera generale, uno stimatore corretto è in grado di produrre stime che
mediamente coincidono con il parametro da stimare.
Tramite processi algebrici è possibile dimostrare che la media campionaria è sempre uno
stimatore corretto della media della popolazione (𝜇), dato che:
1
𝐸[𝑋 ] = (𝐸[𝑋 ] + 𝐸[𝑋 ] + ⋯ + 𝐸[𝑋 ])
𝑁
e visto che: 𝐸[𝑋 ] = 𝐸[𝑋 ] = 𝐸[𝑋 ] = 𝜇, allora:
𝜇 + 𝜇 + ⋯ + 𝜇 𝑁𝜇
𝐸[𝑋 ] = = =𝜇
𝑁 𝑁
Con un’altra dimostrazione algebrica è possibile osservare come anche la varianza
campionaria è uno stimatore corretto della varianza di una popolazione:
𝐸𝑆 =𝜎
La proprietà dell’efficienza
La proprietà di efficienza serve a stabilire in che misura lo stimatore è in grado di stimare in
maniera puntuale e perfetta il parametro nella popolazione. Quindi, tramite l’efficienza si cerca
di calcolare l’errore quadratico medio, ovvero lo scostamento della stima dal valore del
parametro:
𝑀𝑆𝐸 = 𝐸[(𝑡 − 𝜃) ]
dove:
 MSE: mean squared error (errore quadratico medio);
 (𝑡 − 𝜃) : il valore atteso della variabile casuale costruita tramite con spazio
campionario tutte le possibili differenze tra stima in senso stretto e parametro effettivo,
elevati al quadrato per non avere l’effetto del segno dell’errore.
L’MSE può anche essere inteso come la varianza effettiva dello stimatore e un bias (distorsione)
dello stimatore stesso rispetto al parametro effettivo:
𝑀𝑆𝐸(𝜃) = 𝑉𝐴𝑅 𝑇( ) + Bias(𝑇, 𝜃)
dove il Bias può essere rappresentato da una funzione così costituita:
Bias(𝑇, 𝜃) = 𝑡( ) − 𝐸 𝑇( )

ovvero la differenza al quadrato del valore del parametro stimato corrispondente ed il valore
atteso della variabile casuale rappresentata dallo stimatore.
La proprietà della consistenza
Uno stimatore è definibile consistente se, all'aumentare dell'informazione, ossia della
numerosità del campione, la sua distribuzione di probabilità si concentra in corrispondenza del
valore del parametro da stimare.
La proprietà della sufficienza

Riassunti di Michela Angius 118


Riassunti di Statistica Psicometrica 17. Stima e stimatori

È sufficiente lo stimatore basato su una statistica sufficiente, ovvero nel caso in cui il
𝑇( ) contiene tutte le informazioni sul parametro contenute nel campione a disposizione dello
studio statistico-inferenziale.
Una nota finale sulle definizioni
Si può notare come, nella statistica inferenziale per fare riferimento ai parametri o alle
caratteristiche nella popolazione si usano le lettere greche, mentre per far riferimento ai
parametri nei campioni si usano le lettere latine. Ad esempio, in corrispondenza dei tre più
importanti parametri si ha:
Parametro Media Varianza Proporzione
Popolazione 𝜇 𝜎 𝜋
Campione 𝑋 𝑆 𝑃

Riassunti di Michela Angius 119


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

18 Verifica delle ipotesi

CONCETTO DI VERIFICA DELLE IPOTESI


L’obiettivo della verifica delle ipotesi
La verifica delle ipotesi è stata una grande innovazione per la conoscenza umana, dato che
grazie ad essa è stato possibile un cambiamento strutturale nelle indagini sui paradigmi
scientifici, non più basati sulle conoscenze ottenute in maniera deduttiva tramite le esperienze,
ma su conoscenze costruite in maniera scientifica tramite un metodo induttivo basato sulla
verificabilità delle ipotesi formulate.
Si passò, quindi, da una conoscenza del tipo: “credo in queste ipotesi formulate dato che ho
l’esperienza di averle vissute” o “credo in queste ipotesi dato che una persona ritenuta da me
credibile sul tema mi ha raccontato che ha avuto un’esperienza di averle vissute” ad una
conoscenza costituita sulla verifica scientifica e statistica delle ipotesi formulate.
Inoltre, la verifica di ipotesi consente di assumere decisioni in condizioni di incertezza potendo
fissare a priori la probabilità di assumere una decisione errata.
Il concetto di ipotesi statistica
Un’ipotesi statistica può essere intesa come una asserzione o supposizione sulla distribuzione di
una o più variabili casuali.
L’ipotesi statistica viene definita algebricamente come:
𝐻: asserzione
dove:
 H: definisce che ciò che la segue è un’ipotesi statistica (H da hypotesis);
 Asserzione: descrive la formulazione matematica dell’ipotesi statistica.
Esempio di definizione algebrica di ipotesi statistica
Ad esempio, se si vuole esprime algebricamente l’ipotesi che, dopo aver stimato la media del
reddito delle famiglie di Napoli, esso è pari a 15.000€ annui, allora la notazione algebrica sarà:
𝐻: 𝜇 = 15.000€
Se invece si vuole esprime l’ipotesi che il quoziente intellettivo medio della popolazione italiana
è maggiore di 105, la sua notazione algebrica sarà:
𝐻: 𝜇 > 105
Ipotesi statistica parametrica
Si definisce ipotesi statistica parametrica, l’ipotesi che viene formulata su un parametro della
popolazione: esempi possono essere ipotesi sulla media del reddito delle famiglie di Napoli,
ipotesi sulla varianza del voto preso da tutti gli studenti italiani nell’ultimo esame di maturità o
ipotesi sulla percentuale di italiani (in questo caso si parla di “proporzione” statistica) che voterà
Movimento 5 Stelle alle prossime elezioni politiche.

Riassunti di Michela Angius 120


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

Il test sulle ipotesi statistiche


Si svolgono test statistici per verificare l’esattezza o rifiutare in maniera scientifica una data
ipotesi H.
Dato che le statistiche test sono variabili casuali campionarie, che studiano l’esattezza di una
certa ipotesi all’interno di un campione per trarre una conclusione accettabile sull’intera
popolazione, il loro esito (o la conclusione da essi derivante) può essere condizionata da un certo
errore: in questo caso è possibile rifiutare un’ipotesi quando questa è, invece, vera, o accettare
un’ipotesi statistica quando invece è falsa.
Per analizzare la probabilità che il test statistico sulle ipotesi (da ora in poi lo definiremo con il
termine verifica delle ipotesi) dia una conclusione errata sulla realtà della popolazione si può
fissare ex-ante una soglia di errore accettabile prima ancora di effettuare il test di verifica delle
ipotesi.
L’ipotesi nulla e l’ipotesi alternativa
Si definisce ipotesi nulla, in una verifica delle ipotesi, l’asserzione che l’ipotesi in questione risulti
vera nella popolazione. L’ipotesi nulla è definibile come:
𝐻 : asserzione
Si definisce ipotesi alternativa l’asserzione che l’ipotesi nulla sia errata, quindi l’ipotesi opposta
all’asserzione dell’ipotesi nulla. L’ipotesi alternativa è definibile come:
𝐻 : asserzione alternativa a quella nulla
Il test di verifica delle ipotesi avrà come conclusione l’accettazione di una delle due tra ipotesi
nulla o ipotesi alternativa, quindi, in maniera speculare il rifiuto dell’altra.
Le diverse tipologie di ipotesi alternativa
L’ipotesi alternativa 𝐻 all’ipotesi nulla 𝐻 può essere:
 Semplice: quando si ipotizza che il valore accettabile sia un altro rispetto a quello
dell’ipotesi nulla, ad esempio se:
𝐻 : 𝜇 = 𝑘 → 𝐻 : 𝜇 = 𝑘′
 Unidirezionale destra: quando di ipotizza che il valore accettabile sia maggiore di quello
dell’ipotesi nulla, ad esempio se:
𝐻 :𝜇 = 𝑘 → 𝐻 :𝜇 > 𝑘
 Unidirezionale sinistra: quando di ipotizza che il valore accettabile sia minore di quello
dell’ipotesi nulla, ad esempio se:
𝐻 :𝜇 = 𝑘 → 𝐻 :𝜇 < 𝑘
 Bidirezionale: quando di ipotizza che il valore accettabile sia diverso da quello dell’ipotesi
nulla, ad esempio se:
𝐻 :𝜇 = 𝑘 → 𝐻 :𝜇 ≠ 𝑘
Esempio di ipotesi nulla ed ipotesi alternativa

Riassunti di Michela Angius 121


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

Si vuole svolgere un test di verifica delle ipotesi che, dopo aver analizzato il quoziente intellettivo
medio di un campione di italiani e calcolato pari a 105 (𝑥̅ = 105), il quoziente intellettivo medio
dell’intera popolazione italiana sia pari a 105.
In questo caso:
 L’ipotesi nulla sarà che il quoziente intellettivo medio della popolazione italiana è pari a
105:
𝐻 : 𝜇 = 105
 Un’ipotesi alternativa semplice può essere che il quoziente intellettivo degli italiani sia
pari a 130:
𝐻 : 𝜇 = 130
 Partendo dall’ipotesi nulla, l’ipotesi alternativa bidirezionale destra sarà che il quoziente
intellettivo degli italiani sia maggiore di 105:
𝐻 : 𝜇 > 105
 L’ipotesi alternativa bidirezionale sinistra sarà che il quoziente intellettivo degli italiani
sia minore di 105:
𝐻 : 𝜇 < 105
 L’ipotesi alternativa unidirezionale sarà che il quoziente intellettivo degli italiani sia
diverso da 105:
𝐻 : 𝜇 ≠ 105

ERRORI DI DECISIONE E LIVELLO DI SIGNIFICATIVITÀ


Gli errori nella verifica delle ipotesi
Come già detto la verifica delle ipotesi si basa su una variabile casuale campionaria, definita
come statistica test, caratterizzata da un’insita incertezza sulla conclusione da essa risultante,
dato che è un processo di inferenza statistica di accettazione di un’ipotesi formulata per la
realtà di una popolazione, partendo dalle osservazioni fatte da un campione.
Per tale motivo l’accettazione o il rifiuto dell’ipotesi nulla può essere influenzata da un certo
errore, distinguibile teoricamente in:
 Errore di primo tipo: se l’ipotesi nulla è vera nella popolazione, ma è stata rifiutata dal
processo inferenziale di verifica delle ipotesi;
 Errore di secondo tipo: se l’ipotesi nulla è falsa nella popolazione, ma è stata accettata
dal processo inferenziale di verifica delle ipotesi.
Il livello di significatività
Si può svolgere il test di verifica delle ipotesi scegliendo un certo livello di significatività (𝛼),
ovvero un grado di errore che può essere accettato in caso si afferma come falsa un’ipotesi nulla
che in realtà è vera.
Il livello di significatività corrisponde alla probabilità rappresentata dall’area sottesa alla curva
della variabile casuale che descrive la distribuzione della statistica test usata per verificare

Riassunti di Michela Angius 122


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

l’esattezza dell’ipotesi nulla. In questo modo possono essere individuate due aree (regioni)
sottese alla curva della statistica test:
 Regione di accettazione: dove se il valore risultante dalla statistica test cade in essa,
l’ipotesi nulla è da considerare verificata o corretta;
 Regione di rifiuto: dove se il valore risultante dalla statistica test cade in essa, l’ipotesi
nulla è da considerare non verificata o incorretta.
Ad esempio, per una statistica test che si distribuisce secondo una curva normale, le due aree
sono rappresentabili come:

In questa rappresentazione specifica vi sono due aree di rifiuto corrispondenti alle due code
della curva normale, questo ad indicare che tale grafico rappresenta una verifica delle ipotesi
svolta con una statistica test normale e con ipotesi alternativa bidirezionale (si prendono sia i
casi in cui la media della popolazione è significativamente minore o superiore al valore sancito
dall’ipotesi nulla):
𝐻 :𝜇 ≠ 𝑘
Nel caso di ipotesi unidirezionali si seleziona come regione di rifiuto solo una delle due code, in
funzione se l’ipotesi alternativa è unidirezionale destra o sinistra.
I valori tipici del livello di significatività
Nella prassi statistica, nei problemi di verifica delle ipotesi, si usano alcuni livelli tipici di
significatività:
𝛼 𝛼 (%) 𝛼/2 𝛼/2 (%)
0,1 10% 0,05 5%
0,05 5% 0,025 2,5%
0,01 1% 0,005 0,5%

Logicamente a minor valore di 𝛼 maggior livello di significatività e minore area sottesa come
regione di rifiuto. Il perché di 𝛼/2 è da ricercare nel fatto che negli esercizi di verifica delle ipotesi
con ipotesi alternativa bidirezionale (come quella del grafico mostrato sopra) il livello di
significatività 𝛼 deve essere riferito ad entrambi le regioni corrispondenti alla coda di sinistra e
alla coda di destra, quindi l’area di una singola coda sarà pari a metà area totale di
significatività (quindi 𝛼/2).
Il coefficiente di confidenza

Riassunti di Michela Angius 123


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

Opposto al concetto di livello di significatività è il coefficiente di confidenza, visto come la


probabilità che l’ipotesi nulla non sia rifiutata quando è vera:
𝛽 =1−𝛼

TEST PER LA VERIFICA DELLE IPOTESI SULLA MEDIA


I diversi test statistici per la verifica delle ipotesi sulla media
In base ai diversi dati a nostra disposizione, è possibile scegliere diversi processi di calcolo per la
verifica delle ipotesi sulla media della popolazione, in particolare:
 Media della popolazione (𝜇) sapendo la varianza della popolazione stessa (𝜎 ): il test Z;
 Media della popolazione (𝜇) non sapendo la varianza della popolazione stessa (𝜎 ): il test
T;
 Differenza fra medie della popolazione sapendo le varianze uguali (𝜎 = 𝜎 = 𝜎 ) delle
due popolazioni;
 Differenza fra medie della popolazione non sapendo le varianze delle due popolazioni;
Test sulla media della popolazione sapendo la varianza della popolazione stessa: il
test Z
Prendiamo in considerazione una variabile casuale X, descrivente un carattere in una
popolazione, di cui si vuole verificare l’ipotesi sul valore di una media. Di tale variabile causale è
nota la varianza (𝜎 ), e:
 O si distribuisce secondo una normale con media non nota (incognita del problema) e
varianza nota, da cui anche la variabile casuale media campionaria si distribuirà
secondo una normale con:
𝜎
𝑋~𝑁(𝜇, 𝜎 ) da cui 𝑋( ) ~𝑁 𝜇,
𝑛
 O ha una numerosità campionaria n maggiore di 30, tale che può essere approssimata
ad una normale:
𝜎
𝑛 > 30 da cui 𝑋( ) ≈ 𝑁 𝜇,
𝑛
dove il simbolo ≈ indica che la distribuzione della media campionaria è approssimabile ad una
normale.
Possono essere introdotte sia l’ipotesi nulla di eguaglianza tra media e un certo valore da voler
verificare come vero nella popolazione, e una certa ipotesi alternativa che ha asserzione
opposta e di tipologia come quelle esposte in precedenza (semplice, unidirezionale e
bidirezionale):
𝐻 :𝜇 = 𝜇 e 𝐻 :𝜇 ≠ 𝜇
(da ora consideriamo 𝑘 = 𝜇 ).
La statistica test usata per accettare o rifiutare l’ipotesi nulla è la c.d. statistica Z, pari a:

Riassunti di Michela Angius 124


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

𝑥̅ − 𝜇
𝑧= 𝜎 ~𝑁(0,1)
√𝑛
dove:
 z: valore corrispondente l’ipotesi nulla calcolato tramite la statistica test Z;
 𝑥̅ : media del campione a disposizione;
 𝜇 : media della popolazione ipotizzata dall’ipotesi nulla;
 𝜎: scarto quadratico medio della popolazione (noto e calcolabile come la radice
quadrata della varianza nota);
 𝑛: dimensione campionaria.
Grazie alla statistica Z è possibile trovare il valore z da dover confrontare con il livello di
significatività scelto, per osservare se z cade nella regione di accettazione o di rifiuto:
 Se z cade nella regione di accettazione si accetta l’ipotesi nulla e si rifiuta l’alternativa;
 Se z cade nella regione di rifiuto si accetta l’ipotesi alternativa e si rifiuta la nulla.
Vediamo ora i diversi casi possibili di verifica delle ipotesi, in base alle diverse ipotesi alternative
poste dalle tracce degli esercizi.
Ipotesi alternativa 𝑯𝟏 : 𝝁 > 𝝁𝟎 (unidirezionale destra)
Per un livello di significatività assegnato 𝛼, si rifiuterà l’ipotesi nulla 𝐻 se:
𝑧>𝑧
Il valore 𝑧 deve essere trovato sulla tavola della normale standardizzata.
L’insieme dei valori z per cui si rifiuta l’ipotesi nulla, la c.d. regione R di rifiuto, è rappresentabile
algebricamente come:
𝑅 = {𝑧: 𝑧 > 𝑧 }
che si legge come: l’insieme dei valori di z, tali che (:) questi valori di z siano superiori al valore di
𝑧 .
Quando si rifiuta l’ipotesi nulla si dice che vi è sufficiente evidenza empirica contro l’ipotesi nulla.

La regione di rifiuto può essere espressa in maniera più dettagliata, per svolgere calcoli più
veloci, in funzione della media del campione disponibile come:
𝜎
𝑅 = 𝑥̅ : 𝑥̅ > 𝜇 + 𝑧 ∙
√𝑛
Riassunti di Michela Angius 125
Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

in questo caso andremo a confrontare il valore della media del campione a nostra disposizione
con una media “critica” o “soglia” costruita mediante la statistica test Z: nel caso in cui la media
del campione a nostra disposizione fosse maggiore della media calcolata con la statistica test,
allora l’ipotesi nulla è da rifiutare, accettando l’ipotesi alternativa.
Ipotesi alternativa 𝑯𝟏 : 𝝁 < 𝝁𝟎 (unidirezionale sinistra)
Per un livello di significatività assegnato 𝛼, si rifiuterà l’ipotesi nulla 𝐻 se:
𝑧 < −𝑧
Si può costruire la regione di rifiuto come:
𝑅 = {𝑧: 𝑧 < −𝑧 }
esprimibile anche in funzione della media del campione a nostra disposizione come:
𝜎
𝑅 = 𝑥̅ : 𝑥̅ < 𝜇 − 𝑧 ∙
√𝑛

Ipotesi alternativa 𝑯𝟏 : 𝝁 ≠ 𝝁𝟎 (bidirezionale)


Per un livello di significatività assegnato 𝛼, si rifiuterà l’ipotesi nulla 𝐻 se:
𝑧>𝑧

Si può costruire la regione di rifiuto come:

𝑅 = 𝑧: |𝑧| > 𝑧

Più complessa è la definizione della regione di rifiuto espressa in base alla media campionaria,
per tale motivo si rimanda esclusivamente alla precedente formulazione di R.

Riassunti di Michela Angius 126


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

Esempio sul test Z (sulla media con varianza nota)


Uno psicologo sta lavorando con persone che hanno avuto un particolare tipo di intervento
chirurgico importante. Questo psicologo ipotizza che le persone si riprenderanno
dall’operazione in tempi più brevi se familiari ed amici sono nella stanza con loro durante le
prime 48 ore dopo l’operazione. Il tempo di recupero da questo tipo di intervento è noto e segue
una distribuzione normale con una media di 12 giorni ed una deviazione standard (scarto
quadratico medio) di 5 giorni. Su un campione di 10 pazienti, lo psicologo osserva un tempo
medio di ripresa di 8 giorni.
Verificare l’ipotesi di ricerca al livello di significatività del 5%.
Dati popolazione
 𝑋~𝑁(𝜇, 𝜎 )
 𝜎 = 5 → 𝜎 = 25
Dati campione
 𝑛 = 10
 𝑥̅ = 8
Dati verifica delle ipotesi
 𝜇 = 12
 𝐻 :𝜇 = 𝜇
 𝐻 :𝜇 < 𝜇
 𝛼 = 0,05
L’obiettivo della verifica delle ipotesi è quello di verificare se il tempo di recupero post-
operatorio con il nuovo metodo intuito dallo psicologo, è effettivamente minore rispetto a quello
normale (12 giorni). Per tale motivo, se verifichiamo che l’ipotesi nulla:
𝐻 : 𝜇 = 𝜇 = 12
è falsa, ponendo come ipotesi alternativa la unidirezionale sinistra (𝐻 : 𝜇 < 𝜇 ), quindi
accettando l’ipotesi alternativa, riusciamo a dimostrare l’efficacia della ricerca del nostro
psicologo.
Per verificare se l’ipotesi nulla è accettabile o meno costruiamo la statistica test Z:
𝑥̅ − 𝜇
𝑧 = 𝜎 ~𝑁(0,1)
√𝑛
da cui:
8 − 12 −4 −4
𝑧= ~𝑁(0,1) → 𝑧 = = = −2,53
5 5 1,581
√10 3,162
Ricerchiamo il valore di −𝑧 all’interno della tavola della normale standardizzata:
−𝑧 , = −𝑧 , = −1,65
confrontiamo il valore di z con il valore di 𝑧 :
𝑧 = −2,65 < −𝑧 , = −1,65

Riassunti di Michela Angius 127


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

Dato che 𝑧 < −𝑧 allora si può affermare che l’ipotesi nulla viene rifiutata e si da per valida
l’ipotesi alternativa: lo psicologo, attraverso dati empirici ha verificato la fondatezza della sua
ipotesi.
Risoluzione con il p value:
Ricerchiamo il valore di z (soglia del nostro problema) all’interno della tavola della normale
standardizzata:
𝑧 , = 0,0057
dato che 𝑧 , è minore rispetto al livello di significatività 𝛼, l’ipotesi nulla viene rifiutata e si
verifica l’ipotesi alternativa.
𝑧 , = 0,0057 < 𝛼 = 0,05
Differenza fra medie della popolazione sapendo le varianze uguali delle due
popolazioni
Prendiamo in considerazione due popolazioni X e Y, le quali si distribuiscono secondo:
𝑋~𝑁(𝜇 , 𝜎 )
𝑌~𝑁(𝜇 , 𝜎 )
e consideriamo che di una delle due (Y) è nota sia la media 𝜇 che la varianza 𝜎 , mentre della
seconda popolazione (X) è nota solo la varianza 𝜎 , e:
𝜎 =𝜎
Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni siano uguali:
𝜇 =𝜇
partendo dalle analisi di statistica inferenziale che vengono fatte su un campione relativo alla
popolazione X.
L’ipotesi alternativa può comunque essere bidirezionale (𝜇 ≠ 𝜇 ) o unidirezionale destra o
sinistra (𝜇 > 𝜇 o 𝜇 < 𝜇 ).
Il procedimento per la verifica delle ipotesi è simile al test Z visto per la singola media di una
sola popolazione sapendo la sua varianza, ma si caratterizza per l’uso della seguente statistica
test:
𝑥̅ − 𝑥̅
𝑧= ~𝑁(0,1)
𝜎 𝜎
𝑛 +𝑛
se la dimensione campionaria è uguale (𝑛 = 𝑛 ):
𝑥̅ − 𝑥̅
𝑧= ~𝑁(0,1)
2𝜎
𝑛
Per accettare o rifiutare un’ipotesi nulla è possibile confrontare il valore z calcolato con la
statistica test Z e le seguenti regioni di rifiuto (così come visto nella pagina precedente):
 Ipotesi alternativa unidirezionale destra (𝐻 : 𝜇 > 𝜇 ):
𝑅 = {𝑧: 𝑧 > 𝑧 }

Riassunti di Michela Angius 128


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

 Ipotesi alternativa unidirezionale sinistra (𝐻 : 𝜇 < 𝜇 ):


𝑅 = {𝑧: 𝑧 < −𝑧 }
 Ipotesi alternativa bidirezionale (𝐻 : 𝜇 ≠ 𝜇 ):

𝑅 = 𝑧: |𝑧| > 𝑧

Media della popolazione non sapendo la varianza della popolazione stessa: il test T
Il caso visto in precedenza di verifica delle ipotesi sulla singola media presuppone la conoscenza
della varianza della popolazione da cui il campione deriva.
Nel caso in cui la varianza della popolazione (𝜎 ) è incognita è possibile comunque svolgere una
verifica delle ipotesi prendendo in considerazione la varianza campionaria 𝑆 , tramite la
statistica test T di Student:
𝑥̅ − 𝜇
𝑡= ~𝑡(𝑔 = 𝑛 − 1)
𝑆
√𝑛
dove:
 𝑡: valore della statistica test relativo all’ipotesi nulla;
 𝑥̅ : media del campione a nostra disposizione;
 𝜇 : media relativa all’ipotesi nulla;
 𝑆: varianza del campione a nostra disposizione;
 𝑔: gradi di libertà della distribuzione t-Student;
 𝑛: numerosità del campione a nostra disposizione.
Tale statistica test non si distribuisce secondo una normale, ma secondo una distribuzione t-
Student, caratterizzata da un unico parametro g, definito come gradi di libertà e calcolabile
come la numerosità campionaria n meno uno.
Per il calcolo del valore di t è possibile l’uso delle tavole relative alla t-Student, simili nell’uso alle
tavole della normale standardizzata.
Una volta calcolato il valore t, grazie alla statistica test e all’uso delle tavole, è possibile
confrontarlo – così come fatto per gli altri casi di verifica delle ipotesi – con le regioni di rifiuto
specifiche per ogni caso di ipotesi alternativa:
 Unidirezionale destra 𝐻 : 𝜇 > 𝜇 :
𝑅{𝑡: 𝑡 > 𝑡 }
 Unidirezionale sinistra 𝐻 : 𝜇 < 𝜇 :
𝑅{𝑡: 𝑡 < −𝑡 }
 Bidirezionale 𝐻 : 𝜇 ≠ 𝜇 :

𝑅 𝑡: |𝑡| > 𝑡

Esempio di verifica delle ipotesi con test T


Un ricercatore vuole studiare gli effetti psicologici di una devastante alluvione su una piccola
comunità. In particolare, l’interesse del ricercatore è rivolto agli atteggiamenti di ottimismo
Riassunti di Michela Angius 129
Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

(rispetto a quelli di pessimismo) manifestati dalle persone dopo l’alluvione. Il ricercatore


seleziona in modo casuale un campione di 10 soggetti di questa comunità e chiede loro di
compilare un questionario. L’item cruciale del questionario chiede quanto ci si sente ottimisti su
una scala a sette punti da estremamente pessimista (1) a neutro (4) a estremamente ottimista
(7). Il ricercatore vuole indagare se i punteggi dei soggetti che hanno vissuto l’alluvione si
collocano al di sopra o al di sotto del punto neutro della scala (4). Sul campione si osserva una
media campionaria pari a 4,7 e una varianza campionaria pari a 3,57.
Condurre lo studio al livello di significatività dell’1%.
Dati popolazione
Dati campione
 𝑛 = 10
 𝑥̅ = 4,7
 𝑆 = 3,57
Dati verifica delle ipotesi
 𝜇 =4
 𝐻 :𝜇 = 𝜇
 𝐻 :𝜇 ≠ 𝜇
 𝛼 = 0,01
In questo caso si sceglie come ipotesi nulla da dover verificare il caso in cui la popolazione ha
un livello di ottimismo nullo, mentre come ipotesi alternativa che il livello di ottimismo sia
diverso da quello nullo. Se l’ipotesi nulla viene rifiutata dal test t-Student, allora si può
concludere che la popolazione è significativamente ottimista, dato che la media campionaria
è maggiore di 4 (neutralità) (infatti, con la rilevazione fatta sul campione di 𝑥̅ = 4,7 non avrebbe
alcun senso affermare che se la popolazione non è neutra allora è pessimista, al massimo come
rilevato dal campione - 𝑥̅ > 4,7 - è ottimista).
Costruiamo la statistica test t-Student:
𝑥̅ − 𝜇
𝑡= ~𝑡(𝑔 = 𝑛 − 1)
𝑆
√𝑛
calcoliamo:

𝑆= 𝑆 = 3,57 = 1,889
allora:
4,7 − 4 4,7 − 4
𝑡= ~𝑡(𝑔 = 10 − 1) → 𝑡 = ~𝑡(𝑔 = 9)
1,889 1,889
√10 √10
0,7 0,7
𝑡= = = 1,172
1,889 0,597
3,162
Andiamo ora a ricercare nella tavola t-Student il valore del livello di significatività con 9 gradi
di libertà 𝑡 (alfa mezzi dato che l’ipotesi alternativa è bidirezionale):

Riassunti di Michela Angius 130


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

𝑡 =𝑡 , =𝑡 , =𝑡 , ; = 3,250

(in questo casi le colonne vengono già descritte in funzione di 𝛼 e non di 1 − 𝛼) (GL: gradi di
libertà (g)).
Confrontiamo il valore:
|𝑡| > 𝑡 → |1,172| > 3,250 → 1,172 > 3,250

dato che il valore di |𝑡| < 𝑡 allora si cade all’interno della regione di accettazione dell’ipotesi
nulla.
Si può concludere, quindi, che le evidenze empiriche fanno notare come il livello di ottimismo
nella scala sia neutro nella popolazione in analisi è quindi pari a 4, con un livello di significatività
dell’1%.
Differenza (o confronto) fra due medie della popolazione con le varianze incognite
delle due popolazioni
Il caso di differenze fra medie visto in precedenza presupponeva la conoscenza delle due
varianze delle popolazione e che esse erano uguali:
𝜎 =𝜎
Nel caso in cui le varianze delle due popolazioni non sono note, è possibile comunque svolgere
la verifica delle ipotesi tramite la varianza campionaria, sempre tramite la statistica test T:
𝑥̅ − 𝑥̅
𝑡= ~𝑡(𝑔 = 𝑛 + 𝑛 − 2)
1 1
𝑠̂ ∙ 𝑛 + 𝑛

dove:
 𝑠̂ è pari a:

𝑆 = 𝑆

e 𝑆 è pari a:
𝑆 (𝑛 − 1) + 𝑆 (𝑛 − 1)
𝑆 =
𝑛 +𝑛 −2
dove:

Riassunti di Michela Angius 131


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

 𝑆 : varianza del primo campione;


 𝑆 : varianza del secondo campione.
In base alle diverse tipologie di ipotesi alternative è possibile costruire le seguenti regioni di
rifiuto (come prima, nel caso in cui il valore di t rientra nella regione di rifiuto, si rifiuta l’ipotesi
nulla e si dà per valida l’ipotesi alternativa):
 Ipotesi alternativa unidirezionale destra (𝐻 : 𝜇 > 𝜇 ):
𝑅 = {𝑡: 𝑡 > 𝑡 }
 Ipotesi alternativa unidirezionale sinistra (𝐻 : 𝜇 < 𝜇 ):
𝑅 = {𝑡: 𝑡 < −𝑡 }
 Ipotesi alternativa bidirezionale (𝐻 : 𝜇 ≠ 𝜇 ):

𝑅 = 𝑡: |𝑡| > 𝑡

TEST PER LA VERIFICA DELLE IPOTESI SULLA VARIANZA


Verifica delle ipotesi per la varianza: il test V
Nel caso in cui l’obiettivo della verifica delle ipotesi fosse il valore del parametro della varianza
all’interno di una popolazione viene usato, come statistica test più efficiente, il test V:
(𝑛 − 1)𝑆
𝑣= ~𝜒 (𝑔 = 𝑛 − 1)
𝜎
In questo caso la statistica test si distribuisce secondo una distribuzione del tipo Chi quadrato,
anch’essa analizzabile tramite le tavole statistiche, con una caratteristica i gradi di libertà, pari
alla numerosità campionaria meno uno.
Le regioni di rifiuto possono essere rappresentate come:
 Ipotesi alternativa unidirezionale destra (𝐻 : 𝜎 > 𝜎 ):
𝑅 = 𝑣: 𝑣 > 𝜒 ;

 Ipotesi alternativa unidirezionale sinistra (𝐻 : 𝜎 < 𝜎 ):


𝑅 = 𝑣: 𝑣 < 𝜒 ;

 Ipotesi alternativa bidirezionale (𝐻 : 𝜎 ≠ 𝜎 :

𝑅 = 𝑣: 𝑣 ∉ 𝜒 ,𝜒 ;
;

in quest’ultimo caso la v non deve cadere né nella regione di rifiuto unidirezionale destra (ma
con 𝛼/2), né nella regione di rifiuto unidirezionale sinistra (ma con 𝛼/2).
Esempio di verifica delle ipotesi per la varianza
Uno psicologo vuole valutare la riduzione nello stress in seguito all’adozione di un nuovo metodo
didattico. Estrae un campione di 13 studenti per verificare se c’è stato un decremento
significativo nella varianza dello stress, che nei precedenti anni è risultata pari a 250. Di seguito
si riportano i dati relativi al campione estratto:
126, 124, 91, 100, 104, 95, 101, 114, 134, 117, 95, 116, 139

Riassunti di Michela Angius 132


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

(la varianza campionaria risulta pari a 245,5).


Verificare al livello 𝛼 = 0,05 se il decremento nella varianza è da ritenere statisticamente
significativo supponendo che la popolazione si distribuisca secondo una normale.
Dati popolazione
 𝑋~𝑁(𝜇, 𝜎 )
Dati campione
 𝑛 = 13
 𝑆 = 245,5
Dati verifica delle ipotesi
 𝜎 = 250
 𝐻 :𝜎 = 𝜎
 𝐻 :𝜎 < 𝜎
 𝛼 = 0,05
Calcoliamo il valore della statistica V:
(𝑛 − 1)𝑆
𝑣= ~𝜒 (𝑔 = 𝑛 − 1)
𝜎
(13 − 1) ∙ 245,5 12 ∙ 245,5
𝑣= ~𝜒 (𝑔 = 13 − 1) → ~𝜒 (𝑔 = 12)
250 250
12 ∙ 245,5 2.946
𝑣= = = 11,784
250 250
Ricerchiamo nella tavola del Chi quadrato il valore 𝜒 ;
𝜒 , ; = 5,23

Confrontiamo i due valori:


𝑣 = 11,784 > 𝜒 ; = 5,23
dato che 𝑣 > 𝜒 ; allora v cade nella regione di accettazione dell’ipotesi nulla che si può dare
per verificata l’ipotesi. Lo psicologo non può concludere, tramite l’analisi dei dati empirici, che

Riassunti di Michela Angius 133


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

l’adozione del nuovo metodo didattico riduce significativamente la varianza del livello di stress
degli studenti.

TEST PER LA VERIFICA DELLE IPOTESI SULLA PROPORZIONE


Verifica delle ipotesi per la proporzione: il test ZP
Per la verifica delle ipotesi sulla proporzione di una popolazione viene usato, come statistica test
più efficiente, il test ZP:
𝑝−𝜋
𝑧 = ~𝑁(0,1)
𝜋 (1 − 𝜋 )
𝑛
Le regioni di rifiuto dell’ipotesi nulla possono essere rappresentate come:
 Ipotesi alternativa unidirezionale destra (𝐻 : 𝜋 > 𝜋 ):
𝑅 = {𝑧: 𝑧 > 𝑧 }
 Ipotesi alternativa unidirezionale sinistra (𝐻 : 𝜋 < 𝜋 ):
𝑅 = {𝑧: 𝑧 < −𝑧 }
 Ipotesi alternativa bidirezionale (𝐻 : 𝜋 ≠ 𝜋 ):

𝑅 = 𝑧: |𝑧| > 𝑧

Esempio di verifica delle ipotesi per la proporzione


Al fine di valutare le attività svolte da un ufficio di assistenza sociale si estraggono dai suoi
archivi, in modo del tutto casuale, 125 fascicoli relativi ad altrettanti casi. In questo campione si
osserva un numero di pratiche con esito positivo pari a 69. Di norma la percentuale di successi
richiesta ai singoli uffici è del 60%. Si può dire che l’ufficio stia lavorando al di sotto della norma?
Usiamo come riferimento un livello di significatività pari a 0,05
Dati popolazione
Dati campione
 𝑛 = 125
 𝑝= = 0,552 = 55,2%
Dati verifica delle ipotesi
 𝜋 = 0,6 = 60%
 𝐻 :𝜋 = 𝜋
 𝐻 :𝜋 < 𝜋
 𝛼 = 0,05
Calcoliamo il valore della statistica test zP:
𝑝−𝜋 0,552 − 0,6 −0,048 −0,048 −0,048
𝑧 = = = = = = −1,095
𝜋 (1 − 𝜋 ) 0,6 ∙ 0,4 0,24 √0,00192 0,0438
𝑛 125 125
Ricerchiamo nella tavola della normale standardizzata il valore relativo −𝑧 :

Riassunti di Michela Angius 134


Riassunti di Statistica Psicometrica 18. Verifica delle ipotesi

−𝑧 = −𝑧 , = −1,645
Confrontiamo i due valori di z:
𝑧 = −1,095 > −𝑧 = −1,645
dato che 𝑧 > −𝑧 il valore di z cade nell’area di accettazione dell’ipotesi nulla, che è verificata
dai dati empirici.
Si può, quindi, concludere che l’ufficio non sta lavorando a livelli sotto alla norma.
Test sul confronto tra due proporzioni: approccio parametrico
Confrontare le proporzioni di due popolazioni. tramite un’analisi inferenziale di verifica delle
ipotesi, può essere fatto secondo due approcci diversi:
 Approccio parametrico con test Z: quando la probabilità comune di successo è
approssimabile a 0,5 (𝑝̂ ≈ 0,5) e le numerosità campionarie sono elevate (per andare ad
approssimare una binomiale costruita con i dati del campione ad una normale da poter
standardizzare);
 Approccio non parametrico con test del 𝜒 : da svolgere quando non è possibile fare le
assunzioni tipiche dell’approccio parametrico per il test Z.
Per usare un approccio parametrico si può calcolare la statistica test zp:
𝑥 𝑥
𝑛 − 𝑛
𝑧 = ~𝑁(0,1)
1 1
𝑝̂ (1 − 𝑝̂ ) 𝑛 + 𝑛

con:
𝑥 +𝑥
𝑝̂ =
𝑛 +𝑛
Una volta calcolata la statistica zp è possibile confrontarla con le regione di rifiuto tipiche del
test z:
 Ipotesi alternativa unidirezionale destra (𝐻 : 𝜋 > 𝜋 ):
𝑅 = {𝑧: 𝑧 > 𝑧 }
 Ipotesi alternativa unidirezionale sinistra (𝐻 : 𝜋 < 𝜋 ):
𝑅 = {𝑧: 𝑧 < −𝑧 }
 Ipotesi alternativa bidirezionale (𝐻 : 𝜋 ≠ 𝜋 ):

𝑅 = 𝑧: |𝑧| > 𝑧

Riassunti di Michela Angius 135


Riassunti di Statistica Psicometrica 19. Analisi della varianza e F di Fisher

19 Analisi della varianza e F di Fisher

DISTRIBUZIONE F DI FISHER E TEST DELL’OMOGENEITÀ DELLE VARIANZE


La distribuzione F di Fisher
Si prendano in considerazione due variabili casuali, 𝑈 ~𝜒 (𝑔 ) e 𝑉 ~𝜒 (𝑔 ), indipendenti che
si distribuiscono mediante una chi quadrato.
Si può costruire una nuova tipologia di distribuzione di variabile casuale, definibile come F di
Fisher, rapportando:
𝑈
𝑔 𝑈 ∙𝑔
𝑋~𝐹(𝑔 , 𝑔 ) con 𝐹 = =
𝑉 𝑉 ∙𝑔
𝑔
Il test di omogeneità delle varianze
Per verificare, partendo da due campioni casuali ed indipendenti, se in essi vi è omogeneità
delle varianze è possibile svolgere il test di omogeneità delle varianze, caratterizzato dalla
seguente statistica test F:
∑ 𝑋 −𝑋 𝜎 (𝑛 − 1) 𝑆
𝐹= ∙ =
𝜎 (𝑛 − 1) ∑ 𝑋 −𝑋 𝑆
Tale statistica test si distribuisce secondo una F di Fisher con gradi di libertà derivanti dalla
numerosità dei due campioni meno uno:
𝐹~𝐹(𝑔 = 𝑛 − 1, 𝑔 = 𝑛 − 1)
Per eseguire il test conviene porre al numeratore sempre la varianza maggiore, in modo da
utilizzare sempre la coda di destra della distribuzione (ciò può essere facilmente fatto durante
la decisione di quale fra i due campioni è 1 e quale 2, quindi è più conveniente indicare come
campione 1 quello con varianza.
Si pone come ipotesi nulla del test:
𝐻 :𝜎 = 𝜎
e ipotesi alternative:
 Unidirezionale destra: 𝐻 : 𝜎 > 𝜎 ;
 Unidirezionale sinistra: 𝐻 : 𝜎 < 𝜎 ;
 Bidirezionale: 𝐻 : 𝜎 ≠ 𝜎
Nota: il test di omogeneità delle varianze può essere svolto anche con più campioni, ponendo a
rapporto, per la costruzione della statistica test al numeratore la varianza del campione con
varianza maggiore e al denominatore la varianza del campione con varianza minore:
max 𝑆
𝐹=
min 𝑆

Riassunti di Michela Angius 136


Riassunti di Statistica Psicometrica 19. Analisi della varianza e F di Fisher

L’ANALISI DELLA VARIANZA ANOVA (ANALYSIS OF VARIANCE)


Introduzione al test ANOVA
Si consideri una popolazione che si distribuisce secondo una normale 𝑋~𝑁(𝜇, 𝜎 ), si estragga
da essa tre campioni casuali ed indipendenti di numerosità campionaria n e con:
𝜇 =𝜇 =𝜇 e 𝜎 =𝜎 =𝜎
Si prenda in considerazione un test statistico che debba verificare le seguenti ipotesi nulle:
𝐻 :𝜇 = 𝜇 ; 𝐻 :𝜇 = 𝜇 ; 𝐻 :𝜇 = 𝜇
e alternative:
𝐻 : (𝜇 ≠ 𝜇 ∪ 𝜇 ≠ 𝜇 ∪ 𝜇 ≠ 𝜇 )
Tale test potrebbe anche essere svolto a due a due mediante la statistica test esposta in
precedenza per la verifica dell’ipotesi della differenza fra medie, con ipotesi nulla 𝐻 : 𝜇 = 𝜇 ,
svolgendo per tre volte il test in questione.
Il problema di questo procedimento, definibile grossolano, è il fatto che ripetendolo per tre volte
(prima per 𝐻 : 𝜇 = 𝜇 , poi per 𝐻 : 𝜇 = 𝜇 , e infine per 𝐻 : 𝜇 = 𝜇 ) essendoci un livello di
significatività 𝛼 insito come errore all’interno di ciascuna verifica delle ipotesi, dovuto al c.d.
family-wise effect, il livello di significatività e di errore cresce dato che viene svolto il test per tre
volte:
(1 − 𝛼) ∙ (1 − 𝛼) ∙ (1 − 𝛼) = (1 − 𝛼)
dato che sono tre eventi indipendenti.
Si può notare che con tale procedimento l’area di accettazione diventa sempre minore. Ad
esempio, se la significatività di ogni singolo test è pari a 0,05, l’area di accettazione sarà quindi
pari a 0,95, allora:
0,95 ∙ 0,95 ∙ 0,95 = 0,8303 = 83,03%
molto minore come area d’accettazione rispetto all’iniziale, pari al 95%.
Il test ANOVA
In generale, il test ANOVA permette di stabilire se tre o più campioni provengono da popolazioni
che hanno la stessa media, senza svolgere il procedimento grossolano esposto in precedenza,
ripristinando regioni di accettazione maggiori rispetto al (1 − 𝛼) derivante dal procedimento
grossolano.
Il test ANOVA si basa sulla seguente statistica test F:
𝐷𝐸𝑉 𝑛−𝑘
𝐹= ∙ ~𝐹(𝑔 = 𝑘 − 1, 𝑔 = 𝑛 − 𝑘)
𝐷𝐸𝑉 𝑘−1
dove:
 𝐷𝐸𝑉 : devianza interna o spiegata (between);
 𝐷𝐸𝑉 : devianza esterna o residua (within);
 : ciò che nel primo pacchetto di riassunti avevamo definito statistica F di Fisher;
 𝑛: numerosità totale;

Riassunti di Michela Angius 137


Riassunti di Statistica Psicometrica 19. Analisi della varianza e F di Fisher

 𝑘: numero totale di campioni o gruppi.


(per le formule di calcolo della devianza interna ed esterna si rimanda al primo pacchetto di
riassunti sulla statistica descrittiva. Anche per le formule relative della statistica F e del rapporto
di correlazione normalizzato 𝜂 ).
Il test F di Fisher
Partendo dalla statistica test F è possibile stabilire come ipotesi nulla:
𝐻 :𝐹 = 0
cioè che tutte le medie prese in considerazione sono uguali, e come ipotesi alternativa:
𝐻 :𝐹 > 0
cioè che almeno una delle medie prese in considerazione è diversa.
Esempio sul test F di Fisher
Si considerino due campioni indipendenti di ampiezza 𝑛 = 35 ed 𝑛 = 30. Sono state
calcolate le seguenti statistiche campionarie: 𝑥̅ = 18, 𝑥̅ = 16, 𝑠̂ = 130, 𝑠̂ = 96. Determinare
il valore della statistica 𝐹( )( ) per la verifica dell’ipotesi 𝐻 : 𝜎 = 𝜎 contro 𝐻 : 𝜎 ≠ 𝜎 .

Svolgere il test con livello di significatività 𝛼 = 5%.


Dati popolazione
Dati campione
 𝑛 = 35 → 𝑔 = 34
 𝑛 = 30 → 𝑔 = 29
 𝑥̅ = 18
 𝑥̅ = 16
 𝑠̂ = 130
 𝑠̂ = 96
Dati verifica delle ipotesi
 𝐻 :𝜎 = 𝜎
 𝐻 :𝜎 ≠ 𝜎
 𝛼 = 0,05
Calcoliamo la statistica F come:
𝑆 130
𝐹= = = 1,354
𝑆 96
(come detto è più conveniente per la risoluzione dell’esercizio mettere al numeratore la varianza
campionaria maggiore e al denominatore quella minore).
Tale statistica deve essere confrontata con il valore soglia di F osservato a partire dalla tavola
della distribuzione F di Fisher: quest’ultima è diversa rispetto alle altre tavole fin ora viste dato
che ci sono due gradi di libertà da conoscere in ogni analisi e c'è una tabella per ogni valore di
𝛼.
Dato che la nostra ipotesi alternativa è bidirezionale dobbiamo ricercare il nostro valore F da
confrontare con quello calcolato nella tavola con 𝛼/2, nel nostro caso pari a 0,025:

Riassunti di Michela Angius 138


Riassunti di Statistica Psicometrica 19. Analisi della varianza e F di Fisher

Dato che la tavola non ci mostra i valori per i gradi di libertà pari a 34 al numeratore prendiamo
una media dei due valori con gradi di libertà pari a 30 e 40 al numeratore e 29 al denominatore
(valore esatto del problema):
2,09 + 2,03
𝐹 ; ≈ ; ≈ = 2,06
2
Questo sarà il nostro valore soglia da dover confrontare con il valore della statistica F calcolato:
se quest’ultima cade dopo il valore soglia, essa è nella regione di rifiuto e rifiuteremo l’ipotesi
nulla delle due varianze uguali:
𝐹 ; ≈ ;
≈ 2,06 > 𝐹 = 1,354

Ciò significa che la statistica F cade nella regione di accettazione di H0, dovendo rifiutare
l’ipotesi alternativa. Si può quindi concludere che con significatività le due varianze sono uguali.

Riassunti di Michela Angius 139


Riassunti di Statistica Psicometrica 20. Statistica bivariata

20 Statistica bivariata
IL CONCETTO DI STATISTICA BIVARIATA
La statistica bivariata
Con la statistica bivariata si cerca di stabilire se esistono delle relazioni tra due variabili
statistiche e che tipologia di relazione si instaura tra di esse.
In base alla tipologia di variabili/caratteri da dover analizzare si utilizzano diversi procedimenti
per l’analisi delle relazioni:
 Se le due variabili sono qualitative si svolge un’analisi tramite la tabella di contingenza,
calcolando l’indice Chi quadrato e la contingenza quadratica media;
 Se le due variabili sono quantitative si può svolgere un’analisi di regressione lineare e
calcolare l’indice di covarianza e di correlazione di Bravais-Pearson.

STATISTICA BIVARIATA CON VARIABILI QUALITATIVE: CHI QUADRO E


CONTINGENZA

La tabella a doppia entrata


Lo studio delle relazioni fra due variabili qualitative (o fra una qualitativa e una quantitativa)
parte dall’analisi di una tabella a doppia entrata che esprime i valori delle due variabili in
maniera “relazionale” (i valori interni sono le c.d. frequenze congiunte 𝑓 , ) e in maniera
“marginale”:

In questo caso poniamo i valori delle X sulle colonne, mentre i valori della Y sulle righe. L’ultima
colonna del totale è la distribuzione marginale delle X, mentre l’ultima riga del totale è la
distribuzione marginale delle Y.
Esempio di tabella a doppia entrata
Sono stati classificati 205 appartamenti secondo il numero dei locali e il numero delle persone
che li abitano. I risultati sono riassunti nella seguente tabella a doppia entrata:

Riassunti di Michela Angius 140


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Locali
1 2 3 4 5 6 7 Totale
1 2 1 0 1 0 0 0 4
2 1 15 11 6 8 1 0 42
3 1 15 2 14 2 2 0 36
Persone
4 0 5 29 35 12 10 1 92
5 0 0 3 16 3 2 0 24
6 0 1 0 3 0 2 1 7
Totale 4 37 45 75 25 17 2 205

Dalla tabella è possibile ricavare le due distribuzioni marginali:


Numero di locali
𝑥 1 2 3 4 5 6 7
𝑓 ,. 4 37 45 75 25 17 2

Numero di abitanti
𝑦 1 2 3 4 5 6
𝑓., 4 42 36 92 24 7

Può essere svolta un’analisi di sintesi statistica per ciascuna delle due variabili, calcolando
media, varianza e scarto quadratico medio:
𝜇 = 3,755
𝜎 = 2,123
𝜎 = 1,457
Mentre, per la variabile Y:
𝜇 = 3,541
𝜎 = 2,214
𝜎 = 1,102
La tabella di frequenze teoriche
Il prossimo passo per l’analisi della relazione fra due variabili qualitative (non come quelle
dell’esempio sopra riportato dato che sono due quantitative, usate come esempio per
l’esposizione di una tabella a doppia entrata), dopo l’analisi della tabella a doppia entrata e
delle distribuzioni univariate, è la costruzione di una tabella di frequenze teoriche che
rappresentano la situazione estrema di massima indipendenza fra le due variabili.

Riassunti di Michela Angius 141


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Ogni singolo valore all’interno della nuova tabella verrà calcolato come il prodotto tra il totale
della colonna e il totale della riga corrispondenti, diviso il totale di riga e colonna:
𝑓., ∙ 𝑓 ,.
𝑓′ , =
2
Esempio di costruzione di una tabella di frequenze teoriche
Data una semplice tabella a doppia entrata di partenza:
𝒚𝟏 𝒚𝟐 𝒚
𝒙𝟏 15 10 25
𝒙𝟐 7 8 15
𝒙𝟑 8 2 10
𝒙 30 20 50

Si costruisce la tabella di frequenze teoriche come segue:


𝒚𝟏 𝒚𝟐 𝒚
30 ∙ 25 20 ∙ 25
𝒙𝟏 = 15 = 10 25
50 50
30 ∙ 15 20 ∙ 15
𝒙𝟐 =9 =6 15
50 50
30 ∙ 10 20 ∙ 10
𝒙𝟑 =6 =4 10
50 50
𝒙 30 20 50

Come si può facilmente notare le due tabella, quella iniziale e quella delle frequenze teoriche,
non sono uguali, ciò significa che non vi è perfetta indipendenza fra le due variabili (nel caso vi
fosse perfetta indipendenza fra X e Y le frequenze reali osservate nella tabella a doppia entrata
sarebbero uguali a quelle teoriche).
Il grado di connessione: la tabella di contingenza
A questo punto, dato che possiamo affermare con certezza che le due variabili non sono
perfettamente indipendenti, bisogna misurare il grado di connessione delle due variabili, ovvero
quanto esse sono dipendenti fra di loro.
Si definisce contingenza la differenza tra frequenze osservate nella tabella a doppia entrata
iniziale e frequenze teoriche calcolate nell’omonima tabella:
𝑐 , = 𝑓 , − 𝑓′ ,
Anche in questo caso è possibile calcolare e costruire la tabella di contingenza.
Esempio di costruzione della tabella di contingenza
Continuando con l’esempio numerico visto prima, calcoliamo la tabella di contingenza come
la differenza fra frequenze osservate e frequenze teoriche:

Riassunti di Michela Angius 142


Riassunti di Statistica Psicometrica 20. Statistica bivariata

𝒚𝟏 𝒚𝟐 𝒚
𝒙𝟏 15 − 15 = 0 10 − 10 = 0 0
𝒙𝟐 7 − 9 = −2 8−6= 2 0
𝒙𝟑 8−6=2 2 − 4 = −2 0
𝒙 0 0 0

Si può notare come i totali di riga e di colonna in una tabella di contingenza siano sempre pari
a zero, anche il totale.
L’indice di connessione di Pearson: il Chi quadro
Per finalizzare lo studio della relazione tra due variabili qualitative (o una qualitativa e una
quantitativa) è necessario in primis la costruzione di un’ulteriore tabella, che eleva al quadrato
tutte le contingenze presenti nella tabella di contingenza:
𝑐, = 𝑐,
Una volta costruita la tabella delle contingenze al quadrato è possibile calcolare l’ultima tabella
prima del calcolo dell’indice di connessione di Pearson (indice Chi quadro). Per ciascun valore
della tabella delle contingenze al quadrato, dividiamo queste ultime per il corrispettivo valore
delle frequenze teoriche:
𝑐,
𝑜, =
𝑓′ ,
Infine, per calcolare l’indice Chi quadro basterà sommare tutti i valori interni dell’ultima tabella
costruita:
𝑐,
𝜒 =
𝑓′ ,

Analisi del valore dell’indice Chi quadro


Una volta calcolato l’indice Chi quadro si procede all’analisi del valore calcolato:
 𝜒 = 0: vi è perfetta indipendenza fra le due variabili in esame;
 Più aumenta il valore del Chi quadro maggiore sarà il grado di connessione fra le due
variabili.
Il coefficiente di contingenza
è possibile costruire un indice più semplice nell’analisi del Chi quadro, partendo da quest’ultimo:
il coefficiente di contingenza Φ è un valore compreso tra 0 e 1 (0 è perfetta indipendenza, 1 è
grado maggiore di dipendenza), calcolabile come:

𝜒
Φ=
𝜒 +𝑛
dove:
 𝑛: il totale di righe e colonne.

Riassunti di Michela Angius 143


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Esempio di esercizio completo di calcolo del Chi quadro e del coefficiente di


contingenza
La seguente tabella riporta i giudizi su di un programma televisivo di un gruppo di persone tra i
20 e i 50 anni:
Noioso Interessante Stupendo Totale
20 – 30 anni 1 4 6 11
30 – 40 anni 13 3 17 33
40 – 50 anni 11 21 2 34
Totale 25 28 25 78

Dato che una delle due variabili è qualitativa si deve procedere con un’analisi tramite il Chi
quadro (possibilmente conclusa anche con il calcolo del coefficiente di contingenza).
Si inizia costruendo la tabella delle frequenze teoriche:
Noioso Interessante Stupendo Totale
25 ∙ 11 28 ∙ 11 25 ∙ 11
20 – 30 anni = 3,53 = 3,95 = 3,53 11
78 78 78
25 ∙ 33 28 ∙ 33 25 ∙ 33
30 – 40 anni = 10,58 = 11,85 = 10,58 33
78 78 78
25 ∙ 34 28 ∙ 34 25 ∙ 34
40 – 50 anni = 10,90 = 12,21 = 10,90 34
78 78 78
Totale 25 28 25 78

Dato che si può facilmente notare che le due tabelle non presentano gli stessi valori, si può
concludere che non vi è perfetta indipendenza fra le due variabili in esame. Si procede quindi
al calcolo dell’indice Chi quadro. Si costruisce la tabella delle contingenze:
Noioso Interessante Stupendo Totale
20 – 30 anni 1 − 3,53 = −2,53 4 − 3,95 = 0,05 6 − 3,53 = 2,47 0
30 – 40 anni 13 − 10,58 = 2,42 3 − 11,85 = −8,85 17 − 10,58 = 6,42 0
40 – 50 anni 11 − 10,90 = 0,10 21 − 12,21 = 8,79 2 − 10,90 = −8,90 0
Totale 0 0 0 0

Eleviamo al quadrato le contingenze:


Noioso Interessante Stupendo
20 – 30 anni −2,53 = 6,40 0,05 = 0,00 2,47 = 6,10
30 – 40 anni 2,42 = 5,86 −8,85 = 78,32 6,43 = 41,22
40 – 50 anni 0,10 = 0,01 8,79 = 77,26 −8,90 = 79,21

Dividiamo le contingenze al quadrato per il valore delle frequenze teoriche calcolate:

Riassunti di Michela Angius 144


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Noioso Interessante Stupendo


6,40 0,00 6,10
20 – 30 anni = 1,81 = 0,00 = 1,73
3,53 3,95 3,53
5,86 78,32 41,22
30 – 40 anni = 0,55 = 6,61 = 3,90
10,58 11,85 10,58
0,01 77,26 79,21
40 – 50 anni = 0,00 = 6,33 = 7,27
10,90 12,21 10,90

L’indice Chi quadro sarà dato dalla somma dei valori all’intero dell’ultima tabella calcolata:
𝜒 = 1,81 + 0,00 + 1,73 + 0,55 + 6,61 + 3,90 + 0,00 + 6,33 + 7,27 = 28,20
Mentre il coefficiente di contingenza:

𝜒 28,20
Φ= = = 0,5153 = 51,53%
𝜒 +𝑛 28,20 + 78

STATISTICA BIVARIATA CON DUE VARIABILI QUANTITATIVE: COVARIANZA E


INDICE DI CORRELAZIONE DI BRAVAIS-PEARSON

La covarianza
Un primo strumento che ci può essere utile per studiare la relazione esistente tra due variabili
quantitative è la covarianza, che può essere definito come un indice di variabilità congiunta.
La covarianza può essere espressa come:
𝜎 , = 𝐶𝑂𝑉(𝑋, 𝑌)
È calcolata come:
1
𝐶𝑂𝑉(𝑋, 𝑌) = [(𝑥 − 𝑥̅ )(𝑦 − 𝑦)]
𝑁

Esempio di calcolo della covarianza


Date le due seguenti serie ordinate per l’altezza, relative al peso e all’altezza di dieci individui:
Persona 1 2 3 4 5 6 7 8 9 10
Peso
70 72 69 75 78 75 82 86 70 73
(kg)
Altezza
140 151 159 160 162 164 170 176 178 180
(cm)

Iniziamo con il calcolo della media delle due variabili quantitative (X = peso, Y = altezza):
70 + 72 + 69 + 75 + 78 + 75 + 82 + 86 + 70 + 73 750
𝑥̅ = = = 75
10 10
140 + 151 + 159 + 160 + 162 + 164 + 170 + 176 + 178 + 180 1.640
𝑦= = = 164
10 10

Riassunti di Michela Angius 145


Riassunti di Statistica Psicometrica 20. Statistica bivariata

La covarianza può essere calcolata come:


1
𝐶𝑂𝑉(𝑋, 𝑌) =
10
∙ [(70 − 75)(140 − 164) + (72 − 75)(151 − 164) + (69 − 75)(159 − 164)
+ (75 − 75)(160 − 164) + (78 − 75)(162 − 164) + (75 − 75)(164 − 164)
+ (82 − 75)(170 − 164) + (86 − 75)(176 − 164) + (70 − 75)(178 − 164)
+ (73 − 75)(180 − 164)] =
1
𝐶𝑂𝑉(𝑋, 𝑌) =
10
∙ [(−5 ∙ −24) + (−3 ∙ −13) + (−6 ∙ −5) + (0 ∙ −4) + (3 ∙ −2) + (0 ∙ 0) + (7 ∙ 6)
+ (11 ∙ 12) + (−5 ∙ 14) + (−2 ∙ 16)] =
1 273
𝐶𝑂𝑉(𝑋, 𝑌) = ∙ (120 + 39 + 30 + 0 − 6 + 0 + 42 + 132 − 70 − 14) = = 27,3
10 10
Dato che il risultato calcolato della covarianza è un numero positivo, si può – almeno per ora –
concludere che esiste una relazione diretta fra le due variabili (al crescere di una cresce l’altra,
ovvero, al crescere del peso cresce l’altezza e viceversa).
Lo scatter plot (grafico a dispersione)
Possiamo mettere su un grafico, rappresentato da un sistema di assi cartesiani OXY, i valori
congiunti di una serie, dove ogni punto all’interno del grafico espone un’unità statistica. Ad
esempio, per un generico punto A presente nel c.d. grafico a dispersione:
𝐴(𝑥 , 𝑦 )
Dalla nuvola di punto che caratterizza ciascun grafico a dispersione (scatter plot in inglese) è
possibile osservare a semplice vista se esiste una relazione fra le due variabili. Prendiamo in
considerazione diversi casi:

In questo primo caso si è registrato su un sistema di assi cartesiani per ciascun albero preso in
considerazione nello studio (ogni albero è un punto verde nel grafico a dispersione) la sua
altezza, posta in metri nell’asse delle ordinate Y, e il suo diametro, posto in cm nell’asse delle
ascisse X. L’obiettivo dello studio in questione è capire se più l’albero è alto, più grande è il suo

Riassunti di Michela Angius 146


Riassunti di Statistica Psicometrica 20. Statistica bivariata

diametro (se lo studio è condotto su un campione per avere un informazione sulla totalità di
alberi sul pianeta terra si conduce un ulteriore studio di statistica inferenziale). Come si può
notare a semplice vista, più aumenta il diametro dell’albero, più e comune che tali alberi
abbiano un’altezza maggiore; quindi, possiamo concludere – grazie alla statistica – che più un
albero è alto, più avrà un diametro maggiore. Si può affermare che esiste concordanza fra X e
Y.

In quest’altro studio si è rappresentato in uno scatter plot la relazione esistente fra:


 Asse X (wt): il peso dell’automobile (unità di misura presa in considerazione 1000 libbre);
 Asse Y (mpg): il consumo dell’automobile (unità di misura presa in considerazione miglia
per galloni).
Come si può notare adesso i punti del grafico (ogni punto è un modello di automobile) si
dispongono in maniera diversa al grafico precedente, suggerendo che più aumenta il peso,
minore sarà il numero di miglia fatto dall’automobile per ogni gallone, quindi a maggior peso
dell’automobile, corrisponde un maggior consumo di carburante. Si può affermare che esiste
discordanza fra X e Y.

Riassunti di Michela Angius 147


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Cosa possiamo concludere se, invece, ci troviamo di fronte ad un grafico a dispersione del
genere? In questo caso lo studio prende in considerazione due variabili poste nei due diversi assi
cartesiani del grafico:
 Asse X: il numero di nuove uova di gallina della fattoria in un giorno;
 Asse Y: il numero di gelati venduti dalla fattoria in un giorno.
In questo caso ogni punto del grafico rappresenta un giorno nella fattoria, ma non si può notare
a semplice vista una relazione fra le due variabili, come invece poteva essere fatto per i due
grafici. Quindi, per ora, concludiamo che dallo studio del grafico a dispersione non esiste alcuna
relazione significativa fra numero di nuove uova di gallina della fattoria e numero di gelati
venduti nello stesso giorno.
Esempio di grafico di dispersione
Continuiamo con l’esempio di altezza e peso usato per il calcolo della covarianza. Introducendo
un sistema cartesiano OXY, con:
 Asse X: peso in kg;
 Asse Y: altezza in cm.
Per ognuna delle dieci persone dello studio è possibile rappresentare un puntino in un grafico a
dispersione come segue:
190

180

170
Altezza in cm

160

150

140

130
65 70 75 80 85 90
Peso in kg

Tranne che per i due punti più in alto del grafico (rappresentanti i due soggetti più alti dello
studio) è osservabile in maniera netta che esiste una relazione diretta fra le due variabili, cioè
che al crescere dell’altezza cresce il peso della persona, o viceversa.
L’indice di correlazione di Bravais-Pearson
Si può introdurre un ulteriore indice statistico per la misura della relazione fra le due variabili
che parte dal calcolo della covarianza; l’indice di correlazione di Bravais-Pearson è di solito
rappresentato come:
𝜌 , =𝑟,
o usando la lettera greca rho, o usando la lettera latina r in minuscolo.
La formula per il calcolo dell’indice di correlazione di Bravais-Pearson è:

Riassunti di Michela Angius 148


Riassunti di Statistica Psicometrica 20. Statistica bivariata

𝐶𝑂𝑉(𝑋, 𝑌)
𝑟, =
𝑉𝐴𝑅(𝑋) ∙ 𝑉𝐴𝑅(𝑌)
ovvero rapportando la covarianza con la radice quadrata del prodotto tra la varianza di
ciascuna variabile presa singolarmente.
Analisi del valore dell’indice di correlazione di Bravais-Pearson
L’indice di correlazione di Bravais-Pearson è un valore che può variare all’interno dell’intervallo
[-1,1]:
−1 ≤ 𝑟 , ≤ 1
Se:
 𝑟 , > 0: vi è correlazione diretta fra le due variabili quantitative;
 𝑟 , < 0: vi è correlazione inversa fra le due variabili quantitative;
 𝑟 , = 1: vi è perfetta correlazione diretta fra le due variabili quantitative;
 𝑟 , = −1: vi è perfetta correlazione inversa fra le due variabili quantitative;
 𝑟 , = 0: non vi è alcuna correlazione lineare fra le due variabili quantitative.
Correzione inversa e correlazione diretta:

Perfetta correlazione inversa e diretta:

Nessuna relazione lineare:

Riassunti di Michela Angius 149


Riassunti di Statistica Psicometrica 20. Statistica bivariata

Esempio di calcolo dell’indice di correlazione di Bravais-Pearson


Calcoliamo l’indice di correlazione di Bravais-Pearson per l’esempio del peso e dell’altezza.
Sappiamo che la covarianza è pari a:
𝐶𝑂𝑉(𝑋, 𝑌) = 27,30
Adesso si deve calcolare la varianza di X e la varianza di Y:
1
𝑉𝐴𝑅(𝑋) = (𝑥 − 𝑥̅ ) = 30,88
𝑁

1
𝑉𝐴𝑅(𝑌) = (𝑦 − 𝑦) = 158,00
𝑁

(per il calcolo della varianza si rimanda alla teoria esposta nel primo pacchetto di riassunti).
L’indice di correlazione di Bravais-Pearson sarà:
𝐶𝑂𝑉(𝑋, 𝑌) 27,30 27,30 27,30
𝑟, = = = = = 0,39
𝑉𝐴𝑅(𝑋) ∙ 𝑉𝐴𝑅(𝑌) 30,88 ∙ 158,00 √4.879,04 69,85
Dato che l’indice è positivo (+0,39) si può affermare che esiste una bassa ma significativa
relazione diretta fra il peso e l’altezza dei soggetti presi in considerazione.

Riassunti di Michela Angius 150


Anno accademico 2020/2021

Riassunti di Statistica
psicometrica - Tavole
Università degli Studi di Napoli Federico II
Docente: Domenico Vistocco
Riassunti di: Michela Angius
TAVOLE STATISTICHE
Indice delle tavole
21 Tavole statistiche 153
Tavola funzione di ripartizione variabile casuale normale
Tavola funzione di ripartizione normale (solo ascisse positive)
Tavola percentili variabile casuale t di Student
Tavola percentili variabile casuale Chi-quadrato
Tavola percentili variabile casuale F di Fisher

Riassunti di Michela Angius 152


STANDARD NORMAL DISTRIBUTION: Table Values Represent AREA to the LEFT of the Z score.
Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-3.9 .00005 .00005 .00004 .00004 .00004 .00004 .00004 .00004 .00003 .00003
-3.8 .00007 .00007 .00007 .00006 .00006 .00006 .00006 .00005 .00005 .00005
-3.7 .00011 .00010 .00010 .00010 .00009 .00009 .00008 .00008 .00008 .00008
-3.6 .00016 .00015 .00015 .00014 .00014 .00013 .00013 .00012 .00012 .00011
-3.5 .00023 .00022 .00022 .00021 .00020 .00019 .00019 .00018 .00017 .00017
-3.4 .00034 .00032 .00031 .00030 .00029 .00028 .00027 .00026 .00025 .00024
-3.3 .00048 .00047 .00045 .00043 .00042 .00040 .00039 .00038 .00036 .00035
-3.2 .00069 .00066 .00064 .00062 .00060 .00058 .00056 .00054 .00052 .00050
-3.1 .00097 .00094 .00090 .00087 .00084 .00082 .00079 .00076 .00074 .00071
-3.0 .00135 .00131 .00126 .00122 .00118 .00114 .00111 .00107 .00104 .00100
-2.9 .00187 .00181 .00175 .00169 .00164 .00159 .00154 .00149 .00144 .00139
-2.8 .00256 .00248 .00240 .00233 .00226 .00219 .00212 .00205 .00199 .00193
-2.7 .00347 .00336 .00326 .00317 .00307 .00298 .00289 .00280 .00272 .00264
-2.6 .00466 .00453 .00440 .00427 .00415 .00402 .00391 .00379 .00368 .00357
-2.5 .00621 .00604 .00587 .00570 .00554 .00539 .00523 .00508 .00494 .00480
-2.4 .00820 .00798 .00776 .00755 .00734 .00714 .00695 .00676 .00657 .00639
-2.3 .01072 .01044 .01017 .00990 .00964 .00939 .00914 .00889 .00866 .00842
-2.2 .01390 .01355 .01321 .01287 .01255 .01222 .01191 .01160 .01130 .01101
-2.1 .01786 .01743 .01700 .01659 .01618 .01578 .01539 .01500 .01463 .01426
-2.0 .02275 .02222 .02169 .02118 .02068 .02018 .01970 .01923 .01876 .01831
-1.9 .02872 .02807 .02743 .02680 .02619 .02559 .02500 .02442 .02385 .02330
-1.8 .03593 .03515 .03438 .03362 .03288 .03216 .03144 .03074 .03005 .02938
-1.7 .04457 .04363 .04272 .04182 .04093 .04006 .03920 .03836 .03754 .03673
-1.6 .05480 .05370 .05262 .05155 .05050 .04947 .04846 .04746 .04648 .04551
-1.5 .06681 .06552 .06426 .06301 .06178 .06057 .05938 .05821 .05705 .05592
-1.4 .08076 .07927 .07780 .07636 .07493 .07353 .07215 .07078 .06944 .06811
-1.3 .09680 .09510 .09342 .09176 .09012 .08851 .08691 .08534 .08379 .08226
-1.2 .11507 .11314 .11123 .10935 .10749 .10565 .10383 .10204 .10027 .09853
-1.1 .13567 .13350 .13136 .12924 .12714 .12507 .12302 .12100 .11900 .11702
-1.0 .15866 .15625 .15386 .15151 .14917 .14686 .14457 .14231 .14007 .13786
-0.9 .18406 .18141 .17879 .17619 .17361 .17106 .16853 .16602 .16354 .16109
-0.8 .21186 .20897 .20611 .20327 .20045 .19766 .19489 .19215 .18943 .18673
-0.7 .24196 .23885 .23576 .23270 .22965 .22663 .22363 .22065 .21770 .21476
-0.6 .27425 .27093 .26763 .26435 .26109 .25785 .25463 .25143 .24825 .24510
-0.5 .30854 .30503 .30153 .29806 .29460 .29116 .28774 .28434 .28096 .27760
-0.4 .34458 .34090 .33724 .33360 .32997 .32636 .32276 .31918 .31561 .31207
-0.3 .38209 .37828 .37448 .37070 .36693 .36317 .35942 .35569 .35197 .34827
-0.2 .42074 .41683 .41294 .40905 .40517 .40129 .39743 .39358 .38974 .38591
-0.1 .46017 .45620 .45224 .44828 .44433 .44038 .43644 .43251 .42858 .42465
-0.0 .50000 .49601 .49202 .48803 .48405 .48006 .47608 .47210 .46812 .46414
STANDARD NORMAL DISTRIBUTION: Table Values Represent AREA to the LEFT of the Z score.
Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586
0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56749 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173
0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240
0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891
1.0 .84134 .84375 .84614 .84849 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92785 .92922 .93056 .93189
1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408
1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062
1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169
2.1 .98214 .98257 .98300 .98341 .98382 .98422 .98461 .98500 .98537 .98574
2.2 .98610 .98645 .98679 .98713 .98745 .98778 .98809 .98840 .98870 .98899
2.3 .98928 .98956 .98983 .99010 .99036 .99061 .99086 .99111 .99134 .99158
2.4 .99180 .99202 .99224 .99245 .99266 .99286 .99305 .99324 .99343 .99361
2.5 .99379 .99396 .99413 .99430 .99446 .99461 .99477 .99492 .99506 .99520
2.6 .99534 .99547 .99560 .99573 .99585 .99598 .99609 .99621 .99632 .99643
2.7 .99653 .99664 .99674 .99683 .99693 .99702 .99711 .99720 .99728 .99736
2.8 .99744 .99752 .99760 .99767 .99774 .99781 .99788 .99795 .99801 .99807
2.9 .99813 .99819 .99825 .99831 .99836 .99841 .99846 .99851 .99856 .99861
3.0 .99865 .99869 .99874 .99878 .99882 .99886 .99889 .99893 .99896 .99900
3.1 .99903 .99906 .99910 .99913 .99916 .99918 .99921 .99924 .99926 .99929
3.2 .99931 .99934 .99936 .99938 .99940 .99942 .99944 .99946 .99948 .99950
3.3 .99952 .99953 .99955 .99957 .99958 .99960 .99961 .99962 .99964 .99965
3.4 .99966 .99968 .99969 .99970 .99971 .99972 .99973 .99974 .99975 .99976
3.5 .99977 .99978 .99978 .99979 .99980 .99981 .99981 .99982 .99983 .99983
3.6 .99984 .99985 .99985 .99986 .99986 .99987 .99987 .99988 .99988 .99989
3.7 .99989 .99990 .99990 .99990 .99991 .99991 .99992 .99992 .99992 .99992
3.8 .99993 .99993 .99993 .99994 .99994 .99994 .99994 .99995 .99995 .99995
3.9 .99995 .99995 .99996 .99996 .99996 .99996 .99996 .99996 .99997 .99997
Tavola della distribuzione Normale Standardizzata

Funzione di ripartizione della normale standardizzata


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tavola della distribuzione T di Student

Gradi di Area nella coda di destra


libertà 0.1 0.05 0.025 0.02 0.01 0.005 0.0025 0.001 0.0005
1 3.078 6.314 12.706 15.894 31.821 63.656 127.321 318.289 636.578
2 1.886 2.920 4.303 4.849 6.965 9.925 14.089 22.328 31.600
3 1.638 2.353 3.182 3.482 4.541 5.841 7.453 10.214 12.924
4 1.533 2.132 2.776 2.999 3.747 4.604 5.598 7.173 8.610
5 1.476 2.015 2.571 2.757 3.365 4.032 4.773 5.894 6.869

6 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.208 5.959


7 1.415 1.895 2.365 2.517 2.998 3.499 4.029 4.785 5.408
8 1.397 1.860 2.306 2.449 2.896 3.355 3.833 4.501 5.041
9 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.297 4.781
10 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.144 4.587

11 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.025 4.437


12 1.356 1.782 2.179 2.303 2.681 3.055 3.428 3.930 4.318
13 1.350 1.771 2.160 2.282 2.650 3.012 3.372 3.852 4.221
14 1.345 1.761 2.145 2.264 2.624 2.977 3.326 3.787 4.140
15 1.341 1.753 2.131 2.249 2.602 2.947 3.286 3.733 4.073

16 1.337 1.746 2.120 2.235 2.583 2.921 3.252 3.686 4.015


17 1.333 1.740 2.110 2.224 2.567 2.898 3.222 3.646 3.965
18 1.330 1.734 2.101 2.214 2.552 2.878 3.197 3.610 3.922
19 1.328 1.729 2.093 2.205 2.539 2.861 3.174 3.579 3.883
20 1.325 1.725 2.086 2.197 2.528 2.845 3.153 3.552 3.850

21 1.323 1.721 2.080 2.189 2.518 2.831 3.135 3.527 3.819


22 1.321 1.717 2.074 2.183 2.508 2.819 3.119 3.505 3.792
23 1.319 1.714 2.069 2.177 2.500 2.807 3.104 3.485 3.768
24 1.318 1.711 2.064 2.172 2.492 2.797 3.091 3.467 3.745
25 1.316 1.708 2.060 2.167 2.485 2.787 3.078 3.450 3.725

26 1.315 1.706 2.056 2.162 2.479 2.779 3.067 3.435 3.707


27 1.314 1.703 2.052 2.158 2.473 2.771 3.057 3.421 3.689
28 1.313 1.701 2.048 2.154 2.467 2.763 3.047 3.408 3.674
29 1.311 1.699 2.045 2.150 2.462 2.756 3.038 3.396 3.660
30 1.310 1.697 2.042 2.147 2.457 2.750 3.030 3.385 3.646

31 1.309 1.696 2.040 2.144 2.453 2.744 3.022 3.375 3.633


32 1.309 1.694 2.037 2.141 2.449 2.738 3.015 3.365 3.622
33 1.308 1.692 2.035 2.138 2.445 2.733 3.008 3.356 3.611
34 1.307 1.691 2.032 2.136 2.441 2.728 3.002 3.348 3.601
35 1.306 1.690 2.030 2.133 2.438 2.724 2.996 3.340 3.591

36 1.306 1.688 2.028 2.131 2.434 2.719 2.990 3.333 3.582


37 1.305 1.687 2.026 2.129 2.431 2.715 2.985 3.326 3.574
38 1.304 1.686 2.024 2.127 2.429 2.712 2.980 3.319 3.566
39 1.304 1.685 2.023 2.125 2.426 2.708 2.976 3.313 3.558
40 1.303 1.684 2.021 2.123 2.423 2.704 2.971 3.307 3.551

41 1.303 1.683 2.020 2.121 2.421 2.701 2.967 3.301 3.544


42 1.302 1.682 2.018 2.120 2.418 2.698 2.963 3.296 3.538
43 1.302 1.681 2.017 2.118 2.416 2.695 2.959 3.291 3.532
44 1.301 1.680 2.015 2.116 2.414 2.692 2.956 3.286 3.526
45 1.301 1.679 2.014 2.115 2.412 2.690 2.952 3.281 3.520

46 1.300 1.679 2.013 2.114 2.410 2.687 2.949 3.277 3.515


47 1.300 1.678 2.012 2.112 2.408 2.685 2.946 3.273 3.510
48 1.299 1.677 2.011 2.111 2.407 2.682 2.943 3.269 3.505
49 1.299 1.677 2.010 2.110 2.405 2.680 2.940 3.265 3.500
50 1.299 1.676 2.009 2.109 2.403 2.678 2.937 3.261 3.496
Tavola della distribuzione T di Student (continua)
Gradi di Area nella coda di destra
libertà 0.1 0.05 0.025 0.02 0.01 0.005 0.0025 0.001 0.0005
51 1.298 1.675 2.008 2.108 2.402 2.676 2.934 3.258 3.492
52 1.298 1.675 2.007 2.107 2.400 2.674 2.932 3.255 3.488
53 1.298 1.674 2.006 2.106 2.399 2.672 2.929 3.251 3.484
54 1.297 1.674 2.005 2.105 2.397 2.670 2.927 3.248 3.480
55 1.297 1.673 2.004 2.104 2.396 2.668 2.925 3.245 3.476

56 1.297 1.673 2.003 2.103 2.395 2.667 2.923 3.242 3.473


57 1.297 1.672 2.002 2.102 2.394 2.665 2.920 3.239 3.469
58 1.296 1.672 2.002 2.101 2.392 2.663 2.918 3.237 3.466
59 1.296 1.671 2.001 2.100 2.391 2.662 2.916 3.234 3.463
60 1.296 1.671 2.000 2.099 2.390 2.660 2.915 3.232 3.460

61 1.296 1.670 2.000 2.099 2.389 2.659 2.913 3.229 3.457


62 1.295 1.670 1.999 2.098 2.388 2.657 2.911 3.227 3.454
63 1.295 1.669 1.998 2.097 2.387 2.656 2.909 3.225 3.452
64 1.295 1.669 1.998 2.096 2.386 2.655 2.908 3.223 3.449
65 1.295 1.669 1.997 2.096 2.385 2.654 2.906 3.220 3.447

66 1.295 1.668 1.997 2.095 2.384 2.652 2.904 3.218 3.444


67 1.294 1.668 1.996 2.095 2.383 2.651 2.903 3.216 3.442
68 1.294 1.668 1.995 2.094 2.382 2.650 2.902 3.214 3.439
69 1.294 1.667 1.995 2.093 2.382 2.649 2.900 3.213 3.437
70 1.294 1.667 1.994 2.093 2.381 2.648 2.899 3.211 3.435

71 1.294 1.667 1.994 2.092 2.380 2.647 2.897 3.209 3.433


72 1.293 1.666 1.993 2.092 2.379 2.646 2.896 3.207 3.431
73 1.293 1.666 1.993 2.091 2.379 2.645 2.895 3.206 3.429
74 1.293 1.666 1.993 2.091 2.378 2.644 2.894 3.204 3.427
75 1.293 1.665 1.992 2.090 2.377 2.643 2.892 3.202 3.425

76 1.293 1.665 1.992 2.090 2.376 2.642 2.891 3.201 3.423


77 1.293 1.665 1.991 2.089 2.376 2.641 2.890 3.199 3.421
78 1.292 1.665 1.991 2.089 2.375 2.640 2.889 3.198 3.420
79 1.292 1.664 1.990 2.088 2.374 2.639 2.888 3.197 3.418
80 1.292 1.664 1.990 2.088 2.374 2.639 2.887 3.195 3.416

81 1.292 1.664 1.990 2.087 2.373 2.638 2.886 3.194 3.415


82 1.292 1.664 1.989 2.087 2.373 2.637 2.885 3.193 3.413
83 1.292 1.663 1.989 2.087 2.372 2.636 2.884 3.191 3.412
84 1.292 1.663 1.989 2.086 2.372 2.636 2.883 3.190 3.410
85 1.292 1.663 1.988 2.086 2.371 2.635 2.882 3.189 3.409

86 1.291 1.663 1.988 2.085 2.370 2.634 2.881 3.188 3.407


87 1.291 1.663 1.988 2.085 2.370 2.634 2.880 3.187 3.406
88 1.291 1.662 1.987 2.085 2.369 2.633 2.880 3.185 3.405
89 1.291 1.662 1.987 2.084 2.369 2.632 2.879 3.184 3.403
90 1.291 1.662 1.987 2.084 2.368 2.632 2.878 3.183 3.402

91 1.291 1.662 1.986 2.084 2.368 2.631 2.877 3.182 3.401


92 1.291 1.662 1.986 2.083 2.368 2.630 2.876 3.181 3.399
93 1.291 1.661 1.986 2.083 2.367 2.630 2.876 3.180 3.398
94 1.291 1.661 1.986 2.083 2.367 2.629 2.875 3.179 3.397
95 1.291 1.661 1.985 2.082 2.366 2.629 2.874 3.178 3.396

96 1.290 1.661 1.985 2.082 2.366 2.628 2.873 3.177 3.395


97 1.290 1.661 1.985 2.082 2.365 2.627 2.873 3.176 3.394
98 1.290 1.661 1.984 2.081 2.365 2.627 2.872 3.176 3.393
99 1.290 1.660 1.984 2.081 2.365 2.626 2.871 3.175 3.391
100 1.290 1.660 1.984 2.081 2.364 2.626 2.871 3.174 3.390

101 1.290 1.660 1.984 2.081 2.364 2.625 2.870 3.173 3.389
102 1.290 1.660 1.983 2.080 2.363 2.625 2.869 3.172 3.389
103 1.290 1.660 1.983 2.080 2.363 2.624 2.869 3.171 3.388
104 1.290 1.660 1.983 2.080 2.363 2.624 2.868 3.170 3.387
105 1.290 1.659 1.983 2.080 2.362 2.623 2.868 3.170 3.386

106 1.290 1.659 1.983 2.079 2.362 2.623 2.867 3.169 3.385
107 1.290 1.659 1.982 2.079 2.362 2.623 2.866 3.168 3.384
108 1.289 1.659 1.982 2.079 2.361 2.622 2.866 3.167 3.383
109 1.289 1.659 1.982 2.079 2.361 2.622 2.865 3.167 3.382
110 1.289 1.659 1.982 2.078 2.361 2.621 2.865 3.166 3.381

30000 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.091 3.291
Tavola della distribuzione χ2

Gradi Area nella coda destra


di
libertà 0.9995 0.999 0.9975 0.995 0.990 0.975 0.950 0.900 0.500
1 0.000 0.000 0.000 0.000 0.000 0.001 0.004 0.016 0.455
2 0.001 0.002 0.005 0.010 0.020 0.051 0.103 0.211 1.386
3 0.015 0.024 0.045 0.072 0.115 0.216 0.352 0.584 2.366
4 0.064 0.091 0.145 0.207 0.297 0.484 0.711 1.064 3.357
5 0.158 0.210 0.307 0.412 0.554 0.831 1.145 1.610 4.351

6 0.299 0.381 0.527 0.676 0.872 1.237 1.635 2.204 5.348


7 0.485 0.598 0.794 0.989 1.239 1.690 2.167 2.833 6.346
8 0.710 0.857 1.104 1.344 1.646 2.180 2.733 3.490 7.344
9 0.972 1.152 1.450 1.735 2.088 2.700 3.325 4.168 8.343
10 1.265 1.479 1.827 2.156 2.558 3.247 3.940 4.865 9.342

11 1.587 1.834 2.232 2.603 3.053 3.816 4.575 5.578 10.341


12 1.934 2.214 2.661 3.074 3.571 4.404 5.226 6.304 11.340
13 2.305 2.617 3.112 3.565 4.107 5.009 5.892 7.042 12.340
14 2.697 3.041 3.582 4.075 4.660 5.629 6.571 7.790 13.339
15 3.108 3.483 4.070 4.601 5.229 6.262 7.261 8.547 14.339

16 3.536 3.942 4.573 5.142 5.812 6.908 7.962 9.312 15.338


17 3.980 4.416 5.092 5.697 6.408 7.564 8.672 10.085 16.338
18 4.439 4.905 5.623 6.265 7.015 8.231 9.390 10.865 17.338
19 4.912 5.407 6.167 6.844 7.633 8.907 10.117 11.651 18.338
20 5.398 5.921 6.723 7.434 8.260 9.591 10.851 12.443 19.337

21 5.896 6.447 7.289 8.034 8.897 10.283 11.591 13.240 20.337


22 6.404 6.983 7.865 8.643 9.542 10.982 12.338 14.041 21.337
23 6.924 7.529 8.450 9.260 10.196 11.689 13.091 14.848 22.337
24 7.453 8.085 9.044 9.886 10.856 12.401 13.848 15.659 23.337
25 7.991 8.649 9.646 10.520 11.524 13.120 14.611 16.473 24.337

26 8.538 9.222 10.256 11.160 12.198 13.844 15.379 17.292 25.336


27 9.093 9.803 10.873 11.808 12.879 14.573 16.151 18.114 26.336
28 9.656 10.391 11.497 12.461 13.565 15.308 16.928 18.939 27.336
29 10.227 10.986 12.128 13.121 14.256 16.047 17.708 19.768 28.336
30 10.804 11.588 12.765 13.787 14.953 16.791 18.493 20.599 29.336

40 16.906 17.916 19.417 20.707 22.164 24.433 26.509 29.051 39.335


50 23.461 24.674 26.464 27.991 29.707 32.357 34.764 37.689 49.335
60 30.340 31.738 33.791 35.534 37.485 40.482 43.188 46.459 59.335
70 37.467 39.036 41.332 43.275 45.442 48.758 51.739 55.329 69.334
80 44.791 46.520 49.043 51.172 53.540 57.153 60.391 64.278 79.334
90 52.276 54.155 56.892 59.196 61.754 65.647 69.126 73.291 89.334
100 59.896 61.918 64.857 67.328 70.065 74.222 77.929 82.358 99.334
Tavola della distribuzione χ2

Area nella coda destra


Gradi
di
libertà 0.100 0.050 0.025 0.020 0.010 0.005 0.0025 0.001 0.0005
1 2.706 3.841 5.024 5.412 6.635 7.879 9.141 10.828 12.116
2 4.605 5.991 7.378 7.824 9.210 10.597 11.983 13.816 15.202
3 6.251 7.815 9.348 9.837 11.345 12.838 14.320 16.266 17.730
4 7.779 9.488 11.143 11.668 13.277 14.860 16.424 18.467 19.997
5 9.236 11.070 12.833 13.388 15.086 16.750 18.386 20.515 22.105

6 10.645 12.592 14.449 15.033 16.812 18.548 20.249 22.458 24.103


7 12.017 14.067 16.013 16.622 18.475 20.278 22.040 24.322 26.018
8 13.362 15.507 17.535 18.168 20.090 21.955 23.774 26.124 27.868
9 14.684 16.919 19.023 19.679 21.666 23.589 25.462 27.877 29.666
10 15.987 18.307 20.483 21.161 23.209 25.188 27.112 29.588 31.420

11 17.275 19.675 21.920 22.618 24.725 26.757 28.729 31.264 33.137


12 18.549 21.026 23.337 24.054 26.217 28.300 30.318 32.909 34.821
13 19.812 22.362 24.736 25.472 27.688 29.819 31.883 34.528 36.478
14 21.064 23.685 26.119 26.873 29.141 31.319 33.426 36.123 38.109
15 22.307 24.996 27.488 28.259 30.578 32.801 34.950 37.697 39.719

16 23.542 26.296 28.845 29.633 32.000 34.267 36.456 39.252 41.308


17 24.769 27.587 30.191 30.995 33.409 35.718 37.946 40.790 42.879
18 25.989 28.869 31.526 32.346 34.805 37.156 39.422 42.312 44.434
19 27.204 30.144 32.852 33.687 36.191 38.582 40.885 43.820 45.973
20 28.412 31.410 34.170 35.020 37.566 39.997 42.336 45.315 47.498

21 29.615 32.671 35.479 36.343 38.932 41.401 43.775 46.797 49.011


22 30.813 33.924 36.781 37.659 40.289 42.796 45.204 48.268 50.511
23 32.007 35.172 38.076 38.968 41.638 44.181 46.623 49.728 52.000
24 33.196 36.415 39.364 40.270 42.980 45.559 48.034 51.179 53.479
25 34.382 37.652 40.646 41.566 44.314 46.928 49.435 52.620 54.947

26 35.563 38.885 41.923 42.856 45.642 48.290 50.829 54.052 56.407


27 36.741 40.113 43.195 44.140 46.963 49.645 52.215 55.476 57.858
28 37.916 41.337 44.461 45.419 48.278 50.993 53.594 56.892 59.300
29 39.087 42.557 45.722 46.693 49.588 52.336 54.967 58.301 60.735
30 40.256 43.773 46.979 47.962 50.892 53.672 56.332 59.703 62.162

40 51.805 55.758 59.342 60.436 63.691 66.766 69.699 73.402 76.095


50 63.167 67.505 71.420 72.613 76.154 79.490 82.664 86.661 89.561
60 74.397 79.082 83.298 84.580 88.379 91.952 95.344 99.607 102.695
70 85.527 90.531 95.023 96.388 100.425 104.215 107.808 112.317 115.578
80 96.578 101.879 106.629 108.069 112.329 116.321 120.102 124.839 128.261
90 107.565 113.145 118.136 119.648 124.116 128.299 132.256 137.208 140.782
100 118.498 124.342 129.561 131.142 135.807 140.169 144.293 149.449 153.167
Tavola 4 – Percentili della variabile casuale F di Fisher
f x

D
Fn1 , n2 ,D x

D 0.10
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’
1 39.8 49.5 53.5 55.8 57.2 58.2 58.9 59.4 59.8 60.1 60.7 61.2 61.7 62.0 62.2 62.5 62.7 63.0 63.3

2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49

3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13

4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76

5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.11

6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72

7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47

8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29

9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16

10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06

11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97

12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90

13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85

14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80

15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76

16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72

17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69

18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66

19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63

20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61

21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59

22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57

23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55

24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53

25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52

26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50

27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49

28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48

29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47

30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46

40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38

60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29

120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19

’ 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00
Tavole statistiche 427

Tavola 4 – Percentili della variabile casuale F di Fisher


f x

D
Fn1 , n2 ,D x

D 0.05
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 161. 199. 215. 224. 230. 234. 236. 238. 240. 241. 243. 246. 248. 249. 250. 251. 252. 253. 254.

2 18.5 19.0 19.1 19.2 19.3 19.3 19.3 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5

3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53

4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23

8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93

9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40

12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21

14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01

17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92

19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78

23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76

24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73

25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71

26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69

27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67

28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65

29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25

’ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Tavola 4 – Percentili della variabile casuale F di Fisher
f x

D
Fn1 , n2 ,D x

0.025

E
!
Denom. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 647.8 799.5 864.2 899.6 921.9 937.1 948.2 956.7 963.3 968.7 976.7 984.9 993.1 997.3 1001.4 1005.6 1009.8 1014.0 1018.3

2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.47 39.47 39.48 39.49 39.50

3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90

4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26

5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02

6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85

7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14

8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67

9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33

10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08

11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88

12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.73

13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60

14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49

15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40

16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32

17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25

18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.45 2.38 2.32 2.26 2.19

19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13

20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09

21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04

22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.15 2.08 2.00

23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97

24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94

25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91

26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88

27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85

28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83

29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81

30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79

40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64

60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48

120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.95 1.82 1.76 1.69 1.61 1.53 1.43 1.31

’ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
Tavole statistiche 429

Tavola 4 – Percentili della variabile casuale F di Fisher


f x

D
Fn1 , n2 ,D x

D 0.01
Denom
. Numeratore n1
n2
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ’

1 4052 5000 5403 5625 5764 5859 5928 5981 6023 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366

2 98.5 99.0 99.1 99.2 99.3 99.3 99.3 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5

3 34.1 30.8 29.4 28.7 28.2 27.9 27.6 27.4 27.3 27.2 27.0 26.8 26.6 26.6 26.5 26.4 26.3 26.2 26.1

4 21.2 18.0 16.6 15.9 15.5 15.2 14.9 14.8 14.6 14.5 14.3 14.2 14.0 13.9 13.8 13.7 13.6 13.5 13.4

5 16.2 13.2 12.0 11.3 10.9 10.6 10.4 10.2 10.1 10.0 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02

6 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88

7 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65

8 11.2 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86

9 10.5 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31

10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91

11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60

12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36

13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.67 3.59 3.51 3.43 3.34 3.26 3.17

14 8.86 6.52 5.56 5.04 4.70 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00

15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.90 3.81 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87

16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.85 2.75

17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.84 2.75 2.65

18 8.29 6.01 5.09 4.58 4.25 4.02 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57

19 8.19 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.93 2.84 2.76 2.67 2.58 2.49

20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.70 2.61 2.52 2.42

21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36

22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31

23 7.88 5.66 4.77 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26

24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21

25 7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17

26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.82 2.66 2.59 2.50 2.42 2.33 2.23 2.13

27 7.68 5.49 4.60 4.11 3.79 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10

28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06

29 7.60 5.42 4.54 4.05 3.73 3.50 3.33 3.20 3.09 3.01 2.87 2.73 2.57 2.50 2.41 2.33 2.23 2.14 2.03

30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01

40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.67 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.81

60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60

120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.04 1.95 1.86 1.76 1.66 1.53 1.38

’ 6.64 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.19 2.04 1.88 1.79 1.70 1.59 1.47 1.33 1.00

Potrebbero piacerti anche