Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Loriano Mancini1
Semestre Autunnale2
Hal Varian
Chief Economist, Google Inc., 2009
“90% of the data in the world today has been created in the
last two years alone, [. . . ] and the data growth rate will likely
accelerate even more.”
1 Introduzione 4
1.1 Ricapitolazione . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Fondamenti di probabilità . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Esperimento Aleatorio . . . . . . . . . . . . . . . . . . 8
1.2.2 Funzione di ripartizione e di densità . . . . . . . . . . . 12
1.3 Statistica descrittiva e teoria della probabilità . . . . . . . . . 14
1.4 Famiglie parametriche di distribuzioni . . . . . . . . . . . . . . 17
1.5 Contenuto del corso di Statistica 2 . . . . . . . . . . . . . . . 20
1.6 Domande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Induzione statistica 25
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Modelli parametrici . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Esperimento statistico . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Esperimento statistico e variabili aleatorie . . . . . . . . . . . 39
2.6 Campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.7 Distribuzione campionaria, statistica, stimatore corretto . . . . 42
3 Campionamento 47
3.1 Campionamento con reinserimento . . . . . . . . . . . . . . . 48
3.2 Campionamento senza reinserimento . . . . . . . . . . . . . . 52
3.3 Campionamento sistematico . . . . . . . . . . . . . . . . . . . 54
3.4 Varianza e covarianza di somme pesate di variabili aleatorie . 55
3.4.1 Definizione della varianza e della covarianza . . . . . . 56
3.4.2 Tecnica di calcolo (difficoltà pari alla battaglia navale) 57
3.4.3 Varianza di una somma di variabili aleatorie . . . . . . 61
3.5 Campionamento casuale semplice . . . . . . . . . . . . . . . . 63
3.5.1 Valore atteso e varianza della media campionaria . . . 64
3.5.1.1 Campionamento con reinserimento . . . . . . 65
3.5.1.2 Campionamento senza reinserimento . . . . . 66
1
3.5.1.3 Campionamento sistematico . . . . . . . . . . 72
3.6 Campionamento stratificato . . . . . . . . . . . . . . . . . . . 74
3.6.1 Correttezza di X str,n . . . . . . . . . . . . . . . . . . . 79
3.6.2 Varianza di X str,n . . . . . . . . . . . . . . . . . . . . . 79
3.6.3 Effetto della stratificazione sulla precisione della stima
di µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.7 Stima della varianza σ 2 della popolazione . . . . . . . . . . . . 83
3.8 Intervallo di confidenza per µ . . . . . . . . . . . . . . . . . . 85
3.8.1 Legge dei grandi numeri . . . . . . . . . . . . . . . . . 85
3.8.2 Uguaglianza e convergenza in distribuzione . . . . . . . 88
3.8.3 Teorema del Limite Centrale . . . . . . . . . . . . . . . 89
3.8.4 Costruzione dell’intervallo di confidenza . . . . . . . . 91
3.8.5 Ampiezza dell’intervallo di confidenza . . . . . . . . . . 94
2
6 Test 172
6.1 Test sulla media con X non Normale . . . . . . . . . . . . . . 172
6.2 Test di Student o t-test . . . . . . . . . . . . . . . . . . . . . . 173
6.2.1 Distribuzione χ2m . . . . . . . . . . . . . . . . . . . . . 175
6.2.2 Distribuzione di Student o distribuzione-t . . . . . . . . 175
6.2.3 Distribuzione della statistica del t-test . . . . . . . . . 177
6.3 Altri test comuni . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.3.1 Test su due campioni: uguaglianza di due medie . . . . 178
6.3.1.1 Caso 1: Omoschedasticità delle due popolazioni179
6.3.1.2 Caso 2: Eteroschedasticità delle due popola-
zioni . . . . . . . . . . . . . . . . . . . . . . . 181
6.3.2 Test per la dispersione su singolo campione . . . . . . . 182
6.3.3 Test per la dispersione su due campioni (F -Test) . . . 184
6.3.4 Test di conformità . . . . . . . . . . . . . . . . . . . . 185
6.3.5 Test d’indipendenza . . . . . . . . . . . . . . . . . . . 187
3
Capitolo 1
Introduzione
1.1 Ricapitolazione
Nel corso introduttivo di Statistica 1 sono stati trattati i concetti fondamen-
tali dell’analisi statistica e della teoria della probabilità. In particolare avete
visto
Capitolo 1: introduzione
1. Popolazione di riferimento di un’analisi statistica.
2. Il campione.
Capitolo 2: elementi di statistica descrittiva
1. Le distribuzioni di frequenze (assolute o relative), istogrammi.
Capitolo 3: misure empiriche di centralità e variabilità
1. Indicatori di centralità (moda, media e mediana) e variabilità (range,
intervallo interquartile, deviazione standard). Regole di sommatoria e
relativa notazione.
n
X 1 X
x, xi , 2
s = (xi − x)2
i pari
n − 1 i=1
P (A) + P (Ac ) = 1.
4
Capitolo 5: Elementi di Probabilità II
3. Probabilità condizionata
P (A ∩ B)
P (B | A) = .
P (A)
P (A ∪ B) = P (A) + P (B) .
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .
9. Teorema di Bayes
P (B | A) P (A)
P (A | B) = .
P (B)
5
2. Valore atteso e varianza di una variabile V.A. discreta X:
n
X
µ = xi p(xi )
i=1
Xn
σ2 = (xi − µ)2 p(xi )
i=1
3. Regole di calcolo:
µX+bY = µX + bµY
2
σa+bX = b2 σ X
2
2
σX = µX 2 + (µX )2
6
2. Trasformazioni di variabili distribuite in modo normale.
7
1.2 Fondamenti di probabilità
Nella prima parte del corso (Statistica 1) sono stati trattati elementi di sta-
tistica descrittiva che hanno in seguito permesso di affrontare i temi propri
della teoria della probabilità quali ad esempio
• Lo spazio campionario
• La funzione di probabilità
• Le variabili aleatorie di cui avete visto
– la funzione di ripartizione
– la funzione di densità
– alcuni momenti teorici (valore atteso, varianza)
In questa sezione desideriamo rivedere alcuni concetti e definizioni ritenuti
fondamentali per la comprensione dei prossimi capitoli. Il primo tema che
vogliamo affrontare riguarda il concetto di esperimento aleatorio 1 .
8
lo spazio campionario è discreto e finito (cioè Ω contiene un numero finito di
esiti) e gli esiti sono equiprobabili avete imparato a calcolare la probabilità
di un evento E tramite la formula
# esiti in E # esiti favorevoli
P (E) = = . (1.1)
# esiti in Ω # esiti totali
Osservazioni:
9
Esempio 1.3. Lancio di un dado. Lo spazio campionario è Ω = {1, 2, 3, 4, 5, 6}.
I seguenti insiemi sono tutti esempi validi di insieme degli eventi
1. E = {Ω, ∅}.
4. E = {Ω, ∅, {1, 2, 3}, {4, 5}, {6}, {4, 5, 6}, {1, 2, 3, 6}, {1, 2, 3, 4, 5}}.
I seguenti insiemi non sono esempi validi di insiemi degli eventi (perché?):
3. E = {Ω, ∅, {1}, {1, 2}, {1, 2, 3}, {1, 2, 3, 4}, {1, 2, 3, 4, 5}}.
𝜴 E
E
2 ...
3
E
1 E 1
5 E 2
6 E 3
4
...
10
Il terzo ed ultimo oggetto fondamentale che vogliamo discutere è la legge di
probabilità P per la quale utilizziamo la seguente definizione.
2. P (Ω) = 1.
• Ω = {1, 2, 3, 4, 5, 6}.
# esiti in E
P (E) = .
6
• Ω = {1, 2, 3, 4, 5, 6}.
11
Anche gli eventi rimangono immutati. Come in precedenza varrà che
• E è l’insieme che contiene i 26 = 64 possibili sottoinsiemi (eventi) di Ω.
La legge di probabilità di questo esperimento aleatorio, notata P̃ , è diversa
dalla precedente. Infatti, mentre in precedenza un qualsiasi evento elementa-
re quale ad esempio E = {1} aveva probabilità uguale a 16 , ora a causa della
“manomissione” del dado i sei eventi elementari Ei = {i}, i = 1, . . . , 6 avranno
probabilità p̃i delle quali almeno due saranno diverse da 61 . Dato un qualsiasi
evento E di E, la sua probabilità sarà calcolata come la somma delle proba-
bilità dei singoli esiti in esso contenuti. Per capire ciò, prendiamo l’evento
E = {osservo un numero pari} = {2, 4, 6}. Notiamo che E = E2 ∪ E4 ∪ E6 ,
ovvero che i tre eventi elementari sono disgiunti. Quindi per la proprietà 3
di una legge di probabilità avremo che
12
La funzione di ripartizione F (x) è dunque la probabilità dell’evento E =
(−∞, x] di osservare un esito inferiore o al massimo uguale al valore x.
1.0 ●
Ω={0.2,0.4,0.6,0.8,1}
0.8 ●
0.6 ●
F(x)
0.4 ●
0.2 ●
0.0
13
1.0
Ω=[0,1]
0.8
0.6
F(x)
0.4
0.2
0.0
F 0 (x) = f (x).
14
Frequenze relative
0.60
0.55 ●
0.50
●
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
Donne Uomini
Frequenze relative
0.30
0.25
●
0.20
0.15
● ● ●
0.10
●
● ●
0.05
● ● ●
0.00
36 37 38 39 40 41 42 43 44 45 46
15
1.0 ●
●
0.8 ●
0.6
●
F(x)
●
0.4
●
●
0.2
0.0
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
16
funzione di ripartizione racchiude l’informazione disponibile sulla popolazio-
ne; confronta Definizione 1.6. Nel caso della funzione di ripartizione di una
popolazione obiettivo non si parla di probabilità ma di frequenze relative in
quanto non c’è nulla di aleatorio nella popolazione. La popolazione esiste e
l’attributo è osservabile. F descrive come l’attributo in esame è distribuito al-
l’interno della popolazione. La conoscenza di F è equivalente all’osservazione
dell’attributo su tutta la popolazione obiettivo.
17
0.4
1 (x − µ)2
f(x) = exp −
σ 2π 2 σ2 ← µ = 1.5
← σ2 = 1
0.3
f(x)
0.2
µ=0→
σ2 = 4 →
0.1
0.0
−4 −3 −2 −1 0 1 2 3 4 5
parametri µ e σ 2 . Per ogni possibile valore dei parametri si ottiene una di-
versa distribuzione della famiglia Normale. Si è soliti indicare col termine
famiglia parametrica Normale l’insieme di tutte le distribuzioni che si posso-
no ottenere facendo variare i due parametri µ e σ 2 . In generale si parlerà di
famiglia parametrica di distribuzioni per indicare un preciso insieme di di-
stribuzioni la cui funzione di probabilità, funzione di ripartizione o funzione
di densità è identica a meno di un numero finito di parametri. I parametri
assumono valori in R o in sottoinsiemi di R. Nel caso della famiglia parame-
trica Normale µ ∈ R mentre σ 2 > 0. L’insieme dei valori che i parametri di
una famiglia parametrica di distribuzioni possono assumere è chiamato spa-
zio parametrico ed è indicato con il simbolo Θ. Per la famiglia parametrica
Normale Θ = R × R+ . Riportiamo alcuni esempi di famiglie parametriche
di distribuzioni discrete e continue. Nella loro definizione appare la funzione
indicatrice IA (x), dove A rappresenta un sottoinsieme di R.
18
Prendendo quale esempio la distribuzione discreta uniforme, l’insieme A cor-
risponde all’insieme dei numeri interi compresi da 1 a n, ovvero {1, . . . , n}.
Se n = 5 avremo che I{1,...,5} (20)= 0, I{1,...,5} (2.6)= 0, I{1,...,5} (4)=1.
Uniforme Bernoulli
1
f (x) = I
n {1,...,n}
(x) px (1 − p)1−x I{0,1} (x)
bxc
F (x) = min( n , 1)I[1,∞) (x) (1 − p)I[0,∞) (x) + pI[1,∞) (x)
Spazio parametrico Θ n = 1, 2, . . . 0≤p≤1
n+1
Valore atteso 2
p
n2 −1
Varianza 12
p(1 − p)
Binomiale Binomiale
negativa
n r+x−1
f (x) = px (1 − p)n−x I{0,...,n} (x) pr (1 − p)x I{0,1,...} (x)
x x
bxc
P bxc
P
F (x) = f (i) f (i)
i=0 i=0
Spazio parametrico Θ 0 ≤ p ≤ 1 ; n = 1, 2, . . . 0 < p ≤ 1 ; r = 1, 2, . . .
r(1−p)
Valore atteso np p
r(1−p)
Varianza np(1 − p) p2
Geometrica
Ipergeometrica
K M − K
x x n−x
f (x) = p(1 − p) I{0,...,n} (x) I{0,1,...,n} (x)
M
n
bxc
1 − (1 − p)bx+1c I[0,∞) (x)
P
F (x) = f (i)
i=0
Spazio parametrico Θ 0<p≤1 M = 1, 2, . . . ; K = 0, . . . , M ; n = 1, 2, . . .
1−p K
Valore atteso p
nM
1−p K M −K M −n
Varianza p2
nM M M −1
Uniforme Normale
2
f (x) = 1
I (x) √ 1 exp(− 1 x−µ )
b−a [a,b] 2πσ R 2 σ
x−a x
F (x) = min( b−a , 1)I[a,∞) (x) −∞
f (u)du
Spazio parametrico Θ −∞ < a < b < ∞ −∞ < µ < ∞ ; σ > 0
Valore atteso (a + b)/2 µ
Varianza (b − a)2 /12 σ2
19
Logistica Pareto
θ
f (x) = f (x) = xθk
θ+1 I(k,∞) (x)
Le famiglie appena presentate sono solo alcune delle numerose famiglie pa-
rametriche di distribuzioni. Come potete verificare voi stessi il numero di
parametri e la loro interpretazione varia da famiglia a famiglia.
• Verifica d’ipotesi
A causa dell’informazione incompleta e alla natura aleatoria di molti
fenomeni studiati in economia e nelle scienze sociali tali conclusioni
non saranno vere in assoluto. Tuttavia, se lo studio è stato condotto
seguendo certi principi, il grado di incertezza potrà essere quantificato.
La verifica d’ipotesi tramite dei test statistici e la construzione di inter-
valli di confidenza relativi ai parametri stimati permettono di misurare
l’attendibilità dei risultati.
20
o al fatto che il prodotto non sia sufficientemente conosciuto. La dirigenza
dell’azienda decide di quantificare il grado di visibilità tramite la percentuale
p di consumatori che conoscono (ma non necessariamente acquistano o hanno
acquistato in passato) il prodotto in questione. Essa valuta il livello attuale
di p secondo la seguente tabella
0 ≤ p ≤ 1.
La teoria della stima consente di effettuare due tipi di stime: una stima
puntuale di p ed una stima per intervallo. La stima puntuale di p, notata
semplicemente pb, fornisce quella che noi riteniamo essere la migliore appros-
simazione al valore sconosciuto p. Poiché il calcolo è effettuato sulla base
di un campione di consumatori e non sull’intera popolazione (l’informazione
è incompleta), il valore di pb sarà molto probabilmente diverso da p. Si è
dunque confrontati con un errore di stima.
21
chiamata livello di confidenza. Il livello di confidenza corrisponde alla proba-
bilità ex-ante che l’intervallo costruito sulla base delle osservazioni disponibili
contenga p. Un esempio di intervallo di confidenza potrebbe essere:
[0.2, 0.4].
0 ≤ pnew ≤ 1.
22
La stima puntuale di pnew , notata pbnew risulta essere del 34%, un valore di
poco superiore al precedente 29% calcolato prima della campagna pubblici-
taria. Claudio è felice. Il suo capo gli fa però notare che l’esiguo aumento del
5% rispetto alla precedente stima potrebbe essere semplicemente dovuto al
caso. Claudio vi chiede allora di quantificare sulla base dei dati a disposizione
il livello di evidenza per cui l’ipotesi p = pnew (licenzio Claudio) possa essere
rigettata. È compito della verifica d’ipotesi fornire una risposta a questa
domanda.
1.6 Domande
Domanda 1.1. Cosa rappresenta il simbolo Ω? Esplicitate il suo contenuto
facendo un nuovo esempio non visto in classe.
Domanda 1.2. Che relazione sussiste tra Ω, E e E?
Domanda 1.3. Quali sono i tre elementi fondamentali che costituiscono un
esperimento aleatorio?
Domanda 1.4. Costruite un esperimento aleatorio per cui Ω * R (Ω non è
l’insieme dei numeri reali o un suo qualsiasi sottoinsieme).
Domanda 1.5. Cos’è la funzione di ripartizione? Dato un qualsiasi esperi-
mento aleatorio (Ω, E, P ) è sempre possibile definire la funzione di ripartizio-
ne della legge di probabilità P ? Se non fosse sempre possibile costruite un
semplice esempio di esperimento aleatorio per cui non è possibile definire la
funzione di ripartizione.
6
Per la precisione la distribuzione Normale assegna probabilità positive all’evento di
produrre una quantità negativa di mele. Tuttavia tale probabilità è trascurabile per
appropriati valori di µ e σ 2 .
23
Domanda 1.6. Che differenza c’è tra P ed F ?
Domanda 1.7. Che differenza c’è tra la funzione di probabilità e la funzione
di densità?
Domanda 1.8. Cos’è una famiglia parametrica di distribuzioni? Cosa rap-
presenta Θ?
Domanda 1.9. Per due famiglie parametriche di distribuzioni discrete e due
famiglie parametriche di distribuzioni continue a scelta indicate
1. il numero di parametri
3. lo spazio parametrico
24
Capitolo 2
Induzione statistica
2.1 Introduzione
Il processo di apprendimento e di creazione di nuova conoscenza è possibile
grazie a procedimenti di carattere deduttivo e induttivo. L’acquisizione per
via deduttiva permette, partendo da premesse generali la cui validità è garan-
tita, di giungere a delle conclusioni particolari. Un esempio di ragionamento
deduttivo è il seguente:
• Premessa maggiore: Tutti gli uomini sono mortali
25
Per quanto riguarda il caso di una popolazione finita, avete visto nel corso
di Statistica 1 come è possibile ottenere la distribuzione di un determina-
to carattere della popolazione in termini assoluti o relativi (percentuali) a
partire dall’osservazione di ogni singolo elemento o unità della popolazione
stessa. La conoscenza della distribuzione statistica è fondamentale in quanto
essa descrive in maniera univoca e completa la caratteristica sotto esame.
Purtroppo però solo in rare occasioni l’informazione disponibile è rappresen-
tata dalla distribuzione statistica di tutta la popolazione obiettivo. Anzi è
interessante osservare come ci siano situazioni dove la numerosità stessa della
popolazione obiettivo non è conosciuta. Si pensi ad esempio ad un’analisi sul
numero di sigarette che un fumatore consuma giornalmente. Quanto vale N ,
il numero di fumatori? Non solo la distribuzione del numero giornaliero di
sigarette consumate da un fumatore è sconosciuta ma anche il numero stesso
di fumatori che in questo esempio costituiscono la popolazione obiettivo.
26
determinato punto, ma in tutti i punti dello spazio campione! È questa
un’impresa estremamente difficile. Sappiamo che F ha una caratteristica
particolare: è una funzione monotona crescente compresa tra zero e uno.
Tuttavia esiste un’infinità di funzioni del genere. Per tale motivo lo statisti-
co spesso restringe la sua ricerca ad un sottoinsieme ben preciso di funzioni
di ripartizione. Ad esempio, si potrebbe pensare di limitarsi a quelle fun-
zioni di ripartizione F che sono continue, o a quelle che posseggono una
funzione di densità f (chiamate distribuzioni assolutamente continue, vedi
Definizione 1.7)
Z x
F (x) = f (u) du con f non negativa. (2.1)
−∞
27
(caso continuo)
P = {f (·; θ) : θ ∈ Θ} .
Esempio 2.1. La distribuzione continua uniforme è caratterizzata da due pa-
rametri che notiamo con a e b e che corrispondono rispettivamente all’estremo
inferiore e superiore della funzione di densità. Formalmente questa famiglia
può essere scritta come
1 2
P = f (x; θ) = I[a,b] (x); θ = (a, b) ∈ R , con a < b .
b−a
In questo esempio a qualsiasi coppia di numeri reali (a, b) tali per cui a < b
associamo una funzione di densità definita da
1
b−a
se x ∈ [a, b]
f (x; θ) = . (2.2)
0 altrimenti
Θ = (a, b) ∈ R2 | a < b .
28
4. Scegliete nuovi valori per il/i parametro/i e col medesimo programma
confrontate i grafici delle due funzioni di densità e delle due funzioni di
ripartizione. Sia S il sottoinsieme di R definito da quei punti per cui
la funzione di densità è maggiore di 0, cioè
S = {x ∈ R | f (x) > 0} .
29
partendo da un numero limitato di osservazioni (campione) di un certo espe-
rimento aleatorio o di elementi/unità della popolazione. Da un punto di vista
formale, ripetere n volte in maniera indipendente un esperimento aleatorio
(Ω, E, P ) costituisce un nuovo tipo di esperimento a cui è dato il nome di
esperimento statistico.
Definizione 2.1. Esperimento statistico. Un esperimento statistico di am-
piezza n è costituito da un numero n di ripetizioni indipendenti dello stesso
esperimento aleatorio (Ω, E, P ).
30
6 ●
(1,6)
●
(2,6)
●
(3,6)
●
(4,6)
●
(5,6)
●
(6,6)
5 ●
(1,5)
●
(2,5)
●
(3,5)
●
(4,5)
●
(5,5)
●
(6,5)
4 ●
(1,4)
●
(2,4)
●
(3,4)
●
(4,4)
●
(5,4)
●
(6,4)
Ω2
3 ●
(1,3)
●
(2,3)
●
(3,3)
●
(4,3)
●
(5,3)
●
(6,3)
2 ●
(1,2)
●
(2,2)
●
(3,2)
●
(4,2)
●
(5,2)
●
(6,2)
1 ●
(1,1)
●
(2,1)
●
(3,1)
●
(4,1)
●
(5,1)
●
(6,1)
1 2 3 4 5 6
Ω1
31
6 ●
(1,6)
●
(2,6)
●
(3,6)
●
(4,6) (5,6)
● ●
(6,6)
6 ●
(1,6)
●
(2,6)
●
(3,6)
●
(4,6)
●
(5,6)
●
(6,6)
5 ●
(1,5)
●
(2,5)
●
(3,5)
●
(4,5) (5,5)
● ●
(6,5)
5 ●
(1,5)
●
(2,5)
●
(3,5)
●
(4,5)
●
(5,5)
●
(6,5)
4 ●
(1,4)
●
(2,4)
●
(3,4)
●
(4,4) (5,4)
● ●
(6,4)
4 ●
(1,4)
●
(2,4)
●
(3,4)
●
(4,4)
●
(5,4)
●
(6,4)
Ω2
Ω2
E1 × E2
3 ●
(1,3)
●
(2,3)
●
(3,3)
●
(4,3) (5,3)
● ●
(6,3)
3 ●
(1,3)
●
(2,3)
●
(3,3)
●
(4,3)
●
(5,3)
●
(6,3)
E2
2 ●
(1,2)
●
(2,2)
●
(3,2)
●
(4,2) (5,2)
● ●
(6,2)
2 ●
(1,2)
●
(2,2)
●
(3,2)
●
(4,2)
●
(5,2)
●
(6,2)
E1
1 ●
(1,1)
●
(2,1)
●
(3,1)
●
(4,1) (5,1)
● ●
(6,1)
1 ●
(1,1)
●
(2,1)
●
(3,1)
●
(4,1)
●
(5,1)
●
(6,1)
1 2 3 4 5 6 1 2 3 4 5 6
Ω1 Ω1
E1 × E2 × . . . × En
32
n
appartenente a ⊗ Ei che la sua probabilità è uguale a
i=1
E1 × E2 × E3
dove
33
Le singole probabilità possono essere calcolate individualmente tramite l’in-
tegrale della funzione di densità, ad esempio
Z ∞
P (E1 ) = λe−λx dx.
3
g −1 (E 0 ) = {ω ∈ Ω | g(ω) ∈ E 0 }.
34
1 1
35
Costi traversata
160
150
140
130
120
110
100
90
Lasciamo ai matematici lo studio delle condizioni rispetto alle quali una fun-
zione X è una variabile aleatoria. Per noi questa condizione sarà sempre
soddisfatta. Ci domandiamo piuttosto perché una variabile aleatoria deb-
ba soddisfare una simile condizione di misurabilità. Il motivo è dato dalla
necessità di assegnare una probabilità agli eventi E 0 di R.
36
1 1
37
4 X(6) ●
3 ● X(5)
2 ● X(4)
X(ω)
1 ● X(3)
0 ● X(2)
−1 ● X(1)
1 2 3 4 5 6
38
in ω. Vale dunque
PX ({0}) = P (X = 0) = P ({ω1 }) .
PX (E 0 ) = P (X −1 (E 0 )) = P ({ω2 , ω3 , ω4 , ω5 , ω6 , ω7 }).
39
Se la legge di probabilità PX appartiene ad una famiglia parametrica di
distribuzioni con funzione di densità f (·; θ), varrà per lo stesso discorso fatto
in precedenza che la distribuzione QX1 ,...,Xn apparterrà alla famiglia
( n
)
Y
P = f (x1 , . . . , xn ; θ) = f (xi ; θ) : θ ∈ Θ .
i=1
2.6 Campione
Definizione 2.6. Campione. Chiamiamo campione un particolare sottoinsie-
me di numerosità n della popolazione obiettivo utilizzato ai fini dell’inferenza.
Nel caso di un esperimento statistico con campione intendiamo l’osservazio-
ne di un n-campione inteso come la realizzazione di n variabili aleatorie
indipendenti ed identicamente distribuite (i.i.d.)5 .
5
D’ora innanzi utilizzeremo l’abbreviazione i.i.d. per indicare variabili aleatorie
indipendenti ed identicamente distribuite.
40
Ci sono alcune osservazioni su cui chinarsi.
41
• una rilevazione completa è impossibile (costi troppo elevati, impossibi-
lità di raggiungere tutti gli individui)
42
si passa alla fase di stima. Lo scopo della teoria della stima è quello di
costruire delle funzioni T (X1 , . . . , Xn ) delle variabili aleatorie osservate con
cui produrre delle stime puntuali T (x1 , . . . , xn ) dei parametri6 sconosciuti θ.
Ancora una volta è fondamentale fare una netta distinzione fra il campione
X1 , . . . , Xn quale insieme ordinato di V.A. ed il campione osservato x1 , . . . , xn .
Come precedentemente osservato, la sequenza x1 , . . . , xn contiene dei numeri
e raccoglie le rispettive realizzazioni delle V.A. X1 , . . . , Xn , cioè
X −3
Z=
σ
non è una statistica in quanto la varianza σ 2 (e quindi anche σ) non è nota.
E (T (X1 , . . . , Xn )) = θ.
6
Come già accennato in precedenza, il nome assegnato ai vari parametri sconosciuti
cambia a seconda delle circostanze. Ad esempio, il valore atteso di una V.A. è generalmente
indicato con il simbolo µ. Se il parametro sconosciuto da stimare fosse la varianza si
utilizzerebbe σ 2 .
43
Esempio 2.9. Sia X1 , . . . , Xn un campione di variabili aleatorie i.i.d. (µ, σ 2 ).
La media campionaria è uno stimatore corretto di µ in quanto
n
! n
! n
1X 1 X 1X 1
E Xi = E Xi = E(Xi ) = nµ = µ.
n i=1 n i=1
n i=1 n
Anche n
2 1 X 2
S = Xi − X
n − 1 i=1
è uno stimatore corretto di σ 2 . Per contro, ammettiamo che µ sia conosciuto,
n
1 X
Se2 = (Xi − µ)2
n − 1 i=1
Esercizio 2.3. Si dimostri che lo stimatore Se2 non è uno stimatore corretto
di σ 2 .
P (Rt+1 ≤ −5%) .
7
In questo caso è naturale utilizzare l’indice t anziché l’indice i per indicare la
successione temporale di osservazioni di R.
44
Esempio 2.11. Funzione di produzione Cobb–Douglas. Definiamo la seguente
relazione
Yt := ln Qt = β1 + β2 ln Lt + β3 ln Kt + Ut (2.6)
dove
• Qt rappresenta la quantità prodotta nell’anno t di un certo bene
• Lt rappresenta le ore di lavoro utilizzate per la produzione di Qt
• Kt rappresenta la quantità di capitale (esempio impianti) utilizzato
• Ut è una variabile aleatoria, non osservabile che racchiude tutti quei fat-
tori non sistematici che non sono stati inclusi nel modello. Assumiamo:
Ut ∼ i.i.d. N (0, σ 2 ).
La famiglia parametrica P è uguale a
1
exp − 2σ1 2 (y − β1 − β2 ln lt − β3 ln kt )2
f (y; θ) = √2πσ
P= 2
.
: θ = (β1 , β2 , β3 , σ 2 ) ∈ R3 × R+
In quest’ultimo esempio la funzione di produzione Cobb–Douglas
45
(a) forma funzionale della relazione tra le variabili Q, L e K: lineare nei
logaritmi
• teoria economica
46
Capitolo 3
Campionamento
47
Un esempio di piano di campionamento deterministico è il seguente: dall’elen-
co telefonico estraggo, per ciascuna lettera dell’alfabeto, i primi 10 individui.
Se da un lato risulta evidente la sua semplicità di implementazione, il metodo
deterministico di campionamento presenta alcuni svantaggi non indifferenti.
Esso non permette di calcolare il grado di precisione con cui viene eseguita
la stima. Inoltre, la validità dei risultati ottenuti è fortemente legata alle
informazioni utilizzate a priori per la scelta del campione. Se tali informa-
zioni sono sbagliate oppure obsolete e non corrispondono più alla realtà, i
risultati della ricerca saranno distorti. Per tale motivo in questo corso trat-
teremo esclusivamente piani di campionamento basati sulla selezione casuale
delle unità (individui) della popolazione obiettivo. In particolare vedremo le
tecniche di campionamento casuale semplice, di campionamento stratificato,
di campionamento sistematico. Tutti questi tipi di campionamento si basano
su delle tecniche di selezione.
48
1 1
dove E corrisponde agli indici delle schede delle automobili di colore nero. Il
numero di esiti in E è evidentemente N1 . Come calcolato precedentemente
la probabilità di ciascun esito è N1 e quindi P (E) = NN1 = 0.45. La situazione
è rappresentata graficamente nella Figura 3.1.
La legge di probabilità PX corrisponde esattamente alla distribuzione stati-
stica Pp del colore nella popolazione obiettivo.
Se la caratteristica in esame fosse stata la cilindrata in cm3 dell’automobile
anziché il suo colore, la variabile aleatoria X avrebbe una funzione di ri-
partizione FX . La situazione è rappresentata graficamente nella Figura 3.2.
49
1 1
50
Ωn = {1, 2, . . . , N }n , le liste di lunghezza n i cui singoli elementi appartengo-
no all’insieme Ω = {1, 2, . . . , N }. Il numero di elementi di Ωn è N n . Poiché
il numero selezionato ad ogni estrazione è reinserito nell’urna, è possibile
osservare vettori in cui un numero si ripete più volte. Ad esempio, se la
popolazione contasse N = 5 elementi e n = 3 (sorteggiamo tre volte) un
possibile esito potrebbe essere ω = (2, 5, 2). Qual’è la probabilità di osserva-
re un qualsiasi esito1 ω ∈ Ωn ? Poiché le estrazioni sono indipendenti l’una
dall’altra e ad ogni estrazione la probabilità di estrarre un qualsiasi numero
è pari a 1/N vale
1
Q (ω) = n per ogni ω ∈ Ωn . (3.2)
N
n n
n
Ecco così definito lo spazio di probabilità Ω , ⊗ Ei , Q = ⊗ Pi relativo al
i=1 i=1
nostro nuovo esperimento.
Possiamo ora definire le n variabili aleatorie che notiamo con Xi , i = 1, . . . , n
tramite la procedura
1. Estraggo l’i-esimo elemento da ω, notato ω(i) ∈ {1, 2, . . . , N }.
Xi (ω) :=
2. Associo la cilindrata della ω(i)-esima automobile.
(Ω, E, P ) −→ (R, E, PX )
X
1
Ora ω denota un qualsiasi elemento di Ωn ed avrà quindi la forma
ω = (5, 12, . . . , 4)
| {z }
n numeri tra 1 e N
51
Quando la distribuzione statistica Pp della popolazione obiettivo è sconosciu-
ta possiamo pensare di stimare PX andando a selezionare da una particolare
famiglia parametrica di distribuzioni P la distribuzione che riteniamo mi-
gliore rispetto all’evidenza empirica (le n osservazioni) in nostro possesso.
È quindi possibile ricondurre il problema della stima della distribuzione Pp
della popolazione obiettivo alla definizione di esperimento statistico e di n-
campione ad esso associato. In altre parole, le n variabili aleatorie i.i.d.
X1 , . . . , Xn costruite estraendo a caso con reimmissione n unità dalla po-
polazione obiettivo costituiscono un n-campione di un esperimento aleato-
rio (R, E, PX ). Poiché la legge di probabilità PX è sconosciuta, scriveremo
(R, E, P) dove P rappresenta la famiglia parametrica a cui PX appartiene.
52
N = 5 (la numerosità della popolazione), n = 2 (il numero di estrazioni) e
l’esito ω = (2, 2). Ovviamente un tale esito ω non sarà mai osservabile in
quanto la selezione ora è senza reinserimento. In teoria potremmo escluderlo
dallo spazio campionario. Tuttavia per semplicità nella definizione del no-
stro spazio campionario lo lasciamo. L’esito ω = (2, 2) avrà semplicemente
probabilità zero. In generale, dato un numero n qualsiasi di estrazioni, tutti
gli esiti ω in cui un numero si ripete due o più volte avranno probabilità zero.
Dobbiamo ora calcolare la probabilità di un esito ω le cui componenti sono
tutte diverse fra loro. Quanti esiti del genere ci sono? Per rispondere a
questa domanda calcoliamo quante liste di lunghezza n si possono costruire
partendo da un numero N di elementi diversi. Tenendo conto dell’ordine
n
(disposizioni), ci sono DN = N !/(N −n)! modi diversi per estrarre n elementi
da un insieme di N elementi. Se l’esperimento è condotto correttamente gli
esiti con probabilità positiva saranno tutti equiprobabili. La probabilità di
osservare un esito ω a componenti tutte diverse è dunque
1 (N − n)!
Q(ω) = = .
# esiti a componenti diverse N!
La nuova legge di probabilità Q è data da
(
0 se ω contiene almeno due valori uguali
Q(ω) = (N −n)!
N!
se i valori in ω sono tutti diversi fra loro
53
mentre
k
P (X2 = “rosso” | X1 6= “rosso”) = .
N −1
Se X1 e X2 fossero indipendenti le due probabilità condizionate appena cal-
colate dovrebbero essere uguali fra loro (ovvero non dipendere dal condizio-
namento sul colore di X1 ) e uguali a P (X2 = “rosso”). Le due probabilità
condizionate sono fra loro diverse (ovvero dipendono dal condizionamento
sul colore di X1 ) e da ciò concludiamo che X1 e X2 non sono indipendenti.
Questa conclusione è generalizzabile alle n variabili aleatorie X1 , . . . , Xn co-
n
struite tramite selezione senza reinserimento. La tripla (Rn , ⊗ Ei , QX1 ,...,Xn )
i=1
è uno spazio di probabilità utile ai fini dell’inferenza statistica, ma non co-
stituisce un esperimento statistico. Le n V.A. Xi non sono i.i.d. e pertanto
non costituiscono un n-campione. In questo corso utilizzeremo il termine
n-campione di un esperimento statistico solo in referimento a osservazioni di
variabili aleatorie i.i.d..
Osservazione 3.1. Il salto che si effettua tra due unità consecutive selezio-
nate si chiama passo di campionamento. In pratica la selezione sistematica
consiste nel partizionare2 la popolazione in k sottoinsiemi di numerosità n
2
Una partizione di un insieme Ω si può definire come una collezione di sottoinsiemi di Ω
non vuoti, mutuamente disgiunti e tali che la loro unione è l’insieme Ω stesso. (Definizione
tratta da Wikipedia, Partizione (teoria degli insiemi)).
54
per poi selezionarne uno a caso. All’interno di ogni sottoinsieme la distanza
tra le unità è costante ed uguale k.
Esercizio 3.1. Costruite lo spazio di probabilità che utilizzereste per esegui-
re un campionamento sistematico. Come sono definite le variabili aleatorie
X1 , . . . , Xn ? Sono indipendenti? Quanto vale la probabilità di estrarre un
qualsiasi elemento della popolazione?
r, r + k ∗ , r + 2k ∗ , . . . , r + (n − 1)k ∗
dove, una volta esaurita la lista della popolazione (che terrmina all’uni-
tà N -esima) senza aver ancora estratto tutte le n unità campionarie, si
continuerà a contare dalla prima unità (da qui il termine lista circolare).
55
i = 1, 2, 3, dove Q1 , L1 , K1 , . . . , Qn , Ln , Kn sono produzione, lavoro e capi-
tale, ad esempio, di n imprese nella medesima industria. Gli stimatori βb2
e βb3 sono quindi delle variabili aleatorie, generalmente correlate fra loro in
quanto funzioni delle stesse variabili aleatorie. Per verificare tramite un op-
portuno test d’ipotesi la validità dell’ipotesi di rendimenti di scala costanti
procederemo come segue:
1. sostituiremo i parametri sconosciuti β2 e β3 nella (3.4) con i rispettivi
valori stimati, βb2 e βb3 .
2. Calcoleremo la differenza (o scarto) tra il valore osservato βb2 + βb3 ed il
valore teorico che in questo caso è 1.
3. Se la differenza in valore assoluto risulterà essere “grande” rifiuteremo
l’ipotesi di rendimenti di scala costanti altrimenti non la rifiuteremo.
Per stabilire se la differenza βb2 + βb3 − 1 è significativa (“grande”) o non
significativa (“piccola”) sarà necessario calcolare la varianza di βb2 + βb3 che
come già sapete è pari a
V (βb2 + βb3 ) = V (βb2 ) + V (βb3 ) + 2 Cov(βb2 , βb3 ).
Poiché βb2 e βb3 risulteranno essere delle particolari somme pesate delle V.A.
Q1 , . . . , Qn e cioè
Xn Xn
β2 =
b ai Qi e β3 =
b bj Qj
i=1 j=1
dove gli ai e bj sono dei pesi deterministici (numeri), dovremo essere in grado
di calcolare espressioni del tipo
n
X n
X
Cov(βb2 , βb3 ) = Cov( ai Qi , bj Qj ).
i=1 j=1
56
Quale formula alternativa vale anche
Z
2
2
x2 fx (x) dx − (µX )2 .
V (X) = E X − (µX ) = (3.6)
R
4
Ricordiamo che nel caso di variabili aleatorie continue la funzione di densità non indica
la probabilità di un esito.
57
dove X1 , . . . , Xn e Y1 , . . . , Ym sono delle V.A. tali per cui Cov(Xi , Yj ) = cij .
Il coefficiente cij rappresenta la covarianza (un numero quindi) fra le variabili
aleatorie Xi e Yj . Sottolineamo nuovamente che la variabile aleatoria X è
semplicemente una somma pesata (si dice anche combinazione lineare) delle
variabili aleatorie X1 , . . . , Xn . I pesi di tale somma sono i coefficienti ai e
sono dei numeri.
Esempio 3.2. Prendiamo n = 3, m = 2 ed i seguenti valori degli ai e bj :
Indice i: a1 = 2 a2 = −3 a3 = 1
Indice j: b1 = 1 b2 = −2
Abbiamo dunque
X = 2X1 − 3X2 + X3
Y = Y1 − 2Y2 .
L’operatore valore atteso, notato E, che associa ad una V.A. X il suo valore
atteso
XN Z ∞
E(X) = xk p(xk ) oppure E(X) = xf (x)dx
k=1 −∞
58
Dalla proprietà di linearità del valore atteso segue in maniera immediata che
Xn n
X
E( ai X i ) = ai E(Xi ). (3.12)
i=1 i=1
Per descrivere la (3.12) possiamo dire che il valore atteso di una somma
pesata è uguale alla somma pesata dei valori attesi.
Riprendiamo l’Esempio 3.2. Supponiamo che i valori attesi di X1 , X2 e X3
siano rispettivamente uguali a 1, −2, 3. Il valore atteso di X sarà pertanto
uguale a
E (X) = E(2X1 − 3X2 + X3 )
= 2E(X1 ) − 3E(X2 ) + E(X3 )
= 2 + 6 + 3 = 11.
Torniamo ora al calcolo della covarianza fra somme pesate di V.A.. Questo
calcolo risulta estremamente semplice se si considera che la covarianza è una
funzione (operatore) bilineare. Cosa significa bilineare? La spiegazione è
semplice.
Innanzi tutto osserviamo che la funzione di covarianza ha due argomenti:
quando calcoliamo la covarianza lo facciamo fra due V.A.
Cov ◦ X , ◦ Y .
1 argomento 2 argomento
Una funzione a due variabili f (x, y) è detta bilineare se, fissato il secondo
(primo) argomento risulta essere lineare nel primo (secondo). In pratica deve
valere che
1. Per qualsiasi x1 , x2 ∈ R e y ∈ R vale che
f (x1 + x2 , y) = f (x1 , y) + f (x2 , y), (3.13)
59
Esempio 3.3. La funzione f (x, y) = xy è bilineare. La dimostrazione è
lasciata come esercizio.
La covarianza è un operatore bilineare. Questo significa che essa si com-
porta in maniera simile al valore atteso quando noi “fissiamo” uno dei due
argomenti.
Ad esempio, supponiamo di voler calcolare Cov (2X1 − 3X2 + X3 , Y1 − 2Y2 ).
Partiamo considerando “fisso” il secondo argomento che in questo caso è dato
da Y1 − 2Y2 . Per semplicità chiamiamo Z = Y1 − 2Y2 l’argomento fisso.
Grazie alla bilinearità della covarianza possiamo ora sviluppare ciascuno dei
tre termini rispetto al secondo argomento, Z, che riscriviamo nuovamente in
funzione di Y1 e Y2 :
Come potete vedere il calcolo della covarianza fra somme di variabili aleatorie
è laborioso ma fondamentalmente semplice una volta capite le proprietà della
covarianza.
È possibile aiutarsi utilizzando una tabella che ricorda la battaglia navale. La
tabella consiste in n righe e m colonne, dove n è il numero di V.A. che figurano
60
nella sommatoria della X (primo argomento) e m in numero di quelle della Y
(secondo argomento). All’Esempio 3.2 possiamo associare una tabella 3 × 2
come questa:
Y1 Y2
X1 c11 c12
X2 c21 c22
X3 c31 c32
Questa tabella è anche chiamata tabella (o matrice) delle covarianze fra
X1 , X2 , X3 e Y1 , Y2 . Per il calcolo della covarianza aggiungiamo dappri-
ma i coefficienti della somma pesata (combinazione lineare) davanti ad ogni
variabile
1Y1 −2Y2
2X1 c11 c12
−3X2 c21 c22
1X3 c31 c32
ed in seguito all’interno della tabella:
1Y1 −2Y2
2X1 2 · 1 · c11 2 · (−2) · c12
−3X2 (−3) · 1 · c21 (−3) · (−2) · c22
1X3 1 · 1 · c31 1 · (−2) · c32
Per terminare sommiamo tutti i termini della tabella ottenendo così la cova-
rianza fra le due somme di V.A.:
Cov (2X1 − 3X2 + X3 , Y1 − 2Y2 ) = 2c11 − 4c12 − 3c21 + 6c22 + c31 − 2c32 .
V (2X1 − 3X2 + X3 )
si calcola in maniera del tutto simile alla covarianza fra somme di V.A.. È
infatti immediato verificare che per una qualsiasi V.A. X
61
La varianza di una somma pesata di V.A. altro non è che la somma de-
bitamente pesata di varianze e covarianze delle V.A. che costituiscono la
trasformazione lineare.
Esempio 3.4. Varianza di 2X1 − 3X2 + X3 .
Costruiamo la tabella delle covarianze fra X1 , X2 , X3 e X1 , X2 , X3 :
X1 X2 X3
X1 c11 c12 c13
X2 c21 c22 c23
X3 c31 c32 c33
Notiamo dapprima che la tabella delle covarianze ha in questo caso lo stesso
numero di righe e di colonne. Inoltre, sulla diagonale principale (cioè in
posizione (1, 1), (2, 2) e (3, 3)) abbiamo i termini cii che corrispondono a
Cov(Xi , Xi ) = V (Xi ). Queste covarianze altro non sono che le varianze degli
Xi . Per tale motivo questa tabella è chiamata la tabella (o matrice) delle
varianze-covarianze delle V.A. X1 , X2 , X3 .
Fuori dalla diagonale troviamo le covarianze fra Xi e Xj , con i 6= j. Poiché
(verificatelo dalla definizione e dalla proprietà commutativa della moltipli-
cazione) Cov(Xi , Xj ) = Cov(Xj , Xi ) la tabella delle varianze-covarianze è
simmetrica, cioè vale
cij = cji .
Per il calcolo della varianza di 2X1 − 3X2 + X3 procediamo come per il cal-
colo della covarianza fra somme di V.A., andando ad aggiungere alla tabella
(matrice) delle varianze-covarianze i coefficienti della trasformazione lineare
(somma pesata)
2X1 −3X2 1X3
2X1 22 · c11 2 · (−3) · c12 2 · 1 · c13
−3X2 (−3) · 2 · c21 (−3)2 · c22 (−3) · 1 · c23
1X3 1 · 2 · c31 1 · (−3) · c32 12 · c33
Le varianze sono moltiplicate per il quadrato del coefficiente della trasfor-
mazione lineare. Fuori dalla diagonale troviamo le covarianze fra le rispet-
tive V.A. moltiplicate per i pesi corrispondenti. La varianza di questa tra-
sformazione lineare è uguale alla somma di tutti gli elementi della tabella,
ovvero
V (2X1 − 3X2 + X3 ) = 4c11 + 9c22 + c33 (3.17)
−6c12 + 2c13
−6c21 − 3c23
+2c13 − 3c32 .
62
Infine, grazie alla simmetria della matrice delle varianze-covarianze (cij = cji )
la (3.17) può essere riscritta come
Cov(Xi , Xj ) = 0 per i 6= j
In pratica, nel caso di V.A. non correlate, la varianza di una somma è la som-
ma delle varianze pesate per il quadrato dei coefficienti della combinazione
lineare. Ricordiamo che la varianza è il valore atteso del quadrato degli scarti
e per tale motivo i coefficienti sono al quadrato.
63
Esercizio 3.2. Mostrate che entrambe le tecniche di campionamento con e
senza reinserimento soddisfano la condizione imposta dalla definizione di
campione casuale semplice.
Suggerimento: per quanto riguarda la selezione senza reinserimento, aiutatevi
utilizzando la proprietà condizionata.
È dunque possibile ottenere un campione casuale semplice applicando una
delle due tecniche di selezione casuale con o senza reinserimento viste in
precedenza.
Il campionamento casuale semplice è raramente applicato nel-
le indagini statistiche, sia perché la selezione è completamente
affidata al caso e non incorpora le informazione note a priori sul-
la popolazione o sulle caratteristiche distributive delle variabili,
sia perché nelle indagini su vasta scala è pesante quanto a costi
di relevazione dei dati e a organizzazione del lavoro “sul campo”.
Il campionamento casuale semplice è invece quello che si assu-
me nella teoria dell’inferenza statistica quando non è precisato il
disegno adottato. Per questo tipo di campionamento sono, infat-
ti proposte metodiche di stima e di verifica della significatività
statistica di ipotesi sui più disparati parametri delle distribuzio-
ni, anche multivariate, di indici di relazione tra variabili, di dati
organizzati in serie temporali ecc. (Fabbris, pp. 53–54).
Il campionamento casuale semplice è lo standard verso il quale confrontare gli
altri tipi di campionamento. Per tale motivo sarà quello da noi maggiormente
trattato.
64
La popolazione è costituita da N unità. Denotiamo con aj il valore della
caratteristica della j-esima unità. Ad esempio, se decidessimo di studiare
la distribuzione del reddito della popolazione svizzera, aj rappresentereb-
be il reddito dello j-esimo individuo. Un parametro sconosciuto al quale
potremmo essere interessati potrebbe essere il valore medio della popolazione
K N
X X 1
µ= xk p k = aj
k=1 j=1
N
65
e
N
X 1
V (Xi ) = E((Xi − µ)2 ) = (aj − µ)2 = σ2.
j=1
N
1
Pn
Per la media campionaria X n = n i=1 Xi avremo quindi
n n
1X 1X
E(X n ) = E( Xi ) = E(Xi ) = µ
n i=1 n i=1
n n
1X 1 X
V (X n ) = V ( Xi ) = 2 V ( Xi )
n i=1 n i=1
n
1 X σ2
= V (X i ) = . (3.22)
n2 i=1 n
66
sensato togliere dall’urna le unità già osservate e procedere solo con la parte
restante della popolazione. Vedremo che tale intuizione è corretta. La media
di un campione estratto con la tecnica di selezione senza reinserimento ha
una varianza inferiore alla media di un campione estratto con reinserimento6 .
Come in precedenza abbiamo che
n
1X
Xn = Xi . (3.23)
n i=1
4. Mostrate che in ωa vale X1 =a1 U11 +a2 U12 +a3 U13 +a5 U15 .
5. Mostrate che in ωb non vale X1 =a1 U11 +a2 U12 +a3 U13 +a5 U15 .
6
Il prezzo da pagare consiste in una maggiore difficoltà nel calcolo di V (X n ).
67
Possiamo riassumere il tutto nella seguente tabella
Questa tabella possiede più colonne che righe poiché n ≤ N (non si possono
estrare più di N individui). Le N variabili aleatorie Tj sono la somma rispetto
al numero di estrazioni (indice i) delle variabili Uij . In pratica, Tj assumerà il
valore 1 o 0 a seconda che lo j-esimo individuo sia stato sorteggiato o meno.
Inserendo la (3.24) nella (3.23) possiamo riscrivere la media campionaria
come una somma pesata delle V.A. Tj :
n n N N n
1X 1 XX 1 XX
Xn = Xi = aj Uij = aj Uij
n i=1 n i=1 j=1 n j=1 i=1
N n N
1X X 1X
= aj Uij = aj Tj . (3.25)
n j=1 i=1 n j=1
# esiti favorevoli
P (Tj = 1) = . (3.26)
# esiti possibili
Il numero di esiti possibili è già stato calcolato nella Sezione 3.2 ed è
n N!
DN = .
(N − n)!
68
Per l’individuo j, il numero degli esiti favorevoli è uguale al numero di esiti ω
che hanno probabilità positiva7 e che contengono il numero j. Tale numero
è la risposta alla seguente domanda: in quanti modo posso disporre gli N
individui 1, . . . , N in n scatole, sapendo che una scatola sarà occupata dal-
l’individuo j? Abbiamo n possibilità per disporre il numero j nelle n scatole
e successivamente resteranno n−1 scatole libere che dovranno essere riempite
scegliendo da N − 1 elementi. Il risultato è dunque
n−1 n (N − 1)! n (N − 1)!
n DN −1 = = .
(N − 1 − (n − 1))! (N − n)!
Otteniamo così
n (N −1)!
(N −1−(n−1))! n
P (Tj = 1) = N!
= . (3.27)
(N −n)!
N
Per quanto riguarda la varianza di Tj , essa è uguale a
n n 2 n(N − n)
V (Tj ) = E(Tj2 ) − (E(Tj ))2 = − = .
N N N2
La covarianza fra Tj e Tk è invece uguale a
Cov(Tj , Tk ) = E(Tj Tk ) − E(Tj )E(Tk ) (3.28)
n 2
= E(Tj Tk ) − .
N
Quanto vale E(Tj Tk )? Il prodotto Tj Tk è sempre uguale a 0 salvo quando
entrambi gli individui j e k figurano nel campione. In tal caso Tj Tk = 1.
Quindi
E(Tj Tk ) = 0 · P (Tj = 0, Tk = 0) + 0 · P (Tj = 1, Tk = 0)
+ 0 · P (Tj = 0, Tk = 1) + 1 · P (Tj = 1, Tk = 1)
= P (Tj = 1, Tk = 1)
Per calcolare P (Tj = 1, Tk = 1) utilizziamo nuovamente la combinatoria:
1. Esiti favorevoli
Degli n posti 2 sono occupati: uno dall’ individuo j e l’altro dall’indivi-
duo k. Abbiamo n(n − 1) modi per disporre i nostri due individui nelle
n scatole. Rimangono n − 2 posti liberi che possono essere riempiti
dagli altri N − 2 individui. Abbiamo quindi
n−2
# esiti favorevoli = n(n − 1)DN −2 .
7
Ricordiamo che gli elementi ω di Ωn in cui un numero appare due o più volte non
sono esiti possibili (ovvero non fanno parte del denominatore nella (3.26)) in un’estrazione
senza reinserimento.
69
n N!
2. Esiti possibili (calcolati in precedenza) uguali a DN = (N −n)!
.
Abbiamo quindi
(N −2)!
n(n − 1) (N −2−(n−2))! n(n − 1)
P (Tj = 1, Tk = 1) = N!
= .
(N −n)!
N (N − 1)
Inserendo quest’ultimo risultato nella (3.28) otteniamo
n(n − 1) n 2 n(N − n)
Cov(Tj , Tk ) = − =− 2 .
N (N − 1) N N (N − 1)
N N
1X 1X
E(X n ) = E( aj Tj ) = aj E(Tj )
n j=1 n j=1
N N
1X n 1 X
= aj = aj = µ.
n j=1 N N j=1
70
Varianza di X n (campionamento senza reinserimento)
Dalla (3.25) otteniamo che
N N
1X 1 X
V (X n ) = V ( aj Tj ) = 2 V ( aj Tj )
n j=1 n j=1
N N
1 XX
= aj as Cov(Tj , Ts )
n2 j=1 s=1
N N X N
1 X
2
X
= a V (Tj ) + a j a s Cov(Tj , Ts ).
n2 j=1 j j=1 s=1
j6=s
Ma N 2 1 2
P
j=1 aj N − µ è esattamente la formula alternativa della varianza della
popolazione (confronta Sezione 3.5.1.1). Per tale motivo otteniamo quale
risultato finale
N − n σ2
V (X n ) = . (3.30)
N −1 n
Possiamo ora confrontare le varianze dello stimatore X n nel caso di campio-
namento con e senza reinserimento, (3.22) e (3.30). Il campionamento senza
71
reinserimento è più efficiente, ovvero la varianza della corrispondente media
−n
campionaria è minore. Infatti la quantità N N −1
è sempre minore di uno salvo
nel caso particolare (in pratica non rilevante) in cui n = 1. Questo risultato
conferma la nostra intuizione riguardo all’utilità del non reinserire nell’urna
l’unità osservata al fine di acquisire più informazione possibile sulla popo-
lazione. In questo caso la tecnica del campionamento con reinserimento si
rivela dannosa in termini della varianza di X n .
dove aji corrisponde per definizione, nel j-esimo gruppo, alla caratteristica
della i-esima persona. Le quantità gj non sono aleatorie ma sono dei numeri
in quanto il partizionamento della popolazione in k gruppi è avvenuto in
maniera deterministica. La casualità viene introdotta definendo le variabili
72
aleatorie Tj nel modo seguente
1 lo j-esimo gruppo è selezionato
Tj = .
0 altrimenti
73
Varianza di X n (campionamento sistematico)
k k k
1 X 1 XX
V (X n ) = V( gj Tj ) = 2 gj gs Cov(Tj , Ts )
n2 j=1 n j=1 s=1
k k X k
1 X
2
X
= 2
gj V (Tj ) + gj gs Cov(Tj , Ts )
n
j=1 j=1 s=1
j6=s
k
X k k
1 1− 1 1 XX
= gj2 − 2 gj gs
n k k2
2
j=1
k j=1 s=1
j6=s
k k X
k
!
1 1 X 1 X
= gj2 − 2 gj gs .
n2 k j=1
k j=1 s=1
1
Pk
dove g = k j=1 gj è il valore medio degli gj nei k gruppi.
La varianza di X n dipenderà quindi dall’eterogeneità dei k gruppi rispetto
alla caratteristica in esame. Se ad esempio g1 contiene prevalentemente red-
diti bassi, g2 prevalentemente redditi medi e g3 prevalentemente redditi alti
avremo una varianza elevata. Se invece g1 , g2 e g3 contengono tutti redditi
bassi/medi/alti avremo che g1 ≈ g2 ≈ g3 e la varianza dello stimatore sarà
quindi più bassa.
74
numero di unità. Le seguenti motivazioni possono indurre ad effettuare una
stratificazione della popolazione:
dove
8
Per la precisione le due quantità µd e µu corrispondono ai valori attesi condizionati
rispetto all’attributo donna/uomo.
75
• πh corrisponde al peso assegnato all’h-esimo strato e sarà uguale al-
la frazione di individui (unità) appartenenti allo strato h rispetto al
numero totale di individui (unità) della popolazione
Nh
πh = . (3.32)
N
• µh è il valore medio dell’h-esimo strato, ovvero
Nh
1 X
µh = ah,j
Nh j=1
76
La numerosità del campione dell’h-esimo strato è indicato con nh . I sottocam-
pioni potranno essere di numerosità diversa. La numerosità n del campione
è semplicemente la somma delle H numerosità dei sottocampioni
H
X
n = n1 + n2 + . . . + nH = nh .
h=1
fh = c, ∀h (3.34)
nh = cNh , ∀h
H
X H
X
nh = c Nh
h=1 h=1
n = cN
n
c = .
N
Per un campione stratificato proporzionale vale dunque la relazione
Nh nh Nh
nh = n, oppure equivalentemente = = πh , ∀h. (3.35)
N n N
Fissata la numerosità del campione sulla base di vari vincoli dettati ad esem-
pio dalla limitatezza delle risorse a disposizione, il numero di unità da estrarre
dall’h-esimo strato è dato dalla (3.35). Il campione selezionato avrà in questo
caso le stesse caratteristiche della popolazione in termini di rappresentatività
di ogni strato al suo interno, (3.34).
77
Osservazione 3.2. Un campione stratificato proporzionale non è condizione
né necessaria né sufficiente per garantire la correttezza dello stimatore X str,n .
Nh
dove nella quarta uguaglianza abbiamo usato nh = N
n.
78
3.6.1 Correttezza di X str,n
Se gli stimatori X nh di µh sono tutti degli stimatori corretti, X str,n sarà
automaticamente uno stimatore corretto di µ:
H
X H
X H
X
E(X str,n ) = E( πh X nh ) = πh E(X nh ) = π h µh = µ
h=1 h=1 h=1
Nh − nh σh2 1 − fh σh2
V (X nh ) = =
Nh − 1 nh 1 − 1/Nh nh
9
Rispetto alla formula (3.30) occorre evidentemente sostituire N con Nh e n con nh .
79
Osservazione 3.5. La varianza σ 2 della popolazione non compare più nella
formula (3.36) della varianza dello stimatore X str,n .
Nh
nh = n
N
è possibile riscrivere la varianza di X str,n come
H
1−f X Nh
V (X str,n ) = πh σ2 . (3.37)
n h=1 Nh − 1 h
80
3.6.3 Effetto della stratificazione sulla precisione della
stima di µ
Abbiamo visto in precedenza che quando il campione è ottenuto tramite
campionamento casuale semplice senza reinserimento la varianza di X n è
uguale a (confronta (3.30))
N − n σ2 1−f N
V (X n ) = = σ2. (3.38)
N −1 n n N −1
Vogliamo ora confrontare questo risultato con la formula (3.37) della varianza
di X str,n di un campione stratificato proporzionale. Tuttavia, prima di pro-
cedere al confronto vero e proprio, occorre chiarire la relazione tra varianza
dell’intera popolazione e varianza di ogni singolo strato.
Teorema 3.1. Per qualsiasi popolazione stratificata vale la seguente relazione
H
X H
X
2
σ = πh σh2 + πh (µh − µ)2 (3.39)
h=1 h=1
H
!
1−f X
V (X n ) − V (X str,n ) ' σ2 − πh σh2
n h=1
H
1−f X
= πh (µh − µ)2 ≥ 0.
(3.39) n h=1
81
quella di un campione casuale semplice di uguale numerosità. Il guadagno ri-
sultante dal processo di stratificazione della popolazione, rappresentato dalla
quantità
H
1−f X
πh (µh − µ)2
n h=1
è proporzionale alla varianza dei valori medi di strato. Esso sarà nullo se
tutti i valori medi sono uguali fra loro.
82
PH PH
Il secondo termine, 2 2
h=1 Nh (µh − µ ), è uguale a h=1 Nh (µh − µ)2 . Infatti
H
X H
X
2
Nh µ2h − 2µh µ + µ2
Nh (µh − µ) =
h=1 h=1
XH H
X H
X
= Nh µ2h − 2µ Nh µh + µ2 Nh
h=1 h=1 h=1
XH H
X
Nh µ2h − 2N µ2 + N µ2 = Nh µ2h − µ2 .
=
h=1 h=1
SS
Poiché σ 2 = N
abbiamo che
H H
1 X 1 X
σ 2
= SSh + Nh (µh − µ)2
N h=1 N h=1
H H
1 X Nh X Nh
= SSh + (µh − µ)2
N h=1 Nh h=1
N
H H
X Nh SSh X Nh
= + (µh − µ)2
h=1
N Nh h=1
N
e quindi
H
X H
X
2
σ = πh σh2 + πh (µh − µ)2 .
h=1 h=1
83
dell’h-esimo strato. Ad esempio, per un campione casuale semplice estratto
senza reinserimento la varianza della media campionaria è pari a
N − n σ2
V (X n ) = .
N −1 n
N − n S2
Vb (X n ) =
N −1 n
per indicare che si tratta della stima della varianza di X n e non della sua
vera varianza V (X n ).
84
3.8 Intervallo di confidenza per µ
Quando si presenta il risultato di una stima si è soliti fornire tale risultato
sotto forma di un valore (stima puntuale) più o meno una certa quantità. Ad
esempio, se foste interessati ad organizzare il ballo dell’università potreste
stimare il numero di partecipanti a 1,000 ± 100 persone, intendendo in tal
modo che il numero di persone sarà compreso con “molta probabilità” fra le
900 e le 1,100 persone. Un secondo esempio potrebbe essere quello di una
manifestazione sportiva dove il numero esatto di partecipanti non è noto.
Gli organizzatori dovranno stimare un intervallo plausibile di partecipanti.
Sulla base di tale informazione verranno poi dimensionate le infrastrutture
necessarie allo svolgimento della manifestazione. Capita dunque spesso di
vedere delle stime in forma di intervallo. Vedremo nei successivi paragrafi
come costruire un intervallo di confidenza per µ, ovvero un intervallo dentro
il quale, con molta probabilità, è contenuto il valore µ. La varianza della
popolazione o della variabile aleatoria X di cui si desidera stimare il valore
atteso µ è, se non indicato diversamente, da considerarsi conosciuta.
Prima di studiare l’intervallo di confidenza è necessario presentare due im-
portanti argomenti della teoria asintotica: la legge dei grandi numeri ed il
teorema del limite centrale.
85
La successione delle medie X 1 , X 2 , X 3 , . . . è ancora una successione di varia-
bili aleatorie. È immediato calcolare, per fisso n, il valore atteso e la varianza
di X n :
E(X n ) = µ ,
σ2
V (X n ) = .
n
Come per la successione X1 , X2 , X3 , . . ., le V.A. X 1 , X 2 , X 3 , . . . possiedono
tutte il medesimo valore atteso. La loro varianza invece tende a diminuire al
crescere di n. Asintoticamente abbiamo che
lim V (X n ) = 0 .
n→∞
Esempio 3.7. Per meglio comprendere quanto accade, aggiungiamo alle tre
ipotesi precedenti l’ipotesi di normalità, vale a dire: X1 , X2 , X3 , . . . sono
distribuite secondo la legge Normale.
Questa ulteriore ipotesi non è necessaria per la conclusione a cui arriveremo,
ma ci permette di visualizzare la situazione. Infatti, poiché la somma pesata
di V.A. normali indipendenti è ancora una V.A. normale, possiamo eseguire
il grafico della funzione di densità degli X n , ad esempio per n = 1, 2 e 16
(confronta Figura 3.3). Scegliamo, senza perdita di generalità, µ = 1 e
σ 2 = 4.
86
0.8
1 (x − µ)2
f(x) = exp −
0.6 σ 2π 2 σ2
← σ2 = 0.5
0.4
y
← σ2 = 2
0.2
σ2 = 4 →
0.0
−2 0 2 4
µ=1
Teorema 3.2. Legge (debole) dei grandi numeri. Sia X1 , X2 , X3 , . . . una suc-
cessione di V.A. indipendenti, di valore atteso µ e di varianza σ 2 < ∞. Allora
per qualsiasi ε > 0 piccolo a piacere si avrà che
87
0.4
0.3 fXn
0.2
0.1
0.0
µ−ε µ µ+ε
FX (c) := P (X ≤ c).
88
il risultato del primo e, rispettivamente, del secondo lancio: entrambe le V.A.
hanno una distribuzione discreta uniforme U (1, 6). X e Y sono uguali in
distribuzione: X ∼ Y . Ciò non toglie che nel primo lancio potrò osservare
un cinque mentre nel secondo un tre.
Definizione 3.4. Convergenza in distribuzione. Diremo che una qualsiasi
successione X1 , X2 , X3 , . . . di V.A. converge in distribuzione verso Y se per
ogni c ∈ R con FY continua in c
2
Esempio 3.8. Riprendiamo l’Esempio (3.7) in cui X n ∼ N (µ, σn ). An-
cora una volta, grazie alla proprietà della distribuzione Normale, dopo la
standardizzazione le variabili aleatorie Yn saranno ancora tutte normali N (0, 1)
per qualsiasi valore di n = 1, 2, . . .
89
La proprietà di normalità delle V.A. Yn nell’Esempio 3.8 non è vera in genera-
le. Se la successione di V.A. X1 , X2 , . . . non è costituita da variabili normali,
la media X n non sarà distribuita secondo la legge Normale e, quindi, nem-
meno Yn . La conseguenza della non normalità delle V.A. X1 , . . . , Xn è la non
normalità di Yn , sebbene che Yn ∼ (0, 1) per ogni n = 1, 2, . . . Cosa si potrà
affermare sulla distribuzione di Yn in questo caso? Il TLC risponde a questa
domanda.
Prima di presentare la versione classica del TLC facciamo notare una parti-
colarità relativa alla standardizzazione di X n (formula (3.43)). Tramite una
serie di semplici trasformazioni algebriche è possibile riscrivere Yn come una
somma pesata di V.A. ∼ (0, 1).
e successivamente che
n
Xn − µ 1 X
Yn = q =√ εi , (3.44)
σ2 n i=1
n
Xi −µ
dove εi = σ
.
90
Osservazione 3.8. Dal Teorema del Limite Centrale e dalla (3.44) si deriva
che sotto le condizioni sopraelencate sulla sequenza di V.A. X1 , X2 , . . . , per
valori di n sufficientemente grandi la media standardizzata è distribuita come
una variabile aleatoria Normale standard. È importante notare e ricordarsi q
σ2
che nella (3.43), nel termine a destra dell’uguaglianza, il denominatore n
altro non è che la deviazione standard di X n .
P (Z ≤ c)
X −µ
qn ∼ Z.
circa
V (X n )
91
Detto a parole stiamo semplicemente calcolando la probabilità che la realizza-
zione di Z sia compresa nell’intervallo [−1.96, 1.96]. Poiché Z è una variabile
aleatoria Normale standard è immediato verificare che
da cui ricaviamo
q q
P µ − 1.96 V (X n ) ≤ X n ≤ µ + 1.96 V (X n ) = 0.95. (3.47)
92
che definiscono l’intervallo
q q
X n − 1.96 V (X n ) , X n + 1.96 V (X n ) . (3.50)
q
L’estremo sinistro di questo intervallo è dato da X n − 1.96 V (X n ). Il
q
termine 1.96 V (X n ) non è aleatorio ma è un numero. X n per contro è
una variabile aleatoria. Lo stesso ragionamento si applica all’estremo destro
dell’intervallo. Per tale motivo l’intervallo definito dalla (3.50) è chiamato
intervallo aleatorio o più comunemente intervallo di confidenza al 95%.
La (3.49) può essere riscritta in maniera simile alla (3.48) utilizzanzo la
notazione insiemistica “∈” (“appartiene”) ovvero
q q
P µ ∈ X n − 1.96 V (X n ) , X n + 1.96 V (X n ) = 0.95. (3.51)
Siamo ora pronti a dare un’interpretazione alla (3.49): con una probabilità
del 95% l’intervallo aleatorio (3.50) conterrà il valore µ. Oppure, 95 volte su
100 l’intervallo
q q
X n − 1.96 V (X n ) , X n + 1.96 V (X n )
conterrà µ.
Esiste una sottile ma importante differenza fra la (3.48) e la (3.51). Nel-
la (3.48) l’intervallo è deterministico ma sconosciuto e quindi inutilizzabile.
Nella (3.51) per contro l’intervallo è osservabile ma aleatorio ed il punto µ è
deterministico ma sconosciuto. È importante sottolineare l’equivalenza delle
due espressioni: è possibile passare dall’una all’altra tramite semplici opera-
zioni algebriche. È tuttavia la seconda espressione in termini dell’intervallo
aleatorio q q
X n − 1.96 V (X n ) , X n + 1.96 V (X n )
quella che ci fornisce uno strumento pratico per la stima del valore atte-
so µ. Infatti sulla base dei valori realizzati di X1 , . . . , Xn , notati x1 , . . . , xn ,
calcoleremo dapprima la realizzazione di X n , notata xn , ed in seguito la
realizzazione dell’intervallo aleatorio ovvero l’intervallo12
σ σ
xn − 1.96 √ , xn + 1.96 √ . (3.52)
n n
12 σ2
Sappiamo che quando le osservazioni sono i.i.d. V (X n ) = . Ricordiamo che in
n
questa sezione la varianza σ 2 è assunta nota.
93
Se µ fosse conosciuto, potremmo verificare se l’intervallo così calcolato lo con-
tiene oppure no. Tuttavia questa verifica è impossibile. Quello che sappiamo
è che nel 95% dei casi questa procedura genera un intervallo contenente µ.
94
Capitolo 4
95
Se il vero valore del parametro θ fosse conosciuto, la funzione di densità (e
quindi la distribuzione di X) sarebbe completamente specificata ed in tal caso
non sarebbe necessario ricorrere all’inferenza. Tuttavia, non essendo questo
il caso, dovremo, sulla base di un n-campione di X, stimare il valore θ.
Avremo a questo punto due possibilità: eseguire una stima puntuale di θ
oppure costruire un intervallo di confidenza per θ.
Esempio 4.1. Nel caso della stima del valore medio µ della popolazione ab-
biamo stimato il valore atteso della V.A. X sulla base del valore assunto dalla
statistica (stimatore) X n . La realizzazione di X n , notata xn , è dunque una
stima puntuale di µ.
Osservazione 4.1. In generale indicheremo con T (X1 , X2 , . . . , Xn ) la statistica
utilizzata quale stimatore puntuale di θ. Nell’Esempio 4.1 abbiamo dunque
T (X1 , X2 , . . . , Xn ) = X n .
La seconda possibilità per stimare θ è quella di costruire un intervallo di
confidenza. In tal caso avremo bisogno di due statistiche, che indicheremo
con I1 (X1 , . . . , Xn ) e I2 (X1 , . . . , Xn ), tali per cui I1 < I2 per qualsiasi realiz-
zazione di X1 , . . . , Xn . Le statistiche I1 e I2 sono gli estremi dell’intervallo
aleatorio I = [I1 (X1 , . . . , Xn ), I2 (X1 , . . . , Xn )].
Esempio 4.2. Nel Paragrafo 3.8.4, le due statistiche I1 e I2 ad un livello di con-
fidenza del 95% erano date da (ricordiamo che la varianza σ 2 era considerata
nota) p p
I1 = X n − 1.96 σ 2 /n e I2 = X n + 1.96 σ 2 /n.
Questo secondo approccio per stimare il parametro sconosciuto è chiamato
stima per intervalli.
In questo capitolo ci soffermeremo sulla stima puntuale. Per tutto il presente
capitolo, salvo indicato diversamente, assumeremo che
• X è una variabile aleatoria con funzione di densità in P, cioè esiste un
θ ∈ Θ tale per cui f (x; θ) è la (vera) densità di X;
• θ è identificato;
• θ è sconosciuto;
• X1 , . . . , Xn è un n-campione di X.
Le variabili aleatorie X1 , . . . , Xn saranno quindi indipendenti ed identica-
mente distribuite. Il nostro obiettivo consiste nel trovare delle statistiche
(funzioni di X1 , . . . , Xn e dunque a tutti gli effetti delle V.A.) da usare quali
stimatori del parametro sconosciuto θ.
96
4.1 Metodo dei momenti
In questa sezione del capitolo studieremo un metodo di stima chiamato me-
todo dei momenti. Il nome trae origine dal fatto che l’idea base su cui esso è
costruito consiste nel concetto di momento di una variabile aleatoria. Prima
di affrontare questa classe di stimatori diamo alcune definizioni.
Definizione 4.1. Momento r-esimo. Sia X una V.A. con funzione di densità f .
Il momento r-esimo di X, notato Mr , è definito come
Mr = E(X r )
ammesso che il valore atteso esista.
Quando r = 1, M1 corrisponde al valore atteso di X che indicheremo sem-
plicemente come d’abitudine con µ. M2 è il secondo momento di X che
ritroviamo ad esempio nella formula alternativa della varianza di X
V (X) = E(X 2 ) − µ2 .
Utilizzando questa nuova notazione, V (X) può dunque essere scritta come
M2 − µ2 .
Osservazione 4.2. Per una variabile aleatoria X distribuita simmetricamente2
attorno allo zero e tale per cui E (| X r |) < ∞, gli r-esimi momenti dispari
sono tutti uguali a zero.
97
Esempio 4.3. Supponiamo che la variabile aleatoria X sia distribuita secondo
la legge Normale N (0, σ 2 ) dove la varianza σ 2 della distribuzione è sconosciu-
ta. In questo caso il parametro sconosciuto θ corrisponde alla varianza σ 2 .
Consideriamo il quarto momento
Z ∞
1 x2
4
4 1
M4 = E X = x √ exp − dx . (4.2)
−∞ 2πσ 2 2 σ2
Anziché calcolare direttamente l’integrale in (4.2) definiamo la V.A. Z
X
Z= ∼ N (0, 1).
σ
Utilizzando l’integrazione per parti (si noti il suggerimento), è semplice cal-
colare il valore atteso di
Z ∞
4 4 1 1 2
E Z = z √ exp − z dz
−∞ 2π 2
Z ∞
3 1 1 2
= z z √ exp − z dz.
|{z}
−∞ v 2π 2
| {z }
u0
= ... = 3
Da cui otteniamo
X 4 1
4
E X4
3=E Z =E = 4
σ σ
e quindi 2
M4 = E X 4 = 3σ 4 = 3 σ 2 .
Come potete vedere, in questo esempio il quarto momento dipende dal valore
del parametro sconosciuto, in questo caso la varianza di X.
98
Osservazione 4.3. (Curiosità). Esiste la seguente relazione tra i momenti Mr
ed i momenti centrati Mrc
r
X
Mrc = (−1)i Cri µi Mr−i
i=0
r!
dove Cri = i!(r−i)! è il coefficiente binomiale. La dimostrazione della prece-
dente uguaglianza segue direttamente dalla linearità del valore atteso e dal
fatto che n
X
n
(a + b) = Cri ai bn−i .
i=0
99
3
M2(θ)
2
y
M1(θ)
1
0
c 1 Pn 2
Il secondo momento campionario centrato M2,n = i=1 Xi − X n è l’e-
n
2
quivalente empirico di σ , la varianza di X. È interessante osservare che lo
stimatore S 2 della varianza è derivabile da M2,n
c
tramite la semplice formula
n
S2 = Mc .
n − 1 2,n
n
Il fattore di proporzionalità tende a 1 al crescere della numerosità n
n−1
del campione.
c
Osservazione 4.4. Sia Mr,n che Mr,n sono delle statistiche (delle funzioni di
X1 , . . . , Xn che possono essere calcolate in quanto non dipendono da nessun
parametro sconosciuto) e quindi sono esse stesse delle variabili aleatorie. In
generale non è possibile ricavare analiticamente la distribuzione di queste
100
statistiche. Tuttavia, per alcuni valori di r, è possibile calcolarne il valore
atteso e/o la varianza.
P = {f (x; θ), θ ∈ Θ} .
101
• Osservando un n-campione X1 , . . . , Xn estratto dalla popolazione X di
densità f possiamo calcolare l’r-esimo momento (centrato) campionario
c
Mr,n (Mr,n ). Il limite per n → ∞ di Mr,n è uguale al corrispettivo mo-
mento della popolazione Mr (θ0 ), dove θ0 è il vero valore del parametro.
Avremo dunque che per n “sufficientemente” grande
M3 (θ) = θ + 3θ2 + θ3 .
102
Con lo stesso n-campione utilizzato in precedenza per il calcolo di M3,n po-
tremmo ora calcolare M2,n , utilizzare tale valore per risolvere la (4.9) ed
ottenere in questo modo una nuova stima θb di θ0 . Tale stima verosimilmente
sarà diversa dalla precedente in quanto i due stimatori utilizzano l’informa-
zione dell’n-campione in maniera diversa. Per fare un esempio, se trovassimo
che m2,n = 0.39, avremmo quale unica soluzione
√ ammissibile θb = 0.3 (diversa
quindi dalla soluzione precedente che era 2 − 1 = 0.4142). In questo caso
diremo che θb = 0.3 è la stima di θ0 basata sul secondo momento. In generale,
purtroppo il metodo dei momenti non indica quali momenti, ovvero di quale
ordine, usare per stimare il parametro di interesse.
103
6
4 M3(θ)
y
m3,n = 1
θ^ = 0.4142
0
M2 = σ 2 + µ2 .
104
incognite desiderato
(
Xn = µ
1 Pn
X 2 = σ 2 + µ2 .
n i=1 i
Risolvendo rispetto ai due parametri sconosciuti µ e σ 2 otteniamo lo stima-
tore dei momenti di θ0 = (µ0 , σ02 )
µ
b = Xn
n n
2 1X 2 2 1X 2
σ
b = Xi − X n = Xi − X n .
n i=1 n i=1
105
distribuzione della V.A. X che denota il numero di palline nere presenti nel
campione è data dalla distribuzione binomiale
Esito: x 0 1 2 3
3 1 9 27 27
f (x; )
4 64 64 64 64
1 27 27 9 1
f (x; )
4 64 64 64 64
In questo esempio, se trovassimo x = 0 (nessuna pallina nera è estratta) su
un campione di 3 estrazioni, sarebbe da preferire la stima p = 0.25 rispetto
a p = 0.75, perché la probabilità 27/64 è maggiore di 1/64. In altre parole,
un campione con x = 0 è estratto più probabilmente (nel senso di avere una
maggiore probabilità di essere osservato) da una popolazione con p = 1/4
piuttosto che da una popolazione con p = 3/4. Prendendo questo criterio di
“massima probabilità” nella scelta di p, in generale dovremo stimare p = 0.25
quando x = 0 o x = 1 e p = 0.75 quando x = 2 o x = 3. Lo stimatore può
quindi essere definito come
0.25 quando osserviamo x = 0, 1
pb = pb(x) = .
0.75 quando osserviamo x = 2, 3
106
f(6;p)
0.15
0.10
y
0.05
0.00
L’esempio precedente (vedi Figura 4.3) mostra quindi che il valore stima-
to del parametro sconosciuto è stato ottenuto massimizzando, per il dato
5
L’intervallo [0, 1] corrisponde all’insieme Θ nel caso di stima del parametro p della
distribuzione binomiale.
107
valore osservato x, la funzione di probabilità f (x; p) rispetto al parametro
p. La definizione generale di stimatore di massima verosimiglianza necessita
dapprima la definizione di funzione di verosimiglianza.
108
valore di θ in Θ che massimizza L(θ), allora Tmv (X1 , . . . , Xn ) è lo stimatore
di massima verosimiglianza di θ. θb = Tmv (x1 , . . . , xn ) è la stima di massima
verosimiglianza di θ sulla base della realizzazione (x1 , . . . , xn ) dell’n-campione
X1 , X2 , . . . , Xn .
Come già detto nei capitoli precedenti in questo corso tratteremo esclusi-
vamente il caso in cui le variabili casuali X1 , . . . , Xn costituiscono un n-
campione, ovvero quando esse formano un campione casuale semplice estrat-
to con reinserimento da una popolazione X avente funzione di densità f (x; θ).
Le variabili casuali X1 , . . . , Xn saranno quindi indipendenti fra loro ed iden-
ticamente distribuite. Come già osservato nella Definizione (4.4) di funzione
di verosimiglianza, grazie all’indipendenza delle V.A. X1 , . . . , Xn la funzione
di verosimiglianza si riduce al seguente prodotto di densità
109
1
0
ln(x)
−1
−2
0 1 2 3 4 5 6
14
12 g(x)
10
8
y
Massimo
6
2 ln(g(x))
Minimo
0 1 2 3 4 5 6
110
di verosimiglianza sarà soluzione del sistema di equazioni
∂
L(θ1 , θ2 , . . . , θk ) = 0
∂θ1
∂
L(θ1 , θ2 , . . . , θk ) = 0
∂θ2
..
.
∂
L(θ1 , θ2 , . . . , θk ) = 0
∂θk
111
la funzione di verosimiglianza è il prodotto delle n probabilità per cui grazie
alla (4.16) otteniamo
n
Y n
Y
L(p) = f (xi ; p) = pxi (1 − p)1−xi
i=1 i=1
Pn
n− n
P
xi i=1 xi
= p i=1 (1 − p) .
Pn
Indicando con c = i=1 xi il numero di palline rosse estratte (si noti che
0 ≤ c ≤ n), otteniamo che la log-verosimiglianza è uguale a
112
Esempio 4.8. Due parametri sconosciuti. Supponiamo di estrarre un cam-
pione casuale semplice di numerosità n = 4 da una popolazione Normale
N (µ0 , σ02 ) con entrambi µ0 e σ02 sconosciuti. I valori osservati di X1 , . . . , X4
sono x1 = 3, x2 = −3, x3 = 5, x4 = −2. La famiglia parametrica è
1 1 2 2 +
P = f (x; θ) = √ exp − 2 (x − µ) , θ = (µ, σ ) ∈ R × R .
2πσ 2 2σ
1
− 2 (3 − µ)2 + (−3 − µ)2 + (5 − µ)2 + (−2 − µ)2 .
2σ
Quest’ultima espressione andrà massimizzata in funzione di µ e σ 2 .
113
2.5
2.0
Verosim
1.5
ig
lianza
1.0
0.5
0.0
25
−4
20
−2
15
m
0 a²
m
u
10 sig
2
4 5
114
Per tale motivo si è costretti a confrontare gli stimatori sulla base delle loro
proprietà asintotiche il cui calcolo è possibile grazie a teoremi quali la Legge
dei Grandi Numeri e il Teorema del Limite Centrale (a tal proposito si veda
la Sezione 4.4 dedicata alla teoria asintotica).
115
0.8
0.6 fT2(x)
0.4
y
0.2
fT1(x)
0.0
dunque una misura di dispersione dei valori dello stimatore T attorno al vero
valore θ. Se noi confrontassimo gli stimatori guardando i loro rispettivi errori
quadratici medi, ne preferiremmo naturalmente uno con errore quadratico
medio piccolo.
Teorema 4.2. Sia T (X1 , . . . , Xn ) uno stimatore di θ. Vale la seguente identità:
116
E(T ) all’interno del quadrato e svolgere i calcoli, ovvero
EQMT = E (T − θ)2
= V (T ) + (B(T ))2
117
1.5 EQMµ^ 5
1.0
0.5
EQMµ^ 2
0.0
−2 −1 0 1 2
Vero valore di µ
4.4.1 Consistenza
La consistenza dello stimatore T (X1 , . . . , Xn ) di θ è definita come segue.
Definizione 4.8. Consistenza. Sia T (X1 , . . . , Xn ) uno stimatore del parame-
tro sconosciuto θ. Diremo che T è uno stimatore consistente di θ se, per
qualsiasi > 0, T soddisfa la seguente condizione
lim P T (X1 , . . . , Xn ) ∈ (θ − , θ + ) = 1. (4.23)
n→∞
118
0.6
fθ^20 fθ^5
0.5
0.4
y
0.3
0.2 fθ^10
0.1
0.0
EQMT = V (T ) + (B (T ))2
119
Teorema 4.3. Se uno stimatore T di θ è consistente in media quadratica,
esso sarà pure uno stimatore consistente di θ (non è necessariamente vero il
contrario).
Il precedente teorema è particolarmente utile in quanto permette di trovare
un criterio semplice per verificare la consistenza di uno stimatore T di θ.
Infatti, quando la distorsione e la varianza di T tendono entrambi a zero al
crescere di n, allora lo stimatore è consistente. Ovviamente per uno stimatore
corretto è sufficiente che la sua varianza tenda a zero al crescere di n essendo
la sua distorsione uguale a zero.
Questa
√ proprietà
ci permette di studiare il comportamento asintotico di
n X n − µ . Infatti, da quanto appena detto avremo che
√
√ n Xn − µ
n Xn − µ = σ = σYn ∼ σZ.
σ n→∞
120
Teorema 4.4. Distribuzione asintotica dello stimatore di massima verosi-
miglianza. Sia X1 , . . . , Xn un campione i.i.d. estratto da una popolazione
X di densità f (x; θ). Sia θbn := Tmv (X1 , . . . , Xn ) lo stimatore di massima
verosimiglianza di θ con
n
X ∂ln (f (xi ; θ))
= 0.
i=1
∂θ θ=θbn
√ b
2. n θn − θ è asintoticamente Normale
√ 1
n θbn − θ ∼ N 0,
n→∞ I(θ)
" 2 #
∂ln (f (X; θ))
dove I(θ) := E è chiamata l’informazione di Fi-
∂θ
sher.
121
√ b
di n θn − θ dipende da un’espressione conosciuta col nome di informazio-
∂ln (f (X; θ))
ne di Fisher : il valore atteso del quadrato di . Infine osserviamo
∂θ
che l’informazione di Fisher, notata I(θ), è altresì calcolabile per mezzo del
valore atteso della seconda derivata di ln (f (X; θ)).
Esempio 4.9. Supponiamo di estrarre un n-campione da una popolazione
Normale N (µ, σ 2 ) con solo µ non noto. La famiglia parametrica è (poiché σ 2
è conosciuto è da considerarsi alla stregua di un numero)
1 1 2
P = f (x; µ) = √ exp − 2 (x − µ) , µ ∈ R .
2πσ 2 2σ
La funzione di massima verosimiglianza L(µ) è data dal prodotto delle n
densità
Yn
L(µ) = f (xi ; µ)
i=1
n/2 n
!
1 1 X 2
= exp − 2 (xi − µ) .
2πσ 2 2σ i=1
Lo stimatore di massima verosimiglianza di µ sappiamo essere uguale alla
media campionaria X n . Inoltre, poiché la somma di variabili aleatorie nor-
mali indipendenti è ancora Normale (una proprietà quasi unica della distri-
buzione
√ Normale),
la distribuzione di X n è N (µ, σ 2 /n). La distribuzione di
n X n − µ è dunque N (0, σ 2 ). In base al Teorema 4.4, valgono le seguenti
tre uguaglianze:
" 2 #−1 2 −1
2 ∂ln (f (X; µ)) ∂ ln (f (X; µ))
σ =E =− E . (4.26)
∂µ ∂µ2
Esercizio 4.2. Verificate la correttezza della (4.26) nel caso in cui X è distri-
buita secondo la legge Normale N (µ, σ 2 ). Procedete come segue:
∂ln (f (X; µ))
1. Calcolate la derivata prima , il suo quadrato ed infine il
∂µ " 2 #
∂ln (f (X; µ))
valore atteso del suo quadrato, notato E .
∂µ
∂ 2 ln (f (X; µ))
2. Calcolate la derivata seconda ed in seguito il suo valore
∂µ2
atteso.
3. Confrontate i risultati ottenuti con la (4.26).
122
4.4.3 Disuguaglianza di Cramèr–Rao
La disuguaglianza di Cramèr–Rao stabilisce un limite inferiore per la varian-
za di un qualsiasi stimatore corretto del parametro θ. In altre parole, per
quanto preciso possa essere lo stimatore in questione la sua varianza non sarà
mai inferiore a tale limite.
Teorema 4.5. Disuguaglianza di Cramèr–Rao. Sia X1 , . . . , Xn un n-campione
estratto da una popolazione X di densità f (x; θ) e T (X1 , . . . , Xn ) uno stima-
tore corretto di θ. Vale la seguente disuguaglianza
1
V (T (X1 , . . . , Xn )) ≥ (4.27)
n I(θ)
123
f (x; θ) e T (X1 , . . . , Xn ) uno stimatore di θ la cui distorsione è uguale a B(θ).
Vale la seguente disuguaglianza
2
∂B(θ)
1+
∂θ
V (T (X1 , . . . , Xn )) ≥ (4.29)
n I(θ)
124
Capitolo 5
Verifica d’ipotesi
Dopo aver trattato alcuni argomenti propri della teoria della stima affronte-
remo in questo capitolo il secondo grande tema della statistica inferenziale:
la verifica d’ipotesi.
125
80
fX
60
40
y
20
H0 : µ = 0.6
126
quale ipotesi nulla (vedi Figura 5.1):
che in base al nostro ragionamento può essere espressa in termini del para-
metro µ semplicemente come
H0 : µ = −0.545.
2
Si assume ragionevolmente che l’annacquamento del latte non modifichi σ 2 .
127
100
fX5
80
60
y
40
20
H0 : µ = − 0.545
Nei due ultimi esempi abbiamo definito l’ipotesi nulla e l’ipotesi alternativa
utilizzando le informazioni in nostro possesso parallelamente alle varie assun-
zioni riguardo la famiglia parametrica P. In entrambi i casi l’ipotesi nulla è
tale per cui la distribuzione della variabile aleatoria X è completamente spe-
cificata. In generale diremo che un’ipotesi statistica (nulla o alternativa che
sia) è semplice se specifica completamente la distribuzione di X, come è ap-
punto il caso per le due ipotesi nulle dei due ultimi esempi. In caso contrario
diremo invece che l’ipotesi è composta. Ad esempio, l’ipotesi alternativa
HA : µ > −0.545
128
5.1 Test per un’ipotesi statistica
Eseguire un test di un’ipotesi statistica significa costruire una regola di de-
cisione basata sulle osservazioni disponibili che ci permetta di concludere se
l’ipotesi sotto esame debba essere rifiutata o meno. Vista la natura alea-
toria di quanto osservato, tale conclusione varierà a seconda del campione
osservato. Diamo innanzi tutto una definizione formale di quanto detto.
Definizione 5.2. Test per un’ipotesi statistica. Un test di una ipotesi stati-
stica H0 è una regola o procedimento per decidere se rifiutare o meno H0 .
129
x5 = − 0.536
100
fX5
80
H0 ← → HA
60
y
40
H0 : µ = − 0.545
20
130
statistica S uguale o più estremo di quello effettivamente osservato. Qual’è
l’interpretazione di “più estremo”? Con “più estremo” si intende “più lonta-
no”, “più distante”, rispetto al valore di µ sotto H0 , in direzione dell’ipotesi
alternativa. Il test statistico sarà tanto più a favore dell’ipotesi nulla tanto
più elevato sarà il p-value.
Calcolato il p-value, quando decideremo di rifiutare o meno H0 ? La decisione
finale di rifiutare o meno H0 dipenderà dalla “quantità” minima di evidenza
sotto la quale non siamo più disposti a mantenere H0 come ipotesi valida.
Tale soglia, notata α, è detta livello di significatività. Essa può variare a
dipendenza delle circostanze. In economia si utilizza generalmente un livello
di significatività del 5%. Assumendo dunque un livello di significatività α =
5%, rifiuteremo l’ipotesi nulla se il p-value < α. In tal caso diremo che il test
è significativo ad un livello di significatività dell’α per cento.
Osservazione 5.1. È importante sottolineare che a causa della natura alea-
toria del fenomeno le nostre conclusioni saranno soggette ad errore. Infatti,
la scarsa evidenza a favore di H0 non significa che H0 sia falsa. Come avre-
mo modo di approfondire in seguito, il livello di significatività α misura la
probabilità dell’errore di rifiutare H0 quando questa è effettivamente vera.
131
400 fX25
x25 = 0.5985 0.6 + |x25 − 0.6|
300
200
y
HA ← → H0 H0 ← → HA
100
H0 : µ = 0.6
132
l’alternativa non specifica una direzione per il vero valore di µ rispet-
to a quello proposto dall’ipotesi nulla. Nel secondo esempio il test è
unilaterale destro in quanto l’alternativa si trova alla destra del valore
suggerito da H0 (µ > µ0 = −0.545) . Riassumendo:
133
5.2.1 Test unilaterale destro
Abbiamo la seguente situazione:
2. L’ipotesi nulla H0 è che il fornitore sia una persona onesta. Sotto questa
ipotesi la distribuzione della temperatura di gelo del latte del fornitore,
notata X, è uguale a quella definita dal Laboratorio cantonale, ovvero
X ∼ N (−0.545, 0.0082 ). L’ipotesi nulla può essere quindi formalizzata
come
H0 : µ = −0.545.
HA : µ > −0.545.
Fino a questo punto la costruzione del test è identica alla formulazione tra-
mite il p-value. Ora, anziché calcolare il p-value, calcoliamo la soglia critica
kα , definita dalla seguente equazione
PH0 (X ≥ kα ) = α.
134
100
fX5
80
60
y
40
20
α = 5%
0
k5% = − 0.539
−0.555 −0.55 −0.545 −0.54 −0.535
H0 : µ = − 0.545
135
Per costruzione, la probabilità di osservare un valore di X superiore o uguale
a −0.539 è dunque uguale a 5%. Inoltre, come già osservato nel caso del p-
value, l’osservazione di valori estremi in direzione dell’ipotesi alternativa è da
considerarsi come evidenza sfavorevole all’ipotesi nulla. Per questo motivo
utilizzeremo la seguente regola di decisione per un test unilaterale destro:
Osservazione 5.2. Il “quanto lontano” deve cadere il valore della nostra sta-
tistica affinché H0 venga rigettata dipende dal livello di significatività α.
Tanto più piccolo il valore di α (che rappresenta il livello minimo di evidenza
richiesta a favore di H0 ) e tanto più estrema sarà la soglia kα .
La decisione se rifiutare o meno il test dipende dalla disequazione (5.2). Essa
definisce implicitamente la così detta regione critica.
Definizione 5.4. Regione critica, test unilaterale destro. L’insieme R ⊂ Ωn
degli esiti (x1 , . . . , xn ) dello spazio campionario per cui S ≥ kα (e quindi tali
per cui il test è rifiutato) è chiamato la regione critica del test o semplicemente
regione critica
R = {(x1 , . . . , xn ) ∈ Ωn | S(x1 , . . . , xn ) ≥ kα } .
136
−0.530
Rifiuto H0
−0.535
Non rifiuto H0
x2
−0.540
−0.545
Ω2
x1
H0 : µ = 0.6.
HA : µ 6= 0.6.
Per quanto riguarda i punti 1–5 non vi è alcuna differenza con la specificazione
del test basata sul p-value. Anziché calcolare il p-value, costruiamo invece la
137
regione critica. Essa verrà in seguito utilizzata per definire quando rifiutare
il test.
138
400 fX25
300
200
y
100
HA ← → H0 H0 ← → HA
2.5% 2.5%
0 ks,5% kd,5%
H0 : µ = 0.6
Anche nel caso di un’ipotesi bilaterale è possibile definire una regione criti-
ca R includendo in essa gli esiti (tutte quelle realizzazioni (x1 , . . . , x25 )) per
cui una delle due disuguaglianze della (5.4) è soddisfatta.
Definizione 5.5. Regione critica, test bilaterale. L’insieme R degli esiti (x1 , . . . , xn ) ∈
Ωn per cui S(x1 , . . . , xn ) ≤ ks,α oppure S(x1 , . . . , xn ) ≥ kd,α (e quindi tali per
cui il test è rifiutato) è chiamato regione critica del test
o equivalentemente
139
0.64 Ω2
R
Rifiuto H0
0.62
Non rifiuto H0
0.60
x2
0.58
Rifiuto H0
0.56
0.54
x1
fX25
Ω2 400
0.64
Rifiuto H0
0.62
1 1
0.60
x2
200
y
0.58
Rifiuto H0 100
0.56
HA ← → H0 H0 ← → HA
2.5% 2.5%
0 ks kd
0.54
0.56 0.58 0.60 0.62 0.64 0.596 0.597 0.598 0.599 0.600 0.601 0.602 0.603 0.604
x1 H0 : µ = 0.6
140
La regione critica R è un sottoinsieme dello spazio campionario del nostro
esperimento statistico: R ⊂ Ωn . Se i valori (x1 , . . . , xn ) che osserveremo
cadranno nella regione critica, ovvero se
• test unilaterale destro: x ≥ kα ,
• test unilaterale sinistro: x ≤ kα ,
• test bilaterale: x ≤ ks,α oppure x ≥ kd,α ,
rifiuteremo l’ipotesi nulla. Per costruzione la regione critica R soddisfa il
vincolo concernente il livello di significatività prescelto. Nel caso di un test
bilaterale la scelta di ks,α e kd,α è tale per cui dato E 0 = (−∞, ks,α ] ∪ [kd,α , ∞)
(x1 , x2 , . . . , xn ) ∈ R
allora l’ipotesi nulla verrà rifiutata altrimenti verrà mantenuta. Cosa succe-
derebbe se, anziché la media X, utilizzassimo un’altra statistica? Vedremo
che cambiando la statistica si va a modificare la regione critica R. Eseguendo
gli stessi passi studiati con la media X, ovvero
1. Definire l’ipotesi nulla e ricavare la distribuzione della nuova statistica S
sotto l’ipotesi nulla;
2. Definire l’ipotesi alternativa, cioè la direzione contro l’ipotesi nulla e la
tipologia del test (unilaterale o bilaterale);
3. Scegliere il livello α di significatività desiderato;
4. Calcolare il nuovo p-value e confrontarlo con il livello α di significatività
prescelto, oppure
4
Dunque nei due casi visti la statistica S è anche lo stimatore X del valore atteso della
popolazione.
141
5. Calcolare le nuove soglie critiche kα (test unilaterale) o ks,α e kd,α (test
bilaterale) ed il nuovo evento critico E 0 corrispondente,
R = S −1 (E 0 ).
142
Utilizzando l’indipendenza degli Xi
5
Y
P (X1 > s, . . . , X5 > s) = P (Xi > s).
i=1
FS (s) = 1 − [1 − P (X ≤ s)]5
= 1 − [1 − FX (s)]5 . (5.8)
H0 : µ = −0.545.
143
fX5
100
80
60 fS
y
40
20
Notate che per dato valore di s sia FS che fS potrebbero essere calcolate
in Excel o Openoffice utilizzando la funzione NORMDIST().
2. L’ipotesi alternativa è che il fornitore abbia aggiunto acqua al latte
HA : µ > −0.545.
144
Fino a questo punto nulla è cambiato nel procedimento del test. L’unica
novità consiste nell’utilizzare la statistica S = min(X1 , . . . , X5 ) anziché
S = X. Grazie al Paragrafo 5.3.1 ora conosciamo la distribuzione di S.
145
−0.53
Ω2
Rifiuto H0
−0.54
x2
−0.55
Non rifiuto H0
−0.56
x1
146
Per quanto riguarda invece gli errori abbiamo due tipi di errori evidenziati
in tabella con ?:
H0 vera H0 falsa
decisione incorretta ? decisione corretta
Rifiutare H0
α β
decisione corretta decisione incorretta ?
Non rifiutare H0
1−α 1−β
Abbiamo quindi due tipi di errore con le rispettive probabilità di α e (1 − β).
1. α è chiamato livello di significatività o errore di prima specie e corri-
sponde alla probabilità di rifiutare H0 quando H0 è vera. Si tratta di
una probabilità condizionata:
α = P (Rifiutare H0 | H0 è vera) = PH0 (Rifiutare H0 ).
147
• test unilaterale destro
R = {(x1 , . . . , xn ) | S(x1 , . . . , xn ) ≥ kα } ,
R = {(x1 , . . . , xn ) | S(x1 , . . . , xn ) ≤ kα } ,
o in un test bilaterale tramite una soglia critica inferiore ks,α ed una soglia
critica superiore kd,α
• test bilaterale
S(x1 , . . . , xn ) ≥ kα
148
da cui
kα + 0.545
√ = z1−α
0.008/ 5
√
kα = −0.545 + z1−α 0.008/ 5
α 5% 2.5% 1%
zα −1.645 −1.96 −2.33
Osservazione 5.4. Come già detto, il livello “tipico” di significatività è del 5%.
Ad esempio in economia si è soliti indicare con
149
0.4
H0 HA
0.3
f(x)
0.2
0.1
0.0
−4 −2 0 2 4
alternativa è situata alla destra di H0 , la soglia k5% della regione critica (ad
un livello di significatività del 5% quindi) è definita da
PH0 (X ≥ k5% ) = 0.05 ⇒ k5% = z95% = 1.645.
La regione critica10 è
R = {x ∈ [1.645, ∞)} .
Graficamente la probabilità PH0 (X ≥ k5% ) è rappresentata dall’area α nella
Figura 5.13. Determinata la regione critica, il test di H0 è dunque il seguente:
• Si osserva la realizzazione x di X.
• Se x cade nella regione critica rifiutiamo H0 . Condizionatamente alla
correttezza di H0 ciò accadrà, per costruzione, con una probabilità
α = 5%.
• Se x cade al di fuori della regione critica non rifiutiamo H0 . Condizio-
natamente alla correttezza di H0 questo accadrà, per costruzione, con
una probabilità uguale ad 1 − α = 95%.
10
In questo esempio ad uso didattico la statistica S utilizzata è semplicemente il valore
osservato. La regione critica R coincide quindi con l’intervallo [k5% , ∞). Tuttavia è questo
un caso più unico che raro nelle applicazioni reali.
150
0.4
H0 HA
0.3
f(x)
0.2
0.1
1−β α
0.0 k5%
−5 −4 −3 −2 −1 0 1 2 3 4 5
µ=0
P (X ≥ 1.645) . (5.10)
PHA (X ≥ 1.645) .
151
Per calcolare questa probabilità utilizziamo la solita tecnica di standardizza-
zione, tenendo presente che sotto l’ipotesi alternativa HA il valore atteso di
X è uguale 2 e la varianza 1.
= P (Z ≤ 0.04) = 51.6%
11
La densità tratteggiata corrisponde alla funzione di densità di X quando HA è vera.
152
0.4
H0 HA
0.3
f(x)
0.2
0.1
1−β α
0.0 k2.5%
−5 −4 −3 −2 −1 0 1 2 3 4 5
µ=0
Confrontando la nuova Figura 5.14 alla Figura 5.13 notiamo che la superficie
a sinistra di k2.5% delimitata dalla densità tratteggiata è aumentata rispetto
al valore precedente. L’incremento è dato dalla superficie verde. L’errore di
seconda specie 1 − β è dunque aumentato, passando dal 36.13% al 48.4%.
Da questo esempio deduciamo che esiste una relazione inversa fra errore di
prima specie ed errore di seconda specie nel senso che qualora si decida di
diminuire la probabilità d’errore di prima specie si dovrà pagare un costo in
termini di una maggiore probabilità d’errore di seconda specie e viceversa.
Possiamo semplicemente riassumere quanto detto a parole con
α ↓⇒ (1 − β) ↑ .
Per tale motivo non è possibile scendere a zero con entrambe le probabilità
di errore. Si è pertanto soliti fissare il livello di significatività α ad un livello
appropriato. Ad esempio in econometria si utilizza tipicamente un α = 5%.
Il nostro sistema giuridico per contro assegna maggiore importanza all’errore
di 1a specie (dichiarare colpevole un innocente) e per tale motivo i valori di
α saranno di molto inferiori (ad esempio radar detection α = 10−10 %).
153
5.4.2 Potenza di un test
J. Neyman e E. Pearson, due famosi statistici del ventesimo secolo, pro-
pongono di fissare il livello di significatività α del test e di massimizzare la
probabilità β = P (Rifiutare H0 | H0 è falsa), che corrisponde a minimizzare
l’errore di seconda specie 1 − β. Ricordiamo che la probabilità β è chiamata
potenza del test, la cui definizione formale è la seguente.
Definizione 5.6. Potenza di un test, caso unilaterale destro. La potenza di
un test, notata β, è definita come la probabilità di rifiutare H0 quando essa
è falsa12
β = PHA (S ≥ kα ).
Esempio 5.7. Nell’Esempio 5.2 del caseificio abbiamo costruito due possibili
test d’ipotesi, il primo basato sulla media X del campione ed il secondo basato
sul minimo min(X1 , . . . , Xn ) del campione. Per un livello di significatività
del 5% i due test avevano condotto alla medesima conclusione. Nel primo
test con S = X il valore critico k5% = −0.539, infatti
β = PHA (S ≤ kα )
154
5.4.2.1 Potenza del test con S = X
Caso particolare: L’ipotesi alternativa è X ∼ N (−0.54, 0.0082 ) da cui segue
grazie alla proprietà della distribuzione Normale che X ∼ N (−0.54, 0.0082 /5)
e quindi
X − (−0.54) −0.539 − (−0.54)
β = PHA (X ≥ −0.539) = PHA √ ≥ √
0.008/ 5 0.008/ 5
| {z }
Z∼N (0,1)
β = [1 − FX (−0.546)]5 = 0.277.
155
1.0
0.8
0.6
β
0.4
0.2
●
H0
0.0
HA : µ
156
1.0
0.8
Potenza di S = X5
0.6
0.4
0.2
●
H0 : µ = − 0.545
0.0
• un’ipotesi nulla H0 : µ = µ0 ,
• un’ipotesi alternativa HA : µ = µA ,
sia possibile trovare (o costruire) un test che, fra tutti i possibili test, sia il più
potente in assoluto. La risposta a questo quesito ci è data dall’importante
lemma di Neyman e Pearson.
157
5.5 Lemma di Neyman–Pearson
In questo paragrafo risponderemo alla domanda che ci siamo posti al termi-
ne del paragrafo precedente, ovvero come trovare il test di massima potenza
(ricordiamo che la potenza di un test è la probabilità di rifiutare H0 quan-
do questa è falsa). Prima di dare la soluzione cerchiamo di formalizzare il
problema i cui elementi essenziali sono i seguenti.
P = {f (x; θ), θ ∈ Θ} .
H0 : θ = θ0
HA : θ = θA
158
Il problema risiede quindi nel trovare la statistica S ∗ e la soglia kα∗ ad essa
associata tale per cui
PH0 (S ∗ ≥ kα∗ ) = α
e
PHA (R∗ ) = PHA (S ∗ ≥ kα∗ ) = P (rifiuto H0 | H0 è falsa) = β (5.13)
sia massimo rispetto a qualsiasi altra statistica S.
L’esempio seguente suggerisce l’intuizione per trovare la statistica S ∗ con
potenza massima.
Esempio 5.8. State passeggiando tranquillamente nel bosco quando notate
l’entrata di una grotta ed incuriositi decidete di entrarvi. Nel suo interno la
luce è molto debole, tanto che dopo alcuni metri la visibilità è praticamente
nulla. A questo punto decidete di tornare indietro ma all’improvviso andate
ad inciampare contro un baule che una volta aperto risulta contenere 100
kg di gioielli e pietre preziose di ogni genere, colore e dimensione. Volendo
approfittare della situazione, decidete di riempire lo zaino con le gemme e
i gioielli più preziosi. Purtroppo per voi però, lo zaino ha una capacità
massima di α = 5 kg. Vi trovate dunque nella spiacevole situazione di
dover selezionare, tramite un’opportuna strategia di selezione S, quali gioielli
mettere nello zaino. L’insieme dei gioielli e delle pietre preziose che verranno
da voi scelti è notato R (raccolto). Ogni gioiello/pietra g ha un peso ps (g) ed
un prezzo di mercato pr (g). Il vostro scopo è dunque quello di massimizzare
il valore del raccolto, sotto il vincolo che il suo peso sia uguale ad α.
Supponiamo che i gioielli contenuti nel baule siano quelli della Tabella 5.1.
Per massimizzare il valore del contenuto dello zaino dobbiamo ordinare i
gioielli in ordine decrescente rispetto al rapporto prezzo/peso. Così facendo
ci assicuriamo di prendere gli oggetti di maggior valore per unità di peso.
La Tabella 5.2 contenente la lista dei gioielli ordinata rispetto al rapporto
prezzo/peso permette di costruire l’insieme R∗ del raccolto ottimale, che
corrisponde a
R∗ = {g32 , g24 , g1 , g21 , g36 , g16 , g27 } .
pr (g)
Notiamo che la strategia di selezione ottimale S ∗ (x) = prevede di
ps (g)
prendere solo gli oggetti aventi un rapporto prezzo/peso superiore o uguale
ad una soglia kα∗ , che nel nostro caso è uguale a 8’888.90. Tale soglia è stata
scelta in maniera che il peso complessivo della regione critica sia uguale ad
α ovvero 5 kg. Formalmente abbiamo determinato kα∗ tramite la seguente
relazione (Ps denota il peso totale)
Ps (R∗ ) = Ps (g | S ∗ (g) ≥ kα∗ ) = 5 kg.
159
pr (g)
Teorema 5.1. La strategia di selezione S ∗ = ≥ kα∗ massimizza il valore
ps (g)
(prezzo totale) del raccolto R rispetto a tutte le possibili strategie S aventi
una raccolto R di peso 5 kg.
R∗ R
A C
e X X X
Pr (R) = pr (g) = pr (g) + pr (g).
g∈R g∈B g∈C
pr (g)
Poiché la strategia S ∗ prevede di includere g in R∗ se e solo se ≥ kα∗ ,
ps (g)
per ogni g ∈ R∗ (e quindi anche per ogni g ∈ A ⊂ R∗ ) sarà quindi vero che
160
pr (g) ≥ kα∗ ps (g). Di conseguenza varrà la seguente disuguaglianza
X X
Pr (R∗ ) − Pr (R) ≥ kα∗ ps (g) − pr (g).
g∈A g∈C
Pr (R∗ ) ≥ Pr (R).
L’Esempio 5.8 può essere ripreso ed adattato al problema di scelta del test
ottimale. Infatti valgono le seguenti analogie:
• L’insieme dei gioielli e delle pietre prezione (raccolto) R messe nel sacco
corrispondono alla regione critica R, ovvero all’insieme delle osserva-
zioni campionarie tali per cui l’ipotesi nulla H0 va rifiutata.
161
• Allo stesso modo Pr , che corrisponde al prezzo di mercato di un qual-
siasi insieme di pietre preziose, rappresenta la probabilità sotto l’ipotesi
alternativa HA di rifiutare l’ipotesi nulla. Tale probabilità è rappresen-
tata da PHA (R) e va massimizzata per dato α. Nell’Esempio 5.8 abbia-
mo massimizzato il valore del raccolto, ovvero Pr (R). Analogamente a
ps , pr corrisponde alla funzione di densità sotto l’ipotesi alternativa.
pr (g)
S ∗ (g) =
ps (g)
R∗ = {g | S ∗ (g) ≥ kα∗ }
Ps (R) = α = 5 kg.
f (x1 , . . . , xn ; θA )
S ∗ (x1 , . . . , xn ) =
f (x1 , . . . , xn ; θ0 )
162
ottimale sarà dunque composta dalle realizzazioni con un alto rappor-
f (x1 , . . . , xn ; θA )
to . La soglia kα∗ è determinata dalla condizione che
f (x1 , . . . , xn ; θ0 )
l’errore di prima specie sia uguale al livello di significatività desiderato
163
Tabella 5.1: Elenco gioielli
Gioiello Peso (grammi) Prezzo in Fr. Prezzo/Peso
g1 671 8’000 11’923
g2 1’717 1’000 582
g3 1’034 7’000 6’770
g4 1’756 7’000 3’986
g5 1’199 2’000 1’668
g6 886 1’000 1’129
g7 1’166 1’000 858
g8 1’040 2’000 1’923
g9 932 5’000 5’365
g10 1’380 7’000 5’072
g11 1’769 10’000 5’653
g12 1’686 2’000 1’186
g13 902 6’000 6’652
g14 1’257 3’000 2’387
g15 1’768 3’000 1’697
g16 528 5’000 9’470
g17 1’676 6’000 3’580
g18 1’523 10’000 6’566
g19 1’666 9’000 5’402
g20 1’456 3’000 2’060
g21 871 10’000 11’481
g22 988 4’000 4’049
g23 1’190 6’000 5’042
g24 540 7’000 12’963
g25 831 5’000 6’017
g26 802 6’000 7’481
g27 900 8’000 8’889
g28 1’679 6’000 3’574
g29 1’166 6’000 5’146
g30 1’980 5’000 2’525
g31 850 2’000 2’353
g32 676 10’000 14’793
g33 1’399 3’000 2’144
g34 1’883 3’000 1’593
g35 2’535 7’000 2’761
g36 814 9’000 11’057
g37 853 2’000 2’345
g38 1’488 2’000 1’344
g39 1’430 2’000 1’399
g40 1’113 1’000 898
Totale 50’000 202’000
164
Tabella 5.2: Elenco gioielli ordinati secondo Pr /Ps
Gioiello Prezzo/Peso Peso Cumulato Prezzo Cumulato
g32 14’792.9 676 10’000
g24 12’963.0 1’216 17’000
g1 11’922.5 1’887 25’000
g21 11’481.1 2’758 35’000
g36 11’056.5 3’572 44’000
g16 9’469.7 4’100 49’000
g27 8’888.9 5’000 57’000
g26 7’481.3 5’802 63’000
g3 6’769.8 6’836 70’000
g13 6’651.9 7’738 76’000
g18 6’566.0 9’261 86’000
g25 6’016.8 10’092 91’000
g11 5’652.9 11’861 101’000
g19 5’402.2 13’527 110’000
g9 5’364.8 14’459 115’000
g29 5’145.8 15’625 121’000
g10 5’072.5 17’005 128’000
g23 5’042.0 18’195 134’000
g22 4’048.6 19’183 138’000
g4 3’986.3 20’939 145’000
g17 3’580.0 22’615 151’000
g28 3’573.6 24’294 157’000
g35 2’761.3 26’829 164’000
g30 2’525.3 28’809 169’000
g14 2’386.6 30’066 172’000
g31 2’352.9 30’916 174’000
g37 2’344.7 31’769 176’000
g33 2’144.4 33’168 179’000
g20 2’060.4 34’624 182’000
g8 1’923.1 35’664 184’000
g15 1’696.8 37’432 187’000
g5 1’668.1 38’631 189’000
g34 1’593.2 40’514 192’000
g39 1’398.6 41’944 194’000
g38 1’344.1 43’432 196’000
g12 1’186.2 45’118 198’000
g6 1’128.7 46’004 199’000
g40 898.5 47’117 200’000
g7 857.6 48’283 201’000
g2 582.4 50’000 202’000
165
5.6 Applicazione del Lemma di Nyman–Pearson
Vogliamo applicare il lemma di Neyman e Pearson alla seguente situazione.
Supponiamo di osservare un n-campione estratto da una popolazione X ∼
N (µ, σ 2 ) con σ 2 conosciuto. La famiglia parametrica P è dunque data da
1 1 2
P = f (x; µ) = √ exp − 2 (x − µ) , µ ∈ R .
2πσ 2σ
H0 : µ = µ0
e quindi
n
1 1 2 2
f (x1 , . . . , xn ; µ) = √ exp − (x 1 − µ) + . . . + (x n − µ)
2πσ 2σ 2
n n
1 1 X 2
= √ exp − (xi − µ) .
2πσ 2σ 2 i=1
166
sotto l’ipotesi alternativa e quella nulla è data da
fHA (x1 , . . . , xn )
S(x1 , . . . , xn ) =
fH0 (x1 , . . . , xn )
n n
2
√1 1
P
2πσ
exp − 2σ2 (xi − µ1 )
i=1
= n n
2
√1 1
P
2πσ
exp − 2σ 2
(x i − µ 0 )
i=1
" n n
#
1 X X
= exp − 2 (xi − µ1 )2 − (xi − µ0 )2
2σ i=1 i=1
n n
1 h
2 2
X X i
= exp − 2 n(µ1 − µ0 ) − 2 xi µ 1 + 2 xi µ 0
2σ
|i=1
{z } |i=1
{z }
nx
nx
1
exp − 2 n(µ21 − µ20 ) − 2n(µ1 − µ0 )x
=
2σ
R = {(x1 , . . . , xn ) | S(x1 , . . . , xn ) ≥ kα } .
Otteniamo quindi
1 2 2
R = (x1 , . . . , xn ) | exp − 2 n(µ1 − µ0 ) − 2n (µ1 − µ0 ) x ≥ kα ,
2σ
(5.16)
con kα da determinare tramite il vincolo PH0 (R) = α. Poiché n, µ0 , µ1 sono
dati possiamo riscrivere la (5.16) come
1 2 2
R = (x1 , . . . , xn ) | − 2 n(µ1 − µ0 ) − 2n (µ1 − µ0 ) x ≥ ln(kα )
2σ
= (x1 , . . . , xn ) | n(µ21 − µ20 ) − 2n (µ1 − µ0 ) x ≤ −2σ 2 ln(kα )
167
queste trasformazoni non modificano la regione critica R, modificano solo la
formula utilizzata per rappresentarla.
H0 : µ = µ0
HA : µ = µ1 , µ1 > µ0 .
Per il test basato sulla media, caso unilaterale destro, abbiamo che
R = {(x1 , . . . , xn ) | x ≥ kα }
PH0 (X ≥ kα ) = α.
σ2
Poiché sotto l’ipotesi nulla X ∼ N µ0 , , applichiamo la solita standar-
n
dizzazione
X − µ k −µ
PH 0 √ 0 ≥ α √ 0 = α.
σ/ n σ/ n
| {z }
Z∼N (0,1)
√ √
Utilizzando la relazione P Z ≥ n(kσα −µ0 ) = 1 − P Z ≤ n(kα −µ0 )
σ
otte-
niamo
kα − µ0
P Z≤ √ = 1 − α. (5.17)
σ/ n
168
Poiché l’(1 − α)-quantile z1−α è soluzione della precedente equazione, cioè
P (Z ≤ z1−α ) = 1 − α,
ricaviamo il valore della soglia critica kα uguagliando l’espressione nella (5.17)
a z1−α
kα − µ0
√ = z1−α
σ/ n
σ
kα = µ0 + z1−α √ . (5.18)
n
La soglia critica kα dipende dunque
• da µ0 , il valore di µ sotto l’ipotesi nulla,
• dal livelo di significatività α che determinina indirettamente z1−α ,
• dalla numerosità del campione (quantità d’informazione disponibile).
Una volta che kα è stato fissato esso rimane costante. Il calcolo della potenza
del test presuppone il calcolo della probabilità P (X ≥ kα | HA è vera), ovvero
β = PHA (X ≥ kα )
X − µ kα − µ1
1
= PH A √ ≥ √
σ/ n σ/ n
| {z }
Z∼N (0,1)
kα − µ1
= P Z≥ √
σ/ n
kα − µ1
= 1−P Z ≤ √
σ/ n
Sostituendo l’espressione ricavata in precedenza per kα otteniamo la formula
finale
√
n
β = 1 − P Z ≤ z1−α − (µ1 − µ0 ) (5.19)
σ
√
n
= 1 − Φ z1−α − (µ1 − µ0 )
σ
dove Φ rappresenta la funzione di ripartizione della Normale standard:
Zx
1 1 2
Φ (x) = √ exp − x dx.
2π 2
−∞
169
• dal valore di µ sotto l’ipotesi nulla H0 ,
• dal livello di significatività α
• dalla numerosità del campione
anche da
• µ1 , il valore di µ sotto l’ipotesi alternativa HA .
La (5.19) ci permette di analizzare il comportamento della potenza in fun-
zione dei vari parametri µ1 , n, α.
• µ1 , n fissi: varia solo α
Quando il livello di significatività α aumenta, 1 − α diminuisce e con
esso z1−α . Poiché Φ è una funzione monotona crescente, β aumenterà.
Quindi
α ↑ ⇒ β ↑ e (1 − β) ↓ .
• α, n fissi: varia solo µ1
Quando µ1 aumenta l’alternativa si allontana dall’ipotesi nulla. Caete-
ris paribus Φ diminuirà e quindi β tenderà ad aumentare. L’errore di
secondo tipo 1−β diminuirà. Più l’ipotesi alternativa si allontana dall’i-
potesi nulla e più la potenza del test aumenta (l’errore di seconda specie
diminuisce): il test discrimina meglio fra l’ipotesi nulla e l’alternativa.
• µ1 , α fissi: varia solo n
Con l’aumentare del numero n di osservazioni la funzione Φ diminuisce
e la potenza β del test aumenta. L’errore di seconda specie diminui-
sce. Ciò è in linea con l’intuizione. Se abbiamo più informazione a
disposizione riusciamo a discriminare in maniera migliore tra le due
ipotesi.
171
Capitolo 6
Test
172
X n − µ0
Pur non conoscendo l’esatta distribuzione di √ sappiamo che, per n
σ/ n
sufficientemente grande, il teorema del limite centrale ci permette di calcolare
σ2
2
il valore di k0.05 come se X fosse N (µ, σ ) e quindi come se X ∼ N µ, .
n
Infatti, dato un campione X1 , . . . , Xn di n osservazioni indipendenti ed iden-
ticamente distribuite X ∼ (µ, σ 2 )
Xn − µ
√ ∼ N (0, 1).
σ/ n n→∞
k0.05 − µ0
Uguagliando z0.95 a √ è infine possibile ottenere il valore della soglia
σ/ n
critica k0.05 . Riassumendo, grazie al Teorema del Limite Centrale abbiamo
che quando
H0 : µ = µ0 ,
HA : µ > µ0 .
173
Bisogna stimare µ e σ 2 ed è possibile farlo con i soliti stimatori
n
1X
µ
b = X= Xi
n i=1
n
2 1 X
σ = (Xi − X)2 .
n − 1 i=1
b
174
6.2.1 Distribuzione χ2m
La distribuzione Chi-2 con m gradi di libertà, notata χ2m , è definita come la
somma del quadrato di m variabili aleatorie normali standard indipendenti
Z1 , Z2 , . . . , Zm ∼ N (0, 1)
m
X
V = Zj2 ∼ χ2m .
j=1
• Funzione di densità:
1 v m
f (v, m) = m exp − v 2 −1
2 2 Γ( m2 ) 2
dove Γ(·) è la funzione Gamma definita come
Z∞
Γ(y) = exp(−u)uy−1 du.
0
• Calcolo:
Zv
P (V ≤ v) = f (y, m)dy
0
oppure in Excel o Openoffice tramite la funzione CHIDIST (v, m).
Attenzione: la funzione CHIDIST (v, m) = P (V > v).
175
0.5
χ22
0.4
0.3
f(x, m)
0.2
χ25
0.1
0.0
0 2 4 6 8 10
Normale standard
Student−5
Student−2
0.3
f(x)
0.2
0.1
0.0
−4 −2 0 2 4
176
6.2.3 Distribuzione della statistica del t-test
Torniamo ora al rapporto della statistica utilizzata nella (6.2)
X − µ0
√
σ/ n Z
=r .
σ
b/σ b2
σ
σ2
Il numeratore sappiamo già che Z ∼ N (0, 1). Per quanto riguarda il deno-
b2 /σ 2 notiamo che
minatore, ed in particolare il rapporto σ
n 2
b2
σ 1 X Xi − X 1
= = V
σ2 n − 1 i=1 σ2 n−1
X − µ0
√
σ/ n N (0, 1)
=r 2 ∼ tn−1
σ
b/σ χn−1
n−1
e la nostra statistica è dunque distribuita come una variabile casuale t di
Student con n − 1 gradi di libertà1 .
La struttura del test di Student è dunque identica a quella del test sulla
media con la sola differenza che la varianza sconosciuta va sostituita con lo
1
È immediato verificare che la statistica
n
1 X
V = (Xi − µ)2
σ 2 i=1
n 2
X Xi − µ
=
i=1
σ
177
1
Pn
b2 = n−1
stimatore σ 2
i=1 (Xi − X) . Il calcolo della soglia critica kα andrà
poi modificato come segue. Sotto l’ipotesi nulla
X − µ kα − µ0
0
PH 0 √ ≥ √ = α
σ
b/ n σ
b/ n
| {z }
∼tn−1
kα − µ0
P tn−1 ≥ √ = α
σ
b/ n
Il procedimento è identico a quello con la Normale:
kα − µ0
1 − P tn−1 ≤ √ = α
σ
b/ n
kα − µ0
P tn−1 ≤ √ = 1 − α.
σ
b/ n
σ
kα = µ0 + t1−α,n−1 √ .
b
(6.3)
n
178
economia e nelle scienze sociali capita sovente di dover determinare l’efficacia
di un nuovo medicamento, la validità di un nuovo metodo d’insegnamento,
l’effetto di una campagna pubblicitaria e via dicendo. Per questo motivo si
è soliti raccogliere dati su due popolazioni fra loro distinte (nello spazio e/o
nel tempo2 ), notate appunto X e Y .
“treatment” controllo
medicina nuovo farmaco placebo
didattica nuovo programma vecchio programma
marketing dopo la campagna pubb. prima della campagna pubb.
179
4. Per ogni Xi in X1 , . . . , Xm e Yj in Y1 , . . . , Yn vale che Xi e Yj sono fra
loro indipendenti.
σx2 σ2
V (X) = =
m m
σy2 σ2
V (Y ) = =
n n
m n
1 X 1X
cov(X, Y ) = cov( Xi , Yj )
m i=1 n j=1
m n
1 X 1X
= cov( Xi , Yj )
m i=1
n j=1
m n
1 1 X X
= cov( Xi , Yj )
mn i=1 j=1
m n
1 1X X
= cov(Xi , Yj )
m n i=1 j=1
m n
1 1 XX
= cov(Xi , Yj )
m n i=1 j=1 | {z }
0 per ogni i,j
= 0.
V (Y − X) = V (Y ) + V (X) − 2cov(X, Y )
σ2 σ2
1 1
= + = + σ2.
m n m n
180
La statistica
Y −X
τ = s
1 1
+ b2
σ
m n
sotto l’ipotesi nulla H0 : µx = µy è distribuita secondo la distribuzione di
Student
τ ∼ tm+n−2
con m + n − 2 gradi di libertà.
cov(X, Y ) = 0.
La varianza di Y − X sarà dunque uguale a
V (Y − X) = V (Y ) + V (X) − 2cov(X, Y )
σx2 σy2
= + .
m n
Le varianze delle due popolazioni saranno stimate utilizzando lo stimatore
usuale, ovvero
m
1 X
bx2
σ = (xi − x)2
m − 1 i=1
n
1 X
by2 =
σ (yj − y)2 .
n − 1 j=1
181
Sotto l’ipotesi nulla, la distribuzione della statistica
Y −X
τ=r
bx2 σ
σ by2
+
m n
non è conosciuta. Tuttavia vale il seguente risultato:
τ ∼ circa come tk
H0 : σ = σ0
b2
σ
Intuitivamente, se la quantità osservata risulta essere “molto” maggiore
σ02
di uno, allora avremo evidenza contro l’ipotesi nulla (tanto più grande sarà
182
0.16
0.14 χ25
0.12
0.10
f(x)
0.08
0.06
0.04
0.02
α = 5%
0.00 k5%
0 2 4 6 8 10 12 14 16
b2
σ
questo rapporto e tanto maggiore sarà l’evidenza contro H0 ) mentre se ≈1
σ02
non si rifiuterà l’ipotesi nulla. Si può dimostrare che sotto l’ipotesi nulla
n 2
b2 X
σ Xi − X
(n − 1)S(X1 , . . . , Xn ) = (n − 1) 2 = ∼ χ2n−1 .
σ0 i=1
σ0 H0
R = {(x1 , . . . , xn ) | (n − 1)S ≥ kα }
con
PH0 (n − 1)S ≥ kα = α,
| {z }
χ2n−1
183
6.3.3 Test per la dispersione su due campioni (F -Test)
Assumiamo le seguenti ipotesi sulle due popolazioni e sui rispettivi campioni:
1. Le osservazioni X1 , . . . , Xm formano un campione di osservazioni i.i.d.
(indipendenti ed identicamente distribuite) estratte dalla popolazione
X ∼ N (µx , σx2 )
H0 : σx = σy
• V ∼ χ2k
184
U/l
∼ Fl,k (rapporto di due χ2 standardizzate).
V /k
Ragionando sulla struttura della statistica S (b by2 a denomi-
σx2 a numeratore e σ
natore) deduciamo che l’osservazione di un valore elevato costituisce evidenza
contro l’ipotesi nulla e a favore dell’ipotesi alternativa. Si tratta di un test
unilaterale destro. La costruzione della regione critica (zona di rifiuto di H0 )
ad un livello di significatività α è la seguente:
n bx2
σ o
R= (x1 , . . . , xn , y1 , . . . , yn ) | 2 ≥ kα
σ
by
con σbx2
PH 0 ≥ kα =α
by2
σ
|{z}
Fm−1,n−1
185
Intervallo # osservazioni (Oi − Ei )2
Classe # osservazioni Deviazioni
CHF × 1’000 atteso sotto H0 Ei
(O1 − E1 )2
c1 [0, 30) O1 n p1 = E1 O1 − E1
E1
(O2 − E2 )2
c2 [30, 50) O2 n p2 = E2 O2 − E2
E2
.. .. .. .. .. ..
. . . . . .
(Ok − Ek )2
ck [100, 120) Ok n pk = Ek Ok − Ek
Ek
.. .. .. .. .. ..
. . . . . .
(OK − EK )2
cK [200, +) OK n pK = EK OK − EK
EK
PK 2
P K (Ok − Ek )2
Totale n= k=1 Ok n 0 χ = k=1
Ek
Le probabilità pk sono le probabilità teoriche di osservare una realizzazione
nell’intervallo corrispondente, ovvero
Osservazione 6.2. Affinché la statistica così costruita sia valida occorre sele-
zionare le classi in maniera tale che le frequenze teoriche Ei siano maggiori
o uguali a 5. Per tale motivo è talvolta necessario ridurre il numero di classi
aumentando l’ampiezza degli intervalli.
Esempio 6.2. Osserviamo n incidenti della circolazione. Ci chiediamo se la
distribuzione degli incidenti è uniforme rispetto ai mesi dell’anno. Il numero
di classi K sarà quindi uguale a 12. Definiamo con Ok := “# incidenti
186
osservati nel mese k”. La statistica
n 2
12 Ok −
12
X
n
k=1
12
è distribuita secondo una χ211 .
Scelto il valore critico kα , ovvero l’(1−α)-quantile della distribuzione χ211 ,
al livello di significatività desiderato, rigetteremo l’ipotesi nulla se
n 2
X Ok −
12
12 ≥ k
n α
k=1
12
e non la rigetteremo altrimenti.
Statuto socio-economico
Fumatore alto medio basso Totale
attuale O1,1 O1,2 O1,3 O1,·
prima O2,1 O2,2 O2,3 O2,·
mai O3,1 O2,2 O3,3 O3,·
Totale O·,1 O·,2 O·,3 O·,·
Nella tabella, Oi,j indica il numero (ovvero la frequenza assoluta nel cam-
pione) degli individui con stato fumatore i e statuto socio-economico j. Ad
esemio O2,3 è il numero di individui con stato fumatore “prima” (ovvero ex-
fumatori) e statuto socio-economico “basso”. Il punto nel pedice di O indica
l’operazionePdi somma lungo la riga P o la colonna corrispondente. Per esem-
pio O2,· = 3j=1 O2,j oppure O·,1 = 3i=1 Oi,1 . Si noti che O·,· = n ed è la
numerosità del campione.
L’ipotesi nulla che vogliamo testare è H0 : “indipendenza” tra stato fuma-
tore e statuto socio-economico, dal punto di vista statistico. Il campione che
187
estrarremo sarà costituito da n persone. Sotto l’ipotesi nulla di indipenden-
za, come ci aspettiamo che saranno distribuiti le n persone all’interno della
tabella di contingenza? Indichiamo con Ei,j in valore atteso di persone con
stato fumatore i e statuto socio-economico j. Sotto H0
188
che è un valore molto basso, quindi rifiutiamo H0 . In altri termini, la pro-
babilità che una V.A. χ24 (la statistica S) assuma valori uguali o maggiori a
18.51 è molto bassa e data da 0.098%. È quindi altamente improbabile che
S sia distribuita come una χ24 , che era la sua distribuzione derivata sotto H0 ,
e rifiutiamo H0 .
Statuto socio-economico
Fumatore alto medio basso Totale
attuale 51 22 43 116
prima 92 21 28 141
mai 68 9 22 99
Totale 211 52 93 356
189