Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Alessandro Barbiero
EMA at UNIMI
a.a. 2020/2021
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 1 / 44
Introduzione
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 2 / 44
Popolazione e campione
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 3 / 44
Campionamento bernoulliano
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 4 / 44
Campionamento bernoulliano
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 5 / 44
Campionamento bernoulliano vs casuale semplice
(da F.Mecatti, Statistica. Come, quando e perché)
Nella ricerca applicata i campioni casuali sono però in genere estratti senza
reinserimento, per evitare di intervistare più volte la stessa unità statistica e di
ottenere informazioni duplicate.
Quando il campione è estratto senza reinserimento si parla di campione casuale
semplice o anche SRSWoR dall’inglese Simple Random Sample Without
Replacement.
Tuttavia, se n è “sufficientemente grande” e allo stesso tempo n è “piccolo
rispetto a N”, il che è in genere ciò che accade, le due tecniche con o senza
reinserimento portano a risultati equivalenti.
Possiamo infatti intuire che quando estraiamo un’unità da una popolazione molto
grande, se la reinseriamo prima di effettuare un’altra estrazione, la probabilità di
ri-estrarla è molto piccola, diciamo pure 0. Allo stesso tempo, se non la
reinseriamo, la probabilità di estrarre una qualunque delle rimanenti unità rimane
praticamente invariata. Perciò quando la popolazione è molto grande e n/N è
sufficientemente piccolo, tutti gli strumenti di inferenza statistica che richiedono
un campione bernoulliano, si possono applicare anche a campioni senza
reinserimento perché tendono a produrre risultati equivalenti.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 6 / 44
Estrazione di un campione
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 7 / 44
Estrazione di un campione
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 8 / 44
Variabili casuali campionarie
Parametro
Si chiama parametro di una v.c. X e viene in generale indicato con θ una
funzione dei valori che la v.c. assume su tutte le unità della popolazione e
che caratterizza la distribuzione della v.c. stessa.
Stima
La stima t è una funzione dei dati campionari utilizzata per prevedere il
valore incognito di un parametro θ della v.c. X oggetto di studio nella
popolazione di riferimento
Stimatore
Lo stimatore Tn è la v.c. generata dalle stime calcolate su tutti i campioni
di Ωn ; è quindi una v.c. campionaria.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 9 / 44
La v.c. Media Campionaria
Se da una popolazione si estrae un campione bernoulliano di dimensione n
sulle cui unità si osservano i valori di una variabile X , si ottengono i valori
campionari (x1 , . . . , xn ) la cui media è data da
n
1X
x̄ = xi (1)
n i=1
Al variare del campione, gli n valori xi variano e quindi varia anche il valore
della (1). Se si considerano tutti i possibili campioni di dimensione n che si
possono estrarre dalla popolazione e tutte le medie a essi associati, si
definisce la distribuzione di una v.c. o stimatore X̄ media campionaria.
Si può dimostrare che il valore atteso e la varianza di questa v.c. sono
rispettivamente uguali al valore atteso µ della variabile X e alla sua
varianza divisa per la numerosità campionaria.
E (X̄ ) = µ (2)
σ2
Var (X̄ ) = σX̄2 = (3)
n
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 10 / 44
La v.c. Media Campionaria
Infatti:
n n n n
! !
1X 1 X 1X 1X 1
E (X̄ ) = E Xi = E ·Xi = ·E (Xi ) = µ = · nµ
n i=1 n i=1
n i=1 n i=1 n
=µ
e
n n n n
! !
1X 1 X 1 X 1 X
Var (X̄ ) = Var Xi = 2 Var ·Xi = Var (X i ) = σ2
n i=1 n i=1
n2 i=1 n2 i=1
1 σ2
= · nσ =
n2 n
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 11 / 44
La v.c. Varianza Campionaria
Se si calcola la varianza del campione (x1 , . . . , xn ) estratto da X si ottiene
la quantità
n
1X
s̃ 2 = (xi − x̄ )2 (4)
n i=1
Al variare del campione, (4) descrive la variabile casuale o stimatore
varianza campionaria S̃ 2 .
Si può dimostrare che il valore atteso di questa v.c. è
n−1 2
E (S̃ 2 ) = σ (5)
n
Considerando invece la quantità
n
2 1 X
s = (xi − x̄ )2 (6)
n − 1 i=1
che al variare del campione genera lo stimatore S 2 , chiamato varianza
campionaria corretta, il suo valore atteso è
E (S 2 ) = σ 2 (7)
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 12 / 44
La v.c. Proporzione Campionaria
Consideriamo un fenomeno che possa assumere solo due modalità, A e A. Nella
popolazione, se supposta finita, ci saranno NA unità con tale modalità e N − NA
con modalità A. La proporzione di unità con modalità A è quindi p = NA /N.
Nel campione di n unità se ne possono osservare x con la modalità A e n − x con
la complementare Ā. Così,
x
p̂ =
n
rappresenta la proporzione campionaria che è una stima dell’ignoto p.
X
Al variare del campione, p̂ descrive lo stimatore P̂ = , dove la v.c. a
n
numeratore ha distribuzione binomiale, con valore atteso np e varianza np(1 − p).
Valore atteso e varianza di P̂ sono allora dati da
1 np
E (P̂) = E (X ) = =p (8)
n n
1 np(1 − p) p(1 − p)
Var(P̂) = Var(X ) = = (9)
n2 n2 n
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 13 / 44
Esempio
mentre la varianza
N
1 X 1 30
σ2 = (xi −µ)2 = [(0−3)2 +(1−3)2 +(3−3)2 +(4−3)2 +(7−3)2 ] = =
N i=1 5 5
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 14 / 44
Esempio
Consideriamo adesso tutti i N n = 52 = 25 campioni bernoulliani di
dimensione n = 2 che possono essere estratti da P, c1 , c2 , . . . , c25 , e
calcoliamo su ciascuno di essi il valore della media campionaria, della
varianza campionaria, e della varianza campionaria corretta.
Ad esempio, per il campione c1 = (a, a), su cui rilevo i valori 0 e 0,
ottengo:
x̄ = 0, s̃ 2 = 0, s 2 = 0
Per il campione c2 = (a, b), su cui osservo i valori 0 e 1, ho
1
x̄ = 0.5, s̃ 2 = [(0 − 0.5)2 + (1 − 0.5)2 ] = 0.25, s 2 = 0.5
2
Per il campione c8 = (b, c), su cui osservo i valori 1 e 3, ho
1
x̄ = 2, s̃ 2 = [(1 − 2)2 + (3 − 2)2 ] = 1, s2 = 2
2
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 15 / 44
Esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 16 / 44
Esempio
Calcolando la media di x̄ , s̃ 2 e s 2 sui 25 campioni bernoulliani (tutti
equiprobabili con probabilità di estrazione 1/25), otteniamo i valori attesi
delle tre v.c. campionarie X̄ , S̃ 2 e S 2 :
1
E (X̄ ) = (0 + 0.5 + 1.5 + · · · + 5.5. + 7) = 3 = µ
25
1 n−1 2
E (S̃ 2 ) = (0 + 0.25 + 2.25 + · · · + 2.25 + 0) = 3 = σ
25 n
1
E (S 2 ) = (0 + 0.5 + 4.5 + · · · + 4.5 + 0) = 6 = σ 2
25
Calcolando la varianza di x̄ sui 25 campioni bernoulliani, otteniamo:
1 σ2
Var (X̄ ) = [(0 − 3)2 + (0.5 − 3)2 + · · · + (7 − 3)2 ] = 3 =
25 n
Abbiamo così verificato empiricamente le proprietà degli stimatori media e
varianza campionaria.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 17 / 44
Esempio
Dalla tabella precedente, siamo anche in grado di costruire le distribuzioni
di probabilità (o, meglio, le f.p.) delle tre v.c. campionarie.
In particolare, per la media campionaria X̄ la f.p. può essere scritta in
questa tabella...:
x p(x )
0 1/25
0.5 2/25
1 1/25
1.5 2/25
2 4/25
2.5 2/25
3 1/25
3.5 4/25
4 3/25
5 2/25
5.5 2/25
7 1/25
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 18 / 44
Esempio
... e rappresentata graficamente tramite il seguente diagramma a
bastoncini:
funzione di probabilità
0.16
0.12
p(x)
0.08
0.04
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 5.0 5.5 7.0
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 19 / 44
Stima statistica
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 20 / 44
Stima puntuale
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 21 / 44
Correttezza di uno stimatore
Definizione 3.4. (Correttezza o non distorsione)
Uno stimatore Tn si dice corretto (o non distorto) se il suo valore atteso
coincide con il parametro oggetto di stima:
E (Tn ) = θ (10)
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 23 / 44
Mean Squared Error
Per uno stimatore Tn di un parametro θ possiamo introdurre l’errore quadratico
medio o mean squared error
Per uno stimatore non distorto (Bn = 0), quindi, MSE e varianza coincidono!
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 24 / 44
Efficienza relativa di uno stimatore
E’ chiaro che tra due stimatori corretti si prediliga quello con minore
varianza, cioè quello che è più concentrato attorno a θ!
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 25 / 44
Esempio
Consideriamo la v.c. X con valore atteso µ e varianza σ 2 , e i due stimatori
di µ T (1) = (X1 + X2 )/2 e T (2) = X1 /3 + 2X2 /3 calcolati su un campione
di dimensione n = 2 estratto da X .
Verificare che sono entrambi non distorti e che T (1) è più efficiente di T (2) .
Soluzione. Si ha
Quindi sono entrambi non distorti (il loro valore atteso coincide con µ),
ma T (1) è più efficiente di T (2) , essendo
Var (T (1) ) = σ 2 /2 < 59 σ 2 = Var (T (2) ), se σ 2 6= 0, per ogni possibile valore
di µ!
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 26 / 44
Proprietà della media campionaria
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 27 / 44
Esercizio
Si supponga il peso X di una confezione di biscotti possa essere modellata
tramite una v.c. normale di media µ = 150 e varianza σ 2 = 9. Estratte 5
confezioni a caso dalla produzione giornaliera, calcolare la probabilità che il
loro peso medio sia compreso tra 148 e 152 grammi.
Soluzione: si ha dunque X ∼ N(µ = 150, σ 2 = 9). Le 5 confezioni estratte
a caso si configuano come un campione bernoulliano di dimensione n = 5
e il peso medio altro non è che la media campionaria x̄ dei 5 pesi. Essendo
X normale, si ha che pure X̄ (stimatore media campionaria) è normale, di
media µ = 150 e varianza σ 2 /n = 9/5. Quindi
! !
152 − 150 148 − 150
P(148 < X̄ < 152) = Φ p −Φ p
9/5 9/5
= Φ(1.49) − Φ(−1.49) = 0.9319 − 0.0681
= 0.8638
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 28 / 44
Esercizio
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 29 / 44
Proprietà della proporzione campionaria
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 30 / 44
Esempio
Una certa popolazione di individui presenta una proporzione di fumatori
pari al 25%. Estraendo un campione di dimensione 1000 da tale
popolazione, qual è approssimativamente la probabilità di avere una
proporzione di fumatori compresa tra il 23 e il 27%?
Soluzione. Basandoci sulla approssimazione della slide precedente, con
p = .25 e n = 1000, possiamo scrivere
!
0.23 − p P̂ − p 0.27 − p
P(0.23 < P̂ < 0.27) = P p ≤p ≤p
p(1 − p)/n p(1 − p)/n p(1 − p)/n
0.23 − 0.25 0.27 − 0.25
≈P q ≤Z ≤ q
0.25·0.75 0.25·0.75
1000 1000
= P(−1.46 ≤ Z ≤ 1.46) = Φ(1.46) − Φ(−1.46)
= 0.8557
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 32 / 44
Intervallo di confidenza per µ
Sia X ∼ N(µ, σ 2 ).
Fissato il livello di probabilità (1 − α), si può scrivere
σ σ
P(µ − z1−α/2 √ < X̄ < µ + z1−α/2 √ ) = 1 − α (15)
n n
σ σ
P(X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ) = 1 − α (16)
n n
xn
xn
xn
xn
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 36 / 44
Intervallo di confidenza per µ
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 37 / 44
Intervallo di confidenza per µ quando non è nota la
varianza σ 2
Quando non è nota, la varianza σ 2 viene stimata con la varianza
campionaria s 2 che genera lo stimatore S 2 . La quantità
X̄ − µ
T = , (17)
S
√
n
ha la distribuzione della v.c. T di Student, caratterizzata dal parametro
g = n − 1. La v.c. descritta dalla (17) è nota come quantità pivotale in
quanto, pur essendo funzione di un parametro ignoto (µ) ha la
distribuzione che ne è indipendente. Da (17) si perviene a
S S
P X̄ − tg;1−α/2 √ < µ < X̄ + tg;1−α/2 √ =1−α (18)
n n
dove il quantile tg;1−α/2 si ricava dalla tavola della v.c. T .
N.B.: si noti che l’IC è (ancora) centrato attorno alla media campionaria
X̄ .
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 38 / 44
Esempio
Per un lotto di 10 confezioni di biscotti sono stati osservati i seguenti pesi
espressi in grammi:
149, 151.5, 154, 146.5, 147.5, 150.5, 148.5, 153, 149.5, 155
Supponendo che il peso X delle confezioni sia modellabile come una v.c.
normale di varianza ignota, determinare un intervallo di confidenza al 95%
per l’ignota media µ di X .
Soluzione. Il peso X è dunque una v.c. N(µ, σ 2 ) con entrambi i parametri
ignoti. La varianza campionaria corretta s 2 vale
n
1 X 1
s2 = (xi − x̄ )2 = [(149 − 150.5)2 + . . . (155 − 150.5)2 ] = 8
n − 1 i=1 9
Essendo 1 − α = 0.95, si ha che il quantile di livello 1 − α/2 = 0.975 per
la t di Student con n − 1 = 9 g.l. è t0.975;9 = 2.262. L’IC cercato è quindi
s
150.5 ∓ 2.262 ·
8
= (148.48, 152.52)
10
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 39 / 44
Intervallo di confidenza per p
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 40 / 44
Esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 41 / 44
Dimensione campionaria in funzione dell’errore
L’errore si può definire come |θ − t|. L’entità di tale errore non è nota,
essendo θ ignoto, tuttavia il ricercatore può decidere di tollerare un errore
non superiore a |θ − t| ≤ , a un prefissato livello di probabilità 1 − α. Nel
caso θ = µ:
σ
P |X̄ − µ| ≤ z1−α/2 √ =1−α (19)
n
si ha = |x̄ − µ| ≤ z1−α/2 √σn , da cui elevando al quadrato e considerando
l’estremo superiore dell’errore:
σ2
2 = z1−α/2
2
· (20)
n
da cui
2 σ2
n = z1−α/2 · (21)
2
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 42 / 44
Dimensione campionaria in funzione dell’errore
Per calcolare la dimensione campionaria minima quando il parametro di
interesse è una proporzione p, si procede in modo analogo a quanto fatto
in precedenza. Considerando l’espressione dell’intervallo di confidenza per
p, si ha
2 p(1 − p)
= z1−α/2
n
da cui
2 p(1 − p)
n = z1−α/2 (22)
2
p tuttavia è ignoto: come fare? Se non ci sono elementi per definire una
pre-stima di p, ci si mette nella condizione “peggiore”, che è quella in cui
p = 1 − p = 1/2, ottenendo così
2
z1−α/2
n=
42
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 43 / 44
Esempio
42
ovvero, essendo = 0.025 e z0.975 = 1.96:
1.962
n≥ = 1536.64
4 · 0.0252
cioè devo avere un numero minimo di 1537 intervistati.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 44 / 44