Sei sulla pagina 1di 44

Statistica: Teoria della Stima Statistica

Alessandro Barbiero

EMA at UNIMI

a.a. 2020/2021

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 1 / 44
Introduzione

indagine campionaria vs indagine censuaria


nel primo caso, la caratteristica di interesse del fenomeno va stimata,
introducendo dell’incertezza
quale stima scegliere? come valutarne l’errore? quali ipotesi si
possono formulare sulle caratteristiche di un fenomeno?
teoria della stima statistica & verifica delle ipotesi statistiche
l’inferenza statistica può essere definita come la disciplina che utilizza
l’informazione campionaria, per fare delle affermazioni sulla
popolazione da cui il campione è stato tratto

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 2 / 44
Popolazione e campione

campione estratto da popolazione con procedimento di estrazione


probabilistico: esistono molti metodi per effettuare il campionamento,
più o meno complessi e sofisticati
campionamento a probabilità costante vs variabile
campioni ordinati e non ordinati
campioni con reinserimento e senza reinserimento
popolazione finita o illimitata

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 3 / 44
Campionamento bernoulliano

indagini in ambito sociale o economico: popolazione finita


indagini sperimentali: popolazione virtualmente infinita
Campionamento bernoulliano:
1 l’operazione di selezione può continuare indefinitivamente
2 probabilità delle successive estrazioni indipendenti dal risultato delle
precedenti
3 composizione della popolazione rimane immutata e probabilità di
selezione delle unità sono costanti estrazione per estrazione

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 4 / 44
Campionamento bernoulliano

Si consideri una popolazione composta da cinque unità P = {a, b, c, d, e}


e si costruisca lo spazio dei campioni ordinati con reinserimento.
Si ha che lo spazio campionario Ω2 è costituito dai seguenti N n = 52 = 25
campioni:
c1 = (a, a), c2 = (a, b), c3 = (a, c), c4 = (a, d), c5 = (a, e),
c6 = (b, a), c7 = (b, b), c8 = (b, c), c9 = (b, d), c10 = (b, e),
c11 = (c, a), c12 = (c, b), c13 = (c, c), c14 = (c, d), c15 = (c, e),
c16 = (d, a), c17 = (d, b), c18 = (d, c), c19 = (d, d), c20 = (d, e),
c21 = (e, a), c22 = (e, b), c23 = (e, c), c24 = (e, d), c25 = (e, e)

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 5 / 44
Campionamento bernoulliano vs casuale semplice
(da F.Mecatti, Statistica. Come, quando e perché)
Nella ricerca applicata i campioni casuali sono però in genere estratti senza
reinserimento, per evitare di intervistare più volte la stessa unità statistica e di
ottenere informazioni duplicate.
Quando il campione è estratto senza reinserimento si parla di campione casuale
semplice o anche SRSWoR dall’inglese Simple Random Sample Without
Replacement.
Tuttavia, se n è “sufficientemente grande” e allo stesso tempo n è “piccolo
rispetto a N”, il che è in genere ciò che accade, le due tecniche con o senza
reinserimento portano a risultati equivalenti.
Possiamo infatti intuire che quando estraiamo un’unità da una popolazione molto
grande, se la reinseriamo prima di effettuare un’altra estrazione, la probabilità di
ri-estrarla è molto piccola, diciamo pure 0. Allo stesso tempo, se non la
reinseriamo, la probabilità di estrarre una qualunque delle rimanenti unità rimane
praticamente invariata. Perciò quando la popolazione è molto grande e n/N è
sufficientemente piccolo, tutti gli strumenti di inferenza statistica che richiedono
un campione bernoulliano, si possono applicare anche a campioni senza
reinserimento perché tendono a produrre risultati equivalenti.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 6 / 44
Estrazione di un campione

L’esperimento “selezione di n unità” da una popolazione produce un insieme di


possibili eventi che sono tutti i possibili campioni che definiscono lo spazio
campionario, Ωn .
Data una popolazione di dimensione N cui è associata una variabile X l’estrazione
di un campione bernoulliano (ordinato con reinserimento) di dimensione n porta
alla conoscenza di n valori xi , i = 1, . . . , n.
La generica osservazione campionaria xi è il risultato dell’esecuzione di un
esperimento casuale; è pertanto un evento casuale e può coincidere con uno
(qualunque) dei possibili valori della variabile (casuale) X . Allora, anche il
risultato di ogni estrazione campionaria è interpretato da una v.c. Xi che
chiameremo v.c. estrazione campionaria e di cui l’osservazione campionaria xi
rappresenta uno dei possibili valori.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 7 / 44
Estrazione di un campione

Poiché nel campione bernoulliano le estrazioni sono indipendenti, allora le


v.c estrazioni campionarie Xi sono tra loro indipendenti. Infine, poiché xi
può coincidere con uno qualunque dei possibili valori del fenomeno, a sua
volta interpretato dalla v.c. X , si ha anche che ciascuna v.c. estrazione
campionaria Xi è identica in distribuzione a X (cioè ha la stessa
distribuzione, ovvero la stessa f.p. se discreta o f.d. se continua) e, in
quanto identica, ha la stessa media e la stessa varianza.
Le v.c. X1 , X2 , . . . , Xn sono quindi indipendenti e identicamente distribuite
(i.i.d).

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 8 / 44
Variabili casuali campionarie

Parametro
Si chiama parametro di una v.c. X e viene in generale indicato con θ una
funzione dei valori che la v.c. assume su tutte le unità della popolazione e
che caratterizza la distribuzione della v.c. stessa.

Stima
La stima t è una funzione dei dati campionari utilizzata per prevedere il
valore incognito di un parametro θ della v.c. X oggetto di studio nella
popolazione di riferimento

Stimatore
Lo stimatore Tn è la v.c. generata dalle stime calcolate su tutti i campioni
di Ωn ; è quindi una v.c. campionaria.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 9 / 44
La v.c. Media Campionaria
Se da una popolazione si estrae un campione bernoulliano di dimensione n
sulle cui unità si osservano i valori di una variabile X , si ottengono i valori
campionari (x1 , . . . , xn ) la cui media è data da
n
1X
x̄ = xi (1)
n i=1
Al variare del campione, gli n valori xi variano e quindi varia anche il valore
della (1). Se si considerano tutti i possibili campioni di dimensione n che si
possono estrarre dalla popolazione e tutte le medie a essi associati, si
definisce la distribuzione di una v.c. o stimatore X̄ media campionaria.
Si può dimostrare che il valore atteso e la varianza di questa v.c. sono
rispettivamente uguali al valore atteso µ della variabile X e alla sua
varianza divisa per la numerosità campionaria.
E (X̄ ) = µ (2)
σ2
Var (X̄ ) = σX̄2 = (3)
n
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 10 / 44
La v.c. Media Campionaria

Infatti:
n n n n
! !
1X 1 X 1X 1X 1
E (X̄ ) = E Xi = E ·Xi = ·E (Xi ) = µ = · nµ
n i=1 n i=1
n i=1 n i=1 n

e
n n n n
! !
1X 1 X 1 X 1 X
Var (X̄ ) = Var Xi = 2 Var ·Xi = Var (X i ) = σ2
n i=1 n i=1
n2 i=1 n2 i=1
1 σ2
= · nσ =
n2 n

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 11 / 44
La v.c. Varianza Campionaria
Se si calcola la varianza del campione (x1 , . . . , xn ) estratto da X si ottiene
la quantità
n
1X
s̃ 2 = (xi − x̄ )2 (4)
n i=1
Al variare del campione, (4) descrive la variabile casuale o stimatore
varianza campionaria S̃ 2 .
Si può dimostrare che il valore atteso di questa v.c. è
n−1 2
E (S̃ 2 ) = σ (5)
n
Considerando invece la quantità
n
2 1 X
s = (xi − x̄ )2 (6)
n − 1 i=1
che al variare del campione genera lo stimatore S 2 , chiamato varianza
campionaria corretta, il suo valore atteso è
E (S 2 ) = σ 2 (7)
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 12 / 44
La v.c. Proporzione Campionaria
Consideriamo un fenomeno che possa assumere solo due modalità, A e A. Nella
popolazione, se supposta finita, ci saranno NA unità con tale modalità e N − NA
con modalità A. La proporzione di unità con modalità A è quindi p = NA /N.
Nel campione di n unità se ne possono osservare x con la modalità A e n − x con
la complementare Ā. Così,
x
p̂ =
n
rappresenta la proporzione campionaria che è una stima dell’ignoto p.
X
Al variare del campione, p̂ descrive lo stimatore P̂ = , dove la v.c. a
n
numeratore ha distribuzione binomiale, con valore atteso np e varianza np(1 − p).
Valore atteso e varianza di P̂ sono allora dati da
1 np
E (P̂) = E (X ) = =p (8)
n n
1 np(1 − p) p(1 − p)
Var(P̂) = Var(X ) = = (9)
n2 n2 n

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 13 / 44
Esempio

Consideriamo la popolazione di N = 5 unità statistiche vista in precedenza


e supponiamo che su di esse una variabile quantitativa X assuma le
seguenti determinazioni: 0 (per l’unità a), 1 (per b), 3 (c), 4 (d), 7 (e).
La media di X sulla popolazione vale allora
N
1 X 1
µ= xi = (0 + 1 + 3 + 4 + 7) = 3
N i=1 5

mentre la varianza
N
1 X 1 30
σ2 = (xi −µ)2 = [(0−3)2 +(1−3)2 +(3−3)2 +(4−3)2 +(7−3)2 ] = =
N i=1 5 5

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 14 / 44
Esempio
Consideriamo adesso tutti i N n = 52 = 25 campioni bernoulliani di
dimensione n = 2 che possono essere estratti da P, c1 , c2 , . . . , c25 , e
calcoliamo su ciascuno di essi il valore della media campionaria, della
varianza campionaria, e della varianza campionaria corretta.
Ad esempio, per il campione c1 = (a, a), su cui rilevo i valori 0 e 0,
ottengo:
x̄ = 0, s̃ 2 = 0, s 2 = 0
Per il campione c2 = (a, b), su cui osservo i valori 0 e 1, ho

1
x̄ = 0.5, s̃ 2 = [(0 − 0.5)2 + (1 − 0.5)2 ] = 0.25, s 2 = 0.5
2
Per il campione c8 = (b, c), su cui osservo i valori 1 e 3, ho

1
x̄ = 2, s̃ 2 = [(1 − 2)2 + (3 − 2)2 ] = 1, s2 = 2
2

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 15 / 44
Esempio

Table: Lista di tutti i possibili campioni di dimensione n = 2 estraibili da P e


corrispondenti valori di media e varianze campionarie
campione valori x̄ s̃ 2 s2 campione valori x̄ s̃ 2 s2
c1 (0,0) 0 0 0 c14 (3,4) 3.5 0.25 0.5
c2 (0,1) 0.5 0.25 0.5 c15 (3,7) 5 4 8
c3 (0,3) 1.5 2.25 4.5 c16 (4,0) 2 4 8
c4 (0,4) 2 4 8 c17 (4,1) 2.5 2.25 4.5
c5 (0,7) 3.5 12.25 24.5 c18 (4,3) 3.5 0.25 0.5
c6 (1,0) 0.5 0.25 0.5 c19 (4,4) 4 0 0
c7 (1,1) 1 0 0 c20 (4,7) 5.5 2.25 4.5
c8 (1,3) 2 1 2 c21 (7,0) 3.5 12.25 24.5
c9 (1,4) 2.5 2.25 4.5 c22 (7,1) 4 9 18
c10 (1,7) 4 9 18 c23 (7,3) 5 4 8
c11 (3,0) 1.5 2.25 4.5 c24 (7,4) 5.5 2.25 4.5
c12 (3,1) 2 1 2 c25 (7,7) 7 0 0
c13 (3,3) 3 0 0

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 16 / 44
Esempio
Calcolando la media di x̄ , s̃ 2 e s 2 sui 25 campioni bernoulliani (tutti
equiprobabili con probabilità di estrazione 1/25), otteniamo i valori attesi
delle tre v.c. campionarie X̄ , S̃ 2 e S 2 :
1
E (X̄ ) = (0 + 0.5 + 1.5 + · · · + 5.5. + 7) = 3 = µ
25
1 n−1 2
E (S̃ 2 ) = (0 + 0.25 + 2.25 + · · · + 2.25 + 0) = 3 = σ
25 n
1
E (S 2 ) = (0 + 0.5 + 4.5 + · · · + 4.5 + 0) = 6 = σ 2
25
Calcolando la varianza di x̄ sui 25 campioni bernoulliani, otteniamo:

1 σ2
Var (X̄ ) = [(0 − 3)2 + (0.5 − 3)2 + · · · + (7 − 3)2 ] = 3 =
25 n
Abbiamo così verificato empiricamente le proprietà degli stimatori media e
varianza campionaria.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 17 / 44
Esempio
Dalla tabella precedente, siamo anche in grado di costruire le distribuzioni
di probabilità (o, meglio, le f.p.) delle tre v.c. campionarie.
In particolare, per la media campionaria X̄ la f.p. può essere scritta in
questa tabella...:
x p(x )
0 1/25
0.5 2/25
1 1/25
1.5 2/25
2 4/25
2.5 2/25
3 1/25
3.5 4/25
4 3/25
5 2/25
5.5 2/25
7 1/25
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 18 / 44
Esempio
... e rappresentata graficamente tramite il seguente diagramma a
bastoncini:
funzione di probabilità

0.16

0.12
p(x)

0.08

0.04

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 5.0 5.5 7.0

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 19 / 44
Stima statistica

Quando si estrae un campione per stimare l’ignoto parametro di una


variabile di interesse nella popolazione, si dispone di una sola stima. Come
utilizzare questo valore per stimare l’incognito parametro?
stima puntuale: con un unico valore, spero di “azzeccare” l’ignoto
valore del parametro θ
stima intervallare: costruisco un intervallo di valori all’interno del
quale “confido”, con un livello di confidenza assegnato, che cada
l’ignoto valore del parametro θ

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 20 / 44
Stima puntuale

Avendo a disposizione la stima t del parametro θ, le garanzie di


affidabilità, cioè accuratezza, risiedono nel metodo di costruzione degli
stimatori e nelle loro proprietà.
Si dovrebbe perciò utilizzare uno stimatore con “delle buone proprietà”,
che fornisce mediamente (cioè su tutti i campioni di Ωn ) delle “buone”
stime, anche se per lo specifico campione estratto la stima potrebbe
rivelarsi pessima...
(Vedasi anche dispensa “Stima”)

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 21 / 44
Correttezza di uno stimatore
Definizione 3.4. (Correttezza o non distorsione)
Uno stimatore Tn si dice corretto (o non distorto) se il suo valore atteso
coincide con il parametro oggetto di stima:

E (Tn ) = θ (10)

Se lo stimatore non soddisfa la condizione di cui sopra, allora di dice


distorto e la sua distorsione, indicata con Bn , è data dalla differenza tra il
valore atteso e il parametro oggetto di stima:
Bn = E (Tn ) − θ (11)
Se all’aumentare di n la distorsione tende a zero lo stimatore si dice
asintoticamente corretto o asintoticamente non distorto:
lim E (Tn ) = θ (12)
n→∞

P.S.: col pedice n, sottolineiamo la dipendenza dello stimatore o della


quantità dalla numerosità campionaria n
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 22 / 44
Consistenza di uno stimatore

Definizione 3.5. (Consistenza)


Se uno stimatore è corretto o almeno asintoticamente corretto, e se
all’aumentare di n la sua varianza tende a zero, cioè:

lim Var (Tn ) = 0 (13)


n→∞

allora lo stimatore Tn è detto consistente.

Uno stimatore consistente, quindi, all’aumentare della numerosità


campionaria n tende a ridurre la propria varianza e a “concentrarsi”
attorno al valore θ.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 23 / 44
Mean Squared Error
Per uno stimatore Tn di un parametro θ possiamo introdurre l’errore quadratico
medio o mean squared error

MSE (Tn ) = E [Tn − θ]2

che rappresenta appunto l’errore quadratico medio commesso dallo stimatore Tn


nello stimare θ.
Il MSE può essere così scomposto:

MSE (Tn ) = E [Tn − θ]2 = E [Tn −E (Tn ) + E (Tn ) − θ]2


= E [(Tn − E (Tn ))2 + (E (Tn ) − θ)2 + 2(Tn − E (Tn )) · (E (Tn ) − θ)]
= E (Tn − E (Tn ))2 + E (E (Tn ) − θ)2 + 2E [(Tn − E (Tn )) · (E (Tn ) − θ)]
= E (Tn − E (Tn ))2 + E (E (Tn ) − θ)2 + 2(E (Tn ) − θ) · E [(Tn − E (Tn ))]
= Var (Tn ) + Bn2 + 2Bn · 0
= Var (Tn ) + Bn2

Per uno stimatore non distorto (Bn = 0), quindi, MSE e varianza coincidono!

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 24 / 44
Efficienza relativa di uno stimatore

Definizione 3.6. (Efficienza relativa)


(1)
Uno stimatore corretto Tn è più efficiente di un secondo stimatore
(2)
corretto Tn se la sua varianza è più piccola:

Var (Tn(1) ) < Var (Tn(2) ) (14)

E’ chiaro che tra due stimatori corretti si prediliga quello con minore
varianza, cioè quello che è più concentrato attorno a θ!

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 25 / 44
Esempio
Consideriamo la v.c. X con valore atteso µ e varianza σ 2 , e i due stimatori
di µ T (1) = (X1 + X2 )/2 e T (2) = X1 /3 + 2X2 /3 calcolati su un campione
di dimensione n = 2 estratto da X .
Verificare che sono entrambi non distorti e che T (1) è più efficiente di T (2) .

Soluzione. Si ha

E (T (1) ) = µ, Var (T (1) ) = σ 2 /2

(è lo stimatore media campionaria!)


 2  2
(2) µ 2µ 1 2 σ 2 4σ 2 5
E (T )= + = µ, Var (T (2) ) = 2
σ + σ2 = + = σ2
3 3 3 3 9 9 9

Quindi sono entrambi non distorti (il loro valore atteso coincide con µ),
ma T (1) è più efficiente di T (2) , essendo
Var (T (1) ) = σ 2 /2 < 59 σ 2 = Var (T (2) ), se σ 2 6= 0, per ogni possibile valore
di µ!
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 26 / 44
Proprietà della media campionaria

Per lo stimatore media campionaria valgono le seguenti proprietà


se X ha distribuzione normale, X̄ ha pure distribuzione normale
anche se X non ha distribuzione normale, sotto opportune condizioni,
X̄ tende alla distribuzione normale all’aumentare di n (TLC)
quale che sia la distribuzione di X , E (X̄ ) = µ e Var(X̄ ) = σ 2 /n
Lo stimatore media campionaria è quindi corretto (o, meglio, non distorto)
e consistente.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 27 / 44
Esercizio
Si supponga il peso X di una confezione di biscotti possa essere modellata
tramite una v.c. normale di media µ = 150 e varianza σ 2 = 9. Estratte 5
confezioni a caso dalla produzione giornaliera, calcolare la probabilità che il
loro peso medio sia compreso tra 148 e 152 grammi.
Soluzione: si ha dunque X ∼ N(µ = 150, σ 2 = 9). Le 5 confezioni estratte
a caso si configuano come un campione bernoulliano di dimensione n = 5
e il peso medio altro non è che la media campionaria x̄ dei 5 pesi. Essendo
X normale, si ha che pure X̄ (stimatore media campionaria) è normale, di
media µ = 150 e varianza σ 2 /n = 9/5. Quindi
! !
152 − 150 148 − 150
P(148 < X̄ < 152) = Φ p −Φ p
9/5 9/5
= Φ(1.49) − Φ(−1.49) = 0.9319 − 0.0681
= 0.8638

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 28 / 44
Esercizio

Funzioni di densità della v.c. X peso di una confezione di biscotti (curva


nera) e X̄ , media campionaria su campione di dimensione n = 5 (curva
rossa).

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 29 / 44
Proprietà della proporzione campionaria

Per lo stimatore proporzione campionaria


E(P̂) = p e Var(P̂) = p(1 − p)/n
Lo stimatore media campionaria è quindi corretto (o, meglio, non distorto)
e consistente.
In più, è asintoticamente normale: per n “sufficientemente grande”, si ha
che
P̂ − p
p ≈ Z = N(0, 1)
p(1 − p)/n
e anche
P̂ − p
q ≈ Z = N(0, 1)
P̂(1 − P̂)/n

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 30 / 44
Esempio
Una certa popolazione di individui presenta una proporzione di fumatori
pari al 25%. Estraendo un campione di dimensione 1000 da tale
popolazione, qual è approssimativamente la probabilità di avere una
proporzione di fumatori compresa tra il 23 e il 27%?
Soluzione. Basandoci sulla approssimazione della slide precedente, con
p = .25 e n = 1000, possiamo scrivere
!
0.23 − p P̂ − p 0.27 − p
P(0.23 < P̂ < 0.27) = P p ≤p ≤p
p(1 − p)/n p(1 − p)/n p(1 − p)/n
 
0.23 − 0.25 0.27 − 0.25 
≈P q ≤Z ≤ q
0.25·0.75 0.25·0.75
1000 1000
= P(−1.46 ≤ Z ≤ 1.46) = Φ(1.46) − Φ(−1.46)
= 0.8557

P.S.: la probabilità esatta si potrebbe calcolare come P(230 ≤ Y ≤ 270)


dove Y ∼ Binom(1000, 0.25): perché?
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 31 / 44
Stima intervallare

Con la stima puntuale, non è possibile tener conto del livello di


attendibilità della stima.
Con la stima per intervalli è possibile individuare, per un fissato livello di
probabilità (1 − α), un intervallo casuale che contiene il parametro θ, i cui
estremi dipendono dai dati campionari.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 32 / 44
Intervallo di confidenza per µ
Sia X ∼ N(µ, σ 2 ).
Fissato il livello di probabilità (1 − α), si può scrivere
σ σ
P(µ − z1−α/2 √ < X̄ < µ + z1−α/2 √ ) = 1 − α (15)
n n

dove z1−α/2 è il quantile di livello (1 − α/2) della v.c. normale standard.


Dall’uguaglianza sopra si ottiene

σ σ
P(X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ) = 1 − α (16)
n n

che esprime la probabilità che un intervallo con estremi variabili


X̄ ∓ z1−α/2 √σn contenga l’ignoto ma costante valore µ.
Nella realtà, si dispone di un solo campione e quindi di un solo intervallo di
confidenza; perciò, si confida che tale campione appartenga a quel
(1 − α)100% dei campioni che portano ad un intervallo contenente µ; ecco
perché (1 − α) si chiama livello di confidenza.
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 33 / 44
Livello di confidenza
xn

xn

xn

xn

xn

Il livello di confidenza può essere visto come la frequenza relativa di quegli


intervalli aleatori (costruiti su campioni di dimensione n) che contengono il
valore incognito µ.
Alcuni intervalli (i rossi) non contengono il valore µ, altri invece lo
contengono (i neri).
Notate che tutti gli intervalli sono centrati su x̄ e hanno la medesima
ampiezza!
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 34 / 44
Esempio
Per un lotto di 10 confezioni di biscotti sono stati osservati i seguenti pesi
espressi in grammi:
149, 151.5, 154, 146.5, 147.5, 150.5, 148.5, 153, 149.5, 155
Supponendo che il peso X delle confezioni sia modellabile come una v.c.
normale di varianza nota pari a 9, determinare un intervallo di confidenza
al 95% per l’ignota media µ di X .
Soluzione. Il peso X è dunque una v.c. N(µ, σ 2 = 9). La media
campionaria per il campione considerato vale
10
1X 1
x̄ = xi = (149 + 151.5 + · · · + 155) = 150.5
n i=1 10
Essendo 1 − α = 0.95, si ha che il quantile di livello 1 − α/2 = 0.975 è
z0.975 = 1.96. L’IC cercato è quindi
 s 
150.5 ∓ 1.96 ·
9
= (148.64, 152.36)
10
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 35 / 44
Esempio

Sotto le stesse ipotesi, calcolare ora un intervallo al 99% per µ.

Soluzione. Rispetto a prima, cambia solo il livello di confidenza


1 − α = 0.99 e il corrispondente quantile di livello 1 − α/2 = 0.995 che è
z0.995 = 2.575. Così si ottiene l’IC
 s 
150.5 ∓ 2.575 ·
9
= (148.06, 152.94)
10

che è più ampio del precedente.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 36 / 44
Intervallo di confidenza per µ

Un intervallo di confidenza piccolo è più informativo di un intervallo ampio;


l’ampiezza dell’intervallo è quindi un elemento importante per la stima.
L’ampiezza dell’intervallo di confidenza per la media ignota di una v.c.
normale con varianza nota è data da
σ
a = 2 · z1−α/2 · √ .
n

Non potendo intervenire su σ, che è un parametro della popolazione, il


ricercatore può invece intervenire sul livello di confidenza 1 − α e su n
se (1 − α) aumenta, z1−α/2 aumenta, e l’ampiezza aumenta
se n aumenta, l’ampiezza diminuisce

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 37 / 44
Intervallo di confidenza per µ quando non è nota la
varianza σ 2
Quando non è nota, la varianza σ 2 viene stimata con la varianza
campionaria s 2 che genera lo stimatore S 2 . La quantità
X̄ − µ
T = , (17)
S

n
ha la distribuzione della v.c. T di Student, caratterizzata dal parametro
g = n − 1. La v.c. descritta dalla (17) è nota come quantità pivotale in
quanto, pur essendo funzione di un parametro ignoto (µ) ha la
distribuzione che ne è indipendente. Da (17) si perviene a
S S
 
P X̄ − tg;1−α/2 √ < µ < X̄ + tg;1−α/2 √ =1−α (18)
n n
dove il quantile tg;1−α/2 si ricava dalla tavola della v.c. T .
N.B.: si noti che l’IC è (ancora) centrato attorno alla media campionaria
X̄ .
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 38 / 44
Esempio
Per un lotto di 10 confezioni di biscotti sono stati osservati i seguenti pesi
espressi in grammi:
149, 151.5, 154, 146.5, 147.5, 150.5, 148.5, 153, 149.5, 155
Supponendo che il peso X delle confezioni sia modellabile come una v.c.
normale di varianza ignota, determinare un intervallo di confidenza al 95%
per l’ignota media µ di X .
Soluzione. Il peso X è dunque una v.c. N(µ, σ 2 ) con entrambi i parametri
ignoti. La varianza campionaria corretta s 2 vale
n
1 X 1
s2 = (xi − x̄ )2 = [(149 − 150.5)2 + . . . (155 − 150.5)2 ] = 8
n − 1 i=1 9
Essendo 1 − α = 0.95, si ha che il quantile di livello 1 − α/2 = 0.975 per
la t di Student con n − 1 = 9 g.l. è t0.975;9 = 2.262. L’IC cercato è quindi
 s 
150.5 ∓ 2.262 ·
8
= (148.48, 152.52)
10
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 39 / 44
Intervallo di confidenza per p

Sfruttando il TLC, che stabilisce che

P̂ ≈ N(p, p(1 − p)/n)

si può costruire un intervallo di confidenza approssimato a livello di


confidenza (1 − α) per l’ignota proporzione p di una variabile dicotomica:
s
p̂(1 − p̂)
p̂ ± z1−α/2
n

dove p̂ è la proporzione osservata nel campione.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 40 / 44
Esempio

Il Comune di una piccola città vorrebbe costruire un complesso multisala in


un’area verde fuori dalla città. Prima di procedere, il Consiglio Comunale vuole
verificare se la popolazione è favorevole o meno a tale progetto. Intervista un
campione casuale di 2000 persone; di queste, 1200 si dichiarano favorevoli al
progetto.
Calcolare la proporzione campionaria di persone favorevoli al progetto;
Calcolare un IC al 95% per la proporzione degli abitanti della città favorevoli
al progetto
Soluzione:
p̂ = 1200/2000 = 0.6
 p   p 
p̂ ± z1−α/2 p̂ · (1 − p̂)/n = 0.6 ± 1.96 0.6 · 0.4/2000 =
(0.6 ± 0.021) = (0.579; 0.621)

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 41 / 44
Dimensione campionaria in funzione dell’errore

L’errore si può definire come |θ − t|. L’entità di tale errore non è nota,
essendo θ ignoto, tuttavia il ricercatore può decidere di tollerare un errore
non superiore a |θ − t| ≤ , a un prefissato livello di probabilità 1 − α. Nel
caso θ = µ:
σ
 
P |X̄ − µ| ≤ z1−α/2 √ =1−α (19)
n
si ha  = |x̄ − µ| ≤ z1−α/2 √σn , da cui elevando al quadrato e considerando
l’estremo superiore dell’errore:

σ2
2 = z1−α/2
2
· (20)
n
da cui
2 σ2
n = z1−α/2 · (21)
2

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 42 / 44
Dimensione campionaria in funzione dell’errore
Per calcolare la dimensione campionaria minima quando il parametro di
interesse è una proporzione p, si procede in modo analogo a quanto fatto
in precedenza. Considerando l’espressione dell’intervallo di confidenza per
p, si ha
2 p(1 − p)
 = z1−α/2
n
da cui
2 p(1 − p)
n = z1−α/2 (22)
2
p tuttavia è ignoto: come fare? Se non ci sono elementi per definire una
pre-stima di p, ci si mette nella condizione “peggiore”, che è quella in cui
p = 1 − p = 1/2, ottenendo così
2
z1−α/2
n=
42

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 43 / 44
Esempio

Il Comune di una piccola città vorrebbe costruire un complesso multisala in


un’area verde fuori dalla città. Prima di procedere, il Consiglio Comunale vuole
verificare se la popolazione è favorevole o meno a tale progetto. Quale deve
essere il numero minimo di persone interpellate per avere un errore di stima al
massimo del 2.5% al livello di confidenza del 95%?

Se  è l’errore di stima |p̂n − p|, per avere P(|p̂n − p| < ) = 1 − α dev’essere


2
z1− α
n≥ 2

42
ovvero, essendo  = 0.025 e z0.975 = 1.96:

1.962
n≥ = 1536.64
4 · 0.0252
cioè devo avere un numero minimo di 1537 intervistati.

Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 44 / 44

Potrebbero piacerti anche