Stima

Statistica: Teoria della Stima Statistica
Alessandro Barbiero
EMA at UNIMI
a.a. 2020/2021
Alessandro Barbiero (EMA at UNIMI) Statistica: Teoria della Stima Statistica a.a. 2020/2021 1 / 44
Introduzione
indagine campionaria vs indagine censuaria

nel primo caso, la caratteristica di interesse del fenomeno va stimata,
introducendo dell’incertezza
quale stima scegliere? come valutarne l’errore? quali ipotesi si
possono formulare sulle caratteristiche di un fenomeno?
teoria della stima statistica & verifica delle ipotesi statistiche
l’inferenza statistica può essere definita come la disciplina che utilizza
l’informazione campionaria, per fare delle affermazioni sulla
popolazione da cui il campione è stato tratto
Popolazione e campione
campione estratto da popolazione con procedimento di estrazione

probabilistico: esistono molti metodi per effettuare il campionamento,
più o meno complessi e sofisticati
campionamento a probabilità costante vs variabile
campioni ordinati e non ordinati
campioni con reinserimento e senza reinserimento
popolazione finita o illimitata
Campionamento bernoulliano
indagini in ambito sociale o economico: popolazione finita

indagini sperimentali: popolazione virtualmente infinita
Campionamento bernoulliano:
1 l’operazione di selezione può continuare indefinitivamente
2 probabilità delle successive estrazioni indipendenti dal risultato delle
precedenti
3 composizione della popolazione rimane immutata e probabilità di
selezione delle unità sono costanti estrazione per estrazione
Campionamento bernoulliano
Si consideri una popolazione composta da cinque unità P = {a, b, c, d, e}

e si costruisca lo spazio dei campioni ordinati con reinserimento.
Si ha che lo spazio campionario Ω2 è costituito dai seguenti N n = 52 = 25
campioni:
c1 = (a, a), c2 = (a, b), c3 = (a, c), c4 = (a, d), c5 = (a, e),
c6 = (b, a), c7 = (b, b), c8 = (b, c), c9 = (b, d), c10 = (b, e),
c11 = (c, a), c12 = (c, b), c13 = (c, c), c14 = (c, d), c15 = (c, e),
c16 = (d, a), c17 = (d, b), c18 = (d, c), c19 = (d, d), c20 = (d, e),
c21 = (e, a), c22 = (e, b), c23 = (e, c), c24 = (e, d), c25 = (e, e)
Campionamento bernoulliano vs casuale semplice
(da F.Mecatti, Statistica. Come, quando e perché)
Nella ricerca applicata i campioni casuali sono però in genere estratti senza
reinserimento, per evitare di intervistare più volte la stessa unità statistica e di
ottenere informazioni duplicate.
Quando il campione è estratto senza reinserimento si parla di campione casuale
semplice o anche SRSWoR dall’inglese Simple Random Sample Without
Replacement.
Tuttavia, se n è “sufficientemente grande” e allo stesso tempo n è “piccolo
rispetto a N”, il che è in genere ciò che accade, le due tecniche con o senza
reinserimento portano a risultati equivalenti.
Possiamo infatti intuire che quando estraiamo un’unità da una popolazione molto
grande, se la reinseriamo prima di effettuare un’altra estrazione, la probabilità di
ri-estrarla è molto piccola, diciamo pure 0. Allo stesso tempo, se non la
reinseriamo, la probabilità di estrarre una qualunque delle rimanenti unità rimane
praticamente invariata. Perciò quando la popolazione è molto grande e n/N è
sufficientemente piccolo, tutti gli strumenti di inferenza statistica che richiedono
un campione bernoulliano, si possono applicare anche a campioni senza
reinserimento perché tendono a produrre risultati equivalenti.
Estrazione di un campione
L’esperimento “selezione di n unità” da una popolazione produce un insieme di

possibili eventi che sono tutti i possibili campioni che definiscono lo spazio
campionario, Ωn .
Data una popolazione di dimensione N cui è associata una variabile X l’estrazione
di un campione bernoulliano (ordinato con reinserimento) di dimensione n porta
alla conoscenza di n valori xi , i = 1, . . . , n.
La generica osservazione campionaria xi è il risultato dell’esecuzione di un
esperimento casuale; è pertanto un evento casuale e può coincidere con uno
(qualunque) dei possibili valori della variabile (casuale) X . Allora, anche il
risultato di ogni estrazione campionaria è interpretato da una v.c. Xi che
chiameremo v.c. estrazione campionaria e di cui l’osservazione campionaria xi
rappresenta uno dei possibili valori.
Estrazione di un campione
Poiché nel campione bernoulliano le estrazioni sono indipendenti, allora le

v.c estrazioni campionarie Xi sono tra loro indipendenti. Infine, poiché xi
può coincidere con uno qualunque dei possibili valori del fenomeno, a sua
volta interpretato dalla v.c. X , si ha anche che ciascuna v.c. estrazione
campionaria Xi è identica in distribuzione a X (cioè ha la stessa
distribuzione, ovvero la stessa f.p. se discreta o f.d. se continua) e, in
quanto identica, ha la stessa media e la stessa varianza.
Le v.c. X1 , X2 , . . . , Xn sono quindi indipendenti e identicamente distribuite
(i.i.d).
Variabili casuali campionarie
Parametro
Si chiama parametro di una v.c. X e viene in generale indicato con θ una
funzione dei valori che la v.c. assume su tutte le unità della popolazione e
che caratterizza la distribuzione della v.c. stessa.
Stima
La stima t è una funzione dei dati campionari utilizzata per prevedere il
valore incognito di un parametro θ della v.c. X oggetto di studio nella
popolazione di riferimento
Stimatore
Lo stimatore Tn è la v.c. generata dalle stime calcolate su tutti i campioni
di Ωn ; è quindi una v.c. campionaria.
La v.c. Media Campionaria
Se da una popolazione si estrae un campione bernoulliano di dimensione n
sulle cui unità si osservano i valori di una variabile X , si ottengono i valori
campionari (x1 , . . . , xn ) la cui media è data da
n
1X
x̄ = xi (1)
n i=1
Al variare del campione, gli n valori xi variano e quindi varia anche il valore
della (1). Se si considerano tutti i possibili campioni di dimensione n che si
possono estrarre dalla popolazione e tutte le medie a essi associati, si
definisce la distribuzione di una v.c. o stimatore X̄ media campionaria.
Si può dimostrare che il valore atteso e la varianza di questa v.c. sono
rispettivamente uguali al valore atteso µ della variabile X e alla sua
varianza divisa per la numerosità campionaria.
E (X̄ ) = µ (2)
σ2
Var (X̄ ) = σX̄2 = (3)
n
La v.c. Media Campionaria
Infatti:
n n n n
! !
1X 1 X 1X 1X 1
E (X̄ ) = E Xi = E ·Xi = ·E (Xi ) = µ = · nµ
n i=1 n i=1
n i=1 n i=1 n
=µ
e
n n n n
! !
1X 1 X 1 X 1 X
Var (X̄ ) = Var Xi = 2 Var ·Xi = Var (X i ) = σ2
n i=1 n i=1
n2 i=1 n2 i=1
1 σ2
= · nσ =
n2 n
La v.c. Varianza Campionaria
Se si calcola la varianza del campione (x1 , . . . , xn ) estratto da X si ottiene
la quantità
n
1X
s̃ 2 = (xi − x̄ )2 (4)
n i=1
Al variare del campione, (4) descrive la variabile casuale o stimatore
varianza campionaria S̃ 2 .
Si può dimostrare che il valore atteso di questa v.c. è
n−1 2
E (S̃ 2 ) = σ (5)
n
Considerando invece la quantità
n
2 1 X
s = (xi − x̄ )2 (6)
n − 1 i=1
che al variare del campione genera lo stimatore S 2 , chiamato varianza
campionaria corretta, il suo valore atteso è
E (S 2 ) = σ 2 (7)
La v.c. Proporzione Campionaria
Consideriamo un fenomeno che possa assumere solo due modalità, A e A. Nella
popolazione, se supposta finita, ci saranno NA unità con tale modalità e N − NA
con modalità A. La proporzione di unità con modalità A è quindi p = NA /N.
Nel campione di n unità se ne possono osservare x con la modalità A e n − x con
la complementare Ā. Così,
x
p̂ =
n
rappresenta la proporzione campionaria che è una stima dell’ignoto p.
X
Al variare del campione, p̂ descrive lo stimatore P̂ = , dove la v.c. a
n
numeratore ha distribuzione binomiale, con valore atteso np e varianza np(1 − p).
Valore atteso e varianza di P̂ sono allora dati da
1 np
E (P̂) = E (X ) = =p (8)
n n
1 np(1 − p) p(1 − p)
Var(P̂) = Var(X ) = = (9)
n2 n2 n
Esempio
Consideriamo la popolazione di N = 5 unità statistiche vista in precedenza

e supponiamo che su di esse una variabile quantitativa X assuma le
seguenti determinazioni: 0 (per l’unità a), 1 (per b), 3 (c), 4 (d), 7 (e).
La media di X sulla popolazione vale allora
N
1 X 1
µ= xi = (0 + 1 + 3 + 4 + 7) = 3
N i=1 5
mentre la varianza
N
1 X 1 30
σ2 = (xi −µ)2 = [(0−3)2 +(1−3)2 +(3−3)2 +(4−3)2 +(7−3)2 ] = =
N i=1 5 5
Esempio
Consideriamo adesso tutti i N n = 52 = 25 campioni bernoulliani di
dimensione n = 2 che possono essere estratti da P, c1 , c2 , . . . , c25 , e
calcoliamo su ciascuno di essi il valore della media campionaria, della
varianza campionaria, e della varianza campionaria corretta.
Ad esempio, per il campione c1 = (a, a), su cui rilevo i valori 0 e 0,
ottengo:
x̄ = 0, s̃ 2 = 0, s 2 = 0
Per il campione c2 = (a, b), su cui osservo i valori 0 e 1, ho
1
x̄ = 0.5, s̃ 2 = [(0 − 0.5)2 + (1 − 0.5)2 ] = 0.25, s 2 = 0.5
2
Per il campione c8 = (b, c), su cui osservo i valori 1 e 3, ho
1
x̄ = 2, s̃ 2 = [(1 − 2)2 + (3 − 2)2 ] = 1, s2 = 2
2
Esempio
Table: Lista di tutti i possibili campioni di dimensione n = 2 estraibili da P e

corrispondenti valori di media e varianze campionarie
campione valori x̄ s̃ 2 s2 campione valori x̄ s̃ 2 s2
c1 (0,0) 0 0 0 c14 (3,4) 3.5 0.25 0.5
c2 (0,1) 0.5 0.25 0.5 c15 (3,7) 5 4 8
c3 (0,3) 1.5 2.25 4.5 c16 (4,0) 2 4 8
c4 (0,4) 2 4 8 c17 (4,1) 2.5 2.25 4.5
c5 (0,7) 3.5 12.25 24.5 c18 (4,3) 3.5 0.25 0.5
c6 (1,0) 0.5 0.25 0.5 c19 (4,4) 4 0 0
c7 (1,1) 1 0 0 c20 (4,7) 5.5 2.25 4.5
c8 (1,3) 2 1 2 c21 (7,0) 3.5 12.25 24.5
c9 (1,4) 2.5 2.25 4.5 c22 (7,1) 4 9 18
c10 (1,7) 4 9 18 c23 (7,3) 5 4 8
c11 (3,0) 1.5 2.25 4.5 c24 (7,4) 5.5 2.25 4.5
c12 (3,1) 2 1 2 c25 (7,7) 7 0 0
c13 (3,3) 3 0 0
Esempio
Calcolando la media di x̄ , s̃ 2 e s 2 sui 25 campioni bernoulliani (tutti
equiprobabili con probabilità di estrazione 1/25), otteniamo i valori attesi
delle tre v.c. campionarie X̄ , S̃ 2 e S 2 :
1
E (X̄ ) = (0 + 0.5 + 1.5 + · · · + 5.5. + 7) = 3 = µ
25
1 n−1 2
E (S̃ 2 ) = (0 + 0.25 + 2.25 + · · · + 2.25 + 0) = 3 = σ
25 n
1
E (S 2 ) = (0 + 0.5 + 4.5 + · · · + 4.5 + 0) = 6 = σ 2
25
Calcolando la varianza di x̄ sui 25 campioni bernoulliani, otteniamo:
1 σ2
Var (X̄ ) = [(0 − 3)2 + (0.5 − 3)2 + · · · + (7 − 3)2 ] = 3 =
25 n
Abbiamo così verificato empiricamente le proprietà degli stimatori media e
varianza campionaria.
Esempio
Dalla tabella precedente, siamo anche in grado di costruire le distribuzioni
di probabilità (o, meglio, le f.p.) delle tre v.c. campionarie.
In particolare, per la media campionaria X̄ la f.p. può essere scritta in
questa tabella...:
x p(x )
0 1/25
0.5 2/25
1 1/25
1.5 2/25
2 4/25
2.5 2/25
3 1/25
3.5 4/25
4 3/25
5 2/25
5.5 2/25
7 1/25
Esempio
... e rappresentata graficamente tramite il seguente diagramma a
bastoncini:
funzione di probabilità
0.16
0.12
p(x)
0.08
0.04
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 5.0 5.5 7.0
Stima statistica
Quando si estrae un campione per stimare l’ignoto parametro di una

variabile di interesse nella popolazione, si dispone di una sola stima. Come
utilizzare questo valore per stimare l’incognito parametro?
stima puntuale: con un unico valore, spero di “azzeccare” l’ignoto
valore del parametro θ
stima intervallare: costruisco un intervallo di valori all’interno del
quale “confido”, con un livello di confidenza assegnato, che cada
l’ignoto valore del parametro θ
Stima puntuale
Avendo a disposizione la stima t del parametro θ, le garanzie di

affidabilità, cioè accuratezza, risiedono nel metodo di costruzione degli
stimatori e nelle loro proprietà.
Si dovrebbe perciò utilizzare uno stimatore con “delle buone proprietà”,
che fornisce mediamente (cioè su tutti i campioni di Ωn ) delle “buone”
stime, anche se per lo specifico campione estratto la stima potrebbe
rivelarsi pessima...
(Vedasi anche dispensa “Stima”)
Correttezza di uno stimatore
Definizione 3.4. (Correttezza o non distorsione)
Uno stimatore Tn si dice corretto (o non distorto) se il suo valore atteso
coincide con il parametro oggetto di stima:
E (Tn ) = θ (10)
Se lo stimatore non soddisfa la condizione di cui sopra, allora di dice

distorto e la sua distorsione, indicata con Bn , è data dalla differenza tra il
valore atteso e il parametro oggetto di stima:
Bn = E (Tn ) − θ (11)
Se all’aumentare di n la distorsione tende a zero lo stimatore si dice
asintoticamente corretto o asintoticamente non distorto:
lim E (Tn ) = θ (12)
n→∞
P.S.: col pedice n, sottolineiamo la dipendenza dello stimatore o della

quantità dalla numerosità campionaria n
Consistenza di uno stimatore
Definizione 3.5. (Consistenza)

Se uno stimatore è corretto o almeno asintoticamente corretto, e se
all’aumentare di n la sua varianza tende a zero, cioè:
lim Var (Tn ) = 0 (13)

n→∞
allora lo stimatore Tn è detto consistente.
Uno stimatore consistente, quindi, all’aumentare della numerosità

campionaria n tende a ridurre la propria varianza e a “concentrarsi”
attorno al valore θ.
Mean Squared Error
Per uno stimatore Tn di un parametro θ possiamo introdurre l’errore quadratico
medio o mean squared error
MSE (Tn ) = E [Tn − θ]2
che rappresenta appunto l’errore quadratico medio commesso dallo stimatore Tn

nello stimare θ.
Il MSE può essere così scomposto:
MSE (Tn ) = E [Tn − θ]2 = E [Tn −E (Tn ) + E (Tn ) − θ]2

= E [(Tn − E (Tn ))2 + (E (Tn ) − θ)2 + 2(Tn − E (Tn )) · (E (Tn ) − θ)]
= E (Tn − E (Tn ))2 + E (E (Tn ) − θ)2 + 2E [(Tn − E (Tn )) · (E (Tn ) − θ)]
= E (Tn − E (Tn ))2 + E (E (Tn ) − θ)2 + 2(E (Tn ) − θ) · E [(Tn − E (Tn ))]
= Var (Tn ) + Bn2 + 2Bn · 0
= Var (Tn ) + Bn2
Per uno stimatore non distorto (Bn = 0), quindi, MSE e varianza coincidono!
Efficienza relativa di uno stimatore
Definizione 3.6. (Efficienza relativa)

(1)
Uno stimatore corretto Tn è più efficiente di un secondo stimatore
(2)
corretto Tn se la sua varianza è più piccola:
Var (Tn(1) ) < Var (Tn(2) ) (14)
E’ chiaro che tra due stimatori corretti si prediliga quello con minore
varianza, cioè quello che è più concentrato attorno a θ!
Esempio
Consideriamo la v.c. X con valore atteso µ e varianza σ 2 , e i due stimatori
di µ T (1) = (X1 + X2 )/2 e T (2) = X1 /3 + 2X2 /3 calcolati su un campione
di dimensione n = 2 estratto da X .
Verificare che sono entrambi non distorti e che T (1) è più efficiente di T (2) .
Soluzione. Si ha
E (T (1) ) = µ, Var (T (1) ) = σ 2 /2
(è lo stimatore media campionaria!)

2 2
(2) µ 2µ 1 2 σ 2 4σ 2 5
E (T )= + = µ, Var (T (2) ) = 2
σ + σ2 = + = σ2
3 3 3 3 9 9 9
Quindi sono entrambi non distorti (il loro valore atteso coincide con µ),
ma T (1) è più efficiente di T (2) , essendo
Var (T (1) ) = σ 2 /2 < 59 σ 2 = Var (T (2) ), se σ 2 6= 0, per ogni possibile valore
di µ!
Proprietà della media campionaria
Per lo stimatore media campionaria valgono le seguenti proprietà

se X ha distribuzione normale, X̄ ha pure distribuzione normale
anche se X non ha distribuzione normale, sotto opportune condizioni,
X̄ tende alla distribuzione normale all’aumentare di n (TLC)
quale che sia la distribuzione di X , E (X̄ ) = µ e Var(X̄ ) = σ 2 /n
Lo stimatore media campionaria è quindi corretto (o, meglio, non distorto)
e consistente.
Esercizio
Si supponga il peso X di una confezione di biscotti possa essere modellata
tramite una v.c. normale di media µ = 150 e varianza σ 2 = 9. Estratte 5
confezioni a caso dalla produzione giornaliera, calcolare la probabilità che il
loro peso medio sia compreso tra 148 e 152 grammi.
Soluzione: si ha dunque X ∼ N(µ = 150, σ 2 = 9). Le 5 confezioni estratte
a caso si configuano come un campione bernoulliano di dimensione n = 5
e il peso medio altro non è che la media campionaria x̄ dei 5 pesi. Essendo
X normale, si ha che pure X̄ (stimatore media campionaria) è normale, di
media µ = 150 e varianza σ 2 /n = 9/5. Quindi
! !
152 − 150 148 − 150
P(148 < X̄ < 152) = Φ p −Φ p
9/5 9/5
= Φ(1.49) − Φ(−1.49) = 0.9319 − 0.0681
= 0.8638
Esercizio
Funzioni di densità della v.c. X peso di una confezione di biscotti (curva

nera) e X̄ , media campionaria su campione di dimensione n = 5 (curva
rossa).
Proprietà della proporzione campionaria
Per lo stimatore proporzione campionaria

E(P̂) = p e Var(P̂) = p(1 − p)/n
Lo stimatore media campionaria è quindi corretto (o, meglio, non distorto)
e consistente.
In più, è asintoticamente normale: per n “sufficientemente grande”, si ha
che
P̂ − p
p ≈ Z = N(0, 1)
p(1 − p)/n
e anche
P̂ − p
q ≈ Z = N(0, 1)
P̂(1 − P̂)/n
Esempio
Una certa popolazione di individui presenta una proporzione di fumatori
pari al 25%. Estraendo un campione di dimensione 1000 da tale
popolazione, qual è approssimativamente la probabilità di avere una
proporzione di fumatori compresa tra il 23 e il 27%?
Soluzione. Basandoci sulla approssimazione della slide precedente, con
p = .25 e n = 1000, possiamo scrivere
!
0.23 − p P̂ − p 0.27 − p
P(0.23 < P̂ < 0.27) = P p ≤p ≤p
p(1 − p)/n p(1 − p)/n p(1 − p)/n
 
0.23 − 0.25 0.27 − 0.25 
≈P q ≤Z ≤ q
0.25·0.75 0.25·0.75
1000 1000
= P(−1.46 ≤ Z ≤ 1.46) = Φ(1.46) − Φ(−1.46)
= 0.8557
P.S.: la probabilità esatta si potrebbe calcolare come P(230 ≤ Y ≤ 270)

dove Y ∼ Binom(1000, 0.25): perché?
Stima intervallare
Con la stima puntuale, non è possibile tener conto del livello di

attendibilità della stima.
Con la stima per intervalli è possibile individuare, per un fissato livello di
probabilità (1 − α), un intervallo casuale che contiene il parametro θ, i cui
estremi dipendono dai dati campionari.
Intervallo di confidenza per µ
Sia X ∼ N(µ, σ 2 ).
Fissato il livello di probabilità (1 − α), si può scrivere
σ σ
P(µ − z1−α/2 √ < X̄ < µ + z1−α/2 √ ) = 1 − α (15)
n n
dove z1−α/2 è il quantile di livello (1 − α/2) della v.c. normale standard.

Dall’uguaglianza sopra si ottiene
σ σ
P(X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ) = 1 − α (16)
n n
che esprime la probabilità che un intervallo con estremi variabili

X̄ ∓ z1−α/2 √σn contenga l’ignoto ma costante valore µ.
Nella realtà, si dispone di un solo campione e quindi di un solo intervallo di
confidenza; perciò, si confida che tale campione appartenga a quel
(1 − α)100% dei campioni che portano ad un intervallo contenente µ; ecco
perché (1 − α) si chiama livello di confidenza.
Livello di confidenza
xn
xn
xn
xn
xn
Il livello di confidenza può essere visto come la frequenza relativa di quegli

intervalli aleatori (costruiti su campioni di dimensione n) che contengono il
valore incognito µ.
Alcuni intervalli (i rossi) non contengono il valore µ, altri invece lo
contengono (i neri).
Notate che tutti gli intervalli sono centrati su x̄ e hanno la medesima
ampiezza!
Esempio
Per un lotto di 10 confezioni di biscotti sono stati osservati i seguenti pesi
espressi in grammi:
149, 151.5, 154, 146.5, 147.5, 150.5, 148.5, 153, 149.5, 155
Supponendo che il peso X delle confezioni sia modellabile come una v.c.
normale di varianza nota pari a 9, determinare un intervallo di confidenza
al 95% per l’ignota media µ di X .
Soluzione. Il peso X è dunque una v.c. N(µ, σ 2 = 9). La media
campionaria per il campione considerato vale
10
1X 1
x̄ = xi = (149 + 151.5 + · · · + 155) = 150.5
n i=1 10
Essendo 1 − α = 0.95, si ha che il quantile di livello 1 − α/2 = 0.975 è
z0.975 = 1.96. L’IC cercato è quindi
 s 
150.5 ∓ 1.96 ·
9
= (148.64, 152.36)
10
Esempio
Sotto le stesse ipotesi, calcolare ora un intervallo al 99% per µ.
Soluzione. Rispetto a prima, cambia solo il livello di confidenza

1 − α = 0.99 e il corrispondente quantile di livello 1 − α/2 = 0.995 che è
z0.995 = 2.575. Così si ottiene l’IC
 s 
150.5 ∓ 2.575 ·
9
= (148.06, 152.94)
10
che è più ampio del precedente.
Intervallo di confidenza per µ
Un intervallo di confidenza piccolo è più informativo di un intervallo ampio;

l’ampiezza dell’intervallo è quindi un elemento importante per la stima.
L’ampiezza dell’intervallo di confidenza per la media ignota di una v.c.
normale con varianza nota è data da
σ
a = 2 · z1−α/2 · √ .
n
Non potendo intervenire su σ, che è un parametro della popolazione, il

ricercatore può invece intervenire sul livello di confidenza 1 − α e su n
se (1 − α) aumenta, z1−α/2 aumenta, e l’ampiezza aumenta
se n aumenta, l’ampiezza diminuisce
Intervallo di confidenza per µ quando non è nota la
varianza σ 2
Quando non è nota, la varianza σ 2 viene stimata con la varianza
campionaria s 2 che genera lo stimatore S 2 . La quantità
X̄ − µ
T = , (17)
S
√
n
ha la distribuzione della v.c. T di Student, caratterizzata dal parametro
g = n − 1. La v.c. descritta dalla (17) è nota come quantità pivotale in
quanto, pur essendo funzione di un parametro ignoto (µ) ha la
distribuzione che ne è indipendente. Da (17) si perviene a
S S

P X̄ − tg;1−α/2 √ < µ < X̄ + tg;1−α/2 √ =1−α (18)
n n
dove il quantile tg;1−α/2 si ricava dalla tavola della v.c. T .
N.B.: si noti che l’IC è (ancora) centrato attorno alla media campionaria
X̄ .
Esempio
Per un lotto di 10 confezioni di biscotti sono stati osservati i seguenti pesi
espressi in grammi:
149, 151.5, 154, 146.5, 147.5, 150.5, 148.5, 153, 149.5, 155
Supponendo che il peso X delle confezioni sia modellabile come una v.c.
normale di varianza ignota, determinare un intervallo di confidenza al 95%
per l’ignota media µ di X .
Soluzione. Il peso X è dunque una v.c. N(µ, σ 2 ) con entrambi i parametri
ignoti. La varianza campionaria corretta s 2 vale
n
1 X 1
s2 = (xi − x̄ )2 = [(149 − 150.5)2 + . . . (155 − 150.5)2 ] = 8
n − 1 i=1 9
Essendo 1 − α = 0.95, si ha che il quantile di livello 1 − α/2 = 0.975 per
la t di Student con n − 1 = 9 g.l. è t0.975;9 = 2.262. L’IC cercato è quindi
 s 
150.5 ∓ 2.262 ·
8
= (148.48, 152.52)
10
Intervallo di confidenza per p
Sfruttando il TLC, che stabilisce che
P̂ ≈ N(p, p(1 − p)/n)
si può costruire un intervallo di confidenza approssimato a livello di

confidenza (1 − α) per l’ignota proporzione p di una variabile dicotomica:
s
p̂(1 − p̂)
p̂ ± z1−α/2
n
dove p̂ è la proporzione osservata nel campione.
Esempio
Il Comune di una piccola città vorrebbe costruire un complesso multisala in

un’area verde fuori dalla città. Prima di procedere, il Consiglio Comunale vuole
verificare se la popolazione è favorevole o meno a tale progetto. Intervista un
campione casuale di 2000 persone; di queste, 1200 si dichiarano favorevoli al
progetto.
Calcolare la proporzione campionaria di persone favorevoli al progetto;
Calcolare un IC al 95% per la proporzione degli abitanti della città favorevoli
al progetto
Soluzione:
p̂ = 1200/2000 = 0.6
p p
p̂ ± z1−α/2 p̂ · (1 − p̂)/n = 0.6 ± 1.96 0.6 · 0.4/2000 =
(0.6 ± 0.021) = (0.579; 0.621)
Dimensione campionaria in funzione dell’errore
L’errore si può definire come |θ − t|. L’entità di tale errore non è nota,
essendo θ ignoto, tuttavia il ricercatore può decidere di tollerare un errore
non superiore a |θ − t| ≤ , a un prefissato livello di probabilità 1 − α. Nel
caso θ = µ:
σ

P |X̄ − µ| ≤ z1−α/2 √ =1−α (19)
n
si ha = |x̄ − µ| ≤ z1−α/2 √σn , da cui elevando al quadrato e considerando
l’estremo superiore dell’errore:
σ2
2 = z1−α/2
2
· (20)
n
da cui
2 σ2
n = z1−α/2 · (21)
2
Dimensione campionaria in funzione dell’errore
Per calcolare la dimensione campionaria minima quando il parametro di
interesse è una proporzione p, si procede in modo analogo a quanto fatto
in precedenza. Considerando l’espressione dell’intervallo di confidenza per
p, si ha
2 p(1 − p)
= z1−α/2
n
da cui
2 p(1 − p)
n = z1−α/2 (22)
2
p tuttavia è ignoto: come fare? Se non ci sono elementi per definire una
pre-stima di p, ci si mette nella condizione “peggiore”, che è quella in cui
p = 1 − p = 1/2, ottenendo così
2
z1−α/2
n=
42
Esempio
Il Comune di una piccola città vorrebbe costruire un complesso multisala in

un’area verde fuori dalla città. Prima di procedere, il Consiglio Comunale vuole
verificare se la popolazione è favorevole o meno a tale progetto. Quale deve
essere il numero minimo di persone interpellate per avere un errore di stima al
massimo del 2.5% al livello di confidenza del 95%?
Se è l’errore di stima |p̂n − p|, per avere P(|p̂n − p| < ) = 1 − α dev’essere

2
z1− α
n≥ 2
42
ovvero, essendo = 0.025 e z0.975 = 1.96:
1.962
n≥ = 1536.64
4 · 0.0252
cioè devo avere un numero minimo di 1537 intervistati.

Stima

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Stima

Caricato da

Copyright:

Formati disponibili

Statistica: Teoria della Stima Statistica

indagine campionaria vs indagine censuaria

campione estratto da popolazione con procedimento di estrazione

indagini in ambito sociale o economico: popolazione finita

Si consideri una popolazione composta da cinque unità P = {a, b, c, d, e}

L’esperimento “selezione di n unità” da una popolazione produce un insieme di

Poiché nel campione bernoulliano le estrazioni sono indipendenti, allora le

Consideriamo la popolazione di N = 5 unità statistiche vista in precedenza

Table: Lista di tutti i possibili campioni di dimensione n = 2 estraibili da P e

Quando si estrae un campione per stimare l’ignoto parametro di una

Avendo a disposizione la stima t del parametro θ, le garanzie di

Se lo stimatore non soddisfa la condizione di cui sopra, allora di dice

P.S.: col pedice n, sottolineiamo la dipendenza dello stimatore o della

Definizione 3.5. (Consistenza)

lim Var (Tn ) = 0 (13)

allora lo stimatore Tn è detto consistente.

Uno stimatore consistente, quindi, all’aumentare della numerosità

MSE (Tn ) = E [Tn − θ]2

che rappresenta appunto l’errore quadratico medio commesso dallo stimatore Tn

MSE (Tn ) = E [Tn − θ]2 = E [Tn −E (Tn ) + E (Tn ) − θ]2

Definizione 3.6. (Efficienza relativa)

Var (Tn(1) ) < Var (Tn(2) ) (14)

E (T (1) ) = µ, Var (T (1) ) = σ 2 /2

(è lo stimatore media campionaria!)

Per lo stimatore media campionaria valgono le seguenti proprietà

Funzioni di densità della v.c. X peso di una confezione di biscotti (curva

Per lo stimatore proporzione campionaria

P.S.: la probabilità esatta si potrebbe calcolare come P(230 ≤ Y ≤ 270)

Con la stima puntuale, non è possibile tener conto del livello di

dove z1−α/2 è il quantile di livello (1 − α/2) della v.c. normale standard.

che esprime la probabilità che un intervallo con estremi variabili

Il livello di confidenza può essere visto come la frequenza relativa di quegli

Sotto le stesse ipotesi, calcolare ora un intervallo al 99% per µ.

Soluzione. Rispetto a prima, cambia solo il livello di confidenza

che è più ampio del precedente.

Un intervallo di confidenza piccolo è più informativo di un intervallo ampio;

Non potendo intervenire su σ, che è un parametro della popolazione, il

Sfruttando il TLC, che stabilisce che

P̂ ≈ N(p, p(1 − p)/n)

si può costruire un intervallo di confidenza approssimato a livello di

dove p̂ è la proporzione osservata nel campione.

Il Comune di una piccola città vorrebbe costruire un complesso multisala in

Il Comune di una piccola città vorrebbe costruire un complesso multisala in

Se  è l’errore di stima |p̂n − p|, per avere P(|p̂n − p| < ) = 1 − α dev’essere

Potrebbero piacerti anche

Se è l’errore di stima |p̂n − p|, per avere P(|p̂n − p| < ) = 1 − α dev’essere