Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Finora, nello studio della statistica, ci siamo posti l’obiettivo di descrivere le caratteristiche di un fenomeno
o di una coppia di fenomeni su una data popolazione, ovvero ci siamo occupati di statistica descrittiva.
Ora vogliamo focalizzare la nostra attenzione sulla situazione in cui la rilevazione dei dati non avviene
sull’intera popolazione, ma solo su un campione, e occuparci del problema di studiare se e come sia
possibile estendere all’intera popolazione i risultati ottenuti dalla rilevazione sul campione. La statistica
inferenziale è proprio la parte della statistica che ha per oggetto lo studio di queste problematiche.
Un punto fondamentale dell’inferenza statistica è la scelta del campione, che deve essere il più possibile
rappresentativo della popolazione. Nella statistica inferenziale classica, si suppone che il campione
venga scelto casualmente, riponendo fiducia nel fatto che la casualità giochi a favore della produzione di
un campione che non abbia caratteristiche speciali e quindi si possa ritenere un’immagine abbastanza
fedele dell’intera popolazione. Il processo di scelta casuale del campione viene detto campionamento;
esso è da interpretare come un esperimento casuale e da affrontare, di conseguenza, con gli strumenti
del calcolo della probabilità.
Un altro parametro che spesso occorre stimare è la varianza. In questo caso, tuttavia, le cose non
vanno bene come per la stima della media e della proporzione; si verifica infatti che il metodo che
verrebbe più naturale, cioè stimare la varianza della popolazione tramite la varianza dei dati
campionari, in generale non è un metodo affidabile.
Ma che cosa ci garantisce l’affidabilità o meno di un metodo di stima puntuale? Campioni diversi
portano a stime puntuali diverse, che possono essere più o meno lontane dal reale (e ignoto) valore
del parametro che vogliamo stimare. Per studiare questi aspetti, legati alla variabilità del campione,
dobbiamo introdurre nuovi strumenti, in particolare il concetto di campione e di stimatore.
Campione
Indicata con 𝑋 la variabile aleatoria che interpreta il fenomeno d’interesse (che in questo contesto
viene talvolta chiamata popolazione) ed estratto un particolare campione di numerosità 𝑛, i valori
osservati 𝑥1 … 𝑥𝑛 si possono interpretare come particolari possibili valori delle variabili aleatorie
𝑋1 , … , 𝑋𝑛 (dette prima estrazione campionaria, seconda estrazione campionaria,...,n-esima
estrazione campionaria), che sono indipendenti e identicamente distribuite a X. Si comprende
dunque come sia possibile definire un modello astratto, che consente di rappresentare tutti i possibili
valori osservabili al variare del campione: sarà sufficiente assimilare un campione casuale di
dimensione 𝑛 a un insieme di 𝑛 variabili aleatorie 𝑋1 , … , 𝑋𝑛 indipendenti e identicamente distribuite a
X. Questa formalizzazione del campionamento in termini di variabili aleatorie ci consentirà di
effettuare delle considerazioni teoriche a priori (cioè prima di estrarre effettivamente un campione),
che giustificano la bontà dei metodi di stima che introdurremo, e ci permetterà al contempo di
«controllare» la variabilità campionaria tramite gli strumenti del calcolo della probabilità.
Stimatori
Supponiamo di essere interessati a studiare la media incognita di un fenomeno, interpretato dalla
variabile aleatoria X. Estraiamo un particolare campione e indichiamo con 𝑥̅ la stima della media di
𝑋 che possiamo calcolare sulla base dei valori osservati nel campione estratto. Tale stima 𝑥̅ della
̅:
media non è altro che uno dei possibili valori della v.a. media campionaria 𝑿
lo stimatore frequenza campionaria, che rappresenta la frequenza relativa della caratteristica in esame
su un generico campione casuale.
Osservazione: la frequenza campionaria è la media campionaria quando le variabili del campione sono
variabili di Bernoulli.
Proprietà degli stimatori
La bontà di un metodo di stima puntuale risiede nelle proprietà teoriche del corrispondente stimatore. Le
più importanti proprietà che si richiedono a uno stimatore sono tre: la correttezza, la consistenza e
l’efficienza:
a) uno stimatore si dice corretto se il suo valore medio coincide con il parametro oggetto della stima;
uno stimatore non corretto viene detto distorto;
b) intuitivamente, uno stimatore si dice consistente se la sua precisione aumenta all’aumentare della
numerosità campionaria; se uno stimatore è corretto, si dimostra che esso è consistente se e
solo se la sua varianza tende a 0 al tendere a infinito della numerosità campionaria;
c) dati due stimatori corretti e consistenti di uno stesso parametro, si dice che è più efficiente lo
stimatore la cui varianza è inferiore (in altre parole, tra due stimatori corretti e consistenti è
preferibile quello la cui variabilità è minore).
Si può dimostrare che la media campionaria e la frequenza campionaria (in ipotesi di campionamento
bernoulliano) sono stimatori corretti, consistenti e i più efficienti possibile tra tutti gli stimatori corretti della
media e della proporzione. In queste buone proprietà risiede l’affidabilità dei metodi di stima puntuale
della media e della proporzione basati semplicemente sul calcolo della media e della proporzione sui dati
campionari. Lo stimatore varianza campionaria si dimostra invece essere uno stimatore distorto (che ha
tendenza a produrre stime per difetto); per questo motivo, la stima della varianza della popolazione che
si otterrebbe semplicemente calcolando la varianza dei dati campionari non sarebbe affidabile
(tenderebbe a essere una sottostima). È tuttavia semplice correggere la distorsione della varianza; si può
dimostrare infatti che per ottenere uno stimatore corretto della varianza è sufficiente dividere per 𝑛 − 1
invece che per 𝑛. Pertanto, una volta estratto un campione di dimensione 𝑛, si stima la varianza dell’intera
popolazione mediante la cosiddetta varianza campionaria corretta, che è così definita:
Distribuzione approssimata della media campionaria e della frequenza campionaria per una
popolazione qualsiasi:
Lo stimatore frequenza campionaria può considerarsi una particolare media campionaria nel caso in cui
la popolazione X sia una variabile aleatoria di Bernoulli di parametro p; poiché una tale variabile aleatoria
ha media p e varianza p(1-p), da quanto enunciato poc’anzi segue che
𝑝(1−𝑝)
𝐹̅ ≈ 𝑁(𝑝, 𝑛 )