Sei sulla pagina 1di 4

STATISTICA INFERENZIALE

Finora, nello studio della statistica, ci siamo posti l’obiettivo di descrivere le caratteristiche di un fenomeno
o di una coppia di fenomeni su una data popolazione, ovvero ci siamo occupati di statistica descrittiva.
Ora vogliamo focalizzare la nostra attenzione sulla situazione in cui la rilevazione dei dati non avviene
sull’intera popolazione, ma solo su un campione, e occuparci del problema di studiare se e come sia
possibile estendere all’intera popolazione i risultati ottenuti dalla rilevazione sul campione. La statistica
inferenziale è proprio la parte della statistica che ha per oggetto lo studio di queste problematiche.
Un punto fondamentale dell’inferenza statistica è la scelta del campione, che deve essere il più possibile
rappresentativo della popolazione. Nella statistica inferenziale classica, si suppone che il campione
venga scelto casualmente, riponendo fiducia nel fatto che la casualità giochi a favore della produzione di
un campione che non abbia caratteristiche speciali e quindi si possa ritenere un’immagine abbastanza
fedele dell’intera popolazione. Il processo di scelta casuale del campione viene detto campionamento;
esso è da interpretare come un esperimento casuale e da affrontare, di conseguenza, con gli strumenti
del calcolo della probabilità.

Il più semplice di campionamento è il cosiddetto campionamento bernoulliano. Un campione


bernoulliano, estratto da una popolazione di 𝑁 unità, non è altro che un campione ottenuto da 𝑛 estrazioni
indipendenti, quindi con reimmissione. Chiaramente sarebbe più naturale pensare a estrazioni senza
reimmissione (per evitare che in un campione una stessa unità statistica venga considerata più volte);
𝑛
tuttavia, se 𝑁 è sufficientemente grande e il rapporto 𝑁 è sufficientemente piccolo, è possibile dimostrare
che le due tecniche di campionamento con o senza reimmissione producono risultati equivalenti. Per
questo motivo, e per il fatto che in generale per un campione bernoulliano valgono proprietà più comode
ai fini dei calcoli, si preferisce in pratica riferirsi allo schema con reimmissione.
Consideriamo un esempio di un tipico problema di statistica inferenziale:
Si sono osservate le lunghezze di 5 pezzi prodotti da un macchinario:10,42 cm 10,12 cm 10,25 cm
10,34 cm10,15 cm.
Vengono dichiarati «conformi» i pezzi la cui lunghezza non supera i 10,35 cm.
- Qual è una stima attendibile della lunghezza media dei pezzi prodotti dal macchinario?
- Qual è una stima attendibile della percentuale di pezzi prodotti conformi?
Questo problema ha per oggetto la stima di due parametri incogniti: la media della lunghezza dei pezzi
e la proporzione dei pezzi conformi. Molti problemi di statistica inferenziale hanno per oggetto proprio la
stima di un parametro incognito della popolazione.

Ci sono due grandi classi di metodi per stimare parametri incogniti:


- stime puntuali
- stime per intervallo.
Una stima puntuale di un parametro ignoto è il risultato di un calcolo eseguito sui dati osservati su un
particolare campione: il calcolo consente di ottenere un unico numero, stima del parametro.
La stima per intervallo invece consente di determinare un possibile intervallo di valori per il parametro
incognito.
Stima puntuale della media e della proporzione

In riferimento al problema introdotto all’ inizio:


- la stima puntuale x della lunghezza media dei pezzi prodotti dal macchinario si ottiene dalla media
dei dati campionari, quindi è uguale
- la stima puntuale della proporzione di pezzi conformi è semplicemente il rapporto tra il numero di
pezzi conformi nel campione (4 in tutto) e la numerosità del campione stesso:

Un altro parametro che spesso occorre stimare è la varianza. In questo caso, tuttavia, le cose non
vanno bene come per la stima della media e della proporzione; si verifica infatti che il metodo che
verrebbe più naturale, cioè stimare la varianza della popolazione tramite la varianza dei dati
campionari, in generale non è un metodo affidabile.

Ma che cosa ci garantisce l’affidabilità o meno di un metodo di stima puntuale? Campioni diversi
portano a stime puntuali diverse, che possono essere più o meno lontane dal reale (e ignoto) valore
del parametro che vogliamo stimare. Per studiare questi aspetti, legati alla variabilità del campione,
dobbiamo introdurre nuovi strumenti, in particolare il concetto di campione e di stimatore.

Campione
Indicata con 𝑋 la variabile aleatoria che interpreta il fenomeno d’interesse (che in questo contesto
viene talvolta chiamata popolazione) ed estratto un particolare campione di numerosità 𝑛, i valori
osservati 𝑥1 … 𝑥𝑛 si possono interpretare come particolari possibili valori delle variabili aleatorie
𝑋1 , … , 𝑋𝑛 (dette prima estrazione campionaria, seconda estrazione campionaria,...,n-esima
estrazione campionaria), che sono indipendenti e identicamente distribuite a X. Si comprende
dunque come sia possibile definire un modello astratto, che consente di rappresentare tutti i possibili
valori osservabili al variare del campione: sarà sufficiente assimilare un campione casuale di
dimensione 𝑛 a un insieme di 𝑛 variabili aleatorie 𝑋1 , … , 𝑋𝑛 indipendenti e identicamente distribuite a
X. Questa formalizzazione del campionamento in termini di variabili aleatorie ci consentirà di
effettuare delle considerazioni teoriche a priori (cioè prima di estrarre effettivamente un campione),
che giustificano la bontà dei metodi di stima che introdurremo, e ci permetterà al contempo di
«controllare» la variabilità campionaria tramite gli strumenti del calcolo della probabilità.
Stimatori
Supponiamo di essere interessati a studiare la media incognita di un fenomeno, interpretato dalla
variabile aleatoria X. Estraiamo un particolare campione e indichiamo con 𝑥̅ la stima della media di
𝑋 che possiamo calcolare sulla base dei valori osservati nel campione estratto. Tale stima 𝑥̅ della
̅:
media non è altro che uno dei possibili valori della v.a. media campionaria 𝑿

essendo 𝑋1 , … , 𝑋𝑛 le variabili aleatorie che rappresentano un generico campione casuale. La media


campionaria è un esempio di stimatore.
Definizione
Uno stimatore è una variabile aleatoria, funzione delle variabili aleatorie estrazioni campionarie
𝑋1 , … , 𝑋𝑛 che viene utilizzata per stimare un determinato parametro incognito di una popolazione. Il
valore assunto dallo stimatore in corrispondenza di un particolare campione viene detto stima del
parametro incognito.
Riassumendo: una stima è un numero che viene calcolato sul campione effettivamente estratto ed
è solo uno dei possibili valori del corrispondente stimatore; quest’ultimo è una variabile aleatoria, i
cui valori sono tutte le possibili stime che possono ottenersi al variare dei campioni estraibili di una
prefissata numerosità.
Altri esempi di stimatori: la varianza campionaria e la frequenza campionaria

Oltre alla media campionaria, ci occuperemo di altri due stimatori:

- la varianza campionaria 𝑽𝟐 , definita da:

- la frequenza campionaria, utilizzata per stimare la proporzione p (incognita) di una popolazione


che soddisfa una prefissata caratteristica (come nell’esercizio precedente). Per definire tale
stimatore osserviamo che in questo caso la variabile aleatoria X che interpreta il fenomeno
d’interesse, detta di Bernoulli, ha le seguenti caratteristiche:
1) può assumere solo due valori: convenzionalmente 1 in corrispondenza dei soggetti della
popolazione che possiedono la caratteristica che si sta esaminando, e 0 in corrispondenza
dei soggetti che non la possiedono;
2) assume i valori 1 o 0 rispettivamente con probabilità p e1-p.

Un campione casuale 𝑋1 , … , 𝑋𝑛 è costituito da n variabili aleatorie di Bernoulli e la loro somma 𝑋1 + ⋯ +


𝑋𝑛 conta il numero complessivo di unità del campione che possiedono la caratteristica d’interesse. Infine,
la variabile aleatoria:

lo stimatore frequenza campionaria, che rappresenta la frequenza relativa della caratteristica in esame
su un generico campione casuale.

Osservazione: la frequenza campionaria è la media campionaria quando le variabili del campione sono
variabili di Bernoulli.
Proprietà degli stimatori

La bontà di un metodo di stima puntuale risiede nelle proprietà teoriche del corrispondente stimatore. Le
più importanti proprietà che si richiedono a uno stimatore sono tre: la correttezza, la consistenza e
l’efficienza:
a) uno stimatore si dice corretto se il suo valore medio coincide con il parametro oggetto della stima;
uno stimatore non corretto viene detto distorto;
b) intuitivamente, uno stimatore si dice consistente se la sua precisione aumenta all’aumentare della
numerosità campionaria; se uno stimatore è corretto, si dimostra che esso è consistente se e
solo se la sua varianza tende a 0 al tendere a infinito della numerosità campionaria;
c) dati due stimatori corretti e consistenti di uno stesso parametro, si dice che è più efficiente lo
stimatore la cui varianza è inferiore (in altre parole, tra due stimatori corretti e consistenti è
preferibile quello la cui variabilità è minore).
Si può dimostrare che la media campionaria e la frequenza campionaria (in ipotesi di campionamento
bernoulliano) sono stimatori corretti, consistenti e i più efficienti possibile tra tutti gli stimatori corretti della
media e della proporzione. In queste buone proprietà risiede l’affidabilità dei metodi di stima puntuale
della media e della proporzione basati semplicemente sul calcolo della media e della proporzione sui dati
campionari. Lo stimatore varianza campionaria si dimostra invece essere uno stimatore distorto (che ha
tendenza a produrre stime per difetto); per questo motivo, la stima della varianza della popolazione che
si otterrebbe semplicemente calcolando la varianza dei dati campionari non sarebbe affidabile
(tenderebbe a essere una sottostima). È tuttavia semplice correggere la distorsione della varianza; si può
dimostrare infatti che per ottenere uno stimatore corretto della varianza è sufficiente dividere per 𝑛 − 1
invece che per 𝑛. Pertanto, una volta estratto un campione di dimensione 𝑛, si stima la varianza dell’intera
popolazione mediante la cosiddetta varianza campionaria corretta, che è così definita:
Distribuzione approssimata della media campionaria e della frequenza campionaria per una
popolazione qualsiasi:

Consideriamo una popolazione X di media 𝜇 e varianza 𝜎 2 ; allora, se la dimensione 𝑛 del campione è


sufficientemente grande, X ha una distribuzione approssimativamente normale di media 𝜇 e varianza
𝜎2.
𝜎2
Infatti per il teorema centrale del limite, se 𝑛 ≥ 30 allora 𝑋̅ ≈ 𝑁(𝜇, )
𝑛

Lo stimatore frequenza campionaria può considerarsi una particolare media campionaria nel caso in cui
la popolazione X sia una variabile aleatoria di Bernoulli di parametro p; poiché una tale variabile aleatoria
ha media p e varianza p(1-p), da quanto enunciato poc’anzi segue che
𝑝(1−𝑝)
𝐹̅ ≈ 𝑁(𝑝, 𝑛 )

Potrebbero piacerti anche