Sei sulla pagina 1di 51

ELEMENTI DI INFERENZA STATISTICA

Prof.ssa Claudia Marin


Palazzo Chiaia-Napolitano
3 piano, stanza 306
Tel.:080-5714722
E-mail: claudia.marin@uniba.it
Elementi di inferenza statistica
L’inferenza statistica (o induzione statistica) è un insieme
di tecniche, messe a punto con l’ausilio del calcolo delle
probabilità, mediante le quali si possono trarre certe
informazioni sulla popolazione, sulla base dei risultati di un
campione o di un esperimento.

Nell’ambito sociale, le conclusioni a cui si giunge tramite


l’inferenza riguardano principalmente due problemi: la
stima di alcune “grandezze” della popolazione e la verifica
di ipotesi (riguardanti un singolo campione in relazione alla
popolazione da cui proviene, oppure due o più campioni
posti a confronto fra loro).

2
Il primo di questi problemi consiste nel risalire al valore
(ignoto) di una “grandezza” caratteristica dell’universo, sulla
base dei dati campionari. Ad es., tramite un campione,
stimare quanti milioni di votanti hanno optato per un partito
anziché per un altro.

La stima delle “grandezze caratteristiche” della popolazione


può essere fatta in due modi: o mediante un solo valore
ricavato con le osservazioni campionarie (stima puntuale) o
mediante un intervallo (stima intervallare) che contenga,
con una probabilità prefissata, la grandezza incognita della
popolazione.

3
Il secondo problema a cui si è fatto cenno, cioè quello della
verifica di ipotesi, consiste nell'ipotizzare che i parametri della
funzione di densità di probabilità (o determinate grandezze
caratteristiche della popolazione) assumano prefissati valori e
nel verificare, tramite le osservazioni campionarie, che
l'ipotesi formulata sia vera o falsa (ipotesi parametrica),
oppure nel verificare che la distribuzione del carattere nella
popolazione abbia una data forma (ipotesi funzionale).
Ad es., con tale tecnica si può provare l'ipotesi che la distribuzione delle
spese sanitarie mensili degli anziani in Puglia abbia μ=100 euro: si calcola la
media x delle spese sanitarie documentate dagli anziani di un campione
rappresentativo (ad es., di 1000 persone oltre i 65 anni, i cui nominativi
siano stati estratti dalle liste elettorali con un procedimento stratificato per
età), si confrontano x e 100 e poi, tramite la più appropriata procedura
di verifica, si accetta o si rifiuta l'ipotesi che la spesa sanitaria media degli
anziani in Puglia sia pari a 100 euro.
4
La stima puntuale dei parametri
Quando si vuole conoscere le caratteristiche della popolazione,
si devono distinguere due casi:

1) quando è nota la forma della funzione di densità di


probabilità con cui si distribuisce il carattere (quantitativo
o qualitativo) nella popolazione, le caratteristiche della
popolazione sono determinate se sono noti i parametri di tale
funzione (ad esempio, se la popolazione si distribuisce
normalmente, essa è individuata quando sono noti μ e σ).
Poiché, in genere, i parametri non sono noti a priori, occorre
stimarli tramite le osservazioni campionarie (tale problema va
sotto il nome di stima puntuale dei parametri).
5
2) Quando, invece, non si conosce la forma della
funzione secondo la quale il carattere si distribuisce nella
popolazione, sorge il problema di stimare, con un'indagine
campionaria, una grandezza caratteristica della
popolazione, come, ad es., la mediana (tale problema è noto
come stima puntuale di una caratteristica). 

In ambo i casi, occorre che sia possibile determinare


delle regole di stima che soddisfino alcune proprietà
fondamentali.

6
Stimatori e loro proprietà desiderabili

Sia dato un campione casuale (X1, X2, …, Xn), estratto da una


popolazione di densità p(x, θ) di forma nota ma di parametro
θ incognito (se  fosse noto, non ci sarebbe bisogno di fare
inferenza). Si dice stimatore del parametro θ (e si indica con
la lettera ̂ ) una regola, funzione del campione casuale, che,
tramite le osservazioni campionarie, consente di fornire un
valore ̂ (stima puntuale di θ) “ragionevolmente vicino” al
parametro θ ignoto. La differenza ̂ - θ è l'errore di
campionamento.

7
Problemi:
1) determinare quali sono i metodi che consentono di ricavare
gli stimatori di θ;
2) stabilire quale sia lo stimatore migliore.

La soluzione del primo problema comporta la conoscenza di


metodi matematici avanzati, per cui riporteremo qui solo i
risultati.

Per risolvere il secondo problema occorre fissare dei criteri che


si basano su alcune proprietà che si desidera siano possedute.
Di queste proprietà, le più importanti sono riportate qui di
seguito.

8
1) correttezza: ossia la media di tutte le stime (calcolate con lo
stesso stimatore) effettuate con tutti i possibili campioni di pari
numerosità estratti dall'universo, deve essere uguale al relativo
parametro (o caratteristica) dell'universo stesso: cioè, E () ˆ  .
Quando lo stimatore non è corretto si chiama distorto.
 
La grandezza E ̂   è detta distorsione (bias) dello stimatore,
  2
mentre la grandezza  (ˆ )  E ˆ  E(ˆ ) si denomina varianza
2

 
2

campionaria dello stimatore: ad esempio,  X  E X   è la  2

varianza campionaria della media.


Se ̂ è corretto, ( ˆ ) ha il significato di indice di dispersione
dei valori ̂ (ottenuti con tale stimatore) intorno al parametro θ
dell'universo: (ˆ ) è assunto, così, come misura dell'attendibilità
della stima effettuata, ossia la misura dell'errore che si commette
quando si accetta un risultato campionario. Appunto per questo
(ˆ ) si chiama errore standard della stima.
9
2) consistenza: ossia, al crescere di n, deve aumentare la
probabilità che la caratteristica stimata sia uguale a quella
dell'universo. Inoltre, se lo stimatore è corretto, esso è anche
consistente quando la varianza ( ˆ ) tende a zero al crescere
di n: ad esempio, la "media aritmetica campionaria" è uno
stimatore consistente di μ; inoltre, se la popolazione da cui si
estrae il campione è normale, anche la "mediana
campionaria" è uno stimatore consistente di μ.

3) sufficienza: significa che lo stimatore ̂ deve essere in


grado di “riassumere” tutte le informazioni su θ contenute nel
campione; sicché, se consideriamo un altro stimatore ̂1 di θ,
la conoscenza della distribuzione di probabilità condizionata
di ̂1 non fornisce un numero di informazioni su θ maggiore
di quelle contenute in ̂, che perciò è “sufficiente”.
10
4) l’efficienza: ossia, la dispersione delle varie stime effettuate
con lo stimatore dato intorno al parametro (o caratteristica)
dell'universo, al variare del campione (con uguale numerosità),
deve essere minore di quella ottenuta con ogni altro possibile
stimatore dello stesso parametro o caratteristica. Cioè, si
considera più efficiente quello stimatore rispetto al quale si ha
varianza campionaria minore. Fra due stimatori ̂1 e ̂ 2 di θ,
entrambi corretti, si considera migliore quello che risulta più
efficiente, che nell’esempio in figura è ̂1 .

^ )
p(1

^ )
p( 2

11
O ^
  ^
1 
2
Tuttavia, se ̂ 2 è corretto e ̂1 , anche se più efficiente, è distorto
(come mostrato in figura), allora ̂1 può risultare meno efficace
di ̂ 2 , perché concentrato intorno ad un valore θ0 troppo diverso
da θ, per cui può portare ad una valutazione del parametro
completamente inesatta: in tal caso, infatti, è ridottissima la
probabilità che la stima cada in [a,b], che rappresenta l’intervallo
in cui la stima stessa risulta ancora accettabile.

^ )
p(1

^ )
p(2

O a  b 0 12
^ )
p( 1

^ )
p( 2

O a  0 b

Nella figura qui riportata, invece, P(a  ˆ 1  b)  P(a  ˆ 2  b):


in tal caso, è da preferire lo stimatore non corretto ̂1 a quello
corretto ̂. 2
In conclusione, il confronto di efficienza va fatto quando i due
stimatori siano entrambi corretti o la loro distorsione sia
trascurabile al crescere di n.
13
Se la popolazione è normale, lo stimatore più efficiente di  è la
“media aritmetica campionaria”; se la popolazione non è
normale, invece, ciò non è dimostrato dal punto di vista teorico,
ma in pratica si tende sempre a usare la media aritmetica
campionaria, perché verifica le altre proprietà

14
Stime puntuali di , 2, p

Indichiamo con 2 la varianza (ignota) del carattere calcolata


con i dati dell’universo, con quella calcolata
con i dati del campione e con S2 la v.c. di cui la statistica s2 è
una determinazione.

15
a) Campionamento bernoulliano (con ripetizione):
Se il campionamento è bernoulliano, il migliore stimatore di 
è la media campionaria X . n
 (X i  X )
2
n 2
Il migliore stimatore di  è, invece, ˆ  
2 i 1
2 S .
n 1 n 1

Per caratteri dicotomici, il migliore stimatore p̂ della frequenza


relativa p è la funzione che fornisce la ”frequenza relativa
campionaria”, di cui f è una determinazione.
Poiché in questo caso la varianza del carattere nella
popolazione è 2=p(1-p), indicata con s2=f(1-f) la varianza del
carattere calcolata con i dati campionari, sostituendo nella
p̂(1  p̂)
formula precedente le stime campionarie si ha: ˆ 2  n.
n  161
b) Campionamento senza ripetizione e in blocco:
Se il campionamento è in blocco o senza ripetizione, X è
sempre uno stimatore corretto di .
Il migliore stimatore di 2 è dato, invece, da .

Nel caso di frequenze relative, il miglior stimatore di p è


sempre p̂ =f, ossia la frequenza relativa campionaria, mentre
il miglior stimatore di 2, ottenuto dalla formula precedente
sostituendovi S2 con ,è
p̂(1  p̂)n N  1 .
ˆ 2  
n 1 N

17
Si noti che, per N∞, le formule relativa al
campionamento senza ripetizione (o in blocco) coincidono
con quelle relative al campionamento bernoulliano, le quali
si utilizzano, dunque, ogni qualvolta N sia superiore a n in
misura considerevole (tipicamente, 1.000-2.000 volte più
grande: ad esempio, un campione di 500 abitanti tratto
dall’intera popolazione di Bari).

18
Va tenuto presente che, mentre ̂ è uno stimatore corretto di 2,
2

̂ è uno stimatore distorto di . Se vogliamo che esso sia uno


stimatore attendibile di  deve essere almeno n50 se la popolazione
è distribuita normalmente ed n100 se la popolazione non è normale.

Nel caso di una frequenza relativa di carattere dicotomico, ̂ è


stimatore attendibile di  quando p  0,3 oppure p  0,7 con n  50,
mentre, quando 0,3 < p < 0,7, lo è solo se n  100.

Infine, sapendo che le osservazioni campionarie x1, x2, ..., xn sono


determinazioni di altrettante v.c. X1, X2, ..., Xn indipendenti aventi
tutte la medesima media  e la stessa varianza 2, si ha che la
distribuzione campionaria della media, ossia il valore della media al
variare dei2 campioni, è  ( X )   , mentre la varianza campionaria è
data da ˆ ( X )  S 2
/( n  1) se il campionamento è bernoulliano, da
ˆ 2 ( X )  S 2 (n  1)  ( N  n ) N se è senza reinserimento o in blocco.
19
La stima intervallare
La stima del parametro  (ossia ̂ ) difficilmente coincide con
, anche se si può calcolare quanto le stime effettuate con lo
stesso stimatore differiscono, in media, dal valore del
parametro (o della caratteristica) della popolazione.

Nulla si è detto, però, sulla probabilità di commettere un


determinato errore quando si assume  = ̂ . Tale errore è
dovuto al fatto che si rileva solo un campione e non tutto
l’universo: è noto solo che P(̂ =)=0: si ricordi, infatti, che
la probabilità che una v.c. continua assuma un certo valore è
infinitesimale, ed in pratica è nulla.

20
Se con lo stesso stimatore si effettuano numerose stime di 
con vari campioni casuali, si osserva, però, che alcune stime
sono più frequenti di altre (per cui è legittimo ritenere che
alcuni risultati siano più probabili di altri): è dunque
possibile dividere lo spazio dei parametri in due sottoinsiemi,
l’uno dove è più probabile che cada  e l’altro dove lo è
meno.

Da tutto ciò appare evidente che invece di stimare un solo


valore di , si può stimare l’intervallo casuale (detto
intervallo di confidenza o di fiducia) che contiene 
all’interno con una probabilità prefissata P=1, denominata
livello di confidenza o livello di fiducia.

21
Ovviamente,  (detto livello di significatività) fornisce la
misura del rischio che si corre nel confidare che l’intervallo
casuale stimato contenga , e questo rischio è connesso al
fatto che l’indagine è campionaria e non totale.

In pratica, la teorizzata realizzazione di numerosi


campioni per individuare i risultati più probabili (e,
quindi, l’intervallo di confidenza) non avviene mai,
perché, generalmente, si dispone di un solo campione.
Perciò, si procede indirettamente, cercando due valori casuali
ˆ 1 (X 1 , X 2 ,  , X n )  ˆ 2 (X 1 , X 2 ,  , X n ) assunti dallo stimatore
̂ , funzioni del campione casuale (X 1,X2,…,Xn), per i quali
( ˆ    ˆ )

valori sia P 1 2 =1: l'intervallo cercato è quindi dato

da ] ˆ 1 , ˆ 2[.
22
È importante far osservare che ] ˆ 1 , ˆ 2[ è un intervallo
casuale che contiene il parametro  con probabilità
1, il che vale a dire che, se si estraggono numerosi
campioni casuali della stessa numerosità, e si calcolano
numerosi intervalli di confidenza, il 100·(1)% di essi
conterrà .

Perciò, il livello 1 deve essere interpretato come


misura del "grado di fiducia" che esso contenga , e
non come semplice probabilità (proprio per tale
motivo 1 è stato denominato livello di fiducia).
23
Naturalmente i diversi intervalli di confidenza dipendono da :
più piccolo è , maggiore è il grado di fiducia che  cada in un
determinato intervallo di confidenza. Si fa osservare, però, che
per aumentare il grado di fiducia non si può semplicemente far
tendere  a 0. Infatti, è vero che aumentando 1 aumenta il
grado di fiducia, ma è pur vero che aumenta l’ampiezza
dell’intervallo, rendendolo praticamente insignificante.

Ad es., dire che il peso dei neonati in Italia è compreso fra


100g e 10kg con probabilità del 99,999% non ha alcun
significato ai fini della conoscenza del fenomeno. E’
evidente, dunque, che, a parità di , più piccolo è l'intervallo e
più precisa è la stima effettuata.

24
Quando è nota la distribuzione campionaria dello stimatore  ˆ , è
possibile trovare (Fig. 1 e Fig. 2) due punti ̂1 e ̂ 2 tali che
P(ˆ 1    ˆ 2 )  1  
^ ^
p() p()

1- 1-

^ ^
 
O ̂ 1 ̂ 2 O ̂1 ̂2
Fig. 1 Fig. 2
Tuttavia, la Fig. 1 e la Fig. 2 mostrano che, fissato , esistono infiniti
intervalli che soddisfano la condizione data (in effetti, nelle due figure
le aree tratteggiate sono uguali). Bisogna dunque fissare un criterio
per la scelta di un solo intervallo fra gli infiniti possibili: determinare
gli intervalli in modo che la loro ampiezza sia minima, perché in tal
caso, come già detto, a parità di  la stima ottenuta è più precisa. 25
La soluzione del problema è molto complessa. E’ stato dimostrato,
però, che se la distribuzione campionaria dello stimatore è
simmetrica (o, almeno, all’incirca simmetrica) il migliore intervallo
è quello centrato, cioè quello per cui le code (sinistra e destra) della
distribuzione individuano entrambe una superficie illimitata di
misura pari ad /2, cioè P(ˆ  ˆ )  P(ˆ  ˆ )   / 2 .
1 2

Per intervalli di confidenza intorno a grandezze che riguardano


fenomeni sociali, generalmente si assume α=0,05 oppure α=0,01.

Nel seguito, tratteremo solo il problema in cui non si conosca il 


della popolazione, perché è quello che si presenta nella pratica: è
evidente, infatti, che se conoscessimo , quasi certamente
conosceremmo anche  (per non ci sarebbe bisogno di costruire
l’intervallo di confidenza che contenga al proprio interno ).
26
Intervallo di confidenza (popolazione normale)
Si ponga di aver stimato in modo puntuale  ( X )   e ˆ 2 ( X ) ,
quest’ultima, con le correzioni necessarie per campionamento
bernoulliano, in blocco, senza ripetizione, o altro.

Se il campione è abbastanza grande (n≥50) e la popolazione


da cui esso è stato estratto si distribuisce normalmente, la
v.c. (  x ) / ˆ ( X ) costruita sulla base di tali stime, al variare
del campione nell’universo dei campioni si distribuisce come
una normale standardizzata, indicata con Z.

27
Allora, fissato , se indichiamo con z/2 il valore di Z per il
quale P(Z ≥ z/2)=/2 e, a causa della simmetria della curva,
con ‑z/2 il valore di Z per cui P(Z≤‑z/2)=/2, il problema
della determinazione dell’intervallo di confidenza si riduce a
trovare nella tavola della normale standardizzata il valore di
z/2. Infatti, l’intervallo che contiene il vero valore della
variabile, con probabilità P=1‑, qui è:
(  x ) / ˆ ( X )
-z/2< < z/2.
̂( X )
Moltiplicando per
x tutti i termini della disequazione e poi
aggiungendovi , si ottiene l’intervallo cercato:
x  z  / 2  ( X )    x  z  / 2  ˆ ( X )
ˆ
.

28
Tale formula consente di ricavare anche l’ampiezza dell’intervallo di
confidenza: d  x  z  / 2  ˆ (X)  [x  z  / 2  ˆ (X)]  2z  / 2  ˆ (X) .
Questo calcolo evidenzia ciò che è stato già illustrato: a parità di 
(e, quindi, di z/2), più piccolo è d e più attendibile è il valore della
stima: infatti risulta minore l’errore standard ̂( X ) ; si osservi, inoltre,
che ̂( X ) diminuisce all’aumentare di n: aumentando n, diminuisce,
dunque, l’ampiezza d dell’intervallo di confidenza e diventa più
precisa la stima (al limite, se n=N, ̂( X ) =0 e il valore di x coincide
proprio con ).

Esempio: Su un campione bernoulliano di n=101 giovani residenti in Puglia è stata


rilevata la statura, trovando x =170cm, con s=5cm. Si vuol calcolare l’intervallo di
confidenza che con probabilità del 95% contenga la media  delle stature di tutta la
popolazione giovanile (si noti che N è molto grande). Poiché il campione è
sufficientemente ampio, X si distribuisce all'incirca come una v.c. normale, con:
ˆ ( X )  s / n  1  (5 / 10)cm  0,5cm ; essendo 1‑=0,95, /2=0,025,  ~z
0,025
1,96, si ha: (170‑1,96·0,5)cm<<(170+1,96·0,5)cm,
29
ossia: 169,02cm<<170,98cm.
Intervallo di confidenza (popolazione non normale)
Quando la popolazione da cui è estratto il campione non è normale,
se n100, la distribuzione del rapporto (  x ) / ˆ ( X ) è all’incirca
normale, qualsiasi sia la distribuzione della popolazione da cui è
estratto il campione: dunque, si può ancora calcolare l’intervallo di
confidenza con la procedura prima descritta.

Quando, invece, il campione è piccolo (e la popolazione non è


normale), non essendo nota la distribuzione campionaria della
media, ci serviremo, perciò, del teorema di Bienaymé-Tchebycheff
(a cui si è accennato in una precedente lezione), il quale assicura
che, qualsiasi sia la funzione di distribuzione campionaria della
media, la probabilità che una determinazione x della v.c. X sia
compresa nell’intervallo ] [ è maggiore
o uguale a 11/k2 , con k>1.
Cioè: P(  k  ˆ ( X )  x    k  ˆ ( X ))  1  1 / k 2 .
30
Ricordando che, cambiando il segno dei termini di qualsiasi
disuguaglianza, essa cambia verso (cioè, da 2<3<4 si ha -4<-3<-2),
cambiamo il segno dei termini della disequazione tratta dal teorema
e, riordinando da negativo a positivo, otteniamo:
   k  ˆ ( X )   x    k  ˆ ( X )
ed aggiungendo   x a tutti i termini di tale relazione, si ottiene che
l’intervallo x  k  ˆ ( X )    x  k  ˆ ( X ) contiene al proprio
interno la media dell’universo con probabilità non minore di
1‑1/k2.

Per ottenere l’intervallo di confidenza che contenga all’interno la


media  con probabilità
k  1 /  1‑, basta porre 1‑1/k2 =1‑, da cui 1/k2 =
 e, quindi, x  (1 /  ).  ˆL’intervallo
(X)    x cercato,
(1 / quindi,
)  ˆ ( X )diventa:
.

[ x dell’intervallo
L’ampiezza (1 /  ) ˆ ( X )]di confidenza
[ x  (1 /  )è qui
ˆ ( Xdata
)]  da:
2ˆ ( X ) /  .
31
d=
Esempio: La spesa media giornaliera per consumi primari di un campione di
50 famiglie, estratte senza ripetizione dall’universo delle famiglie italiane, è
x = €100, con s = €10. Si vuol determinare l’intervallo di confidenza che
contenga la spesa media  per consumi primari di tutte le famiglie, al livello
di significatività del 5%.
Poiché N è molto grande, n è piccolo e non è nota la distribuzione della spesa
media nell’universo (e, quindi, non è nota la distribuzione campionaria della
media), dopo aver calcolato ̂( X ) ed aver posto k  1 /  , utilizziamo la
formula derivata dal teorema di Bienaymé-Tchebycheff . Si ha:
  
100  20  10 / 50  1    100  20  10 / 50  1 ; 
essendo 20  10 / 49  6,39 , l’intervallo cercato è: € 93,61 <  < € 106,39.

Se, invece, la popolazione fosse normale, le medie campionarie si


distribuirebbero secondo una Z; per cui, essendo z0,025=1,96 e 50  1  7 ,
l’intervallo di confidenza sarebbe: €(100‑1,96·10/7)<<
€(100+1,96·10/7), ossia €(100‑2,8)<< €(100+2,8), da cui € 97,2 <  < €
102,8.
Come si vede questo intervallo è molto meno ampio (e, quindi, la stima di  è
molto più precisa) di quello che si ottiene in assenza di normalità32 della
Intervallo di confidenza per frequenze relative
Stimato in modo puntuale p̂  f e ̂(p̂) , se il campione è abbastanza
grande (n≥30), la v.c. (p  f ) ˆ (p̂) costruita sulla base di tali stime,
al variare del campione nell’universo dei campioni si distribuisce
come una normale standardizzata, per cui si giunge facilmente alla
determinazione dell’intervallo di confidenza:
f  z  / 2  ˆ (p̂)  p  f  z  / 2  ˆ (p̂).

Esempio
Supponiamo che, in un campione di 40 studenti estratti senza ripetizione dalla
popolazione di 9.370 iscritti ad un corso di laurea, 26 (ossia il 65%) abbiano
risposto di essere favorevoli ai piani di studio consigliati dalla Facoltà. Qual è, al
livello di fiducia del 95%, l’intervallo di confidenza entro cui cade la frequenza
relativa, in tutta la popolazione studentesca considerata, degli studenti favorevoli a
detti piani di studio f (1  f ) N  n 0,65  0,35 9.370  40
Essendo ~
 
ˆ ( p̂ )  
f=0,65,   0,0762si
n 1 N 40  1 9.370
ha: ,
da cui, poiché z0,025 1,96, si ha: 0,65 ‑1,96  0,0762 < p< 0,65 +331,96 
0,0762, e, in definitiva: 0,50 < p < 0,80.
Esempio di interpretazione
Posto che la spesa pro-capite annua per un farmaco (X) abbia distribuzione normale
con  =30 euro e =2,55, commissioniamo a 20 diversi ricercatori un’indagine
basata su campione casuale di 100 persone, con livello di fiducia pari al 95%, dando
a ciascun ricercatore solo l’informazione che X ha =2,55 e segue una distribuzione
normale. Ognuno dei 20 ricercatori ha gli stessi ingredienti di base, e ciascuno
estrarrà dalla popolazione un diverso campione, quindi la media campionaria
varierà da un ricercatore all’altro.
La prima media campionaria sarà pari a 30,24, con intervallo di confidenza (IdC) di
30,241,96(2,55/10)=[29,74; 30,74]. La seconda media sarà 30,12, con IdC pari a
[29,62; 30,62], e così via. Dato che la probabilità che l’IdC contenga  è fissata
pari al 95%, ci si può aspettare che 19 dei 20 intervalli (il 95%) contengano  e
solo per 1 campione estratto l’IdC corrispondente fallisca.
In effetti, tutti e venti gli intervalli contengono =30, tranne uno (il campione 17).
31

30

29 34
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Brevi cenni sulla verifica di ipotesi
Ipotesi statistica (H): congettura su una popolazione a partire
da un campione rappresentativo (inferenza: dal particolare
dedurre il generale).

Può riguardare:
• la forma della funzione di probabilità p(x,θ) della popolazione
(ipotesi funzionale): ad es., che una popolazione si distribuisca normalmente;
• il valore di un parametro incognito θ (ipotesi parametrica):
ad es., che il peso dei neonati abbia μ=3.300g e σ=100g;
• la relazione tra due o più v.c. (così come le loro determinazioni
campionarie le rappresentano): ad es., l’indipendenza fra X e Y o la
differenza fra la media di un valore rilevato in un gruppo e quello rilevato in
una altro gruppo.
35
L'ipotesi sottoposta a verifica, indicata con H0, è detta di base
oppure nulla, mentre l'ipotesi H1 che le si contrappone si
denomina alternativa.
La regola che, in base ai dati campionari, porta a decidere in
termini probabilistici se accettare o respingere l'ipotesi di
base si chiama test statistico. Esso, al variare dei campioni, si
distribuisce in modo da poter essere diviso in zona di
accettazione TA e zona di rifiuto TR.
In caso di ipotesi parametriche, si distinguono ipotesi
semplici, se sono definite da un solo valore del parametro, o
composte quando sono individuate da un insieme di valori.
Inoltre possono aversi ipotesi unilaterali (“a una coda”)
oppure bilaterali (“a due code”).
36
Le ipotesi semplici (di base ed alternativa), ad esempio,
possono essere formalizzate così:
H0 : θ = 3300gr H1: θ =3400gr.
Questo tipo di ipotesi è sempre unilaterale.
unilaterale
Le ipotesi composte possono ipotizzare, ad es., che il peso
neonatale possa essere compreso in un dato intervallo, oppure,
in alternativa, che esso sia superiore o inferiore alle soglie
identificate dall’ipotesi di base. Quest’ultimo tipo di ipotesi,
oltre a essere composta, può essere anche bilaterale,
bilaterale ossia si
pone ai due estremi opposti della distribuzione.
Ipotesi composta unilaterale:
H0 : θ = 3300gr H1: θ > 3300gr.
Ipotesi composta bilaterale:
H0 : θ = 3300gr H1: θ ≠ 3300gr.
Ipotesi composta bilaterale:
H0 : θ  [3200gr, 3400gr] H1: θ  [3200gr, 3400gr].
37
Accettando o rifiutando H0 è tuttavia possibile prendere una
decisione non corretta, commettendo i seguenti due tipi di
errori:
1)  respingere H0, quando essa è vera (errore di 1a specie);
2)  accettare H0, quando essa è falsa (errore di 2a specie).

Si indica con  (livello di significatività del test) la probabilità


di commettere un errore di 1a specie (cioè,  è la probabilità
che il test, pur essendo vera H0, cada in TR); mentre
indicheremo con  la probabilità di commettere un errore di 2a
specie (cioè,  è la probabilità che il test, pur essendo vera H1,
cada in TA).

38
La potenza di un test (indicata con 1-) rappresenta l'attitudine
che esso ha nello scoprire la falsità dell'ipotesi H0, perché
fornisce la probabilità di rifiutare H0 quando è vera H1.

Tra i vari test possibili, spesso è necessario determinare il test


più potente, ossia quello che, fissato , minimizza . Non
staremo qui a citare i procedimenti matematico-statistici
mediante cui si costruisce il test più potente; basti solo sapere
che la maggior parte dei test che si applicano nelle ricerche
empiriche (Z, T di Student, Chi-quadrato, F di Snedecor ecc.)
sono molto potenti, seppur in una graduatoria che vede al
primo posto il test Z (purtroppo non sempre applicabile) ed
all’ultimo posto, fra i vari test non parametrici, il cosiddetto
“test della mediana”.
39
Minimizzazione dell’errore statistico: ben esemplificato in figura,
rappresentante la distribuzione campionaria dello stimatore p̂
quando è vera H0 (ad esempio, nella curva di sinistra, posta pari a
p=0,35), mentre la curva di destra rappresenta la distribuzione
campionaria dello stimatore allorquando è vera l’ipotesi
alternativa H1 (nell’esempio qui posto, quando p=0,60).
Il punto fc individua la linea di demarcazione fra la zona di
accettazione e la zona di rifiuto dell’ipotesi.

H 0 vera H1 vera

0,35 f C=0,50 0,60 40


H 0 vera H1 vera

0,35 f C=0,50 0,60


Come si vede, se spostiamo fc verso destra diminuisce l’errore ,
ma aumenta  (errore di II specie); analogamente, se spostiamo fc
verso sinistra diminuisce  ma aumenta . Per ridurre sia che 
bisogna aumentare l’ampiezza del campione: in tal caso, invero,
diminuisce ( p̂ ) sia nella 1a che nella 2a distribuzione, le curve
corrispondenti diventano più appuntite (cioè l’ordinata massima
di entrambe le curve diventa più alta), e quindi le aree sottese alle
code delle due distribuzioni diventano più piccole.
Se non è possibile aumentare l’ampiezza del campione, allora è
consigliabile minimizzare , che è considerato errore più grave.
41
Non staremo qui a descrivere i diversi test statistici che sono stati
elaborati per venire incontro alle varie esigenze della ricerca.
Faremo solo un breve cenno alla soluzione del problema accennato
inizialmente, introducendo l’argomento dell’inferenza statistica.

L'ipotesi da verificare è che la distribuzione delle spese sanitarie


mensili degli anziani in Puglia abbia μ=100 euro: si calcola,
dunque, la spesa media sanitaria x di un campione rappresentativo
di persone oltre i 65 anni.
Se la distribuzione delle spese sanitarie nella popolazione è
normale (o si può ritenere tale, se il campione è rappresentativo
della popolazione perché sufficientemente grande e correttamente
estratto), una accettabile verifica di tale ipotesi consiste nello
stimare, in base ai dati campionari, l’intervallo di confidenza del
carattere (spesa media sanitaria) e poi verificare, semplicemente,
se il valore ipotizzato (100 euro) cade all’interno di tale intervallo.
42
Una modalità alternativa e più corretta è però quella di utilizzare il
test statistico appropriato. Per ogni tipo di verifica d’ipotesi può
esistere un diverso test statistico, dipendendo dalle proprietà
distributive del carattere sottoposto a verifica, e anche dal termine di
confronto (la popolazione o un altro campione, o più campioni).
In genere le verifiche d’ipotesi si basano su test così formulati:
valore in corso di verifica  valore di confronto
Test 
valore di standardizzazione campionaria
Nell’esempio citato, dunque, dopo aver calcolato il valore medio x
della spesa sanitaria nel campione e la sua varianza campionaria ( X )
(che dipende anche dal tipo di campionamento effettuato), l'ipotesi
H0: μ=100 euro si verifica con il test
x 
z ,
( X )
confrontando poi il valore con il valore critico della curva normale
al livello di significatività α (se z≤zα si accetta l’ipotesi di base,
altrimenti la si respinge). 43
La dimensione del campione
Uno dei problemi che il ricercatore deve risolvere consiste nel
calcolare la dimensione del campione. Per un verso, infatti,
aumentando la numerosità del campione le stime dei parametri sono
più attendibili, ma, per un altro, aumentando la dimensione del
campione aumentano i costi di rilevazione.
Un criterio per il calcolo di una numerosità ottimale consiste
nell’usare in senso inverso i procedimenti esposti per la stima dei
parametri: ovviamente, mentre nei procedimenti usati in precedenza
si supponeva noto n, ora n rappresenta l’incognita da determinare.

44
a) Se la distribuzione campionaria del carattere è normale:
In questo caso l’ampiezza dell’intervallo di confidenza è fornita da
d  2z  / 2 ˆ ( X ) .
Nel caso che viene scelto più frequentemente (il campionamento
senza reinserimento), poiché ˆ 2 ( X )  S 2 (n  1)  ( N  n ) N ,
(d / 2) 2  s2  z2 / 2
con pochi passaggi aritmetici si ha: n  .
s2
 z 2

( d / 2) 2  /2

N2
~ s  z / 2
2

Se N è molto grande, (s  z α / 2 ) / N  0 , per cui n 


2 2
2
1 .
(d / 2)
Dunque, la dimensione del campione dipende da 4 elementi:
1) la numerosità della popolazione (nota);
2) il valore soglia della distribuzione, al livello  (da stabilire);
3) la semi-ampiezza d/2 dell’intervallo di confidenza (da stabilire);
4) lo scarto quadratico medio campionario s (ignoto).
45
Per ognuno di tali punti va scelta la metodica più appropriata:
••• va fissato a priori il livello di significatività , cioè il rischio che
è disposto a correre accettando il risultato campionario (in genere,
nello studio dei fenomeni sociali,  = 0,05 oppure  = 0,01);
••• il massimo scostamento d/2 dipende dalla precisione richiesta
per la stima del carattere nella popolazione, ossia quanto potrà essere
lo scostamento massimo tra il carattere nel campione e il vero valore
del carattere: argomento su cui vanno fatte scelte appropriate per
contenere la spesa di rilevazione senza perdere troppo in precisione;
••• il compito più difficile consiste, purtroppo, nel fissare il valore di
s (non va dimenticato, infatti, che s è proprio lo scarto quadratico
medio nel campione, finora non ancora rilevato); per aggirare
l'ostacolo ci possiamo servire dei risultati di studi precedenti, oppure
si può decidere di compiere un'indagine pilota che ci consenta una
prima stima di s (come si può evincere da quanto detto a proposito
delle stime, è preferibile che l’indagine pilota abbia una numerosità
almeno pari a 50 unità, ma è meglio se sono 100). 46
b) Se la distribuzione campionaria del carattere non è normale:
In questo caso l’ampiezza dell’intervallo di confidenza, utilizzando il
teorema di Bienaymé-Tchebycheff, è d  2ˆ ( X ) /  , che, elevato al
quadrato e impostando la varianza campionaria adeguatamente al
tipo di campionamento scelto (nel presente esempio, ancora quello
senza reinserimento) diventa:
s2
Nn
( d / 2) 2   .
 ( n  1) N
Da cui, con semplici passaggi:
αN(d/2)2n – αN(d/2)2 = Ns2 – ns2,
n[αN(d/2)2 + s2] = N[α(d/2)2 + s2] ,
e infine
 ( d / 2) 2  s 2
n 2
.
s
 ( d / 2) 
2

N
s2
Se N è molto grande, si avrà, ovviamente: n  1 .
( d / 2) 2 47
A titolo di chiarimento, diamo una regola di comportamento valida
sia quando la distribuzione campionaria della media sia approssima-
tivamente normale, sia quando ciò non sia vero: si calcoli n come se
il carattere nella popolazione sia distribuito normalmente, cioè con:
(d / 2) 2  s2  z2 / 2
n
s2
 z 2

( d / 2) 2  /2

N s2  z2 / 2
oppure (nel caso N sia molto grande) con: n  2
1 .
(d / 2)
Se il valore di n così ottenuto è minore di 50, oppure se 50n<100 e
la popolazione da cui è estratto il campione sia presumibilmente
 ( d / 2) 2  s 2
“non normale”, si ricalcolerà n con: n  2
s
 ( d / 2) 2 
2
N
s
oppure (per N molto grande) con: n  1 .
( d / 2) 2
48
Si tenga conto che, per i livelli di significatività più frequentemente
utilizzati ( = 0,05 e  = 0,01), i valori della normale standardizzata
da utilizzare sono, rispettivamente
z0,025=1,96
e
z0,005=2,575,
come si può evincere dalle più diffuse tavole statistiche.

49
c) Il calcolo di n nel caso di inferenza su frequenze relative:
Poiché in questo caso s2=f(1–f), ipotizzando che l’ampiezza
campionaria ottenuta sia n>30, in modo che la distribuzione
campionaria della frequenza si approssimi alla normale, si avrà:
(d / 2) 2  f (1  f ) z 2 / 2
n .
f (1  f ) z  / 2
2

( d / 2) 
2

N
f (1  f ) z 2 / 2
Per N molto grande, sarà invece: n 2
1 .
( d / 2)
Se si ottiene n30 (per cui la presunzione di normalità cade), la
dimensione campionaria ottimale va ricalcolata con B.T., e diventa:
 ( d / 2) 2  f (1  f )
n
f (1  f ) .
 ( d / 2) 
2

N
f (1  f )
Per N molto grande: n  1 .
 ( d / 2) 2
50
Come nel caso di medie ed altri parametri di posizione:
••• va fissato a priori il livello di significatività ;
••• va fissato il massimo scostamento d/2;
••• va ipotizzato un appropriato valore di s=f(1-f); se non si ritiene il
carattere fortemente sbilanciato nella popolazione, è possibile
semplicemente massimizzare tale varianza in modo da essere sicuri
di non estrarre un campione più piccolo del necessario; tale evento si
ha quando f=0,5 (e, quindi, f(1-f)=0,25).

Se, però, si ha ragione di credere che, nella popolazione, p sia


prossimo a 0 oppure a 1, l’ipotesi f=0,5 non è appropriata per la
determinazione ottimale della numerosità del campione, che
risulterebbe dunque sovradimensionato: in tal caso è meglio
ricorrere ad una indagine pilota.
Naturalmente, se si ha a disposizione un’indagine precedente (o
un’indagine pilota), ci si serve del valore di p (o di f) determinato in
quell’indagine. 51

Potrebbero piacerti anche