Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2
Il primo di questi problemi consiste nel risalire al valore
(ignoto) di una “grandezza” caratteristica dell’universo, sulla
base dei dati campionari. Ad es., tramite un campione,
stimare quanti milioni di votanti hanno optato per un partito
anziché per un altro.
3
Il secondo problema a cui si è fatto cenno, cioè quello della
verifica di ipotesi, consiste nell'ipotizzare che i parametri della
funzione di densità di probabilità (o determinate grandezze
caratteristiche della popolazione) assumano prefissati valori e
nel verificare, tramite le osservazioni campionarie, che
l'ipotesi formulata sia vera o falsa (ipotesi parametrica),
oppure nel verificare che la distribuzione del carattere nella
popolazione abbia una data forma (ipotesi funzionale).
Ad es., con tale tecnica si può provare l'ipotesi che la distribuzione delle
spese sanitarie mensili degli anziani in Puglia abbia μ=100 euro: si calcola la
media x delle spese sanitarie documentate dagli anziani di un campione
rappresentativo (ad es., di 1000 persone oltre i 65 anni, i cui nominativi
siano stati estratti dalle liste elettorali con un procedimento stratificato per
età), si confrontano x e 100 e poi, tramite la più appropriata procedura
di verifica, si accetta o si rifiuta l'ipotesi che la spesa sanitaria media degli
anziani in Puglia sia pari a 100 euro.
4
La stima puntuale dei parametri
Quando si vuole conoscere le caratteristiche della popolazione,
si devono distinguere due casi:
6
Stimatori e loro proprietà desiderabili
7
Problemi:
1) determinare quali sono i metodi che consentono di ricavare
gli stimatori di θ;
2) stabilire quale sia lo stimatore migliore.
8
1) correttezza: ossia la media di tutte le stime (calcolate con lo
stesso stimatore) effettuate con tutti i possibili campioni di pari
numerosità estratti dall'universo, deve essere uguale al relativo
parametro (o caratteristica) dell'universo stesso: cioè, E () ˆ .
Quando lo stimatore non è corretto si chiama distorto.
La grandezza E ̂ è detta distorsione (bias) dello stimatore,
2
mentre la grandezza (ˆ ) E ˆ E(ˆ ) si denomina varianza
2
2
campionaria dello stimatore: ad esempio, X E X è la 2
^ )
p(1
^ )
p( 2
11
O ^
^
1
2
Tuttavia, se ̂ 2 è corretto e ̂1 , anche se più efficiente, è distorto
(come mostrato in figura), allora ̂1 può risultare meno efficace
di ̂ 2 , perché concentrato intorno ad un valore θ0 troppo diverso
da θ, per cui può portare ad una valutazione del parametro
completamente inesatta: in tal caso, infatti, è ridottissima la
probabilità che la stima cada in [a,b], che rappresenta l’intervallo
in cui la stima stessa risulta ancora accettabile.
^ )
p(1
^ )
p(2
O a b 0 12
^ )
p( 1
^ )
p( 2
O a 0 b
14
Stime puntuali di , 2, p
15
a) Campionamento bernoulliano (con ripetizione):
Se il campionamento è bernoulliano, il migliore stimatore di
è la media campionaria X . n
(X i X )
2
n 2
Il migliore stimatore di è, invece, ˆ
2 i 1
2 S .
n 1 n 1
17
Si noti che, per N∞, le formule relativa al
campionamento senza ripetizione (o in blocco) coincidono
con quelle relative al campionamento bernoulliano, le quali
si utilizzano, dunque, ogni qualvolta N sia superiore a n in
misura considerevole (tipicamente, 1.000-2.000 volte più
grande: ad esempio, un campione di 500 abitanti tratto
dall’intera popolazione di Bari).
18
Va tenuto presente che, mentre ̂ è uno stimatore corretto di 2,
2
20
Se con lo stesso stimatore si effettuano numerose stime di
con vari campioni casuali, si osserva, però, che alcune stime
sono più frequenti di altre (per cui è legittimo ritenere che
alcuni risultati siano più probabili di altri): è dunque
possibile dividere lo spazio dei parametri in due sottoinsiemi,
l’uno dove è più probabile che cada e l’altro dove lo è
meno.
21
Ovviamente, (detto livello di significatività) fornisce la
misura del rischio che si corre nel confidare che l’intervallo
casuale stimato contenga , e questo rischio è connesso al
fatto che l’indagine è campionaria e non totale.
da ] ˆ 1 , ˆ 2[.
22
È importante far osservare che ] ˆ 1 , ˆ 2[ è un intervallo
casuale che contiene il parametro con probabilità
1, il che vale a dire che, se si estraggono numerosi
campioni casuali della stessa numerosità, e si calcolano
numerosi intervalli di confidenza, il 100·(1)% di essi
conterrà .
24
Quando è nota la distribuzione campionaria dello stimatore ˆ , è
possibile trovare (Fig. 1 e Fig. 2) due punti ̂1 e ̂ 2 tali che
P(ˆ 1 ˆ 2 ) 1
^ ^
p() p()
1- 1-
^ ^
O ̂ 1 ̂ 2 O ̂1 ̂2
Fig. 1 Fig. 2
Tuttavia, la Fig. 1 e la Fig. 2 mostrano che, fissato , esistono infiniti
intervalli che soddisfano la condizione data (in effetti, nelle due figure
le aree tratteggiate sono uguali). Bisogna dunque fissare un criterio
per la scelta di un solo intervallo fra gli infiniti possibili: determinare
gli intervalli in modo che la loro ampiezza sia minima, perché in tal
caso, come già detto, a parità di la stima ottenuta è più precisa. 25
La soluzione del problema è molto complessa. E’ stato dimostrato,
però, che se la distribuzione campionaria dello stimatore è
simmetrica (o, almeno, all’incirca simmetrica) il migliore intervallo
è quello centrato, cioè quello per cui le code (sinistra e destra) della
distribuzione individuano entrambe una superficie illimitata di
misura pari ad /2, cioè P(ˆ ˆ ) P(ˆ ˆ ) / 2 .
1 2
27
Allora, fissato , se indichiamo con z/2 il valore di Z per il
quale P(Z ≥ z/2)=/2 e, a causa della simmetria della curva,
con ‑z/2 il valore di Z per cui P(Z≤‑z/2)=/2, il problema
della determinazione dell’intervallo di confidenza si riduce a
trovare nella tavola della normale standardizzata il valore di
z/2. Infatti, l’intervallo che contiene il vero valore della
variabile, con probabilità P=1‑, qui è:
( x ) / ˆ ( X )
-z/2< < z/2.
̂( X )
Moltiplicando per
x tutti i termini della disequazione e poi
aggiungendovi , si ottiene l’intervallo cercato:
x z / 2 ( X ) x z / 2 ˆ ( X )
ˆ
.
28
Tale formula consente di ricavare anche l’ampiezza dell’intervallo di
confidenza: d x z / 2 ˆ (X) [x z / 2 ˆ (X)] 2z / 2 ˆ (X) .
Questo calcolo evidenzia ciò che è stato già illustrato: a parità di
(e, quindi, di z/2), più piccolo è d e più attendibile è il valore della
stima: infatti risulta minore l’errore standard ̂( X ) ; si osservi, inoltre,
che ̂( X ) diminuisce all’aumentare di n: aumentando n, diminuisce,
dunque, l’ampiezza d dell’intervallo di confidenza e diventa più
precisa la stima (al limite, se n=N, ̂( X ) =0 e il valore di x coincide
proprio con ).
[ x dell’intervallo
L’ampiezza (1 / ) ˆ ( X )]di confidenza
[ x (1 / )è qui
ˆ ( Xdata
)] da:
2ˆ ( X ) / .
31
d=
Esempio: La spesa media giornaliera per consumi primari di un campione di
50 famiglie, estratte senza ripetizione dall’universo delle famiglie italiane, è
x = €100, con s = €10. Si vuol determinare l’intervallo di confidenza che
contenga la spesa media per consumi primari di tutte le famiglie, al livello
di significatività del 5%.
Poiché N è molto grande, n è piccolo e non è nota la distribuzione della spesa
media nell’universo (e, quindi, non è nota la distribuzione campionaria della
media), dopo aver calcolato ̂( X ) ed aver posto k 1 / , utilizziamo la
formula derivata dal teorema di Bienaymé-Tchebycheff . Si ha:
100 20 10 / 50 1 100 20 10 / 50 1 ;
essendo 20 10 / 49 6,39 , l’intervallo cercato è: € 93,61 < < € 106,39.
Esempio
Supponiamo che, in un campione di 40 studenti estratti senza ripetizione dalla
popolazione di 9.370 iscritti ad un corso di laurea, 26 (ossia il 65%) abbiano
risposto di essere favorevoli ai piani di studio consigliati dalla Facoltà. Qual è, al
livello di fiducia del 95%, l’intervallo di confidenza entro cui cade la frequenza
relativa, in tutta la popolazione studentesca considerata, degli studenti favorevoli a
detti piani di studio f (1 f ) N n 0,65 0,35 9.370 40
Essendo ~
ˆ ( p̂ )
f=0,65, 0,0762si
n 1 N 40 1 9.370
ha: ,
da cui, poiché z0,025 1,96, si ha: 0,65 ‑1,96 0,0762 < p< 0,65 +331,96
0,0762, e, in definitiva: 0,50 < p < 0,80.
Esempio di interpretazione
Posto che la spesa pro-capite annua per un farmaco (X) abbia distribuzione normale
con =30 euro e =2,55, commissioniamo a 20 diversi ricercatori un’indagine
basata su campione casuale di 100 persone, con livello di fiducia pari al 95%, dando
a ciascun ricercatore solo l’informazione che X ha =2,55 e segue una distribuzione
normale. Ognuno dei 20 ricercatori ha gli stessi ingredienti di base, e ciascuno
estrarrà dalla popolazione un diverso campione, quindi la media campionaria
varierà da un ricercatore all’altro.
La prima media campionaria sarà pari a 30,24, con intervallo di confidenza (IdC) di
30,241,96(2,55/10)=[29,74; 30,74]. La seconda media sarà 30,12, con IdC pari a
[29,62; 30,62], e così via. Dato che la probabilità che l’IdC contenga è fissata
pari al 95%, ci si può aspettare che 19 dei 20 intervalli (il 95%) contengano e
solo per 1 campione estratto l’IdC corrispondente fallisca.
In effetti, tutti e venti gli intervalli contengono =30, tranne uno (il campione 17).
31
30
29 34
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Brevi cenni sulla verifica di ipotesi
Ipotesi statistica (H): congettura su una popolazione a partire
da un campione rappresentativo (inferenza: dal particolare
dedurre il generale).
Può riguardare:
• la forma della funzione di probabilità p(x,θ) della popolazione
(ipotesi funzionale): ad es., che una popolazione si distribuisca normalmente;
• il valore di un parametro incognito θ (ipotesi parametrica):
ad es., che il peso dei neonati abbia μ=3.300g e σ=100g;
• la relazione tra due o più v.c. (così come le loro determinazioni
campionarie le rappresentano): ad es., l’indipendenza fra X e Y o la
differenza fra la media di un valore rilevato in un gruppo e quello rilevato in
una altro gruppo.
35
L'ipotesi sottoposta a verifica, indicata con H0, è detta di base
oppure nulla, mentre l'ipotesi H1 che le si contrappone si
denomina alternativa.
La regola che, in base ai dati campionari, porta a decidere in
termini probabilistici se accettare o respingere l'ipotesi di
base si chiama test statistico. Esso, al variare dei campioni, si
distribuisce in modo da poter essere diviso in zona di
accettazione TA e zona di rifiuto TR.
In caso di ipotesi parametriche, si distinguono ipotesi
semplici, se sono definite da un solo valore del parametro, o
composte quando sono individuate da un insieme di valori.
Inoltre possono aversi ipotesi unilaterali (“a una coda”)
oppure bilaterali (“a due code”).
36
Le ipotesi semplici (di base ed alternativa), ad esempio,
possono essere formalizzate così:
H0 : θ = 3300gr H1: θ =3400gr.
Questo tipo di ipotesi è sempre unilaterale.
unilaterale
Le ipotesi composte possono ipotizzare, ad es., che il peso
neonatale possa essere compreso in un dato intervallo, oppure,
in alternativa, che esso sia superiore o inferiore alle soglie
identificate dall’ipotesi di base. Quest’ultimo tipo di ipotesi,
oltre a essere composta, può essere anche bilaterale,
bilaterale ossia si
pone ai due estremi opposti della distribuzione.
Ipotesi composta unilaterale:
H0 : θ = 3300gr H1: θ > 3300gr.
Ipotesi composta bilaterale:
H0 : θ = 3300gr H1: θ ≠ 3300gr.
Ipotesi composta bilaterale:
H0 : θ [3200gr, 3400gr] H1: θ [3200gr, 3400gr].
37
Accettando o rifiutando H0 è tuttavia possibile prendere una
decisione non corretta, commettendo i seguenti due tipi di
errori:
1) respingere H0, quando essa è vera (errore di 1a specie);
2) accettare H0, quando essa è falsa (errore di 2a specie).
38
La potenza di un test (indicata con 1-) rappresenta l'attitudine
che esso ha nello scoprire la falsità dell'ipotesi H0, perché
fornisce la probabilità di rifiutare H0 quando è vera H1.
H 0 vera H1 vera
44
a) Se la distribuzione campionaria del carattere è normale:
In questo caso l’ampiezza dell’intervallo di confidenza è fornita da
d 2z / 2 ˆ ( X ) .
Nel caso che viene scelto più frequentemente (il campionamento
senza reinserimento), poiché ˆ 2 ( X ) S 2 (n 1) ( N n ) N ,
(d / 2) 2 s2 z2 / 2
con pochi passaggi aritmetici si ha: n .
s2
z 2
( d / 2) 2 /2
N2
~ s z / 2
2
N
s2
Se N è molto grande, si avrà, ovviamente: n 1 .
( d / 2) 2 47
A titolo di chiarimento, diamo una regola di comportamento valida
sia quando la distribuzione campionaria della media sia approssima-
tivamente normale, sia quando ciò non sia vero: si calcoli n come se
il carattere nella popolazione sia distribuito normalmente, cioè con:
(d / 2) 2 s2 z2 / 2
n
s2
z 2
( d / 2) 2 /2
N s2 z2 / 2
oppure (nel caso N sia molto grande) con: n 2
1 .
(d / 2)
Se il valore di n così ottenuto è minore di 50, oppure se 50n<100 e
la popolazione da cui è estratto il campione sia presumibilmente
( d / 2) 2 s 2
“non normale”, si ricalcolerà n con: n 2
s
( d / 2) 2
2
N
s
oppure (per N molto grande) con: n 1 .
( d / 2) 2
48
Si tenga conto che, per i livelli di significatività più frequentemente
utilizzati ( = 0,05 e = 0,01), i valori della normale standardizzata
da utilizzare sono, rispettivamente
z0,025=1,96
e
z0,005=2,575,
come si può evincere dalle più diffuse tavole statistiche.
49
c) Il calcolo di n nel caso di inferenza su frequenze relative:
Poiché in questo caso s2=f(1–f), ipotizzando che l’ampiezza
campionaria ottenuta sia n>30, in modo che la distribuzione
campionaria della frequenza si approssimi alla normale, si avrà:
(d / 2) 2 f (1 f ) z 2 / 2
n .
f (1 f ) z / 2
2
( d / 2)
2
N
f (1 f ) z 2 / 2
Per N molto grande, sarà invece: n 2
1 .
( d / 2)
Se si ottiene n30 (per cui la presunzione di normalità cade), la
dimensione campionaria ottimale va ricalcolata con B.T., e diventa:
( d / 2) 2 f (1 f )
n
f (1 f ) .
( d / 2)
2
N
f (1 f )
Per N molto grande: n 1 .
( d / 2) 2
50
Come nel caso di medie ed altri parametri di posizione:
••• va fissato a priori il livello di significatività ;
••• va fissato il massimo scostamento d/2;
••• va ipotizzato un appropriato valore di s=f(1-f); se non si ritiene il
carattere fortemente sbilanciato nella popolazione, è possibile
semplicemente massimizzare tale varianza in modo da essere sicuri
di non estrarre un campione più piccolo del necessario; tale evento si
ha quando f=0,5 (e, quindi, f(1-f)=0,25).