Sei sulla pagina 1di 5

Statistica 30/06/14

Esercizio 1. Teoria. Sia X1 , . . . , Xn un campione da una popolazione con media µ e


varianza σ 2 entrambe incognite. Mostrare che la media campionaria X n è stimatore non
distorto di µ, che Var(X n ) = σ 2 /n e che (X n )2 è stimatore di µ2 con distorsione σ 2 /n.
Esercizio 2. Teoria. Dare la definizione di funzione generatrice dei momenti (f.g.m.)
di una v.a. X. Ricavare la f.g.m. di X1 + X2 , dove X1 , X2 sono i.i.d. con distribuzione
esponenziale di media 1/λ, con λ > 0. Riconoscere tale distribuzione.
Esercizio 3. Teoria. Dare la definizione di verosimiglianza di un campione (X1 , . . . , Xn )
da una densità discreta fθ . Ricavare gli stimatori di massima verosimiglianza della media θ
e della deviazione standard quando fθ è la densità di Poisson.
Esercizio 4. Una ditta produce ingranaggi meccanici. Estraendo un campione di 200 pezzi
si riscontra che 17 sono difettosi. Al livello del 5% testare sia l’ipotesi nulla che esattamente
il 6% della produzione sia difettoso, sia l’ipotesi nulla che meno del 6% della produzione sia
difettoso. Calcolare il p-value dei due test.
Esercizio 5. Un campione casuale di 250 voti di matematica (espressi in centesimi) for-
nisce una media campionaria pari a 80 e una deviazione standard campionaria pari a 4.
Supponendo che la v.a. “voto” si distribuisca normalmente con media e varianza incognite,

1. si calcoli l’intervallo di confidenza al 95% per la media ignota.

2. Si determini inoltre la dimensione campionaria necessaria a garantire un errore, in


valore assoluto, non superiore al punto, nell’ipotesi che la varianza sia nota e pari a 20.

Esercizio 6. Una ASL sta conducendo uno studio sull’inquinamento industriale nel terri-
torio. In particolare vengono fatte misure di presenza di inquinanti nelle acque di scarico
di due aziende simili, che per semplicità chiameremo azienda X e Y . Le misure sulle acque
di ciascuna azienda vengono fatte a distanza di una settimana ed è ragionevole ritenerle
indipendenti. Vengono fatte n = 31 misure per l’azienda X e m = 25 per Y : i dati che si
ottengono, in opportune unità di misura, sono riassunti dalle seguenti statistiche (media e
deviazione standard campionarie):
q q
2
X̄n = 86.48, SX = 16.00; Ȳm = 83.25, SY2 = 21.84.

È ragionevole assumere che le misure costituiscano due campioni gaussiani indipendenti, con
2
varianze σX e σY2 .

2
1. Ricavare un intervallo di confidenza unilatero per σX /σY2 di livello 99%, del tipo (0, a).

A questo punto gli analisti sospettano che non ci siano differenze tra quantità e variabilità
dell’inquinamento prodotto dalle due aziende, e pertanto, decidono di verificare l’ipotesi che
le distribuzioni gaussiane dei due campioni coincidano.

2. Anzitutto si verifichi, al livello di significatività del 5%, l’ipotesi che le varianze delle
due popolazioni coincidano.

1
3. Se al punto precedente si è concluso che non si può rifiutare l’ipotesi che le varianze delle
due popolazioni coincidano, scrivere le opportune ipotesi (nulla e alternativa) sull’altra
coppia di parametri incogniti per verificare l’ipotesi che le misure di inquinamento nelle
due aziende provengano dalla stessa distribuzione. Cosa si può concludere dai dati a
livello di significatività dell’1%? (Suggerimento: nella lettura dalle tavole dei quantili
di una opportuna distribuzione, utilizzare come gradi di libertà l’intero più vicino al
numero esatto di gradi di libertà).

Esercizio 7. Ci chiediamo se il risultato del test on line (TOL) per l’ingresso alla facoltà
di Ingegneria dell’Ateneo XXX sia indipendente dal tipo di liceo scientifico di provenienza,
tradizionale o di scienze applicate. I dati a disposizione sono riportati in questa tabella:
Scuola\ TOL < 60 [60, 75) [75, 100)
Tradizionale 228 1203 807 .
Scienze Applicate 647 547 273

1. In base ad essi, si può affermare che il tipo di liceo scientifico influisce sul risultato del
TOL? Enunciare ipotesi nulla e alternativa ed eseguire un opportuno test al livello di
significatività dello 0.5%.

Ora ci interessa concentrarci sulla totalità dei dati di risultato al TOL, a prescindere dalla
scuola di provenienza. Grazie a studi precedenti, è stata formulata l’ipotesi che la probabilità
che il voto al TOL sia insufficiente (< 60) è pari alla probabilità che il voto sia almeno 75, e
che la probabilità che appartenga alla classe intermedia sia pari a due volte la probabilità che
sia insufficiente. Si vuole stabilire se i dati in tabella sono in accordo con l’ipotesi formulata.

2. Scrivere l’ipotesi formulata in termini matematici. Giustificare adeguatamente la


risposta.

3. Utilizzando come ipotesi nulla quella ricavata al punto precedente, eseguire un op-
portuno test per stabilire se i dati in tabella sono in accordo con l’ipotesi formulata,
valutandone il p-value.

2
SOLUZIONI 30/06/14
Esercizio 1.
n
 1X nµ
1. E X n = E (Xk ) = = µ.
n k=1 n
n
 1 X nσ 2 σ2
2. Var X n = 2 Var(Xk ) = 2 = .
n k=1 n n

2 h 2
i   σ2
− µ2 = Var X n = .
2

3. Dato che µ = E X n , si ha: distorsione = E X n
n

Esercizio 2. Dispense pp. 74, 100–101. Ross pp. 127–129.


Esercizio 3. Lucidi Ladelli parte 2 pp.13–16. Ross pp. 234-235, 238–239.
X−p0
Esercizio 4. n = 200, x = 17/200 = 0.085, p0 = 0.06, α = 0.05; Z = √ ,
p0 (1−p0 )/n

0.025 200
z= √
0.06×0.94
' 1.4887.

1. H0 : p = p0 , H1 : p 6= p0

(a) Regione critica: {|Z| > z.025 }. |z| ' 1.4887, z.025 ' 1.960: non rifiuto H0 .
(b) P-value: P(|Z| > |z|) ' 2[1 − Φ(1.489)] ' 2[1 − 0.93176] = 0.13648 ' 13.6%.

2. H0 : p ≤ p0 , H1 : p > p0

(a) Regione critica: {Z > z.05 }. z ' 1.4887, z.05 ' 1.6449: non rifiuto H0 .
(b) P-value: P(Z > z) ' 1 − Φ(1.489) ' 1 − 0.93176 = 0.06824 ' 6.8%.

Esercizio 5. x = 80, s = 4, α = 0.05, t.025 (249) ' z.025 ' 1.960.



1. µ = x ± t.025 (249)s/ 250 ' 80 ± 0.496; 79.504 < µ < 80.496.
p
2. 1 = z.025 20/n, n = 20 × (1.96)2 ' 76.8, n = 77.

Esercizio 6. Le misure di inquinamento costituiscono due campioni gaussiani indipendenti,


iid 2 iid
X1 , . . ., Xn ∼ N (µX , σX ) e Y1 , . . . , Ym ∼ N (µY , σY2 ).
2
SX
1. L’estremo superiore dell’intervallo cercato è dato da f0.01,24,30 ; f0.01,24,30 è il quantile
SY2
di ordine 0.01 (coda destra) della distribuzione di Fisher con 24 gradi a numeratore e 30
a denominatore. Dalle tabelle si trova f0.01,24,30 ' 2.47; si ha inoltre s2X /s2Y ' 0.5367.
2
Dunque (0, 1.326) è un intervallo di confidenza di livello 99% per σX /σY2 .

2. Si tratta di sottoporre a verifica le ipotesi:


2
H0 : σX = σY2 vs H1 : σX 2
6= σY2 al livello di significatività α = 0.05. Si rifiuta H0 se
0.5367 = s2X /s2Y ≤ f1−α/2,n−1,m−1 , oppure se s2X /s2Y ≥ fα/2,n−1,m−1 .

3
In questo caso risulta

f1−α/2,n−1,m−1 < s2X /s2Y < fα/2,n−1,m−1 ,

cioè

0.4673 ' 1/2.14 = 1/f0.025,24,30 = f0.975,30,24 < 0.5367 < f0.025,30,24 = 2.21.

Pertanto non si può rifiutare l’ipotesi H0 che le varianze delle due popolazioni coinci-
dano al livello del 5%.

3. Vista la conclusione del punto precedente, verificare che le due distribuzioni coincidano
è equivalente a verificare che le medie di due popolazioni gaussiane con stessa varianza
sono uguali, cioè
2
H0 : µX = µY vs H1 : µX 6= µY con σX = σY2 = σ 2 incognita.

Per stabilire cosa si conclude dai dati a tal proposito, bisogna utilizzare un test t:
si rifiuta H0 al livello α se

|x̄n − ȳm | (n − 1)s2X + (m − 1)s2Y


|t| := q > tα/2,n+m−2 , dove s2P = .
s2P ( n1 + m1 ) n+m−2

Con i dati a disposizione s2P = 354.2158 e


|t| = 0.6385 < tα/2,n+m−2 = t0.005,54 = 2.667 (2.66 = t0.005,60 ). Quindi non si può
rifiutare H0 a livello pari all’ 1%.

Ricordiamo che globalmente il test in sequenza dei punti 2 e 3 ha significatività α con


1 − α = 0.95 × 0.99 = 0.9405, cioè α = 0.0595 ' 6%.
Esercizio 7. Sia X la v.a. che indica il tipo di liceo scientifico di provenienza dello studente,
e Y quella che indica il punteggio riportato al TOL dallo studente stesso.
Siano Pij = P(X = i, Y = j), pi = P(X = i) e qj = P(Y = j) per i = 1, 2, j = 1, 2, 3.

1. Vogliamo verificare

H0 : Pij = pi qj , i = 1, 2, j = 1, 2, 3 H1 : Pij 6= pi qj per qualche (i, j),

utilizzando un test chi-quadrato di indipendenza, dove il numero totale di studenti nel


campione è n = 3705. Calcoliamo le frequenze relative delle Xi , p̂i = Ni /n, e delle Yj ,
q̂j = Mj /n:

X\Y < 60 [60, 75) [75, 100) Ni p̂i


Tradizionale 228 1203 807 2238 0.6040
Scienze Applicate 647 547 273 1467 0.3960 .
Mj 875 1750 1080 3705 1
q̂j 0.2362 0.4723 0.2915 1

4
Per n grande, la statistica test T ∗ , sotto l’ipotesi H0 , ha distribuzione chi-quadrato con
(r − 1)(s − 1) = (2 − 1)(3 − 1) = 2 gradi di libertà:
3 X 2
X (Nij − np̂i q̂j )2 H0 2
T∗ = ∼ χ (2).
j=1 i=1
np̂ i q̂ j

Ricordiamo che
3 X
2
(nij )2 2282 12032 8072 6472 5472
X 

t = ni mj −n= 875·2238 + 1750·2238 + 1080·2238 + 875·1467 + 1750·1467
j=1 i=1 n 3705 3705 3705 3705 3705

2732 
+ 1080·1467 − 3705 = 4280.04 − 3705 = 575.04.
3705

Poiché t∗ = 575.04 > χ2α,2 = χ20.005,2 = 10.60, si rifiuta H0 a livello di significatività del
5h.

2. In pratica, l’ipotesi formulata è che la variabile aleatoria Y segua una legge discreta
con masse q0,1 = P(Y < 60), q0,2 = P(60 ≤ Y < 75), q0,3 = P(Y ≥ 75), con q0,1 = q0,2 ,
q0,2 = 2q0,1 e q0,1 + q0,2 + q0,3 = 1; pertanto si ricava q0,1 + 2q0,1 + q0,1 = 1, da cui
q0,1 = q0,3 = 41 e q0,2 = 12 .

3. Si tratta di verificare le ipotesi:


H0 : qj = q0,j j = 1, 2, 3 contro H1 : qj 6= q0,j per almeno un j, con i dati

Y < 60 [60, 75) [75, 100)


mj 875 1750 1080 n = 3705 .
nq0,j 926.25 1852.5 926.25

La statistica test è data da


3 3
X (mj − nq0j )2 X m2j H
Qn = = − n ∼0 χ2r−1 = χ22
j=1
nq0j j=1
nq0,j

e rifiutiamo H0 se e solo se Qn ≥ χ2α,r−1 . Con i nostri dati otteniamo qn = 34.0283 e il


p-value è pari a
1 − Fχ22 (34.0283) = 4.08177 · 10−8 < 0.005;
quindi c’è (fortissima) evidenza sperimentale contro H0 . I dati non concordano con
l’ipotesi che la distribuzione del voto al TOL sia quella precedentemente specificata
per ogni livello di significatività per esempio maggiore o uguale al 5h.

Potrebbero piacerti anche