Sei sulla pagina 1di 24

Capitolo 3

Richiami di statistica

Esercizi
3.1 In una popolazione mY = 75 e σ Y2 = 45. Si usi il teorema limite centrale per trovare:

a. Pr(Y < 73), in un campione casuale di numerosità n = 50.

b. Pr(76 < Y < 78), in un campione casuale di numerosità n = 90.

c. Pr(Y > 68), in un campione casuale di numerosità n = 120.
3.2 Sia Y una variabile casuale di Bernoulli con probabilità di successo Pr (Y = 1) = p e siano Y1,...,Yn i.i.d. un campione
casuale da questa distribuzione. Sia p^ la frazione di successi (di 1) in questo campione.

a. Si mostri che p^ = Y .
b. Si mostri che p^ è uno stimatore non distorto di p.
c. Si mostri che (p^) = p(1 – p) / n.
3.3 I n un’indagine campionaria su 400 potenziali votanti, 215 hanno risposto di aver intenzione di votare per il can-
didato uscente e 185 per il suo sfidante. Si indichi con p la frazione dei votanti potenziali che preferiscono il
candidato uscente al tempo dell’indagine e con p^ quella degli intervistati che preferiscono lo sfidante.
a. Si usino i risultati dell’indagine per stimare p.
b. Si usi lo stimatore della varianza di p^, p^(1 – p^) / n, , per calcolare l’errore standard dello stimatore proposto.

c. Qual è il valore-p per H0 : p = 0,5 contro H1 : p  0,5?
d. Qual è il valore-p per H0 : p = 0,5 contro H1 : p > 0,5?
e. Perché i risultati della (c) e della (d) differiscono?
f. L’indagine mostra chiara evidenza statistica del fatto che il candidato uscente è in testa al tempo dell’indagine? Si dia

una spiegazione.
3.4 Utilizzando i dati dell’Esercizio 3.3:
a. Si costruisca un intervallo di confidenza di livello 95% per p.
b. Si costruisca un intervallo di confidenza di livello 99% per p.
c. Perché l’intervallo nella (b) è più ampio di quello nella (a)?
d. Senza calcoli addizionali, si verifichi l’ipotesi H0 : p = 0,50 contro H1 : p  0,50 con un livello di significatività del 5%.

3.5 Si consideri un’indagine condotta su 1000 votanti registrati, ai quali è stato chiesto di scegliere tra il candidato A e il
candidato B. Sia p la frazione di votanti nella popolazione che preferisce il candidato A e sia p^ la frazione di votanti nel
campione che preferisce il candidato B.
a. Si considerino le ipotesi alternative H0 : p = 0,4 vs H1 : p  0,4. Si supponga di rifiutare H0 se | p^ – 0,4 | > 0,01.

i. Qual è il livello minimo del test?
ii. Si calcoli la potenza di questo test se p = 0,45.
b. Nell’indagine p̂ = 0,44.
i. Si verifichi H0 : p = 0,4 contro H1 : p  0,4 usando un livello di significatività del 10%.
ii. Si verifichi H0 : p = 0,4 contro H1 : p > 0,4 usando un livello di significatività del 10%.
iii. Si costruisca un intervallo di confidenza al 90% per p.
iv. Si costruisca un intervallo di confidenza al 99% per p.
v. Si costruisca un intervallo di confidenza al 60% per p.
c. Si supponga che l’indagine sia stata effettuata 30 volte, selezionando i votanti in modo indipendente in ciascun caso.

Per ogni indagine si è costruito un intervallo di confidenza al 90% per p.
i. Qual è la probabilità che il vero valore di p sia contenuto in tutti e 30 questi intervalli di confidenza?
ii. Quanti di questi intervalli di confidenza aspettiamo che contengano il vero valore di p?
d. In gergo, il “margine di errore” è 1,96 × SE(p^); cioè è la metà della lunghezza dell’intervallo di confidenza al 95%. Si

supponga di voler progettare un’indagine che abbia un margine di errore al massimo dello 0,5%. Cioè si vuole Pr(| p^
– p | > 0,005) ≤ 0,05. Quanto dovrebbe essere grande n se l’indagine usasse il campionamento casuale semplice?
3.6 Siano Y1,...,Yn un campione casuale da una distribuzione con media m. Un test dell’ipotesi H0 : mY = 10 contro H1 : m  10
usando la statistica t solita conduce a un valore-p di 0,07.
a. L’intervallo di confidenza al 90% contiene m = 10? Si argomenti la risposta.
b. È possibile determinare se m = 8 è contenuto nell’intervallo di confidenza al 95%? Si argomenti la risposta.

3.7 In una data popolazione, il 50% dei probabili votanti è di sesso femminile. Un’indagine condotta tramite il campionamento
casuale semplice di 1000 abbonati alla linea telefonica scopre che la percentuale di votanti donna è del 55%. C’è un’evi-
denza che l’indagine sia distorta? Si argomenti la risposta.
3.8 A un campione casuale di 1500 studenti dell’ultimo anno di una scuola superiore viene data una nuova versione del SAT
(acronimo dall’inglese Stanford Achievement Test). La media campionaria del punteggio è 1230 e la sua deviazione stan-
dard campionaria è 145. Si costruisca un intervallo di confidenza al 95% per la media del punteggio nella popolazione
degli studenti dell’ultimo anno della scuola superiore.
3.9 Si supponga che un’impresa specializzata nella produzione di lampadine produca lampadine con una vita media di 1000
ore e una deviazione standard di 100 ore. Un inventore dichiara di aver ideato un processo innovativo che permette di pro-
durre lampadine con una vita media più lunga e la stessa deviazione standard. Il manager dell’impresa seleziona a caso 50
prodotti attraverso questa tecnica ed afferma che crederà alle affermazioni dell’inventore se la loro vita media campionaria
supererà le 1100 ore, altrimenti concluderà che questo nuovo processo non è migliore di quello vecchio. Sia m la media del
nuovo processo. Si consideri l’ipotesi nulla H0 : m = 1000 contro l’ipotesi alternativa H1 : m > 1000.
a. Qual è il livello minimo del test usato dal manager dell’impresa?

b. Si supponga che il nuovo processo sia effettivamente migliore e che produca lampadine con una vita media di 1150

ore. Qual è la potenza della procedura di test usata dal manager?
c. 
 Quale procedura di test dovrebbe usare il manager se volesse ottenere un livello minimo dell’1%?
3.10 Si supponga che un nuovo test sia sottoposto a un campione casuale di 150 studenti di terza elementare del New Jersey.
La media campionaria del punteggio finale nel test, Y, è di 42 punti, e la deviazione standard del campione, sY, è di 6
punti.
a. Gli autori prevedono di sottoporre il test a tutti gli studenti di terza elementare del New Jersey. Si costruisca un inter-

vallo di confidenza del 99% per il punteggio medio di tutti gli studenti di terza elementare del New Jersey.
b. Si supponga che lo stesso test sia sottoposto a un campione casuale di 300 studenti di terza elementare dell’Iowa, e

che ne risulti una media campionaria di 48 punti e una deviazione standard campionaria di 10 punti. Si costruisca un
intervallo di confidenza di livello 95% per la differenza dei punteggi medi tra Iowa e New Jersey.
 c. Si può concludere con alto grado di confidenza che le medie della popolazione sono diverse per l’Iowa e per il New
Jersey? (Qual è l’errore standard della differenza tra le due medie? Qual è il valore-p del test per l’uguaglianza tra le
due medie?)
~ ~ ~
3.11 Si consideri lo stimatore Y , definito nella (3.1). Si mostri che (a) E(Y ) = mY e (b) var(Y ) = 1,25s2Y / n.
3.12 Per investigare la possibile presenza di discriminazione tra i sessi in un’impresa, viene selezionato un campione casuale
di 120 uomini e 150 donne che svolgono un lavoro simile. I risultati relativi ai salari mensili sono riportati nella seguente
tabella:

Salario medio Deviazione standard n


Uomini 8200$ 450$ 120
Donne 7900$ 520$ 150

a. Che cosa suggeriscono questi dati per quanto riguarda le differenze salariali nell’impresa? Forniscono evidenza di

una differenza statisticamente significativa tra i salari medi di uomini e donne (prima di rispondere a questa domanda,
si formulino le ipotesi nulla e alternativa; in secondo luogo, si calcoli la statistica t corrispondente; poi, si calcoli il
valore-p associato alla statistica t; e, infine, si usi il valore-p per rispondere alla domanda)?
b. Questi dati suggeriscono che l’impresa è colpevole di discriminazione di genere nelle sue politiche salariali? Si spie-

ghi.
3.13 I dati sui punteggi nei test di quinta elementare (lettura e matematica) relativi a 400 distretti scolastici della California
hanno prodotto Y = 712,1 e una deviazione standard pari a sY = 23,2.
a. Si costruisca un intervallo di confidenza al 90% per il valore atteso dei risultati del test nella popolazione.

b. 
Suddividendo i distretti in quelli con classi piccole (< 20 studenti per insegnante) e quelli con classi grandi ( 20
studenti per insegnante), si ottengono i seguenti risultati:

Dimensione classe Media punteggi Deviazione standard n


Piccola 721,8 24,4 150
Grande 710,9 20,6 250

Esiste evidenza statistica che i distretti con classi più piccole abbiano risultati medi più alti nei test? Si
spieghi.
3.14 
Per un campione di 300 studenti universitari sono rilevati l’altezza espres-

sa in pollici (X) e il peso in libbre (Y). Le risultanti statistiche descrittive sono: X = 71,2 pollici;

Y = 164 libbre; sX = 1,9 pollici; sY = 16,4 libbre; sXY = 22,54 pollici × libbra e rXY = 0,8. Si convertano queste statistiche
nel sistema metrico (metri e chilogrammi).
3.15 Siano Ya e Ya variabili casuali di Bernoulli per due diverse popolazioni, indicate con a e b. Si supponga che E(Ya) = pa
e E(Yb) = pb. Si scelga un campione casuale di dimensione na dalla popolazione a, con media campionaria denotata da
p^a, e un campione casuale di dimensione nb dalla popolazione b, con media campionaria denotata da p^b. Si supponga
che il campione tratto dalla popolazione a sia indipendente da quello tratto dalla popolazione b.
a. Si mostri che E(p^a) = pa e var(p^a) = pa(1 – pa)/na. Si mostri inoltre che E(p^b) = pb e var(p^b) = pb(1 – pb)/nb.

p a (1 − p a ) pb (1 − pb )
b. 
 Si mostri che var(p^a – p^b) = + . (Suggerimento: si ricordi
na nb
che i campioni sono indipendenti.)
c. 
 Si supponga che na e nb siano grandi. Si mostri che l’intervallo di confidenza al 95%

per pa – pb è dato da . In che modo si

costruirebbe un intervallo di confidenza al 90% per pa – pb?


3.16 È noto che la media dei voti in un test standardizzato è uguale a 500 per gli Stati Uniti. Si supponga di sottoporre il test
a un campione casuale di 600 studenti della Florida; in questo campione la media è 508 e la deviazione standard (s) è 75.
a. Si costruisca un intervallo di confidenza al 95% per il punteggio medio degli studenti della Florida.

b. C’è evidenza statisticamente significativa che gli studenti della Florida hanno un risultato differente rispetto agli
altri studenti degli Stati Uniti?
c. Altri 500 studenti vengono selezionati a caso in Florida. Prima che gli venga sottoposto il test seguono un corso pre-

paratorio di 3-4 ore. Il loro punteggio medio è 514 con una deviazione standard di 65.
 i. Si costruisca un livello di confidenza al 95% per la variazione nel punteggio medio associato al corso prepara-
torio.
 ii. C’è evidenza statisticamente significativa che il corso preparatorio li abbia aiutati?
d. I 600 studenti iniziali seguono il corso preparatorio e viene poi chiesto loro di ripetere il test una seconda volta. La

variazione media nei loro punteggi è di 7 punti e la deviazione standard della variazione è di 40 punti.
 i. Si costruisca un intervallo di confidenza al 95% per la variazione nel punteggio medio.
 ii. C’è evidenza statisticamente significativa che gli studenti avranno un risultato migliore al secondo tentativo
dopo aver seguito il corso preparatorio?
 iii. Gli studenti potrebbero aver ottenuto un risultato migliore al secondo tentativo grazie sia al corso preparatorio
sia all’esperienza maturata nel primo tentativo. Si descriva un esperimento che quantifichi questi due effetti.
3.17 Si legga il riquadro “Il differenziale di genere nelle retribuzioni dei laureati negli Stati Uniti” nel Paragrafo 3.5.
a. Si costruisca un intervallo di confidenza al 95% per le variazioni nella retribuzione oraria media degli uomini tra il

1992 e il 2012.
b. Si costruisca un intervallo di confidenza al 95% per le variazioni nella retribuzione oraria media delle donne tra il

1992 e il 2012.
c. 
 Si costruisca un intervallo di confidenza al 95% per le variazio-
ni nel differenziale di genere presente nella retribuzione oraria media tra il 1992 e il 2012.
– – – –
(Suggerimento: Ym,1992 – Yw,1992 è indipendente da Ym,2012 – Yw,2012)
3.18 Questo esercizio mostra che la varianza campionaria è uno stimatore non distorto della varianza della popolazione quan-
do Y1,...,Yn sono i.i.d. con media mY e varianza s2Y.
– – –
a. Si usi la (2.31) per mostrare che E[(Yi – Y )2] = var(Yi ) – 2cov(Yi, Y ) + var(Y )

b. Si usi la (2.33) per mostrare che cov(Y , Yi) = s2Y / n..
c. Si usino i risultati della parte (a) e (b) per mostrare che E(s2Y) = s2Y.
– –
3.19 a. Y è uno stimatore non distorto di mY. Y 2 è uno stimatore non distorto di m2Y?
– –
b. Y è uno stimatore consistente di mY. Y 2 è uno stimatore consistente di m2Y?
3.20 Si supponga che (Xi, Yi) siano i.i.d. con momenti quarti finiti. Si provi che la covarianza campionaria è uno stimatore
consistente della covarianza della popolazione, cioè, s XY p→ σ XY , dove sXY è definita nella (3.24). (Suggerimento: Si usi
la strategia dell’Appendice 3.3.)
– –
3.21 Si mostri che l’errore standard aggregato [SEpooled(Y m – Y w)] dato dalla (3.23) è pari all’errore standard solito per la dif-
ferenza tra le medie nella (3.19) quando la numerosità dei due gruppi è identica (nm = nw).
Capitolo 3
Richiami di statistica – SOLUZIONI

3.1. Il teorema limite centrale suggerisce che quando la dimensione ( n ) del campione è grande,
σ Y2
la distribuzione della media campionaria ( Y ) è approssimata da N  µY , σ Y2  con σ Y2 = .
n
Data una popolazione con 𝜇𝑌 = 75; σ2Y = 45, si ha
𝜎𝑌2 45
(a) 𝑛 = 50, 𝜎𝑌�2 = 𝑛
= = 0,9, e
50
𝑌�−75 73−75
𝑃𝑟 � Y < 73� = 𝑃𝑟 � < � ≈ 𝛷(−2,108) = 1 − 𝛷(2,108) = 1 − 0,9821 = 0,0179
√0,9 √0,9

𝜎𝑌2 45
(b) 𝑛 = 90, 𝜎𝑌�2 = 𝑛
= = 0,5, e
90
76−75 𝑌�−75 77−75
𝑃𝑟(76 < 𝑌� < 77) = 𝑃𝑟 � ≤ ≤ � = 𝛷(2,828) − 𝛷(1,414) = 0,9977 −
√0,5 √0,5 √0,5
0,9213
= 0,0764.
𝜎𝑌2 45
(c) 𝑛 = 120, 𝜎𝑌�2 = = = 0,375, e
𝑛 120
𝑌�−75 69−75
𝑃𝑟 � Y > 69� = 1 − Pr � Y < 69� = 1 − 𝑃𝑟 � ≤ �
√0,375 √0,375

≈ 1 − 𝛷(−1,633) = 𝛷(1,633) = 0,9491


3.2. Ciascuna estrazione casuale Yi dalla distribuzione di Bernoulli assume valore zero oppure
uno con probabilità Pr (Yi = 1) = p e Pr (Yi = 0) = 1 − p. La variabile casuale Yi ha media

E (Yi ) = 0 × Pr(Y = 0) + 1 × Pr(Y = 1) = p,


e varianza

var(Yi ) = E[(Yi − µY ) 2 ]
= (0 − p ) 2 × Pr(Yi = 0) + (1 − p ) 2 × Pr(Yi = 1)
= p 2 (1 − p ) + (1 − p) 2 p = p (1 − p ).
(a) La frazione di successi è
# (successi) # (Yi = 1) ∑i =1 Yi
n

pˆ = = = =Y.
n n n
 ∑in=1 Yi  1 n 1 n
(b) E ( p ) = E 
ˆ
 n  = ∑ E (Yi ) = ∑ p = p.
  n i =1 n i =1

 ∑n Y  1 n
1 n
p (1 − p )
(c) var( pˆ ) = var  i =1 i
 n  = 2 ∑ var(Y ) = n ∑ p(1 − p) =
i 2
.
  n i =1 i =1 n
Nella seconda uguaglianza si sfrutta il fatto che Y1 , ..., Yn sono estrazioni i.i.d. e
cov(Yi , Y j ) = 0, per i ≠ j.
3.3. Si indichi con Y la preferenza di ciascun votante. Y = 1 se il votante preferisce il candidato
uscente e Y = 0 se preferisce lo sfidante. Y è una variabile casuale di Bernoulli con
probabilità Pr (Y = 1) = p e Pr (Y = 0) = 1 − p. Dalla soluzione dell’Esercizio 3.2, Y ha media
p e varianza p (1 − p ).
215
(a) pˆ = = 0,5375.
400
 pˆ (1 − pˆ ) 0,5375 × (1 − 0,5375)
(b) La varianza stimata di p̂ è var( pˆ ) = = = 6, 2148 × 10−4.
n 400
L’errore standard è SE ( pˆ ) = (var( pˆ )) 2 = 0,0249.
1

(c) La statistica t calcolata è


pˆ − µ p ,0 0,5375 − 0,5
t act = = = 1,506.
SE( pˆ ) 0,0249
Data la grande dimensione del campione (n = 400), è possibile utilizzare l’Equazione
(3.14) del testo per ottenere il valore-p per il test H 0 : p = 0,5 contro H1 : p ≠ 0,5 :
valore p = 2Φ (−|t act |) = 2Φ (−1,506) = 2 × 0,066 = 0,132.

(d) Utilizzando l’Equazione (3.17) del testo, il valore-p per il test H 0 : p = 0,5 contro
H1 : p > 0,5 è
valore p = 1 − Φ (t act ) = 1 − Φ (1,506) = 1 − 0,934 = 0,066.
(e) Quello del punto (c) è un test bilaterale e il valore-p è l’area nelle code della
distribuzione normale standard al di fuori di ± (statistica t calcolata). Quello del punto
(d) è un test unilaterale e il valore-p è l’area al di sotto della distribuzione normale
standard a destra della statistica t calcolata.
(f) Per il test H 0 : p = 0,5 contro H1 : p > 0,5, non è possibile rifiutare l’ipotesi nulla al
livello di significatività del 5%. Il valore-p 0,066 è maggiore di 0,05. Allo stesso
modo, la statistica t calcolata, 1,506 , è minore del valore critico 1,64 per un test
unilaterale con un livello di significatività del 5%. Il test suggerisce che l’indagine non
contenesse prove statisticamente significative del fatto che il candidato uscente fosse
in vantaggio rispetto allo sfidante al momento del sondaggio.
3.4. Utilizzando il Concetto chiave 3.7 del testo
(a) L’intervallo di confidenza al 95% per p è
pˆ ± 1,96SE ( pˆ ) = 0,5375 ± 1,96 × 0,0249 = (0, 4887,0,5863).
(b) L’intervallo di confidenza al 99% per p è
pˆ ± 2,57 SE ( pˆ ) = 0,5375 ± 2,57 × 0,0249 = (0, 4735,0,6015).
(c) Automaticamente, l’intervallo in (b) è più ampio a causa di un più alto valore critico
(2.57 invece di 1.96). In sostanza, un intervallo di confidenza al 99% è più ampio di
uno al 95% perché deve contenere il vero valore di p nel 99% di tutti i possibili
campioni, mentre un intervallo di confidenza al 95% deve contenere il vero valore di p
solo nel 95% di tutti i possibili campioni.
(d) Dato che 0,50 ricade all’interno dell’intervallo di confidenza al 95% per p, non è
possibile rifiutare l’ipotesi nulla a un livello di significatività del 5%.
3.5. (a) (i) Il livello è dato da Pr(|𝑝̂ − 0,4| > 0,01), dove la probabilità viene calcolata
assumendo che p = 0,4.

Pr(|𝑝̂ − 0,4| > 0,01) = 1 − Pr(−0,01 ≤ 𝑝̂ − 0,4 ≤ 0,01)

=
−0,01 𝑝�−0,4 0,01
1 − 𝑃𝑟 � ≤ ≤ �
�0,4×0,6⁄1000 �0,4×0,6⁄1000 �0,4×0,6⁄1000

= 1 − (Φ(0,645) − Φ(−0,645))

= 0,53

Per l’ultima uguaglianza si utilizza l’approssimazione del teorema limite centrale.


(ii) La potenza è data da Pr(|𝑝̂ − 0,4| > 0,01), dove la probabilità viene calcolata
assumendo che p 0,53.

Pr(|𝑝̂ − 0,4| > 0,01) = 1 − Pr(−0,01 ≤ 𝑝̂ − 0,4 ≤ 0,01)


−0,01 𝑝�−0,4
= 1 − 𝑃𝑟 � ≤ ≤
�0,45×0,55⁄1000 �0,45×0,55⁄1000
0,01

�0,45×0,55⁄1000

= 1 − (Φ(0,636) − Φ(−0,636))

= 0,45

Per l’ultima uguaglianza si utilizza l’approssimazione del teorema limite centrale.


0,44−0,40
(b) (i) 𝑡 = = 2,55, e Pr(|𝑡| > 2,61) = 0,01, quindi al livello del 10%
�0,44×0,56/1000
l’ipotesi nulla viene rifiutata.
(ii) Pr(t>2,61) = 0,005, quindi al livello del 10% l’ipotesi nulla viene rifiutata..
(iii) 0,44 ± 1,65�0,44 × 0,56⁄1000 = 𝑑𝑎 0,4141 𝑎 0,4659 ,
(iv) 0,44 ± 2,58�0,44 × 0, 56⁄1000 = 𝑑𝑎 0,3996 𝑎 0,4804
(v) 0,44 ± 0,25�0,44 × 0, 56⁄1000 = 𝑑𝑎 0,4361 𝑎 0,4439

(c) (i) La probabilità è dello 0,9 in ogni singola indagine; si hanno 30 indagini
indipendenti, quindi la probabilità è 0,930 = 0,0423
(ii) 90% dei 30 intervalli di confidenza, ovvero 27.
(d) L’equazione rilevante è 1,96 × 𝑆𝐸(𝑝̂ ) < 0,005 𝑜 1,96 × �𝑝(1 − 𝑝)/𝑛 < 0,005. Quindi n
1,962 𝑝(1−𝑝)
deve essere scelto in modo che 𝑛 > quindi la risposta dipende dal valore di
0,0052
p. Si noti che il valore massimo che p(1 − p) può assumere è 0,25 (cioè, p 0,5 fa sì
1,962 ×0,25
che p(1 p) assuma il valore massimo possibile). Quindi se 𝑛 > = 38,416,
0,0052
allora il margine di errore è inferiore a 0,005 per ogni valore di p.
3.6. (a) No. Poiché il valore p è inferiore a 0,1 (10%), 10 viene rifiutato al livello 10% e
non è perciò contenuto nell’intervallo di confidenza al 90%.
(b) No, ciò richiederebbe il calcolo della statistica t per 8, che richiede Y e SE (Y ).
Nel problema è dato solamente il valore-p per il test che 10.

3.7. L’ipotesi nulla è che l’indagine sia un’estrazione casuale da una popolazione con p = 0,50.
𝑝�−0,50
La statistica t è 𝑡 = �)
, dove 𝑆𝐸(𝑝̂ ) = �𝑝̂ (1 − 𝑝̂ )/𝑛. Il valore della statistica t è 3,18,
𝑆𝐸(𝑝
con un valore p inferiore a 0,01. Quindi l’ipotesi nulla p = 0,50 (l’indagine è distorta) può
essere rifiutata al livello 1%.
145
3.8 1230 ± 1,96 � � ovvero 1230 ± 7,39.
√1500
3.9. Si indichi con Y la durata di una lampadina prodotta mediante il nuovo processo. La media
di Y è µ e la deviazione standard di Y è σ Y = 100 ore. è la media campionaria con un
campione di dimensione n = 50. La deviazione standard della distribuzione campionaria di
𝜎 100
Y è 𝜎𝑌� = 𝑌𝑛 = = 14,14 ore. Il test dell’ipotesi è 𝐻0 : 𝜇 = 1000 contro 𝐻1 : 𝜇 > 1000. Il
√ √50
manager accetterà l’ipotesi alternativa se Y > 1100 ore.

(a) Il livello di un test è la probabilità che un’ipotesi nulla venga rifiutata erroneamente
quando è valida.

Il livello del test del manager è


livello = Pr(𝑌� > 1100|µ = 1000) = 1 − Pr(𝑌� ≤ 1100| 𝜇 = 1000)

𝑌�−1000 1100−1000
= 1 − 𝑃𝑟 � ≤ |𝜇 = 1000�
14,14 14,14

= 1 − Φ(7,072) = 1 − 0,99999999999924 = 7,6 × 10−13 .


(b) La potenza di un test è la probabilità che un’ipotesi nulla venga correttamente rifiutata
quando non è valida. Si calcoli dapprima la probabilità che il manager accetti
erroneamente l’ipotesi nulla quando essa non è valida:
𝑌� − 1150 1100 − 1150
𝛽 = Pr(𝑌� ≤ 1100|𝜇 = 1150) = 𝑃𝑟 � ≤ |𝜇 = 1150�
14,14 14,14
= Φ(−3,54) = 1 − Φ(3,54) = 0,0002

La potenza del test operato dal manager è 1 − 𝛽 = 1 − 0,0002 = 0,9998

(c) Per il test con l’1%, la regione di rifiuto per l’ipotesi nulla contiene i valori della
statistica t che superano 2,325.
𝑌�−1000
𝑡= > 2,325 ⇒ 𝑌� > 1000 + 2,325 × 14,14 = 1032,9
14,14

Se vuole che il livello del test sia 1%, il manager deve credere all’affermazione
dell’inventore se la vita media del campione del nuovo prodotto è maggiore di 1032,9
ore.
3.10. (a) Dimensioni del campione del New Jersey n1 = 100, media campionaria Y1 42 e
𝑠1
deviazione standard campionaria s1 6. L’errore standard di Y1 is SE( Y1 )  =
√𝑛1
6
= 0,49 SE( Y1 ) . L’intervallo di confidenza al 99% per il punteggio medio di tutti
√150
gli studenti di terza elementare del New Jersey è
𝜇1 = 𝑌�1 ± 2,58 𝑆𝐸(𝑌�1 ) = 42 ± 2,58 × 0,49 = (40,736,43,264).
(b) Dimensioni del campione dello Iowa 𝑛2 = 300, media campionaria 𝑌�2 = 48,
deviazione standard campionaria 𝑠2 = 10. L’errore standard di Y1 − Y2 è 𝑆𝐸(𝑌�1 −
𝑠 2 𝑠 2
𝑌�2 ) = � 1 + 2 = 0.757. L’intervallo di confidenza al 95% per la differenza tra i
𝑛 1 𝑛 2
punteggi medi dei due stati è

𝜇1 − 𝜇2 = (𝑌�1 − 𝑌�2 ) ± 1,96𝑆𝐸(𝑌�1 − 𝑌�2 )


= (42 − 48) ± 1,96 × (0,757)
= (−7,784, −4,516).

(c) Il test dell’ipotesi per la differenza tra i punteggi medi è


H 0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 ≠ 0.
Dal punto (b), l’errore standard della differenza tra le due medie campionarie è
𝑆𝐸(𝑌�1 − 𝑌�2 ) = 0,757. La statistica t per il test dell’ipotesi nulla è
Y1 − Y2 58 − 62
t act = = = −3,5849.
SE(Y1 − Y2 ) 1,1158

𝑌�1 − 𝑌�2 42 − 48
𝑡= = = −7,92
� �
𝑆𝐸(𝑌1 − 𝑌2 ) 0,757
Si utilizzi l’Equazione (3.14) del testo per calcolare il valore-p:
valore-p = 2𝛷(−|𝑡 𝑎𝑐𝑡 |) = 2𝛷(−3,5849) = 2 × 0,00017 = 0,00034.
Dato il valore-p estremamente basso, è possibile rifiutare l’ipotesi nulla con un grado molto
alto di confidenza. In altre parole, le medie della popolazione per gli studenti di Iowa e
New Jersey sono differenti.
3.11. Si assuma che n sia un numero pari. Allora Y si costruisce applicando un peso di 1/2 alle
n/2 osservazioni “dispari” e un peso di 3/2 alle rimanenti n/2 osservazioni.
11 3 1 3 
E (Y ) =  E (Y1 ) + E (Y2 ) +  E (Yn −1 ) + E (Yn ) 
n  2 2 2 2 

11 n 3 n 
=  ⋅ ⋅ µY + ⋅ ⋅ µY  = µY
n2 2 2 2 
1 1 9 1 9 
var(Y ) = 2  var(Y1 ) + var(Y2 ) +  var(Yn −1 ) + var(Yn ) 
n 4 4 4 4 
1 1 n 2 9 n 2 σ Y2
=  ⋅ ⋅ σ Y + ⋅ ⋅ σ Y  = 1, 25 .
n2  4 2 4 2  n
3.12. Dimensione del campione per gli uomini 𝑛1 = 120, media campionaria Y1 = 8200,
deviazione standard campionaria s1 = 450. Dimensione del campione per le donne 𝑛2 =
150, media campionaria 𝑌�2 = 7900, deviazione standard campionaria 𝑠2 = 520. L’errore
standard di Y 1 − Y 2 è

𝑠 2𝑠 2
SE(𝑌�1 − 𝑌�2 ) = � 1 + 2 = 59,078.
𝑛1 𝑛2
(a) Il test dell’ipotesi per la differenza tra le medie dei salari mensili è
H 0 : µ1 − µ2 = 0 vs. H1 : µ1 − µ2 ≠ 0.
La statistica t per il test dell’ipotesi nulla è
���
𝑌 −𝑌��� 8100−7900
𝑡 𝑎𝑐𝑡 = 𝑆𝐸(𝑌
1 2
���−𝑌
���)
= 59,078
= 3,39.
1 2

Utilizziamo l’Equazione (3.14) del testo per ottenere il valore-p:


valore − 𝑝 = 2Φ(−|𝑡 𝑎𝑐𝑡 |) = 2Φ(3,39) ≈ 0,00000.

Il livello estremamente basso del valore-p implica che è possibile rifiutare l’ipotesi
nulla con un alto grado di confidenza. Questo significa che i salari medi per gli uomini
e per le donne sono diversi.
(b) Il punto (a) fornisce una incontrovertibile prova statistica del fatto che i guadagni medi
degli uomini differiscono da quelli delle donne e un calcolo analogo mostra che con
ogni evidenza i guadagni medi degli uomini sono maggiori di quelli delle donne.
Tuttavia, di per sé ciò non implica che l’impresa sia colpevole di discriminazione di
genere. Discriminazione di genere significa che due lavoratori, identici in tutto tranne
che per il genere, percepiscono salari differenti. La descrizione dei dati suggerisce che
vi sia stata l’accortezza di confrontare lavoratori aventi incarichi simili, ma è
importante controllare anche le caratteristiche dei lavoratori che potrebbero avere
effetto sulla loro produttività (istruzione, anni di esperienza e così via). Se queste
caratteristiche sono sistematicamente differenti tra uomini e donne, allora ciò potrebbe
essere all’origine della differenza tra i salari medi (se ciò fosse vero, solleverebbe
un’interessante e importante domanda sul perché le donne tendano ad avere meno
istruzione ed esperienza rispetto agli uomini, ma si tratta di una domanda che riguarda
qualcosa di diverso rispetto alla discriminazione di genere in questa impresa). Dato che
queste caratteristiche non vengono controllate nell’analisi statistica, è prematuro
giungere a una conclusione sulla discriminazione di genere.
3.13 (a) Dimensione del campione 𝑛 = 400, media campionaria Y = 712,1, deviazione
𝑆 23,2
standard campionaria 𝑠𝑌 = 23,2. L’errore standard di Y è SE(𝑌�) = 𝑌𝑛 = 400 =
√ √
1,16. L’intervallo di confidenza al 90% per il punteggio medio di tutti gli studenti di
quinta elementare è

𝜇 = 𝑌� ± 1,65SE(𝑌�) = 712,1 ± 1,65 × 1,16 = (710,186, 714,014).

(b) I dati sono: dimensioni del campione per le classi piccole 𝑛1 = 150, media
campionaria�𝑌 ��1� = 721,8 e deviazione standard campionaria 𝑠1 = 24,4. La dimensione
del campione per le classi grandi 𝑛2 = 250, media campionaria �𝑌 ��2� = 710,9 e
deviazione standard campionaria 𝑠2 = 20,6. L’errore standard di Y1 − Y2 è

𝑠12 𝑠22
SE(𝑌�1 − 𝑌�2 ) = � + = 1,99.
𝑛1 𝑛2
Il test per l’ipotesi che i punteggi medi siano più alti nelle classi più piccole è
H 0 : µ1 − µ2 = 0 vs. H1 : µ1 − µ2 > 0.
La statistica t per il test dell’ipotesi nulla è
𝑌�1 − 𝑌�2 721,8 − 710,9
𝑡= = = 5,48
𝑆𝐸(𝑌�1 − 𝑌�2 ) 1,99

Il valore-p per il test unilaterale è:


valore − 𝑝 = 1 − 𝛷(𝑡) = 1 − 𝛷(5,48) ≈ 0,00000.
Con questo piccolo valore-p, l’ipotesi nulla può essere rifiutata con un alto grado di
confidenza. Esiste una prova statisticamente significativa del fatto che i distretti con
classi più piccole hanno punteggi medi maggiori nei test.
3.14. Si hanno le seguenti relazioni: 1 pollice = 0,0254 m (ovvero 1 m = 39,37 pollici ),
1 libbra = 0, 4536 kg (ovvero 1 kg = 2, 2046 libbre). Le statistiche descrittive, espresse nelle
unità di misura del sistema metrico, sono
𝑋� = 71,2 × 0,0254 = 1,81 𝑚; 𝑌 � = 164 × 0,4536 = 74,39 𝑘𝑔; 𝑠𝑋 = 1,9 × 0,0254 =
0,048 𝑚; 𝑠𝑌 = 16,4 × 0,4536 = 7,439 𝑘𝑔;
𝑠𝑋𝑌 = 22,54 × 0,0254 × 0,4536 = 0,2597 𝑚 × 𝑘𝑔 ; 𝑟𝑋𝑌 = 0,8.
3.15. Dall’Equazione (2.46) del testo si ha che E( Y ) = µY e dalla (2.47) si ha
σ Y2
var( Y ) = . In questo problema, dato che Ya e Yb sono variabili casuali di Bernoulli, pˆ a
n
= Ya ,
pˆ b = Yb , σ Ya2 = pa(1–pa) e σ Yb2 = pb(1–pb). Le risposte al punto (a) seguono da ciò. Per il
punto (b), si noti che var( pˆ a – pˆ b )= var( pˆ a ) + var( pˆ b ) – 2cov( pˆ a , pˆ b ). Ma per
l’indipendenza si ha cov(pˆ a ,pˆ b ) = 0 poiché pˆ a e pˆ b sono indipendenti (in quanto
dipendono da dati tratti da campioni indipendenti). Quindi var( pˆ a – pˆ b )= var( pˆ a ) + var(
pˆ b ). Per il punto (c), si utilizza l’Equazione 3.21 del testo (sostituendo Y con p̂ e
utilizzando il risultato in (b) per calcolare SE).
75
3.16. (a) L’intervallo di confidenza al 95% se 𝑌� ± 1,96𝑆𝐸(𝑌�) ovvero 508 ± 1,96 =
√600
(502, 514)
(b) L’intervallo di confidenza del punto (a) non comprende µ = 500, quindi l’ipotesi nulla
che µ = 500 (gli studenti della Florida hanno gli stessi risultati medi di quelli degli
studenti degli Stati Uniti nel complesso) può essere rifiutata al livello del 5%.
(c) (i) L’intervallo di confidenza al 95% è Yprep − YNon − prep ± 1,96 SE (Yprep − YNon − prep ) dove
𝑠𝑝𝑟𝑒𝑝 𝑠 2 2
�������
l’errore standard di Y1 − Y2 è 𝑆𝐸�𝑌 �������������
𝑝𝑟𝑒𝑝 − 𝑌𝑛𝑜𝑛−𝑝𝑟𝑒𝑝 � = �𝑛 + 𝑛𝑜𝑛−𝑝𝑟𝑒𝑝 = 4,22;
𝑛 𝑝𝑟𝑒𝑝 𝑛𝑜𝑛−𝑝𝑟𝑒𝑝

l’intervallo di confidenza al 95% è (514 − 508) ± 1,96 × 4,22 = [−2,27, 14,27]

(ii) L’intervallo di confidenza al 95% comprende µ prep − µnon − prep = 0.


(d) (i) Si indichi con X la variazione del punteggio del test. L’intervallo di confidenza al
95% per µx è
40
𝑋� ± 1,96𝑆𝐸(𝑋�), dove 𝑆𝐸(𝑋�) = 7 ± 1,96 .
√600
L’intervallo di confidenza è 7 ± 3,2 = (3,8, 10,2)

(ii) Sì. L’intervallo di confidenza al 95% non comprende µX = 0.

(iii) Selezionare casualmente n studenti che abbiano sostenuto il test solamente una
volta. Selezionare poi metà di tali studenti e far loro frequentare il corso di
preparazione. Somministrare nuovamente il test agli stessi n studenti. Confrontare i
risultati degli studenti che hanno frequentato il corso con quelli degli studenti che
non lo hanno frequentato.
3.17. (a) L’intervallo di confidenza al 95% è Ym , 2012 − Ym , 1992 ± 1,96 SE(Ym , 2012 − Ym , 1992 ) dove
sm2 ,2012 sm2 ,1992 12,092 10,852
SE(Ym , 2012 − Ym , 1992 ) = + = + = 0,38;
nm ,2012 nm ,1992 2004 1594

l’intervallo di confidenza al 95% è (25,30 – 24,83) ± 0,75 ovvero 0,47 ± 0,75.

(b) L’intervallo di confidenza al 95% è Yw, 2012 − Yw, 1992 ± 1,96 SE(Yw, 2012 − Yw, 1992 ) dove
sw2 ,2012 sw2 ,1992 9,992 8,392
SE(Yw, 2012 − Yw, 1992 ) = + = + = 0,32;
nw,2012 nw,1992 1951 1368
l’intervallo di confidenza al 95% è (21,50 − 21,39) ± 0,63 ovvero 0,11 ± 0,63.

(c) L’intervallo di confidenza al 95% è


(Ym , 2012 − Ym , 1992 ) − (Yw, 2012 − Yw, 1992 ) ± 1,96 SE[(Ym , 2012 − Ym , 1992 ) − (Yw, 2012 − Yw, 1992 )],
sm2 ,2012 sm2 ,1992 sw2 ,2012 sw2 ,1992
dove SE[(Ym , 2012 − Ym , 1992 ) − (Yw, 2012 − Yw, 1992 )] = + + + =
nm ,2012 nm ,1993 nw,2012 nw,1992

12,092 10,852 9,992 8,392


+ + + = 0,50.
2004 1594 1951 1368
l’intervallo di confidenza al 95% è (25,30 – 24,83) – (21,50 – 21,39) ± 1,96 × 0,50
ovvero 0,36 ± 0,98.
3.18. Y1 , …, Yn sono i.i.d. con media µY e varianza σ Y2 . La covarianza è cov (Y j , Yi ) = 0, j ≠ i. La
distribuzione campionaria della media campionaria Y ha media µY e varianza var
σ Y2
(Y ) = σ Y2 = .
n
(a) E[(Yi − Y ) 2 ] = E{[(Yi − µY ) − (Y − µY )]2 }
= E[(Yi − µY ) 2 − 2(Yi − µY )(Y − µY ) + (Y − µY ) 2 ]
= E[(Yi − µY ) 2 ] − 2 E[(Yi − µY )(Y − µY )] + E[(Y − µY ) 2 ]
= var(Yi ) − 2cov(Yi , Y ) + var(Y ).

  
 ∑ nj =1 Y j  
(b) cov(Y , Y ) = E[(Y − µY )(Yi − µY )] = E   − µY  (Yi − µY ) 


n 



 
  ∑ j =1 (Y j − µY ) 
n
 1 1
= E    (Yi − µY )  = E[(YI − µY )2 + ∑ E[(Y j − µY )(Yi − µY )]
 n 


   n

n j ≠i

1 1 σ2
= σ Y2 + ∑ cov(Y j , Yi ) = Y .
n n j ≠i n

(c)

 1 n 2 1 n 1 n
E  sY2  = E  ∑ i
 n − 1 i =1
(Y − Y )  n −1∑

=
i =1
E [(Yi − Y ) 2
] = ∑[var (Yi ) − 2cov(Yi , Y ) + var(Y )]
n − 1 i =1
1 n  2 σ Y2 σ Y2  1 n  n − 1 2 
= ∑ σ Y − 2 ×
n − 1 i =1  n
+ = ∑
n  n − 1 i =1  n


σ Y  = σ Y2 .


3.19. (a) No. E (Yi 2 ) = σ Y2 + µY2 e E (YiY j ) = µY2 per i ≠ j. Quindi
2
1 n  1 n 1 n 1
E (Y ) = E  ∑ Yi  = 2 ∑ E (Yi 2 ) + 2 ∑∑ E (YiY j ) = µY2 + σ Y2
2

 n i =1  n i =1 n i =1 j ≠ i n

(b) Sì. Se Y si avvicina arbitrariamente a µY e la probabilità si avvicina a 1 al crescere di n,


allora Y 2 si avvicina arbitrariamente a µY con probabilità che si avvicina a 1 al
2

crescere di n (si tratta di un esempio del “teorema delle funzioni continue” discusso nel
Capitolo 17).
3.20. Utilizzando un’analisi come quella dell’Equazione (3.29)
1 n
s XY = ∑ ( X i − X )(Yi − Y )
n − 1 i =1
n 1 n   n 
=  ∑
n − 1  n i =1
( X i − µ X )(Yi − µY )  −   ( X − µ X )(Y − µY )
  n −1

poiché X → µ X e Y → µY , l’ultimo termine converge in probabilità a zero.


p p

Sia Wi = ( X i − µ x )(Yi − µY ). Si noti che Wi è i.i.d. con media sXY e momento secondo
E[( X i − µ X ) 2 (Yi − µY ) 2 ]. Ma E[( X i − µ X ) 2 (Yi − µY ) 2 ] ≤ E ( X i − µ X ) 4 E (Yi − µY ) 4 per la
disuguaglianza di Cauchy-Schwartz.

Poiché X e Y hanno momenti quarti finiti, il momento secondo di Wi è finito, quindi ha

∑ Wi → E (Wi ) = σ XY . Quindi, s XY →σ XY (perché → 1 ).


1 n p p n
varianza finita. Perciò n i =1 n−1
3.21. Si ponga nm = nw = n e si utilizzi l’Equazione (3.19) per scrivere il quadrato dell’errore
standard SE di Ym − Yw come
1 1
∑in=1 (Ymi − Ym ) 2 ∑in=1 (Ywi − Yw ) 2
(n − 1) (n − 1)
[ SE (Ym − Yw )]2 = +
n n

∑in=1 (Ymi − Ym ) 2 + ∑in=1 (Ywi − Yw ) 2


= .
n(n − 1)
Similmente, utilizzando l’Equazione (3.23)
1  n 1 
 ∑i =1 (Ymi − Ym ) 2 + ∑in=1 (Ywi − Yw ) 2 
2(n − 1)  (n − 1) 
[ SE pooled (Ym − Yw )]2 =
2n

∑in=1 (Ymi − Ym ) 2 + ∑in=1 (Ywi − Yw ) 2


= .
n(n − 1)