Sei sulla pagina 1di 8

lOMoARcPSD|2635519

Esame 30 Gennaio 2018, domande

Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da lulu bottasi (carola.capodieci@gmail.com)
lOMoARcPSD|2635519

FIRMA DELLO STUDENTE

SECONDA PROVA INTERMEDIA DI STATISTICA


(COD. 30001/6045/5047/4038/371/377)
30 gennaio 2018
Cognome Nome
Numero di matricola Corso di Laurea Cod. corso

COMPITO C classi CLEF/CLES


Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi.
Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande
Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI
CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO 1 (punti 6)
Il Direttore di un Centro Commerciale è interessato a stimare la spesa media mensile µ effettuata dai clienti del centro.
Su un campione di 6 clienti, si sono ottenute le seguenti spese (Euro):
34.9 43.3 50.3 26.4 64.7 38.4

Si ipotizzi che la variabile “spesa mensile” abbia distribuzione Normale.


a) Si determini l’intervallo di confidenza per µ al 90%.
b) Si valuti il p-value di un test di ipotesi atto a stabilire se esiste evidenza empirica che la spesa media µ sia
superiore a 30 Euro.
c) Supponete ora che il Direttore voglia indicazioni anche sulla proporzione p di clienti che, in una visita presso il
Centro Commerciale, spendono più di 100 Euro. Se il Direttore volesse costruire un intervallo di confidenza al
90% per p di lunghezza non superiore a 0.15, quanti clienti dovrebbe intervistare?

𝑥̅ = (34.9 + 43.3 + 50.3 + 26.4 + 64.7 + 38.4)⁄6 = 43


𝑠 = 36⁄5 ∙ [(34.96 + 43.36 + 50.36 + 26.46 + 64.76 + 38.46 )⁄6 − 436 ] =
a)

36⁄5 ∙ [1996.7667 − 1849] = 36⁄5 ∙ 147.7667 = √177.32 = 13.3162


1 − 𝛼 = 0.90 è 𝑡=>?, B = 𝑡D, E.ED = 2.015
C

F𝑥̅ − 𝑡=>?, B ∙ ; 𝑥̅ + 𝑡=>?, B ∙ I è F43 − 2.015 ∙ ; 43 + 2.015 ∙ I è (32.0458; 53.9542)


G G ?J.J?K6 ?J.J?K6
C √= C √= √K √K

𝐻E: 𝜇 ≤ 30 vs. 𝐻? : 𝜇 > 30


b) Le ipotesi da sottoporre a verifica è

𝑡= = ?J.J?K6⁄ = 2.3913.
Il valore della statistica test in questo caso è pari a
Q̅ >RS TJ>JE
G ⁄√= √K

p-value = 𝑃(𝑇D > 2.3913 | 𝐻E ).


Il p-value è quindi dato da

Poiché la tavola della distribuzione t non è sufficientemente dettagliata, non è possibile calcolare il valore
esatto del p-value, ma è comunque possibile concludere che
0.025 < p-value < 0.05.
Pertanto, valori di a inferiori allo 0.025 non sarebbe possibile rifiutare l’ipotesi nulla, mentre per valori di a
superiori allo 0.05 si potrebbe sicuramente rifiutare l’ipotesi nulla. Per valori di a compresi tra 0.025 e 0.05
è invece necessario conoscere il valore esatto del p-value per poter prendere una decisione.

c) In questo caso l’intervallo di confidenza di livello (approssimativamente) pari a 90% è dato da

X𝑝̂ − 𝑧B ∙ \ ; 𝑝̂ + 𝑧B ∙ \ _,
]^∙(?>]^) ]^∙(?>]^)
C = C =

la cui lunghezza è data da

𝐿 = 2 ∙ 𝑧B ∙ \
]^∙(?>]^)
=
,
C
con 𝑧B = 𝑧E.ED = 1.645.
C
Nella peggiore delle ipotesi, 𝑝̂ potrà essere pari a 0.5, in corrispondenza del quale si ottiene

0.15 = 2 ∙ 1.645 ∙ \ è𝑛= = 120.2678,


E.D∙ED ?.KTDC ∙E.6D
= (E.?D⁄6)C

da cui segue che il Direttore dovrebbe intervistare almeno n = 121 clienti.

ESERCIZIO 2 (punti 5)
La lavanderia di un Centro Commerciale pratica prezzi vantaggiosi, ma vi sono perplessità sulla qualità del servizio
offerto. Un cliente è disposto a servirsi della lavanderia solo se avrà evidenza che la percentuale di capi restituiti con un
trattamento non idoneo è inferiore al 5%. Su un campione di 150 capi lavati, si sono osservati 3 capi non idoneamente
trattati.
a) Si stabiliscano le ipotesi da sottoporre a verifica, giustificando brevemente la scelta.
b) Si decida in merito alle ipotesi poste, con un livello di significatività α = 0.01. Quale decisione deve prendere il
cliente?
2

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

c) Ritenete che per il cliente sia ragionevole la seguente regola decisionale: “Serviti della lavanderia del centro
commerciale se, in un campione di 200 capi lavati, meno del 4% viene restituito con un trattamento non idoneo”?
Motivare la risposta con opportuni calcoli.

𝐻E: 𝑝 ≥ 0.05 vs. 𝐻? : 𝑝 < 0.05.


a) Le ipotesi da sottoporre a verifica è

Tale scelta è giustificata dal fatto che l’affermazione che si desidera dimostrare come verosimile (𝐻?), su cui
un cliente vorrebbe raccogliere evidenza empirica, corrisponde al caso in cui la percentuale di capi restituiti
con un trattamento non idoneo risulti inferiore a 0.05. Infatti, in tale contesto, l’errore di I tipo consisterebbe

𝐻E), ma in realtà è vero il contrario. Questo specifico errore sarebbe pertanto “più grave” da un punto di
nel concludere che la lavanderia ha meno del 5% di capi restituiti con un trattamento non idoneo (rifiuto di

vista operativo rispetto al caso in cui le due ipotesi fossero scambiate.

distribuzione campionaria di 𝑃d.


Poiché n è sufficientemente grande, si può utilizzare il Teorema Centrale del Limite per approssimare la

b) Il valore della statistica test in questo caso è pari a


𝑧=
]^>]S
e ∙(fgeS )
\ S
.
h

e si rifiuterà l’ipotesi nulla qualora il valore della statistica test risultasse inferiore al valore critico −𝑧i =
−𝑧E.E? = −2.33.
Poiché risulta 𝑝̂ = ?DE = 0.02, si ottiene
J

𝑧= = = = E.E?klE = −1.6859 > −𝑧E.E? = −2.33,


]^>]S E.E6>E.ED >E.EJ >E.EJ
e ∙(fgeS )
\ S \
S.Sj∙(fgS.Sj) √E.EEEJ?Kk
h fjS

per cui non si rifiuta l’ipotesi nulla è il cliente non è disposto a servirsi della lavanderia.

p-value = 𝑃(𝑍 < −1.6859 | 𝑝 ≥ 0.05) = 1 − 𝑃(𝑍 ≤ 1.69 | 𝑝 ≥ 0.05) = 1 − 0.9545 = 0.0455.
Equivalentemente, il p-value per tale test è dato da

Poiché il p-value risulta essere maggiore del livello di significatività fissato (𝛼 = 1%), non si rifiuterà
l’ipotesi nulla.

c) Secondo questa regola decisionale, la probabilità di errore del I tipo corrisponde a

0.04 − 0.05
𝛼 = 𝑃o𝑃d < 0.04 | 𝐻E p = 𝑃 ⎛𝑍 < ⎞ = 𝑃(𝑍 < −0.6488) = 1 − 𝑃(𝑍 < 0.65)
\ 0.05 ∙ (1 − 0.05)
⎝ 200 ⎠
= 1 − 0.7422 = 0.2578.
Questa probabilità risulta essere troppo grande rispetto ai valori usuali adottati in pratica (5, 1 o 10%),
pertanto non si ritiene che la regola proposta fornisca indicazioni utili al consumatore per decidere se
servirsi della lavanderia oppure no.

ESERCIZIO 3 (punti 3)
Il Direttore di un Centro Commerciale intende confrontare la spesa media dei clienti effettuata durante un giorno festivo
con quella effettuata durante un giorno feriale. A tale scopo, estrae due campioni indipendenti di clienti osservati durante
una giornata festiva e durante una giornata feriale, ottenendo:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

giornata festiva giornata feriale

Mean 71.54 66.4


Standard Error 14.0130 7.4276
Median 74.9 66.5
Standard Deviation 31.3340 19.6515
Sample Variance 981.818 386.18
Kurtosis -1.1775 -0.6042
Skewness -0.5527 -0.5767
Range 74.8 52.8
Minimum 27.6 34.8
Maximum 102.4 87.6
Sum 357.7 464.8
Count 5 7

Se il Direttore intendesse effettuare un test sulla differenza tra medie, quali assunzioni dovrebbe fare? In base ai dati
campionari forniti, è possibile verificare la ragionevolezza di tali assunzioni, ponendo α = 0.02? (Nota bene: non è
richiesto di effettuare anche il test sulla differenza tra medie)

Definiamo con X la spesa di un cliente presso nel Centro Commerciale in un giorno festivo e con Y la medesima
quantità in un giorno feriale.
Per effettuare un test sulla differenza tra medie è necessario ipotizzare che le due popolazioni siano distribuite
secondo una normale le cui varianze si assumono non note ma uguali. Assumendo che la normalità sia soddisfatta, si
tratta quindi di verificare se i dati campionari consentono di concludere che anche le varianze siano uguali attraverso
il test

𝐻E: 𝜎v6 = 𝜎w6 vs. 𝐻?: 𝜎v6 ≠ 𝜎w6 .

In questo test si rifiuta l’ipotesi nulla se

𝑠v6
> 𝐹= >?, = >?, i ,
𝑠w6 z { 6

dove 𝑠v6 è la più elevata tra le due varianze campionarie.


Usando i dati dell’esercizio, si ottiene

𝑠v6 981.818
= = 2.5424.
𝑠w6 386.18

Poiché 𝐹=z >?, ={>?, B = 𝐹T, K, E.E? = 9.15, non è quindi possibile rifiutare l’ipotesi nulla e pertanto i dati non
C
forniscono sufficiente evidenza empirica per concludere che la varianza della spesa nei giorni festivi sia diversa da
quella nei giorni feriali. Quindi, è ragionevole effettuare il test sulla differenza delle medie che assume l’uguaglianza
delle varianze.

ESERCIZIO 4 (punti 5)
In un Centro Commerciale di nuova realizzazione verrà collocato un ristorante fast-food. In fase di progettazione si sono
individuate quattro possibili ubicazioni. Si vuole ora capire se i possibili clienti possano essere indifferenti o meno al
posizionamento del fast-food. In un campione di consumatori, si sono rilevate le seguenti preferenze riguardo ai quattro
siti di ubicazione:
Sito di ubicazione A B C D
N. preferenze espresse 22 21 33 19
a) Si scrivano le ipotesi statistiche da sottoporre a verifica.
b) Si forniscano indicazioni riguardo al p-value del test.
c) In base ai risultati ottenuti, i nuovi clienti si possono ritenere indifferenti riguardo al sito di ubicazione del fast-
food? (α=0.01)

a) Le ipotesi da sottoporre a verifica sono

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

𝐻E: 𝑝? = 𝑝6 = 𝑝J = 𝑝T = 𝑝D = 0.25

𝐻? : non valgono le proporzioni indicate in 𝐻E


vs.

b) Per ottenere il p-value di questo test è necessario prima calcolare le frequenze attese sotto H0, ovvero 𝐸} =
𝑛 ∙ 𝑝}

Sito di ubicazione A B C D Totale


Frequenze osservate (Oi) 22 21 33 19 n = 95
Probabilità sotto H0 ¼ ¼ ¼ ¼ 1
Frequenze attese sotto H0 (Ei) 23.75 23.75 23.75 23.75 95

La statistica test in questo caso corrisponde a

(𝑂} − 𝐸} )6 (22 − 23.75)6 (21 − 23.75)6 (33 − 23.75)6 (19 − 23.75)6


𝜒 =•
6
= + + + =5
𝐸} 23.75 23.75 23.75 23.75
}‚?

Il p-value corrisponde pertanto a

p-value = 𝑃(𝜒•>?
6
> 𝜒6 ) = 𝑃(𝜒J6 > 5).

A causa della natura poco dettagliata della tavola della distribuzione chi-quadrato, possiamo solo concludere
che il p-value è un valore compreso tra 0.1 e 0.9.

c) Poiché il p-value è sicuramente maggiore del livello di significatività assegnato (α = 0.01), non è possibile
rifiutare l’ipotesi nulla è i dati non forniscono sufficiente evidenza per concludere che i clienti non sono
indifferenti circa il posizionamento del ristorante fast-food.

ESERCIZIO 5 (punti 6)
Un cliente vuole stimare la relazione tra la quantità di verdura esposta sui banchi di un supermercato (variabile Y, in Kg)
e il tempo intercorso dall’apertura (variabile X, in minuti). Su un campione di 13 visite presso il supermercato, il cliente
ha stimato il modello yˆ = 214.0724 - 0.1924 x e si sono ottenute le seguenti informazioni:
13 13
x = 385 y = 140 å ( xi - x )2 = 1068708 å( y - y)i
2
= 83338

Si determini il valore di 𝑆𝑆𝑅 = ∑?J


}‚?(𝑦
^} − 𝑦‡)6.
i =1 i =1
a)
(Nota: Se non si è risposto alla domanda a), si ipotizzi il valore arbitrario SSR = 42337.2315 nei punti successivi.)
b) Si determini l’intervallo di confidenza al 95% per la quantità di verdura esposta sui banchi del supermercato se
il cliente visita il supermercato 400 minuti dopo l’apertura.
c) Si verifichino le ipotesi H0: β1= 0 contro H1: β1< 0, essendo β1 il coefficiente angolare del modello (α = 0.05)

a) Si noti che è possibile riscrivere la somma dei quadrati della regressione (SSR) in modo alternativo come
=

𝑆𝑆𝑅 = 𝑏?6 ∙ •(𝑥} − 𝑥̅ )6 ,


}‚?

pertanto risulta 𝑆𝑆𝑅 = (−0.1924)6 ∙ 1068708 = 39561.1763.

b) Si tratta di calcolare l’intervallo di previsione

1 (𝑥=Š? − 𝑥̅ )6
‰𝑦^=Š? ± 𝑡=>6, i ∙ 𝑠Œ ∙ •Ž1 + + = ••.
6 𝑛 ∑}‚?(𝑥} − 𝑥̅ )6

Le quantità necessarie richieste sono:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

𝑦^=Š? = 𝑏E + 𝑏? ∙ 𝑥=Š? è 𝑦^=Š? = 214.0724 − 0.1924 ∙ 400 = 137.1124


𝑡=>6, B = 𝑡??, E.E6D = 2.201
-
-
C

𝑠Œ = 3𝑠Œ6 = \ =\ = √3979.7112 = 63.0850


‘‘’ (lJJJl>J“DK?.?kKJ)
=>6 ??
-

Pertanto,

X137.1124 ± 2.201 ∙ 63.0850 ∙ \”1 + + •_ è o137.1124 ± 2.201 ∙ 63.0850 ∙ √1.0771p


? (TEE>JlD)C
?J ?EKlkEl

è (137.1124 ± 2.201 ∙ 63.0850 ∙ 1.0378) è (−6.9862; 281.2110).

Nel caso non si fosse risposto al punto a), la stima della deviazione standard dei residui sarebbe pari a

𝑆𝑆𝐸 (83338 − 42337.2315)


𝑠Œ = 3𝑠Œ6 = • =• = √3727.3426 = 61.0520
𝑛−2 11

e l’intervallo a

X137.1124 ± 2.201 ∙ 61.0520 ∙ \”1 + ?J + •_ è o137.1124 ± 2.201 ∙ 61.0520 ∙ √1.0771p


? (TEE>JlD)C
?EKlkEl

è (137.1124 ± 2.201 ∙ 61.0520 ∙ 1.0379) è (−2.3425; 276.5673).

c) In questo caso si rifiuta l’ipotesi nulla quando

𝑏? − 𝛽?
< −𝑡=>6, i .
𝑠—f

- 𝑠—f = = = 0.0610
G˜ KJ.ElDE
Con i dati del problema risulta:

\∑ h √?EKlkEl
™šf(Q™ >Q̅ )
C

- 𝑡=>6, i = 𝑡??, E.ED = 1.796

Pertanto,

𝑏? − 𝛽? −0.1924 − 0
= = −3.1541 < −1.796
𝑠—f 0.0610

e quindi si rifiuta l’ipotesi nulla.


Nel caso non si fosse risposto al punto a), risulta

𝑠Œ 61.0520
𝑠—f = = = 0.0591
3∑}‚?(𝑥}
=
− 𝑥̅ )6 √1068708

𝑏? − 𝛽? −0.1924 − 0
= = −3.2555
𝑠—f 0.0591

continuando quindi a rifiutare l’ipotesi nulla.

ESERCIZIO 6 (punti 3)
Definite gli errori di prima e seconda specie in cui si può incorrere in un test di ipotesi. Perché sono importanti nella
ricerca di un test “ottimale”? Come è possibile ridurre contemporaneamente la probabilità di commettere i due errori?

[Si veda il materiale del corso.]

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO 7 (punti 3)
In un modello di regressione lineare semplice, che tipo di previsioni, puntuali e intervallari, si possono fare per la variabile
dipendente? Discutete dettagliatamente la problematica, riportando le necessarie formule a sostegno di quanto
argomentato.

[Si veda il materiale del corso.]

Scaricato da lulu bottasi (carola.capodieci@gmail.com)

Potrebbero piacerti anche