Sei sulla pagina 1di 7

lOMoARcPSD|2635519

Esame del 6 febbraio 2016 con svolgimento esercizi -


Statistica a.a. 2015/2016
Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da lulu bottasi (carola.capodieci@gmail.com)
lOMoARcPSD|2635519

FIRMA DELLO STUDENTE

PROVA SCRITTA DI STATISTICA – CLEAM


(COD. 30001/6045/5047/4038/371/377)
6 Febbraio 2016
Cognome Nome
Numero di matricola Corso di Laurea Cod. corso

COMPITO C
Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi.
Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande
Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI
CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO 1 (punti 7)
La tabella seguente mostra i cinque numeri di sintesi della distribuzione dei voti (in trentesimi) dell’esame di
“Istituzioni di economia” di un ateneo italiano:

Minimo 4
Primo quartile 22
Mediana 26
Terzo quartile 28
Massimo 30

A partire dalla tabella sopra riportata:


a) Si fornisca un’opportuna rappresentazione grafica del carattere oggetto di indagine e si commenti la
forma della distribuzione fornendo una opportuna giustificazione.
b) Si discuta la presenza di outlier inferiori e superiori.
c) Utilizzando i valori riportati nella tabella precedente come estremi di quattro classi equi-frequenti, si
calcolino i valori approssimati della media e del ventesimo percentile per questa distribuzione.

a) L’opportuna rappresentazione grafica è un box plot, a partire dai valori forniti nel testo si ottiene
35
30
25 Minimo
20 1° Quartile

15 Mediana

10 3° Quartile
Massimo
5
0
Variabile X

La distribuzione è obliqua a sinistra (ovvero presenta asimmetria negativa), infatti l’andamento grafico tradisce una
lunga coda in corrispondenza dei valori più bassi della variabile. Si ha, inoltre:
Max – Q3 < Q1-Min → 30 – 28 < 22 – 4 → 2 < 18
Q3 – Q2 < Q2 – Q1 → 28 – 26 < 26 – 22 → 2 < 4

b) Per determinare gli outlier si utilizzando le seguenti formule:


Esistono outlier inferiori se
Min < Q1-1.5(Q3 - Q1)=22-1.5(28-22)=22-1.5·6=22-9=13 → esiste almeno un outlier inferiore, pari al minimo
Esistono outlier superiori se
Max > Q3+1.5(Q3 - Q1)=28+1.5(28-22)=28+1.5·6=28+9=37 → non esistono outlier superiori, essendo il massimo pari
a 30.

c) Per calcolare il ventesimo percentile approssimato è opportuno tenere presente che fra ogni numero di sintesi e il
successivo sono presenti il 25% delle osservazioni. La distribuzione in classi è quindi la seguente:

[xi, xi+1) pi vci


[4,22) 0.25 13
[22,26) 0.25 24
[26,28) 0.25 27
[28,30] 0.25 29

La classe che contiene il ventesimo percentile (primo quintile) è la prima; la densità di frequenza è pari a
2

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

0.25/18=0.0139. Pertanto il ventesimo percentile è calcolato come segue:


0.2
=4+ = 4 + 14.3885 = 18.3885
0.0139
Per calcolare il valore medio si sommano i valori centrali di classe (riportati in tabella) ponderati con le frequenze
relative:
= 13 ∙ 0.25 + 24 ∙ 0.25 + 27 ∙ 0.25 + 29 ∙ 0.25 = 23.25

ESERCIZIO 2 (punti 3)
Si assuma che il valore dell’ematocrito nel sangue di un individuo sano segua una distribuzione normale di
media pari al 42 e scarto quadratico medio pari a 3.
a) Si calcoli la probabilità che un individuo sano abbia un valore di ematocrito superiore a 50.
b) Si calcoli il valore dell’ematocrito superato dal 10% di individui.
c) Supponendo di estrarre un campione di 400 individui, qual è il numero atteso di persone con valore di
ematocrito superiore a 50? (NOTA BENE: se non si è risposto al precedente punto a) di questo esercizio,
si assuma che la probabilità di osservare un valore di ematocrito superiore a 50 sia pari al 15%).

Denotiamo con X la variabile casuale che rappresenta la concentrazione di ematocrito nel sangue: ~ (42,9)
a) La probabilità cercata è pari a:
50 − 42
( > 50) = > ! = ( > 2.67) = 1 − 0.9962 = 0.0038
3
b) il valore della variabile che soddisfa la condizione è:
# − 42 # − 42
( > # ) = 0.1 → > ! = 0.1 → = 1.28 → # = 42 + 1.28 · 3 = 45.84
3 3
c) La distribuzione sottostante alla ripetizione dell’esperimento aleatorio, in condizione d’indipendenza, per un
campione di n individui è una binomiale Y di parametri p=0.0038 e n=400; se ne richiede il valore atteso &('), si ha
pertanto: &(') = () = 400 · 0.0038 = 1.52
(se non si è risposto al punto a), utilizzando il valore p=0.15, si ottiene il risultato &(') = () = 400 · 0.15 = 60)

ESERCIZIO 3 (punti 6)
Un’equipe di ricerca vuole testare gli effetti di una sessione di allenamenti intensiva su un gruppo di atleti
specializzati nel salto in lungo. Al fine di verificare se la metodologia migliori le prestazioni vengono
analizzate le performance prima e dopo la sessione di allenamento da parte di un campione di 6 saltatori, le
cui prestazioni (espresse in metri) sono registrate nella tabella sottostante:

ATLETA PRIMA DOPO


A 7.99 8.11
B 7.70 8.00
C 8.14 8.15
D 8.26 8.18
E 7.86 8.07
F 8.23 8.27

a) Si indichino le ipotesi da sottoporre a verifica e le assunzioni alla base del test.


b) Si decida in merito alle ipotesi esplicitate al punto precedente, utilizzando un livello di significatività del
10%.
c) Si calcoli il p-value (approssimato) del test.
d) Si calcoli un intervallo di confidenza al 99% per la differenza delle prestazioni medie prima e dopo la
sessione di allenamento.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) le ipotesi da sottoporre a verifica sono:


* : ,-./. − ,/0123 = 0
*4 : ,-./. − ,/0123 > 0
Le assunzioni di base sono: campioni dipendenti, normalità congiunta dei caratteri PRIMA e DOPO
b) Si calcolano le differenze tra le prestazioni DOPO e PRIMA come riportato di seguito:
ATLETA PRIMA DOPO DOPO-PRIMA DOPO-PRIMA2
A 7.99 8.11 0.12 0.0144
B 7.70 8.00 0.30 0.09
C 8.14 8.15 0.01 0
D 8.26 8.18 -0.08 0.0064
E 7.86 8.07 0.21 0.0441
F 8.23 8.27 0.04 0.0016
tot 0.6 0.1566
Partendo dai dati si ottengono la differenza media e il valore stimato dello standard error come segue
9
̅ = ∑8 78 = .; = 0.1;
: ;
∑9 > @> ∑9 > @>
8 78 ?:7 8 78 ?:7 .4A;;?;( .4)> . B;;
<7 = = :?4
== :?4
== A
== A
= √0.01932 = 0.1390
<7 0.1390
= = 0.0567
√( √6
Il valore standardizzato della media delle differenze segue una distribuzione t di studenti con n-1 gradi di libertà.
0.1
DEFF = = 1.764
0.0567
Poiché la regione di rifiuto per il test è G: HDEFF > DA, .4 = 1.476I si rifiuta l’ipotesi nulla.

c) E’ possibile calcolare il p-value approssimato cercando i valori della tavola della t di Student con 5 gradi di libertà
che comprendono il valore DEFF , si ha
1.476 < DEFF < 2.015 quindi, si conclude che 0.05 < KL > DEFF M < 0.10.

d) L’intervallo di confidenza richiesto al 99% è:


<7
NGO4?W
PQRQ ?ORSTUV
= X ̅ ± D:?4,WZ ∙ [ = K0.1 ± 4.032 ∙ 0.0567M = K−0.1286,0.3286M
√(
Essendo DA, . A = 4.032

ESERCIZIO 4 (punti 3)
La proprietà di un bar sta definendo le quantità di vino bianco, vino rosso e birra da acquistare per essere
servite ai propri clienti. Sulla base di dati storici la proprietà ritiene che la clientela abbia consumato le tre
bevande in parti uguali.
Una recente indagine campionaria ha preso in considerazione 90 clienti e ha rilevato un consumo delle
bevande secondo la tabella seguente:

Vino bianco Vino rosso Birra Totale


50 20 20 90

Sulla base di tali dati campionari è possibile confermare a un livello di significatività dell’1% l’ipotesi che il
consumo delle bevande attuale sia in linea con i dati storici? Si risponda utilizzando un opportuno test
statistico.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Trattandosi di un test di adattamento basato sulla distribuzione chi quadrato le ipotesi da sottoporre a verifica sono le
seguenti:

H0: pvino bianco= pvino rosso=pbirra =1/3


H1: altrimenti

(.8 ?\8 )>


La statistica test, sotto l’ipotesi H0: = ∑]
^_4 ~`(]?4)
\8
Per vedere se le frequenze osservate sono conformi o in contrasto con l’ipotesi nulla occorre costruire la tabella delle
frequenze attese sotto H0, ricordando l’uso della formula &^ = ()^ :

Vino bianco Vino rosso Birra Totale


30 30 30 90

Il valore osservato per la statistica test:

(50 − 30) (20 − 30) (20 − 30)


EFF = + + = 13.3333 + 3.3333 + 3.3333 = 20
30 30 30
Poiché la regione di rifiuto per il test è G: H EFF > ` , . 4 = 9.21I si rifiuta l’ipotesi nulla.
Si conclude che l’attuale consumo di bevande non è in linea con i dati storici e che le bevande non vengano
consumate dai clienti con la stessa frequenza.

ESERCIZIO 5 (punti 6)
Una società che produce film è interessata a prevedere gli incassi (in milioni di euro) delle sue produzioni in
funzione dei costi di produzione (in milioni di euro) e del numero di sale in cui un film è distribuito. I
risultati di un modello di regressione lineare per tale problema, riportati di seguito, riguardano un campione
di 30 produzioni.

ANALISI VARIANZA
gdl SQ MQ
Regressione 2 14997.594 7498.797
Residuo *** 10176.573 376.910
Totale 29 25174.167

Coefficienti Errore standard Stat t


INTERCETTA -11.687 8.500 -1.375
COSTI -0.263 *** -1.425
NUMERO DI SALE 0.093 0.015 6.128

a) Si completi il tabulato nelle parti mancanti indicate nelle tabelle con ***.
b) Si verifichi a un livello del 5% la significatività generale del modello.
c) Si calcoli il valore di R2 corretto e si commenti il risultato ottenuto.
d) Si calcoli un intervallo di confidenza al 95% per il coefficiente del numero di sale.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) I gradi di libertà del residuo sono pari a n-k-1 dove n sono le osservazioni sulle quali è stata condotta l’indagine;
k è il numero di regressori. Pertanto n-k-1=30-2-1=27.
Per quanto riguarda il calcolo dello standard error del coefficiente di regressione per la variabile COSTI, noto il
valore osservato della statistica t, è sufficiente:
<(abEFc^ ) = abEFc^ /eD D D · = (−0.263)/(−1.425) = 0.1846

b) Le ipotesi da testare sono:


* : f4 = f = 0
*4 : g (h i(h Dj f4 f ≠ 0
2m0
La statistica test utilizzata per decidere in merito alle ipotesi è l = ~ln,:?n?4 2m\
Il valore osservato per la statistica test è:

opq 7498.797
lEFF = = = 19.895
op& 376.910
Poiché la regione di rifiuto del test è G: HlEFF > l( , r), . A = 3.35I si rifiuta l’ipotesi nulla e si ritiene significativo il
modello.
ss\/(:?n?4) ur;.B4
b) per il calcolo di R2 corretto si procede q@ = 1 − sst/(:?4)
= 1−
v;v.4 B
= 0.5658.
Il risultato ottenuto informa che la capacità esplicativa del modello non è molto elevata, ovvero che la bontà di
adattamento del modello ai dati è di media intensità, dal momento che l’indice assume un valore che è pari a
56.58% del suo massimo teorico, avendo operato una penalizzazione per il numero di variabili esplicative
utilizzate nel modello.

d)
NGw4?W
xyUzSQ{V|z
= [a}~2\0.s3•\ ± D:?n?4,€ ∙ <(a}~2\0.s3•\ )] = [a}~2\0.s3•\ ± D r, . A ∙ <(a}~2s\0.3•\ )] =
>
[0.093 ± 2.052 ∙ 0.015] = 0.093 ± 0.0308 = [0.0622; 0.1238]

ESERCIZIO 6 (punti 3)
Si fornisca la definizione di funzione cumulativa delle frequenze e se ne evidenzino le differenze tra il caso
quantitativo discreto e quantitativo continuo.
Si descrivano infine i grafici che si utilizzano per rappresentare la funzione cumulativa delle frequenze
distinguendo sempre tra il caso quantitativo discreto e quantitativo continuo.

Si veda il libro di testo

ESERCIZIO 7 (punti 3)
Che cosa si intende per livello di significatività di un test e quale ruolo svolge nella prova delle ipotesi?
Supponete di aver rifiutato H0 in un test con livello di significatività α = 0.05. E’ corretto affermare che la
probabilità che H0 sia vera, dato il rifiuto, è pari a 0.05?
.
Si veda il libro di testo

Scaricato da lulu bottasi (carola.capodieci@gmail.com)

Potrebbero piacerti anche