Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
COMPITO C
Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi.
Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande
Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI
CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).
ESERCIZIO 1 (punti 7)
La tabella seguente mostra i cinque numeri di sintesi della distribuzione dei voti (in trentesimi) dell’esame di
“Istituzioni di economia” di un ateneo italiano:
Minimo 4
Primo quartile 22
Mediana 26
Terzo quartile 28
Massimo 30
a) L’opportuna rappresentazione grafica è un box plot, a partire dai valori forniti nel testo si ottiene
35
30
25 Minimo
20 1° Quartile
15 Mediana
10 3° Quartile
Massimo
5
0
Variabile X
La distribuzione è obliqua a sinistra (ovvero presenta asimmetria negativa), infatti l’andamento grafico tradisce una
lunga coda in corrispondenza dei valori più bassi della variabile. Si ha, inoltre:
Max – Q3 < Q1-Min → 30 – 28 < 22 – 4 → 2 < 18
Q3 – Q2 < Q2 – Q1 → 28 – 26 < 26 – 22 → 2 < 4
c) Per calcolare il ventesimo percentile approssimato è opportuno tenere presente che fra ogni numero di sintesi e il
successivo sono presenti il 25% delle osservazioni. La distribuzione in classi è quindi la seguente:
La classe che contiene il ventesimo percentile (primo quintile) è la prima; la densità di frequenza è pari a
2
ESERCIZIO 2 (punti 3)
Si assuma che il valore dell’ematocrito nel sangue di un individuo sano segua una distribuzione normale di
media pari al 42 e scarto quadratico medio pari a 3.
a) Si calcoli la probabilità che un individuo sano abbia un valore di ematocrito superiore a 50.
b) Si calcoli il valore dell’ematocrito superato dal 10% di individui.
c) Supponendo di estrarre un campione di 400 individui, qual è il numero atteso di persone con valore di
ematocrito superiore a 50? (NOTA BENE: se non si è risposto al precedente punto a) di questo esercizio,
si assuma che la probabilità di osservare un valore di ematocrito superiore a 50 sia pari al 15%).
Denotiamo con X la variabile casuale che rappresenta la concentrazione di ematocrito nel sangue: ~ (42,9)
a) La probabilità cercata è pari a:
50 − 42
( > 50) = > ! = ( > 2.67) = 1 − 0.9962 = 0.0038
3
b) il valore della variabile che soddisfa la condizione è:
# − 42 # − 42
( > # ) = 0.1 → > ! = 0.1 → = 1.28 → # = 42 + 1.28 · 3 = 45.84
3 3
c) La distribuzione sottostante alla ripetizione dell’esperimento aleatorio, in condizione d’indipendenza, per un
campione di n individui è una binomiale Y di parametri p=0.0038 e n=400; se ne richiede il valore atteso &('), si ha
pertanto: &(') = () = 400 · 0.0038 = 1.52
(se non si è risposto al punto a), utilizzando il valore p=0.15, si ottiene il risultato &(') = () = 400 · 0.15 = 60)
ESERCIZIO 3 (punti 6)
Un’equipe di ricerca vuole testare gli effetti di una sessione di allenamenti intensiva su un gruppo di atleti
specializzati nel salto in lungo. Al fine di verificare se la metodologia migliori le prestazioni vengono
analizzate le performance prima e dopo la sessione di allenamento da parte di un campione di 6 saltatori, le
cui prestazioni (espresse in metri) sono registrate nella tabella sottostante:
c) E’ possibile calcolare il p-value approssimato cercando i valori della tavola della t di Student con 5 gradi di libertà
che comprendono il valore DEFF , si ha
1.476 < DEFF < 2.015 quindi, si conclude che 0.05 < KL > DEFF M < 0.10.
ESERCIZIO 4 (punti 3)
La proprietà di un bar sta definendo le quantità di vino bianco, vino rosso e birra da acquistare per essere
servite ai propri clienti. Sulla base di dati storici la proprietà ritiene che la clientela abbia consumato le tre
bevande in parti uguali.
Una recente indagine campionaria ha preso in considerazione 90 clienti e ha rilevato un consumo delle
bevande secondo la tabella seguente:
Sulla base di tali dati campionari è possibile confermare a un livello di significatività dell’1% l’ipotesi che il
consumo delle bevande attuale sia in linea con i dati storici? Si risponda utilizzando un opportuno test
statistico.
Trattandosi di un test di adattamento basato sulla distribuzione chi quadrato le ipotesi da sottoporre a verifica sono le
seguenti:
ESERCIZIO 5 (punti 6)
Una società che produce film è interessata a prevedere gli incassi (in milioni di euro) delle sue produzioni in
funzione dei costi di produzione (in milioni di euro) e del numero di sale in cui un film è distribuito. I
risultati di un modello di regressione lineare per tale problema, riportati di seguito, riguardano un campione
di 30 produzioni.
ANALISI VARIANZA
gdl SQ MQ
Regressione 2 14997.594 7498.797
Residuo *** 10176.573 376.910
Totale 29 25174.167
a) Si completi il tabulato nelle parti mancanti indicate nelle tabelle con ***.
b) Si verifichi a un livello del 5% la significatività generale del modello.
c) Si calcoli il valore di R2 corretto e si commenti il risultato ottenuto.
d) Si calcoli un intervallo di confidenza al 95% per il coefficiente del numero di sale.
a) I gradi di libertà del residuo sono pari a n-k-1 dove n sono le osservazioni sulle quali è stata condotta l’indagine;
k è il numero di regressori. Pertanto n-k-1=30-2-1=27.
Per quanto riguarda il calcolo dello standard error del coefficiente di regressione per la variabile COSTI, noto il
valore osservato della statistica t, è sufficiente:
<(abEFc^ ) = abEFc^ /eD D D · = (−0.263)/(−1.425) = 0.1846
opq 7498.797
lEFF = = = 19.895
op& 376.910
Poiché la regione di rifiuto del test è G: HlEFF > l( , r), . A = 3.35I si rifiuta l’ipotesi nulla e si ritiene significativo il
modello.
ss\/(:?n?4) ur;.B4
b) per il calcolo di R2 corretto si procede q@ = 1 − sst/(:?4)
= 1−
v;v.4 B
= 0.5658.
Il risultato ottenuto informa che la capacità esplicativa del modello non è molto elevata, ovvero che la bontà di
adattamento del modello ai dati è di media intensità, dal momento che l’indice assume un valore che è pari a
56.58% del suo massimo teorico, avendo operato una penalizzazione per il numero di variabili esplicative
utilizzate nel modello.
d)
NGw4?W
xyUzSQ{V|z
= [a}~2\0.s3•\ ± D:?n?4,€ ∙ <(a}~2\0.s3•\ )] = [a}~2\0.s3•\ ± D r, . A ∙ <(a}~2s\0.3•\ )] =
>
[0.093 ± 2.052 ∙ 0.015] = 0.093 ± 0.0308 = [0.0622; 0.1238]
ESERCIZIO 6 (punti 3)
Si fornisca la definizione di funzione cumulativa delle frequenze e se ne evidenzino le differenze tra il caso
quantitativo discreto e quantitativo continuo.
Si descrivano infine i grafici che si utilizzano per rappresentare la funzione cumulativa delle frequenze
distinguendo sempre tra il caso quantitativo discreto e quantitativo continuo.
ESERCIZIO 7 (punti 3)
Che cosa si intende per livello di significatività di un test e quale ruolo svolge nella prova delle ipotesi?
Supponete di aver rifiutato H0 in un test con livello di significatività α = 0.05. E’ corretto affermare che la
probabilità che H0 sia vera, dato il rifiuto, è pari a 0.05?
.
Si veda il libro di testo