Sei sulla pagina 1di 8

lOMoARcPSD|4302531

Esame del 6 febbraio 2016 del corso di Statistica con


svolgimento esercizi
Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)
lOMoARcPSD|4302531

FIRMA DELLO STUDENTE

PROVA SCRITTA DI STATISTICA – CLEAM


(COD. 30001/6045/5047/4038/371/377)
6 Febbraio 2016

Cognome Nome
Matricola Corso di laurea Cod. corso

COMPITO A
Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi
spazi. Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle
domande. Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di
brutta (DI CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

ESERCIZIO 1 (punti 6)
Nella tabella sottostante si forniscono i valori della funzione di ripartizione per il numero di figli per donna
in un campione di 80 cittadini di una piccola comunità montana:
Numero figli per donna Funzione di ripartizione
0 0.4
1 0.6
2 0.7
3 0.9
4 1
a) Si indichi che tipo di variabile è il “Numero di figli per donna”.
b) Si rappresenti graficamente la funzione di ripartizione della variabile “Numero di figli per donna”.
c) Si ricavi la tabella delle frequenze relative e assolute, partendo dai valori della funzione di ripartizione.
d) Si costruisca il box plot della variabile oggetto dell’indagine e sulla base del risultato si commenti la
forma della distribuzione.

a) Dal punto di vista del tipo di informazione trasmessa, la variabile “Numero di figli per donna” è numerica
discreta. Dal punto di vista della scala di misurazione essa è quantitativa ed espressa in scala di rapporto.

b) La funzione di ripartizione per una variabile numerica discreta è una funzione a gradini, non decrescente e
continua a destra. Sotto riportato è il grafico:
1

0.5

0
0 1 2 3 4
c) La tabella delle frequenze relative e assolute è indicata come segue

Numero figli per donna Funzione di ripartizione Frequenze relative Frequenze assolute
0 0.4 0.4 32
1 0.6 0.2 16
2 0.7 0.1 8
3 0.9 0.2 16
4 1 0.1 8
d) Sono necessari i 5 numeri di sintesi:

1. Min=0
2. Il primo quartile è dato dal valore in corrispondenza del quale la funzione di ripartizione supera per la
prima volta il valore di 0.25. Pertanto: Q1
3. La mediana è data dal valore in corrispondenza del quale la funzione di ripartizione supera per la prima
volta il valore di 0.5. Si ha quindi che Q2=1
4. Il terzo quartile è dato dal valore in corrispondenza del quale la funzione di ripartizione supera per la
prima volta 0.75. Quindi Q3=3
5. Max=4

Il box plot è calcolato come segue:

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

4.5
4
3.5
3 Minimo
2.5 1° Quartile

2 Mediana

1.5 3° Quartile

1 Massimo

0.5
0
Variabile X

Poiché il baffo superiore risulta essere più lungo di quello inferiore, la distribuzione è asimmetrica a destra.
Alla medesima soluzione si arriva verificando Q3-Q2>Q2-Q1 e Max-Q3>Q1-Min (la media non è data).

ESERCIZIO 2 (punti 2)
La durata della vita di una popolazione di batteri segue una distribuzione normale di media pari a 20 mesi e
deviazione standard incognita. Sapendo che la probabilità che un batterio viva più di 24 mesi è pari 0.2, si
risponda alle seguenti domande:
a) Si calcoli la deviazione standard della popolazione.
b) Su un campione di 3000 batteri, quanti sono quelli che ci aspettiamo possano vivere più di 24 mesi?
a) Denotiamo con X la variabile casuale che rappresenta la durata della vita dei batteri. La sua distribuzione
diviene pertanto:

Pertanto

b) La distribuzione sottostante alla ripetizione dell’esperimento aleatorio, in condizione d’indipendenza, per


un campione di n batteri è una binomiale Y di parametri p=0.2 e n=3000; se ne richiede il valore atteso

ESERCIZIO 3 (punti 6)
Nell’ambito di un progetto europeo è stata condotta un’indagine campionaria sulle carriere degli studenti di
un istituto professionale per indagare il tasso di abbandono. Mancando i fondi per effettuare un’indagine
censuaria è stato selezionato un campione rappresentativo di 270 unità. 54 di questi hanno abbandonato la
scuola prima del termine delle lezioni.
a) Si verifichi ad un livello di significatività dell’1% l’ipotesi che la proporzione di abbandoni sia inferiore a
0.25 utilizzando il p-value.
b) Calcolare un intervallo di confidenza al 95% per la proporzione di studenti che abbandonano gli studi
prima della fine dell’anno.
c) Quanti studenti si dovrebbe intervistare affinché il margine di errore dell’intervallo di confidenza sia
inferiore a 0.01?
d) Come cambierebbe la risposta al punto b) se si sapesse che il numero complessivo di studenti che sono
iscritti all’istituto da cui è stato estratto il campione è pari a 900?

a) Ciò che si intende dimostrare è che la proporzione di abbandoni sia inferiore a 0.25, ipotesi che viene
convenzionalmente collocata come ipotesi alternativa.

Le ipotesi da formulare sono le seguenti:


3

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

H0: p = 0.25
H1: p < 0.25

Poiché sotto l’ipotesi nulla np0(1-p0) = 270·0.25·0.75=50.625>9 posso utilizzare l’approssimazione normale
per la proporzione campionaria, utilizzando le proprietà dei grandi campioni derivanti dall’applicazione del
teorema centrale del limite. Ora, per proseguire l’esercizio, si ricava

La realizzazione della statistica test è la seguente: ,

Come noto il p-value è pari alla probabilità che la statistica test assuma valori uguali o più estremi del valore
osservato. Nel nostro caso, tenuto conto della specificazione delle ipotesi, si avrà che:

Poiché la decisione è di non rifiutare H0. L’evidenza empirica suggerisce


che la proporzione di abbandoni non sia nella popolazione inferiore a 0.25
b)

c) Per ridurre il margine di errore ME entro un valore soglia desiderato è necessario incrementare l’ampiezza
campionaria sotto il vincolo di cautela che p(1-p)=0.25 secondo il seguente procedimento:

d) Nel caso richiesto la numerosità della popolazione da cui è stato estratto il campione di 270 unità assume
una dimensione finita. Per valutare l’opportunità di inserire un fattore di correzione nel calcolo dell’errore
standard si procede, verificando la condizione che n>0.05N = 270>0.05·900=45.
Si rende quindi necessaria l’introduzione di tale fattore: diminuendo per il fattore di correzione lo standard
error, si riduce il margine di errore e si restringe l’intervallo di confidenza.

(Per una determinazione analitica l’intervallo di confidenza è calcolato come segue:

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

ESERCIZIO 4 (punti 5)
L’allenatore di una società polisportiva è interessato a scoprire se esiste un’associazione fra statura degli
iscritti e disciplina praticata. A tal fine rileva i dati di un campione di 120 iscritti nel corso dell’anno 2015. I
risultati ottenuti sono riassunti nella tabella sottostante. Si risponda ai quesiti proposti.

Disciplina Nuoto Atletica leggera Ciclismo


Statura
< 180 5 10 25
≥ 180 40 30 10

a) Qual è la percentuale di atleti che pratica il Nuoto e che è alto almeno 180 cm?
b) Si specifichino le ipotesi da sottoporre a verifica per testare se vi sia un legame tra disciplina praticata e
statura degli iscritti.
c) Si decida in merito alle ipotesi fissate considerando un livello di significatività dell’1%.

a) Tale percentuale è pari a 40 / 120 = 0.3333 = 33.33%

b) Trattandosi di un test per indipendenza basato sulla distribuzione chi quadrato le ipotesi da sottoporre a
verifica sono le seguenti:

H0: le variabili “Disciplina” e “Statura” nella popolazione sono indipendenti


H1: le variabili “Disciplina” e “Statura” nella popolazione non sono indipendenti

La statistica test è data, sotto l’ipotesi H0, da


Per vedere se le frequenze osservate sono conformi o in contrasto con l’ipotesi nulla occorre costruire la
tabella delle frequenze attese sotto H0, ricordando l’uso della formula :

Tabella delle Frequenze attese sotto H0


Disciplina
Statura Nuoto Atletica leggera Ciclismo Total
< 180 15 13.33333 11.66667 40
≥ 180 30 26.66667 23.33333 80
Total 45 40 35 120

Ottenuta tale tabella, risulta opportuno calcolare gli scarti per ogni cella della tabella:

Tabella degli scarti sotto H0


Disciplina
Statura Nuoto Atletica leggera Ciclismo
< 180 6.6667 0.8333 15.2381
≥ 180 3.3333 0.4167 7.61905

Pertanto si rifiuta H0 ; il test suggerisce l’esistenza di una dipendenza fra statura e disciplina.

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

ESERCIZIO 5 (punti 6)
Un centro studi che si occupa di economia del territorio ha selezionato un campione di 72 individui della
stessa età per studiare, attraverso un modello di regressione lineare, le determinanti del reddito da lavoro
(espresso in euro) nell’età giovanile, rispetto a due variabili ritenute cruciali per determinarne il valore: gli
anni di istruzione completati e il reddito del padre a 40 anni di età.
I risultati sono riportati nella tabella sottostante:

ANALISI VARIANZA
gdl SQ MQ
Regressione 2 14960770.37 7480385.183
Residuo 69 2677979.634 38811.29905
Totale 71 17638750

Coefficienti Errore standard Valore di significatività


Intercetta 17.606 106.577 0.869
Reddito padre a 40 anni 1.258 0.144 <0.001
Anni di istruzione 37.062 11.775 0.002

a) Si commenti l’effetto (segno, dimensione e significatività) della variabile “Anni di istruzione”


b) Si valuti a un livello di significatività del 10% l’ipotesi che “Reddito del padre a 40 anni” abbia un
impatto positivo sul reddito.

Il medesimo centro studi ha proposto in una pubblicazione successiva un secondo modello che arricchisce
quello precedente aggiungendo, fra le variabili esplicative, il “Reddito della madre a 40 anni”, ottenendo i
risultati riportati di seguito:

ANALISI VARIANZA
gdl SQ MQ
Regressione 3 15384798.25 5128266.082
Residuo 68 2253951.755 33146.34934
Totale 71 17638750

Coefficienti Errore standard Valore di significatività


Intercetta 351.437 135.692 0.012
Reddito padre a 40 anni -0.004 0.377 0.993
Anni di istruzione 12.566 12.857 0.332
Reddito madre a 40 anni 2.205 0.617 <0.001

c) Quali considerazioni emergono dal confronto dei risultati dei due modelli? Come è possibile giustificarli?

a) Gli anni di istruzione sono correlati positivamente con il reddito dei giovani. In particolare per ogni anno
di istruzione in più si registra mediamente un reddito aggiuntivo pari 37.062 euro, tenuto costante il valore
dell’altra variabile. L’effetto è significativo per tutti i valori convenzionali di α (in particolare sicuramente
per α >0.002)
b) Sia X1 la variabile “Reddito padre a 40 anni” e X2 la variabile “Anni di istruzione”. Le ipotesi da testare sono:

. L’evidenza empirica ci
consente di affermare che esiste un effetto significativo positivo del reddito del padre su quello del figlio.
c) Dopo inserimento del Reddito della Madre, il reddito del padre e gli anni di istruzione diventano non
significativi, sintomo di collinearità.
6

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)


lOMoARcPSD|4302531

ESERCIZIO 6 (punti 3)
Data una tabella a doppia entrata per due caratteri X e Y, siano fij le frequenze assolute congiunte.
a) Come si definisce la distribuzione subordinata di Y dato X = xi?
b) Come è possibile utilizzare tali distribuzioni per valutare l’associazione tra i due caratteri?

Si faccia riferimento al libro di testo e agli appunti.

ESERCIZIO 7 (punti 3)
a) Si fornisca la definizione di stimatore puntuale e per intervallo per un parametro .
b) Quali vantaggi presentano gli stimatori per intervallo rispetto a quelli puntuali?

Si faccia riferimento al libro di testo e agli appunti.

Scaricato da raffaele armandi (raffaele.armandi.mt.it@hotmail.it)