Sei sulla pagina 1di 8

lOMoARcPSD|2635519

Esame 1 Ottobre 2017, domande+risposte

Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da lulu bottasi (carola.capodieci@gmail.com)
lOMoARcPSD|2635519

FIRMA DELLO STUDENTE

PRIMA PROVA INTERMEDIA DI STATISTICA


(COD. 30001/6045/5047/4038/371/377)
20 ottobre 2017

Cognome Nome
Numero di matricola Corso di Laurea Cod. corso

COMPITO E
Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi.
Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande
Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI
CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO 1 (punti 9)
Un estratto dei dati di ascolto Auditel per un certo canale X relativi a 9 telespettatori ha dato origine alla tabella seguente:

Share
Genere Titolo di Studio
Rete X (%)
7 M Media inferiore
8 F Laurea
7 M Laurea
16 F Laurea
6 M Media superiore
10 F Laurea
8 M Media inferiore
10 F Media inferiore
8 F Media superiore

a) Si stabilisca la tipologia della variabile TITOLO DI STUDIO e la si rappresenti graficamente.


b) Si calcolino i 5 numeri di sintesi della variabile SHARE RETE X. Si costruisca il box plot della stessa variabile.
Cosa suggerisce l’analisi di tale grafico? Sono presenti outlier? Motivare opportunamente le risposte.
c) Quali misure di sintesi della posizione sono calcolabili per la variabile GENERE? Si proceda ad elencarle e
calcolarle.
d) Sapendo che la varianza campionaria dello SHARE RETE X per i soli telespettatori maschi inclusi nel campione
è pari a 0.6667, si valuti se la variabilità osservata nello share sia maggiore per i maschi o per le femmine. Si
giustifichi la risposta riportando gli opportuni risultati numerici.

a) La variabile TITOLO DI STUDIO è categorica, qualitativa ordinale. Il grafico più appropriato per
rappresentare la variabile è il diagramma a barre:

5
4
4
3
3
2
2
1
0
Media inferiore Media superiore Laurea

b) Dopo aver ordinato la serie SHARE RETE X e identificato la posizione dei quartili, è possibile calcolare i 5
numeri di sintesi e disegnare il relativo BOX PLOT:

MIN = 6
Q1 = 7
ME = 8
Q3 = 10
MAX = 16

Il grafico suggerisce che la distribuzione è asimmetrica a destra. Infatti si nota chiaramente che (MAX-Q3) >
(Q1-MIN) e (Q3-ME) > (ME-Q1).

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Infine per quanto concerne la presenza di outlier, è necessario calcolare la soglia superiore e la soglia
inferiore oltre le quali il dato si considera anomalo:
Soglia inferiore à 𝑄1 − 1.5 ∗ 𝑄3 − 𝑄1 = 7 − 1.5 ∗ 10 − 7 = 2.5
Soglia superiore à 𝑄3 + 1.5 ∗ 𝑄3 − 𝑄1 = 10 + 1.5 ∗ 10 − 7 = 14.5
È possibile quindi individuare un outlier superiore, corrispondente al valore massimo (SHARE=16%).

c) Essendo la variabile categorica, qualitativa nominale, l’unica misura di sintesi possibile è la moda.
Per la variabile GENERE la moda è “F”.

d) Si confronta la variabilità dello share utilizzando il coefficiente di variazione. Si procede innanzitutto con il
calcolo delle medie condizionate:

7+7+6+8
𝑆𝐻𝐴𝑅𝐸3 = =7
4

8 + 16 + 10 + 10 + 8
𝑆𝐻𝐴𝑅𝐸6 = = 10.4
5

𝑠89:;<|3 = 0.6667 = 0.8165

2 2 2 2 2
5 8 + 16 + 10 + 10 + 8
𝑠89:;<|6 = − 10.4> = 3.2863
5−1 5

0.8165
𝐶𝑉89:;<|3 = = 0.1166 = 11.66%
7

3.2863
𝐶𝑉89:;<|6 = = 0.3160 = 31.60%
10.4

Dal confronto del CV emerge che lo share è più variabile per le femmine.

ESERCIZIO 2 (punti 8)
Si considerino nuovamente i dati riportati nella tabella relativa all’esercizio precedente.

a) Si costruisca la tabella a doppia entrata tra TITOLO DI STUDIO e GENERE. Il titolo di studio dipende in qualche
modo dal genere? Si risponda utilizzando un opportuno grafico.
b) Quale è la percentuale di uomini (M) con titolo di studio inferiore alla Scuola Media Superiore? E la percentuale
di donne laureate?
c) Definire la situazione di assenza di relazione (indipendenza) in una generica tabella a doppia entrata.
d) La SHARE RETE X si differenzia per TITOLO DI STUDIO? Si verifichi tale affermazione attraverso il calcolo
di opportuni indicatori.

a) Si riporta a seguito la tabella a doppia entrata:


Titolo di Studio
Media Media
Genere inferiore superiore Laurea Totale
F 1 1 3 5
M 2 1 1 4
Totale complessivo 3 2 4 9

Per analizzare la dipendenza tra titolo di studio e genere, è opportuno calcolare le frequenze subordinate per
riga e successivamente rappresentarle attraverso un grafico a barre sovrapposte (o accostate):

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Titolo di Studio
Media Media
Genere inferiore superiore Laurea Totale
F 20% 20% 60% 100%
M 50% 25% 25% 100%

Media inferiore Media superiore Laurea


100%
25%
80%
60%
60% 25%
40%
20% 50%
20%
20%
0%
F M

Dal grafico è evidente come le distribuzioni subordinate del titolo di studio siano diverse nelle due modalità
del genere, in particolare si nota che nelle donne è più alta la percentuale di laureate, rispetto agli uomini. Le
due variabili sembrano quindi essere dipendenti.

b) “percentuale di uomini con titolo di studio inferiore alla scuola media superiore”:

è È possibile interpretare la richiesta sia come frequenza relativa condizionata (e.g. “% di casi con titolo
di studio inferiore alla scuola media superiore tra gli uomini”) oppure come frequenza relativa
congiunta (e.g. “% di casi, sul totale, che sono congiuntamente uomo e hanno un titolo di studio
inferiore alla scuola media superiore”). Entrambe le risposte sono da ritenersi corrette.
>
Nel caso si consideri condizionata, la risposta è = 50%
B
>
Nel caso si consideri congiunta, la risposta è = 22.22%
C

“percentuale di donne laureate”:

è Vale la stessa considerazione fatta per la percentuale precedente.

D
Nel caso si consideri condizionata, la risposta è = 60%
E
D
Nel caso si consideri congiunta, la risposta è = 33.33%
C

c) [Si veda il materiale del corso].

d) È possibile rispondere alla domanda attraverso il confronto delle medie condizionate.

7 + 8 + 10
𝑆𝐻𝐴𝑅𝐸3F = = 8.3333
3
6+8
𝑆𝐻𝐴𝑅𝐸38 = =7
2

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

8 + 7 + 16 + 10
𝑆𝐻𝐴𝑅𝐸G = = 10.25
4

Le medie dello share della rete X sono diverse nelle tre modalità del titolo di studio, le distribuzioni
condizionate sono quindi differenti.

ESERCIZIO 3 (punti 4)
Si vuole studiare la relazione che intercorre tra il numero di anni di studio di spagnolo e il punteggio ottenuto in un test
di conoscenza della lingua. Si valuta il risultato ottenuto da 8 studenti scelti a caso tra i partecipanti al test.

Studente Anni di studio (ANNI) Punteggio (PUNT) ANNI2 PUNT2 ANNI*PUNT


1 3 57 9 3249 171
2 4 78 16 6084 312
3 4 72 16 5184 288
4 2 58 4 3364 116
5 5 89 25 7921 445
6 3 63 9 3969 189
7 4 73 16 5329 292
8 7 84 49 7056 588
Somma 32 574 144 42156 2401
a) Si calcoli la retta di regressione per prevedere il punteggio nel test sulla base degli anni di studio.
b) Si calcoli un opportuno indice di intensità della relazione lineare tra le due variabili e si interpreti il risultato ottenuto.

a) Dopo aver definito Y = “Punteggio” e X = “Anni di studio” è possibile calcolare i coefficienti del modello
lineare come segue:

𝑠JK
𝑏I = ; 𝑏N = 𝑦 − 𝑏I ∙ 𝑥
𝑠J>
In primo luogo si procede al calcolo delle medie campionarie di X e Y:

S
RTI 𝑥R 32
𝑥= = =4
8 8
S
RTI 𝑦R 574
𝑦= = = 71.75
8 8
Quindi è possibile calcolare la covarianza 𝑠JK e la varianza 𝑠J> utilizzando le rispettive formule ridotte:
V
𝑛 RTI 𝑥R∙ 𝑦R 8 2401
𝑠JK = ∙ − 𝑥 ∙ 𝑦 = ∙ − 4 ∙ 71.75 = 15
𝑛−1 𝑛 7 8

V >
𝑛 RTI 𝑥R 8 144
𝑠J> = ∙ − 𝑥> = ∙ − 4> = 2.2857
𝑛−1 𝑛 7 8

Infine si calcolano i coefficienti del modello come segue:

𝑠JK 15
𝑏I = > = 2.2857 = 6.5625
𝑠J

𝑏N = 71.75 − 6.5625 ∙ 4 = 45.5

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

La retta stimata è la seguente:

𝑦 = 45.5 + 6.5625 ∙ 𝑥

b) L’indice più opportuno è l’indice di correlazione lineare.

V >
𝑛 RTI 𝑦R 8 42156
𝑠W> = ∙ − 𝑦> = ∙ − 71.75> = 138.7857
𝑛−1 𝑛 7 8

𝑠YW 15
𝑟= = = 0.8422
𝑠Y 𝑠W 2.2857 ∙ 138.7857

Dall’analisi dell’indice è possibile sostenere che esista una forte relazione lineare positiva tra il punteggio e
gli anni di studio.

ESERCIZIO 4 (punti 6)
Considerando una popolazione X di media µ e varianza s2 si vuole stimare la media della popolazione stessa sulla base
di un campione casuale semplice di ampiezza n = 3. Come stimatori della media della popolazione µ vengono proposti
I D I
la media campionaria e in alternativa lo stimatore 𝑌 = 𝑋I + 𝑋> + 𝑋D .
E E E

a) Si verifichi se lo stimatore Y è non distorto per la media della popolazione.


b) Qual è la l’efficienza relativa della media campionaria rispetto allo stimatore Y proposto?
c) Date n osservazioni campionarie X1, X2, …, Xn estratte da una popolazione arbitraria, cosa si può dire sulla
distribuzione di probabilità della corrispondente media campionaria? Si fornisca una risposta sufficientemente
dettagliata.

a) Si procede al calcolo del valore atteso dello stimatore:

1 3 1 𝜇 3𝜇 𝜇 5𝜇
𝐸 𝑌 = 𝐸 𝑋I + 𝐸 𝑋> + 𝐸 𝑋D = + + = =𝜇
5 5 5 5 5 5 5

Risultando che 𝐸 𝑌 = 𝜇 è possibile sostenere che lo stimatore è NON distorto per la media della
popolazione.

b) Per il calcolo dell’efficienza relativa, si calcola innanzitutto la varianza dello stimatore Y

1 9 1 𝜎 > 9𝜎 > 𝜎 > 11𝜎 >


𝑉𝑎𝑟 𝑌 = 𝑉𝑎𝑟 𝑋I + 𝑉𝑎𝑟 𝑋> + 𝑉𝑎𝑟 𝑋D = + + =
25 25 25 25 25 25 25

E infine calcolando l’efficienza relativa della media campionaria rispetto Y:

11𝜎 >
𝑉𝑎𝑟 𝑌
𝐸𝐹𝐹𝐼𝐶𝐼𝐸𝑁𝑍𝐴 𝑅𝐸𝐿𝐴𝑇𝐼𝑉𝐴 = = 25> = 1.32
𝑉𝑎𝑟(𝑋) 𝜎
3

La varianza di Y supera del 32% quella della media campionaria.

c) [Si veda il materiale del corso].

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO 5 (punti 4)
La probabilità che un determinato virus colpisca una persona in una comunità di 20 persone è pari al 10%.
a) Si determini la distribuzione della variabile aleatoria X = “numero di persone infettate su 20”.
b) Si calcolino il valore atteso e lo scarto quadratico medio di tale distribuzione.
c) Si calcoli la probabilità che nessuna delle 20 persone nella comunità venga infettata.

a) La variabile aleatoria X è di tipo binomiale, specificatamente:

X~Bin(20; 0.1)
b)
𝐸 𝑋 = 𝑛𝑝 = 20 ∙ 0.1 = 2

𝑉𝑎𝑟 𝑋 = 𝑛𝑝 1 − 𝑝 = 20 ∙ 0.1 1 − 0.1 = 1.8 à 𝜎J = 1.8 = 1.3416

c)
20
P X=0 = 0.1N 1 − 0.1 >N
= 1 ∙ 1 ∙ 0.9>N = 0.1216
0

Scaricato da lulu bottasi (carola.capodieci@gmail.com)