Sei sulla pagina 1di 6

13.02.2015 - 2^ Prova in itinere di STATISTICA per studenti ENE - docente: E. Piazza

obbligatorio - n. iscrizione sulla lista

docente: E. Piazza obbligatorio - n. iscrizione sulla lista s e non ve lo ricordate siete

se non ve lo ricordate siete fritti; o no?

il presente elaborato si compone di 4 (quattro) pagine

Cognome

Avvertimento: nello svolgimento degli esercizi se una quantità è indicata con il simbolo x conti-

nuare a chiamarla x, e se si chiama W non chiamarla X, e se si chiama t i non chiamarla x i , e se si

Nome

matr.n.

¯

¯

chiama T n non indicarla con X n . Se volete scrivere dipendenti non scrivete indipendenti, se dovete

sottrarre non sommate. Si fanno troppi errori di distrazione. Mi raccomando: concentrazione.

––––––––––––––––––––––––––––––––––––––– Si consiglia di lavorare con 3 decimali, arrotondando opportunamente.

c I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.

Problema 1. Il Dottor H. vuole inferire sulla durata X di un automa MM. A tal fine registra le durate in minuti di 111 automi MM indipendenti. I dati raccolti hanno media campionaria e varianza campionaria

x 111 = 1.96,

s 111 2 = 4.9902,

e, relativamente alle classi di seguito introdotte, risultano così distribuiti

Classi

Frequenze assolute

[0 2) [2 4) [4 6) [6 8) [8 10) [10 12)

74

24

5

4

3

1

− 10) [10 − 12) 74 24 5 4 3 1 1.1 Fornire una stima puntuale

1.1 Fornire una stima puntuale e una stima intervallare di confidenza 0.95 asintotica della durata media µ = E[X] di un automa MM.

Stima puntuale: µ = x 111 = 1.96. Stima intervallare di confidenza 0.95 (anche se il campione non proviene da una normale, è tuttavia sufficiente- mente numeroso, essendo n = 111 > 40):

µ

± √ 111 t 0,025 (110) =

111

s

1.96 ± 4.9902

111

1.9818 = 1.96 ± 0.42 = (1.54 , 2.38).

Il Dottor H. sospetta che la durata X di un automa MM abbia distribuzione esponenziale. 1.2 Impostare un opportuno test di adattamento per verificare se X abbia distribuzione esponenziale. Esplicitare le ipotesi statistiche e la regione critica di livello α, utilizzabile con i dati a disposizione.

1

H 0 : X ∼E, H 1 : X E. La regione critica R α dipende dalla scelta delle classi A ed è utilizzabile se

np = 111 · P(X A ) > 5 per ogni .

Le probabilità vanno stimate con la distribuzione esponenziale di media µ = 1.96, ovvero di parametro λ = 1 = 0.510204082. Per le classi assegnate si ha

A

N

p

np

[0 ,

2)

74

0.6395522114

70.9902954656

[2 ,

4)

24

0.2305251803

25.5882950125

[4 ,

6)

5

0.0830922915

9.2232443512

[6 ,

8)

4

0.0299504327

3.3244980301

[8 , 10) [10 , 12) [12 , +)

3

0.0107955672

1.1983079631

1

0.0038912383

0.4319274554

0

0.0021930786

0.243431722

per cui conviene accorpare le ultime quattro classi

A

N

p

np

[0 ,

2)

74

0.6395522114

70.9902954656

[2 ,

4)

24

0.2305251803

25.5882950125

[4 ,

6)

5

0.0830922915

9.2232443512

[6 , )

8

0.0468303169

5.1981651706

e utilizzare la corrispondente regione critica

R α : Q=

4

=1

(N np ) 2

np

2

α (2).

1.3 Calcolare il p-value dei dati raccolti e trarre le dovute conclusioni circa la distribuzione di X. Il p-value dei dati raccolti è la soluzione α di

2

χ α (2) = Q =

4

=1

(N np ) 2

np

= 3.67

Con le tavole

χ 0.5 (2) = 1.39 < χ α (2) = 3.67 < χ 0.1 (2) = 4.61

0.1<α<0.5

mentre il valore esatto è α = 0, 16. Il p-value non è particolarmente alto, ma comunque superiore a 0.1. Pertanto, agli usuali livelli di significatività, non possiamo rifiutare H 0 e concludiamo che la distribuzione di X

è un’esponenziale. La conclusione tuttavia è debole. 1.4 Fornire una stima puntuale della probabilità che un automa MM duri più di 12 minuti. Coerentemente con la conclusione del test stimiamo la probabilità di X > 12 con

2

2

2

P(X > 12) = e 12/µ = 0.0021930786 = 0.22%.

2

Problema 2. Il Dottor H. vuole confrontare il carico di rottura µ M degli elmetti M con il carico di rottura µ S degli elmetti S. In particolare vuole capire se si può affermare, con forte evidenza statistica, che µ M S . Usando uno strumento con errore di misura casuale gaussiano standard (fissata opportunamente l’unità di misura), intende effettuare m misure indipendenti di µ M , con risultati

X

1 ,

,X

m

e n misure indipendenti di µ S , con risultati

,Y

Y 1 ,

n

campione casuale N (µ M , 1),

campione casuale N (µ S , 1).

2.1 Impostare un opportuno test statistico per poter rispondere alla domanda del Dottor H. Esplicitare

ipotesi nulla, ipotesi alternativa e regione critica di livello α.

H 0 : µ M µ S 0,

H 1 : µ M µ S >0,

R α : X m Y n >+

1 1

m +

n z α .

2.2 Calcolare la probabilità β dell’errore di seconda specie per il test impostato in funzione di d = µ M µ S .

β

=P X m Y n <

1

m +

n z α =P

1

X m Y n

(µ M µ S )

1

m +

1

n

<z α µ M µ S   z α µ M µ S

1

m +

1

n

1

m +

1

n

2.3 Supponendo m = n e α = 0.05, calcolare la minima ampiezza campionaria n capace di rivelare una

differenza µ M µ S = 0.5 con una probabilità di errore del II tipo del 40% al massimo.

β

z 0.05 µ M µ S

2

n

0.4

z 0.05 µ M µ S z 0.6

2

n

n2 z 0.05 z 0.6 µ M µ S

2 =2 1.645 + 0.253

0.5

2

= 28.8

Alla fine il Dottor H. esegue 49 misure sugli elmetti M e 45 misure sugli elmetti S, ottenendo

e i seguenti boxplot

x 49 = 13.24

y 45 = 13.05,

elmetti M e 45 misure sugli elmetti S , ottenendo e i seguenti boxplot x 4

3

2.4

Calcolare il p-value dei dati raccolti.

Il p-value dei dati raccolti è la soluzione α di

per cui

x m =y n + 1

1

m + n z α

z α = x 49 y 45

49 + 45

1

1

= 0.19 2205

94

= 0.92

α = 1 Φ(0.92) = 1 0.821214 = 0.178786.

2.5 Trarre le dovute conclusioni agli usuali livelli di significatività.

Nonostante

di significatività: µ M µ S

x 49 >y 45 , abbiamo un p-value > 0.1 e quindi non possiamo rifiutare l’ipotesi nulla agli usuali livelli

2.6 Se la conclusione fosse sbagliata, avreste commesso un errore del primo o del secondo tipo?

Secondo tipo.

4

Problema 3. Il dottor H. vuole trovare un buon modello lineare empirico gaussiano che spieghi l’energia Y consumata al minuto da un automa MM con la sua altezza x 1 e la sua larghezza x 2 . Raccoglie pertanto i dati relativi a 21 differenti automi MM, e li elabora con due regressioni lineari multiple: Y su x 1 e x 2 (modello 1) e Y su x 1 , x 2 e x 1 x 2 (modello 2). Per ciascun modello trovate in allegato lo specchietto riassuntivo della

regressione, alcuni grafici dei residui standardizzati, il p-value dei residui standardizzati per il test di normalità

di Shapiro-Wilk.

Modello ridotto

per il test di normalità di Shapiro-Wilk. Modello ridotto Modello completo 3.1 Scrivere il legame fra

Modello completo

normalità di Shapiro-Wilk. Modello ridotto Modello completo 3.1 Scrivere il legame fra le variabili Y ,

3.1 Scrivere il legame fra le variabili Y , x 1 e x 2 ipotizzato dai due modelli lineari empirici gaussiani.

Modello

1:

Y =

β 0 +β 1 x 1 +β 2 x 2 + ǫ dove ǫ

N (0, σ 2 ).

Modello

2:

Y =

β 0 +β 1 x 1 +β 2 x 2 +β 3 x 1 x 2

+ ǫ dove ǫ N (0, σ 2 ).

3.2 Spiegare quale dei due modelli è il migliore spiegando tutti i pro e contro.

È migliore il modello 2 in quanto:

( ) è decisamente meglio confermata l’ipotesi gaussiana:

( ) entrambi gli scatterplot dei residui standardizzati sono a nuvola senza struttura, ma il modello 1 avrebbe ben 9 outlier su 21 dati, mentre il modello 2 non ha outlier ( ) il normal Q-Q plot dei residui standardizzati è migliore per il modello 2

5

( ) il p-value di Shapiro-Wilk è molto più alto per il modello 2 ( ) è maggiore R corretto (0.9978 per il modello 1, 0.9993 per il modello 2), ovvero è minore la stima di σ 2 Non danno invece indicazioni la significatività globale della regressione (che è la medesima per entrambi i modelli) e le significatività dei singoli regressori (che sono tutte ottime per tutti i regressori per entrambi i modelli).

2

3.3 Dare una stima puntuale del consumo medio di energia al minuto degli automi MM alti 13 e larghi 8.

E[Y|x 1 = 13, x 2 = 8] = β 0 + β 1 x 1

2 x 2 + β 3 x 1 x 2

+ β

= 108.34230 + 8.75735 · 13 + 9.41282 · 8 + 0.54069 · 13 · 8 = 353.722.

3.4 Dare una stima puntuale della variazione media di energia consumata al minuto passando da automi

MM alti 13 e larghi 8 ad automi alti 15 e larghi 8.

E[Y|x 1 = 15, x 2 = 8] E[Y|x 1 = 13, x 2 = 8] = β

1 · (15 13) + β 3 · (15 13) · 8

= 8.75735 · 2 + 0.54069 · 2 · 8 = 25.80.

3.5 Il dottor H. ritiene tuttavia che l’intercetta del modello debba valere 50. Stabilire con un opportuno

test di livello 1% se i dati possono confutare tale convinzione. Esplicitare ipotesi statistiche, regione critica e conclusione.

Per i dati raccolti

H 0 : β 0 = 50, H 1 : β 0 = 50, R α : | β

0 50| > se( β 0 )t α/2 (n 1).

| β 0 50| = 58.3423 > se( β 0 )t 0.005 (20) = 10.25250 · 2.845 = 29.1684

quindi ad un livello dell’1% i dati consentono di rifiutare l’ipotesi nulla. Pertanto β 0 = 50.

6