Sei sulla pagina 1di 6

13.02.2015 - 2^ Prova in itinere di STATISTICA per studenti ENE - docente: E.

Piazza

obbligatorio - n. iscrizione sulla lista

se non ve lo ricordate
siete fritti; o no?

il presente elaborato si compone di 4 (quattro) pagine


Cognome

Nome

matr.n.

Avvertimento: nello svolgimento degli esercizi se una quantit indicata con il simbolo x continuare a chiamarla x, e se si chiama W non chiamarla X, e se si chiama ti non chiamarla xi , e se si
n . Se volete scrivere dipendenti non scrivete indipendenti, se dovete
chiama Tn non indicarla con X
sottrarre non sommate. Si fanno troppi errori di distrazione. Mi raccomando: concentrazione.

Si consiglia di lavorare con 3 decimali, arrotondando opportunamente.


c I diritti dautore sono riservati. Ogni sfruttamento commerciale non autorizzato sar p erseguito.

Problema 1. Il Dottor H. vuole inferire sulla durata X di un automa MM. A tal ne registra le durate in
minuti di 111 automi MM indipendenti. I dati raccolti hanno media campionaria e varianza campionaria
s2111 = 4.9902,

x111 = 1.96,

e, relativamente alle classi di seguito introdotte, risultano cos distribuiti

Classi
[0 2)
[2 4)
[4 6)
[6 8)
[8 10)
[10 12)

Frequenze assolute
74
24
5
4
3
1

1.1 Fornire una stima puntuale e una stima intervallare di condenza 0.95 asintotica della durata media
= E[X] di un automa MM.
Stima puntuale: = x111 = 1.96.
Stima intervallare di condenza 0.95 (anche se il campione non proviene da una normale, tuttavia sucientemente numeroso, essendo n = 111 > 40):
s111

t0,025 (110) = 1.96
111

4.9902
1.9818 = 1.96 0.42 = (1.54 , 2.38).
111

Il Dottor H. sospetta che la durata X di un automa MM abbia distribuzione esponenziale.


1.2 Impostare un opportuno test di adattamento per vericare se X abbia distribuzione esponenziale.
Esplicitare le ipotesi statistiche e la regione critica di livello , utilizzabile con i dati a disposizione.
1

H0 : X E, H1 : X E.
La regione critica R dipende dalla scelta delle classi A ed utilizzabile se
n p = 111 P(X A ) > 5 per ogni .
Le probabilit vanno stimate con la distribuzione esponenziale di media = 1.96, ovvero di parametro =
1/ = 0.510204082. Per le classi assegnate si ha
A
[0 , 2)
[2 , 4)
[4 , 6)
[6 , 8)
[8 , 10)
[10 , 12)
[12 , +)

N
74
24
5
4
3
1
0

p
0.6395522114
0.2305251803
0.0830922915
0.0299504327
0.0107955672
0.0038912383
0.0021930786

n p
70.9902954656
25.5882950125
9.2232443512
3.3244980301
1.1983079631
0.4319274554
0.243431722

per cui conviene accorpare le ultime quattro classi


A
[0 , 2)
[2 , 4)
[4 , 6)
[6 , )

N
74
24
5
8

p
0.6395522114
0.2305251803
0.0830922915
0.0468303169

n p
70.9902954656
25.5882950125
9.2232443512
5.1981651706

e utilizzare la corrispondente regione critica


4

R : Q =
=1

(N np )2
> 2 (2).
np

1.3 Calcolare il p-value dei dati raccolti e trarre le dovute conclusioni circa la distribuzione di X.
Il p-value dei dati raccolti la soluzione di
4

2 (2) = Q =
=1

(N np )2
= 3.67
np

Con le tavole
20.5 (2) = 1.39 < 2 (2) = 3.67 < 20.1 (2) = 4.61
0.1 < < 0.5

mentre il valore esatto = 0, 16. Il p-value non particolarmente alto, ma comunque superiore a 0.1.
Pertanto, agli usuali livelli di signicativit, non possiamo riutare H0 e concludiamo che la distribuzione di X
unesponenziale. La conclusione tuttavia debole.
1.4 Fornire una stima puntuale della probabilit che un automa MM duri pi di 12 minuti.
Coerentemente con la conclusione del test stimiamo la probabilit di X > 12 con
P(X > 12) = e12/ = 0.0021930786 = 0.22%.

Problema 2. Il Dottor H. vuole confrontare il carico di rottura M degli elmetti M con il carico di rottura
S degli elmetti S. In particolare vuole capire se si pu aermare, con forte evidenza statistica, che M > S .
Usando uno strumento con errore di misura casuale gaussiano standard (ssata opportunamente lunit di
misura), intende eettuare m misure indipendenti di M , con risultati
X1 , . . . , Xm

campione casuale N (M , 1),

e n misure indipendenti di S , con risultati


Y1 , . . . , Yn

2.1 Impostare un opportuno test statistico per poter rispondere alla domanda del Dottor H. Esplicitare
ipotesi nulla, ipotesi alternativa e regione critica di livello .
1
1
+ z .
m n
2.2 Calcolare la probabilit dellerrore di seconda specie per il test impostato in funzione di d = M S .
H0 : M S 0,

= P Xm Y n <

campione casuale N (S , 1).

1
1
+ z
m n

H1 : M S > 0,

=P

R : X m Y n > +

X m Y n (M S )
1
m

1
n

< z

M S
1
m

1
n

= z

M S
1
m

1
n

2.3 Supponendo m = n e = 0.05, calcolare la minima ampiezza campionaria n capace di rivelare una
dierenza M S = 0.5 con una probabilit di errore del II tipo del 40% al massimo.

S
= z0.05 M
0.4
2
n

z0.05

M S
2
n

z0.6

z0.05 z0.6
1.645 + 0.253
=2
= 28.8
M S
0.5
Alla ne il Dottor H. esegue 49 misure sugli elmetti M e 45 misure sugli elmetti S, ottenendo
n2

x49 = 13.24

y 45 = 13.05,

e i seguenti boxplot

2.4 Calcolare il p-value dei dati raccolti.


Il p-value dei dati raccolti la soluzione di
1
1
+ z
m n

xm = yn +
per cui
z =

2
2

x49 y 45
1
49

1
45

0.19 2205

=
= 0.92
94

= 1 (0.92) = 1 0.821214 = 0.178786.


2.5 Trarre le dovute conclusioni agli usuali livelli di signicativit.
Nonostante x49 > y45 , abbiamo un p-value > 0.1 e quindi non possiamo riutare lipotesi nulla agli usuali livelli
di signicativit: M S
2.6 Se la conclusione fosse sbagliata, avreste commesso un errore del primo o del secondo tipo?
Secondo tipo.

Problema 3. Il dottor H. vuole trovare un buon modello lineare empirico gaussiano che spieghi lenergia
Y consumata al minuto da un automa MM con la sua altezza x1 e la sua larghezza x2 . Raccoglie pertanto i
dati relativi a 21 dierenti automi MM, e li elabora con due regressioni lineari multiple: Y su x1 e x2 (modello
1) e Y su x1 , x2 e x1 x2 (modello 2). Per ciascun modello trovate in allegato lo specchietto riassuntivo della
regressione, alcuni graci dei residui standardizzati, il p-value dei residui standardizzati per il test di normalit
di Shapiro-Wilk.
Modello ridotto

Modello completo

3.1 Scrivere il legame fra le variabili Y , x1 e x2 ipotizzato dai due modelli lineari empirici gaussiani.
Modello 1: Y = 0 + 1 x1 + 2 x2 + dove N (0, 2 ).
Modello 2: Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + dove N (0, 2 ).
3.2 Spiegare quale dei due modelli il migliore spiegando tutti i pro e contro.
migliore il modello 2 in quanto:
( ) decisamente meglio confermata lipotesi gaussiana:
( ) entrambi gli scatterplot dei residui standardizzati sono a nuvola senza struttura, ma il modello 1 avrebbe
ben 9 outlier su 21 dati, mentre il modello 2 non ha outlier
( ) il normal Q-Q plot dei residui standardizzati migliore per il modello 2
5

( ) il p-value di Shapiro-Wilk molto pi alto per il modello 2


( ) maggiore R2corretto (0.9978 per il modello 1, 0.9993 per il modello 2), ovvero minore la stima di 2
Non danno invece indicazioni la signicativit globale della regressione (che la medesima per entrambi i
modelli) e le signicativit dei singoli regressori (che sono tutte ottime per tutti i regressori per entrambi i
modelli).
3.3 Dare una stima puntuale del consumo medio di energia al minuto degli automi MM alti 13 e larghi 8.

E[Y |x1 = 13, x2 = 8] = 0 + 1 x1 + 2 x2 + 3 x1 x2


= 108.34230 + 8.75735 13 + 9.41282 8 + 0.54069 13 8 = 353.722.

3.4 Dare una stima puntuale della variazione media di energia consumata al minuto passando da automi
MM alti 13 e larghi 8 ad automi alti 15 e larghi 8.

E[Y |x1 = 15, x2 = 8] E[Y |x1 = 13, x2 = 8] = 1 (15 13) + 3 (15 13) 8
= 8.75735 2 + 0.54069 2 8 = 25.80.

3.5 Il dottor H. ritiene tuttavia che lintercetta del modello debba valere 50. Stabilire con un opportuno
test di livello 1% se i dati possono confutare tale convinzione. Esplicitare ipotesi statistiche, regione critica e
conclusione.
H0 : 0 = 50,
Per i dati raccolti

H1 : 0 = 50,

R : | 0 50| > se( 0 ) t/2 (n 1).

| 0 50| = 58.3423 > se( 0 ) t0.005 (20) = 10.25250 2.845 = 29.1684


quindi ad un livello dell1% i dati consentono di riutare lipotesi nulla. Pertanto 0 = 50.

Potrebbero piacerti anche