Sei sulla pagina 1di 4

MODELLI STATISTICI I

Prova d’esame del 28 marzo 2013


1. Si consideri il modello di regressione
Yi = β1 + β2 log xi + 2i , i = 1, . . . , 5
e
Yi = β2 log xi + i , i = 6, . . . , 10
con i variabili casuali indipendenti ed identicamente distribuite come una N (0, σ 2 )
e xi = i, i = 1, . . . , 10.

(a) Si scrivano lo spazio campionario e lo spazio parametrico.


(b) Si stabilisca se le assunzioni usualmente adottate in un modello di regressione
lineare normale sono soddisfatte.
(c) Si considerino le variabili casuali Yi∗ = Yi /ci , i = 1, . . . , n. Si determinino le
costanti ci tali che V (Yi∗ ) = σ 2 , i = 1, . . . , n.
(d) Per Y ∗ = (Y1∗ , . . . , Yn∗ ) si scriva il modello nella forma matriciale Y ∗ = X ∗ β +.
(e) Assumendo y = (−0.4, 5.4, 8.6, 2.8, 9.2, 4.1, 3.3, 3.6, 3.8, 3.7), con riferimento al
modello al punto precedente, si ottenga β̂.
(f) Posto e = y − X β̂ il vettore dei residui, si dica - motivando la risposta - quali
delle seguenti identità sono soddisfatte:
10
X 10
X 10
X 5
X
ei = 0 , ei xi = 0 , ei log xi = 0 , ei = 0 .
i=1 i=1 i=1 i=1

(g) Si scriva uno stimatore per β1 + β2 e se ne calcoli la distribuzione esatta.

2. I dati contenuti nel file cemento rappresentano la durezza (Durezzacemento) di


13 diversi impasti di cemento ottenuti miscelando diverse percentuali di alluminio
(Alluminio), silicato (Silicato), alluminio ferrite (Alluminioferrite) e silicato
bicalcico (Silicatobic). Scopo dello studio è spiegare come la durezza del cemento
dipenda dalle variabili considerate.
Un modello di regressione, costruito utilizzando tutte le variabili esplicative, ha
fornito il seguente output.

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 124.4809 26.7557 4.653 0.00164
Alluminio 0.9739 0.2835 3.435 ??
Silicato -0.1405 0.2891 -0.486 0.63996
Alluminioferrite -0.4974 ?? ?? 0.10820
Silicatobic -0.7974 ?? -2.481 0.03805

Residual standard error: 2.484 on ?? degrees of freedom


Multiple R-squared: ??, Adjusted R-squared: 0.9727
F-statistic: 108 on ?? and ?? DF
(a) Si scriva il modello statistico corrispondente e si scrivano i comandi di R
necessari per stimare il modello.
(b) Si completi l’output di R e si dica quali variabili hanno un effetto statisticamente
significativo sulla durezza del cemento.
(c) Si specifichi l’ipotesi statistica relativa all’affermazione: ”Le variabili esplicative
non hanno effetto sulla durezza del cemento”.
(d) Si conduca il test F per verificare l’ipotesi statistica di cui al punto precedente
e si calcoli il livello di significatività osservato del test.
(e)vo Su un modello ridotto, costruito utilizzando solo le variabili Alluminio e
Silicatobic si è osservato un errore standard residuo (Residual standard
error) pari a 2.734. Si conduca il test F per confrontare tale modello con il
modello completo che utilizza tutte le variabili esplicative.
(f)vo Si completi la seguente analisi di R:
Analysis of Variance Table

Model 1: Durezzacemento ~ Alluminio + Silicatobic


Model 2: Durezzacemento ~ Alluminio + Silicato + Alluminioferrite +
Silicatobic
Res.Df RSS Df Sum of Sq F Pr(>F)
1 ?? ??
2 ?? ?? ?? ?? ?? ??

(g)vo Dire quali grafici sono riportati nella Figura 1 e spiegare che informazioni è possibile
trarne.

3. I dati contenuti nel dataframe chdage rappresentano le misurazioni per 100 pazienti di
due variabili: l’età (AGE) espressa in anni e una variabile dicotomica (CHD) che vale 1 se il
paziente presenta significativi disturbi coronarici e 0 altrimenti.
(a) Per studiare la relazione tra la probabilità di presentare significativi disturbi coro-
narici e l’età del soggetto, si è fatto ricorso ad una analisi di R che ha prodotto il
seguente risultato:

> fit=glm(CHD ~ AGE,binomial)


> summary(fit)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.9718 -0.8456 -0.4576 0.8253 2.2859

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06
AGE 0.11092 0.02406 4.610 4.02e-06
Normal Q−Q Plot
1.5

1.5
1.0

1.0
0.5

0.5
Sample Quantiles
0.0

0.0
res

−1.0

−1.0
−2.0

−2.0

80 90 100 110 −1.5 −0.5 0.0 0.5 1.0 1.5

fitted(fit1) Theoretical Quantiles

Figura 1:

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 136.66 on 99 degrees of freedom


Residual deviance: 107.35 on 98 degrees of freedom
AIC: 111.35

> table(CHD,fitted(fit)>0.5)

CHD FALSE TRUE


0 45 12
1 14 29

Si scriva il modello statistico corrispondente e si commentino i risultati ottenuti in


R.

(b) Si conduca il test per confrontare il modello stimato con il modello con la sola
intercetta. Si commentino i risultati.

(c) Per meglio comprendere la natura della relazione tra la probabilità di presentare
significativi disturbi coronarici e l’età del soggetto, l’età è stata suddivisa in due
classi: minore di 50 anni e maggiore o uguale di 50 anni. Si è ottenuto:

> fit1=glm(CHD ~ (AGE<50),binomial)


> summary(fit1)
Call:
glm(formula = CHD ~ (AGE < 50), family = binomial)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.648 -0.779 -0.779 0.771 1.638

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.061 0.387 2.74 0.0061 **
AGE < 50TRUE -2.099 0.479 -4.38 1.2e-05 ***

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 136.66 on 99 degrees of freedom


Residual deviance: 114.61 on 98 degrees of freedom
AIC: 118.6

> table(CHD,fitted(fit1)>0.5)

CHD FALSE TRUE


0 48 9
1 17 26

Si scriva il modello statistico corrispondente e si interpreti il coefficiente angolare


del modello.

(d) Dire, se possibile, quale dei due modelli risulta preferibile tra quelli stimati ai punti
(a) e (c).

Potrebbero piacerti anche