Sei sulla pagina 1di 2

MODELLI STATISTICI I

Prova d’esame del 19 settembre 2013


1. Si consideri il modello di regressione lineare multipla
Yi = β0 + β1 xi1 + β2 xi2 + i , i = 1, . . . , 10 ,
con 1 , . . . , 10 variabili casuali indipendenti ed identicamente distribuite con legge
N (0, σ 2 ), xi1 = 0 per i = 1, . . . , 5 e xi1 = 1 altrimenti, xi2 = i per i = 1, . . . , 10.
(a) Si indichino lo spazio parametrico e lo spazio campionario.
(b) Si rappresenti il modello nella forma matriciale Y = Xβ + , specificando Y ,
X, β e la distribuzione di .
(c) Si ottenga β̂, essendo
   
0.65 0.55 −0.15 103
(X T X)−1 =  0.55 1.65 −0.25 
,
T
X y =  73  , y T y = 1307 .
  

−0.15 −0.25 0.05 698

(d) Si fornisca la distribuzione esatta di β̂.


(e) Si fornisca una statistica test, e si dia la sua distribuzione esatta, per verifi-
care l’ipotesi che i due gruppi di osservazioni (prime cinque e seconde cinque)
abbiano un modello di regressione rispetto a x2 con la stessa intercetta.
(f) Verificare l’ipotesi al punto (e).
(g) Sia e = y − X β̂ il vettore dei residui. Si indichi, motivando la risposta, quali
delle affermazioni seguenti risultano vere:
P10 P5 P5 P10
(i) i=1 ei = 0; (ii) i=1 i · ei = 0; (iii) i=1 ei = 0; (iv) i=1 i · ei = 0.
2. L’insieme di dati nel data frame Prestige si riferisce a 98 tipologie di lavori e con-
tiene le seguenti variabili: prestige (prestigio del lavoro nella scala Pineo-Porter),
income (reddito medio), education (livello di istruzione medio in anni), women (per-
centuale di donne), type (categoria di lavoro, diviso in tre modalità: bc - blue collar,
prof - professional, wc - white collar).

(a) Una analisi R ha prodotto il seguente risultato:


lm(formula = prestige ~ income + education + women)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7.524222 ?? ?? 0.018
income 0.001172 0.000272 ?? ??
education 4.362425 0.374972 11.63 < 2e-16
women -0.012946 0.030077 -0.43 ??
...
Residual standard error: 7.48 on ?? degrees of freedom
Multiple R-squared: 0.814,Adjusted R-squared: 0.808
F-statistic: ?? on 3 and 94 DF, p-value: ??
Si scriva il modello statistico corrispondente e si dia l’espressione del modello
stimato.
(b) Si completi l’output di R. Si indichino quali variabili risultano significative. Si
motivi la risposta.
(c)vo Si fornisca la stima di massima verosimiglianza della varianza dell’errore.
(d)vo Per un nuovo modello, che include anche la variabile type si è osservato
Residual standard error: 7.13. Si conduca il test F per confrontare tale
modello con quello stimato al punto (c). Si commentino i risultati.
(e)vo Si completi il seguente risultato in R:
Model 1: prestige ~ income + education + women
Model 2: prestige ~ income + education + women + type
Res.Df RSS Df Sum of Sq F Pr(>F)
1 ?? ??
2 ?? ?? ?? ?? ?? ??

3. L’insieme di dati nel data frame cure si riferisce a 40 pazienti sottoposti a due tipi
di trattamento (type) per una certa malattia. La durata, in giorni, del trattamento
è data dalla variabile days mentre la variabile dicotimica resp indica l’eventuale
guarigione (1 per guarito, 0 altrimenti).

(a) Un modello in R ha fornito il seguente output


> summary(mod1)

Call:
glm(formula = resp ~ days, family = binomial, data = cure)
...
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.0317 0.8854 ?? 0.0218
days 0.3086 0.0996 ?? ??
...
Null deviance: 50.446 on ?? degrees of freedom
Residual deviance: 34.263 on ?? degrees of freedom
AIC: 38.26
Si scriva il modello teorico corrispondente e si dia l’espressione del modello
stimato.
(b) Si completi l’output di R al punto precedente e si dica se la durata del tratta-
mento ha un effetto significativo sulla probabilità di guarigione.
(c) Al modello precedente è stata aggiunta la variabile qualitativa dicotomica type,
ottenendo la seguente devianza residua: Residual deviance: 29.444. Dire
se questo modello migliora significativamente il modello precedente.

Potrebbero piacerti anche