Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
I MODELLI LINEARI
GENERALI E GENERALIZZATI
2014
Indice
1 Regressione lineare
1.1 Aspetti geometrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Interpretazione vettoriale nello spazio delle osservazioni . . . . . . .
1.1.2 Minimizzazione dellerrore di approssimazione . . . . . . . . . . . . . . .
1.1.3 Interpretazione vettoriale nello spazio delle variabili . . . . . . . . . .
1.1.4 Proiettore sullo spazio generato dalle colonne di X . . . . . . . . . . .
1.1.5 Decomposizione della varianza e indice R2 . . . . . . . . . . . . . . . . . .
1.1.6 La regressione lineare multivariata . . . . . . . . . . . . . . . . . . . . . . . .
1.1.7 Il grafico dei residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 La regressione lineare su un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Condizioni su media e varianza dei residui . . . . . . . . . . . . . . . . . .
1.2.2 Residui con legge normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Intervalli di confidenza per k e (xi )t . Residui standardizzati .
1.2.4 Test di ipotesi per il modello lineare . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Predittore del valore atteso e della risposta . . . . . . . . . . . . . . . . .
1.2.6 Stimatori di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . .
1
1
2
2
4
5
5
7
8
12
12
15
17
20
33
37
39
39
41
43
46
47
48
49
53
54
55
Indice
II
55
57
60
60
61
62
63
65
69
69
69
74
77
77
79
80
80
86
93
94
96
97
99
104
107
107
111
112
112
112
113
113
114
120
123
124
125
126
127
131
Bibliografia
149
2.4
2.5
2.6
2.3.3
Analisi
2.4.1
Analisi
2.5.1
2.5.2
2.5.3
Analisi
Capitolo 1
Regressione lineare
1.1
Aspetti geometrici
Indichiamo con y e x1 , . . . ,xp1 i vettori colonna contenti rilevazioni statistiche quantitative su n unit`a sperimentali. Si vuol stabilire se la variabile y `e esprimibile come
combinazione lineare di x1 , . . . ,xp1 pi`
u un residuo. Le variabili x1 , . . . ,xp1 vengono
dette variabili esplicative e la variabile y viene detta variabile risposta.
In termini di ciascuna unit`a sperimentale, ci`o significa:
yi = 0 + 1 xi1 + 2 xi2 + + p1 xi
p1
+ i
per i = 1, . . . ,n ,
e in forma vettoriale:
y = 0 + x1 1 + . . . + xp1 p1 +
dove con si `e indicato il vettore (1 , . . . ,n )t .
Sia X la matrice di dimensione n p che ha come colonne i vettori 1,x1 , . . . ,xp1 , dove
1 `e un vettore di dimensione n con tutti 1. Sia = (0 ,1 , . . . ,p1 )t .
Allora il modello si scrive come:
y =X +
y1
yi
yn
y
1
1
1
1
1
1
1
1
1
x1
x11
x2
x12
xp1
x1 p1
1
0
1
xi1
xi2
xi
p1
p1
xn1
xn2
xn
p1
Osserviamo che il modello viene detto lineare perche i coefficienti compaiono come termini lineari; la linearit`a delle relazioni in rapporto ai coefficienti pu`o essere
1
Regressione lineare
p1
per i = 1, . . . ,n
Con motivazioni che vedremo nel prossimo paragrafo, la funzione degli errori che si
minimizza `e la somma dei quadrati dei residui di ogni unit`a sperimentale:
SS (0 ,1 , . . . ,p1 ) =
n
X
2i
i=1
n
X
p1 )
i=1
Di seguito `e riportato un esempio in cui il modello comprende una sola variabile esplicativa. In questo caso si parla di modello di regressione semplice:
y = 0 + 1 x + .
y
60
Un punto rappresenta una unit`a sperimentale e le sue coordinate (xi ,yi ) sono i valori
delle variabili x e y per quella unit`a. I valori
b0 +b1 xi , che appartengono alla retta indicata, sono la migliore approssimazione lineare
di yi tramite xi . Con (b0 ,b1 ) si sono infatti indicati i valori di (0 ,1 ) che rendono minima
la somma dei quadrati degli errori. Lerrore
minimo `e indicato con ei :
ei = yi b0 b1 xi .
1.1.2
50
40
(x
(xii,, b01+xxi +
i b 1)
2)
30
20
((xxii,,yyi i))
x
0
10
20
30
40
Come gi`a detto, si vuole fare in modo che lerrore di approssimazione della variabile risposta tramite le variabili esplicative sia minimo. Si cercano allora quei valori (b0 ,b1 , . . . ,bp1 )
di (0 ,1 , . . . ,p1 ) che minimizzano la funzione SS (0 ,1 , . . . ,p1 ). Vedremo linterpretazione geometrica di questa scelta nel prossimo paragrafo. Ricaviamo qui i valori in
modo analitico, ponendo uguali a 0 le e p derivate parziali di SS (0 ,1 , . . . ,p1 ) rispetto
a 0 ,1 , . . . ,p1 .
1.1
Aspetti geometrici
n
X
(ei = yi b0 b1 xi )2
i=1
n
X
xi (yi 0 1 xi ) = 0 e
i=1
n
X
(yi 0 1 xi ) = 0
i=1
i=1
i=1
i=1
e b1 =
cov(x,y)
V(x)
Regressione lineare
Vediamo a che cosa corrisponde, da un punto di vista geometrico nello spazio delle
colonne, la minimizzazione della funzione SS (), cio`e la minimizzazione della somma
dei quadrati dei residui.
Consideriamo anzitutto il caso della regressione lineare semplice:
y = X + = 0 1 + 1 x1 +
I vettori (0 1 + 1 x1 ), al variare della coppia (0 ,1 ), appartengono a un piano, che
indicheremo con V , generato appunto dai due vettori 1 e x1 .
Il vettore `e il vettore differenza fra il vettore y e il generico vettore X e il quadrato
della sua lunghezza `e SS (0 ,1 ). La lunghezza del vettore `e minima per la coppia di
valori (b0 ,b1 ). Indichiamo con:
- b il vettore (b0 ,b1 ),
il vettore Xb, cio`e il vettore b0 1 + b1 x1 ,
- y
- e il vettore y Xb.
Quindi il vettore Xb dello spazio V che corrisponde alla minima lunghezza di `e il punto
di minima distanza di y da V , cio`e `e la proiezione ortogonale di y su tale spazio.
Interpretazione geometrica in R3 .
Se x1 e y sono due vettori di R3 , la figura a
fianco illustra quanto spiegato sopra: in questo
caso V `e un piano di R3 .
Utilizzeremo comunque la figura a lato per
visualizzare la situazione anche se i vettori
considerati appartengono a Rn .
Xb
Xb
1.1
1.1.4
Aspetti geometrici
295
295
Analysis of Variance
Source
Model
Error
Corrected Total
Root MSE
Dependent Mean
Coeff Var
1.1.5
DF
1
293
294
8.10615
76.65583
10.57474
Sum of
Squares
138748
19253
158001
R-Square
Adj R-Sq
Mean
Square
138748
65.70974
0.8781
0.8777
Regressione lineare
y
y - ^y
Error
y-y
Total
^
y
1
y
^
y-y
Model
Nella colonna Sum of Squares si possono leggere i quadrati delle lunghezze dei vettori
y
y, e e y y. Per il teorema di Pitagora, il quadrato della lunghezza di y y `e la
somma dei quadrati delle lunghezze di y y
ey
y.
Nella colonna DF (Degree of Freedom) si leggono le dimensioni degli spazi in cui si
trovano i tre vettori. Il vettore y ha dimensione n, il vettore y ha dimensione 1, lo spazio
vettoriale V ha dimensione p; quindi:
- il vettore y
y appartiene a uno spazio di dimensione p 1,
- il vettore e appartiene a uno spazio di dimensione n p,
- il vettore y y appartiene a uno spazio di dimensione n 1.
Un indice che permette di valutare ladeguatezza del modello `e il coefficiente R2 , che
nelloutput `e indicato con R-sq e si trova prima della tabella Analysis of Variance.
Tale indice ha due possibili interpretazione equivalenti.
La prima consiste nel considerarlo come rapporto fra la varianza dellapprossimazione
lineare y
e la varianza della variabile risposta y (o meglio il rapporto fra i numeratori di
tali varianze).
Il numeratore della varianza di y `e il quadrato della lunghezza di y y.
Il numeratore della varianza di y
`e il quadrato della lunghezza di y
y; infatti il
valore medio di y
`e y:
n
1X
1
1
1
1
1
= 1t Xb = 1t PV y = yt PV 1 = yt 1 = y .
y
=
yi = 1t y
n i=1
n
n
n
n
n
Quindi il rapporto fra le due varianze (a meno di una costante) `e il rapporto fra le due
quantit`a SS(Model) e SS(Total):
R2 =
SS(M odel)
SS(Error)
k
y yk2
kek2
=1
=
=
1
.
SS(T otal)
SS(T otal)
ky yk2
ky yk2
Un altro indice che viene usato per valutare la bont`a del modello `e lindice R2 adjusted,
che `e costruito dal precedente, considerando anche i gradi di libert`a:
R2 -adj = 1
kek2 /(n p)
ky yk2 /(n 1)
1.1
Aspetti geometrici
Il coefficiente R2 pu`o essere interpretato anche come il quadrato del coefficiente di correlazione fra la variabile risposta y e la sua
approssimazione lineare y
:
y-y
R2 = 2 (y,
y)
^
y
k
yyk
infatti il rapporto kyyk
e il quadrato del
2 `
y, che
coseno fra i vettori y y e y
corrisponde a 2 (y,
y).
1
y
^y - y
Nei casi in cui il modello comprende una sola variabile esplicativa R2 `e il quadrato del
coefficiente di correlazione fra la variabile risposta y e la variabile x.
Modello senza costante
Le interpretazioni vettoriali della decomposizione della varianza e del coefficiente R2
valgono quando il modello ha anche la costante, cio`e quando la matrice X ha una colonna
con gli elementi tutti uguali a 1.
Infatti nel modello senza costante il vettore y non appartiene a V . Quindi langolo
u retto; inoltre il valore medio di y
non `e y e quindi
fra i vettori e e y
y non `e pi`
linterpretazione del coefficiente R2 come rapporto di varianze non vale pi`
u.
1.1.6
Nella regressione multivariata le variabili risposta sono y1 , . . . ,yr , ciascuna delle quali
dipende dalle stesse variabili esplicative. Indichiamo con j il vettore p-dimensionale dei
coefficienti relativi alla variabile yj e con j i corrispondenti residui, per j = 1, . . . ,q. Il
modello per ogni variabile risposta `e:
y j = X j + j
per j = 1, . . . ,r
Indicando con Y la matrice con colonne y1 , . . . ,yr , con B la matrice con colonne
, . . . , r e con la matrice con colonne 1 , . . . ,r , il modello diventa:
1
Y = X +
y1
y11
...
yi1
yr
y1r
yir
yni
ynr
Y
1
1
1
1
1
1
1
1
1
x1
x11
xi1
xp1
x1p1
xip1
...
1
i1
01
11
+
...
r
r1
1i
ri
1n
rn
1
p1
xn1
xnp1
X
Regressione lineare
y1
Linterpretazione geometrica dellapprossimazione lineare nel modello multivariato non
cambia rispetto al caso precedente; infatti lo
spazio vettoriale V rimane lo stesso per ciascun modello e non intervengono eventuali
correlazioni fra le variabili risposta.
y2
e1
e2
Xb1
Xb2
V
La differenza sostanziale fra la regressione multivariata e quella a risposta univariata
che rende la prima pi`
u complicata della seconda si evidenzia quando si prendono in
considerazione gli aspetti inferenziali, che affronteremo in seguito, con test sui coefficienti
coinvolgono le correlazioni fra y 1 , . . . ,y q .
1.1.7
Un metodo grafico molto utile per verificare la bont`a del modello `e quello di analizzare
il grafico dei grafico dei residui rispetto ai valori predetti. Se si ottiene una nuvola
omogenea di punti intorno alla retta orizzontale che passa per lorigine allora vuol dire i
residui non presentano ulteriori caratteristiche da modellare.
Esempio B Riprendiamo lEsempio A relativo alla descrizione dellaltezza di alcuni
esemplari di pioppi in funzione del diametro. Qui sotto sono riportati il grafico di
dispersione con la retta di regressione e il corrispondente grafico dei residui.
1.1
Aspetti geometrici
Esempio C Si vuole stabilire se esiste una dipendenza fra il flusso di un corso dacqua
(cio`e la quantit`a di acqua che passa in un dato punto in un determinato intervallo di
tempo) e la profondit`a del corso dacqua. I dati e il diagramma di dispersione sono i
seguenti:
ROW
profond
flusso
1
2
3
4
5
6
7
8
9
10
0.34
0.29
0.28
0.42
0.29
0.41
0.76
0.73
0.46
0.40
0.636
0.319
0.734
1.327
0.487
0.924
7.350
5.890
1.979
1.124
Si pu`o gi`a intravedere che la dipendenza lineare non `e marcata; questo si osserva
ancora meglio tramite il grafico dei residui di un modello in cui si `e supposta una
dipendenza lineare. Degli output delle regressioni seguenti sono riportate solo le parti
relative alla statistica descrittiva.
Modello 1: y = 0 + 1 x +
Analysis of Variance
DF
1
8
9
Sum of
Squares
51.73860
2.91341
54.65201
Root MSE
Dependent Mean
Coeff Var
0.60347
2.07700
29.05490
Source
Model
Error
Corrected Total
Obs
1
2
3
4
5
6
7
8
9
10
Dependent Predicted
Variable Value Residual
0.6360 0.7213
0.3190 0.0296
0.7340 -0.1087
1.3270 1.8280
0.4870 0.0296
0.9240 1.6897
7.3500 6.5314
5.8900 6.1164
1.9790 2.3813
1.1240 1.5513
-0.0853
0.2894
0.8427
-0.5010
0.4574
-0.7657
0.8186
-0.2264
-0.4023
-0.4273
Mean
Square
51.73860
0.36418
R-Square
Adj R-Sq
F Value
142.07
0.9467
0.9400
Pr > F
<.0001
10
Regressione lineare
Modello 2: y = 0 + 1 x + 2 x2 +
I dati e il precedente grafico dei residui
possono indurre a supporre una dipendenza quadratica; si pu`o quindi costruire un modello polinomiale del secondo
ordine in cui le variabili esplicative sono due, x e x2 . Il grafico dei residui `e
riportato a fianco.
Il grafico dei residui della regressione polinomiale del secondo ordine presenta gi`a
un andamento migliore ma si possono provare altri modelli ad esempio:
y = 0 + 1 x +
oppure
log(y) = 0 + 1 log(x) +
Il primo di questi due modelli `e del tutto simile al modello 2, mentre il secondo
`e motivato dal fatto che i due valori con il flusso e la profondit`a pi`
u alti sono quelli
che si discostano maggiormente dalla linearit`a rispetto agli altri dati e il logaritmo
schiaccia i valori pi`
u alti.
Analizziamo i risultati nei due casi.
Modello 3: y = 0 + 1 x +
Di seguito sono riportati il diagramma di dispersione in cui la variabile risposta `e stata
trasformata tramite la radice quadrata e il grafico dei residui del modello.
1.1
Aspetti geometrici
11
I grafici dei residui dei modelli 3 e 4 sono migliori di quello del modello 1; sar`a
poi la conoscenza del problema specifico che far`a decidere quale dei due modelli `e pi`
u
opportuno.
Il grafico dei residui `e molto pi`
u significativo del coefficiente R2 nella determinazione
di un buon modello di regressione lineare. Vediamo un esempio in cui il coefficiente
R2 `e alto ma in cui il grafico dei residui segnale linadeguatezza del modello.
Esempio D Consideriamo alcuni dati relativi a due specie di pesci di un lago finlandese (Laengelmavesi) vicino a Tampere, labramide e il pesce persico. Si vuole
esprimere il peso in funzione della lunghezza standard (lunghezza naso inizio coda),
dellaltezza e dello spessore. Si effettua una regressione lineare per ciascuna delle due
specie.
I risultati sono i seguenti. A sinistra labramide e a destra il pesce persico. In
entrambi i casi lindice R2 `e elevato: 0. 9405 per labramide e 0. 9600 per il pesce
persico, ma nel secondo caso il grafico dei residui non `e una nuvola di punti omogenea
intorno allorigine ma presenta un andamento; questo `e indice che per la specie pesce
persico il modello non `e adeguato.
12
1.2
Regressione lineare
Nel capitolo precedente non abbiamo fatto nessuna ipotesi sul fatto che i valori di y
fossero realizzazioni campionarie di una qualche variabile aleatoria. Introducendo ipotesi
di questo tipo possiamo calcolare intervalli di confidenza ed effettuare test relativi ai parametri . Questo permette - tra laltro - di stabilire se le variabili esplicative introdotte
nel modello siano effettivamente tutte utili per lapprossimazione della variabile risposta.
1.2.1
Supponiamo che i residui siano leffetto risultante di un gran numero di cause non identificate, quindi siano una perturbazione aleatoria; allora Y diventa un vettore aleatorio
di cui si osservano alcune realizzazioni y.
Pi`
u precisamente supponiamo che ciascun residuo i sia una variabile aleatoria con
media 0 e varianza 2 costante e che inoltre che la correlazione fra due variabili aleatorie
residui sia nulla, cio`e cov(i ,j ) = 0 se i 6= j.
Quindi, in forma vettoriale:
E() = 0n
cov() = 2 In
e, in forma vettoriale:
E(Y) = X
cov(Y) = 2 In
Il vettore Y non `e quindi un campione di una stessa variabile aleatoria in quanto i valori
attesi di ciascuna Yi sono diversi.
Nei casi reali vi sono alcuni problemi relativi alle ipotesi fatte. Ipotizzando che la
varianza della variabile risposta sia costante non si ammettono fenomeni di eteroschedasticit`a, mentre in alcune situazioni pu`o essere realistico supporre che ci sia dispersione
maggiore attorno a valori di Yi maggiori. Ipotizzando che la covarianza fra i residui sia
nulla non si ammette il caso, ad esempio, di osservazioni cronologiche, in cui, raramente,
si pu`o fare lipotesi di correlazione nulla fra le variabili a due tempi successivi (fenomeno
di autocorrelazione). Questi casi si analizzano con altri metodi statistici che qui non
consideriamo.
Osserviamo che solo il vettore Y `e considerato aleatorio, mentre le variabili x1 , . . . ,xp1
sono considerate deterministiche.
Effettuando le stime dei coefficienti con il metodo dei minimi quadrati, cos` come `e
stato descritto nel Capitolo 1.1, si ha che:
1. la stima dei coefficienti del modello `e b = (Xt X)1 Xt y
o con Xb, `e X (Xt X)1 Xt y
2. la stima dei valori attesi E(Y), indicata con y
1.2
13
3. la stima dei residui, cioe della differenza fra valori osservati e i valori stimati, e, cio`e
, `e e = (I X (Xt X)1 Xt ) y.
yy
Tutte queste stime risultano combinazioni lineari dei valori del vettore y, con y =
(y1 ,y2 , . . . ,yn )t . Quindi sono realizzazioni di variabili aleatorie, in quanto combinazioni
lineari di realizzazioni delle variabili aleatorie Y1 ,Y2 , . . . ,Yn .
e E i corrispondenti stimatori e elenchiamo
Indichiamo rispettivamente con B, Y
alcune loro propriet`a. Osserviamo che questi sono vettori di stimatori di dimensione,
rispettivamente, p, n e n; quindi i loro valori attesi dei tre stimatori sono vettori e le loro
e
matrici di varianza/covarianza sono matrici quadrate, che indichiamo con V(B), V(Y)
V(E).
1. Stimatore B dei coefficienti :
- E(B) = e in particolare E(Bk ) = k ; quindi sono non distorti
- V(B) = 2 (Xt X)1
- ogni altro stimatore lineare non distorto ha una varianza pi`
u grande di Bk .
(o XB) dei valori attesi delle variabili risposta X:
2. Stimatore Y
= X e in particolare E Yi = (xi )t ; quindi sono non distorti
- E(Y)
= 2 (X (Xt X)1 Xt )
- V(Y)
3. Stimatore E dei residui :
- E(E) = 0
- V(E) = 2 (I X (Xt X)1 Xt )
Dimostrazioni relative alle matrici di varianza-covarianza
Per dimostrare le relazioni precedenti premettiamo prima il calcolo della matrice di matrice di varianza covarianza di un vettore aleatorio Y = (X1 , . . . ,Xp )t di valore atteso
E(Y ) = = (1 , . . . ,p ). La matrice di varianza covarianza di Y `e:
V(Y ) = E (Y ) (Y )t = E Y Y t Y t Y t + t =
= E Y Y t E Y t E Y t + t =
= E Y Y t t t + t = E Y Y t t
1. Matrice di varianza covarianza degli stimatori B dei coefficienti . Si ha:
E(B) =
V(B) = E BB t t = E (X t X)1 X t Y Y t X(X t X)1 t =
= (X t X)1 X t E Y Y t X(X t X)1 t
Essendo V(Y ) = E Y Y t X t X t = 2 I, si ha:
V(B) = (X t X)1 X t 2 I + X t X t X(X t X)1 t =
= 2 (X t X)1
14
Regressione lineare
1 X 2
S =
E
n p i=1 i
2
295
295
1.2
DF
Analysis of Variance
Sum of
Squares
1
293
294
138748
19253
158001
Root MSE
Dependent Mean
Coeff Var
8.10615
76.65583
10.57474
Source
Model
Error
Corrected Total
15
Mean
Square
138748
65.70974
R-Square
Adj R-Sq
F Value
Pr > F
2111.53
<.0001
0.8781
0.8777
Parameter Estimates
Variable
Intercept
Diametro
DF
1
1
Parameter
Estimate
14.00115
12.76450
Standard
Error
1.44287
0.27778
t Value
9.70
45.95
Pr > |t|
<.0001
<.0001
In molte situazioni concrete `e ragionevole modellare i residui con una variabile aleatoria
con legge normale. Se la variabile aleatoria Y `e quantitativa e assume valori su tutto
lintervallo reale, lipotesi di normalit`a dei residui pu`o essere giustificata dal considerarli
come il risultato della somma di pi`
u variabili aleatorie non specificate nel modello e
quindi con legge tendente alla legge normale.
Quindi alle assunzioni precedenti su valore atteso e varianza/covarianza:
E() = 0n
V() = 2 In
V(Y) = 2 In
Dalle assunzioni sulla legge dei residui si possono dedurre le leggi degli stimatori B,
e E. Per trovare tali leggi utilizziamo un teorema di Teorema di Cochran di cui
Y
riportiamo qui di seguito una versione e la sua dimostrazione.
Teorema di Cochran
Sia X = (X1 , . . . ,Xn ) un campione di legge N (0, 2 ).
a) Le componenti di X in ogni base ortonormale di Rn formano un n-campione di
legge N (0, 2 ). Pi`
u precisamente se H `e la matrice di dimensione n n con colonne
16
Regressione lineare
V(XEj ) = 2 Hj Htj
hanno legge
2[rj ]
per 1 j s
Dimostrazione
a) Si ha Ht H = In . Inoltre il valore atteso e la matrice di varianza covarianza di Ht X
sono:
E(Ht X) = Ht E(X) = 0n
V(Ht X) = Ht E XXt H = 2 In
b) Il proiettore ortogonale sullo spazio Ej `e: PEj = Hj Htj Hj
1
1.2
17
y
PV
y^
PV
ha legge 2[np]
Inoltre:
e E appartengono a spazi ortogonali e hanno legge normale; per
a) I vettori aleatori Y
cui sono indipendenti.
= X(Xt X)1 X Y e B = (Xt X)1 Xt Y.
Quindi lo sono anche B e E; infatti Y
E lo sono anche B e kEk2 .
b) Ciascuna variabile aleatoria Bk , elemento k-esimo del vettore aleatorio B ha legge
N (k , 2 vk2 ), con vk2 elemento diagonale della matrice (Xt X)1
Per cui, essendo S 2 =
kEk2
,
np
Bk k
vk
S
la variabile aleatoria:
ovvero
Bk k
S vk
ha legge t2[np]
Bk t Sk ,Bk + t Sk
18
Regressione lineare
indicato il termine i-esimo della diagonale della matrice X (Xt X)1 Xt moltiplicato
per S 2 . Quindi la variabile aleatoria
Yi (xi )t
Si?
ha legge t di Student con n p gradi di libert`a.
Sostituendo i valori campionari bk e sk , yi e s?i si ottengono le realizzazioni campionaria
di tali intervalli.
Dai risultati precedenti segue che le variabili aleatorie
Ei /Si??
2
hanno legge t di Student a n p gradi di libert`a; ricordiamo che con (s??
i ) abbiamo
indicato il termine i-esimo della diagonale della matrice I X (Xt X)1 Xt moltiplicata
per S 2 .
I software statistici forniscono spesso i cosiddetti residui standardizzati o studentizzati (studentized residual) che sono le quantit`a
ei /s??
i
In genere il grafico dei residui viene fatto utilizzando queste quantit`a perche sono depurate dalle deviazioni standard e quindi meglio confrontabili fra loro.
Esempio F
Si vuole stabilire se il consumo di ossigeno da parte di atleti che praticano sport
di fondo `e esprimibile come combinazione lineare di variabili esplicative facilmente
rilevabili anche sul campo.
Le variabili esplicative considerate sono:
-
1.2
19
Analysis of Variance
Source
Model
Error
Corrected Total
Sum of
Squares
722.54361
128.83794
851.38154
DF
6
24
30
Root MSE
Dependent Mean
Coeff Var
2.31695
47.37581
4.89057
Mean
Square
120.42393
5.36825
R-Square
Adj R-Sq
F Value
22.43
Pr > F
<.0001
0.8487
0.8108
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
1
1
1
1
1
1
1
102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322
12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650
8.30
-2.27
-1.36
-6.84
-3.08
-0.33
2.22
<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
77.33541
-0.43303
-0.18685
-3.42235
-0.61699
-0.15786
0.02150
128.53355
-0.02092
0.03850
-1.83496
-0.12226
0.11480
0.58493
Correlation of Estimates
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
Intercept
1.0000
-0.7285
-0.2632
0.1610
0.1889
-0.1806
-0.4919
Age
-0.7285
1.0000
0.1875
-0.3696
-0.1006
0.2259
0.2629
Weight
-0.2632
0.1875
1.0000
-0.2104
0.1474
0.1054
-0.1842
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
RunPulse
0.1889
-0.1006
0.1474
-0.1963
1.0000
-0.0966
-0.9140
RestPulse
-0.1806
0.2259
0.1054
-0.4297
-0.0966
1.0000
0.0380
MaxPulse
-0.4919
0.2629
-0.1842
0.0881
-0.9140
0.0380
1.0000
RunTime
0.1610
-0.3696
-0.2104
1.0000
-0.1963
-0.4297
0.0881
20
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
44.4799
48.1954
56.1519
56.8041
51.0710
43.0132
44.8244
48.9203
40.2197
58.0793
48.7762
37.5993
45.7745
47.3677
46.4703
50.8615
46.2386
49.3203
47.1135
47.2738
39.1567
46.4614
48.8382
54.8806
44.7887
39.1324
45.3528
50.7506
48.4904
46.6774
45.5659
0.8734
1.0672
1.1443
1.2075
1.1743
0.6705
1.1907
1.0635
1.0438
1.6245
1.0925
1.5015
1.0219
0.8839
0.8320
1.1855
0.6639
0.6103
1.1692
1.2236
1.0656
1.2187
0.7598
1.1055
0.9153
1.4192
1.1495
1.3230
1.1986
1.1923
0.7433
Regressione lineare
95% CL Mean
42.6773
45.9928
53.7903
54.3119
48.6474
41.6294
42.3668
46.7255
38.0654
54.7266
46.5213
34.5004
43.6654
45.5435
44.7531
48.4147
44.8684
48.0607
44.7003
44.7485
36.9574
43.9463
47.2701
52.5990
42.8996
36.2033
42.9804
48.0201
46.0167
44.2166
44.0318
46.2825
50.3981
58.5136
59.2963
53.4946
44.3970
47.2819
51.1152
42.3740
61.4321
51.0311
40.6982
47.8835
49.1919
48.1875
53.3083
47.6087
50.5798
49.5266
49.7991
41.3560
48.9766
50.4063
57.1623
46.6777
42.0615
47.7252
53.4812
50.9641
49.1381
47.1001
Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)
1.2.4
Residual
0.1291
-2.8824
-1.8549
2.7669
-1.1970
1.7978
0.8566
0.1707
-0.7777
1.9757
1.7648
-0.2113
-1.0205
-0.0947
5.3847
-1.7055
-5.4026
-2.6483
-0.3395
3.1142
0.2503
-0.3814
-3.3972
-0.2556
0.3293
0.0706
0.4372
-0.2056
0.1826
1.2426
1.9011
2.146
2.057
2.015
1.977
1.997
2.218
1.988
2.058
2.069
1.652
2.043
1.765
2.079
2.142
2.162
1.991
2.220
2.235
2.000
1.968
2.057
1.971
2.189
2.036
2.128
1.831
2.012
1.902
1.983
1.987
2.194
0.0602
-1.402
-0.921
1.399
-0.599
0.811
0.431
0.0829
-0.376
1.196
0.864
-0.120
-0.491
-0.0442
2.490
-0.857
-2.434
-1.185
-0.170
1.583
0.122
-0.194
-1.552
-0.126
0.155
0.0386
0.217
-0.108
0.0921
0.626
0.866
0
128.83794
192.78822
I procedimenti di tipo inferenziale ci permettono anche di valutare se le variabili esplicative scelte hanno una influenza statisticamente significativa sulla variabile risposta. In
genere si `e interessati a individuare modelli che approssimino bene la variabile risposta
con un numero sufficientemente ridotto di variabili esplicative. Naturalmente questo tipo
di procedimenti inferenziali vanno messi in opera dopo che i procedimenti di carattere
descrittivo (analisi del grafico dei residui e dellindice R2 ) hanno permesso di scegliere
un modello adeguato per descrivere la variabile risposta.
Test di ipotesi sui singoli coefficienti k
Possiamo dire che la k-esima variabile esplicativa xk ha uninfluenza sulla variabile risposta se il suo coefficiente k non `e nullo. Quindi, la conoscenza della legge della variabile
1.2
aleatoria
Bk k
,
Sk
21
contro
H1 : k 6= 0
/2
Se il valore di Pr > |t| `e pi`
u piccolo del livello
/2
p /2
del test allora il valore campionario tk si trova
nella regione critica del test e quindi si rifiuta
-t
lipotesi nulla, come `e indicato nella figura a
t tk
fianco.
Si pu`o osservare che singolarmente sono da considerarsi statisticamente ininfluenti
per la determinazione del consumo di ossigeno le variabili Weight, RestPulse a un
livello di significativit`a del 5% e le variabili Age e MaxPulse a un livello di significativit`a
dell1%.
Questo vuol dire che modelli ridotti, ciascuno senza una delle precedenti variabili,
permettono di approssimare altrettanto bene del modello completo la variabile risposta
Oxigen.
Esempio H Riprendiamo i dati relativi a una specie di pesci di un lago finlandese
(Laengelmavesi) vicino a Tampere gi`a considerato nellEsempio D del Capitolo 1.1.
Abbiamo visto che per il pesce Abramide il peso pu`o essere espresso in funzione della
lunghezza standard (lunghezza naso inizio coda), dellaltezza e dello spessore. Loutput della regressione `e il seguente. Analizziamo la parte relativa ai test di nullit`a dei
singoli coefficienti.
Source
Model
Error
Corrected Total
DF
3
30
33
Root MSE
Dependent Mean
Coeff Var
Analysis of Variance
Sum of
Mean
Squares
Square
1352263
450754
56357
1878.57495
1408620
43.34253
626.00000
6.92373
R-Square
Adj R-Sq
F Value
239.94
0.9600
0.9560
Pr > F
<.0001
22
Regressione lineare
Parameter Estimates
Variable
Intercept
lungh
alt
largh
DF
1
1
1
1
Parameter
Estimate
-886.00619
9.14971
71.32465
87.69245
Standard
Error
66.81188
7.73560
17.62939
36.68327
t Value
-13.26
1.18
4.05
2.39
Pr > |t|
<.0001
0.2462
0.0003
0.0233
contro
V
ER
fra loro ortogonali: V0 e il suo complemento
^
yC
ortogonale in V , V \V0 ; cio`e V = V0 (V \V0 ).
0
. Rn = V (V \V0 ) V0
. PV0 PV `e un proiettore ortogonale
sullo spazio V \V0 di dimensione q
y^R
(PV - PV ) = PV \ V
0
PV
1.2
. a)
kPV \V0 k2
2
23
ha legge 2[q] e
kPV k2
2
ha legge 2[np]
ha legge F[q,np]
p-q
X0
p-q
p-q
A
Il rango di PV PV0 `e p q. Inoltre tale matrice proietta nello spazio V \V0 ; per
dimostrare ci`o fatto verifichiamo che applicato a ogni vettore di tale spazio produce
il vettore stesso. Se Z `e un vettore di V \V0 , allora PV z = z e PV0 z = 0. Quindi:
(PV PV0 )z = z.
Test per la nullit`a di un sottoinsieme di coefficienti
La verificare dellipotesi
H0 : 1 = 2 = . . . = q = 0
contro
24
Regressione lineare
Esempio I
Riprendiamo lEsempio F di questo Capitolo sulla determinazione del consumo di
ossigeno tramite variabili misurabili facilmente sul campo. Si era osservato che singolarmente le variabili Weight e RestPulse potevano essere considerate ininfluenti.
Effettuiamo ora un test sulla nullit`a contemporanea dei due coefficienti.
La realizzazione campionaria della somma dei quadrati dei residui nel modello completo kEC k2 `e fornita dal software, nelloutput standard. In SAS il test su un modello
ridotto viene effettuato con listruzione test. Sotto `e riportato il programma e loutput
relativo al test di nullit`a contemporanea dei due coefficienti.
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse ;
test Weight , RestPulse;
run; quit;
The REG Procedure
Model: MODEL1
Test 1 Results for Dependent Variable Oxygen
Source
DF
Mean
Square
Numerator
Denominator
2
24
5.04604
5.36825
F Value
Pr > F
0.94
0.4045
Sum of
Squares
712.45153
138.93002
851.38154
Root MSE
Dependent Mean
Coeff Var
2.31159
47.37581
4.87927
Source
Model
Error
Corrected Total
Mean
Square
178.11288
5.34346
R-Square
Adj R-Sq
F Value
33.33
Pr > F
<.0001
0.8368
0.8117
Parameter Estimates
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
1
1
1
1
1
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
t Value
8.33
-2.07
-8.13
-2.96
2.02
Pr > |t|
<.0001
0.0488
<.0001
0.0064
0.0533
Osservando loutput del modello ridotto si nota che, rispetto a questo modello, la
variabile MaxPulse non apporta informazioni significative; infatti nella colonna Pr
> |t| si legge che il p-value del test sulla nullit`a del coefficiente di questa variabile `e 0.0533. Vedremo nel successivo Paragrafo 1.2.4 alcuni metodi automatici per
determinare modelli ridotti in presenza di molte variabili esplicative.
1.2
25
Sum of
Squares
54.10549
0.54652
54.65201
Root MSE
Dependent Mean
Coeff Var
0.27942
2.07700
13.45294
Source
Model
Error
Corrected Total
Mean
Square
27.05275
0.07807
R-Square
Adj R-Sq
F Value
346.50
Pr > F
<.0001
0.9900
0.9871
Parameter Estimates
Variable
Intercept
profond
profond2
DF
1
1
1
Parameter
Estimate
1.68269
-10.86091
23.53522
Standard
Error
1.05912
4.51711
4.27447
t Value
1.59
-2.40
5.51
Pr > |t|
0.1561
0.0472
0.0009
26
Regressione lineare
Sum of
Squares
97.04771
0.74359
97.79130
Root MSE
Dependent Mean
Coeff Var
0.30488
2.07700
14.67864
Source
Model
Error
Uncorrected Total
Mean
Square
48.52386
0.09295
R-Square
Adj R-Sq
F Value
522.05
Pr > F
<.0001
0.9924
0.9905
Parameter Estimates
Variable
profond
profond2
DF
1
1
Parameter
Estimate
-3.74919
16.93820
Standard
Error
0.66133
1.10711
t Value
-5.67
15.30
Pr > |t|
0.0005
<.0001
1.2
27
28
Regressione lineare
Metodo forward
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
run;
Dependent Variable: Oxygen
/ selection=forward;
Source
Model
Error
Corrected Total
DF
1
29
30
Analysis of Variance
Sum of
Mean
Squares
Square
632.90010
632.90010
218.48144
7.53384
851.38154
F Value
84.01
Pr > F
<.0001
Parameter
Standard
Estimate
Error
Type II SS F Value Pr > F
82.42177
3.85530
3443.36654
457.05 <.0001
-3.31056
0.36119
632.90010
84.01 <.0001
Bounds on condition number: 1, 1
-----------------------------------------------------------------------------------Forward Selection: Step 2
Variable Age Entered: R-Square = 0.7642 and C(p) = 12.3894
Variable
Intercept
RunTime
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
DF
2
28
30
Analysis of Variance
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154
Parameter
Estimate
88.46229
-0.15037
-3.20395
Standard
Error
5.37264
0.09551
0.35877
Type II SS
1943.41071
17.76563
571.67751
F Value
45.38
F Value
271.11
2.48
79.75
Pr > F
<.0001
Pr > F
<.0001
0.1267
<.0001
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
DF
3
27
30
Analysis of Variance
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154
Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091
Standard
Error
10.23509
0.09623
0.35828
0.05059
Type II SS
709.69014
42.28867
370.43529
39.88512
F Value
38.64
F Value
119.14
7.10
62.19
6.70
Pr > F
<.0001
Pr > F
<.0001
0.0129
<.0001
0.0154
1.2
29
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
4
26
30
Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
33.33
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533
Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
MaxPulse
DF
5
25
30
Analysis of Variance
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154
Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491
Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394
Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640
F Value
27.90
F Value
72.79
5.29
1.84
61.89
10.16
5.18
Pr > F
<.0001
Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316
Variable
Entered
1
2
3
4
5
RunTime
Age
RunPulse
MaxPulse
Weight
Number
Vars In
1
2
3
4
5
Partial
R-Square
Model
R-Square
C(p)
0.7434
0.0209
0.0468
0.0257
0.0112
0.7434
0.7642
0.8111
0.8368
0.8480
13.6988
12.3894
6.9596
4.8800
5.1063
F Value
Pr > F
84.01
2.48
6.70
4.10
1.84
<.0001
0.1267
0.0154
0.0533
0.1871
30
Regressione lineare
Metodo backward
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse / selection=backward;
run;
Dependent Variable: Oxygen
Backward Elimination: Step 0
All Variables Entered: R-Square = 0.8487 and C(p) = 7.0000
Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
DF
6
24
30
Analysis of Variance
Sum of
Mean
Squares
Square
722.54361
120.42393
128.83794
5.36825
851.38154
Parameter
Estimate
102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322
Standard
Error
12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650
Type II SS
369.72831
27.74577
9.91059
250.82210
51.05806
0.57051
26.49142
F Value
22.43
F Value
68.87
5.17
1.85
46.72
9.51
0.11
4.93
Pr > F
<.0001
Pr > F
<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360
Source
Model
Error
Corrected Total
DF
5
25
30
Analysis of Variance
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154
F Value
27.90
Pr > F
<.0001
Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491
Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394
Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640
F Value
72.79
5.29
1.84
61.89
10.16
5.18
Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316
Source
Model
DF
4
Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288
F Value
33.33
Pr > F
<.0001
1.2
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
31
26
30
138.93002
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
5.34346
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533
Step
Variable
Removed
1
2
RestPulse
Weight
0.0007
0.0112
0.8480
0.8368
F Value
5.1063
4.8800
0.11
1.84
Pr > F
0.7473
0.1871
Metodo stepwise
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
/ selection=stepwise;
Dependent Variable: Oxygen
Stepwise Selection: Step 1
Variable RunTime Entered: R-Square = 0.7434 and C(p) = 13.6988
Source
DF
Model
Error
Corrected Total
1
29
30
Variable
Intercept
RunTime
Analysis of Variance
Sum of
Squares
632.90010
218.48144
851.38154
Parameter
Estimate
82.42177
-3.31056
Standard
Error
3.85530
0.36119
Mean
Square
632.90010
7.53384
Type II SS
3443.36654
632.90010
F Value
Pr > F
84.01
<.0001
F Value
457.05
84.01
Pr > F
<.0001
<.0001
Source
Model
Error
Corrected Total
DF
2
28
30
Analysis of Variance
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154
F Value
45.38
Pr > F
<.0001
32
Variable
Intercept
Age
RunTime
Parameter
Estimate
88.46229
-0.15037
-3.20395
Regressione lineare
Standard
Error
5.37264
0.09551
0.35877
Type II SS
1943.41071
17.76563
571.67751
F Value
271.11
2.48
79.75
Pr > F
<.0001
0.1267
<.0001
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
DF
3
27
30
Analysis of Variance
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154
Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091
Standard
Error
10.23509
0.09623
0.35828
0.05059
Type II SS
709.69014
42.28867
370.43529
39.88512
F Value
38.64
F Value
119.14
7.10
62.19
6.70
Pr > F
<.0001
Pr > F
<.0001
0.0129
<.0001
0.0154
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
4
26
30
Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
33.33
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533
Variable
Removed
0.7434
0.0209
0.0468
0.0257
0.7434
0.7642
0.8111
0.8368
C(p)
13.6988
12.3894
6.9596
4.8800
F Value
Pr > F
84.01
2.48
6.70
4.10
<.0001
0.1267
0.0154
0.0533
1.2
33
DF
Numerator
Denominator
2
24
1.2.5
Mean
Square
5.04604
5.36825
F Value
Pr > F
0.94
0.4045
In un modello lineare
Y = X +
dopo aver stimato stimano i coefficienti tramite gli stimatori B sulla base di n v.a.
Y1 , . . . ,Yn , si effettua una nuova osservazione delle variabili esplicative:
xt0 = (x00 , . . . ,x0p1 )t
di cui non si ha la corrispondente osservazione della variabile risposta.
Per la nuova osservazione si considera il modello:
Y0 = xt0 + 0
Si predice il valore atteso della variabile risposta, E(Y0 ), con lo stimatore xt0 B.
1. Intervallo di confidenza per E(Y0 ), valore atteso di Y0
Si ha: E(xt0 B) = xt0 E(B) = xt0 . Lo stimatore `e quindi non distorto. La sua
varianza `e:
V(xt0 B) = E xt0 (B )(B )t x0 = xt0 E(B ) (B )t x0
= 2 xt0 (X t X)1 x0 = 2 v02
Quindi:
xt0 B xt0
N (0,1)
v0
xt0 B xt0
tnp
S v0
34
Regressione lineare
da cui
0 = Y0 xt0
La variabile aleatoria Y0 xt0 B ha legge normale con valore atteso nullo. Inoltre
le variabili aleatorie Y0 e B0 , . . . ,Bp1 sono indipendenti perche gli stimatori dei
coefficienti sono costruiti sulla base delle prime n osservazioni campionarie; quindi
V(Y0 xt0 B) = V(Y0 ) + V(xt0 B) = 2 + 2 v0 = 2 (1 + v0 )
Da cui:
=P
xt0 B
q
q
t
2
2
t S 1 + v0 < Y0 < x0 B + t S 1 + v0
Osserviamo che
q
q
t
t
x0 B t S 1 + v02 , x0 B + t S 1 + v02
non `e propriamente un intervallo di confidenza in quanto non si riferisce a un
parametro.
Esempio K
I dati riguardano laccrescimento percentuale (growth) di topi sottoposti a un particolare regime alimentare (dose).
Obs
1
2
3
4
5
6
7
8
9
10
11
12
dose
10
10
15
20
20
25
25
25
30
35
40
45
growth
73
78
85
90
91
87
86
91
75
65
.
.
1.2
35
Source
Model
Error
Corrected Total
DF
2
7
9
Analysis of Variance
Sum of
Mean
Squares
Square
665.70617
332.85309
45.19383
6.45626
710.90000
Root MSE
Dependent Mean
Coeff Var
Variable
Intercept
dose
dosesq
Variable
Intercept
dose
dosesq
Obs
1
2
3
4
5
6
7
8
9
10
11
12
2.54092
82.10000
3.09491
75.5190
75.5190
85.8742
89.8457
89.8457
87.4335
87.4335
87.4335
78.6377
63.4581
41.8948
13.9478
1.6913
1.6913
1.0768
1.1080
1.1080
1.0696
1.0696
1.0696
1.2044
2.2694
4.2082
6.8595
95% CL Mean
71.5198
71.5198
83.3280
87.2258
87.2258
84.9042
84.9042
84.9042
75.7897
58.0917
31.9440
-2.2724
Pr > F
<.0001
0.9364
0.9183
t Value
6.35
9.43
-9.97
Covariance of Estimates
Intercept
dose
31.561106475
-3.024329365
-3.024329365
0.3113886154
0.0652777053
-0.00702493
R-Square
Adj R-Sq
Parameter Estimates
Parameter
Standard
Estimate
Error
35.65744
5.61793
5.26290
0.55802
-0.12767
0.01281
DF
1
1
1
F Value
51.56
79.5182
79.5182
88.4204
92.4656
92.4656
89.9629
89.9629
89.9629
81.4856
68.8244
51.8455
30.1680
Pr > |t|
0.0004
<.0001
<.0001
dosesq
0.0652777053
-0.00702493
0.0001641307
95% CL Predict
68.3014
68.3014
79.3486
83.2911
83.2911
80.9145
80.9145
80.9145
71.9885
55.4021
30.2708
-3.3495
82.7366
82.7366
92.3998
96.4004
96.4004
93.9525
93.9525
93.9525
85.2868
71.5140
53.5188
31.2450
36
Obs
Residual
1
2
3
4
5
6
7
8
9
10
11
12
-2.5190
2.4810
-0.8742
0.1543
1.1543
-0.4335
-1.4335
3.5665
-3.6377
1.5419
.
.
Regressione lineare
-1.328
1.308
-0.380
0.0675
0.505
-0.188
-0.622
1.547
-1.626
1.349
.
.
Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)
0
45.19383
145.72996
Il grafico riporta:
. con il simbolo dot i dati originali
. con il simbolo diamond e linea unita i valori previsti (per growth)
. con il simbolo star e linea tratteggiata lunga lintervallo di confidenza (al 95%) per
i valori attesi di growth
. con il simbolo plus e linea tratteggiata corta lintervallo di confidenza (al 95%) per
i valori previsti di growth
1.2
1.2.6
37
Gli stimatori dei coefficienti B trovati con il metodo dei minimi quadrati, sono anche
stimatori di massima verosimiglianza rispetto al modello Y N (X , 2 I). Indichiamo
con xti la rica i-esima della matrice X. Le variabili aleatorie campionarie hanno legge
Yi N (xti , 2 ) e sono indipendenti.
La verosimiglianza e la log-verosimiglianza per ciascuna variabile aleatoria Yi sono:
1
1
2
t
2
exp 2 (yi (xi ))
Li (, ; yi ) =
2
2 2
(xt )2
y2
xt
1
li (, 2 ; yi ) = log(2 2 ) i 2 i 2 + i 2 yi
2
2
2
l(, ; y) =
n
X
li (, 2 ; yi ) =
i=1
n
n
n
1 X t 2
1 X 2
1 X t
n
(xi ) 2
yi + 2
x yi =
log( 2 ) 2
2
2 i=1
2 i=1
i=1 i
1
1
1
n
log( 2 ) 2 t Xt X 2 yt y + 2 < ,Xt y >
2
2
2
La statistica sufficiente e completa p + 1-dimensionale per i parametri `e: (Xt Y,Yt Y).
Gli stimatori di massima verosimiglianza per i parametri si ottengono eguagliando
a zero le derivate in della log-verosimiglianza:
l(, 2 ; Y)
=0
Xt Xb Xt Y = 0
(1.1)
che sono proprio le equazioni normali ricavate nel capitolo 1.1.2 con il metodo dei minimi
quadrati.
Lo stimatore di massima verosimiglianza per 2 si ottiene sostituendo nella log-verosimiglianza
i valori di che soddisfano le equazioni normali e poi uguagliando a zero la derivata in
2:
n
1 t
l(B, 2 ; Y)
2
=0
log( ) 2 Y (I PV ) Y = 0
2
2
2
2
n
1
+
kEk2 = 0
2
2
2 4
che corrisponde allo stimatore distorto: n1 kEk2 .
Teorema di Gauss-Markov
Gli stimatori B e S 2 sono stimatori di minima varianza fra gli stimatori non distorti di
e 2.
Presentiamo due dimostrazioni del teorema. La prima si basa su risultati legati alle
statistiche sufficienti e complete. La seconda si basa su risultati di algebra lineare.
38
Regressione lineare
. Prima dimostrazione.
` conseguenza del teorema di Rao-Blackwell di cui riportiamo un corollario. Sia U
E
uno stimatore non distorto di e sia T una statistica sufficiente e completa. Se U `e
funzione di T allora `e di minima varianza nella classe degli stimatori non distorti.
Nel caso del modello lineare, abbiamo visto che B e S 2 sono non distorti e sono
funzioni della statistica sufficiente.
. Seconda dimostrazione.
Sia G uno stimatore lineare non distorto di diverso da B. Essendo sia G che B
lineari un Y si pu`o scrivere:
G = B + ZY
E(G) = E(B) + ZE(Y)
con Z matrice (p n). Da cui, essendo G e B non distorti, segue che ZX = 0 e
anche ZX = 0. Si ha quindi:
G = (Xt X)1 Xt + Z (X + ) = + (Xt X)1 Xt + Z
V(G) = E (G )(G )t
= E (Xt X)1 Xt + Z t X(Xt X)1 + Zt
= 2 (Xt X)1 Xt X(Xt X)1 + ZX(Xt X)1 + (Xt X)1 Xt Zt + ZZt =
= V(B) + 2 ZZt
La matrice ZZt contiene sulla diagonale principale somme di quadrati e quindi la
varianza di G `e maggiore della varianza di B.
Capitolo 2
Analisi della varianza
2.1
n
s
- yik il valore della variabile quantitativa assunto dalla k-esima unit`a sperimentale del
livello i, con k = 1, . . . ,r.
Lipotesi che i risultati della variabile quantitativa Y dipendono dallappartenenza
delle osservazioni a un livello si pu`o tradurre nel seguente modello:
yik = + i + ik
dove:
- indica un valore medio generale dipendente dalla caratteristica quantitativa
- i indica un valore che dipende dal livello i-esimo della variabile qualitativa
- ik indica il residuo per lunit`a sperimentale considerata.
Indichiamo con:
39
(2.1)
40
- y il vettore (y11 , . . . ,y1r , . . . ,ys1 , . . . ,ysr ) ordinato secondo i livelli del fattore e con
le corrispondenti lettere maiuscole le variabili aleatorie di cui si osservano le realizzazioni,
- il vettore (11 , . . . ,1r , . . . ,s1 , . . . ,sr ); a seconda del contesto sar`a una variabile
aleatoria multidimensionale o sua sua realizzazione.
- il vettore (,1 ,2 , . . . ,s )
- X la matrice con colonne 1,a1 , . . . ,as dove ai `e un vettore binario che indica lappartenenza o meno dellunit`a sperimentale al livello i, come si vede nellesempio
riportato qui sotto nel caso s = 4 e r = 2.
y
y11
y12
y21
y22
y31
y32
y41
y42
1
1
1
1
= 1
1
1
1
1
a1
1
1
0
0
0
0
0
0
X
a2 a3
0 0
0 0
1 0
1 0
0 1
0 1
0 0
0 0
a4
0
0
0
0
0
0
1
1
1
1
3
4
11
+
42
Come per il modello lineare considereremo prima gli aspetti geometrici e successivamente quelli inferenziali.
Il modello relativo alle realizzazioni campionarie pu`o essere in forma vettoriale `e:
y =X +
Linterpretazione geometrica `e simile a quella del modello lineare. Il vettore X b che
minimizza la somma dei quadrati dei residui `e la proiezione ortogonale di y nel sottospazio
generato da X.
In questo caso per`o le colonne della matrice non sono linearmente indipendenti: infatti
la somma delle righe di a1 ,a2 , . . . ,as `e uguale agli elementi del vettore 1. Le soluzioni per
i coefficienti del metodo dei minimi quadrati, b = (X0 X)1 X0 y, necessitano linversione
della matrice X0 X, che `e di rango pieno se e solo se lo `e la matrice X. Bisogna quindi
anzitutto costruire una matrice X? che generi lo stesso sottospazio della matrice X e che
sia di rango pieno.
Molti sono i modi per risolvere questo problema; alcuni saranno analizzati in un capitolo successivo. Qui ne vediamo uno. Si sostituiscono gli s vettori a1 ,a2 , . . . ,as con s 1
vettori a?1 ,a?2 , . . . ,a?s1 dove:
a?i = ai as
Il vettore dei coefficienti `e modificato di conseguenza: la sua dimensione deve essere s
e si verifica facilmente che ? = (,1 ,2 , . . . ,s1 ).
2.1
y
y11
y12
y21
y22
y31
y32
y41
y42
1
1
1
1
= 1
1
1
1
1
X?
a?2
1 0
1 0
0 1
0 1
0 0
0 0
-1 -1
-1 -1
a?1
a?3
0
0
0
0
1
1
-1
-1
41
11
1
2
3
42
Mentre per i primi s 1 livelli il modello rimane invariato, per il livello s, si ha:
ysk = 1 2 . . . s1 + sk
cio`e lartificio usato per rendere la matrice di rango pieno corrisponde a porre un vincolo
sui coefficienti:
s
X
i = 0 .
i=1
2.1.1
i = 1, . . . ,s 1 .
1
A
0
1
8
0
0
0
X? X?
A
0 0
4 2
2 4
2 2
0
0
2
2
4
1
A
1
1
0
0
0
(X? X? )1
A
0
0
0
3 1 1
1
3 1 18
1 1
3
42
X ? X? = r
s 0
0 2
0 1
0 ...
0 1
0 0 0
1 ... 1
2 ... 1
... ... ...
1 ... 2
(X? X? )1 =
1
n
1
0
0 0
0
0 s1
1 ...
1
0
1 s 1 ...
1
0
...
... ...
...
0
1
1 ... s 1
Le soluzioni per i coefficienti che minimizzano la somma dei quadrati dei residui, date
1 ?0
0
da b = X? X?
X y, hanno la seguente propriet`a: la stima di non dipende dalla
stima dei coefficienti i . Da un punto di vista inferenziale questo corrisponde al fatto che
0
la matrice (X? X? )1 `e proporzionale alla matrice di varianza-covarianza degli stimatori
1
0
dei coefficienti, V(B) = 2 X? X? , per cui lo stimatore di `e indipendente dagli
stimatori dei coefficienti i .
1 ?0
0
La matrice X? X?
X , che interviene nella stima dei coefficienti, nel caso bilanciato `e:
1
s1
1
...
1
1
s1
1
...
1
1
1
s1
...
1
1
1
s1
...
1
...
...
...
...
s1
...
...
...
...
s1
1
1
1
1
1
1
1
1
1
1
1 XX
yjk = y
m=
n j=1 k=1
e, indicando con y i la media delle realizzazioni delle variabili risposta che corrispondono
al livello i per il fattore A, per ogni i = 1, . . . ,s 1:
!
r
s
r
r
s
r
X
X
X
1
1X
1 XX
ai =
(s 1)
yik
yjk =
yik
yjk = y i y .
rs
r k=1
n j=1 k=1
k=1
j=1,j6=i k=1
Per quanto riguarda il coefficiente as si ha:
as =
s1
X
i=1
ai =
s1
X
y i + (s 1)y + (y s y s ) = sy + y s + (s 1)y = y s y
i=1
2.1
2.1.2
43
La non influenza del fattore A nella determinazione della variabile aleatoria risposta Y
si traduce in un test di nullit`a contemporanea di tutti i coefficienti i :
H0 : 1 = = s = 0
Se lipotesi H0 `e vera, cio`e se Y non `e influenzato dal fattore, il modello della formula
(2.1) diventa:
Y =+
avendo indicato con un vettore con ogni elemento uguale a .
In questo caso, direttamente dalle propriet`a del valore medio, si ottiene che la minima
somma dei quadrati dei residui si ha per
= m = y; quindi la stima yik di E(Yik ) con
questo modello `e y, per ogni i e per ogni k.
Come nel caso generale del modello lineare, per verificare se la variabile quantitativa
Y `e influenzata o meno dal fattore si analizza lerrore relativo che si commette nella
somma dei quadrati dei residui del modello ridotto (formato dalla sola costante) rispetto
al modello completo.
Diamo prima una interpretazione geometrica di questo test e consideriamo le realizzazioni campionarie y e la sua proiezione ortogonale y
nel sottospazio V generato
dalle colonne della matrice X. Modifichiamo leggermente le notazioni per le somme dei
quadrati dei residui usate nel capitolo precedente. Invece di SSC e SSR usiamo SS(m,a)
e SS(m) per evidenziare quali parametri intervengono nel modello considerato; inoltre
usiamo le lettere latine perch`e le quantit`a sono valori campionari. Si ha:
- Variazione residua SS(m,a): somma dei quadrati dei residui nel modello completo
2
SS(m,a) = ky y
k =
s X
r
X
(yik y i )2
i=1 k=1
- Variazione totale SS(m): somma dei quadrati dei residui nel modello ridotto
ky yk2 =
s X
r
X
(yik y)2
i=1 k=1
XX
i
= r
k
s
X
2
2
+ 2 yik yi yi 2
yik
2 y yik + y 2 yik
2 y yi + y 2 + 2 yi 2 yi 2
i=1
= r
s
X
i=1
(y i y)2 = k
y yk2
44
y
La figura a fianco, del tutto simile
y-y
a quella per il modello lineare, evi- variazione residua
denzia i vettori precedenti e la relazione fra le lunghezze di tali vettori,
espressione del teorema di Pitagora.
Lerrore relativo che si commette
nella somma dei quadrati dei residui
usando il modello ridotto rispetto a
quello completo `e:
y-y
variazione totale
y
y -y
variazione interclasse
SS(m) SS(m,a)
variazione interclasse
=
SS(m,a)
variazione residua
Affrontiamo ora il problema da un punto di vista inferenziale e - come nel caso del
modello lineare - ipotizziamo che i residui siano variabili aleatorie non correlate fra loro,
di valore atteso 0 e varianza 2 , e con con legge normale. Allora
(SS(m) SS(m,a))/(s 1)
varianza interclasse
=
SS(m,a)/(n s)
varianza residua
diventa la realizzazione di una variabile aleatoria
Yk2 /(s 1)
kY
2 /(n s)
kY Yk
con legge di Fisher a (s 1,n s) gradi di libert`a.
Fissato un livello per il test, se la realizzazione campionaria della statistica test
supera la soglia f , si rifiuta lipotesi di non influenza del fattore, avendo indicato con
f il quantile 1 di una variabile aleatoria con legge Fisher a (s 1,n s) gradi di
libert`a. Osserviamo che anche in questo caso il test `e unilaterale come gi`a visto per il
caso della regressione lineare.
Esempio A
Consideriamo i risultati di unanalisi di laboratorio sulla infiammabilit`a dei pigiami
per bambini; lanalisi consiste nel tenere sotto una fiamma un pezzo standard di stoffa
appoggiato su una piastra di metallo. Vengono attentamente controllate lumidit`a del
tessuto, la sua temperatura, laltezza della fiamma, il modo con cui la fiamma `e tenuta
sul tessuto e cos` via. Quando la fiamma `e rimossa e il tessuto ha finito di bruciare, `e
misurata la lunghezza del tessuto carbonizzato. Ci si pone il problema se i diversi tipi
di tessuto danno gli stessi risultati.
2.1
1
1
1
1
1
1
1
1
1
1
1
2.7
3.4
3.6
3.2
4.0
4.1
3.8
3.8
4.3
3.4
3.3
2
2
2
2
2
2
2
2
2
2
2
3.3
3.3
3.5
3.5
2.8
2.8
3.2
2.8
3.8
3.5
3.8
3
3
3
3
3
3
3
3
3
3
3
3.3
3.2
3.4
2.7
2.7
3.3
2.9
3.2
2.9
2.6
2.8
4
4
4
4
4
4
4
4
4
4
4
4.1
4.1
3.7
4.2
3.1
3.5
2.8
3.5
3.7
3.5
3.9
5
5
5
5
5
5
5
5
5
5
5
DF
4
50
54
Sum of
Squares
2.98654545
8.23272727
11.21927273
Coeff Var
12.01815
Mean Square
0.74663636
0.16465455
Root MSE
0.405776
F Value
4.53
Pr > F
0.0033
valore Mean
3.376364
45
46
2.2
b2
0
0
1
1
0
0
0
0
1
1
0
0
b3
0
0
0
0
1
1
0
0
0
0
1
1
1
2
1
2
3
2.2
47
Per rendere le colonne della matrice X di rango pieno si pu`o procedere agendo sui due
gruppi di vettori della matrice (quello relativo al fattore A e quello relativo al fattore B)
in modo analogo a quanto fatto nel caso di un solo fattore.
Gli s1 vettori relativi al fattore A, a1 , . . . ,as1 , vengono sostituiti con s1 1 vettori
?
a1 , . . . ,a?s1 1 tali che: a?i = ai as1 .
Gli s2 vettori relativi al fattore B, b1 , . . . ,bs2 , vengono sostituiti con s2 1 vettori
b?1 , . . . ,b?s2 1 tali che: b?i = bi bs2 .
Il vettore dei coefficienti `e modificato di conseguenza: la sua dimensione deve essere 1 + (s1 1) + (s2 1) (cio`e s1 + s2 1) e si pu`o facilmente verificare che ? =
(,1 ,2 , . . . ,s1 1 ,1 ,2 , . . . ,s2 1 ).
In questo caso lartificio utilizzato per rendere la matrice di rango pieno corrisponde
a porre un vincolo su ciascuno dei due blocchi di coefficienti:
s1
X
i = 0
i=1
2.2.1
s2
X
j = 0 .
j=1
Nel caso che stiamo considerando di esperimento bilanciato, i tre gruppi di vettori della
matrice X? , corrispondenti alla costante, al fattore A e al fattore B sono fra di loro
ortogonali; infatti `e facile verificare che:
< 1,a?i >= 0
(2.2)
1
A
B
1
12
0
0
0
X ? X?
A
B
0 0 0
12 0 0
0 8 4
0 4 8
(X? X? )1
1 A
B
1 1 0 0 0
A 0 1 0 0
1
B 0 0 2 -1 12
0 0 -1 2
48
ai = y i. y
bj = y .j y
bisogna calcolare la somma dei quadrati dei residui nel modello completo, che indicheremo
- in analogia alle notazioni precedenti - con SS(m,a,b), e poi nel modello ridotto, che
indicheremo con SS(m,b).
Per precisare il modello, indichiamo con y
A,B
la proiezione di y nel sottospazio V generato
dalle colonne di X e con y
B la proiezione di
y nell sottospazio generato dalle sole colonne
di X corrispondenti alla costante e al fattore
B.
^
yA,B
VB*
^
La figura a fianco rappresenta i vettori
yB
y
che intervengono per il test sul fattore A.
Attenzione lo spazio ambiente `e Rn .
Come nel caso a un fattore, la varianza residua non `e influenzata dai vincoli posti sui
coefficienti, in quanto il sottospazio generato da X coincide con quello generato da X? .
La realizzazione della statistica test `e:
fA =
2.2
2.2.3
49
s1 X
r
1 X
y .j =
yijk
rs1 i=1 k=1
s1
s2
1 X
1 X
y=
y =
y
s1 i=1 i. s2 j=1 .j
ky yk =
s1 X
s2 X
r
X
(yijk y)2
ky y
A,B k =
s1 X
s2 X
r
X
yijk y i. y .j + y
2
ky y
B k ky y
A,B k =
s1 X
s2 X
r
X
yijk y .j
2
yijk y i. y .j + y
2
s1 X
s2 X
r
X
2
2
y 2i. y 2.j y 2
yijk
+ y 2.j 2yijk y .j yijk
+ 2yijk y i. + 2yijk y .j 2yijk y 2y i. y .j + 2y i. y + 2y .j y =
s1
s1
s1
X
X
X
2
2
2
rs2
y i. ny + 2rs2
y i. 2rs2 y
y i. 2rs1 s2 y 2 + 2rs1 s2 y 2 + 2rs1 s2 y 2 =
i=1
i=1
rs2
s1
X
i=1
y 2i. 2rs2
i=1
s1
X
i=1
y i. y + ny 2 = r s2
s1
X
(y i. y)2 = k
yA yk2
i=1
50
ky y
A k ky y
A,B k =
s1 s2
s2 X
s1 X
X
(yijk y i. )2 yijk y i. y .j + y
2
r s1
s2
X
(y.j y)2 = k
yB yk2
j=1
2.2
51
Gi`a da unanalisi descrittiva si osserva che linfluenza sulla variabile DDT `e diversa
per i due fattori.
Passiamo quindi a unanalisi di tipo inferenziale ed effettuiamo unanalisi della varianza a una via per studiare linfluenza sulla quantit`a di DDT della zona di nidificazione, poi separatamente una analisi della varianza a una via per studiare linfluenza
dellet`a e infine unanalisi della varianza a due vie. I risultati sono i seguenti.
ANOVA a una via. Fattore zona.
The ANOVA Procedure
Class Level Information
Class
Levels
Values
zona
3
1 2 3
Number of Observations Used
27
DF
2
24
26
R-Square
0.908054
Source
zona
Sum of
Squares
17785.40741
1800.88889
19586.29630
Coeff Var
19.52292
DF
2
Mean Square
8892.70370
75.03704
Root MSE
8.662392
Anova SS
17785.40741
F Value
118.51
Pr > F
<.0001
ddt Mean
44.37037
Mean Square
8892.70370
F Value
118.51
Pr > F
<.0001
F Value
1.16
Pr > F
0.3316
27
DF
2
24
26
Sum of
Squares
1721.18519
17865.11111
19586.29630
Mean Square
860.59259
744.37963
52
2
R-Square
0.087877
Source
eta
Coeff Var
61.48996
DF
2
Root MSE
27.28332
Anova SS
1721.185185
ddt Mean
44.37037
Mean Square
860.592593
F Value
1.16
Pr > F
0.3316
F Value
1346.06
Pr > F
<.0001
27
DF
4
22
26
Sum of
Squares
19506.59259
79.70370
19586.29630
Coeff Var
4.289778
DF
2
2
Mean Square
4876.64815
3.62290
Root MSE
1.903391
Anova SS
17785.40741
1721.18519
ddt Mean
44.37037
Mean Square
8892.70370
860.59259
F Value
2454.58
237.54
Pr > F
<.0001
<.0001
Nell prima tabella si trovano, nella colonna Sum of Square la variazione residua e
quella totale e nella colonna DF i corrispondenti gradi di libert`a.
Nellultima tabella si trovano, nella colonna Anova SS le variazioni interclasse e nella
colonna DF i corrispondenti gradi di libert`a. Nella colonna Mean Square si trovano le
varianze interclasse per il primo e il secondo fattore. Infine nelle colonne F Value e Pr
> F si trovano rispettivamente i valori della statistica test e i corrispondenti p-value
per i due test separati per linfluenza della zona e dellet`a.
Ricordiamo che i gradi di libert`a sono s1 1 per la variazione del primo fattore,
s2 1 per la variazione del secondo fattore e n 1 per la variazione totale. I gradi di
libert`a della variazione dellerrore sono diversi per il modello a una via,n s1 , e per il
modello a due vie, n s1 s2 + 1.
Osserviamo - come gi`a detto - che le due varianze interclasse sono uguali nel modello
a un fattore e nel modello a due fattori, mentre la varianza residua `e sempre pi`
u piccola
nel modello a due fattori, quindi la statistica F sar`a pi`
u grande nel modello a due
fattori rispetto al modello a un fattore (in genere vale, anche se cambiano i gradi di
libert`a del denominatore).
Ci`o conduce - nellesempio considerato - a considerazioni diverse per quanto riguarda
linfluenza dellet`a sulla quantit`a di DDT a seconda che si consideri un modello con un
solo fattore o un modello con due fattori senza interazione; nel primo let`a sembra non
influire, nel secondo si: questo `e dovuto al fatto che nel secondo modello lerrore, cio`e
Sum of Square(Erorr), risulta molto piccolo. Quindi il denominatore della statistica
test `e piccolo e il valore della statistica `e grande.
2.3
2.3
53
X
y
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
a2
b1
b2
b3
a1 b1
a1 b2
a1 b3
a2 b1
a2 b2
a2 b3
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
1
1
0
0
0
0
0
0
1
1
0
0
0
0
1
1
0
0
0
0
0
0
1
1
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
1
2
3
11
12
13
21
22
23
54
y
y111
y112
y121
y122
y131
y132
y211
y212
y221
y222
y231
y232
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a?1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1
X?
b?1
1
1
0
0
-1
-1
1
1
0
0
-1
-1
b?2
0
0
1
1
-1
-1
0
0
1
1
-1
-1
c?11
1
1
0
0
-1
-1
-1
-1
0
0
1
1
c?12
0
0
1
1
-1
-1
0
0
-1
-1
1
1
1
1
2
11
12
111
211
+
311
j=1
Osserviamo che fra questi s1 + s2 vincoli quello relativo al caso s1 s2 `e ripetuto due volte.
Il numero di vincoli sui coefficienti sono quindi: uno per i coefficienti del fattore A, 1 per
i coefficienti del fattore B e s1 + s2 1 per linterazione, in totale s1 + s2 + 1.
2.3.1
n
X
h=1
(c?ij )h (a?i )h =
n
X
h=1
n
X
(b?j )h = 0
h=1,j=i,j=s1
Infatti il vettore a?i al quadrato ha elementi uguali a 1 solo nel livello i e nel livello s1 ;
allintermo di ciascun livello il vettore b?j `e bilanciato e quindi la somma vale 0.
Quindi:
V = VI VA? VB ? VAB ? .
2.3
1
A
B
AB
X? X?
1 A
B
12 0 0 0
0 12 0 0
0 0 8 4
0 0 4 8
0 0 0 0
0 0 0 0
1
55
per s1 = 2, s2 = 3 e due
AB
0 0
0 0
0 0
0 0
8 4
4 8
1
A
B
AB
1
1
0
0
0
0
0
(X? X? )1
A
B
AB
0 0 0 0 0
1 0 0 0 0
0 2 -1 0 0
1
0 -1 2 0 0 12
0 0 0 2 -1
0 0 0 -1 2
m=y
bj = y .j y
cij = y ij y i. y .j + y
Anche in questo caso si effettuano tre test separati: uno per linfluenza del fattore A,
uno per linfluenza del fattore B e uno per linfluenza dellinterazione.
Le realizzazioni campionarie delle statistiche test sono (con ovvie estensioni delle
notazioni):
SS(m,b,c) SS(m,a,b,c) / (s1 1)
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,c) SS(m,a,b,c) / (s2 1)
=
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,b) SS(m,a,b,c) / ((s1 1)(s2 1))
=
SS(m,a,b,c) / (n s1 s2 )
fA =
fB
fAB
2.3.3
1X
y ij =
yijk
r k=1
s1 X
s1
r
1 X
1 X
y .j =
yijk =
y
rs1 i=1 k=1
s1 i=1 ij
s2 X
s2
r
1 X
1 X
yijk =
y i. =
y
rs2 j=1 k=1
s2 j=1 ij
s1
s2
s1 X
s2
1 X
1 X
1 X
y=
y =
y =
y
s1 i=1 i. s1 j=1 .j s1 s2 i=1 j=1 ij
56
Quindi le quantit`a che intervengono nei test sono le seguenti, con ovvie estensioni delle
notazioni.
- Variazione totale SS(m)
ky yk2 =
XXX
i
(yijk y)2 .
XX
i
y ij y i. y .j + y
2
= ky y
AB k2 .
2.4
57
Esempio C Riprendiamo in esame lesempio B di questo capitolo riguardante linfluenza della zona di nidificazione e dellet`a sulla quantit`a di DDT presente nei tessuti
dei falchi in un modello con interazione, ricordando che si erano ottenute conclusioni
diverse per quanto riguarda linfluenza dellet`a nel caso di un modello a un fattore e
nel caso del modello a due fattori senza interazione.
DF
8
18
26
Sum of
Squares
19524.29630
62.00000
19586.29630
Coeff Var
4.182795
DF
2
2
4
Mean Square
2440.53704
3.44444
Root MSE
1.855921
Anova SS
17785.40741
1721.18519
17.70370
F Value
708.54
Pr > F
<.0001
ddt Mean
44.37037
Mean Square
8892.70370
860.59259
4.42593
F Value
2581.75
249.85
1.28
Pr > F
<.0001
<.0001
0.3128
In questo modello solo linterazione fra i due fattori risulta non influente sulla quantit`a di DDT, mentre let`a - da sola - influisce, come nel modello a due fattori senza
interazione; la zona rimane sempre influente in tutti e tre i modelli.
2.4
Si dice che fattore B `e annidato dentro il fattore A e si indica B(A) nel caso in cui i
livelli del fattore B hanno un significato differente a seconda del livello corrispondente
del fattore A. Ad esempio in una sperimentazione di un farmaco il fattore A indica il
centro dove viene effettuato lesperimento e il fattore B il reparto; se i reparti dei due
centri hanno caratteristiche diverse allora si dice che il reparto `e annidato nel centro.
Il modello si scrive come:
yijk = + i + j (i ) + ijk
con ovvie estensioni delle notazioni.
Se s1 = 2, s2 = 3 e si hanno due repliche per ciascun livello di B(A), la situazione `e
rappresentabile nel seguente modo.
58
X
y
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
a2
b1 (a1 )
b2 (a1 )
b3 (a1 )
b1 (a2 )
b2 (a2 )
b3 (a2 )
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
1 (1 )
2 (1 )
3 (1 )
1 (2 )
2 (2 )
3 (2 )
Con una notazione derivata dai software statistici un modello di questo tipo pu`o essere
indicato con A + B(A), mentre un modello con interazione `e indicato con A + B + AB
o con A|B.
Il sottospazio generato dalle colonne della matrice X nei due modelli crossed e nested
`e lo stesso ma la parametrizzazione `e differente. Osserviamo che la sottomatrice B(A)
del modello nested e la sottomatrice AB del modello crossed sono uguali anche se hanno
un significato differente.
La matrice X? di rango pieno si costruisce, per il fattore B(A) considerando i vettori
bj (ai )? = bj (ai ) bs2 (ai )
per ogni i = 1, . . . ,s1 e ogni j = 1, . . . ,s2 1.
y
y1(1)1
y1(1)2
y2(1)1
y2(1)2
y3(1)1
y3(1)2
y1(2)1
y1(2)2
y2(2)1
y2(2)2
y3(2)1
y3(2)2
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1
X
?
-1
-1
0
0
1
-1
-1
0
0
1 (1 ) +
0
0
1
0
2 (1 )
1(2)1
0
0
1
0
1 (2 )
0
0
0
1
2 (2 )
0
0
0
1
0
0
-1
-1
0
0
-1
-1
P
sono quindi i i = 0 per il primo fattore e gli s1 vincoli per il
b1 (a1 )
s2
X
j(i) = 0
per i = 1, . . . ,s1 .
j=1
Anche in questo caso i vettori corrispondenti ai quattro gruppi di parametri sono fra
di loro ortogonali.
2.4
1
12
0
0
B(A1 ) 0
0
B(A2 ) 0
1
A
A
0
12
0
0
0
0
59
1
per s1 = 2, s2 = 3 e due
X? X?
B(A1 )
0 0
0 0
4 2
2 4
0 0
0 0
B(A2 )
0 0
0 0
0 0
0 0
4 2
2 4
1
A
B(A1 )
B(A2 )
1
1
0
0
0
0
0
(X? X? )1
A B(A1 ) B(A2 )
0 0 0 0 0
1 0 0 0 0
0 4 -2 0 0
1
0 -2 4 0 0 12
0 0 0 4 -2
0 0 0 -2 4
In un modello con due fattori di cui uno nested i gradi di libert`a del primo fattore
sono s1 1 e quelli per il fattore nested sono s1 (s2 1).
Essendo uguali i sottospazi del modello crossed e nested, vale anche in questo caso che
la variazione totale `e la somma della variazione residua e delle variazioni interclassi dei
due fattori.
Esempio D Consideriamo un esempio tratto da un lavoro di Snedecor e Cochran del
1976. Per studiare la concentrazione di calcio in turnip greens vengono scelte a caso
quattro piante a caso e quindi da ciascuna pianta sono scelte a caso tre foglie. Da
ciascuna foglia sono presi due campioni di 100 mg e per ciascuno `e determinata con
metodi chimici la quantit`a di calcio. I risultati sono i seguenti.
24
DF
11
12
23
Sum of
Squares
10.19054583
0.07985000
10.27039583
Coeff Var
2.708195
DF
3
8
Mean Square
0.92641326
0.00665417
Root MSE
0.081573
Anova SS
7.56034583
2.63020000
F Value
139.22
Pr > F
<.0001
Calcium Mean
3.012083
Mean Square
2.52011528
0.32877500
F Value
378.73
49.41
Pr > F
<.0001
<.0001
60
2.4.1
Concludiamo con alcune considerazioni, verificabili anche negli esempi precedenti, sulla
decomposizione dello spazio Rn nel caso di esperimenti bilanciati e sulle conseguenze
nella stima e nella verifica di ipotesi dei parametri.
Prendiamo in considerazione per semplicit`a il modello a una e a due vie senza interazione e indichiamo con lindice in alto (1) e (2) rispettivamente gli spazi e le stime dei
due modelli. La generalizzazione a modelli pi`
u ampi `e immediata.
Abbiamo visto anzitutto che gli stimatori dei vari gruppi di parametri che intervengono nel modello, la media, i parametri per il fattore A e quelli per il fattore B sono
indipendenti.
Inoltre le stime nel modello a un fattore sono uguali a quelle nel modello a pi`
u fattori,
(1)
(2)
ad esempio a
i = a
i .
Per quanto riguarda gli spazi generati dalle colonne della matrice X del modello questo
(1)
(2)
si traduce nel fatto che VA? = VA? . Si ha quindi:
(1)
(1)
Rn = VI VA? VI+A?
(2)
(2)
(1)
(1)
(2)
Dunque lo spazio residuo nel modello a una via VI+A? `e decomposto, nel modello a due
(1)
(2)
vie in due sottospazi ortogonali VB ? e VI+A? +B ? , cio`e:
(1)
(1)
(2)
VI+A? = VB ? VI+A? +B ?
nel modello
Nel caso di esperimenti bilanciati, per trovare le stime dei valori attesi y
(1)
A? , considerare il vettore
a due vie `e possibile, prima proiettare y su VA? , ottenendo y
(1)
B ? . Essendo i sottospazi considerati
residuo y
yA? e proiettare questo su VB ? ottenendo y
tutti ortogonali fra loro si ottengono le stesse stime cambiando lordine dei fattori, cio`e
(1)
B ? , e proiettano poi il residuo y y
B ? su VV(1)
proiettando prima y su VB ? , ottenendo y
? ,
A? .
ottenendo y
2.5
Nella pratica sperimentale spesso si presentano situazioni in cui non `e possibile avere un
uguale numero di osservazioni per ciascun livello dellinterazione dei fattori. Anche in
tal caso `e possibile effettuare una analisi della varianza in modo sostanzialmente simile
a quanto visto sopra.
Nel caso non bilanciato, per`o, non risultano pi`
u ortogonali i sottospazi di V corrispondenti ai vari fattori e la decomposizione della varianza (o meglio della variazione) della
variabile risposta y non `e pi`
u univoca. Inoltre gli stimatori dei coefficienti del modello
1
0
non sono pi`
u indipendenti fra i vari fattori; infatti la matrice X? X?
non `e ortogonale
a blocchi come `e illustrato nel seguente semplice esempio di analisi della varianza a una
via.
2.5
1 1 0
1 1 0
1 0 1
?
X = 1 0 1
1 -1 -1
1 -1 -1
1 -1 -1
7 -1 -1
X X = -1 5 3
-1 3 5
?0
?0
X X
? 1
61
Consideriamo il modello:
yik = + i + ik
i = 1, . . . ,s k = 1, . . . ,ri
con il numero
P di repliche ri diverso per ogni livello del fattore A e con vincolo sui
coefficienti sj=1 j = 0.
La somma dei quadrati dei residui nel modello completo `e:
SS(,) =
ri
s X
X
(yik i )2
i=1 k=1
i=1 k=1
ri
s X
X
yik n
s
X
ri i = 0
i=1
i=1 k=1
s
1X
y
ri i = 0
n i=1
rj
X
SS
(yjk j ) = 0
= 0 , j = 1, . . . ,s
j
k=1
rj y j rj rj j = 0
y j j = 0
Sommando, su j, le derivate parziali rispetto a j si ha:
s
X
y j s
j=1
s
X
j = 0
j=1
1X
m=
y
s j=1 j
1X
aj = y j
y
s i=1 i
62
per ogni k = 1, . . . r .
La somma dei quadrati dei residui del modello completo nel campione considerato `e:
2
SS(m,a) = ky y
k =
ri
s X
X
(yik y i ) =
ri
s X
X
i=1 k=1
2
yik
i=1 k=1
s
X
ri y 2i
i=1
i
XX
dSS
yik nR = 0 mR = y
=0
dR
i=1 k=1
La somma dei quadrati dei residui del modello ridotto nel campione considerato `e:
2
SS(mR ) = ky y
R k =
ri
s X
X
(yik mR ) =
ri
s X
X
2
yik
ny 2
i=1 k=1
i=1 k=1
ky y
R k ky y
k =
ri
s X
X
i=1 k=1
2
yik
ny
ri
s X
X
2
yik
i=1 k=1
s
X
i=1
ri y 2i
s
X
ri y 2i ny 2 .
i=1
Come gi`a osservato, se i sottospazi in cui `e decomposto V non sono tra loro ortogonali,
lordine con cui si fanno le proiezioni successive di y e dei residui nel vari sottospazi non
sono univoche. Ad esempio nellanalisi della varianza a due fattori se prima si proietta
y su VA , y
A , poi si proietta il residuo y y
A su VB si ottiene un risultato diverso che se
si proietta y su VB , y
B , poi si proietta il residuo y y
B su VA .
Per gli esperimenti non bilanciati, il software SAS prevede diversi modi per calcolare
le somme dei quadrati per il calcolo delle statistiche test.
2.5
63
(2.3)
Alcuni esempi
Esempio E Si vuole verificare leffetto del tipo di cura (fattore Drug) e del tipo di
malattia (fattore Disease) su una variabile risposta (variabile Y) tramite un modello di
analisi della varianza a due vie con interazione. La variabile risposta presenta alcuni
valori mancanti in alcune combinazioni di livelli dei due fattori, quindi lesperimento
non risulta bilanciato. Pi`
u precisamente il numero di osservazioni per i quattro livelli
di Draug `e 15,15,12,16 e per i tre livelli di Disease `e 19,19,20; come si vede il fattore
Disease `e meno sbilanciato del fattore Drug.
64
proc glm;
class drug disease;
model y=drug|disease;
run; quit;
The GLM Procedure
Class Level Information
Class
drug
disease
Levels
4
3
Values
1 2 3 4
1 2 3
72
58
Dependent Variable: y
Source
Model
Error
Corrected Total
DF
11
46
57
R-Square
0.456024
Sum of
Squares
Mean Square
4259.338506
387.212591
5080.816667
110.452536
9340.155172
Coeff Var
55.66750
Root MSE
10.50964
F Value
3.51
Pr > F
0.0013
y Mean
18.87931
Source
drug
disease
drug*disease
DF
3
2
6
Type I SS
3133.238506
418.833741
707.266259
Mean Square
1044.412835
209.416870
117.877710
F Value
9.46
1.90
1.07
Pr > F
<.0001
0.1617
0.3958
Source
drug
disease
drug*disease
DF
3
2
6
Type II SS
3063.432863
418.833741
707.266259
Mean Square
1021.144288
209.416870
117.877710
F Value
9.25
1.90
1.07
Pr > F
<.0001
0.1617
0.3958
Source
drug
disease
drug*disease
DF
3
2
6
Type III SS
2997.471860
415.873046
707.266259
Mean Square
999.157287
207.936523
117.877710
F Value
9.05
1.88
1.07
Pr > F
<.0001
0.1637
0.3958
In questo caso i risultati dei test effettuati con i tre tipi di somme sono uguali, anche
perch`e le repliche nelle varie combinazioni di livelli non sono molto diverse fra loro.
Possiamo verificare che la decomposizione di SS(model) in tre quantit`a si ottiene
solo con le somme di tipo I.
Esempio F
Si considera il numero di piccioni morti ritrovati in un mese, suddivisi per regione,
provincia e tipologia di ambiente (montano, rurale, urbano). I dati non sono reali ma
simulati.
Si vuole costruire un modello predittivo del numero di piccioni morti attraverso
la tipologia di ambiente, ma si suppone che linfluenza di tale variabile sia differente
da regione a regione (lambiente montano siciliano differisce da quello trentino, ad
esempio), perci`o si considera la variabile AMBIENTE come annidata in REGIONE.
Nota: inserendo il fattore annidato regione(ambiente) `e necessario inserire anche il
2.6
65
fattore regione, per evitare che linfluenza della sola regione confluisca nella stima del
coefficiente del fattore annidato.
PROC GLM data=piccioni;
CLASS regione ambiente;
MODEL piccionimorti = regione ambiente(regione) ;quit;run;
The GLM Procedure
Class Level Information
Class
regione
ambiente
Levels
20
3
Values
AB BA CL CM EM FR LA LI LO MA MO PI PU SA SI TO TR UM VA VE
MOUNT RURAL URBAN
Sum of
Squares
5117.405763
2030.656349
7148.062112
DF
59
262
321
Coeff Var
3.515469
Root MSE
2.783989
Mean Square
86.735691
7.750597
F Value
11.19
Pr > F
<.0001
piccionimorti Mean
79.19255
Source
regione
ambiente(regione)
DF
19
40
Type I SS
4027.635249
1089.770513
Mean Square
211.980803
27.244263
F Value
27.35
3.52
Pr > F
<.0001
<.0001
Source
regione
ambiente(regione)
DF
19
40
Type III SS
4100.420719
1089.770513
Mean Square
215.811617
27.244263
F Value
27.84
3.52
Pr > F
<.0001
<.0001
I due tipi di somme di quadrati sono quasi uguali perche il numero di osservazioni
`e pressoche uguale per ogni livello del fattore annidato.
2.6
Lanalisi della covarianza `e una generalizzazione dei modelli di regressione lineare e di analisi della varianza. Il modello considerato, infatti, comprende come variabili esplicative
sia variabili quantitative che qualitative.
Se indichiamo con X la matrice le cui colonne contengono le rilevazioni delle variabili
esplicative quantitative (oltre la colonna di tutti 1) e con A la matrice con le indicatrici
dei livelli di q fattori, e con K la matrice con colonne il prodotto di ciascuna colonna di
X con ciascuna colonna di A, il modello di analisi della covarianza `e:
y = X + A + K +
dove `e il vettore dei coefficienti delle variabili quantitative, `e il vettore dei coefficienti
delle variabili qualitative e `e il vettore dei coefficienti dellinterazione fra variabili
quantitative e qualitative.
Ad esempio se si vuole studiare una variabile Y in dipendenza da una variabile quantitativa X, da un fattore A e dallinterazione fra X e A, lespressione del modello per
66
30
DF
2
27
29
Coeff Var
76.84655
Sum of
Squares
293.600000
995.100000
1288.700000
Mean Square
146.800000
36.855556
Root MSE
6.070878
F Value
3.98
Pr > F
0.0305
PostTreatment Mean
7.900000
Source
Drug
DF
2
Type I SS
293.6000000
Mean Square
146.8000000
F Value
3.98
Pr > F
0.0305
Source
Drug
DF
2
Type III SS
293.6000000
Mean Square
146.8000000
F Value
3.98
Pr > F
0.0305
proc glm;
class Drug;
model PostTreatment = Drug PreTreatment ;
run; quit;
The GLM Procedure
Class Level Information
2.6
Class
Drug
67
Values
A D F
30
DF
3
26
29
Coeff Var
50.70604
Sum of
Squares
871.497403
417.202597
1288.700000
Root MSE
4.005778
Mean Square
290.499134
16.046254
F Value
18.10
Pr > F
<.0001
PostTreatment Mean
7.900000
Source
Drug
PreTreatment
DF
2
1
Type I SS
293.6000000
577.8974030
Mean Square
146.8000000
577.8974030
F Value
9.15
36.01
Pr > F
0.0010
<.0001
Source
Drug
PreTreatment
DF
2
1
Type III SS
68.5537106
577.8974030
Mean Square
34.2768553
577.8974030
F Value
2.14
36.01
Pr > F
0.1384
<.0001
68
Capitolo 3
Modelli lineari generali
3.1
In questo paragrafo approfondiremo alcune questioni legate alla stimabilit`a dei parametri
di un modello lineare, considerando genericamente modelli con variabili esplicative sia
quantitative che qualitative, se non diversamente precisato.
3.1.1
Modelli sovraparametrizzati
Abbiamo visto, nel capitolo sullanalisi della varianza, che non sempre tutti i parametri
del modello sono stimabili e abbiamo messo in relazione la stimabilit`a con il rango della
matrice X. Si possono avere casi di non stimabilit`a di tutti i parametri anche quando il
numero di colonne della matrice X `e maggiore del numero di righe, cio`e quando si hanno
pi`
u variabili esplicative che unit`a sperimentali. Questo avviene quando le rilevazioni sono
particolarmente costose o in generale difficili da effettuare; una situazione tipica riguarda
le espressioni geniche negli studi del DNA, dove il numero di geni presi in considerazione
`e molto pi`
u elevato del numero di osservazioni effettuate. Metodi per trattare questo
tipo di modelli sono oggetto di studi e ricerche attuali. Di seguito ci concentreremo
essenzialmente su parametrizzazioni per modelli di tipo analisi della varianza.
Consideriamo il modello:
Y = X +
(3.1)
dove il numero di parametri `e p e il rango di X `e r, con r < p.
Un primo tipo di approccio per trovare un insieme di parametri stimabili `e quello di
costruire un nuovo modello
Y = D +
(3.2)
con D di rango r che generi lo stesso sottospazio vettoriale di X.
Esamineremo tre tipi di soluzioni a questo problema: limposizione di vincoli sui parametri, la riparametrizzazione del modello a partire da un vettore di coefficienti fissati
e la riparametrizzazione del modello a partire da una sottomatrice di X fissata.
` quanto `e gi`a stato visto nel capitolo relativo
1. Si impongono vincoli sui parametri. E
allanalisi della varianza.
69
70
(3.3)
Una possibile soluzione (non unica) si trova osservando che la matrice LLt `e quadrata
e di rango pieno, dunque `e invertibile. Quindi, nella relazione (3.3) moltiplichiamo
1
a destra per la matrice Lt (LLt ) ottenendo:
1
1
XLt LLt
= DLLt LLt
;
da cui:
D = XLt LLt
1
(3.4)
Come esempio consideriamo un modello ANOVA a una via con tre livelli in cui si
vuole stimare il vettore delle deviazioni delle medie di livello dalla media generale
= ( + 1 , + 2 , + 3 )t . In tal caso le matrici L e X (considerando per
due repliche per ogni livello del fattore) sono:
1 1 0 0
!
1 1 0 0
1 1 0 0
1 0 1 0
L = 1 0 1 0
X=
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
3.1
71
La matrice del modello di rango pieno D che si ottiene dalla relazione (3.4) `e:
1 1 1
1 1 1
1
1 1 1
.
D=
1
1
1
2
1 1 1
1 1 1
Il modello Y = D + , scritto esplicitando le relazioni nei tre livelli del fattore,
diventa:
Y1k = 1/2 ( + 1 + 2 + 3 ) + 1k = 1/2 ( + 1 2 3 ) + 1k
Y2k = 1/2 ( 1 + 2 + 3 ) + 2k = 1/2 ( 1 + 2 3 ) + 2k
Y3k = 1/2 ( 1 + 2 + 3 ) + 3k = 1/2 ( 1 2 + 3 ) + 3k .
Una scelta di parametri da stimare che corrisponde a un modello pi`
u facilmente
t
interpretabile `e: = ( + 1 , + 2 , + 3 ) . Infatti in tal caso
1 0 0
!
1 0 0
1 1 0 0
0 1 0
L= 1 0 1 0
D=
0 1 0
1 0 0 1
0 0 1
0 0 1
Quindi il modello, scritto esplicitando le relazioni nei tre livelli del fattore, diventa:
Y1k = + 1 + 1k
Y2k = + 2 + 2k
Y2k = + 3 + 3k .
3. Si determina una sottomatrice D di X di rango pieno e si trova il vettore di r
parametri corrispondenti.
Si partiziona la matrice X in due blocchi X = [X1 X2 ] in modo che X1 sia di rango
pieno. Il corrispondente vettore dei coefficienti `e = ( 1 2 )t . Il modello (3.2) che
si considera `e:
Y = X1 + ,
Bisogna ricavare in funzione di . Si ha:
= 1 + Xt1 X1
1
Xt1 X2 2
Dimostrazione.
Sappiamo che il proiettore ortogonale nel sottospazio V generato da X1 `e: PV =
1
X1 (Xt1 X1 ) Xt1 . Le colonne di X2 , essendo linearmente dipendenti dalle colonne
di X1 , appartengono a V , quindi PV X2 = X2 . Quindi:
1 t
Y = X + = X1 1 + X2 2 + = X1 1 + X1 Xt1 X1
X 1 X2 2 + =
1
= X1 1 + Xt1 X1
Xt1 X2 2 +
72
Come esempio consideriamo nuovamente un modello ANOVA a una via con tre
livelli non bilanciato. Si partiziona la matrice X, e di conseguenza il vettore , nel
seguente modo:
1 1 0 0
1 1 0 0
1 0 1 0
= 1
X=
1 0 1 0
2
1 0 0 1
3
1 0 0 1
1 0 0 1
Da cui:
Xt1 X1
1
Xt1 X2 =
1
1
1
!
=
+ 3
1 3
2 3
Gli ultimi parametri (relativi al fattore A) sono quindi le deviazioni delle medie di
livello dalla media del terzo livello, che quindi risulta essere un livello di riferimento. La scelta di X2 dipende da quale livello del fattore si intende prendere come
riferimento.
Il modello Y = X1 + , scritto esplicitando le
diventa:
Y1k = + 3 + 1 3 + 1k
Y2k = + 3 + 2 3 + 2k
Y3k =
+ s1 + s2 + s1 ,s2
..
.
( ) + (
i
s1
i,s2
s1 ,s2
..
= ( ) + (
)
j
s
s
,j
s
,s
2
1
1
2
..
( ) (
)
s1 ,j
i,s2
s1 ,s2
i,j
..
.
+ s1 + s2
..
i s
1
=
..
s2
j
..
.
3.1
73
+ s1 + s2 (s1 )
(1 s1 ) + (s2 (1 ) s2 (s1 ))
..
(i s ) + (s (i ) s (s ))
1
2
2
1
..
(
)
(
)
=
1
1
s2
1
2 (1 ) s2 (1 )
.
.
j (i ) s2 (i )
..
s2 1 (s1 ) s2 (s1 )
con i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.
Osservazione. Questo tipo di riparametrizzazione `e quella che usa il software SAS.
Le stime fornite per i parametri sono quindi quelle per e non, ad esempio per
(,1 ,2 )t , come potrebbe sembrare.
Esempio A Riprendiamo in considerazione lesempio G sulleffetto del trattamento
sul numero di bacilli della lebbra del capitolo 2. Qui sotto `e riportata la parte di
output corrispondente alle stime dei parametri.
proc glm;
class Drug;
model PostTreatment = Drug PreTreatment / solution;
run; quit;
Parameter
Intercept
Drug
A
Drug
D
Drug
F
PreTreatment
Estimate
-0.434671164
-3.446138280
-3.337166948
0.000000000
0.987183811
B
B
B
B
Standard
Error
2.47135356
1.88678065
1.85386642
.
0.16449757
t Value
-0.18
-1.83
-1.80
.
6.00
Pr > |t|
0.8617
0.0793
0.0835
.
<.0001
NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.
La stima del valore atteso della variabile risposta nei tre livelli `e quindi:
(
PostTreatmentik =
74
Esiste poi un quarto modo per effettuare le stime dei coefficienti quando la matrice X
non `e di rango pieno che consiste nellusare una inversa generalizzata.
Ricordiamo che se A `e una matrice n m, si dice che A `e inversa generalizzata di
A, se vale:
AA A = A .
Se A `e invertibile, allora A = A1 . Per ogni matrice quadrata non di rango pieno o
rettangolare esistono infinite inverse generalizzate.
Nel caso in cui: A = Xt X si pu`o dimostrare che:
- X (Xt X) Xt `e un proiettore sullo spazio delle colonne di X; infatti `e una matrice simmetrica (per la propriet`a precedente), idempotente (facilmente verificabile).
3.1
75
76
1 1 0
!
1 1 0
1 0 1
1
X? ? =
1 0 1
2
1 1 1
1 1 1
P
e il vincolo
i = 0, lo stimatore dei minimi quadrati di ? `e:
Y11
! Y12
Y
Y
1
1
1
1
1
1
Y21
1
1 (Y11 + Y12 ) Y = Y 1. Y
2 2 1 1 1 1
Y22 =
2
6 1 1 2 2 1 1
1
(Y21 + Y22 ) Y
Y 2. Y
Y31
2
Y32
Utilizzando il software CoCoA si ottiene che una base del ker della matrice (X? )t `e:
!
1 1 0 0 0 0
0 0 1 1 0 0
0 0 0 0 1 1
3.1
77
e dunque per esempio uno stimatore non distorto del parametro 1 (con il vincolo sulla
somma dei coefficienti uguale a 0) `e dato da:
Y11
Y12
Y21 1
1
(Y11 + Y12 ) Y + ( 1 1 0 0 0 0 )
Y22 = 2 (3Y11 Y21 ) Y
2
Y31
Y32
Verifichiamo che `e non distorto:
1
1
E
(3Y11 Y12 ) Y = (3 + 31 1 ) = 1
2
2
Questo stimatore per`o non `e di minima varianza; si verifica facilmente che la sue varianza
`e 37 2 mentre quella dello stimatore dei minimi quadrati `e 13 2
3.1.3
H0 : L 6= 0
implica
L = 0
Un approfondimento: stimabilit`
a dei coefficienti e confusione
Precisiamo le condizioni di stimabilit`a di una funzione lineare dei parametri lt e individuiamo relazioni di confusione con altre funzioni lineari dei parametri. Consideriamo
lt funzione parametrica lineare dei e indichiamo con W lo spazio di dimensione p
generato dalla matrice X con l, Rp , allora lt non `e stimabile se l 6 W .
W `e un sottospazio vettoriale di Rp , che pu`o essere riscritto quindi come
Rp = W W c
con W c uno spazio complementare di W. Analogamente anche l pu`o essere decomposto
come
l = lW + lW c
Dalluguaglianza precedente si ricava che la funzione parametrica lt pu`o essere riscritta come
lt = ltW + ltW c
78
Sappiamo che ltW `e stimabile, quindi lt risulta stimabile sotto il vincolo ltW c = 0.
La scelt`a di W c `e arbitraria, una possibilit`a `e considerare W .
Un esempio
Consideriamo un modello di tipo ANOVA ad una via con un fattore a tre livelli
Y = + 1 A1 + 2 A2 + 3 A3 +
un generico elemento appartenente allo spazio generato dalle righe della matrice X
assume la forma
lW = k1 (1,1,0,0) + k2 (1,0,1,0) + k3 (1,0,0,1) = (k1 + k2 + k3 ,k1 ,k2 ,k3 )
con ki Rp . Nessun parametro `e singolarmente stimabile, ad esempio la media si ottiene
t
da lW
= [1,0,0,0] che non appartiene a W . Per conoscere quali parametri sono stimabili
bisogna prima individuare i vincoli a cui devono sottostare. Scegliamo come sottospazio
complementare a W il suo ortogonale W , allora il vincolo a cui devono sottostare i
t
parametri stimabili `e lW
= 0. Indichiamo un generico elemento appartenente a W ,
come
ltW = (l1 ,l2 ,l3 ,l4 ) con li Rp
Essendo i due sottospazi ortogonali, i vettori che li generano saranno ortogonali quindi
(k1 + k2 + k3 )l1 + l2 k1 + k2 l3 + k3 l4 = 0
che sviluppato diventa
k1 (l1 + l2 ) + k2 (l1 + l3 ) + k3 (l1 + l4 ) = 0
e quindi si ottiene
l1 = l2
l1 = l3
l1 = l4
l + d 6= 0
e lW + dW = 0
3.2
79
e W
R \ {0}
3.2
dt = 21 + 2 + 3 .
j = 1, . . . ,r
con le usuali ipotesi sulla distribuzione degli errori e quindi delle variabili aleatorie
risposta:
j N n 0n , j2 In
e
Yj N n X j , j2 In .
Il modello multivariato si scrive come:
Y =X B+
dove Y `e una matrice di dimensione nr con colonne le variabili risposta Y1 , . . . ,Yj , . . . Yr ,
B `e una matrice di dimensione pr con colonne i vettori dei coefficienti 1 , . . . , j , . . . r e
`e una matrice di dimensione nr con colonne le variabili aleatorie errori 1 , . . . ,j , . . . r .
Y1
Y11
Yi1
Yr
Y1r
Yir
x1
x11
=
xi1
xp
x1p
xip
11
21
Ynr
Y
xn1
r1
r1
1i
ri
1n
rn
pr
xnp
X
1
11
1r
2r
p1
Yn1
80
Come gi`a detto le variabili risposta di ciascun vettore aleatorio (colonna) sono assunti indipendenti. La stessa ipotesi di indipendenza non vale per le variabili riga
della matrice Y; infatti Yi1 , . . . ,Yir sono riferite alla stessa unit`a sperimentale e quindi
bisogna supporre che abbiano una matrice di covarianza i non diagonale. Si assume
che tale matrice sia uguale per ogni unit`a sperimentale, . Indichiamo con Yi il vettore
(Yi1 , . . . ,Yir ), con i il vettore (1i , . . . ,ri ) e con xti la riga i-esima della matrice X. Quindi:
i N n (0n , )
e
Yi N n xti B, .
La matrice di covarianza delle n r variabili aleatorie campionarie
Y11 , . . . ,Y1r , . . . ,Yi1 , . . . ,Yir , . . . ,Yn1 , . . . ,Ynr
`e quindi diagonale a blocchi e ciascun blocco corrisponde alla matrice .
3.2.1
Stimatori
np
np
`e
La stima della matrice di correlazione costruita a partire da quella di covarianza
detta matrice di correlazione parziale delle variabili risposta Y, dove il termine parziale
indica che tali stime sono effettuate tramite i residui, cio`e utilizzando sia le realizzazioni
Test di ipotesi
La forma generale dei test di ipotesi sui parametri dei modelli lineari multivariati `e:
H0 : LBM = 0
H1 : LBM 6= 0
3.2
12
22
32
42
81
13
23
=0
33
43
2j = 3j
j = 1,2,3
i1 = i3
i = 1, . . . ,4
;
SSC
q
dove
SSC = Yt PV Y
Osserviamo che nel caso univariato con Y si intende un vettore di variabili risposta. Si
pu`o dimostrare che PV \V0 si pu`o scrivere in funzione della matrice L:
1 t
1
1 t
L Xt X
PV \V0 = X Xt X
L LXt XLt
X .
82
Nel caso multivariato le statistiche test sono costruite in modo analogo e si basano
sulle matrici E e H calcolate come:
1
1 t
1 t
L Xt X
XY
E = Yt PV Y e H = Yt PV \V0 Y = Yt X Xt X
L LXt XLt
dove in questo caso (multivariato) con Y si intende una matrice di variabili risposta. Da
cui si ha:
E + H = Yt PV0 Y .
1
E.
Osserviamo che lo stimatore della matrice `e np
Se il test coinvolge anche ipotesi che comprendono la matrice M, le statistiche precedenti sono costruite sostituendo alla matrice Y, la matrice YM.
Statistiche test
Nella costruzione delle principali statistiche test per i modelli multivariati giocano un
ruolo importante la matrice E1 H e suoi autovalori, che indichiamo con 1 , . . . ,m .
Si pu`o dimostrare che gli autovalori di E1 H non dipendono dalla matrice M scelta.
- Lambda di Wilks: = det E/det(H + E).
Nel caso univariato questa statistica corrisponde a SSC /SSR .
Si pu`o dimostrare che questa statistica corrisponde a quella del test del rapporto di
verosimiglianza.
Q
1
Si pu`o dimostrare inoltre che = m
i=1 1+i .
P
i
- Traccia di Pillai: traccia (H(H + E)1 ). Si pu`o dimostrare che `e uguale a m
i=1 1+i .
P
- Traccia di Hotelling: traccia (E1 H) che `e uguale a m
i=1 i
- Massimo autovalore di Roy: maxi i .
Sotto lipotesi nulle, tutte le statistiche precedenti possono essere approssimate con
variabili aleatorie con legge Fisher con opportuni gradi di libert`a.
Esempio B Analisi della varianza multivariata (MANOVA)
Lesempio `e tratto dal manuale on-line di SAS.
Si vogliono studiare le differenze nelle caratteristiche chimiche di vasi antichi trovati
in quattro luoghi di forni in Gran Bretagna. I dati sono tratti da Tubb, Parker, and
Nickless (1980), come riportato in Hand et al. (1994). Per ciascuno dei 26 campioni di vasi sono misurate le percentuali di ossido di cinque metalli, alluminio, ferro,
manganese, calcio e sodio. Queste sono considerate variabili risposta in dipendenza
dal fattore luogo di ritrovamento. Viene quindi effettuata una analisi della varianza
multivariata a una via. Inoltre viene effettuato un test per verificare se le percentuali
di ossidi dei vasi di un sito del Galles (Llanederyn, quarto livello in ordine alfabetico)
differiscono o meno dalla media di quelle degli altri luoghi.
In questo esempio i test sono solo del tipo H0 : LB = 0 in quanto le variabili
risposta si riferiscono a ossidi diversi e non risulta interessante considerare variabili
ottenute per trasformazione lineare delle variabili risposta,
3.2
data pottery;
input Site $12. Al
datalines;
Llanederyn
14.4 7.00
Llanederyn
13.8 7.08
Llanederyn
14.6 7.09
Llanederyn
11.5 6.37
Llanederyn
13.8 7.06
Llanederyn
10.9 6.26
Llanederyn
10.1 4.26
Llanederyn
11.6 5.78
Llanederyn
11.1 5.49
Llanederyn
13.4 6.92
Llanederyn
12.4 6.13
Llanederyn
13.1 6.64
Llanederyn
12.7 6.69
Llanederyn
12.5 6.44
83
Fe Mg Ca Na;
4.30
3.43
3.88
5.64
5.34
3.47
4.26
5.91
4.52
7.23
5.69
5.51
4.45
3.94
0.15
0.12
0.13
0.16
0.20
0.17
0.20
0.18
0.29
0.28
0.22
0.31
0.20
0.22
|
|
|
|
|
|
|
|
|
|
|
|
|
0.51
0.17
0.20
0.14
0.20
0.22
0.18
0.16
0.30
0.20
0.54
0.24
0.22
0.23
Caldicot
Caldicot
IslandThorns
IslandThorns
IslandThorns
IslandThorns
IslandThorns
AshleyRails
AshleyRails
AshleyRails
AshleyRails
AshleyRails
;
11.8
11.6
18.3
15.8
18.0
18.0
20.8
17.7
18.3
16.7
14.8
19.1
5.44
5.39
1.28
2.39
1.50
1.88
1.51
1.12
1.14
0.92
2.74
1.64
3.94
3.77
0.67
0.63
0.67
0.68
0.72
0.56
0.67
0.53
0.67
0.60
0.30
0.29
0.03
0.01
0.01
0.01
0.07
0.06
0.06
0.01
0.03
0.10
0.04
0.06
0.03
0.04
0.06
0.04
0.10
0.06
0.05
0.05
0.05
0.03
DF
Squares
Model
Error
Corrected Total
3
22
25
175.6103187
48.2881429
223.8984615
R-Square
0.784330
Coeff Var
10.22284
Sum of
Mean Square
F Value
Pr > F
26.67
<.0001
58.5367729
2.1949156
Root MSE
1.481525
Al Mean
14.49231
Source
Site
DF
3
Type I SS
175.6103187
Mean Square
58.5367729
F Value
26.67
Pr > F
<.0001
Source
Site
DF
3
Type III SS
175.6103187
Mean Square
58.5367729
F Value
26.67
Pr > F
<.0001
Contrast
Llanederyn vs. the rest
DF
1
Contrast SS
58.58336640
Mean Square
58.58336640
F Value
26.69
Pr > F
<.0001
Parameter
Intercept
Site
Site
Site
Site
AshleyRails
Caldicot
IslandThorns
Llanederyn
Estimate
12.56428571
4.75571429
-0.86428571
5.61571429
0.00000000
B
B
B
B
B
Standard
Error
0.39595414
0.77185672
1.11992744
0.77185672
.
t Value
31.73
6.16
-0.77
7.28
.
Pr > |t|
<.0001
<.0001
0.4485
<.0001
.
84
NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.
Al
48.288142857
7.0800714286
0.6080142857
0.1064714286
0.5889571429
Fe
7.0800714286
10.950845714
0.5270571429
-0.155194286
0.0667585714
Mg
0.6080142857
0.5270571429
15.429611429
0.4353771429
0.0276157143
Ca
0.1064714286
-0.155194286
0.4353771429
0.0514857143
0.0100785714
Na
0.5889571429
0.0667585714
0.0276157143
0.0100785714
0.1992928571
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 22
Al
Al
1.000000
Fe
0.307889
0.1529
0.022275
0.9196
0.067526
0.7595
0.189853
0.3856
Mg
Ca
Na
Fe
0.307889
0.1529
1.000000
0.040547
0.8543
-0.206685
0.3440
0.045189
0.8378
Mg
0.022275
0.9196
0.040547
0.8543
1.000000
0.488478
0.0180
0.015748
0.9431
Ca
0.067526
0.7595
-0.206685
0.3440
0.488478
0.0180
1.000000
0.099497
0.6515
Na
0.189853
0.3856
0.045189
0.8378
0.015748
0.9431
0.099497
0.6515
1.000000
Al
Fe
Mg
Ca
Na
Al
Fe
Mg
Ca
Na
175.61031868
-149.295533
-130.8097066
-5.889163736
-5.372264835
-149.295533
134.22161582
117.74503516
4.8217865934
5.3259491209
-130.8097066
117.74503516
103.35052703
4.2091613187
4.7105458242
-5.889163736
4.8217865934
4.2091613187
0.2047027473
0.154782967
-5.372264835
5.3259491209
4.7105458242
0.154782967
0.2582456044
3.2
85
96.39
3.53
0.08
0.00
0.00
Characteristic Vector
Al
Fe
VEV=1
Mg
Ca
Na
M=0.5
N=8
Value
F Value
Num DF
Den DF
Pr > F
0.01230091
1.55393619
35.43875302
34.16111399
13.09
4.30
40.59
136.64
15
15
15
5
50.091
60
29.13
20
<.0001
<.0001
<.0001
<.0001
Al
Fe
Mg
Ca
Na
Al
Fe
Mg
Ca
Na
58.583366402
-64.56230291
-57.57983466
-1.438395503
-3.698102513
-64.56230291
71.151441323
63.456352116
1.5851961376
4.0755256878
-57.57983466
63.456352116
56.593493386
1.4137558201
3.6347541005
-1.438395503
1.5851961376
1.4137558201
0.0353168783
0.0907993915
-3.698102513
4.0755256878
3.6347541005
0.0907993915
0.2334444577
Percent
Characteristic Vector
Al
Fe
16.1251646
0.0000000
0.0000000
0.0000000
0.0000000
VEV=1
Mg
Ca
Na
0.08723574 0.98158668
-0.17632854 5.16256699
-0.01774069 -0.83096817
0.22156791 0.00000000
0.00000000 0.00000000
0.71925759
-0.01022754
2.17644566
0.00000000
0.00000000
86
M=1.5
N=8
Value
F Value
Num DF
Den DF
Pr > F
0.05839360
0.94160640
16.12516462
16.12516462
58.05
58.05
58.05
58.05
5
5
5
5
18
18
18
18
<.0001
<.0001
<.0001
<.0001
In questo caso lanalisi multivariata fornisce gli stessi risultati di quella univariata. Si
conclude che c`e una differenza statisticamente significativa della composizione chimica
dei vasi dei differenti insediamenti (test di uguaglianza dei valori attesi dei siti); inoltre
risulta che la composizione dei vasi provenienti da Llanederyn `e differente dalla media
delle composizioni chimiche degli altri insediamenti (test calcolato con contrast).
3.2.3
Misure ripetute
Nei modelli in cui una grandezza `e misurata sulle stesse unit`a sperimentali in diverse
condizioni assumono rilevanza i test del tipo H0 : BM = 0 o pi`
u in generale H0 :
LBM = 0.
La matrice M, come gi`a visto in precedenza, permette di verificare gli effetti delle
variabili esplicative su trasformazioni lineari delle variabili risposta. Le statistiche test
sono infatti costruite sostituendo alla matrice Y, la matrice YM. Un caso tipico si ha
quando si vuol verificare se le variabili esplicative hanno un diverso effetto sulla stessa
variabile risposta rilevata in tempi successivi. Il SAS ha predefinite alcune matrici M
che corrispondono ai test pi`
u comuni per verificare se sono intervenute modifiche della
variabile risposta misurata in ciascuna condizione rispetto:
- a una condizione di riferimento (tipicamente lultima, il default, o la prima) (opzione
contrast(k))
- alla condizione successiva (opzione profile)
- alla media delle condizioni successive (opzione helmert)
- alla media di tutte le altre condizioni (opzione mean).
Le matrici M per questi tre test sono (supponendo 4 condizioni per la variabile risposta)
1 0 0
1 1/3 1/3
1 0 0
1 0 0
0 1 0 1 1 0 1/3 1 0 1/3 1 1/3
0 0 1 0 1 1 1/3 1/2 1 1/3 1/3 1/3
1 1 1
0 0 1
1/3 1/2 1
1/3 1/3 1
Esiste poi la possibilit`a di verificare la forma polinomiale dei coefficienti. Questo `e il
caso in cui si ipotizza che landamento della variabile risposta nelle diverse condizioni
sia di tipo polinomiale (ad esempio Y 2 corrisponda alleffetto quadratico, Y 3 corrisponda
3.2
87
!
!
1/ 2 1/ 6
0 0
1 1
1 1
0 2
0
2/ 6
2 4
1 1
1/ 2 1/ 6
Il test che ne risulta dallipotesi H0 : BM = 0 `e: i1 = i3 e i1 + 2i2 i3 = 0.
Esaminiamo nei dettagli i diversi tipi di test effettuati da SAS nella procedura GLM
per i modelli di misure ripetute, o in generale, di variabili risposta di cui si possono
considerare trasformazioni lineari con variabili esplicative qualitative (caso dellanalisi
della varianza).
. Test between-subjects. Vengono effettuati riconducendosi a modelli univariati.
88
3.2
89
Y3
3
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 32
Y1
Y2
Y3
Y1
1.000000
0.163046
0.116381
0.3646
0.5189
Y2
0.163046
1.000000
0.182585
0.3646
0.3091
Y3
0.116381
0.182585
1.000000
0.5189
0.3091
tempo_1
tempo_2
Variables
Transformed Variates
Orthogonal Components
Sphericity Tests
Mauchlys
DF
Criterion
2
0.7804103
2
0.9540174
Chi-Square
7.6860008
1.459274
Pr > ChiSq
0.0214
0.4821
90
tempo*A1
difference in tempo
tempo_2
-19.11291092
27.550643598
tempo*A2
difference in tempo
tempo_2
464.14143773
2677.6386434
3.2
91
Statistic
Value F Value Num DF Den DF
Pr > F
Wilks Lambda
0.15567639
11.89
8
62
<.0001
Pillais Trace
1.15022589
10.83
8
64
<.0001
Hotelling-Lawley Trace
3.45859353
13.16
8 42.028
<.0001
Roys Greatest Root
2.74195612
21.94
4
32
<.0001
NOTE: F Statistic for Roys Greatest Root is an upper bound.
NOTE: F Statistic for Wilks Lambda is exact.
Source
A1
A2
Error
Pr > F
0.8289
<.0001
- Test univariati within-subjects: essendo accettabile lipotesi di sfericit`a sono attendibili. Tempo `e considerata variabile esplicativa.
Univariate Tests of Hypotheses for Within Subject Effects
Source
DF
Type III SS
Mean Square
F Value
tempo
2
3395.470937
1697.735468
50.81
tempo*A1
6
39.704262
6.617377
0.20
tempo*A2
8
3749.169213
468.646152
14.02
Error(tempo)
64
2138.603523
33.415680
Adj Pr > F
Source
G - G
H - F
tempo
<.0001
<.0001
tempo*A1
0.9731
0.9762
tempo*A2
<.0001
<.0001
Error(tempo)
Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon
Pr > F
<.0001
0.9762
<.0001
0.9560
1.2378
DF
1
3
4
32
Type III SS
2001.528881
51.118660
2481.973739
1683.104013
Mean Square
2001.528881
17.039553
620.493435
52.597000
F Value
38.05
0.32
11.80
Pr > F
<.0001
0.8080
<.0001
DF
1
3
4
32
Type III SS
1411.096907
27.550644
2677.638643
2412.401998
Mean Square
1411.096907
9.183548
669.409661
75.387562
F Value
18.72
0.12
8.88
Pr > F
0.0001
0.9466
<.0001
92
Capitolo 4
Modelli lineari generalizzati
In questo capitolo prenderemo in esame quei modelli in cui la variabile risposta non ha
legge normale; la forma generale del modello `e sempre:
Y = E(Y) + .
Qui per`o il legame fra il valore atteso della variabile risposta e le covariate non `e, in genere,
di tipo lineare come nel caso in cui la variabile risposta di legge normale, E(Y) = X,
ma `e espresso da una funzione g invertibile e derivabile:
g(E(Y)) = X
quindi il modello lineare assume la forma:
Y = g 1 (X ) + .
La funzione g `e detta link function e, in genere, `e scelta in modo da assumere valori in
tutto linsieme dei numeri reali. Un motivo per cui non `e opportuno che la link function
sia la funzione identica `e che il valore atteso della variabile aleatoria Y pu`o appartenere
a un sottoinsieme proprio dei numeri reali e, in caso di link function identica, nella
stima dei coefficienti del modello sarebbe necessario imporre dei vincoli; ad esempio
se la variabile risposta avesse legge di Bernoulli, la stima del suo valore atteso dovrebbe
appartenere a (0,1), se avesse legge di Poisson il suo valore atteso dovrebbe appartenere
ai reali positivi, e cos` via.
La scelta della link function dipende dal tipo di legge della variabile risposta; alcune
scelte particolari per modelli a risposta binomiale o multinomiale saranno trattati in
seguito nei paragrafi 4.8 e 4.9. Nel prossimo paragrafo vedremo una famiglia di link
function che gode di buone propriet`a nel caso in cui la variabile risposta appartenga alla
classe dei modelli esponenziali.
93
94
4.1
Una variabile aleatoria Yi appartiene alla classe dei modelli esponenziali se, opportunamente riparametrizzata, la sua verosimiglianza `e proporzionale a:
L(i ; yi ) = exp (i (i )+ < i ,ti (yi ) >)
con i parametro canonico e ti (Yi ) statistica sufficiente.
Consideriamo un vettore aleatorio Y a n componenti indipendenti in cui ciascuna
variabile aleatoria Yi appartenga a una stessa famiglia di variabili aleatorie (normale,
come nel caso dei modelli lineari generali, di Bernoulli, binomiale, di Poisson, esponenziale, . . . ) con diverso parametro. Quindi le funzioni i e ti sono uguali per ogni i e la
verosimiglianza di un campione di Y `e proporzionale a:
n
Y
L(; y) =
i=1
n
X
i=1
Nel paragrafo 1.2.6 abbiamo visto che se Yi N (xti , 2 ), allora per i modelli lineari
generali si ha:
1
1
1
n
l(, 2 ; y) = log( 2 ) 2 kXk2 2 yt y + 2 < , Xt y >
2
2
2
1
1
kXk2 + 2 < , Xt y > .
2
2
Quindi i coefficienti delle variabili esplicative sono parametri canonici del modello
esponenziale e la statistica sufficiente `e Xt Y.
Nei modelli lineari generalizzati di classe esponenziale la link function cosiddetta canonica `e quella funzione che lega il valore atteso della variabile risposta alla combinazione
lineare delle variabili esplicative in modo che il modello, opportunamente riparametrizzato, abbia come parametro canonico e Xt T (Y) come statistica sufficiente. In tal caso,
per le propriet`a dei modelli di classe esponenziale, si ha E(Xt T (Y)) = ().
Vediamo alcuni esempi.
Esempio A
1. Bernoulli. Yi Bern(pi ). Si ha: E(Yi ) = i = pi e le log-verosimiglianze nei
parametri originali e nei valori attesi sono:
li (pi ; yi ) = log(1 pi ) + log
pi
yi
1 pi
li (i ; yi ) = log(1 i ) + log
i
yi .
1 i
4.1
95
i
= xti
1 i
si ottiene
i = g
(xti )
exi
1
=
.
t =
t
x
1+e i
1 + exi
n
X
li (; yi ) =
i=1
n
X
i=1
l(i ; yi ) = i + log i yi
i = g 1 (xti ) = exi .
La log-verosimiglianza delle n realizzazioni campionarie del vettore aleatorio Y `e:
l(; y) =
n
X
li (; yi ) =
i=1
n
X
i=1
Negli esempi precedenti il parametro originale della legge della variabile aleatoria
coincideva con il valore atteso. Consideriamo ora il caso generale.
Indichiamo con linsieme a cui appartengono i parametri originali della variabile
aleatoria, con linsieme dei parametri canonici del modello di classe esponenziale e con
linsieme dei valori attesi. Per ottenere la link function canonica per i modelli di classe
esponenziale bisogna prima scrivere la log-verosimiglianza nei parametri originali:
l(i ,yi )
poi riparametrizzare il modello nei valori attesi tramite una funzione invertibile k tale
che i = k(i ):
l(i ,yi ) = l(k 1 (i ),yi )
e infine riparametrizzarlo nei parametri canonici del modello esponenziale tramite una
funzione invertibile g tale che i = g(i ):
li (i ,yi ) = (i ) + i yi = (g(i )) + g(i )yi .
96
n
X
i=1
che ha come parametro canonico i coefficienti della parte lineare e come statistica
sufficiente Xt Y come nel caso dei modelli lineari generali.
Esempio B
Consideriamo il caso in cui la variabile risposta abbia distribuzione Geometrica,
Yi G(pi ). Si ha E(Yi ) = i = p1i , da cui k(pi ) = 1/pi e pi = k 1 (i ) = 1/i .
le log-verosimiglianze nei parametri originali e nei valori attesi sono:
li (pi ; yi ) = log
pi
+ log(1 pi ) yi
1 pi
li (i ; yi ) = log(i 1) + log
i 1
yi
i
i 1
= xti
i
da cui
i = g 1 (xti ) =
1
t
1 exi
n
X
li (; yi ) =
n
X
i=1
i=1
Osserviamo che in questo caso il codominio della link function non `e R ma (,0).
Questo comporta che, una volta stimati i parametri , si controlli che Xb assuma
valori negativi.
4.2
I parametri dei modelli lineari generalizzati vengono stimati tramite il metodo della
massima verosimiglianza, quindi risolvendo il sistema di equazioni
l(; y)
=0
j
j = 0, . . . ,p 1 .
(4.1)
t
Indichiamo con U = U1 , . . . ,Uj , . . . ,Up il vettore con componenti le derivate
parziali della log-verosimiglianza rispetto agli elementi del vettore :
n
Uj
l(; y) X li (; yi )
=
.
=
j
j
i=1
4.2
97
n
X
li (i ,yi ) =
i=1
n
X
i=1
i=1
j = 0, . . . ,p 1
=0
(4.2)
non `e lineare e viene risolto con metodi numerici che approfondiremo in seguito.
4.2.1
l(; y) =
n
X
li (; yi ) =
i=1
n
X
i=1
=
=
n
X
li (; y)
i=1
n
X
n
X
i=1
n
X
1
1
yi
xij
t xij + xij yi =
t
1 + exi
1 + exi
i=1
i=1
t
n
X
i=1
li (; yi ) =
n
X
i=1
exi + xti yi .
1
98
=
=
n
X
l(; y)
i=1
n
X
n
X
xti
xij + xij yi =
i=1
n
X
t
yi exi xij
i=1
i=1
i=1
n
X
l(; y)
i=1
n
X
i=1
n
X
i=1
xij +
X y i xt
xij
i
y
=
xij
i
t
xti
x
i
i=1
yi i ()
xij
V(Yi )()
li () i (gi ) gi ()
i
gi
j
i (i )
i
i () + yi
i
xij
V(Yi )()
gi
4.2
99
i
gi
(4.4)
li ()
j
li (i ) i ()
i
j
da
(4.5)
i=1
n
X
=
(yi i )xi0
con xi0 = 1 .
i=1
=
0.
i
i
i=1
4.2.2
100
f1 (x1 , . . . ,xp ) = 0
..
.
fp (x1 , . . . ,xp ) = 0
Indichiamo con J la matrice Jacobiana, di elementi Jij =
inversa.
(m)
fi
,
xj
e con J1 la sua
(m)
Indichiamo inoltre con x(m) il vettore (x1 , . . . ,xp ), con fjm la funzione fj calcolata
in x(m) e con f (m) il vettore (f1m , . . . ,fpm ).
La soluzione iterativa per il sistema al passo m `e:
x(m) = x(m1) J1 (x(m1) ) f (m1) .
(4.7)
Ui ()
2 l()
=
= Hij
j
i j
(;yi )
dove Uj = li
e Hij `e lelemento (i,j) della matrice hessiana della log-verosimiglianza
j
H (l()). Quindi le stime di massima verosimiglianza dei coefficienti al passo m sono:
(4.8)
4.2
101
Calcoliamo quindi lespressione di I il cui elemento (j,k) `e I,ij = E Uj Uk . Utilizzando lespressione Uj della formula (4.3) si ottiene:
I,jk = E Uj Uk
! n
!!
n
X
X Yh h
Y i i
i
h
= E
xij
xhk
V(Y
)
g
V(Y
)
gh
i
i
h
i=1
h=1
n X
n
X
i h
Yi i Yh h
=
xij xhk
E
V(Yi ) V(Yh )
gi gh
i=1 h=1
2 !
n
X
1
i
E(Yi i )2
xij xik
[E ((Yi i )(Yh h )) = 0]
=
V(Yi )
V(Yi )
gi
i=1
2
n
X
1
i
=
xij xik
.
V(Yi )
gi
i=1
La matrice I `e quindi:
I = Xt WX
con W matrice diagonale di elementi
1
wii =
V(Yi )
i
gi
2
.
(4.9)
(4.10)
n
X
i=1
n
X
i=1
e quindi
wii = V(Yi ) .
(4.11)
Essendo W una matrice diagonale si pu`o scrivere come W1/2 W1/2 e la matrice W1/2 X
pu`o essere considerata come la matrice X le cui righe sono pesate dagli elementi di W1/2 ,
i
1
la matrice W1/2 X. La matrice di informazione di Fisher
cio`e std(Y
. Indichiamo con X
i ) gi
si scrive quindi come:
tX
.
I = X
(4.12)
Possiamo riscrivere le componenti della score function Uj della formula (4.3) utilizzando la matrice W1/2 :
n
n
X
1 i X
Y i i
j
xij
=
Yi wii xij
U =
std(Yi )
std(Yi ) gi
i=1
i=1
102
(4.13)
b(m) = b(m1) + Xt WX
W1/2 X Y
1
tX
tY
= b(m1) + X
X
1
tX
t X
b(m1) + Y
(4.14)
= X
X
Y
espressi in b(m1) .
con X
b(m1) + Y
si ottiene una formula analoga a quella
Se indichiamo con Z la quantit`a X
delle equazioni normali della formula (1.1) ottenute per il caso in cui la variabile risposta
ha distribuzione normale. Le equazioni ottenute per i modelli lineari generalizzati
1
tX
tZ
b(m) = X
X
e Z sono calcolate in b(m1) .
vengono dette dei minimi quadrati pesati. Le matrici X
Questi metodi iterativi terminano o dopo un numero prefissato di passi o quando la
differenza delle stime a due passi successivi `e inferiore a un valore prefissato: |b(m)
b(m1) | < r.
Illustriamo quanto visto con un esempio tratto da Dobson (2002).
Esempio D Consideriamo le realizzazioni campionarie di variabili aleatorie Yi osservate in corrispondenza di diversi valori di una covariata X.
Assumiamo che le risposte Yi abbiano legge di Poisson, quindi E(Yi ) = V(Yi ).
Questa assunzione sulla legge della variabile risposta pu`o essere supportata
del fatto che, per ogni valore della covariata, la media e la varianza delle
realizzazioni campionarie sono simili. Utilizziamo la link function identica. Il
modello `e quindi:
yi xi
2 -1
3 -1
6 0
7 0
8 0
9 0
10 1
12 1
15 1
E(Yi ) = i = 0 + 1 xi = xti
i = 1, . . . ,n
dove = (0 ,1 )t e xi = (1,xi )t .
Con la link function identica, dalla formula (4.10), lespressione di wii `e:
1
1
=
.
V(Yi )
0 + 1 xi
Calcoliamo le quantit`a che intervengono nelle stime iterative dei coefficienti della
formula (4.14). Si ha:
Pn
Pn
x
1
wii () =
(m1)
I (b
) = X W(b
(m1)
)X = Pn
4.2
..
.
=
W1/2 Xb(m1) + y
xi
+b1
b
q0
(m1)
(m1)
xi
+b1
b0
(m1)
(m1)
(m1)
(m1)
103
+
..
.
xi )
+b1
yi (b0
q
(m1)
(m1)
xi
+b1
b0
Pn
yi
(m1)
(m1)
+b1
xi
Pni=1 b0
xi yi
i=1 b(m1) +b(m1) x
i
1
0
=
XW1/2 W1/2 Xb(m1) + y
..
.
yi
q
(m1)
(m1)
xi
+b1
b0
..
.
b(m) =
yi
i1 b(m1) +b(m1) x
i
1
Pn 0
xi yi
i1 b(m1) +b(m1) x
i
1
0
!
.
Iter
0
1
2
Prm1
-6.274E-7
1.5737935
-0.552617
Prm2
9.4726E-7
-0.552617
1.0369984
104
Parameter
DF
Estimate
Intercept
x
Scale
1
1
0
7.4516
4.9353
1.0000
5.7188
2.8006
1.0000
9.1845
7.0700
1.0000
ChiSquare
71.04
20.53
Pr > ChiSq
<.0001
<.0001
4.3
2
3
6
7
8
9
10
12
15
x
-1
-1
0
0
0
0
1
1
1
Pred
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693
Xbeta
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693
Std
1.065302
1.065302
0.88412
0.88412
0.88412
0.88412
1.673646
1.673646
1.673646
HessWgt
Lower
Upper
Resraw
0.397404
0.397404
0.134199
0.134199
0.134199
0.134199
0.080730
0.080730
0.080730
0.428378
0.428378
5.718782
5.718782
5.718782
5.718782
9.106649
9.106649
9.106649
4.604286
4.604286
9.184485
9.184485
9.184485
9.184485
15.6672
15.6672
15.6672
-0.51633
0.483668
-1.45163
-0.45163
0.548367
1.548367
-2.38693
-0.38693
2.613066
Per verificare ladeguatezza del modello e fare inferenza sui coefficienti delle variabili esplicative `e necessario introdurre brevemente alcune statistiche basate sulla verosimiglianza e ricordare alcune propriet`a - asintotiche - degli stimatori di massima
verosimiglianza.
4.3
105
L()
= 2(l(V) l())
L(V)
1
( V )2 U0 (V ) .
2
Essendo V stimatore di massima verosimiglianza di si ha: U (V ) = 0. Inoltre, per grandi campioni possiamo approssimare U0 (V ) con il suo valore atteso: U0 (V ) ' E(U0 (V )) =
I (V ). Quindi:
2 (l(V ) l()) ' ( V )2 I (V ) .
In generale se A Rd , l() `e una funzione da Rd a R e si ha:
l() = l(V) + ( V)t U (V) +
1
( V )t H (l(V))( V)
2
106
(4.15)
Y =X G X=X Q
1/2
1/2
Q X=
1/2
Q X
t
1/2
Q X = Zt Z
4.4
107
4.4
Test di bont`
a di adattamento
108
codificati con 1,1, non possiamo aggiungere nessuna potenza perche X22 , coincide con il
vettore costante che, si presuppone, gi`a appartenga al modello. In questo caso il modello
massimale `e:
Y = g 1 (Xmax max )
= g 1 max0 + max1 X1 + max2 X21 + max3 X2 + max4 X1 X2 + max5 X21 X2 .
Questo modello ha 6 parametri, che `e infatti il numero di righe della matrice X differenti
fra loro, 6 = 3 2. Osserviamo che il modello massimale non ha errore.
In realt`a per gli scopi di questo paragrafo il modello massimale non viene costruito
esplicitamente, ma si utilizza solo lo stimatore del valore atteso della variabile risposta.
La matrice Xmax `e quadrata di rango pieno, quindi `e invertibile, e lo stimatore dei
coefficienti `e
Bmax = X1
max g(Y).
Infatti da Y = g 1 (Xmax Bmax ) segue g(Y) = Xmax Bmax e X1
max g(Y) = Bmax . Quindi
E(Yi ) viene stimato con Yi ; infatti:
b = g 1 (Xmax Bmax ) = g 1 (Xmax X1
max g(Y)) = Y .
Dunque, per la singola unit`a sperimentale:
xtmaxi bmax = g(yi ) e yi = g 1 (xtmaxi bmax ).
Vediamo alcuni esempi considerando le link function canoniche:
1. Se Yi N (xti , 2 ), allora xtmaxi bmax = yi
i
2. Se Yi Binom(ni ,pi ), allora xtmaxi bmax = log niyy
i
4.4
109
Xt Y diventa:
1 t
1 t
1
1
n
l(B) = log( 2 ) 2 Yt X Xt X
X X Xt X
X Y 2 Yt Y +
2
2
2
1
1 t
n
1
Y X Xt X
Xt Y = log( 2 ) 2 Yt PV Y =
2
2
2
n
1
= log( 2 ) 2 Et E .
2
2
Nel modello saturo Xmax Bmax = Y e
1
1
1
n
n
l(Bmax ) = log( 2 ) 2 Yt Y 2 Yt Y + 2 Yt Y = log( 2 ) .
2
2
2
2
Quindi la devianza per il modello lineare generale `e:
D() =
1 t
EE
2
che ha legge esatta 2[np] . In questo caso la devianza dipende dal parametro 2 ,
detto anche parametro di disturbo. Talvolta si utilizza la cosiddetta devianza
scalata che `e definita come: 2 D().
2. Legge binomiale. Yi Binom(ni ,pi ), i = 1, . . . ,n.
Come abbiamo gi`a visto nellesempio A del paragrafo 4.1, la verosimiglianza parametrizzata nei parametri `e:
l() =
n
X
li (i ) =
i=1
n
X
ni log
i=1
ni i
i
+ yi log
.
ni
ni i
Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
g 1 (xti ), allora
l((b))
n
X
li (
i (b)) =
i=1
n
X
ni log
i=1
i
ni
i
+ yi log
.
ni
ni
i
n
X
i=1
li (yi ) =
n
X
i=1
ni log
yi
ni y i
+ yi log
.
ni
ni yi
110
D(b) = D((b))
n
X
ni yi
yi
ni
i
i
= 2
ni log
+ yi log
ni log
yi log
ni
ni yi
ni
ni
i
i=1
= 2
n
X
i=1
yi log
ni y i
yi
+ (ni yi ) log
.
i
ni
i
n
X
li (i ) =
n
X
i=1
i + yi log i .
i=1
Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
1
t
g (xi b), allora
l((b))
n
X
li (
i (b)) =
n
X
i=1
i + yi log
i .
i=1
n
X
li (yi ) =
i=1
n
X
yi + yi log yi .
i=1
D(b) = D((b))
=2
n
X
i=1
X
yi
yi log 2
yi
i .
i
i=1
Se il modello contiene la costante e la link function `e quella canonica allora, utilizzando la formula (4.6), lultimo addendo `e nullo e la devianza per il modello di
Poisson `e:
n
X
yi
D(b) = 2
.
yi log
i
i=1
Osserviamo che sia per il modello binomiale con la link function canonica che per il
modello di Poisson con la link function canonica e, questultimo, nel caso in cui ci sia
il termine costante la devianza si scrive come
n
X
oi
D=2
oi log
(4.16)
ei
i=1
4.4
111
avendo indicato con oi i valori osservati e con ei le stime dei valori attesi, cio`e
i . Nel
modello di Poisson questo `e evidente. Nel modello binomiale bisogna tener presente
che i valori osservati sono sia i successi, gli yi , che gli insuccessi, cio`e gli ni yi .
Il test sulla bont`a del modello corrente basato sulla devianza ha una zona di rifiuto
dellipotesi principale del tipo (c , + ). Questo test ha il difetto che in presenza di un
alto numero di unit`a sperimentali in genere la conclusione del test `e il rifiuto lipotesi
principale. Infatti, allaumentare delle unit`a sperimentali, da un lato aumenta il numero
dei parametri del modello massimale e dallaltro aumenta il valore campionario della devianza in quanto questo `e calcolato come la somma dei valori della devianza per ciascuna
unit`a e, anche se il valore c aumenta allaumentare dei gradi di libert`a, spesso in questi
casi si giunge a un rifiuto della bont`a di adattamento del modello ai dati.
Per questo spesso si considera la realizzazione della devianza divisa per i gradi di
libert`a. Se questo valore non `e molto pi`
u grande di 1 si considera il modello corrente ben
adattato ai dati. Per capire il significato di questo indice ricordiamo che il valore atteso
di una variabile aleatoria con legge chi quadro `e uguale ai gradi di libert`a; ricordiamo
inoltre nel modello lineare generale se il parametro 2 `e stimato da S 2 , allora questo
indice vale 1.
4.4.2
Statistica 2 di Pearson
X =
n
X
(oi ei )2
ei
i=1
X =
n
X
(yi ni pi )2
i=1
ni pi
n
X
((ni yi ) ni (1 pi ))2
i=1
ni (1 pi )
n
X
(yi ni pi )2
=
.
ni pi (1 pi )
i=1
112
n
X
i=1
oi ei +
n
X
(oi ei )2
i=1
ei
=X +2
n
X
oi ei .
i=1
Se la link
P function `e quella canonica e la parte lineare del modello comprende la costante
si ha ni=1 oi ei = 0 e dunque:
D ' X2 .
4.4.3
Il modello corrente pu`o essere confrontato anche con il modello minimale, cio`e il modello
comprendente nella parte lineare solo la costante, cos` come si fa per i modelli lineari
generali. Due sono le statistiche che in genere si usano:
G = 2 (l(B) l(Bmin ))
D(Bmin ) D(B)
l(B) l(Bmin )
=
.
pseudoR2 =
l(Bmin )
2l(Bmin )
Con dimostrazione analoga a quanto visto per la devianza, si trova che la statistica G ha
legge asintotica 2[p1] .
4.5
4.5.1
se H0 `e vera .
4.6
Residui
113
compare un parametro nelle devianze, allora spesso si usa come statistica test la differenza
relativa di devianze:
D/q
F =
F[q,np]
se H0 `e vera
DC /(n p)
altrimenti ha legge F di Fisher decentrata.
4.5.2
Per linferenza sui valori attesi i della variabile risposta Yi si utilizzano i risultati gi`a
indicati per i coefficienti , ricordando che:
i = g 1 (xti )
= g 1 (X )
i = g 1 (xti B)
= g 1 (X B) .
Si ha, asintoticamente:
t
1
V(B) = I 1
B = (X W(B)X)
4.6
Residui
Ladeguatezza del modello, anche in questo caso, deve essere controllata tramite unanalisi dei residui. Vari tipi di residui possono essere considerati.
- Residui grezzi
ri = y i
i
- Residui chi quadro di Pearson
ri
r
q i
e i corrispondenti standardizzati rPi = q
\
\
V(Y
V(Y
i)
i )(1 hi )
dove con hi si `e indicato lelemento diagonale della matrice H:
H = W(B)1/2 X(Xt W(B)X)1 XW(B)1/2 .
- Residui basati sulla devianza
p
sign(ri ) di
sign(ri ) di e i corrispondenti standardizzati rDi =
1 hi
dove con di si `e indicato il contributo alla devianza delli-esima unit`a sperimentale.
114
4.7
q
2
= sign(ri ) (1 hi )rD
+ hi rP2 i .
i
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
proc genmod;
class insecticide;
model killed/number= insecticide deposit
/ obstats itprint expected corrb;
output out=risultati pred=pre STDRESCHI=res_st
LOWER=inf_med UPPER=sup_med;
run;quit;
goption ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90);
symbol1 v=dot c=black i=none;
symbol2 v=diamond i=j l=1 c=black;
symbol3 v=star i=j l=2 c=black;
proc gplot data=risultati;
plot res_st*pre/vref=0 vaxis=axis1;
run;quit;
proc gplot data=risultati;
plot (pre inf_med sup_med)*deposit/
overlay vaxis=axis1;
by insecticide;
run;quit;
Loutput `e il seguente. Alcuni dati sono stati arrotondati per problemi di impaginazione.
Per la lettura, oltre a quanto osservato nellEsempio D di questo capitolo, possiamo aggiungere che i limiti di confidenza per i coefficienti, come indicato nelloutput,
vengono calcolati usando la statistica di Wald, o meglio la sua radice quadrata.
4.7
115
Model Information
Data Set WORK.RISULTATI
Predicted Values and Diagnostic Statistics
Distribution
Link Function
Response Variable (Events)
Response Variable (Trials)
Observations Used
Number Of Events
Number Of Trials
Binomial
Logit
Killed
Number
18
506
862
Iter
0
1
2
3
Ridge
0
0
0
0
Parameter Information
Effect
Insecticide
Intercept
Insecticide
1
Insecticide
2
Insecticide
3
Deposit
Prm5
0.5475149
0.6247137
0.6316239
0.6316762
DF
14
14
14
14
Value
48.0258
48.0258
47.2792
47.2792
-401.5659
Value/DF
3.4304
3.4304
3.3771
3.3771
Prm1
-2.196E-7
130.4985
43.448286
54.002832
523.6365
Prm2
-5.124E-8
43.448286
43.448286
0
191.49338
Prm3
-4.149E-8
54.002832
0
54.002832
229.90198
Prm5
-1.925E-6
523.6365
191.49338
229.90198
2510.4832
Algorithm converged.
Estimated Correlation Matrix
Prm1
Prm2
Prm3
Prm5
Prm1
1.0000
-0.3391
-0.3795
-0.6782
Prm2
-0.3391
1.0000
0.6238
-0.2832
Prm3
-0.3795
0.6238
1.0000
-0.2637
Prm5
-0.6782
-0.2832
-0.2637
1.0000
116
Parameter
Intercept
Insecticide
Insecticide
Insecticide
Deposit
Scale
DF
1
2
3
1
1
1
0
1
0
-0.5333
-2.6880
-2.3185
0.0000
0.6317
1.0000
0.2367
0.2407
0.2290
0.0000
0.0519
0.0000
-0.9973
-3.1597
-2.7672
0.0000
0.5300
1.0000
-0.0694
-2.2163
-1.8697
0.0000
0.7334
1.0000
0.0242
<.0001
<.0001
.
<.0001
Killed
3
5
19
19
24
35
2
14
20
27
41
40
28
37
46
48
48
50
Number Deposit
50
2
49
2.64
47
3.48
38
4.59
29
6.06
50
8
50
2
49
2.64
50
3.48
50
4.59
50
6.06
50
8
50
2
50
2.64
50
3.48
50
4.59
50
6.06
50
8
Insect
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
Pred
0.1236824
0.1745469
0.264418
0.4201957
0.6471634
0.8620052
0.1695972
0.2342957
0.3421778
0.5118869
0.7263377
0.9003906
0.6748063
0.7566274
0.8408927
0.9142012
0.9642434
0.9892289
Xbeta
-1.958012
-1.553739
-1.023131
-0.32197
0.6065937
1.8320454
-1.588485
-1.184212
-0.653604
0.0475564
0.9761204
2.2015721
0.7300047
1.1342774
1.6648854
2.3660459
3.2946098
4.5200616
Std
0.196516
0.177272
0.159158
0.1520054
0.1742659
0.2403409
0.1795395
0.159871
0.141929
0.1371703
0.1651279
0.2371307
0.1829764
0.175539
0.1751033
0.1904904
0.2322647
0.308324
HessWgt
5.4192535
7.0599346
9.1415529
9.2579881
6.6219452
5.9476112
7.0416989
8.7906601
11.254608
12.492935
9.9385614
4.4843684
10.972138
9.2071186
6.6896078
3.9218675
1.7239017
0.5327529
4.7
117
Observation Statistics
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Lower
0.088
0.130
0.208
0.350
0.566
0.796
0.126
0.183
0.283
0.445
0.658
0.850
0.592
0.688
0.789
0.880
0.945
0.980
Upper
0.172
0.230
0.329
0.494
0.721
0.909
0.225
0.295
0.407
0.578
0.786
0.935
0.748
0.814
0.882
0.939
0.977
0.994
Resraw
-3.184
-3.553
6.572
3.033
5.232
-8.100
-6.480
2.520
2.891
1.406
4.683
-5.020
-5.740
-0.831
3.955
2.290
-0.212
0.539
Reschi
-1.368
-1.337
2.174
0.997
2.033
-3.321
-2.442
0.850
0.862
0.398
1.486
-2.370
-1.733
-0.274
1.529
1.156
-0.162
0.738
Resdev
-1.501
-1.429
2.079
0.990
2.155
-2.954
-2.854
0.830
0.852
0.398
1.551
-2.118
-1.691
-0.272
1.665
1.281
-0.159
1.041
StResdev
-1.688
-1.619
2.372
1.117
2.411
-3.646
-3.246
0.943
0.968
0.455
1.816
-2.449
-2.126
-0.321
1.867
1.383
-0.167
1.068
StReschi
-1.538
-1.516
2.480
1.124
2.275
-4.099
-2.777
0.965
0.980
0.455
1.740
-2.741
-2.179
-0.324
1.715
1.249
-0.170
0.757
Reslik
-1.658
-1.597
2.397
1.118
2.384
-3.808
-3.146
0.948
0.971
0.455
1.796
-2.526
-2.146
-0.322
1.837
1.365
-0.167
1.055
Qui sotto `e riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti. Di seguito sono riportati i grafici dei valori predetti e dei limiti di confidenza
rispetto al deposito per i tre tipi di insetticida.
Si pu`o osservare che, pur se la devianza divisa per i gradi di libert`a presenta valori
un po alti, il grafico dei residui rispetto ai valori predetti `e piuttosto omogeneo,
quindi il modello sembra ben adattato ai dati. Singolarmente tutti i coefficienti sono
significativamente diversi da 0.
Dal secondo gruppo di grafici si pu`o osservare che il comportamento della proporzione di uccisi stimata rispetto al deposito a cui sono esposti gli insetti `e diversa a
seconda del tipo di insetticida.
118
5
5 6 7
5 6 7
5 6 7 8 9
Parameter
Intercept
Kilometres
Kilometres
Kilometres
Kilometres
Kilometres
Zone
Zone
Zone
Zone
Zone
Zone
Zone
Bonus
Bonus
Bonus
1
2
3
4
5
1
2
3
4
5
6
7
1
2
3
DF
1
1
1
1
1
0
1
1
1
1
1
1
0
1
1
1
Estimate
2.6236
1.4177
1.4845
1.0449
0.1499
0.0000
3.3795
3.3624
3.3229
3.7864
2.2171
2.7349
0.0000
-1.0537
-1.4705
-1.7521
Value/DF
6.1142
6.1142
6.4992
6.4992
4.7
Bonus
4
Bonus
5
Bonus
6
Bonus
7
Make
1
Make
2
Make
3
Make
4
Make
5
Make
6
Make
7
Make
8
Make
9
Insured
Payment
Scale
NOTE: The scale
119
1
-1.9279
0.0154
-1.9581
1
-1.8032
0.0148
-1.8321
1
-1.2731
0.0120
-1.2966
0
0.0000
0.0000
0.0000
1
-1.8044
0.0118
-1.8276
1
-3.2185
0.0208
-3.2592
1
-3.6101
0.0247
-3.6585
1
-3.4909
0.0235
-3.5370
1
-3.1001
0.0197
-3.1388
1
-2.6838
0.0167
-2.7167
1
-3.4452
0.0230
-3.4902
1
-4.1261
0.0312
-4.1874
0
0.0000
0.0000
0.0000
1
-0.0000
0.0000
-0.0000
1
0.0000
0.0000
0.0000
0
1.0000
0.0000
1.0000
parameter was held fixed.
-1.8977
-1.7742
-1.2496
0.0000
-1.7812
-3.1778
-3.5617
-3.4447
-3.0614
-2.6510
-3.4002
-4.0649
0.0000
-0.0000
0.0000
1.0000
15619.8
14897.3
11273.0
.
23247.3
24027.2
21371.5
21973.1
24646.4
25676.2
22526.6
17447.9
.
1469.44
1469.42
<.0001
<.0001
<.0001
.
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
<.0001
<.0001
Qui sotto `e riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti.
I valori della devianza e della statistica di Pearson divise per i gradi di libert`a indicano
che ladattamento del modello ai dati non `e molto buono. Dal grafico possiamo osservare che percentualmente non sono molti i residui standardizzati alti; in particolare
sembrano esserci problemi in presenza di poche richieste di rimborso. I coefficienti
sono tutti significativamente diversi da 0, considerati singolarmente.
Un modello meglio adattato ai dati si ottiene considerando la radice quadrata delle
variabili quantitative, come mostrato sotto.
data a.assic_svedesi2;
set a.assic_svedesi;
if payment = 0 then delete; else sPayment=sqrt(Payment);
if claims = 0 then delete; else sclaims=sqrt(claims);
proc genmod data=a.assic_svedesi2;
class Kilometres Zone Bonus Make;
model sclaims = Kilometres Zone Bonus Make Insured sPayment/ dist=poisson ;
output out=risultati pred=pre STDRESCHI=res_st LOWER=inf_med UPPER=sup_med;
run;quit;
goption reset=(all) ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90); symbol1 v=dot c=black i=none;
proc gplot data=risultati;
plot res_st*pre/vref=0 vaxis=axis1; run;quit;
120
Il nuovo modello risulta quindi decisamente meglio adattato ai dati del precedente.
4.8
I primi modelli per variabili aleatorie con legge non normale sono stati introdotti nella prima met`a degli anni 70 per casi dose-risposta in cui la risposta consisteva nellavverarsi
o meno di un evento oggetto di studio in relazione a diverse dosi di farmaco.
Come si pu`o anche osservare nei grafici dellesempio F la probabilit`a di successo si pu`o
esprimere come funzione crescente della dose: i primi due grafici hanno un andamento
lineare, mentre il terzo no; ci sono dunque diverse funzioni possibili.
Definiamo dunque la probabilit`a di successo nel seguente modo:
Z x
p(x) =
f (s) ds
(4.17)
dove f (. ) `e chiamata tolleranza. Affinch`e p sia una probabilit`a, la tolleranza deve avere
le propriet`a di una funzione di densit`a.
Vediamo alcuni esempi di funzione di tolleranza.
1. Se la probabilit`a cresce in modo lineare (primi due grafici), allora la funzione di
tolleranza `e uniforme in un intervallo [c1 ,c2 ]:
1
x c1
(c1 < s < c2 )
p(x) = 0 (x < c1 ) +
(c1 < x < c2 ) + (c2 < x)
f (s) =
c2 c1
c2 c1
ovvero, per c1 < x < c2 :
1
c1
e 1 =
p(x) = 0 + 1 x
con 0 =
c2 c1
c2 c1
che corrisponde a una link function identica. Questa link function necessita per`o
condizioni sui limiti dellintervallo per la dose e quindi `e usata raramente.
2. Se la funzione di tolleranza corrisponde a una densit`a Normale, con media m e
varianza 2 , allora:
xm
p(x) =
4.8
121
con 0 =
1
m
e 1 =
1 (p) = 0 + 1 x
Il modello con link function 1 si chiama Probit ed `e molto usato in biologia e in
scienze sociali. In particolare se p `e una probabilit`a di morte, m `e chiamata dose
letale media o mediana.
p
3. Se la probabilit`a di successo `e modellata con la link function canonica log 1p
=
0 + 1 x allora la funzione di tolleranza `e
f (s) =
1 exp(0 + 1 x)
(1 + exp(0 + 1 x))2
infatti:
Z
p(x) =
1 exp(0 + 1 s)
1
ds =
2
(1 + exp(0 + 1 s))
1 + exp((0 + 1 x))
Il modello con la link function canonica si chiama anche modello Logit o logistico.
4. Unaltra link function per la probilit`a di successo `e la cosiddetta log-log complementare:
log ( log (1 p)) = 0 + 1 x
la cui inversa `e:
p(x) = 1 exp ( exp (0 + 1 x))
e la cui la funzione di tolleranza `e:
f (s) = 1 exp (0 + 1 s exp (0 + 1 s))
Le funzioni di tolleranza e le link function degli ultimi tre modelli sono abbastanza simili
per valori di p prossimi a 0. 5, ma differiscono nelle code. In particolare il modello loglog complementare `e maggiormente appropriato se la tolleranza `e asimmetrica, mentre i
modelli Logit e Probit modellano meglio casi pi`
u simmetrici.
Esempio H Questo esempio `e tratto da Dobson (2002).
Si vuole studiare la proporzione di
coleotteri morti dopo essere stati
sottoposti allesposizione di solfuro di carbonio gassoso a diverse
concentrazioni.
Mettiamo a confronto il modello
logistico con il modello probit e il
modello log-log complementare.
Modello logistico
data coleotteri;
input dose pres morti;
datalines;
1.6907 59 6
1.7242 60 13
1.7552 62 18
1.7842 56 28
1.8113 63 52
1.8369 59 53
1.8610 62 61
1.8839 60 60
;
122
Parameter
DF
Intercept
1 -60.7175
dose
1
34.2703
Scale
0
1.0000
NOTE: The scale parameter was
5.1807 -70.8715
2.9121
28.5626
0.0000
1.0000
held fixed.
-50.5634
39.9780
1.0000
Value/DF
1.8720
1.8720
1.6711
1.6711
ChiSquare
Pr > ChiSq
137.36
138.49
<.0001
<.0001
Modello probit
Criteria For Assessing Goodness Of Fit
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
DF
6
6
6
6
Value
10.1198
10.1198
9.5134
9.5134
-185.6792
Value/DF
1.6866
1.6866
1.5856
1.5856
Algorithm converged.
Parameter
Intercept
dose
Scale
DF
1
1
0
ChiSquare
175.18
176.71
Pr > ChiSq
<.0001
<.0001
Value/DF
0.5744
0.5744
0.5491
0.5491
4.8
123
Algorithm converged.
Parameter
DF
Intercept
1 -39.5723
dose
1
22.0412
Scale
0
1.0000
NOTE: The scale parameter was
3.2290 -45.9012
1.7931
18.5268
0.0000
1.0000
held fixed.
-33.2435
25.5556
1.0000
ChiSquare
Pr > ChiSq
150.19
151.10
<.0001
<.0001
Odds-ratio e log-odds-ratio
Quando le variabili esplicative sono categoriche, spesso per interpretare gli effetti delle
variabili esplicative, `e pi`
u efficace, piuttosto che utilizzare i parametri , considerare gli
odds ratio.
Prendiamo in esame il caso di una sola variabile esplicativa dicotomica, che pu`o indicare ad esempio un fattore di rischio o in generale la presenza o lassenza di una particolare
condizione, codificata con 0 e 1 (altre codifiche non cambiano il senso del discorso).
Vogliamo confrontare il valore atteso della variabile risposta quando la variabile esplicativa vale 1 (presenza della condizione), indicato con (x1 ), rispetto al valore atteso
quando lesplicativa vale 0 (assenza della condizione), indicato con (x0 ), ad esempio
considerando il rapporto
(x1 )
g 1 (xt1 )
ovvero
.
(x0 )
g 1 (xt0 )
Se tale valore `e minore di 1 significa che il valore atteso della variabile risposta in presenza
della condizione `e inferiore a quello in assenza della condizione, se `e maggiore di 1 `e vero
il viceversa; un rapporto vicino a 1 indica la non influenza della variabile esplicativa.
Nel caso specifico di variabili aleatorie binomiali, invece dei valori attesi si considerano
gli odds. Lodds `e il rapporto fra la probabilit`a di successo e quella di insuccesso, o =
p/(1 p). Se si usa la link function (canonica) logit, il rapporto degli odds del caso x1
rispetto al caso x0 , ovvero lodds ratio, `e:
exp (xt1 )
p(x1 )/(1 p(x1 ))
t
=
=
exp
(x
x
)
or(x1 ,x0 ) =
1
0
p(x0 )/(1 p(x0 )
exp (xt0 )
Si definisce log odds ratio come il logaritmo dellodds ratio:
log-or(x1 ,x0 ) = (x1 x0 )t
Nel caso di una sola variabile esplicativa a valori 0 e 1 si ha x1 = (1,1)t , x0 = (1,0)t ,
= (0 ,1 )t e quindi:
or(x1 ,x0 ) = exp xt1 xt0 = exp (0 + 1 0 ) = e1 e log-or(x1 ,x0 ) = 1 .
Osserviamo che e1 rappresenta il cambio del log odds da x = 0 a x = 1. Per esempio
un odds ratio uguale a 2 (cio`e e1 = 2) significa che lodds di un evento quando x = 1 `e
doppio dellodds dellevento quando x = 0.
124
4.9
p(xh )/(1 p(xh ))
= exp (xh xk )t .
p(xk )/(1 p(xk ))
4.9
125
V(Yj ) = n pj (1 pj )
cov(Yj ,Yk ) = n pj pk .
Dimostriamo ora che la distribuzione multinomiale pu`o essere vista come una distribuzione congiunta di variabili aleatorie indipendenti con legge di Poisson, condizionate alla
loro somma.
P
Siano Y1 , . . . ,YJ variabili aleatorie indipendenti con Yj Poisson(j ) e sia N = j Yj ,
P
allora N Poisson( j j ). La densit`a di (Y1 , . . . ,YJ |N = n) `e:
y11 yJJ exp((1 + + J ))
n!
n
y1 ! yJ !
(1 + + J ) exp((1 + + J ))
y1
yJ
1
J
n!
.
=
y1 ! yJ ! 1 + + J
1 + + J
I parametri della legge multinomiale e di quella di Poisson condizionata alla somma
sono legati dalle relazioni:
pj =
4.9.1
j
1 + + J
j =
pj
1 p1 pJ1
j = 1, . . . ,J 1 .
Generalizziamo il modello Logit gi`a introdotto per variabili binomiali al caso multinomiale.
Per quanto visto sopra, la link function canonica per il modello esponenziale `e:
log
pj
pj
= log
= xt j
pJ
1 p1 pJ1
pj =
exp(xt j )
PJ1
1 + j=1 exp(xt j )
j = 1, . . . ,J 1 .
(4.18)
La scelta della modalit`a di riferimento, in questo caso lultima, `e arbitraria.
Osserviamo che p1 , . . . pJ dipendono dalle variabili esplicative x e sarebbe pi`
u corretto
indicarle come:
p1 (x), . . . ,pJ (x)
ma ometteremo tale indicazione quando non necessaria.
Le stime di massima verosimiglianza delle probabilit`a, pj , e dei valori attesi,
j , delle variabili risposta sono ottenute come di consueto a partire dalle stime di massima
verosimiglianza bj dei coefficienti j :
pj =
exp(xt bj )
PJ1
1 + j=1 exp(xt bj )
j = n pj
j = 1, . . . ,J 1 .
126
Nel caso multinomiale lodds `e il rapporto: oj = pj /pJ , avendo scelto come modalit`a
di riferimento della variabile risposta la J-esima. Quindi, con la link function (4.18),
lodds ratio `e:
pj (x1 )/pJ (x1 )
= exp xt1 j xt0 j = exp (x1 x0 )t j
orj (x1 ,x0 ) =
pj (x0 )/pJ (x0 )
Come nel caso binomiale, leffetto della covariata pu`o essere verificato sia con un ipotesi
principale 1j = 0 oppure con una ipotesi orj = 1, per j = 1, . . . ,J 1.
Un intervallo di confidenza per lodds ratio pu`o essere calcolato come:
(exp (B1j z std(B1j )) , exp (B1j + z std(B1j ))) .
4.9.2
Quando le modalit`a della variabile risposta multinomiale sono ordinali, si possono utilizzare ulteriori link function che estendono la link function logit.
1. La link function `e il logaritmo del rapporto delle probabilit`a delle modalit`a minori
o uguali a quella corrente rispetto a tutte le successive.
p1 + p2 + + pj
p1 + p2 + + pj
xt j = log
ovvero xt j = log
.
pj+1 + + pJ
1 (p1 + p2 + + pj )
Tale tale link function viene detta logit cumulato e il modello corrispondente viene
detto modello logit cumulato.
In questo modello lodds `e calcolato non sulle pj ma sulle probabilt`a cumulate:
p1 + + pj
oj =
1 (p1 + + pj )
e quindi gli odds ratio fra la modalit`a k e la modalit`a h della variabile esplicativa
sono:
oj (xh )
= exp (xh xk )t j
orj (xh ,xk ) =
oj (xk )
2. La link function `e il logaritmo del rapporto delle probabilit`a delle modalit`a adiacenti.
pj
log
.
pj+1
3. La link function `e il logaritmo del rapporto delle probabilit`a della modalit`a corrente
rispetto a tutte le successive.
pj
.
log
pj+1 + + pJ
In tutti i modelli precedenti, ma anche nel caso di link canonica, il vettore dei coefficienti delle variabili esplicative pu`o dipendere o meno dalla modalit`a considerata, ad
eccezione del coefficiente costante che viene sempre considerato diverso per ogni modelit`a,
0j . La parte lineare del modello pu`o quindi avere due espressioni:
(
0j + 1j x1 + + p1,j xp1
t
x=
0j + 1 x1 + + p1 xp1 .
4.10
127
Osserviamo che nel caso in cui solo il coefficiente della costante dipenda da j, gli odds
ratio sono uguali per tutte le modalit`a della variabile risposta:
orj (xh ,xk ) = or(xh ,xk ) .
4.10
Vari sono gli approcci allo studio delle tabelle di contingenza, dallanalisi delle corrispondenze sia descrittiva che inferenziale, ai test di bont`a di adattamento sotto lipotesi di indipendenza, o allapproccio pi`
u moderno basato sulla statistica algebrica. Qui
esamineremo lapproccio basato sui modelli lineari generalizzati.
Consideriamo una tabella a due entrate, con I righe e J colonne.
Il conteggio nij `e considerato come realizzazione campionaria di una variabile aleatoria Nij . Analogamente i totali marginali
ni. e n.j sono considerati realizzazioni di
Ni. e N.j . Le variabili A e B sono considerate variabili esplicative qualitative e tipicamente espresse come nellanalisi della
varianza a due fattori.
1
...
A i
...
I
1
n11
...
B
j
...
J
n1J
ni1
nij
niJ
ni.
nI1
n.1
n.j
nIJ
n.J
Con i simboli normalmente usati in questo contesto, la parte lineare `e quindi esprimibile come:
B
AB
xtij = + A
i + j + ij
Tale modello `e saturo in quanto per ogni combinazione di livelli si ha una sola osservazione.
Le variabili aleatorie risposta vengono in genere modellate con leggi di Poisson condizionate alla somma uguale a n; sostanzialmente si tratta di un modello multinomiale. I
gradi di libert`a del modello saturo sono dunque I J 1. La link function utilizzata `e
quella canonica:
xtij = log (E(Nij )) = log (ij ) = log (n pij )
Se si vuol sottoporre a verifica un modello di indipendenza, allora, sotto questa ipotesi,
si ha:
i. .j
ij =
n
dove i. e .j sono rispettivamente i valori attesi di Ni. e N.j . Quindi il modello diventa:
B
log (ij ) = log n + log (i. ) + log (.j ) = + A
i + j
128
- Indipendenza condizionata (A B)|C. Per ogni livello k del fattore C si richiede lindipendenza fra i fattori A e B. Un esempio in ambito epidemiologico di
indipendenza condizionata potrebbe essere (malattia genere)|fumo. Il modello `e:
ij k =
i.k .j k
n
Nei modelli precedenti non `e mai presente il parametro di interazione tripla perch`e
normalmente si considerano modelli gerarchici: se `e presente una interazione, lo sono
anche quelle di ordine inferiore.
Le statistiche sufficienti sono i totali marginali i cui valori attesi intervengono nella
link function. Ad esempio per lindipendenza condizionata (A B)|C gli stimatori di
massima verosimiglianza dei conteggi sono:
ij k =
Ni.k N.j k
n
Per quanto riguarda i test di bont`a di adattamento del modello osserviamo che la
statistica X 2 di Pearson coincide con gli usuali test di indipendenza sulle tabelle:
X2 =
X (Nijk N
ijk)2
ijk
Nijk
2[df]
4.10
129
- Quasi indipendenza. Nei casi in cui si ipotizza una forte concentrazione di valori
sulla diagonale, si pu`o prevedere una indipendenza fuori della diagonale:
B
log (ij ) = + A
i + j + i (i = j) .
AB
B
con AB
o anche A
ij = ji
i = j .
130
Capitolo 5
Esercizi desame con soluzione
Esercizio Sia Y una variabile aleatoria discreta con densit`a di probabilit`a
fY (y; ) = y(1 log )2 (log )y1
(1,e) y Z+
1. Verificare che appartiene alla famiglia dei modelli esponenziali, indicare il parametro
canonico con il suo dominio e la statistica sufficiente canonica.
2. Calcolare valore atteso e varianza della variabile aleatoria Y , scritti in funzione di
.
3. Si considerino n variabili aleatorie indipendenti con la stessa legge di Y .
(1) Scrivere la log-verosimiglianza del modello per il campione.
1+log
(2) Calcolare lo stimatore di massima verosimiglianza V del parametro 1log
e
2e
1 + log
+1 =
1e
1 log
131
V(Y ) = 00 () =
2e
2 log
=
2
(1 e )
(1 log )2
132
3. (1) La log-verosimiglianza
del
P modello per un n-campione `e: l(; y1 , . . . ,yn ) =
n 2 log(1 e ) + yi
(2) Il parametro
1+log
1log
)
2 log
V = Y che `e non distorto e ha varianza V(v) = V(Y
= n(1log
. La varianza
n
)2
raggiunge il limite di CR in quanto il parametro da stimare `e il valore atteso
della statistica sufficiente.
.
4. (1) Si ha: log i = ii 1
+1
X
l(1 , . . . ,n ; y1 , . . . ,yn ) =
l(i ; y1 ) =
X
i 1
i 1
i 1
2 log 1
log
+ yi log
=
i + 1
i + 1
i + 1
X
i 1
i 1
2
log
+ yi log
2 log
i + 1
i + 1
i + 1
0
1+exp(x )
(2) x0i = g(i ) = log ii 1
, i = g 1 (x0i ) = 1exp(x0i )
+1
i
Esercizio
Si considerino n variabili aleatorie indipendenti Y1 , . . . ,Yn con legge normale. Si vuole
studiare la dipendenza delle variabili Yi da due fattori qualitativi A e C, ciascuno a
due livelli con un modello lineare che comprende solo i fattori principali (cio`e senza
interazioni). Si consideri la parte del modello X che esplicita la dipendenza lineare dai
fattori con = (,1 ,2 ,1 ,2 ).
1. Scrivere almeno una parametrizzazione stimabile per il vettore e la corrispondente matrice X supponendo lesperimento bilanciato con due ripetizioni per ogni
combinazione di livelli.
2. Dire se il parametro + 1 `e stimabile motivando la risposta.
Soluzione:
1. Una parametrizzazione stimabile `e:
+ 2 + 2
1 2
1 2
1
1
1
X =
1
1
1
1
1
1
1
0
0
0
1 0
1
1
0
1
0
0
1
1
1
1
X=
1
1
1
Inoltre:
1
1
1
1
0
0
0
1 0
0
0
0
0
1
1
1
1
1
1
0
0
1
1
0
0
0
0
1
0
1
1
133
60
60
Dependent Variable: Y1
Source
Model
Error
Corrected Total
DF
2
57
59
R-Square
0.061480
Sum of
Squares
63.246261
965.481052
1028.727312
Coeff Var
50.04731
Mean Square
31.623130
16.938264
Root MSE
4.115612
F Value
1.87
Pr > F
0.1639
Y1 Mean
8.223443
Source
A
DF
2
Type I SS
63.24626065
Mean Square
31.62313032
F Value
1.87
Pr > F
0.1639
Source
A
DF
2
Type III SS
63.24626065
Mean Square
31.62313032
F Value
1.87
Pr > F
0.1639
134
Dependent Variable: Y2
Source
Model
Error
Corrected Total
DF
2
57
59
R-Square
0.022958
Sum of
Squares
12.8562762
547.1414813
559.9977575
Coeff Var
36.17658
Mean Square
6.4281381
9.5989734
Root MSE
3.098221
F Value
0.67
Pr > F
0.5159
Y2 Mean
8.564163
Source
A
DF
2
Type I SS
12.85627621
Mean Square
6.42813810
F Value
0.67
Pr > F
0.5159
Source
A
DF
2
Type III SS
12.85627621
Mean Square
6.42813810
F Value
0.67
Pr > F
0.5159
DF
2
57
59
Sum of
Squares
151.7549946
660.1950582
811.9500528
Mean Square
75.8774973
11.5823694
F Value
6.55
Pr > F
0.0027
Dependent Variable: Y3
Source
Model
Error
Corrected Total
R-Square
0.186902
Coeff Var
32.38663
Root MSE
3.403288
Y3 Mean
10.50831
Source
A
DF
2
Type I SS
151.7549946
Mean Square
75.8774973
F Value
6.55
Pr > F
0.0027
Source
A
DF
2
Type III SS
151.7549946
Mean Square
75.8774973
F Value
6.55
Pr > F
0.0027
Y3
3
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 57
Y1
Y2
Y3
Y1
1.000000
-0.065038
-0.197224
0.6276
0.1378
Y2
-0.065038
1.000000
0.365980
0.6276
0.0047
Y3
-0.197224
0.365980
1.000000
0.1378
0.0047
time_N represents the nth successive difference in time
M Matrix Describing Transformed Variables
Y1
Y2
Y3
time_1
1.000000000
-1.000000000
0.000000000
time_2
0.000000000
1.000000000
-1.000000000
E = Error SSCP Matrix
time_N represents the nth successive difference in time
time_1
time_2
time_1
1607.16
-216.99
time_2
-216.99
767.42
135
Variables
Transformed Variates
Orthogonal Components
Chi-Square
9.6614362
15.038688
Pr > ChiSq
0.0080
0.0005
DF
2
57
Type III SS
39.4718645
734.4258929
Mean Square
19.7359323
12.8846648
F Value
1.53
Pr > F
0.2249
136
Source
time
time*A
Error(time)
182.328805
188.385667
1438.391698
91.164403
47.096417
12.617471
Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon
7.23
3.73
0.0011
0.0068
0.0025
0.0119
0.0020
0.0103
0.8094
0.8588
DF
1
2
57
Type III SS
6.965407
27.110869
1607.162899
Mean Square
6.965407
13.555435
28.195840
F Value
0.25
0.48
Pr > F
0.6211
0.6208
DF
1
2
57
Type III SS
226.7831534
238.2266457
767.4170936
Mean Square
226.7831534
119.1133229
13.4634578
F Value
16.84
8.85
Pr > F
0.0001
0.0005
Soluzione:
. Solo per il modello con Y3 come variabile risposta i coefficienti del fattore A sono
significativamente diversi da 0; quindi si pu`o dire che il fattore A influenza, a livello
univariato, solo Y3
. Dal test sulla nullit`a delle correlazioni fra le variabili risulta che solo Y2 e Y3 risultano
significativamente correlate. Le correlazioni sono stimate a partire dalla matrice E
che contiene le stime della matrice dellerrore, quindi usando sia le variabili risposta,
che la matrice X.
. La matrice YM ha due colonne contenenti le variabili Y1 Y2 e Y2 Y3 . Queste
due variabili risultano significativamente non correlate.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui `e misurata la variabile risposta. Per essere applicabili la matrice di
varianza/covarianza delle variabili risposta deve essere sferica. In questa situazione il test corrispondente porta a un rifiuto di tale ipotesi e quindi loutput dei test
univariati within subjects non sono commentabili.
. Il test multivariato within subjects per time, che verifica luguaglianza delle medie delle tre variabili risposta, porta a rifiutare lipotesi principale con tutte le statistiche test considerate; quindi il tempo influenza le risposte nelle tre
condizioni.
Analogamente per il test multivariato within subjects per time*A; in questo
caso si verifica la nullit`a di tutti i coefficienti relativi al fattore. Lipotesi principale
L = 0 ha come matrice L la seguente (scritta in riga) L = (0 1 0 0,0 0 1 0,0 0 0 1).
137
138
d ()
2e2
1 + e2
2p
=1
=
=
2
2
d
1e
1e
p
2
Y +1
una funzio`
ne convessa in Y , si ha, per la disuguaglianza di Jensen, E(V ) > E(Y2)+1 . E
asintoticamente non distorto perch`e stimatore di massima verosimiglianza.
4. Si ha: i = g 1 (x0i ) =
1+e2xi
0 .
1e2xi
Yi =
5. La link function `e i =
i `e:
1
2
1 + e2xi
+ i
0
1 e2xi
log ii 1
. Quindi la log-verosimiglianza parametrizzata in
+1
n
X
i 1
i 1
i 1
1
1
l(1 , . . . ,n ; y1 , . . . ,yn ) =
log 1
log
+ yi log
i + 1
2
i + 1
2
i + 1
i=1
n
1X
i 1
=
2 log 2 log(i 1)(i + 1) + yi log
2 i=1
i + 1
max la stima del valore atteso nel modello massimale e con
la
Indichiamo con
max = y e
=
stima di massima verosimiglianza nel modello corrente. Si ha:
0
1+e2xi b
dove b `e la stima di massima verosimiglianza dei coefficienti delle variabili
0
1e2xi b
esplicative. La realizzazione della devianza `e quindi:
max ) l())
=
d = 2(l(
n
X
i=1
n
X
i=1
(yi 1) log
log
(yi 1)(yi + 1)
(yi 1)(
i + 1)
+ yi log
=
(
i 1)(
i + 1)
(yi + 1)(
i 1)
yi 1
yi + 1
(yi + 1) log
i 1
i + 1
6. Si ha:
139
1
2
(
)
=
1
1
2 (1 )
2 (1 )
2 (2 )
1
1
X=1
1
1
1
0
0
0
0
1
1
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
Un possibile modo per rendere il modello stimabile `e quello di porre i seguenti vincoli
sui coefficienti:
1 + 2 = 0
1 (1 ) + 2 (1 ) = 0
1 (2 ) + 2 (2 ) = 0
che corrisponde a:
1
1
X = 1
1
1
1
1
1
1
1
0
0
0
0
1
1
= (1 )
1
1
1 (2 )
Esercizio
Si considera un esperimento per verificare la perdita di peso nei topi in dipendenza
di tre tipi di farmaco. Il peso viene misurato dopo una settimana e dopo due settimane
dallinizio della somministrazione. Si considerano due tipi di modelli:
. Primo modello: modello multivariato
. Secondo modello: modello di misure ripetute
1. Commentare le differenze fra i due modelli e dire quale dei due si ritiene pi`
u
appropriato per questa situazione?
2. Nel primo modello vengono considerate due variabili esplicative (sesso e farmaco),
nel secondo una sola (farmaco). Nel secondo modello viene richiesta anche una
analisi univariata.
Commentare loutput e in particolare [se presenti nel modello e/o nelloutput]:
. lanalisi della varianza per ciascuna variabile risposta;
. le correlazioni fra le variabili risposta; perch`e sono diverse nei due modelli che
hanno le stesse variabili risposta?
. le correlazioni fra variabili risposta trasformate tramite la matrice M;
. i test multivariati within subjects, precisando a cosa si riferisce la matrice H;
. i test univariati within subjects, precisando se possono essere applicati in
questa situazione; perche non `e riporto il test di sfericit`a della matrice di
correlazione delle variabili risposta?
. i test univariati between subjects relativi alla media delle variabili risposta;
. commentare complessivamente i risultati dellanalisi.
3. Per il secondo modello, calcolare la stima del valore atteso delle due variabile risposta
per i tre tipi di farmaco. Alla luce del risultato quale test potrebbe essere interessante
effettuare?
140
Primo modello
PROC GLM data=drugs outstat=stats;
CLASS sex drug; MODEL Y1 Y2 = sex drug sex*drug/ ss3 nouni;
manova h=_all_/printe printh;
run;quit;
Class Level Information
Class
Levels
Values
sex
2
F M
drug
3
A B C
Number of Observations Read 24
Number of Observations Used
24
Value
0.99253694
0.00746306
0.00751918
0.00751918
F Value
0.06
0.06
0.06
0.06
Num DF
2
2
2
2
Den DF
17
17
17
17
Pr > F
0.9383
0.9383
0.9383
0.9383
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root
NOTE: F Statistic for Roys
M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.16862952
12.20
4
34
<.0001
0.88037810
7.08
4
36
0.0003
4.63953666
19.40
4
19.407
<.0001
4.57602675
41.18
2
18
<.0001
Greatest Root is an upper bound, for Wilks Lambda is exact.
141
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root
NOTE: F Statistic for Roys
M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.77436234
1.16
4
34
0.3459
0.22694905
1.15
4
36
0.3481
0.28969161
1.21
4
19.407
0.3381
0.28372273
2.55
2
18
0.1056
Greatest Root is an upper bound, for Wilks Lambda is exact.
Secondo modello
PROC GLM data=drugs;
CLASS drug; MODEL Y1 Y2 = drug / ss3 solution;
repeated tempo 2 /printe printh printm;
run;quit;
Dependent Variable: Y1
Week1
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
21
109.5000000
5.2142857
23
410.5000000
Coeff Var
Root MSE
Y1 Mean
23.42032
2.283481
9.750000
DF
Type III SS
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
Standard
Estimate
Error
t Value
Pr > |t|
14.75000000 B
0.80733247
18.27
<.0001
-7.75000000 B
1.14174053
-6.79
<.0001
-7.25000000 B
1.14174053
-6.35
<.0001
0.00000000 B
.
.
.
Source
Model
Error
Corrected Total
R-Square
0.733252
Source
drug
Parameter
Intercept
drug
A
drug
B
drug
C
Dependent Variable: Y2
Week2
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
36.3333333
18.1666667
2.60
0.0984
21
147.0000000
7.0000000
23
183.3333333
Coeff Var
Root MSE
Y2 Mean
30.52790
2.645751
8.666667
DF
Type III SS
Mean Square
F Value
Pr > F
2
36.33333333
18.16666667
2.60
0.0984
Standard
Estimate
Error
t Value
Pr > |t|
10.25000000 B
0.93541435
10.96
<.0001
-3.00000000 B
1.32287566
-2.27
0.0340
Source
Model
Error
Corrected Total
R-Square
0.198182
Source
drug
Parameter
Intercept
drug
A
142
drug
B
-1.75000000 B
1.32287566
-1.32
0.2001
drug
C
0.00000000 B
.
.
.
NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.
Repeated Measures Analysis of Variance
Repeated Measures Level Information
Dependent Variable
Y1
Y2
Level of tempo
1
2
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 21
Y1
Y2
Y1
1.000000
0.776373
<.0001
Y2
0.776373
1.000000
<.0001
tempo_N represents the contrast between the nth level of tempo and the last
M Matrix Describing Transformed Variables
Y1
Y2
tempo_1
1.000000000
-1.000000000
tempo_N represents the contrast between the nth level of tempo and the last
E = Error SSCP Matrix
tempo_1
tempo_1
59.5
H = Type III SSCP Matrix for tempo
tempo_1
tempo_1
28.166666667
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo Effect
H = Type III SSCP Matrix for tempo
E = Error SSCP Matrix
S=1
M=-0.5
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.67870722
9.94
1
21
0.0048
Pillais Trace
0.32129278
9.94
1
21
0.0048
Hotelling-Lawley Trace
0.47338936
9.94
1
21
0.0048
Roys Greatest Root
0.47338936
9.94
1
21
0.0048
H = Type III SSCP Matrix for tempo*drug
tempo_N represents the contrast between the nth level of tempo and the last
tempo_1
tempo_1
142.33333333
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo*drug Effect
H = Type III SSCP Matrix for tempo*drug
E = Error SSCP Matrix
S=1
M=0
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.29479769
25.12
2
21
<.0001
Pillais Trace
0.70520231
25.12
2
21
<.0001
Hotelling-Lawley Trace
2.39215686
25.12
2
21
<.0001
Roys Greatest Root
2.39215686
25.12
2
21
<.0001
143
Source
drug
Error
2
21
266.1666667
226.7500000
133.0833333
10.7976190
Pr > F
12.33
0.0003
Pr > F
0.0048
<.0001
Soluzione:
1. Questa situazione corrisponde a un modello di misure ripetute quindi `e pi`
u appropriato il secondo modello in cui vengono fatti anche i test between subjects. Avendo per`o solo due variabili risposta anche il primo modello pu`o essere di
interesse.
2. Commento delloutput.
Primo modello.
. La matrice E contiene le stime della covarianza dei residui (a meno di una
costante):
E = (Y XB)t (Y XB) = Yt PV Y
La corrispondente matrice di correlazione e il p-value del test di non correlazione
evidenziano che le due variabili risposta sono significativamente correlate fra
loro.
. Le matrici H dei test multivariati corrispondono a Yt PV \V0 Y. Le ipotesi dei
tre test sono rispettivamente: nullit`a dei coefficienti corrispondenti a sex,
a drug e a sex*drug. Le statistiche riportate si basano sugli autovalori
delle matrici E1 H. Risulta che solamente il tipo di farmaco `e da considerarsi
statisticamente significativo.
Secondo modello.
. Lanalisi univariata evidenzia che la variabile risposta misurata dopo una settimana risente statisticamente del tipo di farmaco, mentre misurata dopo due settimane no. Questo si deduce sia dal test di nullit`a contemporanea dei coefficienti
della variabile esplicativa sia dallindice R-sq.
Le stime dei coefficienti riportate riguardano il vettore ( + C ,A C ,B C )t .
In particolare per la variabile Week 2 il coefficiente B C risulta significativamente nullo, quindi sembra non ci siano differenze fra leffetto del farmaco
B e quello del farmaco C dopo due settimane.
. La matrice di correlazione parziale delle variabili risposta risulta diversa da
quella del primo modello in quanto i due modelli hanno variabili esplicative
diverse; la correlazione parziale `e calcolata usando i residui, quindi anche le
variabili esplicative.
144
. I successivi test multivariati within subjects sono calcolati sulle variabili trasformate tramite la matrice M. Avendo solo due variabili esplicative, si ha
una sola variabile trasformata. Quindi le matrici E e H hanno un solo elemento. Il test within subjects per tempo, che verifica luguaglianza delle
medie delle due variabili risposta, porta a rifiutare lipotesi principale; quindi
il tempo influenza le risposte. Analogamente per il test per tempo*drug;
in questo caso viene verificata la nullit`a di tutti i coefficienti relativi al fattore.
Lipotesi principale L = 0 ha come matrice L la seguente (scritta in riga)
L = (0 1 0 0,0 0 1 0,0 0 0 1).
. Anche il test univariato between subjects porta a rifiutare la nullit`a dei coef
ficienti relativi al fattore drug sulla variabile risposta (W eek1 + W eek2)/ 2,
quindi a considerare il tipo di farmaco influente sulla media delle variabili
risposta.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui `e misurata la variabile risposta (il tempo in questo caso). Per
essere applicabili la matrice di varianza/covarianza delle variabili risposta deve
essere sferica. Per`o, avendo solo due variabili risposta, non ha significato parlare di sfericit`a della matrice di covarianza della variabili trasformate. I test,
che sono da utilizzare con cautela, comunque portano alle stesse conclusioni del
test multivariati.
. I test univariati between subjects per le variabili trasformate non sono presenti perche in questo caso (due sole variabili risposta) corrisponde al test
multivariato within subjects.
Commento generale. Il sesso non influisce sulle variabili risposta, mentre il tipo
di farmaco somministrato si, anche se in modo diverso sulle due risposte. Sia nel
primo modello che nel secondo i test multivariati within subjects evidenziano una
influenza del tempo e del tipo di farmaco. Analoghe conclusioni si possono trarre
per i test univariati relativi alla media delle risposte.
3. Si ha:
1 = (14. 750 7. 75,14. 75 7. 25,14. 75)t = (7. 00,7. 50,14. 75)t
145
24
24
Value/DF
0.7518
0.7518
0.7531
0.7531
146
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
y
0.1
0.1
0.1
0.05
0.05
0.05
0.7
0.75
0.9
0.9
0.8
0.85
0.15
0.05
0.1
0.2
0.2
0.3
0.95
0.85
0.95
0.95
0.9
0.8
a
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
b
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
1
Pred
.........
0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.905084
0.905084
0.905084
0.905084
0.905084
0.905084
Observation Statistics
Xbeta
Std
HessWgt
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646 .........
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
Lower
Upper
.........
.........
0.739382
0.739382
0.739382
0.739382
0.739382
0.739382
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148
0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495
Soluzione:
1. La log-verosimiglianza si pu`o scrivere come l(; y) ky log k log(1 + ) quindi
parametro canonico `e = k log con R. La statistica sufficiente `e Y . Inoltre
() = k log(1 + e/k ).
2. Il valore atteso della statistica sufficiente, e quindi di Y , `e:
E(Y ) = 0 () = k
e/k /k
e/k
=
=
/k
/k
1+e
1+e
1+
3. (1) La log-verosimiglianza
P del modello per un n-campione `e: l(; y1 , . . . ,yn )
/k
nk log(1 + e ) + yi
(2) Lo stimatore di massima verosimiglianza per E(Y ) `e Y . Essendo =
ha: V =
E(Y )
,
1E(Y )
si
Y
1Y
1+
X 1
dl()2
1
=
k
Yi 2 + nk
2
d
(1 + )2
147
Da cui:
I = E
d2 l(; Y )
d2
=
nk
(1 + )2
i
4. x0i = g(i ) = k log 1
e i = g 1 (x0i ) =
i
V(V ) =
exp(x0i /k)
1+exp(x0i /k))
(1 + )2
nk
1
1+exp(x0i /k)
1
1
5. Nella colonna Pred `e scritta la stima di i ; quindi:
1 = 1+exp(x
0 /k) = 1+exp(48.82414/20) =
i
0. 0801.
Nella colonna HessWgt `e scritta la stima di wii ; in caso di link function canonica
del modello esponenziale questa `e uguale alla stima della varianza di Yi . Quindi:
1
1 (1
1 ) = 0. 00368.
w11 = 20
Nelle colonne Lower e Upper sono scritte le realizzazioni dellintervallo di confidenza
asintotico per i a livello del 95%. Si possono calcolare a partire dalla realizzazione
dellintervallo di confidenza per xti :
xt1 b 1. 96 std(xti B),xt1 b + 1. 96 std(xt1 B) =
(48. 824141. 965. 4362646,48. 82414+1. 965. 4362646) = (59. 4792,38. 1691)
y
0.1
a
0
b
0
Pred
0.080084
Xbeta
-48.82414
Std
5.4362646
HessWgt
0.0036835
Lower
0.0486167
Upper
0.1291537
148
Bibliografia
R
c
[1] AA. VV., Minitab
, StatGuide, Copyright
2000-2006
Minitab Inc.
R
c
[2] AA. VV., SAS , Help and documentation, Copyright
2002-2003
by SAS Institute
Inc., Cary, NC, USA.
[3] Adelchi Azzalini, Statistical inference, Monographs on Statistics and Applied
Probability, vol. 68, Chapman & Hall, London, 1996.
[4] Margherita Coppola, Modelli lineari generali: teoria classica e bootstrap, Tesi di
laurea, Dipartimento di Matematica Universit`a di Genova, 1997, Relatore: Rogantin,
M. P.
[5] D. R. Cox and D. V. Hinkley, Theoretical statistics, Chapman and Hall, London,
1974.
[6] Didier Dacunha-Castelle and Marie Duflo, Probabilites et statistiques. Tome 1, Collection Mathematiques Appliquees pour la Matrise. Masson, Paris, 1982, Probl`emes
a` temps fixe..
[7] Lilla Di Scala, Analisi della varianza: aspetti teorici e modelli mixed con misure
ripetute, Tesi di laurea, Dipartimento di Matematica Universit`a di Genova, 1998,
Relatore: Rogantin, M. P.
[8] Annette J. Dobson, An introduction to generalized linear models, second ed., Chapman & Hall/CRC Texts in Statistical Science Series, Chapman & Hall/CRC, Boca
Raton, FL, 2002.
[9] Ludovic Lebart, Alain Morineau, and M. Piron, Statistique exploratoire
multidimensionelle, second ed., Dunod, Piron, 1997.
[10] Kantilal Varichand Mardia, John T. Kent, and John M. Bibby, Multivariate analysis,
Academic Press, London, 1979, Probability and Mathematical Statistics: A Series
of Monographs and Textbooks.
[11] P. McCullagh and J. A. Nelder, Generalized linear models, Monographs on Statistics
and Applied Probability, Chapman & Hall, London, 1983.
[12] Donald F. Morrison, Multivariate statistical methods, second ed., McGraw-Hill Book
Co., New York, 1976, McGraw-Hill Series in Probability and Statistics.
[13] Marcella Oliveri, Modelli di analisi della sopravvivenza, Tesi di laurea, Dipartimento
di Matematica Universit`a di Genova, 1998, Relatore: Rogantin, M. P.
149
150
Bibliografia
[14] B. L. Raktoe, A. Hedayat, and Walter Theodore Federer, Factorial designs, Wiley
Series in Probability and Mathematical Statistics, John Wiley & Sons Inc., New
York, 1981.
[15] Fabio Rapallo and Maria Piera Rogantin, Statistica descrittiva multivariata, second
ed., CLUT, Torino, 2003.
[16] Maria Piera Rogantin, Introduzione alla statistica, second ed., CLUT, Torino, 2003.
[17] Henry Scheffe, The analysis of variance, Wiley Classics Library, John Wiley &
Sons Inc., New York, 1999, Reprint of the 1959 original, A Wiley Publication in
Mathematical Statistics.
[18] Shayle R. Searle, Linear models for unbalanced data, Wiley Series in Probability and
Mathematical Statistics: Applied Probability and Statistics, John Wiley & Sons Inc.,
New York, 1987.