Sei sulla pagina 1di 154

Maria Piera Rogantin

I MODELLI LINEARI
GENERALI E GENERALIZZATI

2014

Indice
1 Regressione lineare
1.1 Aspetti geometrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Interpretazione vettoriale nello spazio delle osservazioni . . . . . . .
1.1.2 Minimizzazione dellerrore di approssimazione . . . . . . . . . . . . . . .
1.1.3 Interpretazione vettoriale nello spazio delle variabili . . . . . . . . . .
1.1.4 Proiettore sullo spazio generato dalle colonne di X . . . . . . . . . . .
1.1.5 Decomposizione della varianza e indice R2 . . . . . . . . . . . . . . . . . .
1.1.6 La regressione lineare multivariata . . . . . . . . . . . . . . . . . . . . . . . .
1.1.7 Il grafico dei residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 La regressione lineare su un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Condizioni su media e varianza dei residui . . . . . . . . . . . . . . . . . .
1.2.2 Residui con legge normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Intervalli di confidenza per k e (xi )t . Residui standardizzati .
1.2.4 Test di ipotesi per il modello lineare . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Predittore del valore atteso e della risposta . . . . . . . . . . . . . . . . .
1.2.6 Stimatori di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . .

1
1
2
2
4
5
5
7
8
12
12
15
17
20
33
37

2 Analisi della varianza


2.1 Analisi della varianza a una via per esperimenti bilanciati . . . . . . . . . . . .
2.1.1 Decomposizione dello spazio V e stime per esperimenti bilanciati
2.1.2 Test per la nullit`a dei coefficienti relativi al fattore A . . . . . . . . .
2.2 Analisi della varianza a due vie senza interazione. . . . . . . . . . . . . . . . . . .
2.2.1 Decomposizione dello spazio V e stime dei parametri per esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 I due test per verificare la non influenza di A e di B . . . . . . . . . .
2.2.3 Decomposizione della varianza per gli esperimenti bilanciati . . .
2.3 Analisi della varianza a due vie con interazione - Fattori crossed . . . . .
2.3.1 Decomposizione dello spazio V e stime dei parametri per esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 I tre test per verificare la nullit`a dei tre gruppi di parametri . . .

39
39
41
43
46

47
48
49
53
54
55

Indice

II

Decomposizione della varianza per gli esperimenti bilanciati . . .


della varianza con fattori nested . . . . . . . . . . . . . . . . . . . . . . . . .
Vantaggi degli esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . .
della varianza per esperimenti non bilanciati . . . . . . . . . . . . . . . .
Analisi della varianza a una via . . . . . . . . . . . . . . . . . . . . . . . . . . .
I diversi tipi di somme dei quadrati in SAS . . . . . . . . . . . . . . . . .
Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
della covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55
57
60
60
61
62
63
65

3 Modelli lineari generali


3.1 Parametrizzazioni per modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Modelli sovraparametrizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Funzioni parametriche stimabili . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Verifica di ipotesi su funzioni parametriche . . . . . . . . . . . . . . . . .
3.1.4 Un approfondimento: stimabilit`a dei coefficienti e confusione .
3.2 Modello lineare multivariato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Test di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Misure ripetute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69
69
69
74
77
77
79
80
80
86

4 Modelli lineari generalizzati


4.1 Link function per modelli di classe esponenziale . . . . . . . . . . . . . . . . . . . .
4.2 Stime dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Le equazioni di massima verosimiglianza . . . . . . . . . . . . . . . . . . .
4.2.2 Metodi numerici per le stime di massima verosimiglianza . . . . . .
4.3 Statistiche basate sulla verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Test di bont`a di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Modello massimale e devianza . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 Statistica 2 di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.3 Statistiche basate sul modello minimale . . . . . . . . . . . . . . . . . . . .
4.5 Intervalli di confidenza e test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Inferenza sui coefficienti delle variabili esplicative . . . . . . . . . . . .
4.5.2 Inferenza sui valori attesi della variabile risposta . . . . . . . . . . . . .
4.6 Residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Due esempi estesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Alcuni modelli per variabili dicotomiche . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8.1 Odds-ratio e log-odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Modelli per variabili risposta nominali e ordinali . . . . . . . . . . . . . . . . . . .
4.9.1 Modello logistico per variabili multinomiali . . . . . . . . . . . . . . . . .
4.9.2 Modello logistico per variabili risposta multinomiali ordinali . . .
4.10 Modelli log-lineari per tabella di contingenza . . . . . . . . . . . . . . . . . . . . . .

93
94
96
97
99
104
107
107
111
112
112
112
113
113
114
120
123
124
125
126
127

5 Esercizi desame con soluzione

131

Bibliografia

149

2.4
2.5

2.6

2.3.3
Analisi
2.4.1
Analisi
2.5.1
2.5.2
2.5.3
Analisi

Capitolo 1
Regressione lineare
1.1

Aspetti geometrici

Indichiamo con y e x1 , . . . ,xp1 i vettori colonna contenti rilevazioni statistiche quantitative su n unit`a sperimentali. Si vuol stabilire se la variabile y `e esprimibile come
combinazione lineare di x1 , . . . ,xp1 pi`
u un residuo. Le variabili x1 , . . . ,xp1 vengono
dette variabili esplicative e la variabile y viene detta variabile risposta.
In termini di ciascuna unit`a sperimentale, ci`o significa:
yi = 0 + 1 xi1 + 2 xi2 + + p1 xi

p1

+ i

per i = 1, . . . ,n ,

e in forma vettoriale:
y = 0 + x1 1 + . . . + xp1 p1 +
dove con si `e indicato il vettore (1 , . . . ,n )t .
Sia X la matrice di dimensione n p che ha come colonne i vettori 1,x1 , . . . ,xp1 , dove
1 `e un vettore di dimensione n con tutti 1. Sia = (0 ,1 , . . . ,p1 )t .
Allora il modello si scrive come:
y =X +
y1
yi

yn
y

1
1
1
1
1
1
1
1
1

x1
x11

x2
x12

xp1
x1 p1

1
0
1

xi1

xi2

xi

p1

p1
xn1

xn2

xn

p1

Osserviamo che il modello viene detto lineare perche i coefficienti compaiono come termini lineari; la linearit`a delle relazioni in rapporto ai coefficienti pu`o essere
1

Regressione lineare

eventualmente esplicitata dopo una trasformazione dei dati; ad esempio:


y = 0 x1 1 x2 2 (1 + ) diventa

log y = log 0 + 1 log x1 + 2 log x2 + log(1 + )

In seguito le colonne della matrice X e il vettore y potranno anche essere trasformazioni


di x1 , . . . ,xp1 e y.
La relazione fra la variabile risposta y e le variabili esplicative x1 , . . . ,xp1 , e quindi anche lerrore di approssimazione , dipendono dai parametri (0 ,1 , . . . ,p1 )t . Si vogliono
trovare quindi quei valori dei parametri che rendono minimo lerrore dellapprossimazione.
Lerrore (o residuo) di approssimazione commesso nelle diverse unit`a sperimentali `e:
i = yi 0 1 xi1 2 xi2 p1 xi

p1

per i = 1, . . . ,n

Con motivazioni che vedremo nel prossimo paragrafo, la funzione degli errori che si
minimizza `e la somma dei quadrati dei residui di ogni unit`a sperimentale:
SS (0 ,1 , . . . ,p1 ) =

n
X

2i

i=1

n
X

(yi 0 1 xi1 2 xi2 p1 xi

p1 )

i=1

La notazione SS sta per Sum of Squares.


1.1.1

Interpretazione vettoriale nello spazio delle osservazioni

Di seguito `e riportato un esempio in cui il modello comprende una sola variabile esplicativa. In questo caso si parla di modello di regressione semplice:
y = 0 + 1 x + .
y
60

Un punto rappresenta una unit`a sperimentale e le sue coordinate (xi ,yi ) sono i valori
delle variabili x e y per quella unit`a. I valori
b0 +b1 xi , che appartengono alla retta indicata, sono la migliore approssimazione lineare
di yi tramite xi . Con (b0 ,b1 ) si sono infatti indicati i valori di (0 ,1 ) che rendono minima
la somma dei quadrati degli errori. Lerrore
minimo `e indicato con ei :
ei = yi b0 b1 xi .
1.1.2

50
40

(x
(xii,, b01+xxi +
i b 1)
2)

30
20

((xxii,,yyi i))
x
0

10

20

30

40

Minimizzazione dellerrore di approssimazione

Come gi`a detto, si vuole fare in modo che lerrore di approssimazione della variabile risposta tramite le variabili esplicative sia minimo. Si cercano allora quei valori (b0 ,b1 , . . . ,bp1 )
di (0 ,1 , . . . ,p1 ) che minimizzano la funzione SS (0 ,1 , . . . ,p1 ). Vedremo linterpretazione geometrica di questa scelta nel prossimo paragrafo. Ricaviamo qui i valori in
modo analitico, ponendo uguali a 0 le e p derivate parziali di SS (0 ,1 , . . . ,p1 ) rispetto
a 0 ,1 , . . . ,p1 .

1.1

Aspetti geometrici

Caso della regressione semplice


In questo caso
SS (0 ,1 ) =

n
X

(ei = yi b0 b1 xi )2

i=1

Le derivate parziali di SS (0 ,1 ) in 0 e 1 uguagliate a 0 sono:


2

n
X

xi (yi 0 1 xi ) = 0 e

i=1

n
X

(yi 0 1 xi ) = 0

i=1

Se indichiamo con b0 e b1 le soluzioni di tale sistema si ottiene: b0 = y b1 x e


P
n
i=1 xi (yi b1 xi y + b1 x) = 0. Dallultima segue:
!
n
n
n
n
X
X
X
X
xi y i y
x i = b1
x2i x
xi
cio`e, cov(x,y) = b1 V(x)
i=1

i=1

i=1

i=1

Quindi le soluzioni cercate, se x non `e costante, sono:


b0 = y b1 x

e b1 =

cov(x,y)
V(x)

Le soluzioni del sistema delle derivate prime uguagliate a 0 corrispondono a un minimo


in quanto la funzione da minimizzare `e una somma di quadrati; non `e quindi necessario
calcolare le derivate seconde.
(xx)+y `e detta retta di regressione di y rispetto a x. Osserviamo
La retta y = cov(x,y)
V(x)
che tale retta passa per il punto (x,y), baricentro della nuvola dei dati, e che il segno del
suo coefficiente angolare `e quello della covarianza fra le due variabili.
Lerrore che si commette approssimando y con una funzione lineare di x `e:
2
n 
X

cov(x,y)
(x i x) = . . . = n V(y) 1 2 (x,y)
SS (b0 ,b1 ) =
yi y
V(x)
i=1
Questa quantit`a `e tanto pi`
u piccola quanto pi`
u `e piccola la numerosit`a campionaria e la
varianza di y e quanto pi`
u `e grande, in valore assoluto, la correlazione tra le variabili.
A parit`a di V(y) e n, pi`
u i dati sono ben correlati, pi`
u `e buona lapprossimazione con la
retta; per`o se V(y) `e molto piccola (cio`e y quasi costante), lapprossimazione lineare `e
buona anche se la correlazione fra x e y `e quasi nulla.
Caso della regressione multipla
Per una matrice X con un numero p di colonne, in termini vettoriali, possiamo scrivere:
SS() = t = (y X)t (y X) = yt y t Xt y yt X + t Xt X .
Essendo t Xt y e yt X scalari e inoltre uno il trasposto dellaltro, SS() diventa:
SS() = yt y 2 t Xt y + t Xt X
Eguagliando a 0 le derivate vettoriali di SS() si ha:
Xt y Xt X = 0 .

Regressione lineare

Queste vengono dette equazioni normali.


Indichiamo con b il vettore (b0 ,b1 , . . . ,bp1 )t , soluzione del sistema delle equazioni delle
derivate parziali. Se Xt X `e invertibile, si ha:
1 t
b = Xt X
Xy .
La matrice Xt X `e invertibile se `e di rango pieno, cio`e se lo `e X. Supponendo che il
numero di unit`a sperimentali n sia superiore a p, il fatto che X sia di rango pieno vuol
dire che le colonne della matrice X sono linearmente indipendenti. Problemi legati alla
invertibilit`a di Xt X saranno affrontati nel capitolo relativo ai Modelli lineari generali.
Qui osserviamo solo che nel caso in cui la condizione di invertibilit`a non fosse verificata
si pu`o rendere di rango pieno la matrice X togliendo dal modello una o pi`
u variabili che
risultano essere combinazioni lineari di altre.
1.1.3

Interpretazione vettoriale nello spazio delle variabili

Vediamo a che cosa corrisponde, da un punto di vista geometrico nello spazio delle
colonne, la minimizzazione della funzione SS (), cio`e la minimizzazione della somma
dei quadrati dei residui.
Consideriamo anzitutto il caso della regressione lineare semplice:
y = X + = 0 1 + 1 x1 +
I vettori (0 1 + 1 x1 ), al variare della coppia (0 ,1 ), appartengono a un piano, che
indicheremo con V , generato appunto dai due vettori 1 e x1 .
Il vettore `e il vettore differenza fra il vettore y e il generico vettore X e il quadrato
della sua lunghezza `e SS (0 ,1 ). La lunghezza del vettore `e minima per la coppia di
valori (b0 ,b1 ). Indichiamo con:
- b il vettore (b0 ,b1 ),
il vettore Xb, cio`e il vettore b0 1 + b1 x1 ,
- y
- e il vettore y Xb.
Quindi il vettore Xb dello spazio V che corrisponde alla minima lunghezza di `e il punto
di minima distanza di y da V , cio`e `e la proiezione ortogonale di y su tale spazio.

Interpretazione geometrica in R3 .
Se x1 e y sono due vettori di R3 , la figura a
fianco illustra quanto spiegato sopra: in questo
caso V `e un piano di R3 .
Utilizzeremo comunque la figura a lato per
visualizzare la situazione anche se i vettori
considerati appartengono a Rn .

Xb

Xb

Nel caso in cui le variabili esplicative siano pi`


u di una linterpretazione geometrica non
cambia: in questo caso V `e un sottospazio vettoriale di Rn generato dalle colonne della
matrice X e il vettore Xb `e la proiezione ortogonale di y su V .

1.1

1.1.4

Aspetti geometrici

Proiettore sullo spazio generato dalle colonne di X

Il proiettore di un vettore di Rn su V `e:


PV = X(Xt X)1 Xt
La matrice PV `e effettivamente un proiettore; infatti `e:
- simmetrica; infatti PV = PtV ;
- idempotente; infatti: PV PV = X(Xt X)1 Xt X(Xt X)1 Xt = PV .
Inoltre applicato a ciascun vettore che genera V , cio`e a 1,x1 , . . . ,xp1 produce il vettore
stesso:
PV X = X(Xt X)1 Xt X = X
In particolare applicato alla colonna di X formata dal vettore 1 significa che la somma
di ciascuna riga di PV `e 1; useremo questa relazione in seguito.
Esempio A
Consideriamo una popolazione di pioppi studiata da ricercatori della Pennsylvania
State University. Costruiamo un modello per esprimere laltezza tramite il diametro.
`
I risultati della regressione dellaltezza tramite il diametro sono i seguenti. E
riportata solo la parte di output oggetto di studio in questo capitolo.
The REG Procedure
Model: MODEL1
Dependent Variable: Altezza
Number of Observations Read
Number of Observations Used

295
295

Analysis of Variance
Source
Model
Error
Corrected Total
Root MSE
Dependent Mean
Coeff Var

1.1.5

DF
1
293
294
8.10615
76.65583
10.57474

Sum of
Squares
138748
19253
158001
R-Square
Adj R-Sq

Mean
Square
138748
65.70974
0.8781
0.8777

Decomposizione della varianza e indice R2

Esaminiamo la tabella Analysis of Variance. Le righe corrispondono ai vettori:


- y
y (Model),
- e, ovvero y y
(Error),
- y y (Total).

Regressione lineare

Linterpretazione geometrica `e la seguente:


- il vettore e, ovvero y y
, `e contenuto nel
sottospazio ortogonale a V .
- il vettore y (con ogni elemento uguale a y)
si trova sulla bisettrice (indicata con 1) che
appartiene al sottospazio V ;
- il vettore y
y si trova in un sottospazio contenuto in V e quindi `e ortogonale
al vettore e.

y
y - ^y
Error

y-y
Total
^
y

1
y
^
y-y
Model

Nella colonna Sum of Squares si possono leggere i quadrati delle lunghezze dei vettori
y
y, e e y y. Per il teorema di Pitagora, il quadrato della lunghezza di y y `e la
somma dei quadrati delle lunghezze di y y
ey
y.
Nella colonna DF (Degree of Freedom) si leggono le dimensioni degli spazi in cui si
trovano i tre vettori. Il vettore y ha dimensione n, il vettore y ha dimensione 1, lo spazio
vettoriale V ha dimensione p; quindi:
- il vettore y
y appartiene a uno spazio di dimensione p 1,
- il vettore e appartiene a uno spazio di dimensione n p,
- il vettore y y appartiene a uno spazio di dimensione n 1.
Un indice che permette di valutare ladeguatezza del modello `e il coefficiente R2 , che
nelloutput `e indicato con R-sq e si trova prima della tabella Analysis of Variance.
Tale indice ha due possibili interpretazione equivalenti.
La prima consiste nel considerarlo come rapporto fra la varianza dellapprossimazione
lineare y
e la varianza della variabile risposta y (o meglio il rapporto fra i numeratori di
tali varianze).
Il numeratore della varianza di y `e il quadrato della lunghezza di y y.
Il numeratore della varianza di y
`e il quadrato della lunghezza di y
y; infatti il
valore medio di y
`e y:
n

1X
1
1
1
1
1
= 1t Xb = 1t PV y = yt PV 1 = yt 1 = y .
y
=
yi = 1t y
n i=1
n
n
n
n
n
Quindi il rapporto fra le due varianze (a meno di una costante) `e il rapporto fra le due
quantit`a SS(Model) e SS(Total):
R2 =

SS(M odel)
SS(Error)
k
y yk2
kek2
=1
=
=
1

.
SS(T otal)
SS(T otal)
ky yk2
ky yk2

Un altro indice che viene usato per valutare la bont`a del modello `e lindice R2 adjusted,
che `e costruito dal precedente, considerando anche i gradi di libert`a:
R2 -adj = 1

kek2 /(n p)
ky yk2 /(n 1)

1.1

Aspetti geometrici

Il coefficiente R2 pu`o essere interpretato anche come il quadrato del coefficiente di correlazione fra la variabile risposta y e la sua
approssimazione lineare y
:

y-y

R2 = 2 (y,
y)

^
y

k
yyk
infatti il rapporto kyyk
e il quadrato del
2 `
y, che
coseno fra i vettori y y e y
corrisponde a 2 (y,
y).

1
y

^y - y

Nei casi in cui il modello comprende una sola variabile esplicativa R2 `e il quadrato del
coefficiente di correlazione fra la variabile risposta y e la variabile x.
Modello senza costante
Le interpretazioni vettoriali della decomposizione della varianza e del coefficiente R2
valgono quando il modello ha anche la costante, cio`e quando la matrice X ha una colonna
con gli elementi tutti uguali a 1.
Infatti nel modello senza costante il vettore y non appartiene a V . Quindi langolo
u retto; inoltre il valore medio di y
non `e y e quindi
fra i vettori e e y
y non `e pi`
linterpretazione del coefficiente R2 come rapporto di varianze non vale pi`
u.
1.1.6

La regressione lineare multivariata

Nella regressione multivariata le variabili risposta sono y1 , . . . ,yr , ciascuna delle quali
dipende dalle stesse variabili esplicative. Indichiamo con j il vettore p-dimensionale dei
coefficienti relativi alla variabile yj e con j i corrispondenti residui, per j = 1, . . . ,q. Il
modello per ogni variabile risposta `e:
y j = X j + j

per j = 1, . . . ,r

Indicando con Y la matrice con colonne y1 , . . . ,yr , con B la matrice con colonne
, . . . , r e con la matrice con colonne 1 , . . . ,r , il modello diventa:
1

Y = X +
y1
y11

...

yi1

yr
y1r
yir

yni

ynr
Y

1
1
1
1
1
1
1
1
1

x1
x11

xi1

xp1
x1p1
xip1

...

1
i1

01
11
+

...

r
r1

1i

ri

1n

rn

1
p1

xn1

xnp1
X

Regressione lineare

y1
Linterpretazione geometrica dellapprossimazione lineare nel modello multivariato non
cambia rispetto al caso precedente; infatti lo
spazio vettoriale V rimane lo stesso per ciascun modello e non intervengono eventuali
correlazioni fra le variabili risposta.

y2
e1
e2
Xb1

Xb2

V
La differenza sostanziale fra la regressione multivariata e quella a risposta univariata
che rende la prima pi`
u complicata della seconda si evidenzia quando si prendono in
considerazione gli aspetti inferenziali, che affronteremo in seguito, con test sui coefficienti
coinvolgono le correlazioni fra y 1 , . . . ,y q .
1.1.7

Il grafico dei residui

Un metodo grafico molto utile per verificare la bont`a del modello `e quello di analizzare
il grafico dei grafico dei residui rispetto ai valori predetti. Se si ottiene una nuvola
omogenea di punti intorno alla retta orizzontale che passa per lorigine allora vuol dire i
residui non presentano ulteriori caratteristiche da modellare.
Esempio B Riprendiamo lEsempio A relativo alla descrizione dellaltezza di alcuni
esemplari di pioppi in funzione del diametro. Qui sotto sono riportati il grafico di
dispersione con la retta di regressione e il corrispondente grafico dei residui.

Se la dipendenza della variabile risposta dalle variabili esplicative non `e lineare ma `e


ad esempio quadratica, logaritmica, . . . , il grafico dei residui rispetto ai valori predetti
enfatizzer`a questa dipendenza non lineare.
Osserviamo che il grafico dei residui rispetto ai valori predetti `e comunque bidimensionale anche in presenza di pi`
u variabili esplicative; `e quindi una rappresentazione grafica
che pu`o essere sempre effettuata.
Ricerca del modello tramite il grafico dei residui
Vediamo tramite il seguente esempio come si pu`o trovare un buon modello utilizzando
il grafico dei residui.

1.1

Aspetti geometrici

Esempio C Si vuole stabilire se esiste una dipendenza fra il flusso di un corso dacqua
(cio`e la quantit`a di acqua che passa in un dato punto in un determinato intervallo di
tempo) e la profondit`a del corso dacqua. I dati e il diagramma di dispersione sono i
seguenti:
ROW

profond

flusso

1
2
3
4
5
6
7
8
9
10

0.34
0.29
0.28
0.42
0.29
0.41
0.76
0.73
0.46
0.40

0.636
0.319
0.734
1.327
0.487
0.924
7.350
5.890
1.979
1.124

Si pu`o gi`a intravedere che la dipendenza lineare non `e marcata; questo si osserva
ancora meglio tramite il grafico dei residui di un modello in cui si `e supposta una
dipendenza lineare. Degli output delle regressioni seguenti sono riportate solo le parti
relative alla statistica descrittiva.

Modello 1: y = 0 + 1 x +
Analysis of Variance
DF
1
8
9

Sum of
Squares
51.73860
2.91341
54.65201

Root MSE
Dependent Mean
Coeff Var

0.60347
2.07700
29.05490

Source
Model
Error
Corrected Total

Obs
1
2
3
4
5
6
7
8
9
10

Dependent Predicted
Variable Value Residual
0.6360 0.7213
0.3190 0.0296
0.7340 -0.1087
1.3270 1.8280
0.4870 0.0296
0.9240 1.6897
7.3500 6.5314
5.8900 6.1164
1.9790 2.3813
1.1240 1.5513

-0.0853
0.2894
0.8427
-0.5010
0.4574
-0.7657
0.8186
-0.2264
-0.4023
-0.4273

Mean
Square
51.73860
0.36418
R-Square
Adj R-Sq

F Value
142.07

0.9467
0.9400

Pr > F
<.0001

10

Regressione lineare

Modello 2: y = 0 + 1 x + 2 x2 +
I dati e il precedente grafico dei residui
possono indurre a supporre una dipendenza quadratica; si pu`o quindi costruire un modello polinomiale del secondo
ordine in cui le variabili esplicative sono due, x e x2 . Il grafico dei residui `e
riportato a fianco.
Il grafico dei residui della regressione polinomiale del secondo ordine presenta gi`a
un andamento migliore ma si possono provare altri modelli ad esempio:

y = 0 + 1 x +
oppure
log(y) = 0 + 1 log(x) +
Il primo di questi due modelli `e del tutto simile al modello 2, mentre il secondo
`e motivato dal fatto che i due valori con il flusso e la profondit`a pi`
u alti sono quelli
che si discostano maggiormente dalla linearit`a rispetto agli altri dati e il logaritmo
schiaccia i valori pi`
u alti.
Analizziamo i risultati nei due casi.

Modello 3: y = 0 + 1 x +
Di seguito sono riportati il diagramma di dispersione in cui la variabile risposta `e stata
trasformata tramite la radice quadrata e il grafico dei residui del modello.

Modello 4: log(y) = 0 + 1 log(x) +


Di seguito sono riportati il diagramma di dispersione in cui sia la variabile risposta
che la variabile esplicativa sono stata trasformate tramite il logaritmo e il grafico dei
residui del modello.

1.1

Aspetti geometrici

11

I grafici dei residui dei modelli 3 e 4 sono migliori di quello del modello 1; sar`a
poi la conoscenza del problema specifico che far`a decidere quale dei due modelli `e pi`
u
opportuno.
Il grafico dei residui `e molto pi`
u significativo del coefficiente R2 nella determinazione
di un buon modello di regressione lineare. Vediamo un esempio in cui il coefficiente
R2 `e alto ma in cui il grafico dei residui segnale linadeguatezza del modello.
Esempio D Consideriamo alcuni dati relativi a due specie di pesci di un lago finlandese (Laengelmavesi) vicino a Tampere, labramide e il pesce persico. Si vuole
esprimere il peso in funzione della lunghezza standard (lunghezza naso inizio coda),
dellaltezza e dello spessore. Si effettua una regressione lineare per ciascuna delle due
specie.
I risultati sono i seguenti. A sinistra labramide e a destra il pesce persico. In
entrambi i casi lindice R2 `e elevato: 0. 9405 per labramide e 0. 9600 per il pesce
persico, ma nel secondo caso il grafico dei residui non `e una nuvola di punti omogenea
intorno allorigine ma presenta un andamento; questo `e indice che per la specie pesce
persico il modello non `e adeguato.

12

1.2

Regressione lineare

La regressione lineare su un campione

Nel capitolo precedente non abbiamo fatto nessuna ipotesi sul fatto che i valori di y
fossero realizzazioni campionarie di una qualche variabile aleatoria. Introducendo ipotesi
di questo tipo possiamo calcolare intervalli di confidenza ed effettuare test relativi ai parametri . Questo permette - tra laltro - di stabilire se le variabili esplicative introdotte
nel modello siano effettivamente tutte utili per lapprossimazione della variabile risposta.
1.2.1

Condizioni su media e varianza dei residui

Supponiamo che i residui siano leffetto risultante di un gran numero di cause non identificate, quindi siano una perturbazione aleatoria; allora Y diventa un vettore aleatorio
di cui si osservano alcune realizzazioni y.
Pi`
u precisamente supponiamo che ciascun residuo i sia una variabile aleatoria con
media 0 e varianza 2 costante e che inoltre che la correlazione fra due variabili aleatorie
residui sia nulla, cio`e cov(i ,j ) = 0 se i 6= j.
Quindi, in forma vettoriale:
E() = 0n

cov() = 2 In

dove 0n `e un vettore di dimensione n con tutti 0 e In `e la matrice identit`a di dimensione


n.
Tali ipotesi comportano che ciascun elemento yi del vettore y sia la realizzazione di
una variabile aleatoria avente come valore atteso lelemento i-esimo del vettore X ,
E(Yi ) = (xi )t , e varianza 2 costante; supponiamo inoltre che la correlazione fra le
variabili Yi e Yj sia nulla, cio`e cov(Yi ,Yj ) = 0 se i 6= j. Quindi:
E(Yi ) = (xi )t

e V(Yi ) = 2 , cov(Yi ,Yj ) = 0 se i 6= j

e, in forma vettoriale:
E(Y) = X

cov(Y) = 2 In

Il vettore Y non `e quindi un campione di una stessa variabile aleatoria in quanto i valori
attesi di ciascuna Yi sono diversi.
Nei casi reali vi sono alcuni problemi relativi alle ipotesi fatte. Ipotizzando che la
varianza della variabile risposta sia costante non si ammettono fenomeni di eteroschedasticit`a, mentre in alcune situazioni pu`o essere realistico supporre che ci sia dispersione
maggiore attorno a valori di Yi maggiori. Ipotizzando che la covarianza fra i residui sia
nulla non si ammette il caso, ad esempio, di osservazioni cronologiche, in cui, raramente,
si pu`o fare lipotesi di correlazione nulla fra le variabili a due tempi successivi (fenomeno
di autocorrelazione). Questi casi si analizzano con altri metodi statistici che qui non
consideriamo.
Osserviamo che solo il vettore Y `e considerato aleatorio, mentre le variabili x1 , . . . ,xp1
sono considerate deterministiche.
Effettuando le stime dei coefficienti con il metodo dei minimi quadrati, cos` come `e
stato descritto nel Capitolo 1.1, si ha che:
1. la stima dei coefficienti del modello `e b = (Xt X)1 Xt y
o con Xb, `e X (Xt X)1 Xt y
2. la stima dei valori attesi E(Y), indicata con y

1.2

La regressione lineare su un campione

13

3. la stima dei residui, cioe della differenza fra valori osservati e i valori stimati, e, cio`e
, `e e = (I X (Xt X)1 Xt ) y.
yy
Tutte queste stime risultano combinazioni lineari dei valori del vettore y, con y =
(y1 ,y2 , . . . ,yn )t . Quindi sono realizzazioni di variabili aleatorie, in quanto combinazioni
lineari di realizzazioni delle variabili aleatorie Y1 ,Y2 , . . . ,Yn .
e E i corrispondenti stimatori e elenchiamo
Indichiamo rispettivamente con B, Y
alcune loro propriet`a. Osserviamo che questi sono vettori di stimatori di dimensione,
rispettivamente, p, n e n; quindi i loro valori attesi dei tre stimatori sono vettori e le loro
e
matrici di varianza/covarianza sono matrici quadrate, che indichiamo con V(B), V(Y)
V(E).
1. Stimatore B dei coefficienti :
- E(B) = e in particolare E(Bk ) = k ; quindi sono non distorti
- V(B) = 2 (Xt X)1
- ogni altro stimatore lineare non distorto ha una varianza pi`
u grande di Bk .
(o XB) dei valori attesi delle variabili risposta X:
2. Stimatore Y
 
= X e in particolare E Yi = (xi )t ; quindi sono non distorti
- E(Y)
= 2 (X (Xt X)1 Xt )
- V(Y)
3. Stimatore E dei residui :
- E(E) = 0
- V(E) = 2 (I X (Xt X)1 Xt )
Dimostrazioni relative alle matrici di varianza-covarianza
Per dimostrare le relazioni precedenti premettiamo prima il calcolo della matrice di matrice di varianza covarianza di un vettore aleatorio Y = (X1 , . . . ,Xp )t di valore atteso
E(Y ) = = (1 , . . . ,p ). La matrice di varianza covarianza di Y `e:


V(Y ) = E (Y ) (Y )t = E Y Y t Y t Y t + t =



= E Y Y t E Y t E Y t + t =


= E Y Y t t t + t = E Y Y t t
1. Matrice di varianza covarianza degli stimatori B dei coefficienti . Si ha:
E(B) =


V(B) = E BB t t = E (X t X)1 X t Y Y t X(X t X)1 t =

= (X t X)1 X t E Y Y t X(X t X)1 t

Essendo V(Y ) = E Y Y t X t X t = 2 I, si ha:

V(B) = (X t X)1 X t 2 I + X t X t X(X t X)1 t =
= 2 (X t X)1

14

Regressione lineare

2. Matrice di varianza covarianza degli stimatori Y dei valori attesi di Y . Si ha:


E(Y ) = E(Y ) = X

V(Y ) = E XBB t X t X t X t = XV(B)X t = 2 X(X t X)1 X t
= 2P V
3. Matrice di varianza covarianza degli stimatori E dei residui . Si ha:
E(E) = E(Y XB) = 0

V(E) = V(Y XB) = V Y X(X t X)1 X t Y =


= I X(X t X)1 X t V (Y ) = 2 I X(X t X)1 X t =
= 2P V
Nelle matrici di varianza/covarianza precedenti compare il termine 2 che in generale
`e incognito.
Pn
P
t
2
Lo stimatore n1 ni=1 Ei2 di 2 `e distorto. Infatti si ha
i=1 Ei = E E e inoltre,
essendo la traccia di una matrice la somma degli elementi sulla diagonale si ha



E E t E = E traccia(EE t ) = traccia E EE t = traccia (V(E)) = 2 traccia P V
La matrice P V `e idempotente (essendo un proiettore) e quindi la sua traccia `e uguale
al suo rango, che sappiamo essere n p.
Quindi uno stimatore non distorto di 2 `e:
n

1 X 2
S =
E
n p i=1 i
2

Stimatori non distorti delle matrici di varianza/covarianza precedenti si ottengono


sostituendo al valore 2 lo stimatore S 2 . In particolare
1. uno stimatore della varianza di Bk che indichiamo con Sk2 `e uguale a S 2 moltiplicato per il k-esimo termine della diagonale di (Xt X)1 .
2. uno stimatore della varianza di Yi che indichiamo con (Si? )2 `e uguale a S 2
moltiplicato per li-esimo termine della diagonale di X (Xt X)1 Xt .
3. uno stimatore della varianza di Ei che indichiamo con (Si?? )2 `e uguale a S 2
moltiplicato per li-esimo termine della diagonale di (I X (Xt X)1 Xt ).
Esempio E
Riprendiamo lEsempio A gi`a analizzato nel Capitolo 1.1, relativo allaltezza dei
pioppi in dipendenza del diametro e analizziamo nuove parti di output.
Model: MODEL1
Dependent Variable: Altezza
Number of Observations Read
Number of Observations Used

295
295

1.2

DF

Analysis of Variance
Sum of
Squares

1
293
294

138748
19253
158001

Root MSE
Dependent Mean
Coeff Var

8.10615
76.65583
10.57474

Source
Model
Error
Corrected Total

15

La regressione lineare su un campione

Mean
Square
138748
65.70974

R-Square
Adj R-Sq

F Value

Pr > F

2111.53

<.0001

0.8781
0.8777

Parameter Estimates
Variable
Intercept
Diametro

DF
1
1

Parameter
Estimate
14.00115
12.76450

Standard
Error
1.44287
0.27778

t Value
9.70
45.95

Pr > |t|
<.0001
<.0001

Nella tabella Parameter Estimates sono indicate le stime bk dei parametri k ,


colonna Parameter Estimate, e le stime delle deviazione standard sk degli stimatori
Bk , colonna Standard error.
Il valore Root MSE 8.10615 `e il valore dello stimatore della deviazione standard del
modello.
Commenteremo le altre parti delloutput in seguito.
1.2.2

Residui con legge normale

In molte situazioni concrete `e ragionevole modellare i residui con una variabile aleatoria
con legge normale. Se la variabile aleatoria Y `e quantitativa e assume valori su tutto
lintervallo reale, lipotesi di normalit`a dei residui pu`o essere giustificata dal considerarli
come il risultato della somma di pi`
u variabili aleatorie non specificate nel modello e
quindi con legge tendente alla legge normale.
Quindi alle assunzioni precedenti su valore atteso e varianza/covarianza:
E() = 0n

V() = 2 In

va aggiunta lipotesi che ciascun i abbia legge normale N (0,).


Queste ipotesi sono equivalenti a supporre che il vettore Y osservato sia la realizzazione
di un vettore aleatoria di legge normale con:
E(Y) = X

V(Y) = 2 In

Dalle assunzioni sulla legge dei residui si possono dedurre le leggi degli stimatori B,
e E. Per trovare tali leggi utilizziamo un teorema di Teorema di Cochran di cui
Y
riportiamo qui di seguito una versione e la sua dimostrazione.
Teorema di Cochran
Sia X = (X1 , . . . ,Xn ) un campione di legge N (0, 2 ).
a) Le componenti di X in ogni base ortonormale di Rn formano un n-campione di
legge N (0, 2 ). Pi`
u precisamente se H `e la matrice di dimensione n n con colonne

16

Regressione lineare

i vettori della nuova base ortonormale di Rn , allora il vettore aleatorio Ht X ha legge


N (0n , 2 In ).
b) Sia E1 . . . Es una decomposizione di Rn in s sottospazi due a due ortogonali
di dimensioni rj (1 j s). Si pu`o scegliere una base ortonormale di Rn tale che
ciascun Ej sia generato da rj vettori di questa base. Sia Hj la matrice di dimensione
n rj con colonne i vettori della nuova base di Ej .
Il proiettore ortogonale sullo spazio Ej `e: PEj = Hj Htj e la proiezione di X su Ej `e:
XEj = PEj X = Hj Htj X
Si ha:
i) Il valore atteso e la matrice di varianza covarianza di XEj sono:
E(XEj ) = 0n

V(XEj ) = 2 Hj Htj

ii) I vettori aleatori XE1 , . . . ,XEs sono indipendenti.


iii) I vettori aleatori kXE1 k2 , . . . ,kXEs k2 sono indipendenti e le variabili aleatorie
kXEj k2
2

hanno legge

2[rj ]

per 1 j s

Dimostrazione
a) Si ha Ht H = In . Inoltre il valore atteso e la matrice di varianza covarianza di Ht X
sono:

E(Ht X) = Ht E(X) = 0n
V(Ht X) = Ht E XXt H = 2 In
b) Il proiettore ortogonale sullo spazio Ej `e: PEj = Hj Htj Hj

1

Htj = Hj Htj . Si ha:

i) Il valore atteso e la matrice di varianza covarianza di XEj sono:



E(XEj ) = E(Hj Htj X) = 0n
V(XEj ) = Hj Htj E XXt Hj Htj = 2 Hj Htj
ii) Gli elementi del vettore aleatorio XEj e gli elementi del vettore aleatorio XEt
con j 6= thanno covarianza nulla; infatti:

E(XEj XtEt ) = E Hj Htj XXt Htt Ht = 2 Hj Htj Ht Htt = 2 Hj 0rj rt Htt = 0nn
iii) I vettori aleatori kXEj k2 e kXEt k2 sono indipendenti in quanto costruiti tramite
i due vettori XEj e XEt che sono indipendenti.
La norma al quadrato di XEj `e:
kXEj k2 = XtEj XEj = Xt Hj Htj Hj Htj X = kHtj Xk2

Avendo il vettore Htj X legge N 0rj , 2 Irj , si ha:
kXEj k2
' 2[rj ]
2

1.2

17

La regressione lineare su un campione

Applicazione al modello lineare: legge degli stimatori dei parametri


. Il vettore aleatorio di legge N (0, 2 ) a cui applicare
il teorema di Cochran `e il vettore (e non Y, in
quanto le sue componenti non sono identicamente
distribuite, avendo valori attesi diversi)

y
PV

y^

. I sottospazi ortogonali sono V e V di dimensioni


p e n p. I proiettori sono PV = X(Xt X)1 Xt e
PV = I X(Xt X)1 Xt

PV

. La proiezione di su V `e il vettore E per cui la variabile aleatoria


kEk2
2

ha legge 2[np]

Inoltre:
e E appartengono a spazi ortogonali e hanno legge normale; per
a) I vettori aleatori Y
cui sono indipendenti.
= X(Xt X)1 X Y e B = (Xt X)1 Xt Y.
Quindi lo sono anche B e E; infatti Y
E lo sono anche B e kEk2 .
b) Ciascuna variabile aleatoria Bk , elemento k-esimo del vettore aleatorio B ha legge
N (k , 2 vk2 ), con vk2 elemento diagonale della matrice (Xt X)1
Per cui, essendo S 2 =

kEk2
,
np

Bk k
vk
S

la variabile aleatoria:
ovvero

Bk k
S vk

ha legge t2[np]

Indichiamo come sopra con Sk lo stimatore della standard deviation di Bk e ricordiamo


che k `e il valore atteso di Bk .
1.2.3

Intervalli di confidenza per k e (xi )t . Residui standardizzati

Il risultato precedente ci permette di costruire intervalli di confidenza per i parametri k ,


per i valori attesi (xi )t delle variabili risposta, a un livello di significativit`a prefissato
. Indichiamo con t il valore del quantile 1 /2 di una variabile aleatoria con legge t
di Student a n p gradi di libert`a.
1. Coefficienti :


Bk t Sk ,Bk + t Sk

2. Valori attesi delle variabili risposta (xi )t




Yi t Si? ,Yi + t Si?
Infatti dal risultato relativo alla legge dei Bk segue che gli stimatori Yi hanno legge
normale con media (xi )t e varianza stimata (Si? )2 . Ricordiamo che con (Si? )2 si `e

18

Regressione lineare

indicato il termine i-esimo della diagonale della matrice X (Xt X)1 Xt moltiplicato
per S 2 . Quindi la variabile aleatoria
Yi (xi )t
Si?
ha legge t di Student con n p gradi di libert`a.
Sostituendo i valori campionari bk e sk , yi e s?i si ottengono le realizzazioni campionaria
di tali intervalli.
Dai risultati precedenti segue che le variabili aleatorie
Ei /Si??
2
hanno legge t di Student a n p gradi di libert`a; ricordiamo che con (s??
i ) abbiamo
indicato il termine i-esimo della diagonale della matrice I X (Xt X)1 Xt moltiplicata
per S 2 .
I software statistici forniscono spesso i cosiddetti residui standardizzati o studentizzati (studentized residual) che sono le quantit`a

ei /s??
i
In genere il grafico dei residui viene fatto utilizzando queste quantit`a perche sono depurate dalle deviazioni standard e quindi meglio confrontabili fra loro.
Esempio F
Si vuole stabilire se il consumo di ossigeno da parte di atleti che praticano sport
di fondo `e esprimibile come combinazione lineare di variabili esplicative facilmente
rilevabili anche sul campo.
Le variabili esplicative considerate sono:
-

let`a del soggetto (eta),


let`a del soggetto (peso),
il tempo di percorrenza di un prefissato tragitto (tempo),
le pulsazioni cardiache al minuto da fermo (pulsfer),
le pulsazioni cardiache al minuto medie (pulsmed),
le pulsazioni cardiache al minuto massime nella corsa (pulsmax),

Il programma SAS `e il seguente.


proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse /
corrb clb clm p r ;
plot student.*p.;
run; quit;

Le opzioni corrb clb clm p r permettono di ottenere rispettivamente le stime delle


matrici di covarianza e di correlazione degli stimatori B, gli intervalli di confidenza
e E.
per i coefficienti e per i valori attesi delle variabili risposta Y i valori Y
I risultati sono i seguenti.

1.2

19

La regressione lineare su un campione

Analysis of Variance
Source
Model
Error
Corrected Total

Sum of
Squares
722.54361
128.83794
851.38154

DF
6
24
30

Root MSE
Dependent Mean
Coeff Var

2.31695
47.37581
4.89057

Mean
Square
120.42393
5.36825

R-Square
Adj R-Sq

F Value
22.43

Pr > F
<.0001

0.8487
0.8108

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

t Value

Pr > |t|

Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse

1
1
1
1
1
1
1

102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322

12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650

8.30
-2.27
-1.36
-6.84
-3.08
-0.33
2.22

<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360

Variable

95% Confidence Limits

Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse

77.33541
-0.43303
-0.18685
-3.42235
-0.61699
-0.15786
0.02150

128.53355
-0.02092
0.03850
-1.83496
-0.12226
0.11480
0.58493
Correlation of Estimates

Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse

Intercept
1.0000
-0.7285
-0.2632
0.1610
0.1889
-0.1806
-0.4919

Age
-0.7285
1.0000
0.1875
-0.3696
-0.1006
0.2259
0.2629

Weight
-0.2632
0.1875
1.0000
-0.2104
0.1474
0.1054
-0.1842

Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse

RunPulse
0.1889
-0.1006
0.1474
-0.1963
1.0000
-0.0966
-0.9140

RestPulse
-0.1806
0.2259
0.1054
-0.4297
-0.0966
1.0000
0.0380

MaxPulse
-0.4919
0.2629
-0.1842
0.0881
-0.9140
0.0380
1.0000

RunTime
0.1610
-0.3696
-0.2104
1.0000
-0.1963
-0.4297
0.0881

20

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Dep Var Predicted


Std Error
Oxygen
Value Mean Predict
44.6090
45.3130
54.2970
59.5710
49.8740
44.8110
45.6810
49.0910
39.4420
60.0550
50.5410
37.3880
44.7540
47.2730
51.8550
49.1560
40.8360
46.6720
46.7740
50.3880
39.4070
46.0800
45.4410
54.6250
45.1180
39.2030
45.7900
50.5450
48.6730
47.9200
47.4670

44.4799
48.1954
56.1519
56.8041
51.0710
43.0132
44.8244
48.9203
40.2197
58.0793
48.7762
37.5993
45.7745
47.3677
46.4703
50.8615
46.2386
49.3203
47.1135
47.2738
39.1567
46.4614
48.8382
54.8806
44.7887
39.1324
45.3528
50.7506
48.4904
46.6774
45.5659

0.8734
1.0672
1.1443
1.2075
1.1743
0.6705
1.1907
1.0635
1.0438
1.6245
1.0925
1.5015
1.0219
0.8839
0.8320
1.1855
0.6639
0.6103
1.1692
1.2236
1.0656
1.2187
0.7598
1.1055
0.9153
1.4192
1.1495
1.3230
1.1986
1.1923
0.7433

Regressione lineare

95% CL Mean
42.6773
45.9928
53.7903
54.3119
48.6474
41.6294
42.3668
46.7255
38.0654
54.7266
46.5213
34.5004
43.6654
45.5435
44.7531
48.4147
44.8684
48.0607
44.7003
44.7485
36.9574
43.9463
47.2701
52.5990
42.8996
36.2033
42.9804
48.0201
46.0167
44.2166
44.0318

46.2825
50.3981
58.5136
59.2963
53.4946
44.3970
47.2819
51.1152
42.3740
61.4321
51.0311
40.6982
47.8835
49.1919
48.1875
53.3083
47.6087
50.5798
49.5266
49.7991
41.3560
48.9766
50.4063
57.1623
46.6777
42.0615
47.7252
53.4812
50.9641
49.1381
47.1001

Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)

1.2.4

Residual

Std Error Student


Residual Residual

0.1291
-2.8824
-1.8549
2.7669
-1.1970
1.7978
0.8566
0.1707
-0.7777
1.9757
1.7648
-0.2113
-1.0205
-0.0947
5.3847
-1.7055
-5.4026
-2.6483
-0.3395
3.1142
0.2503
-0.3814
-3.3972
-0.2556
0.3293
0.0706
0.4372
-0.2056
0.1826
1.2426
1.9011

2.146
2.057
2.015
1.977
1.997
2.218
1.988
2.058
2.069
1.652
2.043
1.765
2.079
2.142
2.162
1.991
2.220
2.235
2.000
1.968
2.057
1.971
2.189
2.036
2.128
1.831
2.012
1.902
1.983
1.987
2.194

0.0602
-1.402
-0.921
1.399
-0.599
0.811
0.431
0.0829
-0.376
1.196
0.864
-0.120
-0.491
-0.0442
2.490
-0.857
-2.434
-1.185
-0.170
1.583
0.122
-0.194
-1.552
-0.126
0.155
0.0386
0.217
-0.108
0.0921
0.626
0.866

0
128.83794
192.78822

Test di ipotesi per il modello lineare

I procedimenti di tipo inferenziale ci permettono anche di valutare se le variabili esplicative scelte hanno una influenza statisticamente significativa sulla variabile risposta. In
genere si `e interessati a individuare modelli che approssimino bene la variabile risposta
con un numero sufficientemente ridotto di variabili esplicative. Naturalmente questo tipo
di procedimenti inferenziali vanno messi in opera dopo che i procedimenti di carattere
descrittivo (analisi del grafico dei residui e dellindice R2 ) hanno permesso di scegliere
un modello adeguato per descrivere la variabile risposta.
Test di ipotesi sui singoli coefficienti k
Possiamo dire che la k-esima variabile esplicativa xk ha uninfluenza sulla variabile risposta se il suo coefficiente k non `e nullo. Quindi, la conoscenza della legge della variabile

1.2

aleatoria

Bk k
,
Sk

21

La regressione lineare su un campione

ci permette di effettuare il seguente test:


H0 : k = 0

contro

H1 : k 6= 0

Se lipotesi H0 `e vera, allora la variabile Tk = BSkk ha legge t di Student a n p gradi


di libert`a.
Fissato un livello per il test, se il valore campionario tk appartiene a uno degli
intervalli (, t ) o (t , + ) si rifiuta lipotesi nulla, cio`e si afferma che la variabile
esplicativa xk ha influenza sulla variabile risposta.
Osservazione: il test `e fatto su un coefficiente per volta e ad esempio dallaccettazione che singolarmente due coefficienti sono nulli non si pu`o concludere che entrambi
contemporaneamente sono nulli.
Esempio G Riprendiamo lesempio precedente. Nella tabella Parameter estimates,
nella colonna T-value si trovano i valori campionari tk = sbkk e nella colonna Pr > |t|
il corrispondente p-value per il test di nullit`a dei singoli coefficienti.

/2
Se il valore di Pr > |t| `e pi`
u piccolo del livello
/2
p /2
del test allora il valore campionario tk si trova
nella regione critica del test e quindi si rifiuta
-t
lipotesi nulla, come `e indicato nella figura a
t tk
fianco.
Si pu`o osservare che singolarmente sono da considerarsi statisticamente ininfluenti
per la determinazione del consumo di ossigeno le variabili Weight, RestPulse a un
livello di significativit`a del 5% e le variabili Age e MaxPulse a un livello di significativit`a
dell1%.
Questo vuol dire che modelli ridotti, ciascuno senza una delle precedenti variabili,
permettono di approssimare altrettanto bene del modello completo la variabile risposta
Oxigen.
Esempio H Riprendiamo i dati relativi a una specie di pesci di un lago finlandese
(Laengelmavesi) vicino a Tampere gi`a considerato nellEsempio D del Capitolo 1.1.
Abbiamo visto che per il pesce Abramide il peso pu`o essere espresso in funzione della
lunghezza standard (lunghezza naso inizio coda), dellaltezza e dello spessore. Loutput della regressione `e il seguente. Analizziamo la parte relativa ai test di nullit`a dei
singoli coefficienti.

Source
Model
Error
Corrected Total

DF
3
30
33

Root MSE
Dependent Mean
Coeff Var

Analysis of Variance
Sum of
Mean
Squares
Square
1352263
450754
56357
1878.57495
1408620
43.34253
626.00000
6.92373

R-Square
Adj R-Sq

F Value
239.94

0.9600
0.9560

Pr > F
<.0001

22

Regressione lineare

Parameter Estimates
Variable
Intercept
lungh
alt
largh

DF
1
1
1
1

Parameter
Estimate
-886.00619
9.14971
71.32465
87.69245

Standard
Error
66.81188
7.73560
17.62939
36.68327

t Value
-13.26
1.18
4.05
2.39

Pr > |t|
<.0001
0.2462
0.0003
0.0233

La variabile lunghezza pu`o essere considerata ininfluente e al livello dell1% anche


la larghezza. Ricordiamo che questo test si effettua su una variabile alla volta: dal
precedente output non possiamo concludere che entrambe le variabili sono ininfluenti
a livello dell1%. Per stabilire questo fatto bisogna effettuare un test sulla nullit`a
contemporanea di un sottoinsieme di coefficienti.
Test di ipotesi su un sottoinsieme di coefficienti
Si vuol stabilire se q variabili non incidono nella determinazione della approssimazione
della variable risposta; per comodit`a supponiamo che i coefficienti su cui si effettua il
test siano 1 ,2 , . . . ,q .
Questo corrisponde a verificare lipotesi
H0 : 1 = 2 = . . . = q = 0

contro

H1 : almeno uno di essi `e diverso da 0

Indichiamo con X0 le p q colonne di X corrispondenti ai coefficienti non ipotizzati


nulli e con 0 il vettore di dimensione p q dei coefficienti non ipotizzati nulli.
Il modello completo (sotto lipotesi H1 ) `e: Y = X + ,
mentre il modello ridotto (sotto lipotesi H0 ) `e: Y = X0 0 + 0 .
Il test viene effettuato analizzando lerrore relativo che si commette nella somma dei
quadrati dei residui usando il modello ridotto, che indicheremo con SSR o con kER k2 ,
rispetto alla corrispondente somma nel modello completo, indicata con SSC o con kEC k2 ,
cio`e la quantit`a:
kER k2 kEC k2
kEC k2
Legge della statistica test
Per determinare una quantit`a pivotale che permetta di effettuare il test utilizziamo
nuovamente il teorema di Cochran.
Sia V0 lo spazio generato dai vettori del
y
modello ridotto: V0 V .
EC
Decomponiamo lo spazio V in due sottospazi

V
ER
fra loro ortogonali: V0 e il suo complemento
^
yC
ortogonale in V , V \V0 ; cio`e V = V0 (V \V0 ).
0

. Rn = V (V \V0 ) V0
. PV0 PV `e un proiettore ortogonale
sullo spazio V \V0 di dimensione q

y^R
(PV - PV ) = PV \ V
0

PV

1.2

. a)

kPV \V0 k2
2

23

La regressione lineare su un campione

ha legge 2[q] e

kPV k2
2

ha legge 2[np]

b) kPV \V0 k2 `e indipendente da kPV k2


Quindi:
(kER k2 kEC k2 ) / q
kEC k2 / (n p)

ha legge F[q,np]

Resta da dimostrare che PV0 PV `e un proiettore ortogonale sullo spazio V \V0 . Si


ha: PV0 PV = I PV I + PV0 = PV PV0 . La matrice PV PV0 `e un proiettore
ortogonale; infatti `e simmetrica (differenza di matrici simmetriche) e idempotente:
(PV PV0 )(PV PV0 ) = P2V PV0 PV PV PV0 + P2V0 = PV 2PV0 PV + PV0
Per calcolare PV0 PV osserviamo che la matrice X0 le cui colonne generano il sottospazio V0 del modello ridotto pu`o essere scritta come
XA, con A matrice di dimensione p (p q) la cui parte superiore
di dimensione q (p q) `e tutta nulla e la cui parte inferiore `e la
matrice identica di dimensione (p q) (p q).
Scrivendo esplicitamente lespressione di PV0 PV si ha:
XA(At Xt XA)1 At Xt X(Xt X)1 Xt = XA(At Xt XA)1 At Xt = PV0

p-q

X0

p-q

p-q
A

Il rango di PV PV0 `e p q. Inoltre tale matrice proietta nello spazio V \V0 ; per
dimostrare ci`o fatto verifichiamo che applicato a ogni vettore di tale spazio produce
il vettore stesso. Se Z `e un vettore di V \V0 , allora PV z = z e PV0 z = 0. Quindi:
(PV PV0 )z = z.
Test per la nullit`a di un sottoinsieme di coefficienti
La verificare dellipotesi
H0 : 1 = 2 = . . . = q = 0

contro

H1 : almeno uno di essi `e diverso da 0

viene quindi effettuata utilizzando


(kER k2 kEC k2 ) / q
kEC k2 / (n p)
che, se H0 `e vera, ha legge di Fisher a (q,n p) gradi di libert`a. Ricordiamo che q `e il
numero di coefficienti che si suppongono nulli, n `e il numero di osservazioni e p `e il
numero di coefficienti del modello completo.
Si pu`o giustificare il test nel seguente modo: la somma dei quadrati dei residui nel
modello ridotto `e sicuramente pi`
u grande di quella nel modello completo, quindi se la
differenza fra queste due quantit`a rispetto alla seconda `e grande leffetto delle prime q
variabili `e importante e bisogner`a rifiutare H0 .
Il test `e unilaterale perche se H1 `e vera la variabile aleatoria F ha una legge con un
numero di gradi di libert`a al numeratore maggiore della stessa variabile aleatoria se H0
`e vera. Quindi ha una legge pi`
u spostata verso destra e la regione critica `e del tipo
(f , + ).

24

Regressione lineare

Esempio I
Riprendiamo lEsempio F di questo Capitolo sulla determinazione del consumo di
ossigeno tramite variabili misurabili facilmente sul campo. Si era osservato che singolarmente le variabili Weight e RestPulse potevano essere considerate ininfluenti.
Effettuiamo ora un test sulla nullit`a contemporanea dei due coefficienti.
La realizzazione campionaria della somma dei quadrati dei residui nel modello completo kEC k2 `e fornita dal software, nelloutput standard. In SAS il test su un modello
ridotto viene effettuato con listruzione test. Sotto `e riportato il programma e loutput
relativo al test di nullit`a contemporanea dei due coefficienti.
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse ;
test Weight , RestPulse;
run; quit;
The REG Procedure
Model: MODEL1
Test 1 Results for Dependent Variable Oxygen
Source

DF

Mean
Square

Numerator
Denominator

2
24

5.04604
5.36825

F Value

Pr > F

0.94

0.4045

Il p-value indica che il modello ridotto non fa perdere informazioni statisticamente


significative rispetto al modello completo. Analizziamo quindi il modello ridotto.
Analysis of Variance
DF
4
26
30

Sum of
Squares
712.45153
138.93002
851.38154

Root MSE
Dependent Mean
Coeff Var

2.31159
47.37581
4.87927

Source
Model
Error
Corrected Total

Mean
Square
178.11288
5.34346
R-Square
Adj R-Sq

F Value
33.33

Pr > F
<.0001

0.8368
0.8117

Parameter Estimates
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse

DF
1
1
1
1
1

Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051

Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362

t Value
8.33
-2.07
-8.13
-2.96
2.02

Pr > |t|
<.0001
0.0488
<.0001
0.0064
0.0533

Osservando loutput del modello ridotto si nota che, rispetto a questo modello, la
variabile MaxPulse non apporta informazioni significative; infatti nella colonna Pr
> |t| si legge che il p-value del test sulla nullit`a del coefficiente di questa variabile `e 0.0533. Vedremo nel successivo Paragrafo 1.2.4 alcuni metodi automatici per
determinare modelli ridotti in presenza di molte variabili esplicative.

1.2

25

La regressione lineare su un campione

Test di ipotesi sulla nullit`a di tutti i coefficienti esclusa la costante


I software statistici in genere forniscono un test sulla nullit`a contemporanea di tutti i coefficienti tranne la costante, cio`e sulla non influenza complessiva delle variabili esplicative
x1 ,x2 , . . . ,xp1 : questa `e una prima indicazione sulla bont`a del modello.
`
Come gidetto
nel Capitolo 1.1, nella tabella Analysis of Variance delloutput dei
software statistici si possono leggere nella colonna Sum of Square i quadrati delle lun y (Error) e y y (Total), nella colonna Mean
y (Model), e = y
ghezze dei vettori y
Square i valori precedenti divisi per i corrispondenti gradi di libert`a (colonna DF).
y `e la differenza fra la somma dei quadrati
La somma dei quadrati del vettore y
nel modello completo e la somma dei quadrati nel modello ridotto (comprendente la sola
y `e la somma dei quadrati nel
costante); la somma dei quadrati del vettore e = y
modello completo.
Quindi il rapporto fra i due valori della colonna Mean Square `e proprio il valore campionario della variabile aleatoria di Fisher del test sulla non influenza delle variabili
esplicative del modello: tale valore `e appunto riportato nella colonna F value; nella colonna a fianco, indicata con p, `e riportata la probabilit`a della coda destra di una variabile
aleatoria con legge F [p 1,n p] gradi di libert`a oltre il valore indicato nella colonna Pr
> F.
Modello senza costante
Riprendiamo lEsempio C del Capitolo 1.1: si vuole stabilire se esiste una dipendenza
fra il flusso di un corso dacqua (cio`e la quantit`a di acqua che passa in un dato punto in
un determinato intervallo di tempo) e la profondit`a del corso dacqua.
Avevamo osservato che poteva essere opportuno un modello polinomiale del secondo
ordine. Dallanalisi delloutput si osserva che la costante pu`o essere considerata nulla.
Analysis of Variance
DF
2
7
9

Sum of
Squares
54.10549
0.54652
54.65201

Root MSE
Dependent Mean
Coeff Var

0.27942
2.07700
13.45294

Source
Model
Error
Corrected Total

Mean
Square
27.05275
0.07807
R-Square
Adj R-Sq

F Value
346.50

Pr > F
<.0001

0.9900
0.9871

Parameter Estimates
Variable
Intercept
profond
profond2

DF
1
1
1

Parameter
Estimate
1.68269
-10.86091
23.53522

Standard
Error
1.05912
4.51711
4.27447

t Value
1.59
-2.40
5.51

Pr > |t|
0.1561
0.0472
0.0009

Consideriamo quindi un modello con il termine di primo e di secondo grado senza la


costante. Loutput `e il seguente.

26

Regressione lineare

NOTE: No intercept in model. R-Square is redefined.


Analysis of Variance
DF
2
8
10

Sum of
Squares
97.04771
0.74359
97.79130

Root MSE
Dependent Mean
Coeff Var

0.30488
2.07700
14.67864

Source
Model
Error
Uncorrected Total

Mean
Square
48.52386
0.09295
R-Square
Adj R-Sq

F Value
522.05

Pr > F
<.0001

0.9924
0.9905

Parameter Estimates
Variable
profond
profond2

DF
1
1

Parameter
Estimate
-3.74919
16.93820

Standard
Error
0.66133
1.10711

t Value
-5.67
15.30

Pr > |t|
0.0005
<.0001

Osserviamo che per i modelli senza costante lindice R2 non `e pi`


u interpretabile come
E
1 SS
;
infatti
linterpretazione
della
decomposizione
della
varianza
della variabile riSST
sposta come varianza del modello e residuo non `e pi`
u valida in quanto, in questo caso,

la media della variabile Y non `e pi`


u Y.
Metodi iterativi per la ricerca di modelli ridotti
1. Metodo forward
(1) si parte considerando il modello con la sola intercetta
(2) a ogni passo :
. per ciascuna variabile esplicativa non presente nel modello si calcola la statistica test F considerando come modello ridotto il modello precedente e
come completo il precedente a cui `e stata aggiunta la variabile considerata
. si confronta il p-value corrispondente alla F di ciascun modello con il livello
0.50. Se nessuna variabile ha un p-value minore di 0.50 il procedimento termina. Altrimenti entra nel modello la variabile esplicativa con la F
maggiore. Quando una variabile entra nel modello non viene pi`
u tolta.
(3) Il procedimento termina - come gi`a detto - quando nessuna variabile non presente nel modello ha una F con p-value maggiore di 0.50 (per nessuna rifiuto
che il suo coefficiente sia nullo, cio`e tutte le variabili non presenti nel modello
hanno un coefficiente che pu`o essere considerato nullo)
2. Metodo backward
(1) si parte considerando il modello con tutte le variabili
(2) a ogni passo:
. per ciascuna variabile esplicativa presente nel modello si calcola la statistica
test F considerando come modello completo il modello precedente e come
ridotto il precedente a cui `e stata tolta la variabile considerata

1.2

La regressione lineare su un campione

27

. si confronta il p-value corrispondente alla F di ciascun modello con il livello


0.10. Se nessuna variabile ha un p-value maggiore di 0.10 il procedimento
termina. Altrimenti esce dal modello la variabile esplicativa con la F minore.
Quando una variabile esce dal modello non viene pi`
u inserita.
(3) Il procedimento termina - come gi`a detto - quando nessuna variabile presente
nel modello ha una F con p-value minore di 0.10 (per nessuna accetto che il
suo coefficiente sia nullo, cio`e tutte le variabili presenti nel modello hanno un
coefficiente che non pu`o essere considerato nullo)
3. Metodo stepwise
(1) si parte considerando il modello con la sola intercetta
(2) a ogni passo:
. per ciascuna variabile esplicativa non presente nel modello si calcola la statistica test F considerando come modello ridotto il modello precedente e
come completo il precedente a cui `e stata aggiunta la variabile considerata
e si procede come per il metodo forward
. per ciascuna variabile esplicativa presente nel modello si calcola la statistica
test F considerando come modello completo il modello precedente e come
ridotto il precedente a cui `e stata tolta la variabile considerata e si procede
come per il metodo backward (livello 0.15)
. Le variabili possono entrare e uscire anche pi`
u volte.
(3) Il procedimento termina quando nessuna variabile non presente nel modello ha
una F con p-value minore di 0.50 e nessuna variabile presente nel modello ha
una F con p-value maggiore di 0.15
Il metodo stepwise `e una modifica del metodo forward e differisce da questo nel fatto
che una variabile che `e stata inserita nel modello pu`o anche essere tolta. Come nel
metodo forward, le variabili vengono aggiunte nel modello una a una e sono aggiunte
solo se la statistica F `e significativa. Dopo che una variabile `e stata aggiunta,
comunque, il metodo stepwise controlla tutte le variabili gi`a incluse e cancella tutte
quelle che non producono una F significativa per essere conservate. Dopo che questo
controllo `e stato fatto, ed eventualmente sono state eliminate delle variabili, viene
aggiunta una nuova variabile.
Esempio J Riprendiamo lEsempio F di questo Capitolo e applichiamo i tre metodi
automatici sopra descritti per la determinazione di modelli ridotti.

28

Regressione lineare

Metodo forward
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
run;
Dependent Variable: Oxygen

/ selection=forward;

Forward Selection: Step 1


Variable RunTime Entered: R-Square = 0.7434 and C(p) = 13.6988

Source
Model
Error
Corrected Total

DF
1
29
30

Analysis of Variance
Sum of
Mean
Squares
Square
632.90010
632.90010
218.48144
7.53384
851.38154

F Value
84.01

Pr > F
<.0001

Parameter
Standard
Estimate
Error
Type II SS F Value Pr > F
82.42177
3.85530
3443.36654
457.05 <.0001
-3.31056
0.36119
632.90010
84.01 <.0001
Bounds on condition number: 1, 1
-----------------------------------------------------------------------------------Forward Selection: Step 2
Variable Age Entered: R-Square = 0.7642 and C(p) = 12.3894
Variable
Intercept
RunTime

Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime

DF
2
28
30

Analysis of Variance
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154

Parameter
Estimate
88.46229
-0.15037
-3.20395

Standard
Error
5.37264
0.09551
0.35877

Type II SS
1943.41071
17.76563
571.67751

F Value
45.38

F Value
271.11
2.48
79.75

Pr > F
<.0001

Pr > F
<.0001
0.1267
<.0001

Bounds on condition number: 1.0369, 4.1478


-----------------------------------------------------------------------------------Forward Selection: Step 3
Variable RunPulse Entered: R-Square = 0.8111 and C(p) = 6.9596

Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse

DF
3
27
30

Analysis of Variance
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154

Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091

Standard
Error
10.23509
0.09623
0.35828
0.05059

Type II SS
709.69014
42.28867
370.43529
39.88512

F Value
38.64

F Value
119.14
7.10
62.19
6.70

Pr > F
<.0001

Pr > F
<.0001
0.0129
<.0001
0.0154

Bounds on condition number: 1.3548, 11.597


------------------------------------------------------------------------------------

1.2

29

La regressione lineare su un campione

Forward Selection: Step 4


Variable MaxPulse Entered: R-Square = 0.8368 and C(p) = 4.8800

Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse

DF
4
26
30

Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154

Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051

Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362

Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067

F Value
33.33

F Value
69.35
4.27
66.05
8.78
4.10

Pr > F
<.0001

Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

Bounds on condition number: 8.4182, 76.851


-----------------------------------------------------------------------------------Forward Selection: Step 5
Variable Weight Entered: R-Square = 0.8480 and C(p) = 5.1063

Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
MaxPulse

DF
5
25
30

Analysis of Variance
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154

Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491

Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394

Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640

F Value
27.90

F Value
72.79
5.29
1.84
61.89
10.16
5.18

Pr > F
<.0001

Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316

Bounds on condition number: 8.7312, 104.83


-----------------------------------------------------------------------------------No other variable met the 0.5000 significance level for entry into the model.
Summary of Forward Selection
Step

Variable
Entered

1
2
3
4
5

RunTime
Age
RunPulse
MaxPulse
Weight

Number
Vars In
1
2
3
4
5

Partial
R-Square

Model
R-Square

C(p)

0.7434
0.0209
0.0468
0.0257
0.0112

0.7434
0.7642
0.8111
0.8368
0.8480

13.6988
12.3894
6.9596
4.8800
5.1063

F Value

Pr > F

84.01
2.48
6.70
4.10
1.84

<.0001
0.1267
0.0154
0.0533
0.1871

30

Regressione lineare

Metodo backward
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse / selection=backward;
run;
Dependent Variable: Oxygen
Backward Elimination: Step 0
All Variables Entered: R-Square = 0.8487 and C(p) = 7.0000

Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse

DF
6
24
30

Analysis of Variance
Sum of
Mean
Squares
Square
722.54361
120.42393
128.83794
5.36825
851.38154

Parameter
Estimate
102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322

Standard
Error
12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650

Type II SS
369.72831
27.74577
9.91059
250.82210
51.05806
0.57051
26.49142

F Value
22.43

F Value
68.87
5.17
1.85
46.72
9.51
0.11
4.93

Pr > F
<.0001

Pr > F
<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360

Bounds on condition number: 8.7438, 137.13


-----------------------------------------------------------------------------------Backward Elimination: Step 1
Variable RestPulse Removed: R-Square = 0.8480 and C(p) = 5.1063

Source
Model
Error
Corrected Total

DF
5
25
30

Analysis of Variance
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154

F Value
27.90

Pr > F
<.0001

Backward Elimination: Step 1


Variable
Intercept
Age
Weight
RunTime
RunPulse
MaxPulse

Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491

Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394

Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640

F Value
72.79
5.29
1.84
61.89
10.16
5.18

Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316

Bounds on condition number: 8.7312, 104.83


-----------------------------------------------------------------------------------Backward Elimination: Step 2
Variable Weight Removed: R-Square = 0.8368 and C(p) = 4.8800

Source
Model

DF
4

Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288

F Value
33.33

Pr > F
<.0001

1.2
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse

31

La regressione lineare su un campione

26
30

138.93002
851.38154

Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051

Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362

5.34346

Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067

F Value
69.35
4.27
66.05
8.78
4.10

Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

Bounds on condition number: 8.4182, 76.851


-----------------------------------------------------------------------------------All variables left in the model are significant at the 0.1000 level.

Step

Variable
Removed

1
2

RestPulse
Weight

Summary of Backward Elimination


Number
Partial
Model
Vars In
R-Square
R-Square
C(p)
5
4

0.0007
0.0112

0.8480
0.8368

F Value

5.1063
4.8800

0.11
1.84

Pr > F
0.7473
0.1871

Metodo stepwise
proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
/ selection=stepwise;
Dependent Variable: Oxygen
Stepwise Selection: Step 1
Variable RunTime Entered: R-Square = 0.7434 and C(p) = 13.6988

Source

DF

Model
Error
Corrected Total

1
29
30

Variable
Intercept
RunTime

Analysis of Variance
Sum of
Squares
632.90010
218.48144
851.38154

Parameter
Estimate
82.42177
-3.31056

Standard
Error
3.85530
0.36119

Mean
Square

632.90010
7.53384

Type II SS
3443.36654
632.90010

F Value

Pr > F

84.01

<.0001

F Value
457.05
84.01

Pr > F
<.0001
<.0001

Bounds on condition number: 1, 1


-----------------------------------------------------------------------------------Stepwise Selection: Step 2
Variable Age Entered: R-Square = 0.7642 and C(p) = 12.3894

Source
Model
Error
Corrected Total

DF
2
28
30

Analysis of Variance
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154

F Value
45.38

Pr > F
<.0001

32

Variable
Intercept
Age
RunTime

Parameter
Estimate
88.46229
-0.15037
-3.20395

Regressione lineare

Standard
Error
5.37264
0.09551
0.35877

Type II SS
1943.41071
17.76563
571.67751

F Value
271.11
2.48
79.75

Pr > F
<.0001
0.1267
<.0001

Bounds on condition number: 1.0369, 4.1478


-----------------------------------------------------------------------------------Stepwise Selection: Step 3
Variable RunPulse Entered: R-Square = 0.8111 and C(p) = 6.9596

Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse

DF
3
27
30

Analysis of Variance
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154

Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091

Standard
Error
10.23509
0.09623
0.35828
0.05059

Type II SS
709.69014
42.28867
370.43529
39.88512

F Value
38.64

F Value
119.14
7.10
62.19
6.70

Pr > F
<.0001

Pr > F
<.0001
0.0129
<.0001
0.0154

Bounds on condition number: 1.3548, 11.597


-----------------------------------------------------------------------------------Stepwise Selection: Step 4
Variable MaxPulse Entered: R-Square = 0.8368 and C(p) = 4.8800

Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse

DF
4
26
30

Analysis of Variance
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154

Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051

Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362

Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067

F Value
33.33

F Value
69.35
4.27
66.05
8.78
4.10

Pr > F
<.0001

Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

Bounds on condition number: 8.4182, 76.851


-----------------------------------------------------------------------------------All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the model.
Variable
Entered
RunTime
Age
RunPulse
MaxPulse

Variable
Removed

Summary of Stepwise Selection


Number
Partial
Model
Vars In
R-Square
R-Square
1
2
3
4

0.7434
0.0209
0.0468
0.0257

0.7434
0.7642
0.8111
0.8368

C(p)
13.6988
12.3894
6.9596
4.8800

F Value

Pr > F

84.01
2.48
6.70
4.10

<.0001
0.1267
0.0154
0.0533

1.2

La regressione lineare su un campione

33

Infine un test sulla nullit`a contemporanea dei coefficienti di Weight, RestPulse e


MaxPulse ci permette di dire che il modello senza queste variabili non fa perdere
i.formazioni significative rispetto al modello iniziale.
proc reg data=fitness;
model Oxygen=Age Weight RunTime RestPulse RunPulse MaxPulse ;
test Weight, RestPulse ;
run; quit;
Test 1 Results for Dependent Variable Oxygen
Source

DF

Numerator
Denominator

2
24

1.2.5

Mean
Square
5.04604
5.36825

F Value

Pr > F

0.94

0.4045

Predittore del valore atteso e della risposta

In un modello lineare
Y = X + 
dopo aver stimato stimano i coefficienti tramite gli stimatori B sulla base di n v.a.
Y1 , . . . ,Yn , si effettua una nuova osservazione delle variabili esplicative:
xt0 = (x00 , . . . ,x0p1 )t
di cui non si ha la corrispondente osservazione della variabile risposta.
Per la nuova osservazione si considera il modello:
Y0 = xt0 + 0
Si predice il valore atteso della variabile risposta, E(Y0 ), con lo stimatore xt0 B.
1. Intervallo di confidenza per E(Y0 ), valore atteso di Y0
Si ha: E(xt0 B) = xt0 E(B) = xt0 . Lo stimatore `e quindi non distorto. La sua
varianza `e:


V(xt0 B) = E xt0 (B )(B )t x0 = xt0 E(B ) (B )t x0
= 2 xt0 (X t X)1 x0 = 2 v02
Quindi:
xt0 B xt0
N (0,1)
v0

xt0 B xt0
tnp
S v0

Un intervallo di confidenza per xt0 , valore atteso di E(Y0 ), `e:



xt0 B t S v0 , xt0 B + t S v0

34

Regressione lineare

2. Intervallo di confidenza per la risposta Y0


Per la nuova osservazione si ha:
Y0 = xt0 + 0

da cui

0 = Y0 xt0

La variabile aleatoria Y0 xt0 B ha legge normale con valore atteso nullo. Inoltre
le variabili aleatorie Y0 e B0 , . . . ,Bp1 sono indipendenti perche gli stimatori dei
coefficienti sono costruiti sulla base delle prime n osservazioni campionarie; quindi
V(Y0 xt0 B) = V(Y0 ) + V(xt0 B) = 2 + 2 v0 = 2 (1 + v0 )
Da cui:


=P

xt0 B


q
q
t
2
2
t S 1 + v0 < Y0 < x0 B + t S 1 + v0

Osserviamo che


q
q
t
t
x0 B t S 1 + v02 , x0 B + t S 1 + v02
non `e propriamente un intervallo di confidenza in quanto non si riferisce a un
parametro.
Esempio K
I dati riguardano laccrescimento percentuale (growth) di topi sottoposti a un particolare regime alimentare (dose).
Obs
1
2
3
4
5
6
7
8
9
10
11
12

dose
10
10
15
20
20
25
25
25
30
35
40
45

growth
73
78
85
90
91
87
86
91
75
65
.
.

Si vuole prevedere laccrescimento per le ultime due dosi.


Dallosservazione del grafico si ipotizza un modello lineare del secondo ordine. Si costruisce quindi una nuova variabile (dosesq) corrispondente al quadrato della variabile
dose. Il modello lineare `e quindi:
growth = 0 + 1 dose + 2 dosesq +
Il programma SAS `e il seguente.
proc reg;
model growth= dose dosesq / cli clm p r;

1.2

35

La regressione lineare su un campione

output out=b p=growth_hat lclm=inf_media lcl=inf_prev uclm=sup_media ucl=sup_prev;


run; quit;
symbol1 v=dot c=black i=none;
symbol2 v=plus i=j l=3 c=black;
symbol3 v=star i=j l=2 c=black;
symbol4 v=diamond i=j l=1 c=black;
symbol5 v=star i=j l=2 c=black;
symbol6 v=plus i=j l=3 c=black;
goption ftext=swissb;
proc gplot data=b;
plot (growth inf_prev inf_media growth_hat sup_media sup_prev)* dose /overlay;
run;quit;

I risultati della regressione in SAS sono i seguenti.


The REG Procedure
Dependent Variable: growth

Source
Model
Error
Corrected Total

DF
2
7
9

Analysis of Variance
Sum of
Mean
Squares
Square
665.70617
332.85309
45.19383
6.45626
710.90000

Root MSE
Dependent Mean
Coeff Var

Variable
Intercept
dose
dosesq
Variable
Intercept
dose
dosesq

Obs
1
2
3
4
5
6
7
8
9
10
11
12

2.54092
82.10000
3.09491

75.5190
75.5190
85.8742
89.8457
89.8457
87.4335
87.4335
87.4335
78.6377
63.4581
41.8948
13.9478

1.6913
1.6913
1.0768
1.1080
1.1080
1.0696
1.0696
1.0696
1.2044
2.2694
4.2082
6.8595

95% CL Mean
71.5198
71.5198
83.3280
87.2258
87.2258
84.9042
84.9042
84.9042
75.7897
58.0917
31.9440
-2.2724

Pr > F
<.0001

0.9364
0.9183

t Value
6.35
9.43
-9.97

Covariance of Estimates
Intercept
dose
31.561106475
-3.024329365
-3.024329365
0.3113886154
0.0652777053
-0.00702493

Dep Var Predicted


Std Error
growth
Value Mean Predict
73.0000
78.0000
85.0000
90.0000
91.0000
87.0000
86.0000
91.0000
75.0000
65.0000
.
.

R-Square
Adj R-Sq

Parameter Estimates
Parameter
Standard
Estimate
Error
35.65744
5.61793
5.26290
0.55802
-0.12767
0.01281

DF
1
1
1

F Value
51.56

79.5182
79.5182
88.4204
92.4656
92.4656
89.9629
89.9629
89.9629
81.4856
68.8244
51.8455
30.1680

Pr > |t|
0.0004
<.0001
<.0001

dosesq
0.0652777053
-0.00702493
0.0001641307

95% CL Predict
68.3014
68.3014
79.3486
83.2911
83.2911
80.9145
80.9145
80.9145
71.9885
55.4021
30.2708
-3.3495

82.7366
82.7366
92.3998
96.4004
96.4004
93.9525
93.9525
93.9525
85.2868
71.5140
53.5188
31.2450

36

Obs

Residual

1
2
3
4
5
6
7
8
9
10
11
12

-2.5190
2.4810
-0.8742
0.1543
1.1543
-0.4335
-1.4335
3.5665
-3.6377
1.5419
.
.

Regressione lineare

Std Error Student


Residual Residual
1.896
1.896
2.301
2.287
2.287
2.305
2.305
2.305
2.237
1.143
.
.

-1.328
1.308
-0.380
0.0675
0.505
-0.188
-0.622
1.547
-1.626
1.349
.
.

Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)

0
45.19383
145.72996

Il grafico riporta:
. con il simbolo dot i dati originali
. con il simbolo diamond e linea unita i valori previsti (per growth)
. con il simbolo star e linea tratteggiata lunga lintervallo di confidenza (al 95%) per
i valori attesi di growth
. con il simbolo plus e linea tratteggiata corta lintervallo di confidenza (al 95%) per
i valori previsti di growth

1.2

1.2.6

La regressione lineare su un campione

37

Stimatori di massima verosimiglianza

Gli stimatori dei coefficienti B trovati con il metodo dei minimi quadrati, sono anche
stimatori di massima verosimiglianza rispetto al modello Y N (X , 2 I). Indichiamo
con xti la rica i-esima della matrice X. Le variabili aleatorie campionarie hanno legge
Yi N (xti , 2 ) e sono indipendenti.
La verosimiglianza e la log-verosimiglianza per ciascuna variabile aleatoria Yi sono:


1
1
2
t
2
exp 2 (yi (xi ))
Li (, ; yi ) =
2
2 2
(xt )2
y2
xt
1
li (, 2 ; yi ) = log(2 2 ) i 2 i 2 + i 2 yi
2
2
2

da cui si evidenzia che il modello appartiene alla famiglia esponenziale.


La log-verosimiglianza per le n variabili aleatorie, trascurando gli addendi dipendenti
solo dalle realizzazioni campionarie e da costanti note `e:
2

l(, ; y) =

n
X

li (, 2 ; yi ) =

i=1
n
n
n
1 X t 2
1 X 2
1 X t
n
(xi ) 2
yi + 2
x yi =
log( 2 ) 2
2
2 i=1
2 i=1
i=1 i

1
1
1
n
log( 2 ) 2 t Xt X 2 yt y + 2 < ,Xt y >
2
2
2

La statistica sufficiente e completa p + 1-dimensionale per i parametri `e: (Xt Y,Yt Y).
Gli stimatori di massima verosimiglianza per i parametri si ottengono eguagliando
a zero le derivate in della log-verosimiglianza:
l(, 2 ; Y)
=0

Xt Xb Xt Y = 0

(1.1)

che sono proprio le equazioni normali ricavate nel capitolo 1.1.2 con il metodo dei minimi
quadrati.
Lo stimatore di massima verosimiglianza per 2 si ottiene sostituendo nella log-verosimiglianza
i valori di che soddisfano le equazioni normali e poi uguagliando a zero la derivata in
2:



n
1 t
l(B, 2 ; Y)
2
=0
log( ) 2 Y (I PV ) Y = 0
2
2
2
2
n
1

+
kEk2 = 0
2
2
2 4
che corrisponde allo stimatore distorto: n1 kEk2 .
Teorema di Gauss-Markov
Gli stimatori B e S 2 sono stimatori di minima varianza fra gli stimatori non distorti di
e 2.
Presentiamo due dimostrazioni del teorema. La prima si basa su risultati legati alle
statistiche sufficienti e complete. La seconda si basa su risultati di algebra lineare.

38

Regressione lineare

. Prima dimostrazione.
` conseguenza del teorema di Rao-Blackwell di cui riportiamo un corollario. Sia U
E
uno stimatore non distorto di e sia T una statistica sufficiente e completa. Se U `e
funzione di T allora `e di minima varianza nella classe degli stimatori non distorti.
Nel caso del modello lineare, abbiamo visto che B e S 2 sono non distorti e sono
funzioni della statistica sufficiente.
. Seconda dimostrazione.
Sia G uno stimatore lineare non distorto di diverso da B. Essendo sia G che B
lineari un Y si pu`o scrivere:
G = B + ZY
E(G) = E(B) + ZE(Y)
con Z matrice (p n). Da cui, essendo G e B non distorti, segue che ZX = 0 e
anche ZX = 0. Si ha quindi:


G = (Xt X)1 Xt + Z (X + ) = + (Xt X)1 Xt + Z

V(G) = E (G )(G )t


= E (Xt X)1 Xt + Z t X(Xt X)1 + Zt

= 2 (Xt X)1 Xt X(Xt X)1 + ZX(Xt X)1 + (Xt X)1 Xt Zt + ZZt =
= V(B) + 2 ZZt
La matrice ZZt contiene sulla diagonale principale somme di quadrati e quindi la
varianza di G `e maggiore della varianza di B.

Capitolo 2
Analisi della varianza
2.1

Analisi della varianza a una via per esperimenti bilanciati

Consideriamo una variabile quantitativa e una variabile qualitativa osservate su uno


stesso insieme di unit`a sperimentali; ad esempio il reddito annuale e il grado di scolarizzazione di un insieme di individui. Si vuol determinare se i valori della variabile
quantitativa dipendono o meno dallappartenenza delle osservazioni a una classe della
variabile qualitativa.
La variabile qualitativa `e detta anche fattore e, se `e ordinale, le modalit`a che il fattore
assume vengono dette livelli. Ad esempio: se il fattore considerato `e il grado di scolarizzazione, i suoi livelli possono essere nessun titolo o licenza elementare, solo licenza
media, solo licenza superiore, laurea, codificabili con 1, 2, 3, 4.
In questo paragrafo considereremo solo esperimenti bilanciati, cio`e casi in cui si
ha un uguale numero di unit`a sperimentali per ogni livello della variabile qualitativa.
Indichiamo con:
- s il numero dei livelli del fattore
- r il numero di unit`a sperimentali in ciascun livello, r =

n
s

- yik il valore della variabile quantitativa assunto dalla k-esima unit`a sperimentale del
livello i, con k = 1, . . . ,r.
Lipotesi che i risultati della variabile quantitativa Y dipendono dallappartenenza
delle osservazioni a un livello si pu`o tradurre nel seguente modello:
yik = + i + ik
dove:
- indica un valore medio generale dipendente dalla caratteristica quantitativa
- i indica un valore che dipende dal livello i-esimo della variabile qualitativa
- ik indica il residuo per lunit`a sperimentale considerata.
Indichiamo con:
39

(2.1)

40

Analisi della varianza

- y il vettore (y11 , . . . ,y1r , . . . ,ys1 , . . . ,ysr ) ordinato secondo i livelli del fattore e con
le corrispondenti lettere maiuscole le variabili aleatorie di cui si osservano le realizzazioni,
- il vettore (11 , . . . ,1r , . . . ,s1 , . . . ,sr ); a seconda del contesto sar`a una variabile
aleatoria multidimensionale o sua sua realizzazione.
- il vettore (,1 ,2 , . . . ,s )
- X la matrice con colonne 1,a1 , . . . ,as dove ai `e un vettore binario che indica lappartenenza o meno dellunit`a sperimentale al livello i, come si vede nellesempio
riportato qui sotto nel caso s = 4 e r = 2.

y
y11
y12
y21
y22
y31
y32
y41
y42

1
1
1
1
= 1
1
1
1
1

a1
1
1
0
0
0
0
0
0

X
a2 a3
0 0
0 0
1 0
1 0
0 1
0 1
0 0
0 0

a4
0
0
0
0
0
0
1
1

1
1
3
4

11
+

42

Come per il modello lineare considereremo prima gli aspetti geometrici e successivamente quelli inferenziali.
Il modello relativo alle realizzazioni campionarie pu`o essere in forma vettoriale `e:
y =X +
Linterpretazione geometrica `e simile a quella del modello lineare. Il vettore X b che
minimizza la somma dei quadrati dei residui `e la proiezione ortogonale di y nel sottospazio
generato da X.
In questo caso per`o le colonne della matrice non sono linearmente indipendenti: infatti
la somma delle righe di a1 ,a2 , . . . ,as `e uguale agli elementi del vettore 1. Le soluzioni per
i coefficienti del metodo dei minimi quadrati, b = (X0 X)1 X0 y, necessitano linversione
della matrice X0 X, che `e di rango pieno se e solo se lo `e la matrice X. Bisogna quindi
anzitutto costruire una matrice X? che generi lo stesso sottospazio della matrice X e che
sia di rango pieno.
Molti sono i modi per risolvere questo problema; alcuni saranno analizzati in un capitolo successivo. Qui ne vediamo uno. Si sostituiscono gli s vettori a1 ,a2 , . . . ,as con s 1
vettori a?1 ,a?2 , . . . ,a?s1 dove:
a?i = ai as
Il vettore dei coefficienti `e modificato di conseguenza: la sua dimensione deve essere s
e si verifica facilmente che ? = (,1 ,2 , . . . ,s1 ).

2.1

Analisi della varianza a una via per esperimenti bilanciati

y
y11
y12
y21
y22
y31
y32
y41
y42

1
1
1
1
= 1
1
1
1
1

X?
a?2
1 0
1 0
0 1
0 1
0 0
0 0
-1 -1
-1 -1

a?1

a?3
0
0
0
0
1
1
-1
-1

41

11

1
2
3

42

Mentre per i primi s 1 livelli il modello rimane invariato, per il livello s, si ha:
ysk = 1 2 . . . s1 + sk
cio`e lartificio usato per rendere la matrice di rango pieno corrisponde a porre un vincolo
sui coefficienti:
s
X
i = 0 .
i=1

2.1.1

Decomposizione dello spazio V e stime per esperimenti bilanciati

Da un punto di vista geometrico osserviamo che - nel caso di esperimenti bilanciati - i


vettori a?1 ,a?2 , . . . ,a?s1 che generano il sottospazio VA? del fattore A sono tutti ortogonali
al vettore 1; `e infatti facile verificare che:
< 1,a?i >= 0

i = 1, . . . ,s 1 .

Quindi possiamo scomporre lo spazio V in due sottospazi ortogonali VI , generato da 1,


e VA? , generato da a?1 ,a?2 , . . . ,a?s1 e possiamo scrivere:
V = VI VA?
Questa scrittura vuol dire che ogni vettore di V si pu`o esprimere in modo univoco come
somma di un vettore di VI e un vettore di VA? . Osserviamo che V = VI VA? = VI VA ,
con VA generato da a1 ,a2 , . . . ,as1 ,as .
0
Per lortogonalit`a dei vettori 1 e a?i , i = 1, . . . ,s 1, la matrice X? X? `e diagonale a
blocchi e quindi lo `e anche la sua inversa. Qui sotto sono riportate le due matrici per il
caso s = 4 e r = 2.
0

1
A
0

1
8
0
0
0

X? X?
A
0 0
4 2
2 4
2 2
0

0
2
2
4

1
A

1
1
0
0
0

(X? X? )1
A
0
0
0
3 1 1
1
3 1 18
1 1
3

In generale X? X? e (X? X? )1 sono matrici ss del tipo seguente, dove il determinante


0
della sottomatrice diagonale in basso di X? X? vale s.

42

X ? X? = r

s 0
0 2
0 1
0 ...
0 1

Analisi della varianza

0 0 0
1 ... 1
2 ... 1
... ... ...
1 ... 2

(X? X? )1 =

1
n

1
0
0 0
0
0 s1
1 ...
1
0
1 s 1 ...
1
0
...
... ...
...
0
1
1 ... s 1

Le soluzioni per i coefficienti che minimizzano la somma dei quadrati dei residui, date
1 ?0
0
da b = X? X?
X y, hanno la seguente propriet`a: la stima di non dipende dalla
stima dei coefficienti i . Da un punto di vista inferenziale questo corrisponde al fatto che
0
la matrice (X? X? )1 `e proporzionale alla matrice di varianza-covarianza degli stimatori
1
0
dei coefficienti, V(B) = 2 X? X? , per cui lo stimatore di `e indipendente dagli
stimatori dei coefficienti i .
1 ?0
0
La matrice X? X?
X , che interviene nella stima dei coefficienti, nel caso bilanciato `e:

1
s1
1
...
1

1
s1
1
...
1

1
1
s1
...
1

1
1
s1
...
1

...
...
...
...
s1

...
...
...
...
s1

1
1
1
1
1

1
1
1
1
1

Moltiplicando tale matrice per il vettore y, si hanno le stime dei coefficienti:


s

1 XX
yjk = y
m=
n j=1 k=1
e, indicando con y i la media delle realizzazioni delle variabili risposta che corrispondono
al livello i per il fattore A, per ogni i = 1, . . . ,s 1:
!
r
s
r
r
s
r
X
X
X
1
1X
1 XX
ai =
(s 1)
yik
yjk =
yik
yjk = y i y .
rs
r k=1
n j=1 k=1
k=1
j=1,j6=i k=1
Per quanto riguarda il coefficiente as si ha:
as =

s1
X
i=1

ai =

s1
X

y i + (s 1)y + (y s y s ) = sy + y s + (s 1)y = y s y

i=1

con un risultato analogo agli altri livelli.


Lapprossimazione lineare di yik (ovvero, da un punto di vista inferenziale, la stima
del valore atteso di Yik ) per tutte le unit`a sperimentali che corrispondono al livello i per
il fattore A, `e:
yik = y i
per ogni k = 1, . . . r .
Ovviamente se gli y i sono molto differenti fra loro si pu`o dire che il fattore influenza la variabile Y ; questa affermazione si pu`o verificare in un ambito inferenziale se
consideriamo il vettore y `e la realizzazione di una variabile aleatoria Y.

2.1

2.1.2

43

Analisi della varianza a una via per esperimenti bilanciati

Test per la nullit`


a dei coefficienti relativi al fattore A

La non influenza del fattore A nella determinazione della variabile aleatoria risposta Y
si traduce in un test di nullit`a contemporanea di tutti i coefficienti i :
H0 : 1 = = s = 0

H1 : h {1, . . . ,s} tale che h 6= 0

Se lipotesi H0 `e vera, cio`e se Y non `e influenzato dal fattore, il modello della formula
(2.1) diventa:
Y =+
avendo indicato con un vettore con ogni elemento uguale a .
In questo caso, direttamente dalle propriet`a del valore medio, si ottiene che la minima
somma dei quadrati dei residui si ha per
= m = y; quindi la stima yik di E(Yik ) con
questo modello `e y, per ogni i e per ogni k.
Come nel caso generale del modello lineare, per verificare se la variabile quantitativa
Y `e influenzata o meno dal fattore si analizza lerrore relativo che si commette nella
somma dei quadrati dei residui del modello ridotto (formato dalla sola costante) rispetto
al modello completo.
Diamo prima una interpretazione geometrica di questo test e consideriamo le realizzazioni campionarie y e la sua proiezione ortogonale y
nel sottospazio V generato
dalle colonne della matrice X. Modifichiamo leggermente le notazioni per le somme dei
quadrati dei residui usate nel capitolo precedente. Invece di SSC e SSR usiamo SS(m,a)
e SS(m) per evidenziare quali parametri intervengono nel modello considerato; inoltre
usiamo le lettere latine perch`e le quantit`a sono valori campionari. Si ha:
- Variazione residua SS(m,a): somma dei quadrati dei residui nel modello completo
2

SS(m,a) = ky y
k =

s X
r
X

(yik y i )2

i=1 k=1

- Variazione totale SS(m): somma dei quadrati dei residui nel modello ridotto
ky yk2 =

s X
r
X

(yik y)2

i=1 k=1

- Variazione interclasse, dovuta alleffetto del fattore, SS(m) SS(m,a)


XX
ky y
k2 ky yk2 =
(yik y)2 (yik yi )2 =
i

XX
i

= r

k
s
X

2
2
+ 2 yik yi yi 2
yik
2 y yik + y 2 yik

2 y yi + y 2 + 2 yi 2 yi 2

i=1

= r

s
X
i=1

Dallultima relazione si ottiene:

(y i y)2 = k
y yk2

44

Analisi della varianza

Variazione totale = Variazione residua + Variazione interclasse


che esprime la varianza di y suddivisa in varianza fra i gruppi e varianza interna.

y
La figura a fianco, del tutto simile
y-y
a quella per il modello lineare, evi- variazione residua
denzia i vettori precedenti e la relazione fra le lunghezze di tali vettori,
espressione del teorema di Pitagora.
Lerrore relativo che si commette
nella somma dei quadrati dei residui
usando il modello ridotto rispetto a
quello completo `e:

y-y

variazione totale

y
y -y
variazione interclasse

SS(m) SS(m,a)
variazione interclasse
=
SS(m,a)
variazione residua
Affrontiamo ora il problema da un punto di vista inferenziale e - come nel caso del
modello lineare - ipotizziamo che i residui siano variabili aleatorie non correlate fra loro,
di valore atteso 0 e varianza 2 , e con con legge normale. Allora
(SS(m) SS(m,a))/(s 1)
varianza interclasse
=
SS(m,a)/(n s)
varianza residua
diventa la realizzazione di una variabile aleatoria
Yk2 /(s 1)
kY
2 /(n s)
kY Yk
con legge di Fisher a (s 1,n s) gradi di libert`a.
Fissato un livello per il test, se la realizzazione campionaria della statistica test
supera la soglia f , si rifiuta lipotesi di non influenza del fattore, avendo indicato con
f il quantile 1 di una variabile aleatoria con legge Fisher a (s 1,n s) gradi di
libert`a. Osserviamo che anche in questo caso il test `e unilaterale come gi`a visto per il
caso della regressione lineare.
Esempio A
Consideriamo i risultati di unanalisi di laboratorio sulla infiammabilit`a dei pigiami
per bambini; lanalisi consiste nel tenere sotto una fiamma un pezzo standard di stoffa
appoggiato su una piastra di metallo. Vengono attentamente controllate lumidit`a del
tessuto, la sua temperatura, laltezza della fiamma, il modo con cui la fiamma `e tenuta
sul tessuto e cos` via. Quando la fiamma `e rimossa e il tessuto ha finito di bruciare, `e
misurata la lunghezza del tessuto carbonizzato. Ci si pone il problema se i diversi tipi
di tessuto danno gli stessi risultati.

2.1

Analisi della varianza a una via per esperimenti bilanciati

I dati e i box-plot sono i seguenti.


2.9
3.1
3.1
3.7
3.1
4.2
3.7
3.9
3.1
3.0
2.9

1
1
1
1
1
1
1
1
1
1
1

2.7
3.4
3.6
3.2
4.0
4.1
3.8
3.8
4.3
3.4
3.3

2
2
2
2
2
2
2
2
2
2
2

3.3
3.3
3.5
3.5
2.8
2.8
3.2
2.8
3.8
3.5
3.8

3
3
3
3
3
3
3
3
3
3
3

3.3
3.2
3.4
2.7
2.7
3.3
2.9
3.2
2.9
2.6
2.8

4
4
4
4
4
4
4
4
4
4
4

4.1
4.1
3.7
4.2
3.1
3.5
2.8
3.5
3.7
3.5
3.9

5
5
5
5
5
5
5
5
5
5
5

Effettuando lanalisi della varianza si ottiene il seguente output.


The ANOVA Procedure
Class Level Information
Class
Levels
Values
tessuto
5
1 2 3 4 5
Number of Observations Read
55
Number of Observations Used
55
The ANOVA Procedure
Dependent Variable: valore
Source
Model
Error
Corrected Total
R-Square
0.266198

DF
4
50
54

Sum of
Squares
2.98654545
8.23272727
11.21927273

Coeff Var
12.01815

Mean Square
0.74663636
0.16465455

Root MSE
0.405776

F Value
4.53

Pr > F
0.0033

valore Mean
3.376364

La lettura delloutput `e del tutto analoga a quella del modello lineare.


Ricordiamo che in questo caso le dimensioni degli spazi a cui appartengono i tre
vettori (colonna DF) sono: s 1, n s e n 1.
Nella colonna Sum of Square si trovano le quantit`a:
- SS(m) SS(m,a) variazione interclasse dovuta al fattore tessuto Model)
- SS(m,a) variazione residua (Error)
- SS(m) variazione totale (Total)
Nella colonna Mean Square si trovano le due quantit`a:
- (SS(m) SS(m,a))/(s 1) varianza interclasse
- SS(m,a)/(n s) varianza residua
Nella quinta colonna (F Value) si trova il rapporto delle due quantit`a precedenti e
nellultima colonna il corrispondente p-value. In questo caso il p-value `e al di sotto
delle soglie usuali a cui si effettuano i test, 5% o 1%, quindi si rifiuta la nullit`a contemporanea dei coefficienti, cio`e lesperimento d`a risultati diversi per i diversi tipi di
tessuto.

45

46

2.2

Analisi della varianza

Analisi della varianza a due vie senza interazione.

Indichiamo le due variabili qualitative, o fattori, con A e B.


Consideriamo sempre esperimenti bilanciati, cio`e casi in cui il numero di unit`a
sperimentali per ciascun livello dellinterazione dei fattori `e uguale, cio`e il numero di
unit`a sperimentali con livello i per il fattore A e contemporaneamente con livello j per
il fattore B `e uguale per ogni i e j.
Le notazioni che utilizzeremo sono ovvie estensioni del caso con un fattore:
- s1 e s2 sono il numero dei livelli dei due fattori,
r `e il numero di unit`a sperimentali appartenenti a ciascun livello dellinterazione fra
i due fattori, r = s1ns2 ,
- yijk `e il valore della variabile quantitativa assunto dalla k-esima unit`a sperimentale
del livello i per il primo fattore e contemporaneamente del livello j per il secondo
fattore e y `e il vettore contenente le realizzazioni della variabile risposta,
- `e il coefficiente che corrisponde alla costante,
i sono i coefficienti per il livello i-esimo del fattore A,
j sono i coefficienti per il livello j-esimo del fattore B,
`e il vettore dei coefficienti,
- ijk `e il residuo per lunit`a ijk e `e il vettore dei residui.
Supponiamo che gli effetti dei fattori siano additivi; in tal caso lipotesi che i risultati
della variabile quantitativa Y dipendono dallappartenenza delle osservazioni a diversi
livelli per i due fattori A e B si pu`o tradurre nel seguente modello per le realizzazioni
campionarie di Y:
yijk = + i + j + ijk
Per scrivere il modello in forma matriciale costruiamo dei vettori binari ai per i livelli
del primo fattore e bj per i livelli del secondo fattore e la matrice X di dimensione
(n,s1 + s2 + 1) che ha come colonne i vettori 1,a1 , . . . ,as1 ,b1 , . . . ,bs2 . Quindi:
y =X +
Qui sotto `e considerato il caso s1 = 2, s2
fattori.
X
y
1 a1 a2 b1
y111
1 1 0
1
y112
1 1 0
1
y121
1 1 0
0
y122
1 1 0
0
y131
1 1 0
0
y132 = 1 1 0
0
y211
1 0 1
1
y212
1 0 1
1
y221
1 0 1
0
y222
1 0 1
0
y231
1 0 1
0
y232
1 0 1
0

= 3 e due repliche in ogni interazione di

b2
0
0
1
1
0
0
0
0
1
1
0
0

b3
0
0
0
0
1
1
0
0
0
0
1
1

1
2
1
2
3

2.2

Analisi della varianza a due vie senza interazione.

47

Per rendere le colonne della matrice X di rango pieno si pu`o procedere agendo sui due
gruppi di vettori della matrice (quello relativo al fattore A e quello relativo al fattore B)
in modo analogo a quanto fatto nel caso di un solo fattore.
Gli s1 vettori relativi al fattore A, a1 , . . . ,as1 , vengono sostituiti con s1 1 vettori
?
a1 , . . . ,a?s1 1 tali che: a?i = ai as1 .
Gli s2 vettori relativi al fattore B, b1 , . . . ,bs2 , vengono sostituiti con s2 1 vettori
b?1 , . . . ,b?s2 1 tali che: b?i = bi bs2 .
Il vettore dei coefficienti `e modificato di conseguenza: la sua dimensione deve essere 1 + (s1 1) + (s2 1) (cio`e s1 + s2 1) e si pu`o facilmente verificare che ? =
(,1 ,2 , . . . ,s1 1 ,1 ,2 , . . . ,s2 1 ).
In questo caso lartificio utilizzato per rendere la matrice di rango pieno corrisponde
a porre un vincolo su ciascuno dei due blocchi di coefficienti:
s1
X

i = 0

i=1

2.2.1

s2
X

j = 0 .

j=1

Decomposizione dello spazio V e stime dei parametri per esperimenti


bilanciati

Nel caso che stiamo considerando di esperimento bilanciato, i tre gruppi di vettori della
matrice X? , corrispondenti alla costante, al fattore A e al fattore B sono fra di loro
ortogonali; infatti `e facile verificare che:
< 1,a?i >= 0

< 1,b?j >= 0

< a?i ,b?j >= 0

(2.2)

per ogni i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.



Quindi, nelcaso di esperimento bilanciato, i tre sottospazi generati da a?1 , . . . ,a?s1 1 ,
b?1 , . . . ,b?s2 1 e da 1 sono a due a due ortogonali; le proiezioni (e quindi la somma
dei quadrati dei residui) possono essere effettuate in un ordine indifferente sui modelli corrispondenti. Lo spazio V pu`o essere scomposto in tre sottospazi mutuamente
ortogonali:
V = VI VA? VB ?
Come generalizzazione del caso di un solo fattore, le ortogonalit`a dei vettori (2.2),
0
comportano che le matrici X? X? e la sua inversa siano diagonali a blocchi. Da un
punto di vista inferenziale questo vuol dire che gli stimatori dei 3 gruppi di parametri
sono indipendenti.
1
0
0
Qui sotto sono riportate le matrici X? X? e X? X?
per s1 = 2, s2 = 3 e due
repliche in ogni interazione di fattori.
0

1
A
B

1
12
0
0
0

X ? X?
A
B
0 0 0
12 0 0
0 8 4
0 4 8

(X? X? )1
1 A
B
1 1 0 0 0
A 0 1 0 0
1
B 0 0 2 -1 12
0 0 -1 2

48

Analisi della varianza

Le stime dei parametri sono:


m=y

ai = y i. y

bj = y .j y

avendo indicato con y, y i. e y .j rispettivamente la media generale, la media del livello i


e la media del livello j.
Quindi:
yijk = y i. + y .j y
Osserviamo che - per esperimenti bilanciati - le stime dei coefficienti risultano uguali
a quelle che si ottengono nei due modelli con un singolo fattore.
Si effettuano separatamente due test ipotizzando una volta che i coefficienti i siano
uguali fra loro e unaltra che i j siano uguali fra loro, procedendo poi in modo del tutto
simile a quanto visto per il caso a un fattore.
2.2.2

I due test per verificare la non influenza di A e di B

Per effettuare il test di nullit`a simultanea dei coefficienti i


H0 : 1 = = s = 0

H1 : h {1, . . . ,s} tale che h 6= 0

bisogna calcolare la somma dei quadrati dei residui nel modello completo, che indicheremo
- in analogia alle notazioni precedenti - con SS(m,a,b), e poi nel modello ridotto, che
indicheremo con SS(m,b).
Per precisare il modello, indichiamo con y
A,B
la proiezione di y nel sottospazio V generato
dalle colonne di X e con y
B la proiezione di
y nell sottospazio generato dalle sole colonne
di X corrispondenti alla costante e al fattore
B.

^
yA,B

VB*

^
La figura a fianco rappresenta i vettori
yB
y
che intervengono per il test sul fattore A.
Attenzione lo spazio ambiente `e Rn .
Come nel caso a un fattore, la varianza residua non `e influenzata dai vincoli posti sui
coefficienti, in quanto il sottospazio generato da X coincide con quello generato da X? .
La realizzazione della statistica test `e:

fA =

(SS(m,b) SS(m,a,b)) / (s1 1)


SS(m,a,b) / (n s1 s2 + 1)

Si procede in modo analogo per il fattore B. Indichiamo SS(m,a) le somme dei


quadrati dei residui nel modello con la costante e i coefficienti del fattore A, cio`e - dal
punto di vista geometrico - il quadrato della distanza fra y e sottospazio generato dalle
sole colonne di X corrispondenti alla media e al fattore A. La realizzazione della statistica
test `e:
(SS(m,a) SS(m,a,b)) / (s2 1)
fB =
SS(m,a,b) / (n s1 s2 + 1)

2.2

2.2.3

49

Analisi della varianza a due vie senza interazione.

Decomposizione della varianza per gli esperimenti bilanciati

Osserviamo che i modelli ridotti coincidono con un modello (completo) a un fattore e


le stime degli yijk sono quelle gi`a viste in precedenza e cos` pure le quantit`a SS(m,a) e
SS(m,b). Ricordiamo che negli esperimenti bilanciati si ha:
s2 X
r
1 X
y i. =
yijk
rs2 j=1 k=1

s1 X
r
1 X
y .j =
yijk
rs1 i=1 k=1

s1
s2
1 X
1 X
y=
y =
y
s1 i=1 i. s2 j=1 .j

Quindi le quantit`a che intervengono nei test sono le seguenti.


- Variazione totale SS(m):
2

ky yk =

s1 X
s2 X
r
X

(yijk y)2

i=1 j=1 k=1

I gradi di libert`a, cio`e la dimensione dello spazio a cui appartiene il vettore y y,


sono n 1.
- Variazione residua SS(m,a,b):
2

ky y
A,B k =

s1 X
s2 X
r
X

yijk y i. y .j + y

2

i=1 j=1 k=1

La dimensione dello spazio a cui appartiene il vettore y y


A,B `e n s1 s2 + 1
- Variazione interclasse del fattore A, SS(m,b) SS(m,a,b), talvolta indicata con
SSA :
2

ky y
B k ky y
A,B k =

s1 X
s2 X
r
X

yijk y .j

2

yijk y i. y .j + y

2

i=1 j=1 k=1

s1 X
s2 X
r
X

2
2
y 2i. y 2.j y 2
yijk
+ y 2.j 2yijk y .j yijk

i=1 j=1 k=1


+ 2yijk y i. + 2yijk y .j 2yijk y 2y i. y .j + 2y i. y + 2y .j y =
s1
s1
s1
X
X
X
2
2
2
rs2
y i. ny + 2rs2
y i. 2rs2 y
y i. 2rs1 s2 y 2 + 2rs1 s2 y 2 + 2rs1 s2 y 2 =
i=1

i=1

rs2

s1
X
i=1

y 2i. 2rs2

i=1
s1
X
i=1

y i. y + ny 2 = r s2

s1
X

(y i. y)2 = k
yA yk2

i=1

La dimensione dello spazio a cui appartiene il vettore y


A y `e s1 1.

50

Analisi della varianza

- Variazione interclasse del fattore B SS(m,a) SS(m,a,b), talvolta indicata con


SSB :

ky y
A k ky y
A,B k =

s1 s2
s2 X
s1 X
X

(yijk y i. )2 yijk y i. y .j + y

2

i=1 j=1 k=1

r s1

s2
X

(y.j y)2 = k
yB yk2

j=1

La dimensione dello spazio a cui appartiene il vettore y


A y `e s2 1.
Osserviamo che le varianze interclasse di A e di B (cio`e le quantit`a che intervengono
al numeratore della statistica di Fisher per il test sulla influenza dei fattori A e B) nel
caso di modello con due fattori senza interazione sono uguali a quelle dei due modelli
con un singolo fattore. Geometricamente ci`o si interpreta, ad esempio per il fattore A,
nel senso che la distanza fra la proiezione di y nel sottospazio V VA? e la proiezione di
y in VI `e uguale sia nel modello con due fattori senza interazione che in quello con un
solo fattore, anche se gli spazi V sono diversi nei due casi. Invece la varianza residua distanza fra y e V - (cio`e la quantit`a al denominatore) `e diversa nei due casi essendo i
due spazi V diversi.
Sostituendo la relazione che lega la variazione del fattore A alla variazione totale (si
veda anche la figura):
yA yk2
ky y
A k2 = ky yk2 k
nella formula della variazione interclasse di B, si ha:
yA yk2 k
yB yk2
ky y
A,B k2 = ky y
A k2 k
yB yk2 = ky yk2 k
e quindi si ottiene:
ky yk2 = ky y
A,B k2 + k
yA yk2 + k
yB yk2
che esprime la variazione totale come somma della variazione residua e delle variazioni
interclassi dei due fattori.
Esempio B
Si vuole studiare la quantit`a di DDT presente nei tessuti di uccelli rapaci (falchi) in
dipendenza dalla zona di nidificazione (1: zona artica, 2: Canada, 3: USA) e dallet`a
dei soggetti (1: giovani, 2: medi, 3: vecchi).
Anzitutto osserviamo i box-plot per la quantit`a di DDT con i dati suddivisi per
livello di zona e poi per livello di et`a.

2.2

51

Analisi della varianza a due vie senza interazione.

Gi`a da unanalisi descrittiva si osserva che linfluenza sulla variabile DDT `e diversa
per i due fattori.
Passiamo quindi a unanalisi di tipo inferenziale ed effettuiamo unanalisi della varianza a una via per studiare linfluenza sulla quantit`a di DDT della zona di nidificazione, poi separatamente una analisi della varianza a una via per studiare linfluenza
dellet`a e infine unanalisi della varianza a due vie. I risultati sono i seguenti.
ANOVA a una via. Fattore zona.
The ANOVA Procedure
Class Level Information
Class
Levels
Values
zona
3
1 2 3
Number of Observations Used

27

Dependent Variable: ddt


Source
Model
Error
Corrected Total

DF
2
24
26

R-Square
0.908054
Source
zona

Sum of
Squares
17785.40741
1800.88889
19586.29630

Coeff Var
19.52292
DF
2

Mean Square
8892.70370
75.03704

Root MSE
8.662392

Anova SS
17785.40741

F Value
118.51

Pr > F
<.0001

ddt Mean
44.37037

Mean Square
8892.70370

F Value
118.51

Pr > F
<.0001

F Value
1.16

Pr > F
0.3316

ANOVA a una via. Fattore et`


a.
The ANOVA Procedure
Class Level Information
Class
Levels
Values
eta
3
1 2 3
Number of Observations Used

27

Dependent Variable: ddt


Source
Model
Error
Corrected Total

DF
2
24
26

Sum of
Squares
1721.18519
17865.11111
19586.29630

Mean Square
860.59259
744.37963

52

2
R-Square
0.087877
Source
eta

Analisi della varianza

Coeff Var
61.48996
DF
2

Root MSE
27.28332

Anova SS
1721.185185

ddt Mean
44.37037

Mean Square
860.592593

F Value
1.16

Pr > F
0.3316

F Value
1346.06

Pr > F
<.0001

ANOVA a due via. Fattori zona e et`


a.
The ANOVA Procedure
Class Level Information
Class
Levels
Values
zona
3
1 2 3
eta
3
1 2 3
Number of Observations Used

27

Dependent Variable: ddt


Source
Model
Error
Corrected Total
R-Square
0.995931
Source
zona
eta

DF
4
22
26

Sum of
Squares
19506.59259
79.70370
19586.29630

Coeff Var
4.289778
DF
2
2

Mean Square
4876.64815
3.62290

Root MSE
1.903391

Anova SS
17785.40741
1721.18519

ddt Mean
44.37037

Mean Square
8892.70370
860.59259

F Value
2454.58
237.54

Pr > F
<.0001
<.0001

Nell prima tabella si trovano, nella colonna Sum of Square la variazione residua e
quella totale e nella colonna DF i corrispondenti gradi di libert`a.
Nellultima tabella si trovano, nella colonna Anova SS le variazioni interclasse e nella
colonna DF i corrispondenti gradi di libert`a. Nella colonna Mean Square si trovano le
varianze interclasse per il primo e il secondo fattore. Infine nelle colonne F Value e Pr
> F si trovano rispettivamente i valori della statistica test e i corrispondenti p-value
per i due test separati per linfluenza della zona e dellet`a.
Ricordiamo che i gradi di libert`a sono s1 1 per la variazione del primo fattore,
s2 1 per la variazione del secondo fattore e n 1 per la variazione totale. I gradi di
libert`a della variazione dellerrore sono diversi per il modello a una via,n s1 , e per il
modello a due vie, n s1 s2 + 1.
Osserviamo - come gi`a detto - che le due varianze interclasse sono uguali nel modello
a un fattore e nel modello a due fattori, mentre la varianza residua `e sempre pi`
u piccola
nel modello a due fattori, quindi la statistica F sar`a pi`
u grande nel modello a due
fattori rispetto al modello a un fattore (in genere vale, anche se cambiano i gradi di
libert`a del denominatore).
Ci`o conduce - nellesempio considerato - a considerazioni diverse per quanto riguarda
linfluenza dellet`a sulla quantit`a di DDT a seconda che si consideri un modello con un
solo fattore o un modello con due fattori senza interazione; nel primo let`a sembra non
influire, nel secondo si: questo `e dovuto al fatto che nel secondo modello lerrore, cio`e
Sum of Square(Erorr), risulta molto piccolo. Quindi il denominatore della statistica
test `e piccolo e il valore della statistica `e grande.

2.3

2.3

53

Analisi della varianza a due vie con interazione - Fattori crossed

Analisi della varianza a due vie con interazione - Fattori


crossed

I fattori si dicono crossed (o incrociabili) se `e possibile effettuare un esperimento per


ogni combinazione dei livelli. Questo `e il caso in cui una unit`a sperimentale pu`o essere
sottoposta a qualunque livello di trattamento relativo al fattore A e a qualunque livello
di trattamento relativo al fattore B. In queste situazioni, se si pensa che lappartenenza
di una unit`a sperimentale a una combinazione di livelli del primo fattore e del secondo
fattore possa incidere sulla variabile risposta, cio`e che ci sia interazione fra i due fattori
il modello prende la forma:
yijk = + i + j + ij + ijk
dove ij esprime linterazione fra i due fattori.
I fattori A e B vengono anche detti fattori principali e i loro coefficienti effetti principali; linterazione `e anche indicata con AB e coefficienti corrispondenti vengono detti
effetti di interazione.
La matrice X `e formata da ulteriori s1 s2 colonne c11 , . . . ,cs1 s2 che corrispondono
alla congiunzione delle presenze nei livelli del primo e del secondo fattore: la colonna cij
`e il prodotto di ai e bj .

X
y

1
1
1
1
1
1
= 1
1
1
1
1
1
1

a1

a2

b1

b2

b3

a1 b1

a1 b2

a1 b3

a2 b1

a2 b2

a2 b3

1
1
1
1
1
1
0
0
0
0
0
0

0
0
0
0
0
0
1
1
1
1
1
1

1
1
0
0
0
0
1
1
0
0
0
0

0
0
1
1
0
0
0
0
1
1
0
0

0
0
0
0
1
1
0
0
0
0
1
1

1
1
0
0
0
0
0
0
0
0
0
0

0
0
1
1
0
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0
0
0

0
0
0
0
0
0
1
1
0
0
0
0

0
0
0
0
0
0
0
0
1
1
0
0

0
0
0
0
0
0
0
0
0
0
1
1

1
2
1
2
3
11
12
13
21
22
23

Le s1 s2 colonne cij sono fra di loro


ma
 linearmente indipendenti,
 sono linearmente
?
?
?
?
dipendenti dalle colonne a1 , . . . ,as1 1 , dalle colonne b1 , . . . ,bs2 1 e dalla colonna 1.
La matrice X, che possiede 1 + s1 + s2 + s1 s2 colonne, ha rango s1 s2 .
Una matrice di rango pieno si ottiene a partire dalla matrice X? del modello senza
interazione, aggiungendo le colonne ottenute moltiplicando ciascun vettore a?i con ciascun
vettore b?j ; la nuova matrice ha 1 + (s1 1) + (s2 1) + (s1 1)(s2 1), cio`e s1 s2
colonne linearmente indipendenti.

54

y
y111
y112
y121
y122
y131
y132
y211
y212
y221
y222
y231
y232

1
1
1
1
1
1
= 1
1
1
1
1
1
1

a?1

1
1
1
1
1
1
-1
-1
-1
-1
-1
-1

Analisi della varianza

X?
b?1
1
1
0
0
-1
-1
1
1
0
0
-1
-1

b?2
0
0
1
1
-1
-1
0
0
1
1
-1
-1

c?11
1
1
0
0
-1
-1
-1
-1
0
0
1
1

c?12
0
0
1
1
-1
-1
0
0
-1
-1
1
1

1
1
2
11
12

111

211
+
311

Questa costruzione delle colonne relative allinterazione corrisponde ad imporre nuovi


vincoli ai coefficienti:
s1
s2
X
X
ij = 0 j = 1, . . . ,s2
e
ij = 0 i = 1, . . . ,s2 .
i=1

j=1

Osserviamo che fra questi s1 + s2 vincoli quello relativo al caso s1 s2 `e ripetuto due volte.
Il numero di vincoli sui coefficienti sono quindi: uno per i coefficienti del fattore A, 1 per
i coefficienti del fattore B e s1 + s2 1 per linterazione, in totale s1 + s2 + 1.
2.3.1

Decomposizione dello spazio V e stime dei parametri per esperimenti


bilanciati

Il sottospazio V generato da X (ovvero da X? ) coincide con il sottospazio VAB generato


dalle colonne cij corrispondenti alla sola interazione AB. I gradi di libert`a sono s1 s2 , che
coincidono con il numero di colonne iniziali 1 + s1 + s2 + s1 s2 meno il numero di vincoli.
In generale si ha:
V = VAB = VAB VI = VAB VI VA = VAB VI VA VB .
Nel caso di esperimento bilanciato, cio`e di equinumerosit`a di unit`a sperimentali in
ciascun livello dellinterazione (come quello che abbiamo considerato finora) il sottospazio
VAB pu`o essere scomposto in quattro sottospazi fra loro ortogonali. Infatti anche in questo
caso i vettori corrispondenti ai quattro gruppi di parametri sono fra di loro ortogonali.
Dimostriamo che i vettori c?ij sono ortogonali ai vettori a?i ; lortogonalit`a con la costante
`e immediata e quella con i b?j si dimostra in modo analogo. Si ha:
< c?ij ,a?i >=

n
X
h=1

(c?ij )h (a?i )h =

n
X
h=1

(a?i )2h (b?j )h =

n
X

(b?j )h = 0

h=1,j=i,j=s1

Infatti il vettore a?i al quadrato ha elementi uguali a 1 solo nel livello i e nel livello s1 ;
allintermo di ciascun livello il vettore b?j `e bilanciato e quindi la somma vale 0.
Quindi:
V = VI VA? VB ? VAB ? .

2.3

Analisi della varianza a due vie con interazione - Fattori crossed


0

Qui sotto sono riportate le matrici X? X? e X? X?


repliche in ogni interazione di fattori.
0

1
A
B
AB

X? X?
1 A
B
12 0 0 0
0 12 0 0
0 0 8 4
0 0 4 8
0 0 0 0
0 0 0 0

1

55

per s1 = 2, s2 = 3 e due

AB
0 0
0 0
0 0
0 0
8 4
4 8

1
A
B
AB

1
1
0
0
0
0
0

(X? X? )1
A
B
AB
0 0 0 0 0
1 0 0 0 0
0 2 -1 0 0
1
0 -1 2 0 0 12
0 0 0 2 -1
0 0 0 -1 2

Le stime dei parametri risultano:


ai = y i. y

m=y

bj = y .j y

cij = y ij y i. y .j + y

avendo indicato con y, y i. , y .j e y ij rispettivamente la media generale, la media del livello


i, la media del livello j e la media nel livello di interazione (i,j).
Quindi:
yijk = y ij
Osserviamo che le stime dei coefficienti , i e j risultano uguali a quelle che si ottengono
nei modelli con un singolo fattore e nel modello con due fattori senza interazione.
2.3.2

I tre test per verificare la nullit`


a dei tre gruppi di parametri

Anche in questo caso si effettuano tre test separati: uno per linfluenza del fattore A,
uno per linfluenza del fattore B e uno per linfluenza dellinterazione.
Le realizzazioni campionarie delle statistiche test sono (con ovvie estensioni delle
notazioni):
SS(m,b,c) SS(m,a,b,c) / (s1 1)
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,c) SS(m,a,b,c) / (s2 1)
=
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,b) SS(m,a,b,c) / ((s1 1)(s2 1))
=
SS(m,a,b,c) / (n s1 s2 )

fA =
fB
fAB
2.3.3

Decomposizione della varianza per gli esperimenti bilanciati

Ricordiamo che negli esperimenti bilanciati si ha:


r

1X
y ij =
yijk
r k=1
s1 X
s1
r
1 X
1 X
y .j =
yijk =
y
rs1 i=1 k=1
s1 i=1 ij

s2 X
s2
r
1 X
1 X
yijk =
y i. =
y
rs2 j=1 k=1
s2 j=1 ij
s1
s2
s1 X
s2
1 X
1 X
1 X
y=
y =
y =
y
s1 i=1 i. s1 j=1 .j s1 s2 i=1 j=1 ij

56

Analisi della varianza

Quindi le quantit`a che intervengono nei test sono le seguenti, con ovvie estensioni delle
notazioni.
- Variazione totale SS(m)
ky yk2 =

XXX
i

(yijk y)2 .

La dimensione dello spazio a cui appartiene il vettore ky yk2 `e n 1


- Variazione residua SS(m,a,b,c).
XXX
XXX
2
ky y
A,B,AB k2 =
(yijk yijk )2 =
yijk y ij .
i

La dimensione dello spazio a cui appartiene il vettore ky y


ABC k2 `e n s1 s2 .
- Variazione interclasse del fattore A, SS(m,b,c) SS(m,a,b,c) o SSA
ky y
B,AB k2 ky y
A,B,AB k2 =
XXX
X
2
2
yijk y i. y ij + y yijk y ij = r s2
(y i. y)2 = k
yA yk2 .
i

La dimensione dello spazio a cui appartiene il vettore k


yA yk2 `e s1 1.
- Variazione interclasse del fattore B, SS(a,b,c) SS(m,a,b,c) o SSB
ky y
A,AB k2 ky y
A,B,AB k2 =
XXX
X
2
2
2
y .j y = k
yB yk2 .
yijk y .j y ij + y yijk y ij = r s1
i

La dimensione dello spazio a cui appartiene il vettore k


yB yk2 `e s2 1.
- Variazione interclasse allinterazione AB, SS(m,a,b) SS(m,a,b,c) o SSAB
ky y
A,B k2 ky y
A,B,AB k2 =
XXX
2
2
yijk y i. y .j + y ij yijk y ij =
i

XX
i

y ij y i. y .j + y

2

= ky y
AB k2 .

La dimensione dello spazio a cui appartiene il vettore k


yAB yk2 `e (s1 1)(s2 1).
Osserviamo che, nel caso di esperimento bilanciato, le due varianze interclasse nel modello con interazione sono uguali a quelle nel modello a un fattore e a quelle nel modello
a due fattori senza interazione.
Anche in questo caso si pu`o dimostrare - in modo analogo a quanto fatto per il modello
senza interazione - che la variazione totale `e la somma della variazione residua, delle
variazioni interclassi dei due fattori e della variazione interclasse dellinterazione.

2.4

57

Analisi della varianza con fattori nested

Esempio C Riprendiamo in esame lesempio B di questo capitolo riguardante linfluenza della zona di nidificazione e dellet`a sulla quantit`a di DDT presente nei tessuti
dei falchi in un modello con interazione, ricordando che si erano ottenute conclusioni
diverse per quanto riguarda linfluenza dellet`a nel caso di un modello a un fattore e
nel caso del modello a due fattori senza interazione.

Dependent Variable: ddt


Source
Model
Error
Corrected Total
R-Square
0.996835
Source
zona
eta
zona*eta

DF
8
18
26

Sum of
Squares
19524.29630
62.00000
19586.29630

Coeff Var
4.182795
DF
2
2
4

Mean Square
2440.53704
3.44444

Root MSE
1.855921

Anova SS
17785.40741
1721.18519
17.70370

F Value
708.54

Pr > F
<.0001

ddt Mean
44.37037

Mean Square
8892.70370
860.59259
4.42593

F Value
2581.75
249.85
1.28

Pr > F
<.0001
<.0001
0.3128

In questo modello solo linterazione fra i due fattori risulta non influente sulla quantit`a di DDT, mentre let`a - da sola - influisce, come nel modello a due fattori senza
interazione; la zona rimane sempre influente in tutti e tre i modelli.

2.4

Analisi della varianza con fattori nested

Si dice che fattore B `e annidato dentro il fattore A e si indica B(A) nel caso in cui i
livelli del fattore B hanno un significato differente a seconda del livello corrispondente
del fattore A. Ad esempio in una sperimentazione di un farmaco il fattore A indica il
centro dove viene effettuato lesperimento e il fattore B il reparto; se i reparti dei due
centri hanno caratteristiche diverse allora si dice che il reparto `e annidato nel centro.
Il modello si scrive come:
yijk = + i + j (i ) + ijk
con ovvie estensioni delle notazioni.
Se s1 = 2, s2 = 3 e si hanno due repliche per ciascun livello di B(A), la situazione `e
rappresentabile nel seguente modo.

58

Analisi della varianza

X
y

1
1
1
1
1
1
= 1
1
1
1
1
1
1

a1

a2

b1 (a1 )

b2 (a1 )

b3 (a1 )

b1 (a2 )

b2 (a2 )

b3 (a2 )

1
1
1
1
1
1
0
0
0
0
0
0

0
0
0
0
0
0
1
1
1
1
1
1

1
1
0
0
0
0
0
0
0
0
0
0

0
0
1
1
0
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0
0
0

0
0
0
0
0
0
1
1
0
0
0
0

0
0
0
0
0
0
0
0
1
1
0
0

0
0
0
0
0
0
0
0
0
0
1
1

1
2
1 (1 )
2 (1 )
3 (1 )
1 (2 )
2 (2 )
3 (2 )

Con una notazione derivata dai software statistici un modello di questo tipo pu`o essere
indicato con A + B(A), mentre un modello con interazione `e indicato con A + B + AB
o con A|B.
Il sottospazio generato dalle colonne della matrice X nei due modelli crossed e nested
`e lo stesso ma la parametrizzazione `e differente. Osserviamo che la sottomatrice B(A)
del modello nested e la sottomatrice AB del modello crossed sono uguali anche se hanno
un significato differente.
La matrice X? di rango pieno si costruisce, per il fattore B(A) considerando i vettori
bj (ai )? = bj (ai ) bs2 (ai )
per ogni i = 1, . . . ,s1 e ogni j = 1, . . . ,s2 1.
y
y1(1)1
y1(1)2
y2(1)1
y2(1)2
y3(1)1
y3(1)2
y1(2)1
y1(2)2
y2(2)1
y2(2)2
y3(2)1
y3(2)2

1
1
1
1
1
1
= 1
1
1
1
1
1
1

a1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1

I vincoli del modello


fattore nested

X
?

b2 (a1 ) b1 (a2 ) b2 (a2 )


1
0
0
0
1(1)1
1
0
0
0
0
1
0
0
0
1
0
0

-1
-1
0
0
1
-1
-1
0
0
1 (1 ) +
0
0
1
0
2 (1 )
1(2)1
0
0
1
0
1 (2 )
0
0
0
1
2 (2 )
0
0
0
1
0
0
-1
-1
0
0
-1
-1
P
sono quindi i i = 0 per il primo fattore e gli s1 vincoli per il
b1 (a1 )

s2
X

j(i) = 0

per i = 1, . . . ,s1 .

j=1

Anche in questo caso i vettori corrispondenti ai quattro gruppi di parametri sono fra
di loro ortogonali.

2.4

Qui sotto sono riportate le matrici X? X? e X? X?


repliche in ogni interazione di fattori.
0

1
12
0
0
B(A1 ) 0
0
B(A2 ) 0
1
A

A
0
12
0
0
0
0

59

Analisi della varianza con fattori nested

1

per s1 = 2, s2 = 3 e due

X? X?
B(A1 )
0 0
0 0
4 2
2 4
0 0
0 0

B(A2 )
0 0
0 0
0 0
0 0
4 2
2 4

1
A
B(A1 )
B(A2 )

1
1
0
0
0
0
0

(X? X? )1
A B(A1 ) B(A2 )
0 0 0 0 0
1 0 0 0 0
0 4 -2 0 0
1
0 -2 4 0 0 12
0 0 0 4 -2
0 0 0 -2 4

In un modello con due fattori di cui uno nested i gradi di libert`a del primo fattore
sono s1 1 e quelli per il fattore nested sono s1 (s2 1).
Essendo uguali i sottospazi del modello crossed e nested, vale anche in questo caso che
la variazione totale `e la somma della variazione residua e delle variazioni interclassi dei
due fattori.
Esempio D Consideriamo un esempio tratto da un lavoro di Snedecor e Cochran del
1976. Per studiare la concentrazione di calcio in turnip greens vengono scelte a caso
quattro piante a caso e quindi da ciascuna pianta sono scelte a caso tre foglie. Da
ciascuna foglia sono presi due campioni di 100 mg e per ciascuno `e determinata con
metodi chimici la quantit`a di calcio. I risultati sono i seguenti.

The ANOVA Procedure


Class Level Information
Class
Levels
Values
Plant
4
1 2 3 4
Leaf
3
1 2 3
Number of Observations Used

24

Dependent Variable: Calcium


Source
Model
Error
Corrected Total
R-Square
0.992225
Source
Plant
Leaf(Plant)

DF
11
12
23

Sum of
Squares
10.19054583
0.07985000
10.27039583

Coeff Var
2.708195
DF
3
8

Mean Square
0.92641326
0.00665417

Root MSE
0.081573

Anova SS
7.56034583
2.63020000

F Value
139.22

Pr > F
<.0001

Calcium Mean
3.012083

Mean Square
2.52011528
0.32877500

F Value
378.73
49.41

Pr > F
<.0001
<.0001

60
2.4.1

Analisi della varianza

Vantaggi degli esperimenti bilanciati

Concludiamo con alcune considerazioni, verificabili anche negli esempi precedenti, sulla
decomposizione dello spazio Rn nel caso di esperimenti bilanciati e sulle conseguenze
nella stima e nella verifica di ipotesi dei parametri.
Prendiamo in considerazione per semplicit`a il modello a una e a due vie senza interazione e indichiamo con lindice in alto (1) e (2) rispettivamente gli spazi e le stime dei
due modelli. La generalizzazione a modelli pi`
u ampi `e immediata.
Abbiamo visto anzitutto che gli stimatori dei vari gruppi di parametri che intervengono nel modello, la media, i parametri per il fattore A e quelli per il fattore B sono
indipendenti.
Inoltre le stime nel modello a un fattore sono uguali a quelle nel modello a pi`
u fattori,
(1)
(2)
ad esempio a
i = a
i .
Per quanto riguarda gli spazi generati dalle colonne della matrice X del modello questo
(1)
(2)
si traduce nel fatto che VA? = VA? . Si ha quindi:
(1)

(1)

Rn = VI VA? VI+A?
(2)

(2)

(1)

(1)

(2)

Rn = VI VA? +B ? VI+A? +B ? = VI VA? VB ? VI+A? +B ?


(1)

Dunque lo spazio residuo nel modello a una via VI+A? `e decomposto, nel modello a due
(1)
(2)
vie in due sottospazi ortogonali VB ? e VI+A? +B ? , cio`e:
(1)

(1)

(2)

VI+A? = VB ? VI+A? +B ?
nel modello
Nel caso di esperimenti bilanciati, per trovare le stime dei valori attesi y
(1)
A? , considerare il vettore
a due vie `e possibile, prima proiettare y su VA? , ottenendo y
(1)
B ? . Essendo i sottospazi considerati
residuo y
yA? e proiettare questo su VB ? ottenendo y
tutti ortogonali fra loro si ottengono le stesse stime cambiando lordine dei fattori, cio`e
(1)
B ? , e proiettano poi il residuo y y
B ? su VV(1)
proiettando prima y su VB ? , ottenendo y
? ,
A? .
ottenendo y

2.5

Analisi della varianza per esperimenti non bilanciati

Nella pratica sperimentale spesso si presentano situazioni in cui non `e possibile avere un
uguale numero di osservazioni per ciascun livello dellinterazione dei fattori. Anche in
tal caso `e possibile effettuare una analisi della varianza in modo sostanzialmente simile
a quanto visto sopra.
Nel caso non bilanciato, per`o, non risultano pi`
u ortogonali i sottospazi di V corrispondenti ai vari fattori e la decomposizione della varianza (o meglio della variazione) della
variabile risposta y non `e pi`
u univoca. Inoltre gli stimatori dei coefficienti del modello
1
0
non sono pi`
u indipendenti fra i vari fattori; infatti la matrice X? X?
non `e ortogonale
a blocchi come `e illustrato nel seguente semplice esempio di analisi della varianza a una
via.

2.5

Analisi della varianza per esperimenti non bilanciati

1 1 0
1 1 0
1 0 1
?
X = 1 0 1
1 -1 -1
1 -1 -1
1 -1 -1

7 -1 -1
X X = -1 5 3
-1 3 5
?0

?0

X X


? 1

61

0.15 0.02 0.02


= 0.02 0.31 -0.02
0.02 -0.02 0.31

Le statistiche test assumono - ovviamente - la stessa forma, ma le loro espressioni sono


pi`
u complicate. Analizziamo nei dettagli nellanalisi della varianza a una via.
2.5.1

Analisi della varianza a una via

Consideriamo il modello:
yik = + i + ik

i = 1, . . . ,s k = 1, . . . ,ri

con il numero
P di repliche ri diverso per ogni livello del fattore A e con vincolo sui
coefficienti sj=1 j = 0.
La somma dei quadrati dei residui nel modello completo `e:
SS(,) =

ri
s X
X

(yik i )2

i=1 k=1

Uguagliando a 0 le derivate parziali rispetto ai coefficienti si ottiene:


ri
s X
X
SS
=0
(yik i ) = 0

i=1 k=1
ri
s X
X

yik n

s
X

ri i = 0

i=1

i=1 k=1

s
1X
y
ri i = 0
n i=1
rj
X
SS
(yjk j ) = 0
= 0 , j = 1, . . . ,s
j
k=1

rj y j rj rj j = 0
y j j = 0
Sommando, su j, le derivate parziali rispetto a j si ha:
s
X

y j s

j=1

s
X

j = 0

j=1

Per il vincolo sui coefficienti si ottengono le stime:


s

1X
m=
y
s j=1 j

1X
aj = y j
y
s i=1 i

62

Analisi della varianza

Osserviamo che m non `e la media di y, come nel caso bilanciato.


Quindi lapprossimazione lineare di yik per tutte le unit`a sperimentali che corrispondono al livello i per il fattore A, `e, come nel caso di esperimento bilanciato:
yik = y i

per ogni k = 1, . . . r .

La somma dei quadrati dei residui del modello completo nel campione considerato `e:
2

SS(m,a) = ky y
k =

ri
s X
X

(yik y i ) =

ri
s X
X

i=1 k=1

2
yik

i=1 k=1

s
X

ri y 2i

i=1

avendo indicato con y


C il vettore con elementi y i .
Indichiamo con R la costante del modello ridotto senza fattore. Nel modello ridotto
si ha:
ri
s X
X
SS(R ) =
(yik R )2
i=1 k=1

Uguagliando a 0 la rispetto a R si ottiene:


r

i
XX
dSS
yik nR = 0 mR = y
=0
dR
i=1 k=1

La somma dei quadrati dei residui del modello ridotto nel campione considerato `e:
2

SS(mR ) = ky y
R k =

ri
s X
X

(yik mR ) =

ri
s X
X

2
yik
ny 2

i=1 k=1

i=1 k=1

avendo indicato con y


R il vettore con elementi y.
La variazione interclasse del fattore A, SS(mR ) SS(mC ,a), `e:
2

ky y
R k ky y
k =

ri
s X
X
i=1 k=1

2
yik

ny

ri
s X
X

2
yik

i=1 k=1

s
X
i=1

ri y 2i

s
X

ri y 2i ny 2 .

i=1

Osserviamo che, anche nel caso non bilanciato, ky y


R k2 ky y
k2 = k
y yk2 , in
quanto in entrambi i casi yik = y i .
La realizzazione della statistica test per verificare la nullit`a contemporanea dei coefficienti i `e quindi:
P
( si=1 ri y 2i ny 2 ) /(s 1)
P
fA = Ps Pri 2
.
( i=1 k=1 yik si=1 ri y 2i ) /(n s)
2.5.2

I diversi tipi di somme dei quadrati in SAS

Come gi`a osservato, se i sottospazi in cui `e decomposto V non sono tra loro ortogonali,
lordine con cui si fanno le proiezioni successive di y e dei residui nel vari sottospazi non
sono univoche. Ad esempio nellanalisi della varianza a due fattori se prima si proietta
y su VA , y
A , poi si proietta il residuo y y
A su VB si ottiene un risultato diverso che se
si proietta y su VB , y
B , poi si proietta il residuo y y
B su VA .
Per gli esperimenti non bilanciati, il software SAS prevede diversi modi per calcolare
le somme dei quadrati per il calcolo delle statistiche test.

2.5

63

Analisi della varianza per esperimenti non bilanciati

SS1 Sono dette anche sequenziali. Si considerano le proiezioni successive di y e dei


residui nel vari sottospazi nellordine con cui sono scritte le variabili nel modello.
In tal modo si pu`o valutare il miglioramento dellapprossimazione un fattore dopo
laltro. Ad esempio in un modello
yijhk = + i + j + h + ijhk

(2.3)

le somme dei quadrati di tipo 1 per ciascun parametro corrispondono a


- Fattore A: SS(m) SS(m,a), indicata anche con R(a|m)
- Fattore B: SS(m,a) SS(m,a,b), indicata anche con R(b|m,a)
- Fattore C: SS(m,a,b) SS(m,a,b,c), indicata anche con R(c|m,a,b)
SS2 Permettono di valutare il miglioramento dellapprossimazione dovuta a un fattore
rispetto a un modello con tutti gli altri. Possono essere dette marginali. Nel
modello precedente (2.3) le somme dei quadrati di tipo 2 per ciascun parametro
corrispondono a
- Fattore A: SS(m,b,c) SS(m,a,b,c), indicata anche con R(a|m,b,c)
- Fattore B: SS(m,a,c) SS(m,a,b,c), indicata anche con R(b|m,a,c)
- Fattore C: SS(m,a,b) SS(m,a,b,c), indicata anche con R(c|m,a,b).
SS3 e SS4 Sono dette anche parziali. Differiscono fra loro solo se nei dati ci sono valori mancanti. Non sono calcolate in genere come differenza fra somme dei quadrati
di diversi tipi di modelli, ma il modello viene riparametrizzato per avere stimatori
indipendenti per i coefficienti relativi al fattore considerato. Vengono imposti vincoli
sui coefficienti.
Le ipotesi per i coefficienti di un fattore non implicano ipotesi sugli altri coefficienti
tranne che per quelli di fattori in esso contenuti (ad esempio il fattore A `e contenuto
nel fattore AB e quindi, in questo caso, nel test per i coefficienti di AB sono imposti
vincoli anche sui coefficienti del fattore A).
Le ipotesi da verificare sono invarianti per lordine con cui sono scritti i fattori nel
modello.
Osserviamo che solo nel primo tipo di test la somma delle quantit`a in gioco `e uguale
a SS(model).
Nel caso di esperimento bilanciato i risultati sono uguali per i quattro metodi. Con
un solo fattore SS1 e SS3 forniscono, ovviamente, lo stesso risultato.
2.5.3

Alcuni esempi

Esempio E Si vuole verificare leffetto del tipo di cura (fattore Drug) e del tipo di
malattia (fattore Disease) su una variabile risposta (variabile Y) tramite un modello di
analisi della varianza a due vie con interazione. La variabile risposta presenta alcuni
valori mancanti in alcune combinazioni di livelli dei due fattori, quindi lesperimento
non risulta bilanciato. Pi`
u precisamente il numero di osservazioni per i quattro livelli
di Draug `e 15,15,12,16 e per i tre livelli di Disease `e 19,19,20; come si vede il fattore
Disease `e meno sbilanciato del fattore Drug.

64

Analisi della varianza

proc glm;
class drug disease;
model y=drug|disease;
run; quit;
The GLM Procedure
Class Level Information
Class
drug
disease

Levels
4
3

Values
1 2 3 4
1 2 3

Number of Observations Read


Number of Observations Used

72
58

Dependent Variable: y
Source
Model
Error
Corrected Total

DF
11
46
57
R-Square
0.456024

Sum of
Squares
Mean Square
4259.338506
387.212591
5080.816667
110.452536
9340.155172

Coeff Var
55.66750

Root MSE
10.50964

F Value
3.51

Pr > F
0.0013

y Mean
18.87931

Source
drug
disease
drug*disease

DF
3
2
6

Type I SS
3133.238506
418.833741
707.266259

Mean Square
1044.412835
209.416870
117.877710

F Value
9.46
1.90
1.07

Pr > F
<.0001
0.1617
0.3958

Source
drug
disease
drug*disease

DF
3
2
6

Type II SS
3063.432863
418.833741
707.266259

Mean Square
1021.144288
209.416870
117.877710

F Value
9.25
1.90
1.07

Pr > F
<.0001
0.1617
0.3958

Source
drug
disease
drug*disease

DF
3
2
6

Type III SS
2997.471860
415.873046
707.266259

Mean Square
999.157287
207.936523
117.877710

F Value
9.05
1.88
1.07

Pr > F
<.0001
0.1637
0.3958

In questo caso i risultati dei test effettuati con i tre tipi di somme sono uguali, anche
perch`e le repliche nelle varie combinazioni di livelli non sono molto diverse fra loro.
Possiamo verificare che la decomposizione di SS(model) in tre quantit`a si ottiene
solo con le somme di tipo I.
Esempio F
Si considera il numero di piccioni morti ritrovati in un mese, suddivisi per regione,
provincia e tipologia di ambiente (montano, rurale, urbano). I dati non sono reali ma
simulati.
Si vuole costruire un modello predittivo del numero di piccioni morti attraverso
la tipologia di ambiente, ma si suppone che linfluenza di tale variabile sia differente
da regione a regione (lambiente montano siciliano differisce da quello trentino, ad
esempio), perci`o si considera la variabile AMBIENTE come annidata in REGIONE.
Nota: inserendo il fattore annidato regione(ambiente) `e necessario inserire anche il

2.6

65

Analisi della covarianza

fattore regione, per evitare che linfluenza della sola regione confluisca nella stima del
coefficiente del fattore annidato.
PROC GLM data=piccioni;
CLASS regione ambiente;
MODEL piccionimorti = regione ambiente(regione) ;quit;run;
The GLM Procedure
Class Level Information
Class
regione
ambiente

Levels
20
3

Values
AB BA CL CM EM FR LA LI LO MA MO PI PU SA SI TO TR UM VA VE
MOUNT RURAL URBAN

Dependent Variable: piccionimorti


Source
Model
Error
Corrected Total
R-Square
0.715915

Sum of
Squares
5117.405763
2030.656349
7148.062112

DF
59
262
321
Coeff Var
3.515469

Root MSE
2.783989

Mean Square
86.735691
7.750597

F Value
11.19

Pr > F
<.0001

piccionimorti Mean
79.19255

Source
regione
ambiente(regione)

DF
19
40

Type I SS
4027.635249
1089.770513

Mean Square
211.980803
27.244263

F Value
27.35
3.52

Pr > F
<.0001
<.0001

Source
regione
ambiente(regione)

DF
19
40

Type III SS
4100.420719
1089.770513

Mean Square
215.811617
27.244263

F Value
27.84
3.52

Pr > F
<.0001
<.0001

I due tipi di somme di quadrati sono quasi uguali perche il numero di osservazioni
`e pressoche uguale per ogni livello del fattore annidato.

2.6

Analisi della covarianza

Lanalisi della covarianza `e una generalizzazione dei modelli di regressione lineare e di analisi della varianza. Il modello considerato, infatti, comprende come variabili esplicative
sia variabili quantitative che qualitative.
Se indichiamo con X la matrice le cui colonne contengono le rilevazioni delle variabili
esplicative quantitative (oltre la colonna di tutti 1) e con A la matrice con le indicatrici
dei livelli di q fattori, e con K la matrice con colonne il prodotto di ciascuna colonna di
X con ciascuna colonna di A, il modello di analisi della covarianza `e:
y = X + A + K +
dove `e il vettore dei coefficienti delle variabili quantitative, `e il vettore dei coefficienti
delle variabili qualitative e `e il vettore dei coefficienti dellinterazione fra variabili
quantitative e qualitative.
Ad esempio se si vuole studiare una variabile Y in dipendenza da una variabile quantitativa X, da un fattore A e dallinterazione fra X e A, lespressione del modello per

66

Analisi della varianza

una generica unit`a sperimentale `e:


Yik = + xik + i + i xik + ik = + i + ( + i )xik + ik
Un modello riparametrizzato stimabile `e il seguente:
Yik = ( + s ) + (i s ) + (( + s ) + (i s )) xik + ik
Esempio G I dati sono stati selezionati da un pi`
u vasto insieme di dati sulluso di
diversi farmaci nel trattamento della lebbra (Snedecor and Cochran 1967, p. 422). Si
vuole studiare leffetto di diversi farmaci (fattore Drug) sulla quantit`a di bacilli della
lebbra (variabile PostTreatment) in un campione di 30 soggetti. Il fattore Drug ha tre
livelli: A e D due antibiotici e F farmaco di controllo.
Nel primo modello `e considerato come variabile esplicativa solo il fattore Drug, nel
secondo `e aggiunta una variabile quantitativa che indica la quantit`a di bacilli prima
del trattamento (PreTreatment).
proc glm;
class Drug;
model PostTreatment = Drug;
run;quit;
The GLM Procedure
Class Level Information
Class
Levels
Values
Drug
3
A D F
Number of Observations Used

30

Dependent Variable: PostTreatment


Source
Model
Error
Corrected Total
R-Square
0.227826

DF
2
27
29
Coeff Var
76.84655

Sum of
Squares
293.600000
995.100000
1288.700000

Mean Square
146.800000
36.855556

Root MSE
6.070878

F Value
3.98

Pr > F
0.0305

PostTreatment Mean
7.900000

Source
Drug

DF
2

Type I SS
293.6000000

Mean Square
146.8000000

F Value
3.98

Pr > F
0.0305

Source
Drug

DF
2

Type III SS
293.6000000

Mean Square
146.8000000

F Value
3.98

Pr > F
0.0305

proc glm;
class Drug;
model PostTreatment = Drug PreTreatment ;
run; quit;
The GLM Procedure
Class Level Information

2.6

Class
Drug

67

Analisi della covarianza


Levels
3

Number of Observations Read

Values
A D F
30

Dependent Variable: PostTreatment


Source
Model
Error
Corrected Total
R-Square
0.676261

DF
3
26
29
Coeff Var
50.70604

Sum of
Squares
871.497403
417.202597
1288.700000
Root MSE
4.005778

Mean Square
290.499134
16.046254

F Value
18.10

Pr > F
<.0001

PostTreatment Mean
7.900000

Source
Drug
PreTreatment

DF
2
1

Type I SS
293.6000000
577.8974030

Mean Square
146.8000000
577.8974030

F Value
9.15
36.01

Pr > F
0.0010
<.0001

Source
Drug
PreTreatment

DF
2
1

Type III SS
68.5537106
577.8974030

Mean Square
34.2768553
577.8974030

F Value
2.14
36.01

Pr > F
0.1384
<.0001

La variazione interclasse per Drug utilizzando la somma dei quadrati di tipo 1 `e


uguale a quella dellanalisi della varianza a una via, in quanto Drug `e la prima variabile inserita nel modello. Il test corrispondente considera la differenza nei diversi
trattamenti senza tenere conto dei valori prima del trattamento. Il p-value indica che
il trattamento influisce sul numero di bacilli finali.
Nei testi effettuati utilizzando le somme dei quadrati di tipo 3, la variazione interclasse per Drug tiene conto anche della presenza dellaltra variabile. In questo caso
non ci sono differenze significative fra i risultati dei tre trattamenti.
Concludendo possiamo dire che c`e una differenza statisticamente significativa fra le
medie nei diversi trattamenti, ma questa differenza `e ridotta al di sotto del livello della
variabilit`a casuale quando il numero di bacilli prima del trattamento `e considerato con
uguale importanza del tipo di medicina, cos` come viene fatto usando le somme dei
quadrati di tipo 3.

68

Capitolo 3
Modelli lineari generali
3.1

Parametrizzazioni per modelli lineari

In questo paragrafo approfondiremo alcune questioni legate alla stimabilit`a dei parametri
di un modello lineare, considerando genericamente modelli con variabili esplicative sia
quantitative che qualitative, se non diversamente precisato.
3.1.1

Modelli sovraparametrizzati

Abbiamo visto, nel capitolo sullanalisi della varianza, che non sempre tutti i parametri
del modello sono stimabili e abbiamo messo in relazione la stimabilit`a con il rango della
matrice X. Si possono avere casi di non stimabilit`a di tutti i parametri anche quando il
numero di colonne della matrice X `e maggiore del numero di righe, cio`e quando si hanno
pi`
u variabili esplicative che unit`a sperimentali. Questo avviene quando le rilevazioni sono
particolarmente costose o in generale difficili da effettuare; una situazione tipica riguarda
le espressioni geniche negli studi del DNA, dove il numero di geni presi in considerazione
`e molto pi`
u elevato del numero di osservazioni effettuate. Metodi per trattare questo
tipo di modelli sono oggetto di studi e ricerche attuali. Di seguito ci concentreremo
essenzialmente su parametrizzazioni per modelli di tipo analisi della varianza.
Consideriamo il modello:
Y = X +
(3.1)
dove il numero di parametri `e p e il rango di X `e r, con r < p.
Un primo tipo di approccio per trovare un insieme di parametri stimabili `e quello di
costruire un nuovo modello
Y = D +
(3.2)
con D di rango r che generi lo stesso sottospazio vettoriale di X.
Esamineremo tre tipi di soluzioni a questo problema: limposizione di vincoli sui parametri, la riparametrizzazione del modello a partire da un vettore di coefficienti fissati
e la riparametrizzazione del modello a partire da una sottomatrice di X fissata.
` quanto `e gi`a stato visto nel capitolo relativo
1. Si impongono vincoli sui parametri. E
allanalisi della varianza.
69

70

Modelli lineari generali

Ad esempio nel caso di un modello con due fattori, a 3 e 2 livelli rispettivamente,


senza interazione, il vettore dei parametri `e = (,1 ,2 ,3 ,1 ,2 )t . I vincoli posti
sui parametri possono essere scritti in forma matriciale come F = 0 con


0 1 1 1 0 0
F= 0 0 0 0 1 1
In generale la matrice F deve avere p r righe linearmente indipendenti e p colonne.
Inoltre i vincoli non sono necessariamente 0; quindi la forma generale `e:
F = v
con v vettore (p r)-dimensionale.
Ricordiamo che: le righe (o le colonne) di una matrice sono linearmente indipendenti
se una loro combinazione lineare `e zero solo se i coefficienti della combinazione sono
tutti nulli. Cio`e data una matrice A di dimensione n m, le righe di A sono
linearmente indipendenti se per k Rn , kt A = 0, implica k = 0. Analogamente
le colonne di A di sono linearmente indipendenti se per h Rm , Ah = 0, implica
h = 0.
2. Si considera un vettore di r parametri combinazioni lineari (fra di loro indipendenti) dei p parametri iniziali e si trova la matrice D corrispondente.
Se `e scritto come:
= L
con L matrice r p di rango pieno, allora il corrispondente modello di rango pieno
(3.2) diventa:
Y = DL + ,
che, come gi`a detto, deve essere equivalente al modello sovraparametrizzato (3.1).
Quindi bisogna trovare D che soddisfi la relazione
X = DL .

(3.3)

Una possibile soluzione (non unica) si trova osservando che la matrice LLt `e quadrata
e di rango pieno, dunque `e invertibile. Quindi, nella relazione (3.3) moltiplichiamo
1
a destra per la matrice Lt (LLt ) ottenendo:
1
1
XLt LLt
= DLLt LLt
;
da cui:

D = XLt LLt

1

(3.4)

Come esempio consideriamo un modello ANOVA a una via con tre livelli in cui si
vuole stimare il vettore delle deviazioni delle medie di livello dalla media generale
= ( + 1 , + 2 , + 3 )t . In tal caso le matrici L e X (considerando per
due repliche per ogni livello del fattore) sono:

1 1 0 0
!
1 1 0 0
1 1 0 0
1 0 1 0

L = 1 0 1 0
X=
1 0 1 0

1 0 0 1
1 0 0 1
1 0 0 1

3.1

Parametrizzazioni per modelli lineari

71

La matrice del modello di rango pieno D che si ottiene dalla relazione (3.4) `e:

1 1 1
1 1 1
1
1 1 1
.
D=

1
1
1
2

1 1 1
1 1 1
Il modello Y = D + , scritto esplicitando le relazioni nei tre livelli del fattore,
diventa:
Y1k = 1/2 ( + 1 + 2 + 3 ) + 1k = 1/2 ( + 1 2 3 ) + 1k
Y2k = 1/2 ( 1 + 2 + 3 ) + 2k = 1/2 ( 1 + 2 3 ) + 2k
Y3k = 1/2 ( 1 + 2 + 3 ) + 3k = 1/2 ( 1 2 + 3 ) + 3k .
Una scelta di parametri da stimare che corrisponde a un modello pi`
u facilmente
t
interpretabile `e: = ( + 1 , + 2 , + 3 ) . Infatti in tal caso

1 0 0
!
1 0 0
1 1 0 0
0 1 0

L= 1 0 1 0
D=
0 1 0

1 0 0 1
0 0 1
0 0 1
Quindi il modello, scritto esplicitando le relazioni nei tre livelli del fattore, diventa:
Y1k = + 1 + 1k
Y2k = + 2 + 2k
Y2k = + 3 + 3k .
3. Si determina una sottomatrice D di X di rango pieno e si trova il vettore di r
parametri corrispondenti.
Si partiziona la matrice X in due blocchi X = [X1 X2 ] in modo che X1 sia di rango
pieno. Il corrispondente vettore dei coefficienti `e = ( 1 2 )t . Il modello (3.2) che
si considera `e:
Y = X1 + ,
Bisogna ricavare in funzione di . Si ha:
= 1 + Xt1 X1

1

Xt1 X2 2

Dimostrazione.
Sappiamo che il proiettore ortogonale nel sottospazio V generato da X1 `e: PV =
1
X1 (Xt1 X1 ) Xt1 . Le colonne di X2 , essendo linearmente dipendenti dalle colonne
di X1 , appartengono a V , quindi PV X2 = X2 . Quindi:
1 t
Y = X + = X1 1 + X2 2 + = X1 1 + X1 Xt1 X1
X 1 X2 2 + =



1
= X1 1 + Xt1 X1
Xt1 X2 2 +

72

Modelli lineari generali

Come esempio consideriamo nuovamente un modello ANOVA a una via con tre
livelli non bilanciato. Si partiziona la matrice X, e di conseguenza il vettore , nel
seguente modo:

1 1 0 0

1 1 0 0

1 0 1 0

= 1
X=
1 0 1 0
2
1 0 0 1
3

1 0 0 1
1 0 0 1
Da cui:
Xt1 X1

1

Xt1 X2 =

1
1
1

!
=

+ 3
1 3
2 3

Gli ultimi parametri (relativi al fattore A) sono quindi le deviazioni delle medie di
livello dalla media del terzo livello, che quindi risulta essere un livello di riferimento. La scelta di X2 dipende da quale livello del fattore si intende prendere come
riferimento.
Il modello Y = X1 + , scritto esplicitando le
diventa:
Y1k = + 3 + 1 3 + 1k
Y2k = + 3 + 2 3 + 2k
Y3k =

relazioni nei tre livelli del fattore,


= + 1 + 1k
= + 2 + 2k
= + 3 + 3k

Vediamo le riparametrizzazioni che si ottengono nellanalisi della varianza con due


fattori, scegliendo come livelli di riferimento lultimo del fattore A e lultimo del
fattore B.
Nel caso di fattori crossed, per il modello senza interazione e quello con interazione
si ottengono rispettivamente:

+ s1 + s2 + s1 ,s2
..

.
( ) + (

i
s1
i,s2
s1 ,s2

..

= ( ) + (

)
j
s
s
,j
s
,s
2
1
1
2

..

( ) (
)
s1 ,j
i,s2
s1 ,s2
i,j
..
.

+ s1 + s2
..

i s
1

=
..

s2

j
..
.

con i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.

3.1

73

Parametrizzazioni per modelli lineari

Nel caso di fattori nested con B annidato dentro A si ottiene

+ s1 + s2 (s1 )
(1 s1 ) + (s2 (1 ) s2 (s1 ))

..

(i s ) + (s (i ) s (s ))
1
2
2
1

..

(
)

(
)
=

1
1
s2
1

2 (1 ) s2 (1 )

.
.

j (i ) s2 (i )

..
s2 1 (s1 ) s2 (s1 )
con i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.
Osservazione. Questo tipo di riparametrizzazione `e quella che usa il software SAS.
Le stime fornite per i parametri sono quindi quelle per e non, ad esempio per
(,1 ,2 )t , come potrebbe sembrare.
Esempio A Riprendiamo in considerazione lesempio G sulleffetto del trattamento
sul numero di bacilli della lebbra del capitolo 2. Qui sotto `e riportata la parte di
output corrispondente alle stime dei parametri.
proc glm;
class Drug;
model PostTreatment = Drug PreTreatment / solution;
run; quit;
Parameter
Intercept
Drug
A
Drug
D
Drug
F
PreTreatment

Estimate
-0.434671164
-3.446138280
-3.337166948
0.000000000
0.987183811

B
B
B
B

Standard
Error
2.47135356
1.88678065
1.85386642
.
0.16449757

t Value
-0.18
-1.83
-1.80
.
6.00

Pr > |t|
0.8617
0.0793
0.0835
.
<.0001

NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.

La stima del valore atteso della variabile risposta nei tre livelli `e quindi:
(
PostTreatmentik =

(0. 4347 3. 4461) +0. 9872 PreTreatmentik se i = A


(0. 4347 3. 3372) +0. 9872 PreTreatmentik se i = D
(0. 4347)
+0. 9872 PreTreatmentik se i = F

74

Modelli lineari generali

Esiste poi un quarto modo per effettuare le stime dei coefficienti quando la matrice X
non `e di rango pieno che consiste nellusare una inversa generalizzata.
Ricordiamo che se A `e una matrice n m, si dice che A `e inversa generalizzata di
A, se vale:
AA A = A .
Se A `e invertibile, allora A = A1 . Per ogni matrice quadrata non di rango pieno o
rettangolare esistono infinite inverse generalizzate.
Nel caso in cui: A = Xt X si pu`o dimostrare che:

- X (Xt X) Xt X = X, cio`e (Xt X) Xt `e inversa generalizzata di X;

- X (Xt X) Xt `e invariante per ogni scelta di inversa generalizzata

- X (Xt X) Xt `e simmetrica indipendentemente dalla simmetria di (Xt X) .


Le conseguenze di queste propriet`a nel caso dei modelli lineari sono:

- X (Xt X) Xt `e un proiettore sullo spazio delle colonne di X; infatti `e una matrice simmetrica (per la propriet`a precedente), idempotente (facilmente verificabile).

Inoltre proietta proprio sullo spazio delle colonne di X; infatti X (Xt X) Xt X = X.


Quindi indichiamo tale matrice con PV .

- Il vettore degli stimatori dei coefficienti (Xt X) Xt Y non `e unico;


- PV `e unico e quindi `e unico anche lo stimatore PV Y dei valori attesi della variabile
risposta.
3.1.2

Funzioni parametriche stimabili

In questo capitolo formalizzeremo il concetto di stimabilit`a dei parametri di un modello


lineare Y = X + .
Una combinazione lineare dei parametri del modello pu`o essere indicata con lt dove l `e un vettore con i coefficienti delle combinazioni lineari dei parametri originali,
l= (l1 ,l2 , . . . ,lp )t . lt viene anche chiamata funzione parametrica lineare.
Definizione 1 Si dice che:
P
- lt `e un contrasto se pj=1 lj = 0 e che `e un contrasto normalizzato se vale anche
klk = 1.
- lt1 e lt2 (con l1 e l2 righe di L) sono algebricamente dipendenti se l2 pu`o essere
scritto come al1 + b, a,b R e che sono algebricamente ortogonali se lt1 l2 = 0.
Definizione 2 Una funzione parametrica lineare lt `e stimabile se ha uno stimatore non
distorto funzione lineare delle variabili aleatorie Y1 , . . . ,Yn , cio`e se esiste s Rn tale che:
E(st Y) = lt .
Vediamo alcune caratterizzazioni e propriet`a delle funzioni parametriche stimabili.
Proposizione 1 Una funzione parametrica lt `e stimabile se e solo se l appartiene allo
spazio generato dalle righe di X, cio`e `e combinazione lineare delle righe di X.
Dimostrazione

3.1

Parametrizzazioni per modelli lineari

75

Se lt `e stimabile allora, per la definizione, esiste s tale che E(st Y) = lt . Allora


st E(Y) = lt , cio`e st X = lt . Quindi l = Xt s.
Si dimostra in modo analogo con passaggi a ritroso.
Proposizione 2 Sia lt una funzione parametrica stimabile. Lo stimatore `e unico se e
solo se le righe della matrice X sono linearmente indipendenti. Cio`e non esiste nessun
altro vettore s1 Rn , s1 6= s, tale che E(st1 Y) = lt .
Dimostrazione Dimostriamo per assurdo. Supponiamo quindi che esista un tale vettore
s1 che in generale si potr`a scrivere come s1 = s + s, con s vettore non nullo. Allora:
E(st1 Y) = E(st Y) + E(st Y)
da cui lt = lt + st X e quindi st X = 0 per ogni . Dunque Xts = 0. Questo
contraddice lipotesi di indipendenza delle righe di X.
Esempio In un modello di ANOVA a una via con 3 livelli un singolo coefficiente non
`e stimabile. Vediamo il caso di ; per gli altri coefficienti la dimostrazione `e analoga.
Si ha: = (1,0,0,0)t . Il vettore (1,0,0,0) non appartiene allo spazio delle righe di X;
infatti non esistono a,b,c R tali che
(1,0,0,0) = a(1,1,0,0) + b(1,0,1,0) + c(1,0,0,1) .
Proposizione 3 Ogni funzione parametrica lineare lt `e stimabile se e solo se le colonne
della matrice X sono linearmente indipendenti, cio`e X = 0 implica lt = 0.
Dimostrazione
Immediata. Infatti E(st Y) = st E(Y) = st X. Da cui st X = lt e quindi X = 0
implica lt = 0 per ogni l Rp e quindi = 0.
Supponiamo per assurdo che lt non sia stimabile, cio`e che per ogni s si abbia st X 6=
lt e quindi se X = 0 si avrebbe lt 6= 0, ovvero 6= 0 il che contraddice lipotesi
di indipendenza delle colonne di X.
Definizione 3 Sia lt stimabile da st Y. Si dice che st Y `e il Best linear unbiased
estimator (BLUE) se `e di minima varianza fra gli stimatori lineari non distorti.
Definizione 4 Sia lt stimabile. Uno stimatore del tipo

l t Xt X Xt Y
`e detto Least Square Estimator (LSE) di lt .
Ricordiamo la non unicit`a di un tale stimatore.
Osserviamo che il LSE ha caratteristiche geometriche, mentre il BLUE prevede un
modello, cio`e una legge per la variabile risposta.
Sotto le usuali ipotesi sulla varianza di Y, la matrice di varianza/covarianza degli

stimatori LSE di lt `e: 2 lt (Xt X) l.


1
Se X `e di rango pieno il LSE di lt `e lt (Xt X) Xt Y ed `e indicato con lt BLS . Nel
Capitolo 1.2.6 abbiamo dimostrato che BLS `e uno stimatore BLUE di .
Riassumiamo alcune delle propriet`a viste:

76

Modelli lineari generali

1. Se le colonne di X sono linearmente indipendenti, ogni funzione parametrica lineare


lt `e stimabile. Lo stimatore LS `e anche BLUE ma non `e unico.
2. Se le righe di X sono linearmente indipendenti, lo stimatore `e unico.
3. Se vale 1. e n > p per ogni s ker Xt , cio`e tale che Xts = 0, si ha uno stimatore
dato da:
s = sLS + s
1

dove stLS = lt (Xt X) Xt .


Se il modello `e saturo, cio`e se il numero dei parametri `e uguale a quello delle unit`a
sperimentali, n = p, lo stimatore `e unico e il modello `e completamente identificato.
Quanto visto nel precedente capitolo 3.1.1 e in questo conduce alla seguente Proposizione.
Proposizione 4 Se il modello sovraparametrizzato Y = X + `e riparametrizzato in
1
Y = X1 + con X1 sottomatrice di X di rango pieno e = 1 + (Xt1 X1 ) Xt1 X2 2 ,
allora:
a) Qualunque combinazione lineare di `e stimabile
b) Una combinazione lineare di `e stimabile se e solo se si pu`o decomporre in
1 t
lt = lt1 1 + lt2 2 con lt2 = lt1 Xt1 X1
X1 X 2 .
Per esemplificare la non unicit`a degli stimatori, consideriamo un modello ANOVA con
un fattore a 3 livelli e 2 repliche per ciascun livello. Nel capitolo precedente, paragrafo
2.1.1, abbiamo visto che per il modello Y = X? ? + con

1 1 0
!
1 1 0

1 0 1
1
X? ? =
1 0 1

2
1 1 1
1 1 1
P
e il vincolo
i = 0, lo stimatore dei minimi quadrati di ? `e:

Y11

! Y12
Y
Y
1
1
1
1
1
1
Y21
1

1 (Y11 + Y12 ) Y = Y 1. Y
2 2 1 1 1 1
Y22 =
2
6 1 1 2 2 1 1
1

(Y21 + Y22 ) Y
Y 2. Y
Y31
2
Y32
Utilizzando il software CoCoA si ottiene che una base del ker della matrice (X? )t `e:
!
1 1 0 0 0 0
0 0 1 1 0 0
0 0 0 0 1 1

3.1

Parametrizzazioni per modelli lineari

77

e dunque per esempio uno stimatore non distorto del parametro 1 (con il vincolo sulla
somma dei coefficienti uguale a 0) `e dato da:

Y11
Y12
Y21 1
1

(Y11 + Y12 ) Y + ( 1 1 0 0 0 0 )
Y22 = 2 (3Y11 Y21 ) Y
2

Y31
Y32
Verifichiamo che `e non distorto:


1
1
E
(3Y11 Y12 ) Y = (3 + 31 1 ) = 1
2
2
Questo stimatore per`o non `e di minima varianza; si verifica facilmente che la sue varianza
`e 37 2 mentre quella dello stimatore dei minimi quadrati `e 13 2
3.1.3

Verifica di ipotesi su funzioni parametriche

Consideriamo un modello Y = X + . Un insieme di ipotesi sui parametri pu`o essere


scritto usando una matrice L di dimensioni r p e di rango r:
H0 : L = 0

H0 : L 6= 0

Definizione 5 Lipotesi L = 0 `e verificabile se


X = 0

implica

L = 0

La definizione `e del tutto analoga a quella della stimabilit`a.


Se X `e di rango pieno, lipotesi `e sempre verificabile. In caso contrario si considera il modello Y = X1 + con X1 sottomatrice di X di rango pieno e =
1
1 + (Xt1 X1 ) Xt1 X2 2 . Lipotesi principale del test diventa: L1 = 0.
3.1.4

Un approfondimento: stimabilit`
a dei coefficienti e confusione

Precisiamo le condizioni di stimabilit`a di una funzione lineare dei parametri lt e individuiamo relazioni di confusione con altre funzioni lineari dei parametri. Consideriamo
lt funzione parametrica lineare dei e indichiamo con W lo spazio di dimensione p
generato dalla matrice X con l, Rp , allora lt non `e stimabile se l 6 W .
W `e un sottospazio vettoriale di Rp , che pu`o essere riscritto quindi come
Rp = W W c
con W c uno spazio complementare di W. Analogamente anche l pu`o essere decomposto
come
l = lW + lW c
Dalluguaglianza precedente si ricava che la funzione parametrica lt pu`o essere riscritta come
lt = ltW + ltW c

78

Modelli lineari generali

Sappiamo che ltW `e stimabile, quindi lt risulta stimabile sotto il vincolo ltW c = 0.
La scelt`a di W c `e arbitraria, una possibilit`a `e considerare W .
Un esempio
Consideriamo un modello di tipo ANOVA ad una via con un fattore a tre livelli
Y = + 1 A1 + 2 A2 + 3 A3 +
un generico elemento appartenente allo spazio generato dalle righe della matrice X
assume la forma
lW = k1 (1,1,0,0) + k2 (1,0,1,0) + k3 (1,0,0,1) = (k1 + k2 + k3 ,k1 ,k2 ,k3 )
con ki Rp . Nessun parametro `e singolarmente stimabile, ad esempio la media si ottiene
t
da lW
= [1,0,0,0] che non appartiene a W . Per conoscere quali parametri sono stimabili
bisogna prima individuare i vincoli a cui devono sottostare. Scegliamo come sottospazio
complementare a W il suo ortogonale W , allora il vincolo a cui devono sottostare i
t

parametri stimabili `e lW
= 0. Indichiamo un generico elemento appartenente a W ,
come
ltW = (l1 ,l2 ,l3 ,l4 ) con li Rp
Essendo i due sottospazi ortogonali, i vettori che li generano saranno ortogonali quindi
(k1 + k2 + k3 )l1 + l2 k1 + k2 l3 + k3 l4 = 0
che sviluppato diventa
k1 (l1 + l2 ) + k2 (l1 + l3 ) + k3 (l1 + l4 ) = 0
e quindi si ottiene
l1 = l2

l1 = l3

l1 = l4

Un vettore che genera W `e h(1, 1, 1, 1).


Quindi dalla decomposizione di l citata in precedenza si ottiene
l = (k1 + k2 + k3 ,k1 ,k2 ,k3 ) + h(1, 1, 1, 1)
da cui deriva
k1 + k2 + k3 + h = 1 k1 h = 0 k2 h = 0 k3 h = 0
e quindi h = k1 = k2 = k3 = 41 . Sostituendo i valori ottenuti troviamo
lW = (3/4,1/4,1/4,1/4)t
lW = (1/4,1/4,1/4,1/4)t
Per cui la media risulta stimabile sotto il vincolo = 1 + 2 + 3 che non `e quello
usuale.
Consideriamo ora lt non stimabile. Allora lt `e confusa con dt se esiste un numero
reale 6= 0 tale che
(l + d)t

sia stimabile, con

l + d 6= 0

Se sono rispettate le condizioni precedenti allora


l + d W

e lW + dW = 0

3.2

79

Modello lineare multivariato

Quindi la forma generale di d tale che dt sia confuso con lt e sar`a


d = e + lW

e W

R \ {0}

Se prendiamo in esame lesempio citato in precedenza, `e confusa con tutte quelle


funzioni parametriche dt tali che
d = (k1 + k2 + k3 ,k1 ,k2 ,k3 ) + lW
quindi considerando il vettore (1, 1, 1, 1) W otterremo
d = (k1 + k2 + k3 + ,k1 ,k2 ,k3 ).
Ad esempio scegliendo k1 = k2 = 0 allora un vettore d sar`a
d = (k1 + ,k1 , , )
mentre dt diventer`a

3.2

dt = 21 + 2 + 3 .

Modello lineare multivariato

Un modello lineare si dice multivariato se un insieme di r vettori di variabili risposta


Y1 , . . . ,Yj , . . . Yr dipende linearmente dalle stesse p variabili esplicative, colonne di una
matrice X. A ciascun vettore Yj corrisponde un vettore di coefficienti j e un vettore
di errori j .
Ciascun modello univariato `e quindi:
Y j = X j + j

j = 1, . . . ,r

con le usuali ipotesi sulla distribuzione degli errori e quindi delle variabili aleatorie
risposta:


j N n 0n , j2 In
e
Yj N n X j , j2 In .
Il modello multivariato si scrive come:
Y =X B+
dove Y `e una matrice di dimensione nr con colonne le variabili risposta Y1 , . . . ,Yj , . . . Yr ,
B `e una matrice di dimensione pr con colonne i vettori dei coefficienti 1 , . . . , j , . . . r e
`e una matrice di dimensione nr con colonne le variabili aleatorie errori 1 , . . . ,j , . . . r .
Y1
Y11

Yi1

Yr
Y1r
Yir

x1
x11
=

xi1

xp
x1p
xip

11
21

Ynr
Y

xn1

r1
r1

1i

ri

1n

rn

pr

xnp
X

1
11

1r
2r

p1
Yn1

80

Modelli lineari generali

Come gi`a detto le variabili risposta di ciascun vettore aleatorio (colonna) sono assunti indipendenti. La stessa ipotesi di indipendenza non vale per le variabili riga
della matrice Y; infatti Yi1 , . . . ,Yir sono riferite alla stessa unit`a sperimentale e quindi
bisogna supporre che abbiano una matrice di covarianza i non diagonale. Si assume
che tale matrice sia uguale per ogni unit`a sperimentale, . Indichiamo con Yi il vettore
(Yi1 , . . . ,Yir ), con i il vettore (1i , . . . ,ri ) e con xti la riga i-esima della matrice X. Quindi:

i N n (0n , )
e
Yi N n xti B, .
La matrice di covarianza delle n r variabili aleatorie campionarie
Y11 , . . . ,Y1r , . . . ,Yi1 , . . . ,Yir , . . . ,Yn1 , . . . ,Ynr
`e quindi diagonale a blocchi e ciascun blocco corrisponde alla matrice .
3.2.1

Stimatori

Come gi`a studiato nel capitolo 1.1.6, linterpretazione geometrica dellapprossimazione


lineare nel modello multivariato non cambia rispetto al caso univariato; infatti lo spazio
vettoriale V generato dalle colonne di X rimane lo stesso per ciascun modello e non intervengono le correlazioni fra le variabili risposta. Quindi gli stimatori Bj dei coefficienti
j sono (Xt X)1 Xt Yj .
Indichiamo con B la matrice degli stimatori di tutti i coefficienti B:
(Xt X)1 Xt Y
La matrice di covarianza di B dipende dalla matrice .
la matrice degli stimatori dei residui , E
= Y XB = PV Y.
Indichiamo con E
Possiamo stimare la matrice di covarianza tramite E, in modo analogo a quanto visto
nel caso univariato:
= 1 Y t PV Y .
tE
= 1 E

np
np
`e
La stima della matrice di correlazione costruita a partire da quella di covarianza
detta matrice di correlazione parziale delle variabili risposta Y, dove il termine parziale
indica che tali stime sono effettuate tramite i residui, cio`e utilizzando sia le realizzazioni

campionarie di Y che le stime dei valori attesi Y.


3.2.2

Test di ipotesi

La forma generale dei test di ipotesi sui parametri dei modelli lineari multivariati `e:
H0 : LBM = 0

H1 : LBM 6= 0

Consideriamo ad esempio 3 variabili risposta e 4 variabili esplicative; per semplicit`a


espositiva non includiamo la costante nel modello. La matrice dei coefficienti `e:
1 2 3
1 1 1
21 22 23
B= 1 2 3
3 3 3
41 42 43
Esaminiamo separatamente i due casi:

3.2

Modello lineare multivariato

1. Effetti delle variabili esplicative H0 : LB = 0.


Ad esempio:
1
1


1 0 0 1 21
LB = 0 1 1 0 1
3
41

12
22
32
42

81

13
23
=0
33
43

corrisponde a verificare le ipotesi:


1j = 4j

2j = 3j

j = 1,2,3

cio`e leffetto su ciascuna variabile risposta di X1 `e uguale a quello di X4 e leffetto


su ciascuna variabile risposta di X2 `e uguale a quello di X3 .
2. Effetti delle diverse condizioni delle variabili risposta H0 : BM = 0
Ad esempio:
1 2 3
!
1 1 1
1 1
1
2
3

1 0 = 0
BM = 21 22 23
3 3 3
0 1
41 42 43
corrisponde a verificare le ipotesi:
i1 = i2

i1 = i3

i = 1, . . . ,4

cio`e leffetto su ciascuna variabile esplicativa su Y1 `e uguale a quello su Y2 e leffetto


di ciascuna variabile esplicativa su Y1 `e uguale a quello su Y3 .
Questo tipo di test risulta interessante solo se le variabili risposta corrispondo a
una grandezza misurata, sulle stesse unit`a sperimentali, in diverse condizioni, ad
esempio in tempi successivi, in livelli diversi di dosaggio, ... . Modelli di questo tipo
vengono detti modelli di misure ripetute e saranno trattati nel successivo capitolo
3.2.3.
Osserviamo che nei test H0 : LB = 0 vengono confrontati i coefficienti relativi a
una variabile risposta alla volta, mentre nei test H0 : BM = 0 vengono confrontati i
coefficienti relativi a diverse variabili risposta e stesse esplicative.
Consideriamo ora il caso H0 : LB = 0.
Nel caso univariato la statistica test che permette di valutare lerrore relativo che si
commette passando dal modello completo al modello ridotto sotto H0 considerata era:
SSR SSC
np

;
SSC
q
dove
SSC = Yt PV Y

e SSR SSC = Yt PV \V0 Y

Osserviamo che nel caso univariato con Y si intende un vettore di variabili risposta. Si
pu`o dimostrare che PV \V0 si pu`o scrivere in funzione della matrice L:
1 t
1
1 t
L Xt X
PV \V0 = X Xt X
L LXt XLt
X .

82

Modelli lineari generali

Nel caso multivariato le statistiche test sono costruite in modo analogo e si basano
sulle matrici E e H calcolate come:
1
1 t
1 t
L Xt X
XY
E = Yt PV Y e H = Yt PV \V0 Y = Yt X Xt X
L LXt XLt
dove in questo caso (multivariato) con Y si intende una matrice di variabili risposta. Da
cui si ha:
E + H = Yt PV0 Y .
1
E.
Osserviamo che lo stimatore della matrice `e np
Se il test coinvolge anche ipotesi che comprendono la matrice M, le statistiche precedenti sono costruite sostituendo alla matrice Y, la matrice YM.

Statistiche test
Nella costruzione delle principali statistiche test per i modelli multivariati giocano un
ruolo importante la matrice E1 H e suoi autovalori, che indichiamo con 1 , . . . ,m .
Si pu`o dimostrare che gli autovalori di E1 H non dipendono dalla matrice M scelta.
- Lambda di Wilks: = det E/det(H + E).
Nel caso univariato questa statistica corrisponde a SSC /SSR .
Si pu`o dimostrare che questa statistica corrisponde a quella del test del rapporto di
verosimiglianza.
Q
1
Si pu`o dimostrare inoltre che = m
i=1 1+i .
P
i
- Traccia di Pillai: traccia (H(H + E)1 ). Si pu`o dimostrare che `e uguale a m
i=1 1+i .
P
- Traccia di Hotelling: traccia (E1 H) che `e uguale a m
i=1 i
- Massimo autovalore di Roy: maxi i .
Sotto lipotesi nulle, tutte le statistiche precedenti possono essere approssimate con
variabili aleatorie con legge Fisher con opportuni gradi di libert`a.
Esempio B Analisi della varianza multivariata (MANOVA)
Lesempio `e tratto dal manuale on-line di SAS.
Si vogliono studiare le differenze nelle caratteristiche chimiche di vasi antichi trovati
in quattro luoghi di forni in Gran Bretagna. I dati sono tratti da Tubb, Parker, and
Nickless (1980), come riportato in Hand et al. (1994). Per ciascuno dei 26 campioni di vasi sono misurate le percentuali di ossido di cinque metalli, alluminio, ferro,
manganese, calcio e sodio. Queste sono considerate variabili risposta in dipendenza
dal fattore luogo di ritrovamento. Viene quindi effettuata una analisi della varianza
multivariata a una via. Inoltre viene effettuato un test per verificare se le percentuali
di ossidi dei vasi di un sito del Galles (Llanederyn, quarto livello in ordine alfabetico)
differiscono o meno dalla media di quelle degli altri luoghi.
In questo esempio i test sono solo del tipo H0 : LB = 0 in quanto le variabili
risposta si riferiscono a ossidi diversi e non risulta interessante considerare variabili
ottenute per trasformazione lineare delle variabili risposta,

3.2
data pottery;
input Site $12. Al
datalines;
Llanederyn
14.4 7.00
Llanederyn
13.8 7.08
Llanederyn
14.6 7.09
Llanederyn
11.5 6.37
Llanederyn
13.8 7.06
Llanederyn
10.9 6.26
Llanederyn
10.1 4.26
Llanederyn
11.6 5.78
Llanederyn
11.1 5.49
Llanederyn
13.4 6.92
Llanederyn
12.4 6.13
Llanederyn
13.1 6.64
Llanederyn
12.7 6.69
Llanederyn
12.5 6.44

83

Modello lineare multivariato

Fe Mg Ca Na;
4.30
3.43
3.88
5.64
5.34
3.47
4.26
5.91
4.52
7.23
5.69
5.51
4.45
3.94

0.15
0.12
0.13
0.16
0.20
0.17
0.20
0.18
0.29
0.28
0.22
0.31
0.20
0.22

|
|
|
|
|
|
|
|
|
|
|
|
|

0.51
0.17
0.20
0.14
0.20
0.22
0.18
0.16
0.30
0.20
0.54
0.24
0.22
0.23

Caldicot
Caldicot
IslandThorns
IslandThorns
IslandThorns
IslandThorns
IslandThorns
AshleyRails
AshleyRails
AshleyRails
AshleyRails
AshleyRails
;

11.8
11.6
18.3
15.8
18.0
18.0
20.8
17.7
18.3
16.7
14.8
19.1

5.44
5.39
1.28
2.39
1.50
1.88
1.51
1.12
1.14
0.92
2.74
1.64

3.94
3.77
0.67
0.63
0.67
0.68
0.72
0.56
0.67
0.53
0.67
0.60

0.30
0.29
0.03
0.01
0.01
0.01
0.07
0.06
0.06
0.01
0.03
0.10

0.04
0.06
0.03
0.04
0.06
0.04
0.10
0.06
0.05
0.05
0.05
0.03

proc glm data=pottery;


class Site;
model Al Fe Mg Ca Na = Site /solution;
contrast Llanederyn vs. the rest Site 1 1 1 -3;
manova h=_all_ / printe printh;
run;

Dopo alcune informazioni generali, la procedura GLM di SAS produce le analisi


della varianza univariate per ciascuna variabile risposta. Qui riportiamo solo loutput
relativo alla percentuale di ossido di alluminio.
The GLM Procedure
Dependent Variable: Al
Source

DF

Squares

Model
Error
Corrected Total

3
22
25

175.6103187
48.2881429
223.8984615

R-Square
0.784330

Coeff Var
10.22284

Sum of
Mean Square

F Value

Pr > F

26.67

<.0001

58.5367729
2.1949156
Root MSE
1.481525

Al Mean
14.49231

Source
Site

DF
3

Type I SS
175.6103187

Mean Square
58.5367729

F Value
26.67

Pr > F
<.0001

Source
Site

DF
3

Type III SS
175.6103187

Mean Square
58.5367729

F Value
26.67

Pr > F
<.0001

Contrast
Llanederyn vs. the rest

DF
1

Contrast SS
58.58336640

Mean Square
58.58336640

F Value
26.69

Pr > F
<.0001

Parameter
Intercept
Site
Site
Site
Site

AshleyRails
Caldicot
IslandThorns
Llanederyn

Estimate
12.56428571
4.75571429
-0.86428571
5.61571429
0.00000000

B
B
B
B
B

Standard
Error
0.39595414
0.77185672
1.11992744
0.77185672
.

t Value
31.73
6.16
-0.77
7.28
.

Pr > |t|
<.0001
<.0001
0.4485
<.0001
.

84

Modelli lineari generali

NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.

Lopzione PRINTE dellistruzione MANOVA visualizza gli elementi della matrice E


stimata e la corrispondente stima della matrice di correlazione parziale. Gli elementi
diagonali di E sono le stime delle varianze j2 moltiplicate per n p. Nellesempio
nessuno degli ossidi `e fortemente correlato con gli atri; la correlazione maggiore `e tra
il magnesio e il calcio.
Multivariate Analysis of Variance
E = Error SSCP Matrix
Al
Fe
Mg
Ca
Na

Al
48.288142857
7.0800714286
0.6080142857
0.1064714286
0.5889571429

Fe
7.0800714286
10.950845714
0.5270571429
-0.155194286
0.0667585714

Mg
0.6080142857
0.5270571429
15.429611429
0.4353771429
0.0276157143

Ca
0.1064714286
-0.155194286
0.4353771429
0.0514857143
0.0100785714

Na
0.5889571429
0.0667585714
0.0276157143
0.0100785714
0.1992928571

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 22
Al

Al
1.000000

Fe

0.307889
0.1529
0.022275
0.9196
0.067526
0.7595
0.189853
0.3856

Mg
Ca
Na

Fe
0.307889
0.1529
1.000000
0.040547
0.8543
-0.206685
0.3440
0.045189
0.8378

Mg
0.022275
0.9196
0.040547
0.8543
1.000000
0.488478
0.0180
0.015748
0.9431

Ca
0.067526
0.7595
-0.206685
0.3440
0.488478
0.0180
1.000000
0.099497
0.6515

Na
0.189853
0.3856
0.045189
0.8378
0.015748
0.9431
0.099497
0.6515
1.000000

Lopzione PRINTH produce la visualizzazione delle stime della matrice H per le


ipotesi sia dellanalisi della varianza sia per il test richiesto esplicitamente con lopzione
CONTRAST. In questultimo caso la matrice L, riferita ai soli coefficienti del fattore
Site `e L = (111 3). Gli elementi diagonali della matrice H stimata sono le
corrispondenti somme dei quadrati delle analisi univariate. Infatti nel caso univariato:
k2 = k
yt PV \V0 y = SSR SSC = ky yk2 ky y
y yk2 .
Test sulla nullit`a dei coefficienti del fattore Site
H = Type III SSCP Matrix for Site

Al
Fe
Mg
Ca
Na

Al

Fe

Mg

Ca

Na

175.61031868
-149.295533
-130.8097066
-5.889163736
-5.372264835

-149.295533
134.22161582
117.74503516
4.8217865934
5.3259491209

-130.8097066
117.74503516
103.35052703
4.2091613187
4.7105458242

-5.889163736
4.8217865934
4.2091613187
0.2047027473
0.154782967

-5.372264835
5.3259491209
4.7105458242
0.154782967
0.2582456044

3.2

85

Modello lineare multivariato

Characteristic Roots and Vectors of: E Inverse * H, where


H = Type III SSCP Matrix for Site
E = Error SSCP Matrix
Character.
Root Percent
34.1611140
1.2500994
0.0275396
0.0000000
0.0000000

96.39
3.53
0.08
0.00
0.00

Characteristic Vector
Al
Fe

VEV=1
Mg

Ca

Na

0.09562211 -0.26330469 -0.05305978 -1.87982100 -0.47071123


0.02651891 -0.01239715 0.17564390 -4.25929785 1.23727668
0.09082220 0.13159869 0.03508901 -0.15701602 -1.39364544
0.03673984 -0.15129712 0.20455529 0.54624873 -0.17402107
0.06862324 0.03056912 -0.10662399 2.51151978 1.23668841

MANOVA Test Criteria and F Approximations for


the Hypothesis of No Overall Site Effect
H = Type III SSCP Matrix for Site
E = Error SSCP Matrix
S=3
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root

M=0.5

N=8

Value

F Value

Num DF

Den DF

Pr > F

0.01230091
1.55393619
35.43875302
34.16111399

13.09
4.30
40.59
136.64

15
15
15
5

50.091
60
29.13
20

<.0001
<.0001
<.0001
<.0001

NOTE: F Statistic for Roys Greatest Root is an upper bound.

Test definito da CONTRAST


H = Contrast SSCP Matrix for Llanederyn vs. the rest

Al
Fe
Mg
Ca
Na

Al

Fe

Mg

Ca

Na

58.583366402
-64.56230291
-57.57983466
-1.438395503
-3.698102513

-64.56230291
71.151441323
63.456352116
1.5851961376
4.0755256878

-57.57983466
63.456352116
56.593493386
1.4137558201
3.6347541005

-1.438395503
1.5851961376
1.4137558201
0.0353168783
0.0907993915

-3.698102513
4.0755256878
3.6347541005
0.0907993915
0.2334444577

Characteristic Roots and Vectors of: E Inverse * H, where


H = Contrast SSCP Matrix for Llanederyn vs. the rest
E = Error SSCP Matrix
Character.
Root

Percent

Characteristic Vector
Al
Fe

16.1251646
0.0000000
0.0000000
0.0000000
0.0000000

100.00 -0.08883488 0.25458141


0.00 -0.00503538 0.03825743
0.00 0.00162771 -0.08885364
0.00 0.04450136 -0.15722494
0.00 0.11939206 0.10833549

VEV=1
Mg

Ca

Na

0.08723574 0.98158668
-0.17632854 5.16256699
-0.01774069 -0.83096817
0.22156791 0.00000000
0.00000000 0.00000000

0.71925759
-0.01022754
2.17644566
0.00000000
0.00000000

86

Modelli lineari generali

MANOVA Test Criteria and Exact F Statistics for the Hypothesis


of No Overall Llanederyn vs. the rest Effect
H = Contrast SSCP Matrix for Llanederyn vs. the rest
E = Error SSCP Matrix
S=1
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root

M=1.5

N=8

Value

F Value

Num DF

Den DF

Pr > F

0.05839360
0.94160640
16.12516462
16.12516462

58.05
58.05
58.05
58.05

5
5
5
5

18
18
18
18

<.0001
<.0001
<.0001
<.0001

In questo caso lanalisi multivariata fornisce gli stessi risultati di quella univariata. Si
conclude che c`e una differenza statisticamente significativa della composizione chimica
dei vasi dei differenti insediamenti (test di uguaglianza dei valori attesi dei siti); inoltre
risulta che la composizione dei vasi provenienti da Llanederyn `e differente dalla media
delle composizioni chimiche degli altri insediamenti (test calcolato con contrast).
3.2.3

Misure ripetute

Nei modelli in cui una grandezza `e misurata sulle stesse unit`a sperimentali in diverse
condizioni assumono rilevanza i test del tipo H0 : BM = 0 o pi`
u in generale H0 :
LBM = 0.
La matrice M, come gi`a visto in precedenza, permette di verificare gli effetti delle
variabili esplicative su trasformazioni lineari delle variabili risposta. Le statistiche test
sono infatti costruite sostituendo alla matrice Y, la matrice YM. Un caso tipico si ha
quando si vuol verificare se le variabili esplicative hanno un diverso effetto sulla stessa
variabile risposta rilevata in tempi successivi. Il SAS ha predefinite alcune matrici M
che corrispondono ai test pi`
u comuni per verificare se sono intervenute modifiche della
variabile risposta misurata in ciascuna condizione rispetto:
- a una condizione di riferimento (tipicamente lultima, il default, o la prima) (opzione
contrast(k))
- alla condizione successiva (opzione profile)
- alla media delle condizioni successive (opzione helmert)
- alla media di tutte le altre condizioni (opzione mean).
Le matrici M per questi tre test sono (supponendo 4 condizioni per la variabile risposta)

1 0 0
1 1/3 1/3
1 0 0
1 0 0
0 1 0 1 1 0 1/3 1 0 1/3 1 1/3
0 0 1 0 1 1 1/3 1/2 1 1/3 1/3 1/3
1 1 1
0 0 1
1/3 1/2 1
1/3 1/3 1
Esiste poi la possibilit`a di verificare la forma polinomiale dei coefficienti. Questo `e il
caso in cui si ipotizza che landamento della variabile risposta nelle diverse condizioni
sia di tipo polinomiale (ad esempio Y 2 corrisponda alleffetto quadratico, Y 3 corrisponda

3.2

Modello lineare multivariato

87

alleffetto cubico, . . . ). Vediamo come si costruisce la matrice M in tal caso. Se i livelli


della variabile risposta sono codificati con l1 ,l2 , . . . ,lr si parte da una matrice con colonne
i livelli delle potenze fino al grado r 1. Da questa si costruisce una matrice con vettori
colonne a media nulla e ortogonali fra loro (ad esempio con lalgoritmo di Gram-Schmidt)
ed eventualmente ortonormali.
Facciamo un esempio con tre condizioni:

!
!
1/ 2 1/ 6
0 0
1 1

1 1
0 2

0
2/ 6
2 4
1 1
1/ 2 1/ 6
Il test che ne risulta dallipotesi H0 : BM = 0 `e: i1 = i3 e i1 + 2i2 i3 = 0.
Esaminiamo nei dettagli i diversi tipi di test effettuati da SAS nella procedura GLM
per i modelli di misure ripetute, o in generale, di variabili risposta di cui si possono
considerare trasformazioni lineari con variabili esplicative qualitative (caso dellanalisi
della varianza).
. Test between-subjects. Vengono effettuati riconducendosi a modelli univariati.

1. Viene considerata come variabile risposta la media (moltiplicata per r) delle


variabili risposta rilevate nelle diverse condizioni:
Y1 + + Yr
r = X +
r
dove `e un vettore di parametri e `e un vettore di residui
2. Vengono considerate come variabile risposta le trasformazioni delle variabili
originali indotte dalla matrice M. Ad esempio nel caso di tre condizioni in cui `e
misurata la variabile risposta e matrice M che corrisponde allopzione profile
di SAS si considerano i due modelli univariati:
Y1 Y2 = X (12) + (12)
Y2 Y3 = X (23) + (23)
Per tutti questi modelli vengono effettuati i test H0 : L = 0 con i del modello.
. Test within-subjects. Quando ci sono pi`
u di due condizioni in cui `e misurata la variabile risposta, la PROC GLM visualizza due differenti insiemi di test
within-subjects: uno che usa lapproccio multivariato e laltro che usa lapproccio
univariato. Generalmente i due tipi di test portano a conclusioni simili.
1. I test di tipo multivariato sono quelli basati sulle statistiche di Wilks, di Pillai,
di Hotelling e di Roy, gi`a esaminati nel capitolo precedente.
Il primo test multivariato within-subjects riportato da SAS riguarda leffetto
principale delle condizioni in cui viene misurata la variabile risposta. Lipotesi
principale `e che il valore atteso delle variabili risposta non si modifica nelle
diverse condizioni.
I successivi verificano la nullit`a contemporanea dei coefficienti delle variabili
qualitative esplicative del modello.

88

Modelli lineari generali

Ribadiamo che le matrici H e E dipendono dalla matrice M ma gli autovalori


di E1 H non dipendono da questa scelta.
2. Lapproccio univariato consiste nel considerare un modello con una sola variabile risposta concatenando le variabili risposta originali e una ulteriore variabile
qualitativa esplicativa con le condizioni in cui la variabile risposta viene misurata. Ovviamente questo modo di procedere necessita di specifiche assunzioni
legate al fatto che le variabili risposta misurate sugli stessi soggetti in diverse
condizioni non possono essere considerate indipendenti. I test univariati richiedono quindi lassunzione di sfericit`a della matrice di covarianza delle variabili
risposta; se questa assunzione non `e soddisfatta `e opportuno usare solamente i
test within-subjects multivariati, che richiedono come assunzioni solo quelle gi`a
viste, cio`e la normalit`a multivariata delle variabili risposta, luguale matrice di
covarianza per le variabili riferite alle singole unit`a sperimentali e lindipendenza
per le variabili riferite a diverse unit`a sperimentali.
Una matrice di varianza-covarianza `e detta sferica quando si riferisce a variabili che, trasformate tramite una matrice ortogonale, produce variabili che
hanno uguale varianza e covarianza nulla. Se Y 1 , . . . ,Y r sono le variabili risposta, SAS, se non ulteriormente
specificato, considera come insieme di variabili
P
trasformate Y j i Y i /r, per j = 2 . . . ,r. Nelloutput, se `e presente lopzione
PRINTE, viene visualizzato il test con ipotesi nulla la sfericit`a della matrice di
covarianza delle variabili risposta trasformate come appena indicato e anche il
test di sfericit`a per le trasformazioni indotte dalla matrice M, ma la violazione
della sfericit`a per queste variabili non inficia i risultati del test within-subject
univariato.
Esempio C Nel seguente esempio la variabile risposta `e misurata in tre diverse
condizioni successive di tempo. Le variabili esplicative qualitative sono due; il primo
fattore ha 4 livelli e il secondo 5.
La trasformazione scelta per le variabili risposta `e quella che permette di confrontare
gli effetti delle condizioni adiacenti.
` riportato il programma SAS e loutput corrispondente.
E
proc glm data=anova;
class A1 A2;
model y1-y3= A1 A2/nouni;
repeated tempo 3 profile / summary printm printh printe;
run;

- Descrizioni generali. Correlazione parziale fra le variabili risposta.


The GLM Procedure
Class Level Information
Class
Levels
Values
A1
4
1 2 3 4
A2
5
1 2 3 4 5
Number of Observations Read
40
Number of Observations Used
40

3.2

89

Modello lineare multivariato

Repeated Measures Level Information


Dependent Variable
Y1
Y2
Level of tempo
1
2

Y3
3

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 32
Y1
Y2
Y3
Y1
1.000000
0.163046
0.116381
0.3646
0.5189
Y2
0.163046
1.000000
0.182585
0.3646
0.3091
Y3
0.116381
0.182585
1.000000
0.5189
0.3091

- Matrice M (attenzione: `e stampata la trasposta).


tempo_N represents the nth successive difference in tempo

tempo_1
tempo_2

M Matrix Describing Transformed Variables


Y1
Y2
Y3
1.000000000
-1.000000000
0.000000000
0.000000000
1.000000000
-1.000000000

- Matrice E. Correlazione parziale fra le variabili risposta trasformate tramite M.


Test di sfericit`a.
E = Error SSCP Matrix
tempo_N represents the nth successive difference in tempo
tempo_1
tempo_2
tempo_1
1683.1
-887.6
tempo_2
-887.6
2412.4
Partial Correlation Coefficients from the Error SSCP Matrix of the
Variables Defined by the Specified Transformation / Prob > |r|
DF = 32
tempo_1
tempo_2
tempo_1
1.000000
-0.440491
0.0103
tempo_2
-0.440491
1.000000

Variables
Transformed Variates
Orthogonal Components

Sphericity Tests
Mauchlys
DF
Criterion
2
0.7804103
2
0.9540174

Chi-Square
7.6860008
1.459274

Pr > ChiSq
0.0214
0.4821

- Test multivariati within-subjects: matrici H e statistiche test.


 Test per tempo. Lipotesi principale `e che la media delle variabili risposta non
si modifica nelle diverse condizioni.

90

Modelli lineari generali

H = Type III SSCP Matrix for tempo


tempo_N represents the nth successive difference in tempo
tempo_1
tempo_2
tempo_1
2001.5288805
1680.5806176
tempo_2
1680.5806176
1411.0969068
MANOVA Test Criteria and Exact F Statistics
for the Hypothesis of no tempo Effect
H = Type III SSCP Matrix for tempo
E = Error SSCP Matrix
S=1
M=0
N=14.5
Statistic
Value F Value Num DF Den DF
Pr > F
Wilks Lambda
0.24313826
48.25
2
31
<.0001
Pillais Trace
0.75686174
48.25
2
31
<.0001
Hotelling-Lawley Trace
3.11288626
48.25
2
31
<.0001
Roys Greatest Root
3.11288626
48.25
2
31
<.0001
NOTE: F Statistic for Roys Greatest Root is an upper bound.
NOTE: F Statistic for Wilks Lambda is exact.

 Test per tempo*A1.


H = Type III SSCP Matrix for
tempo_N represents the nth successive
tempo_1
tempo_1
51.118659866
tempo_2
-19.11291092

tempo*A1
difference in tempo
tempo_2
-19.11291092
27.550643598

MANOVA Test Criteria and F Approximations


for the Hypothesis of no tempo*A1 Effect
H = Type III SSCP Matrix for tempo*A1
E = Error SSCP Matrix
S=2
M=0
N=14.5
Statistic
Value F Value Num DF Den DF
Pr > F
Wilks Lambda
0.95987344
0.21
6
62
0.9711
Pillais Trace
0.04043250
0.22
6
64
0.9690
Hotelling-Lawley Trace
0.04148528
0.21
6 39.604
0.9712
Roys Greatest Root
0.03130315
0.33
3
32
0.8009
NOTE: F Statistic for Roys Greatest Root is an upper bound.
NOTE: F Statistic for Wilks Lambda is exact.

 Test per tempo*A2.


H = Type III SSCP Matrix for
tempo_N represents the nth successive
tempo_1
tempo_1
2481.9737388
tempo_2
464.14143773

tempo*A2
difference in tempo
tempo_2
464.14143773
2677.6386434

MANOVA Test Criteria and F Approximations


for the Hypothesis of no tempo*A2 Effect
H = Type III SSCP Matrix for tempo*A2
E = Error SSCP Matrix
S=2
M=0.5
N=14.5

3.2

91

Modello lineare multivariato

Statistic
Value F Value Num DF Den DF
Pr > F
Wilks Lambda
0.15567639
11.89
8
62
<.0001
Pillais Trace
1.15022589
10.83
8
64
<.0001
Hotelling-Lawley Trace
3.45859353
13.16
8 42.028
<.0001
Roys Greatest Root
2.74195612
21.94
4
32
<.0001
NOTE: F Statistic for Roys Greatest Root is an upper bound.
NOTE: F Statistic for Wilks Lambda is exact.

- Test univariati between-subjects: la risposta `e la media delle variabili risposta


originali

Source
A1
A2
Error

Tests of Hypotheses for Between Subjects Effects


DF
Type III SS
Mean Square
F Value
3
45.15239
15.05080
0.29
4
13217.08885
3304.27221
64.69
32
1634.51433
51.07857

Pr > F
0.8289
<.0001

- Test univariati within-subjects: essendo accettabile lipotesi di sfericit`a sono attendibili. Tempo `e considerata variabile esplicativa.
Univariate Tests of Hypotheses for Within Subject Effects
Source
DF
Type III SS
Mean Square
F Value
tempo
2
3395.470937
1697.735468
50.81
tempo*A1
6
39.704262
6.617377
0.20
tempo*A2
8
3749.169213
468.646152
14.02
Error(tempo)
64
2138.603523
33.415680
Adj Pr > F
Source
G - G
H - F
tempo
<.0001
<.0001
tempo*A1
0.9731
0.9762
tempo*A2
<.0001
<.0001
Error(tempo)
Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon

Pr > F
<.0001
0.9762
<.0001

0.9560
1.2378

- Test univariati between-subjects: la risposta `e indotta dalla matrice M applicata


variabili risposta originali
Analysis of Variance of Contrast Variables
tempo_N represents the nth successive difference in tempo
Contrast Variable: tempo_1
Source
Mean
A1
A2
Error

DF
1
3
4
32

Type III SS
2001.528881
51.118660
2481.973739
1683.104013

Mean Square
2001.528881
17.039553
620.493435
52.597000

F Value
38.05
0.32
11.80

Pr > F
<.0001
0.8080
<.0001

Contrast Variable: tempo_2


Source
Mean
A1
A2
Error

DF
1
3
4
32

Type III SS
1411.096907
27.550644
2677.638643
2412.401998

Mean Square
1411.096907
9.183548
669.409661
75.387562

F Value
18.72
0.12
8.88

Pr > F
0.0001
0.9466
<.0001

92

Capitolo 4
Modelli lineari generalizzati
In questo capitolo prenderemo in esame quei modelli in cui la variabile risposta non ha
legge normale; la forma generale del modello `e sempre:
Y = E(Y) + .
Qui per`o il legame fra il valore atteso della variabile risposta e le covariate non `e, in genere,
di tipo lineare come nel caso in cui la variabile risposta di legge normale, E(Y) = X,
ma `e espresso da una funzione g invertibile e derivabile:
g(E(Y)) = X
quindi il modello lineare assume la forma:
Y = g 1 (X ) + .
La funzione g `e detta link function e, in genere, `e scelta in modo da assumere valori in
tutto linsieme dei numeri reali. Un motivo per cui non `e opportuno che la link function
sia la funzione identica `e che il valore atteso della variabile aleatoria Y pu`o appartenere
a un sottoinsieme proprio dei numeri reali e, in caso di link function identica, nella
stima dei coefficienti del modello sarebbe necessario imporre dei vincoli; ad esempio
se la variabile risposta avesse legge di Bernoulli, la stima del suo valore atteso dovrebbe
appartenere a (0,1), se avesse legge di Poisson il suo valore atteso dovrebbe appartenere
ai reali positivi, e cos` via.
La scelta della link function dipende dal tipo di legge della variabile risposta; alcune
scelte particolari per modelli a risposta binomiale o multinomiale saranno trattati in
seguito nei paragrafi 4.8 e 4.9. Nel prossimo paragrafo vedremo una famiglia di link
function che gode di buone propriet`a nel caso in cui la variabile risposta appartenga alla
classe dei modelli esponenziali.
93

94

4.1

Modelli lineari generalizzati

Link function per modelli di classe esponenziale

Una variabile aleatoria Yi appartiene alla classe dei modelli esponenziali se, opportunamente riparametrizzata, la sua verosimiglianza `e proporzionale a:
L(i ; yi ) = exp (i (i )+ < i ,ti (yi ) >)
con i parametro canonico e ti (Yi ) statistica sufficiente.
Consideriamo un vettore aleatorio Y a n componenti indipendenti in cui ciascuna
variabile aleatoria Yi appartenga a una stessa famiglia di variabili aleatorie (normale,
come nel caso dei modelli lineari generali, di Bernoulli, binomiale, di Poisson, esponenziale, . . . ) con diverso parametro. Quindi le funzioni i e ti sono uguali per ogni i e la
verosimiglianza di un campione di Y `e proporzionale a:
n
Y

L(; y) =

exp ((i )) + < , T (y) >

i=1

con = (1 , . . . ,n )t e T (y) = (T (y1 ) . . . ,T (yn ))t . Il logaritmo della verosimiglianza, o


log-verosimiglianza, `e:
l(; y) =

n
X

(i )+ < , T (y) > .

i=1

Nel paragrafo 1.2.6 abbiamo visto che se Yi N (xti , 2 ), allora per i modelli lineari
generali si ha:
1
1
1
n
l(, 2 ; y) = log( 2 ) 2 kXk2 2 yt y + 2 < , Xt y >
2
2
2

e, se 2 `e noto o di non interesse,


l(; y) =

1
1
kXk2 + 2 < , Xt y > .
2
2

Quindi i coefficienti delle variabili esplicative sono parametri canonici del modello
esponenziale e la statistica sufficiente `e Xt Y.
Nei modelli lineari generalizzati di classe esponenziale la link function cosiddetta canonica `e quella funzione che lega il valore atteso della variabile risposta alla combinazione
lineare delle variabili esplicative in modo che il modello, opportunamente riparametrizzato, abbia come parametro canonico e Xt T (Y) come statistica sufficiente. In tal caso,
per le propriet`a dei modelli di classe esponenziale, si ha E(Xt T (Y)) = ().
Vediamo alcuni esempi.
Esempio A
1. Bernoulli. Yi Bern(pi ). Si ha: E(Yi ) = i = pi e le log-verosimiglianze nei
parametri originali e nei valori attesi sono:
li (pi ; yi ) = log(1 pi ) + log

pi
yi
1 pi

li (i ; yi ) = log(1 i ) + log

i
yi .
1 i

4.1

Link function per modelli di classe esponenziale

95

Scegliendo come link function


g(i ) = log

i
= xti
1 i

si ottiene

i = g

(xti )

exi
1
=
.
t =
t
x
1+e i
1 + exi

La log-verosimiglianza delle n realizzazioni campionarie del vettore aleatorio Y `e:


l(; y) =

n
X

li (; yi ) =

i=1

n
X

log(1 + exi )+ < , Xt y > .

i=1

2. Poisson. Yi P(i ). Si ha: E(Yi ) = i = i e le log-verosimiglianze nei parametri


originali e nei valori attesi sono:
l(i ; yi ) = i + log i yi

l(i ; yi ) = i + log i yi

Scegliendo come link function


g(i ) = log i = xti
si ottiene
t

i = g 1 (xti ) = exi .
La log-verosimiglianza delle n realizzazioni campionarie del vettore aleatorio Y `e:
l(; y) =

n
X

li (; yi ) =

i=1

n
X

exi + < , Xt y > .

i=1

Negli esempi precedenti il parametro originale della legge della variabile aleatoria
coincideva con il valore atteso. Consideriamo ora il caso generale.
Indichiamo con linsieme a cui appartengono i parametri originali della variabile
aleatoria, con linsieme dei parametri canonici del modello di classe esponenziale e con
linsieme dei valori attesi. Per ottenere la link function canonica per i modelli di classe
esponenziale bisogna prima scrivere la log-verosimiglianza nei parametri originali:
l(i ,yi )
poi riparametrizzare il modello nei valori attesi tramite una funzione invertibile k tale
che i = k(i ):
l(i ,yi ) = l(k 1 (i ),yi )
e infine riparametrizzarlo nei parametri canonici del modello esponenziale tramite una
funzione invertibile g tale che i = g(i ):
li (i ,yi ) = (i ) + i yi = (g(i )) + g(i )yi .

96

Modelli lineari generalizzati

Ponendo g(i ) = xti e considerando le realizzazioni campionarie del vettore aleatorio


Y ottiene la verosimiglianza in :
l(,y) =

n
X

(xti )+ < , Xt y >

i=1

che ha come parametro canonico i coefficienti della parte lineare e come statistica
sufficiente Xt Y come nel caso dei modelli lineari generali.
Esempio B
Consideriamo il caso in cui la variabile risposta abbia distribuzione Geometrica,
Yi G(pi ). Si ha E(Yi ) = i = p1i , da cui k(pi ) = 1/pi e pi = k 1 (i ) = 1/i .
le log-verosimiglianze nei parametri originali e nei valori attesi sono:
li (pi ; yi ) = log

pi
+ log(1 pi ) yi
1 pi

li (i ; yi ) = log(i 1) + log

i 1
yi
i

La link function canonica `e quindi


g(i ) = log

i 1
= xti
i

da cui
i = g 1 (xti ) =

1
t
1 exi

e la log-verosimiglianza delle realizzazioni campionarie del vettore aleatorio Y `e:


l(; y) =

n
X

li (; yi ) =

n
X

i=1

log(1 exi )+ < ,Xt y > .

i=1

Osserviamo che in questo caso il codominio della link function non `e R ma (,0).
Questo comporta che, una volta stimati i parametri , si controlli che Xb assuma
valori negativi.

4.2

Stime dei parametri

I parametri dei modelli lineari generalizzati vengono stimati tramite il metodo della
massima verosimiglianza, quindi risolvendo il sistema di equazioni
l(; y)
=0
j

j = 0, . . . ,p 1 .

(4.1)

t
Indichiamo con U = U1 , . . . ,Uj , . . . ,Up il vettore con componenti le derivate
parziali della log-verosimiglianza rispetto agli elementi del vettore :
n

Uj

l(; y) X li (; yi )
=
.
=
j
j
i=1

4.2

97

Stime dei parametri

Tale vettore viene chiamato anche score function.


Esaminiamo nei dettagli le stime di massima verosimiglianza nel caso di un vettore
aleatorio Y a componenti indipendenti e in cui ciascuna variabile aleatoria appartenga
alla classe dei modelli esponenziali con log-verosimiglianza del tipo:
l(; y) =

n
X

li (i ,yi ) =

i=1

n
X

(i )+ < ,T (y) >

i=1

con i R; lestensione al caso multivariato `e immediata.


2
i)
i)
Si ha: E(T (Yi )) = (
.
e V(T (Yi )) = (
i
(i )2
Il sistema di equazioni di massima verosimiglianza (4.1), qui sotto riscritto esplicitando
il contributo alla log-verosimiglianza di ciascuna realizzazione della variabile risposta
n
X
li (; yi )

i=1

j = 0, . . . ,p 1

=0

(4.2)

non `e lineare e viene risolto con metodi numerici che approfondiremo in seguito.
4.2.1

Le equazioni di massima verosimiglianza

Riprendiamo gli esempi A.


Esempio C
i
1. Bernoulli. Scegliendo la link function canonica, gi = g(i ) = log 1
= xti si ha:
i

l(; y) =

n
X

li (; yi ) =

i=1

n
X

log(1 + exi ) + xti yi .

i=1

Calcoliamo le componenti della score function:


Uj

=
=

n
X
li (; y)
i=1
n
X

n
X
i=1


n 
X
1
1

yi
xij
t xij + xij yi =
t
1 + exi
1 + exi
i=1

(yi i ()) xij

i=1
t

dove i () `e espresso nei coefficienti , cio`e in questo caso 1 + exi


2. Poisson. Consideriamo due tipi di link function.
(a) Link function canonica: gi = g(i ) = log(i ) = xti . Si ha:
l(; y) =

n
X
i=1

li (; yi ) =

n
X
i=1

exi + xti yi .

1

98

Modelli lineari generalizzati

Calcoliamo le componenti della score function:


Uj

=
=

n
X
l(; y)
i=1
n
X

n
X

xti

xij + xij yi =

i=1

n 
X


t
yi exi xij

i=1

(yi i ()) xij

i=1

dove anche qui i `e espresso nei coefficienti .


` possibile effettuare una scelta
(b) Link function identica: gi = g(i ) = i = xti . E
di questo tipo quando si presuppone che le realizzazioni campionarie di Y siano
tali che la stima dei parametri portino a un valore positivo per la stima dei
valori attesi. In tal caso si ha:
n
n
X
X
l(; y) =
li (; yi ) =
xti + log(xti )yi .
i=1

i=1

Calcoliamo le componenti della score function:


Uj =
=

n
X
l(; y)
i=1
n
X
i=1

n
X
i=1

xij +

X y i xt
xij
i
y
=
xij
i
t
xti
x

i
i=1

yi i ()
xij
V(Yi )()

dove i e V(Yi ) sono espressi in .


Il sistema di equazioni di massima verosimiglianza (4.2) pu`o essere risolto utilizzando
le derivate in altre parametrizzazioni e applicando le regole di derivazione delle funzioni
composte, sotto opportune ipotesi di regolarit`a delle varie riparametrizzazioni.
Qui nel seguito considereremo il caso in cui la variabile aleatoria Yi sia statistica
sufficiente.
Dalle propriet`a dei modelli di classe esponenziale sappiamo che:
li (i )
(i )
=
+ yi = i (i ) + yi
i
i
i (i )
(i )
2 (i )
=
=
= V(Yi )(i ) .
i
i i
(i )2
Inoltre, ponendo gi = g(i ) = xti , si ha:
gi
xti
=
= xij .
j
j
Possiamo quindi calcolare le componenti della score function come:
li ()
li (i ) i (i ) i (gi ) gi ()
=
=
j
i
i
gi
j

li () i (gi ) gi ()
i
gi
j
i (i )
i

i () + yi
i
xij
V(Yi )()
gi

4.2

99

Stime dei parametri

con i parametri espressi nei coefficienti .


Quindi, se Yi `e statistica sufficiente, le componenti della score function diventano:
n
X
i
y i i
j
xij
(4.3)
U =
V(Yi )
gi
i=1
Osserviamo che

i
gi

dipende dalla link function:

- se si sceglie la link function identica si ha i = gi e


n
X
yi i ()
xij ;
Uj =
V(Y
)()
i
i=1
- se si sceglie la link function canonica si ha i = gi = xti e
cui:
n
X
Uj =
(yi i ()) xij

(4.4)
li ()
j

li (i ) i ()
i
j

da

(4.5)

i=1

che sono le espressioni che avevamo trovato negli esempi C.


Dallultimo risultato si ottiene uninteressante propriet`a. Se, oltre a utilizzare la link
canonica, la parte lineare del modello contiene la costante allora si ha:
n
X
yi
i = 0 .
(4.6)
i=1

Infatti consideriamo la derivata di l() in 0 della formula (4.5):


U0

n
X
=
(yi i )xi0

con xi0 = 1 .

i=1

`e la stima di massima verosimiglianza di , allora U 0 ()


= 0 e quindi, in generale:
Se
Pn
y

=
0.
i
i
i=1
4.2.2

Metodi numerici per le stime di massima verosimiglianza

Il sistema di equazioni di massima verosimiglianza Uj = 0 con j = 0, . . . ,p 1 viene


risolto tramite metodi numerici iterativi. Presentiamo qui il metodo di Newton-Raphson
e il metodo di scoring che ne costituisce una variante.
Esponiamo brevemente il metodo di Newton-Raphson prima per risolvere unequazione
f (x) = 0, con f derivabile e non nulla in un intorno di un punto x(0) , e poi per risolvere
un sistema di p equazioni e p incognite.
- Consideriamo p = 1. Si vuole trovare x tale che f (x) = 0. Si sceglie x(0) tale
che f (x(0) ) sia vicino a 0. Indichiamo x(1) il punto di intersezione con lasse delle
ascisse della retta tangente al grafico di f (x) nel punto (x(0) ,f (x(0) )). Quindi si
ha: f 0 (x(0) ) = f (x(0) )/(x(0) x(1) ) da cui x(1) = x(0) f (x(0) )/f 0 (x(0) ). Il processo
continua in modo iterativo e al passo m-esimo si ha:
x(m) = x(m1) f (x(m1) )/f 0 (x(m1) ) .

100

Modelli lineari generalizzati

- Si vogliono trovare le soluzioni di un sistema

f1 (x1 , . . . ,xp ) = 0
..
.

fp (x1 , . . . ,xp ) = 0
Indichiamo con J la matrice Jacobiana, di elementi Jij =
inversa.
(m)

fi
,
xj

e con J1 la sua

(m)

Indichiamo inoltre con x(m) il vettore (x1 , . . . ,xp ), con fjm la funzione fj calcolata
in x(m) e con f (m) il vettore (f1m , . . . ,fpm ).
La soluzione iterativa per il sistema al passo m `e:
x(m) = x(m1) J1 (x(m1) ) f (m1) .

(4.7)

Applichiamo ora il metodo di Newton-Raphson multidimensionale (4.7) al sistema


di equazioni di massima verosimiglianza
1
U (0 , . . . ,p1 ) = 0
..
.
p
U (0 , . . . ,p1 ) = 0
Gli elementi della matrice Jacobiana in questo caso sono:
Jij =

Ui ()
2 l()
=
= Hij
j
i j

(;yi )
dove Uj = li
e Hij `e lelemento (i,j) della matrice hessiana della log-verosimiglianza
j
H (l()). Quindi le stime di massima verosimiglianza dei coefficienti al passo m sono:

b(m) = b(m1) H (l(b(m1) ))1 U (b(m1) ) .


Il metodo di scoring consiste nellapprossimare H (l()) con il suo valore atteso:
H (l()) ' E (H (l())) = I
dove I `e la matrice di informazione di Fisher. Quindi le stime di massima verosimiglianza dei coefficienti al passo m sono:
b(m) = b(m1) + I (b(m1) )1 U (b(m1) )) .

(4.8)

4.2

101

Stime dei parametri


Calcoliamo quindi lespressione di I il cui elemento (j,k) `e I,ij = E Uj Uk . Utilizzando lespressione Uj della formula (4.3) si ottiene:

I,jk = E Uj Uk
! n
!!
n
X
X Yh h
Y i i
i
h
= E
xij
xhk
V(Y
)
g
V(Y
)
gh
i
i
h
i=1
h=1


n X
n
X
i h
Yi i Yh h
=
xij xhk
E
V(Yi ) V(Yh )
gi gh
i=1 h=1

2 !
n
X
1
i
E(Yi i )2
xij xik
[E ((Yi i )(Yh h )) = 0]
=
V(Yi )
V(Yi )
gi
i=1

2
n
X
1
i
=
xij xik
.
V(Yi )
gi
i=1
La matrice I `e quindi:
I = Xt WX
con W matrice diagonale di elementi
1
wii =
V(Yi )

i
gi

2
.

(4.9)

La matrice W dipende dalla link function:


- se si sceglie la link function identica si ha i = gi e
1
;
wii =
V(Yi )

(4.10)

- se si sceglie la link function canonica dalla formula (4.5) si ha:


I,jk =

n
X

E(Yi i ) xij xik =

i=1

n
X

V(Yi ) xij xik

i=1

e quindi
wii = V(Yi ) .

(4.11)

Essendo W una matrice diagonale si pu`o scrivere come W1/2 W1/2 e la matrice W1/2 X
pu`o essere considerata come la matrice X le cui righe sono pesate dagli elementi di W1/2 ,
i
1
la matrice W1/2 X. La matrice di informazione di Fisher
cio`e std(Y
. Indichiamo con X
i ) gi
si scrive quindi come:
tX
.
I = X
(4.12)
Possiamo riscrivere le componenti della score function Uj della formula (4.3) utilizzando la matrice W1/2 :
n
n
X
1 i X
Y i i
j
xij
=
Yi wii xij
U =
std(Yi )
std(Yi ) gi
i=1
i=1

102

Modelli lineari generalizzati

dove con Yi si `e indicato la variabile aleatoria Yi standardizzata. Quindi:


t
.
=X
tY
U = W1/2 X Y

(4.13)

Utilizziamo le espressioni di I della formula (4.12) e di U della formula (4.13) per


riscrivere le equazioni iterative per le stima di massima verosimiglianza dei coefficienti
della formula (4.8):
1
t

b(m) = b(m1) + Xt WX
W1/2 X Y

1
tX

tY

= b(m1) + X
X

1


tX

t X
b(m1) + Y

(4.14)
= X
X
Y
espressi in b(m1) .
con X
b(m1) + Y
si ottiene una formula analoga a quella
Se indichiamo con Z la quantit`a X
delle equazioni normali della formula (1.1) ottenute per il caso in cui la variabile risposta
ha distribuzione normale. Le equazioni ottenute per i modelli lineari generalizzati

1
tX

tZ
b(m) = X
X
e Z sono calcolate in b(m1) .
vengono dette dei minimi quadrati pesati. Le matrici X
Questi metodi iterativi terminano o dopo un numero prefissato di passi o quando la
differenza delle stime a due passi successivi `e inferiore a un valore prefissato: |b(m)
b(m1) | < r.
Illustriamo quanto visto con un esempio tratto da Dobson (2002).
Esempio D Consideriamo le realizzazioni campionarie di variabili aleatorie Yi osservate in corrispondenza di diversi valori di una covariata X.
Assumiamo che le risposte Yi abbiano legge di Poisson, quindi E(Yi ) = V(Yi ).
Questa assunzione sulla legge della variabile risposta pu`o essere supportata
del fatto che, per ogni valore della covariata, la media e la varianza delle
realizzazioni campionarie sono simili. Utilizziamo la link function identica. Il
modello `e quindi:

yi xi
2 -1
3 -1
6 0
7 0
8 0
9 0
10 1
12 1
15 1

E(Yi ) = i = 0 + 1 xi = xti

i = 1, . . . ,n

dove = (0 ,1 )t e xi = (1,xi )t .
Con la link function identica, dalla formula (4.10), lespressione di wii `e:

1
1
=
.
V(Yi )
0 + 1 xi
Calcoliamo le quantit`a che intervengono nelle stime iterative dei coefficienti della
formula (4.14). Si ha:
Pn

Pn
x
1
wii () =

(m1)

I (b

) = X W(b

(m1)

i=1 b(m1) +b(m1) x


i
0
1
xi
i=1 b(m1) +b(m1) x
i
0
1

)X = Pn

i=1 b(m1) +b(m1) x


i
1
Pn 0
x2i
i=1 b(m1) +b(m1) x
0

4.2

..
.

=
W1/2 Xb(m1) + y

xi
+b1
b
q0
(m1)
(m1)
xi
+b1
b0

(m1)

(m1)

(m1)

(m1)

103

Stime dei parametri

+
..
.

xi )
+b1
yi (b0
q
(m1)
(m1)
xi
+b1
b0

Pn

yi
(m1)
(m1)
+b1
xi
Pni=1 b0
xi yi
i=1 b(m1) +b(m1) x
i
1
0

=
XW1/2 W1/2 Xb(m1) + y


..
.

yi
q
(m1)
(m1)
xi
+b1
b0

..
.

b(m) =

i=1 b(m1) +b(m1) x


i
1
Pn 0
x2i
i=1 b(m1) +b(m1) x

yi
i1 b(m1) +b(m1) x
i
1
Pn 0
xi yi
i1 b(m1) +b(m1) x
i
1
0

Le stime iterative dei coefficienti si calcolano quindi come:


Pn
1 P
Pn
xi
1
n
i=1 b(m1) +b(m1) x
i
1
Pn 0
xi
i=1 b(m1) +b(m1) x

!
.

Effettuiamo i calcoli con il software SAS.


proc genmod data=dati;
model y= x / dist=poisson link=identity itprint obstats;
run;quit;

La procedura GENMOD fornisce, con lopzione itprint, le stime dei parametri


nelle varie iterazioni e la valutazione nellultima iterazione della stima dei parametri
della score function (che ci si aspetta essere 0!) e della matrice hessiana della logverosimiglianza.
The GENMOD Procedure
Model Information
Distribution
Poisson
Link Function
Identity
Dependent Variable
y
Observations Used
9
Parameter Information
Parameter
Effect
Prm1
Intercept
Prm2
x

Iter
0
1
2

Iteration History For Parameter Estimates


Log
Ridge
Likelihood
Prm1
Prm2
0
85.9574147
7.2543239
4.8292513
0
85.9827712
7.4516174
4.9354434
0
85.9827712
7.4516332
4.9353013

Last Evaluation Of The Negative of The Gradient and Hessian


Gradient
Prm1
Prm2
Algorithm converged.

Prm1
-6.274E-7
1.5737935
-0.552617

Prm2
9.4726E-7
-0.552617
1.0369984

104

Parameter

DF

Estimate

Intercept
x
Scale

1
1
0

7.4516
4.9353
1.0000

Modelli lineari generalizzati

Analysis Of Parameter Estimates


Standard
Wald 95% Confidence
Error
Limits
0.8841
1.0892
0.0000

5.7188
2.8006
1.0000

9.1845
7.0700
1.0000

ChiSquare
71.04
20.53

Pr > ChiSq
<.0001
<.0001

NOTE: The scale parameter was held fixed.

Con lopzione obstats vengono scritte


- Pred: le stime dei valori attesi della variabile risposta
i calcolati a partire dalle
stime dei coefficienti ;
- Xbeta: i valori di xti b;
- Std: le stime delle standard deviation degli stimatori xti B; vedremo in seguito il
loro significato;
- HessWgt: le stime di wii ; con la link function identica sono linverso delle stime della
varianza di Yi ;
- Lower e Upper: le stime dei limiti di confidenza per i valori attesi della variabile
risposta; vedremo in seguito il loro significato;
- Resraw: i residui grezzi, cio`e la differenza fra yi e
i
- altri residui che qui sotto sono omessi.
Osservare che ovviamente tutti le quantit`a precedenti (eccetto i residui) sono uguali
per uguali valori della covariata.
Observation
Obs y
1
2
3
4
5
6
7
8
9

4.3

2
3
6
7
8
9
10
12
15

x
-1
-1
0
0
0
0
1
1
1

Pred
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693

Xbeta
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693

Std
1.065302
1.065302
0.88412
0.88412
0.88412
0.88412
1.673646
1.673646
1.673646

HessWgt

Lower

Upper

Resraw

0.397404
0.397404
0.134199
0.134199
0.134199
0.134199
0.080730
0.080730
0.080730

0.428378
0.428378
5.718782
5.718782
5.718782
5.718782
9.106649
9.106649
9.106649

4.604286
4.604286
9.184485
9.184485
9.184485
9.184485
15.6672
15.6672
15.6672

-0.51633
0.483668
-1.45163
-0.45163
0.548367
1.548367
-2.38693
-0.38693
2.613066

Statistiche basate sulla verosimiglianza

Per verificare ladeguatezza del modello e fare inferenza sui coefficienti delle variabili esplicative `e necessario introdurre brevemente alcune statistiche basate sulla verosimiglianza e ricordare alcune propriet`a - asintotiche - degli stimatori di massima
verosimiglianza.

4.3

Statistiche basate sulla verosimiglianza

105

Indichiamo con , A Rd , un vettore di parametri del modello e con V il


suo stimatore di massima verosimiglianza, se esiste. Sottindentedo le altre condizioni
di esistenza, elenchiamo alcune statistiche basate sulla verosimiglianza L() o il suo
logaritmo l(); alcune di esse sono gi`a state introdotte e utilizzate.
- Score function:
U = grad (l()) con E(U ) = 0
- Informazione di Fisher :
I = E(U Ut ) = V(U ) oppure I = E (H (l()))
- Statistica W basata sul logaritmo del rapporto di verosimiglianza:
W () = 2 log

L()
= 2(l(V) l())
L(V)

misura la differenza della log-verosimiglianza dal suo massimo.


- Statistica di Wald :
WV () = (V )t I (V) (V )
misura lo scarto quadratico medio di V opportunamente standardizzato (si vedr`a
meglio in seguito).
Vediamo il legame fra la statistica W basata sul rapporto di verosimiglianza e la
statistica di Wald WV .
Supponiamo inizialmente che sia unidimensionale e sviluppiamo l() in serie di
Taylor fino al secondo ordine in un intorno del punto di massimo V :
l() ' l(V ) + ( V ) U (V ) +

1
( V )2 U0 (V ) .
2

Essendo V stimatore di massima verosimiglianza di si ha: U (V ) = 0. Inoltre, per grandi campioni possiamo approssimare U0 (V ) con il suo valore atteso: U0 (V ) ' E(U0 (V )) =
I (V ). Quindi:
2 (l(V ) l()) ' ( V )2 I (V ) .
In generale se A Rd , l() `e una funzione da Rd a R e si ha:
l() = l(V) + ( V)t U (V) +

1
( V )t H (l(V))( V)
2

e con le osservazioni fatte per il caso univariato:


W () = 2 (l(V) l()) ' ( V)t I (V)( V) = WV () .
Quindi la statistica di Wald `e una approssimazione per grandi campioni della statistica
del logaritmo del rapporto di verosimiglianza.
Riportiamo ora alcune propriet`a asintotiche degli stimatori di massima verosimiglianza
e delle due statistiche W e WV .

106

Modelli lineari generalizzati

1. Gli stimatori di massima verosimiglianza sono asintoticamente non distorti:


E(V ) = .
Dimostrazione. U () `e una funzione da Rd a Rd . Approssimandola in serie di
Taylor fino al primo ordine in un intorno del punto V e approssimando H (l(V))
con il suo valore atteso, H (l(V)) ' E(H (l(V))) = I (V), si ha:
U () ' U (V ) + H (l(V))( V ) ' I (V ) (V ) .

(4.15)

Se consideriamo il valore atteso e osserviamo che I (V ) `e costante, abbiamo:


0 = E (U ()) ' I (V ) E(V )
e quindi, per grandi campioni: E(V ) = .
2. La matrice di varianza asintotica degli stimatori di massima verosimiglianza `e:
V(V ) = I 1
.
Inoltre V(V ) raggiunge asintoticamente il limite di Cramer Rao, cio`e V `e asintoticamente efficace.
Dimostrazione. Dalla formula (4.15) si ha: (V ) ' I (V )1 U (). Quindi:
 1

1
1
t
t
= I 1
V(V ) = E I 1
E U U I = I .
U U I
Il risultato sul limite di Cramer-Rao deriva immediatamente, infatti il limite di
t
Cramer-Rao per la varianza di V `e LCR(V(V )) = (E(V ))I 1
(E(V )) .
3. La score function ha legge asintoticamente normale:
U () N (0, I ) .
Omettiamo la dimostrazione, che si basa sul teorema del limite centrale.
4. Gli stimatori di massima verosimiglianza hanno legge asintoticamente normale:

V N , I 1
.

Dimostrazione. Deriva dai tre punti precedenti.


5. La statistica di Wald ha legge asintoticamente chi quadro con d gradi di libert`a.
WV () = (V )t I (V) (V ) 2[d] .
Dimostrazione. Deriva dal punto 4 precedente e dal fatto che, in generale se X
N (0d , G) e G `e invertibile, allora Y = Xt G1 X ha legge 2[d] .
Dimostriamo questo fatto. Se Q `e la matrice con colonne gli autovettori di G e `e la
matrice diagonale con gli autovalori di G, tali che QQt = Qt Q = I e G = Q Qt ,
allora
G1 = Q 1 Qt
infatti GG1 = Q Qt Q 1 Qt = I.
Quindi:
t

Y =X G X=X Q

1/2

1/2

Q X=

1/2

Q X

t 

1/2

Q X = Zt Z

4.4

Test di bont`a di adattamento

107

con E(Z) = 1/2 Qt E(X) = 0 e





V(Z) = E(ZZt ) = E 1/2 Qt XXt Q 1/2 = 1/2 Qt E XXt Q 1/2 =
= 1/2 Qt G Q 1/2 = 1/2 Qt Q Qt Q 1/2 = I .
Per cui Z N (0, I) e Y 2[d] .
6. La statistica di W del logaritmo del rapporto di verosimiglianza ha legge [d] .
W () = 2(l(V) l()) 2[d] .
Dimostrazione. Deriva dal punto 5 precedente e dallapprossimazione delle due
statistiche.
I risultati riportati in questo paragrafo saranno utilizzati nel caso dei modelli lineari
generalizzati dove, in particolare si avr`a:
- gli stimatori di massima verosimiglianza B hanno legge asintoticamente normale:

B N , (Xt WX)1 ;
- le statistiche W () e WV () hanno legge asintotica 2[d] .
W () = 2(l(B) l()) ' WV () = ( B)t (Xt W(B)X)( B)
W () 2[d]
WV () 2[d] .

4.4

Test di bont`
a di adattamento

Introduciamo alcune statistiche che permettono di valutare la bont`a di adattamento del


modello ai dati.
Chiamiamo modello corrente il modello sottoposto a verifica in cui il vettore dei
coefficienti delle variabili esplicative `e , Rp , che viene stimato in massima verosimiglianza con B, come indicato nel paragrafo 4.2.2.
4.4.1

Modello massimale e devianza

Confrontiamo il modello corrente con il cosiddetto modello massimale.


Il modello massimale ha un numero di parametri uguale al numero di righe della
matrice delle variabili esplicative X differenti fra loro; se non ci sono repliche tale numero
`e uguale al numero di unit`a sperimentali n. Come analizzato nel paragrafo 3.1.2, se
la matrice X ha m righe diverse, con p < m n, `e possibile costruire un modello
con m parametri stimabili, cio`e costruire una matrice Xmax con m colonne linearmente
indipendenti aggiungendo alla matrice X m p colonne ottenute come funzioni non
lineari delle p colonne originali.
Vediamo come si pu`o costruire un modello massimale polinomiale a partire dal modello
corrente. Se le variabili esplicative sono X1 e X2 possiamo aggiungere al modello ad
esempio X12 ,X13 ,X22 , . . . ,X1 X2 ,X12 X2 , . . . fino a non trovare identit`a di variabili. Consideriamo un caso semplice. Se X1 `e un fattore a due livelli codificati con 1,0,1, possiamo
aggiungere X12 , ma non X13 , perche coincide con X1 . Se X2 `e un fattore a due livelli

108

Modelli lineari generalizzati

codificati con 1,1, non possiamo aggiungere nessuna potenza perche X22 , coincide con il
vettore costante che, si presuppone, gi`a appartenga al modello. In questo caso il modello
massimale `e:
Y = g 1 (Xmax max )

= g 1 max0 + max1 X1 + max2 X21 + max3 X2 + max4 X1 X2 + max5 X21 X2 .
Questo modello ha 6 parametri, che `e infatti il numero di righe della matrice X differenti
fra loro, 6 = 3 2. Osserviamo che il modello massimale non ha errore.
In realt`a per gli scopi di questo paragrafo il modello massimale non viene costruito
esplicitamente, ma si utilizza solo lo stimatore del valore atteso della variabile risposta.
La matrice Xmax `e quadrata di rango pieno, quindi `e invertibile, e lo stimatore dei
coefficienti `e
Bmax = X1
max g(Y).
Infatti da Y = g 1 (Xmax Bmax ) segue g(Y) = Xmax Bmax e X1
max g(Y) = Bmax . Quindi
E(Yi ) viene stimato con Yi ; infatti:
b = g 1 (Xmax Bmax ) = g 1 (Xmax X1

max g(Y)) = Y .
Dunque, per la singola unit`a sperimentale:
xtmaxi bmax = g(yi ) e yi = g 1 (xtmaxi bmax ).
Vediamo alcuni esempi considerando le link function canoniche:
1. Se Yi N (xti , 2 ), allora xtmaxi bmax = yi
i
2. Se Yi Binom(ni ,pi ), allora xtmaxi bmax = log niyy
i

3. Se Yi Poisson(i ), allora xtmaxi bmax = log(yi ).


Una statistica basata sul modello massimale `e devianza definita come:
L(B)
D() = 2 log
= 2 (l(Bmax ) l(B)) .
L(Bmax )
Riscriviamo la devianza utilizzando le statistiche W () e W ( max ):
D() = 2 [(l(Bmax ) l( max )) (l(B) l()) + (l( max ) l())]
= W ( max ) W () + 2 (l( max ) l()) .
Abbiamo visto nel paragrafo precedente che asintoticamente W ( max ) 2[m] e W ()
2[p] ; si dimostra che le due variabili sono indipendenti e quindi:
W ( max ) W () 2[mp] .
Se indichiamo con k la costante 2 (l( max ) l()) allora
D() = W ( max ) W () + k 2[mp] (k)
cio`e la legge asintotica della devianza `e una chi quadro con costante di decentramento k.
Esempio E Calcoliamo la devianza per alcuni modelli.

4.4

109

Test di bont`a di adattamento

1. Legge normale. Yi N (xti , 2 )


Nel paragrafo 1.2.6 abbiamo visto che la verosimiglianza nel modello lineare `e:
n
1
1
1
l(, 2 ) = log( 2 ) 2 t Xt X 2 Yt Y + 2 < ,Xt Y >
2
2
2

che calcolata nello stimatore di massima verosimiglianza B = (Xt X)

Xt Y diventa:

1 t
1 t
1
1
n
l(B) = log( 2 ) 2 Yt X Xt X
X X Xt X
X Y 2 Yt Y +
2
2
2

1
1 t
n
1
Y X Xt X
Xt Y = log( 2 ) 2 Yt PV Y =
2
2
2
n
1
= log( 2 ) 2 Et E .
2
2
Nel modello saturo Xmax Bmax = Y e
1
1
1
n
n
l(Bmax ) = log( 2 ) 2 Yt Y 2 Yt Y + 2 Yt Y = log( 2 ) .
2
2
2

2
Quindi la devianza per il modello lineare generale `e:
D() =

1 t
EE
2

che ha legge esatta 2[np] . In questo caso la devianza dipende dal parametro 2 ,
detto anche parametro di disturbo. Talvolta si utilizza la cosiddetta devianza
scalata che `e definita come: 2 D().
2. Legge binomiale. Yi Binom(ni ,pi ), i = 1, . . . ,n.
Come abbiamo gi`a visto nellesempio A del paragrafo 4.1, la verosimiglianza parametrizzata nei parametri `e:
l() =

n
X

li (i ) =

i=1

n
X

ni log

i=1

ni i
i
+ yi log
.
ni
ni i

Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
g 1 (xti ), allora
l((b))

n
X

li (
i (b)) =

i=1

n
X

ni log

i=1

i
ni
i
+ yi log
.
ni
ni
i

La verosimiglianza del modello massimale `e:


l((b
max )) =

n
X
i=1

li (yi ) =

n
X
i=1

ni log

yi
ni y i
+ yi log
.
ni
ni yi

110

Modelli lineari generalizzati

Quindi la realizzazione della devianza `e:

D(b) = D((b))
n
X
ni yi
yi
ni
i

i
= 2
ni log
+ yi log
ni log
yi log
ni
ni yi
ni
ni
i
i=1
= 2

n
X
i=1

yi log

ni y i
yi
+ (ni yi ) log
.

i
ni
i

Osserviamo che in questo caso non ci sono parametri di disturbo.


3. Legge di Poisson. Yi Poisson(i ), allora xti bmax = log(yi ).
Anche in questo caso abbiamo gi`a visto nellesempio A del paragrafo 4.1 che la
verosimiglianza parametrizzata in `e:
l() =

n
X

li (i ) =

n
X

i=1

i + yi log i .

i=1

Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
1
t
g (xi b), allora
l((b))

n
X

li (
i (b)) =

n
X

i=1

i + yi log
i .

i=1

La verosimiglianza del modello massimale `e:


l((b
max )) =

n
X

li (yi ) =

i=1

n
X

yi + yi log yi .

i=1

Quindi la realizzazione della devianza `e:

D(b) = D((b))
=2

n
X
i=1

X
yi
yi log 2
yi
i .

i
i=1

Se il modello contiene la costante e la link function `e quella canonica allora, utilizzando la formula (4.6), lultimo addendo `e nullo e la devianza per il modello di
Poisson `e:
n
X
yi
D(b) = 2
.
yi log

i
i=1
Osserviamo che sia per il modello binomiale con la link function canonica che per il
modello di Poisson con la link function canonica e, questultimo, nel caso in cui ci sia
il termine costante la devianza si scrive come
n
X
oi
D=2
oi log
(4.16)
ei
i=1

4.4

Test di bont`a di adattamento

111

avendo indicato con oi i valori osservati e con ei le stime dei valori attesi, cio`e
i . Nel
modello di Poisson questo `e evidente. Nel modello binomiale bisogna tener presente
che i valori osservati sono sia i successi, gli yi , che gli insuccessi, cio`e gli ni yi .
Il test sulla bont`a del modello corrente basato sulla devianza ha una zona di rifiuto
dellipotesi principale del tipo (c , + ). Questo test ha il difetto che in presenza di un
alto numero di unit`a sperimentali in genere la conclusione del test `e il rifiuto lipotesi
principale. Infatti, allaumentare delle unit`a sperimentali, da un lato aumenta il numero
dei parametri del modello massimale e dallaltro aumenta il valore campionario della devianza in quanto questo `e calcolato come la somma dei valori della devianza per ciascuna
unit`a e, anche se il valore c aumenta allaumentare dei gradi di libert`a, spesso in questi
casi si giunge a un rifiuto della bont`a di adattamento del modello ai dati.
Per questo spesso si considera la realizzazione della devianza divisa per i gradi di
libert`a. Se questo valore non `e molto pi`
u grande di 1 si considera il modello corrente ben
adattato ai dati. Per capire il significato di questo indice ricordiamo che il valore atteso
di una variabile aleatoria con legge chi quadro `e uguale ai gradi di libert`a; ricordiamo
inoltre nel modello lineare generale se il parametro 2 `e stimato da S 2 , allora questo
indice vale 1.
4.4.2

Statistica 2 di Pearson

Con le notazioni appena introdotte per oi e ei , la statistica X 2 di Pearson `e:


2

X =

n
X
(oi ei )2

ei

i=1

Vediamo un esempio. Consideriamo un modello binomiale, Yi Binom(ni ,pi ), i =


1, . . . ,n. Abbiamo gi`a osservato che i valori osservati sono sia i successi, gli yi , che gli
insuccessi, cio`e gli ni yi e i corrispondenti valori attesi sono ni pi e ni (1 pi ). Quindi:
2

X =

n
X
(yi ni pi )2
i=1

ni pi

n
X
((ni yi ) ni (1 pi ))2
i=1

ni (1 pi )

n
X
(yi ni pi )2
=
.
ni pi (1 pi )
i=1

Legame fra devianza e statistica 2 di Pearson


Abbiamo
nella formula (4.16), che in alcuni casi la devianza pu`o scriversi come
Pvisto,
n
oi
. Vediamo il legame fra questa espressione della devianza e quella
D=2
o
log
i
i=1
ei
della statistica di Pearson.
Sviluppiamo in serie di Taylor la funzione f (o) = o log oe in un intorno del punto e. Si
ha:
o
e1
o
e1
1
f 0 (o) = log + o
= log + 1
f 00 (o) =
=
e
oe
e
oe
o
quindi

 1
o
e
e
1
1 (o e)2
o log ' e log + (o e) log + 1 + (o e)2 = (o e) +
.
e
e
e
2
e
2
e

112

Modelli lineari generalizzati

La devianza si pu`o approssimare come:


D'2

n
X
i=1

oi ei +

n
X
(oi ei )2
i=1

ei

=X +2

n
X

oi ei .

i=1

Se la link
P function `e quella canonica e la parte lineare del modello comprende la costante
si ha ni=1 oi ei = 0 e dunque:
D ' X2 .
4.4.3

Statistiche basate sul modello minimale

Il modello corrente pu`o essere confrontato anche con il modello minimale, cio`e il modello
comprendente nella parte lineare solo la costante, cos` come si fa per i modelli lineari
generali. Due sono le statistiche che in genere si usano:
G = 2 (l(B) l(Bmin ))
D(Bmin ) D(B)
l(B) l(Bmin )
=
.
pseudoR2 =
l(Bmin )
2l(Bmin )
Con dimostrazione analoga a quanto visto per la devianza, si trova che la statistica G ha
legge asintotica 2[p1] .

4.5
4.5.1

Intervalli di confidenza e test


Inferenza sui coefficienti delle variabili esplicative

Per linferenza sui singoli coefficienti k si utilizzano essenzialmente le due quantit`a


pivotali e le loro leggi gi`a studiate nel paragrafo 4.3:

B N 0, I 1

WV () = ( B)t (Xt W(B)X)( B) 2[p] .


Per effettuare test sulla nullit`a di un sottoinsieme di q coefficienti si utilizzano statistiche basate sulla differenza fra le devianze del modello ridotto e del modello completo.
Indichiamo con DR la devianza del modello sotto lipotesi principale di nullit`a di un
sottoinsieme di coefficienti e con DC la devianza del modello corrente o completo. Si ha:
D = DR DC = 2 (l(Bmax ) l(BR )) 2 (l(Bmax ) l(B))
= 2 (l(B) l(BR ))
dove BR `e lo stimatore di massima verosimiglianza dei coefficienti del modello ridotto.
Se il modello corrente `e ben adattato ai dati, allora DC 2[np] . Se anche il modello
ridotto (sotto H0 ) `e ben adattato ai dati, allora DR 2[np+q] , altrimenti ha legge chi
quadro decentrata DR 2[np+q] (k). Si dimostra che DR e DC sono indipendenti, quindi:
D 2[q]

se H0 `e vera .

Se non compaiono parametri di disturbo allora la realizzazione di D `e completamente


determinata dai dati. Se invece, come nel caso di modello con variabile risposta normale,

4.6

Residui

113

compare un parametro nelle devianze, allora spesso si usa come statistica test la differenza
relativa di devianze:
D/q
F =
F[q,np]
se H0 `e vera
DC /(n p)
altrimenti ha legge F di Fisher decentrata.
4.5.2

Inferenza sui valori attesi della variabile risposta

Per linferenza sui valori attesi i della variabile risposta Yi si utilizzano i risultati gi`a
indicati per i coefficienti , ricordando che:
i = g 1 (xti )
= g 1 (X )

i = g 1 (xti B)
= g 1 (X B) .

Si ha, asintoticamente:
t
1
V(B) = I 1
B = (X W(B)X)

V(XB) = X(Xt W(B)X)1 Xt .

Quindi se indichiamo con Si2 lelemento diagonale della matrice di varianza


Si2 = V(xti B) = xti (Xt W(B)X)1 xi
un intervallo di confidenza asintotico per la parte lineare del modello xti `e:

xti B z Si , xti B + z Si
e un intervallo di confidenza asintotico per i , nel caso in cui g 1 sia crescente `e:


g 1 xti B z Si , g 1 xti B + z Si .

4.6

Residui

Ladeguatezza del modello, anche in questo caso, deve essere controllata tramite unanalisi dei residui. Vari tipi di residui possono essere considerati.
- Residui grezzi
ri = y i
i
- Residui chi quadro di Pearson
ri
r
q i
e i corrispondenti standardizzati rPi = q
\
\
V(Y
V(Y
i)
i )(1 hi )
dove con hi si `e indicato lelemento diagonale della matrice H:
H = W(B)1/2 X(Xt W(B)X)1 XW(B)1/2 .
- Residui basati sulla devianza

p
sign(ri ) di
sign(ri ) di e i corrispondenti standardizzati rDi =
1 hi
dove con di si `e indicato il contributo alla devianza delli-esima unit`a sperimentale.

114

Modelli lineari generalizzati

- Residui basati sulla verosimiglianza


rGi

4.7

q
2
= sign(ri ) (1 hi )rD
+ hi rP2 i .
i

Due esempi estesi

Esempio F Modello binomiale.


Lesempio `e tratto da http://www.sci.usq.edu.au/staff/dunn/Datasets/index.html cui
si rimanda per maggiori dettagli.
Si vuole studiare la proporzione di insetti morti dopo 6 giorni di esposizione a
diversi depositi di insetticida. Per ciascuno dei tre insetticidi preso in esame sono
considerate sei diverse dosi. In totale sono stati sottoposti allesperimento 50 insetti.
Le variabili del data set sono: Killed: numero di insetti morti, Number: numero
di insetti sottoposti allesperimento, Insecticide: tipo di insetticida usato (1, 2 o 3),
Deposit: quantit`a di deposito di insetticida usato in milligrammi.
Il riferimento dellesperimento `e: Hewlett, P. S. and Plackett, T. J. (1950). Statistical aspects of the independent joint action of poisons, particularly insecticides. II
Examination of data for agreement with hypothesis in Annals of Applied Biology, 37,
527552.
Siamo in una situazione di analisi della covarianza in quanto in presenza di una
variabile esplicativa qualitativa (insetticida) e una quantitativa (deposito)
Qui di seguito `e riportato il programma SAS.
data insetticida;
input Killed Number
Insecticide Deposit;
datalines;
3
50 1
2.00
5
49 1
2.64
19 47 1
3.48
19 38 1
4.59
24 29 1
6.06
35 50 1
8.00
2
50 2
2.00
14 49 2
2.64
20 50 2
3.48
27 50 2
4.59
41 50 2
6.06
40 50 2
8.00
28 50 3
2.00
37 50 3
2.64
46 50 3
3.48
48 50 3
4.59
48 50 3
6.06
50 50 3
8.00
;

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|

proc genmod;
class insecticide;
model killed/number= insecticide deposit
/ obstats itprint expected corrb;
output out=risultati pred=pre STDRESCHI=res_st
LOWER=inf_med UPPER=sup_med;
run;quit;
goption ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90);
symbol1 v=dot c=black i=none;
symbol2 v=diamond i=j l=1 c=black;
symbol3 v=star i=j l=2 c=black;
proc gplot data=risultati;
plot res_st*pre/vref=0 vaxis=axis1;
run;quit;
proc gplot data=risultati;
plot (pre inf_med sup_med)*deposit/
overlay vaxis=axis1;
by insecticide;
run;quit;

Loutput `e il seguente. Alcuni dati sono stati arrotondati per problemi di impaginazione.
Per la lettura, oltre a quanto osservato nellEsempio D di questo capitolo, possiamo aggiungere che i limiti di confidenza per i coefficienti, come indicato nelloutput,
vengono calcolati usando la statistica di Wald, o meglio la sua radice quadrata.

4.7

115

Due esempi estesi

Model Information
Data Set WORK.RISULTATI
Predicted Values and Diagnostic Statistics
Distribution
Link Function
Response Variable (Events)
Response Variable (Trials)
Observations Used
Number Of Events
Number Of Trials

Binomial
Logit
Killed
Number
18
506
862

Class Level Information


Class
Levels
Values
Insecticide
3
1 2 3
Parameter
Prm1
Prm2
Prm3
Prm4
Prm5

Iter
0
1
2
3

Ridge
0
0
0
0

Parameter Information
Effect
Insecticide
Intercept
Insecticide
1
Insecticide
2
Insecticide
3
Deposit

Iteration History For Parameter Estimates


Log
Likelihood
Prm1
Prm2
Prm3
-403.25367
-0.378737
-2.456751
-2.057824
-401.57653
-0.521241
-2.669687
-2.299159
-401.56592
-0.533255
-2.68789
-2.318361
-401.56592
-0.533348
-2.688016
-2.318489

Prm5
0.5475149
0.6247137
0.6316239
0.6316762

Criteria For Assessing Goodness Of Fit


Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood

DF
14
14
14
14

Value
48.0258
48.0258
47.2792
47.2792
-401.5659

Value/DF
3.4304
3.4304
3.3771
3.3771

Last Evaluation Of The Negative Of The Gradient and Hessian


Gradient
Prm1
Prm2
Prm3
Prm5

Prm1
-2.196E-7
130.4985
43.448286
54.002832
523.6365

Prm2
-5.124E-8
43.448286
43.448286
0
191.49338

Prm3
-4.149E-8
54.002832
0
54.002832
229.90198

Prm5
-1.925E-6
523.6365
191.49338
229.90198
2510.4832

Algorithm converged.
Estimated Correlation Matrix
Prm1
Prm2
Prm3
Prm5

Prm1
1.0000
-0.3391
-0.3795
-0.6782

Prm2
-0.3391
1.0000
0.6238
-0.2832

Prm3
-0.3795
0.6238
1.0000
-0.2637

Prm5
-0.6782
-0.2832
-0.2637
1.0000

116

Parameter
Intercept
Insecticide
Insecticide
Insecticide
Deposit
Scale

DF
1
2
3

Modelli lineari generalizzati

Analysis Of Parameter Estimates


Standard
Wald 95% Confidence
Estimate
Error
Limits

1
1
1
0
1
0

-0.5333
-2.6880
-2.3185
0.0000
0.6317
1.0000

0.2367
0.2407
0.2290
0.0000
0.0519
0.0000

-0.9973
-3.1597
-2.7672
0.0000
0.5300
1.0000

-0.0694
-2.2163
-1.8697
0.0000
0.7334
1.0000

ChiSquare Pr > ChiSq


5.08
124.75
102.54
.
148.21

0.0242
<.0001
<.0001
.
<.0001

NOTE: The scale parameter was held fixed.

Per questo modello:


- la colonna indicata con Xbeta contiene i valori:
xtik b = b0 + bINSi + bDeposit Depositoik
- la colonna indicata con Pred contiene i valori:
1
pi = 1 + exp(xti b)
- la colonna indicata con Std contiene le stime delle standard deviation degli stimatori
xti B, quindi:
p
si = xti (Xt W(b)X)1 xi
\
- la colonna indicata con HessWgt contiene i valori V(Y
i (1 pi ) in quanto Yi `e
i ) = ni p
statistica sufficiente, la link function `e quella canonica, come ricavato nella formula
(4.11).
- la colonne indicate con Lower e Upper contengono le realizzazioni campionarie dei
limiti dellintervallo di confidenza per pi , come indicato nel paragrafo precedente.
Observation Statistics
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Killed
3
5
19
19
24
35
2
14
20
27
41
40
28
37
46
48
48
50

Number Deposit
50
2
49
2.64
47
3.48
38
4.59
29
6.06
50
8
50
2
49
2.64
50
3.48
50
4.59
50
6.06
50
8
50
2
50
2.64
50
3.48
50
4.59
50
6.06
50
8

Insect
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3

Pred
0.1236824
0.1745469
0.264418
0.4201957
0.6471634
0.8620052
0.1695972
0.2342957
0.3421778
0.5118869
0.7263377
0.9003906
0.6748063
0.7566274
0.8408927
0.9142012
0.9642434
0.9892289

Xbeta
-1.958012
-1.553739
-1.023131
-0.32197
0.6065937
1.8320454
-1.588485
-1.184212
-0.653604
0.0475564
0.9761204
2.2015721
0.7300047
1.1342774
1.6648854
2.3660459
3.2946098
4.5200616

Std
0.196516
0.177272
0.159158
0.1520054
0.1742659
0.2403409
0.1795395
0.159871
0.141929
0.1371703
0.1651279
0.2371307
0.1829764
0.175539
0.1751033
0.1904904
0.2322647
0.308324

HessWgt
5.4192535
7.0599346
9.1415529
9.2579881
6.6219452
5.9476112
7.0416989
8.7906601
11.254608
12.492935
9.9385614
4.4843684
10.972138
9.2071186
6.6896078
3.9218675
1.7239017
0.5327529

4.7

117

Due esempi estesi

Observation Statistics
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Lower
0.088
0.130
0.208
0.350
0.566
0.796
0.126
0.183
0.283
0.445
0.658
0.850
0.592
0.688
0.789
0.880
0.945
0.980

Upper
0.172
0.230
0.329
0.494
0.721
0.909
0.225
0.295
0.407
0.578
0.786
0.935
0.748
0.814
0.882
0.939
0.977
0.994

Resraw
-3.184
-3.553
6.572
3.033
5.232
-8.100
-6.480
2.520
2.891
1.406
4.683
-5.020
-5.740
-0.831
3.955
2.290
-0.212
0.539

Reschi
-1.368
-1.337
2.174
0.997
2.033
-3.321
-2.442
0.850
0.862
0.398
1.486
-2.370
-1.733
-0.274
1.529
1.156
-0.162
0.738

Resdev
-1.501
-1.429
2.079
0.990
2.155
-2.954
-2.854
0.830
0.852
0.398
1.551
-2.118
-1.691
-0.272
1.665
1.281
-0.159
1.041

StResdev
-1.688
-1.619
2.372
1.117
2.411
-3.646
-3.246
0.943
0.968
0.455
1.816
-2.449
-2.126
-0.321
1.867
1.383
-0.167
1.068

StReschi
-1.538
-1.516
2.480
1.124
2.275
-4.099
-2.777
0.965
0.980
0.455
1.740
-2.741
-2.179
-0.324
1.715
1.249
-0.170
0.757

Reslik
-1.658
-1.597
2.397
1.118
2.384
-3.808
-3.146
0.948
0.971
0.455
1.796
-2.526
-2.146
-0.322
1.837
1.365
-0.167
1.055

Qui sotto `e riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti. Di seguito sono riportati i grafici dei valori predetti e dei limiti di confidenza
rispetto al deposito per i tre tipi di insetticida.

Si pu`o osservare che, pur se la devianza divisa per i gradi di libert`a presenta valori
un po alti, il grafico dei residui rispetto ai valori predetti `e piuttosto omogeneo,
quindi il modello sembra ben adattato ai dati. Singolarmente tutti i coefficienti sono
significativamente diversi da 0.
Dal secondo gruppo di grafici si pu`o osservare che il comportamento della proporzione di uccisi stimata rispetto al deposito a cui sono esposti gli insetti `e diversa a
seconda del tipo di insetticida.

118

Modelli lineari generalizzati

Esempio G Modello di Poisson.


Lesempio `e tratto da http://www.sci.usq.edu.au/staff/dunn/Datasets/index.html cui
si rimanda per maggiori dettagli. Riguarda le richieste di copertura di danni alle
assicurazioni per autoveicoli in Svezia per lanno 1977.
Le variabili prese in esame sono: Kilometres, i chilometri percorsi per anno (1: meno
di 1000, 2: da 1000 a 15 000, 3: da 15 000 a 20 000, 4: da 20 000 a 25 000, 5: pi`
u
di 25 000); Zone: la zona geografica (1: Stockholm, Goteborg, Malmo, 2: altre grandi
citt`a, 3: piccole citt`a del sud , 4: aree rurali del sud, 5: piccole citt`a del nord, 6: aree
rurali del nord, 7: Gotland); Bonus (nessuna richiesta, oppure il numero di anni pi`
u
uno dallultima richiesta); Make: modello dellautoveicolo (da1 a 8); Insured: numero
di assicurazioni in anni di polizza; Claims: Numero di richieste; Payment: pagamento
effettuato in corone svedesi.
Qui sotto `e riportata una parte delloutput.
The GENMOD Procedure
Model Information
Data Set
WORK.ASSICURAZIONI
Distribution
Poisson
Link Function
Log
Dependent Variable
Claims
Observations Used
2182
Class Level Information
Class
Levels
Values
Kilometres
5
1 2 3 4
Zone
7
1 2 3 4
Bonus
7
1 2 3 4
Make
9
1 2 3 4

5
5 6 7
5 6 7
5 6 7 8 9

Criteria For Assessing Goodness Of Fit


Criterion
DF
Value
Deviance
2155
13176.1068
Scaled Deviance
2155
13176.1068
Pearson Chi-Square
2155
14005.7757
Scaled Pearson X2
2155
14005.7757
Log Likelihood
544867.0509

Parameter
Intercept
Kilometres
Kilometres
Kilometres
Kilometres
Kilometres
Zone
Zone
Zone
Zone
Zone
Zone
Zone
Bonus
Bonus
Bonus

1
2
3
4
5
1
2
3
4
5
6
7
1
2
3

DF
1
1
1
1
1
0
1
1
1
1
1
1
0
1
1
1

Estimate
2.6236
1.4177
1.4845
1.0449
0.1499
0.0000
3.3795
3.3624
3.3229
3.7864
2.2171
2.7349
0.0000
-1.0537
-1.4705
-1.7521

Analysis Of Parameter Estimates


Standard
Wald 95% Confidence
Error
Limits
0.0419
2.5415
2.7056
0.0133
1.3917
1.4438
0.0137
1.4576
1.5114
0.0135
1.0184
1.0714
0.0155
0.1195
0.1803
0.0000
0.0000
0.0000
0.0413
3.2986
3.4604
0.0411
3.2819
3.4430
0.0411
3.2423
3.4034
0.0412
3.7056
3.8672
0.0422
2.1344
2.2999
0.0414
2.6537
2.8161
0.0000
0.0000
0.0000
0.0106
-1.0745
-1.0330
0.0126
-1.4952
-1.4458
0.0142
-1.7799
-1.7242

Value/DF
6.1142
6.1142
6.4992
6.4992

ChiSquare Pr > ChiSq


3927.12
<.0001
11385.8
<.0001
11683.3
<.0001
5976.99
<.0001
93.36
<.0001
.
.
6703.75
<.0001
6693.09
<.0001
6540.33
<.0001
8432.23
<.0001
2757.89
<.0001
4357.87
<.0001
.
.
9878.85
<.0001
13639.6
<.0001
15191.8
<.0001

4.7
Bonus
4
Bonus
5
Bonus
6
Bonus
7
Make
1
Make
2
Make
3
Make
4
Make
5
Make
6
Make
7
Make
8
Make
9
Insured
Payment
Scale
NOTE: The scale

119

Due esempi estesi

1
-1.9279
0.0154
-1.9581
1
-1.8032
0.0148
-1.8321
1
-1.2731
0.0120
-1.2966
0
0.0000
0.0000
0.0000
1
-1.8044
0.0118
-1.8276
1
-3.2185
0.0208
-3.2592
1
-3.6101
0.0247
-3.6585
1
-3.4909
0.0235
-3.5370
1
-3.1001
0.0197
-3.1388
1
-2.6838
0.0167
-2.7167
1
-3.4452
0.0230
-3.4902
1
-4.1261
0.0312
-4.1874
0
0.0000
0.0000
0.0000
1
-0.0000
0.0000
-0.0000
1
0.0000
0.0000
0.0000
0
1.0000
0.0000
1.0000
parameter was held fixed.

-1.8977
-1.7742
-1.2496
0.0000
-1.7812
-3.1778
-3.5617
-3.4447
-3.0614
-2.6510
-3.4002
-4.0649
0.0000
-0.0000
0.0000
1.0000

15619.8
14897.3
11273.0
.
23247.3
24027.2
21371.5
21973.1
24646.4
25676.2
22526.6
17447.9
.
1469.44
1469.42

<.0001
<.0001
<.0001
.
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
<.0001
<.0001

Qui sotto `e riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti.

I valori della devianza e della statistica di Pearson divise per i gradi di libert`a indicano
che ladattamento del modello ai dati non `e molto buono. Dal grafico possiamo osservare che percentualmente non sono molti i residui standardizzati alti; in particolare
sembrano esserci problemi in presenza di poche richieste di rimborso. I coefficienti
sono tutti significativamente diversi da 0, considerati singolarmente.
Un modello meglio adattato ai dati si ottiene considerando la radice quadrata delle
variabili quantitative, come mostrato sotto.
data a.assic_svedesi2;
set a.assic_svedesi;
if payment = 0 then delete; else sPayment=sqrt(Payment);
if claims = 0 then delete; else sclaims=sqrt(claims);
proc genmod data=a.assic_svedesi2;
class Kilometres Zone Bonus Make;
model sclaims = Kilometres Zone Bonus Make Insured sPayment/ dist=poisson ;
output out=risultati pred=pre STDRESCHI=res_st LOWER=inf_med UPPER=sup_med;
run;quit;
goption reset=(all) ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90); symbol1 v=dot c=black i=none;
proc gplot data=risultati;
plot res_st*pre/vref=0 vaxis=axis1; run;quit;

120

Modelli lineari generalizzati

La deviance diventa 1214. 3432 e la devianza diviso i gradi di libert`a `e 0. 5635. Il


grafico dei residui `e il seguente

Il nuovo modello risulta quindi decisamente meglio adattato ai dati del precedente.

4.8

Alcuni modelli per variabili dicotomiche

I primi modelli per variabili aleatorie con legge non normale sono stati introdotti nella prima met`a degli anni 70 per casi dose-risposta in cui la risposta consisteva nellavverarsi
o meno di un evento oggetto di studio in relazione a diverse dosi di farmaco.
Come si pu`o anche osservare nei grafici dellesempio F la probabilit`a di successo si pu`o
esprimere come funzione crescente della dose: i primi due grafici hanno un andamento
lineare, mentre il terzo no; ci sono dunque diverse funzioni possibili.
Definiamo dunque la probabilit`a di successo nel seguente modo:
Z x
p(x) =
f (s) ds
(4.17)

dove f (. ) `e chiamata tolleranza. Affinch`e p sia una probabilit`a, la tolleranza deve avere
le propriet`a di una funzione di densit`a.
Vediamo alcuni esempi di funzione di tolleranza.
1. Se la probabilit`a cresce in modo lineare (primi due grafici), allora la funzione di
tolleranza `e uniforme in un intervallo [c1 ,c2 ]:
1
x c1
(c1 < s < c2 )
p(x) = 0 (x < c1 ) +
(c1 < x < c2 ) + (c2 < x)
f (s) =
c2 c1
c2 c1
ovvero, per c1 < x < c2 :
1
c1
e 1 =
p(x) = 0 + 1 x
con 0 =
c2 c1
c2 c1
che corrisponde a una link function identica. Questa link function necessita per`o
condizioni sui limiti dellintervallo per la dose e quindi `e usata raramente.
2. Se la funzione di tolleranza corrisponde a una densit`a Normale, con media m e
varianza 2 , allora:


xm
p(x) =

4.8

Alcuni modelli per variabili dicotomiche

121

dove con si `e indicata la funzione di ripartizione di una variabile aleatoria normale


standardizzata. Quindi:
p(x) = (0 + 1 x)

con 0 =

1
m
e 1 =

1 (p) = 0 + 1 x
Il modello con link function 1 si chiama Probit ed `e molto usato in biologia e in
scienze sociali. In particolare se p `e una probabilit`a di morte, m `e chiamata dose
letale media o mediana.
p
3. Se la probabilit`a di successo `e modellata con la link function canonica log 1p
=
0 + 1 x allora la funzione di tolleranza `e

f (s) =

1 exp(0 + 1 x)
(1 + exp(0 + 1 x))2

infatti:
Z

p(x) =

1 exp(0 + 1 s)
1
ds =
2
(1 + exp(0 + 1 s))
1 + exp((0 + 1 x))

Il modello con la link function canonica si chiama anche modello Logit o logistico.
4. Unaltra link function per la probilit`a di successo `e la cosiddetta log-log complementare:
log ( log (1 p)) = 0 + 1 x
la cui inversa `e:
p(x) = 1 exp ( exp (0 + 1 x))
e la cui la funzione di tolleranza `e:
f (s) = 1 exp (0 + 1 s exp (0 + 1 s))
Le funzioni di tolleranza e le link function degli ultimi tre modelli sono abbastanza simili
per valori di p prossimi a 0. 5, ma differiscono nelle code. In particolare il modello loglog complementare `e maggiormente appropriato se la tolleranza `e asimmetrica, mentre i
modelli Logit e Probit modellano meglio casi pi`
u simmetrici.
Esempio H Questo esempio `e tratto da Dobson (2002).
Si vuole studiare la proporzione di
coleotteri morti dopo essere stati
sottoposti allesposizione di solfuro di carbonio gassoso a diverse
concentrazioni.
Mettiamo a confronto il modello
logistico con il modello probit e il
modello log-log complementare.
Modello logistico

data coleotteri;
input dose pres morti;
datalines;
1.6907 59 6
1.7242 60 13
1.7552 62 18
1.7842 56 28
1.8113 63 52
1.8369 59 53
1.8610 62 61
1.8839 60 60
;

proc genmod data=coleotteri;


model morti/pres= dose;
proc genmod data=coleotteri;
model morti/pres=dose
/ LINK=PROBIT;
proc genmod data=coleotteri;
model morti/pres=dose
/ LINK=CLOGLOG;

122

Modelli lineari generalizzati

The GENMOD Procedure


Model Information
Data Set
WORK.COLEOTTERI
Distribution
Binomial
Link Function
Logit
Response Variable (Events)
morti
Response Variable (Trials)
pres
Number of Observations Read
8
Number of Observations Used
8
Number of Events
291
Number of Trials
481
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Deviance
6
11.2322
Scaled Deviance
6
11.2322
Pearson Chi-Square
6
10.0268
Scaled Pearson X2
6
10.0268
Log Likelihood
-186.2354
Algorithm converged.

Parameter

DF

Analysis Of Parameter Estimates


Standard
Wald 95%
Estimate
Error
Confidence Limits

Intercept
1 -60.7175
dose
1
34.2703
Scale
0
1.0000
NOTE: The scale parameter was

5.1807 -70.8715
2.9121
28.5626
0.0000
1.0000
held fixed.

-50.5634
39.9780
1.0000

Value/DF
1.8720
1.8720
1.6711
1.6711

ChiSquare

Pr > ChiSq

137.36
138.49

<.0001
<.0001

Modello probit
Criteria For Assessing Goodness Of Fit
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood

DF
6
6
6
6

Value
10.1198
10.1198
9.5134
9.5134
-185.6792

Value/DF
1.6866
1.6866
1.5856
1.5856

Algorithm converged.

Parameter
Intercept
dose
Scale

DF
1
1
0

Analysis Of Parameter Estimates


Standard
Wald 95%
Estimate
Error
Confidence Limits
-34.9353
2.6395 -40.1086 -29.7619
19.7279
1.4841
16.8192
22.6366
1.0000
0.0000
1.0000
1.0000

ChiSquare
175.18
176.71

Pr > ChiSq
<.0001
<.0001

Modello log-log complementare


Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Deviance
6
3.4464
Scaled Deviance
6
3.4464
Pearson Chi-Square
6
3.2947
Scaled Pearson X2
6
3.2947
Log Likelihood
-182.3425

Value/DF
0.5744
0.5744
0.5491
0.5491

4.8

123

Alcuni modelli per variabili dicotomiche

Algorithm converged.

Parameter

DF

Analysis Of Parameter Estimates


Standard
Wald 95%
Estimate
Error
Confidence Limits

Intercept
1 -39.5723
dose
1
22.0412
Scale
0
1.0000
NOTE: The scale parameter was

3.2290 -45.9012
1.7931
18.5268
0.0000
1.0000
held fixed.

-33.2435
25.5556
1.0000

ChiSquare

Pr > ChiSq

150.19
151.10

<.0001
<.0001

La regione di rifiuto dellipotesi principale a un livello del 5% `e (12. 59,+). Quindi


tutti i modello si adattano bene ai dati, ma il modello log-log complementare ha un
valore minore per la devianza e quindi `e preferibile agli altri.
4.8.1

Odds-ratio e log-odds-ratio

Quando le variabili esplicative sono categoriche, spesso per interpretare gli effetti delle
variabili esplicative, `e pi`
u efficace, piuttosto che utilizzare i parametri , considerare gli
odds ratio.
Prendiamo in esame il caso di una sola variabile esplicativa dicotomica, che pu`o indicare ad esempio un fattore di rischio o in generale la presenza o lassenza di una particolare
condizione, codificata con 0 e 1 (altre codifiche non cambiano il senso del discorso).
Vogliamo confrontare il valore atteso della variabile risposta quando la variabile esplicativa vale 1 (presenza della condizione), indicato con (x1 ), rispetto al valore atteso
quando lesplicativa vale 0 (assenza della condizione), indicato con (x0 ), ad esempio
considerando il rapporto
(x1 )
g 1 (xt1 )
ovvero
.
(x0 )
g 1 (xt0 )
Se tale valore `e minore di 1 significa che il valore atteso della variabile risposta in presenza
della condizione `e inferiore a quello in assenza della condizione, se `e maggiore di 1 `e vero
il viceversa; un rapporto vicino a 1 indica la non influenza della variabile esplicativa.
Nel caso specifico di variabili aleatorie binomiali, invece dei valori attesi si considerano
gli odds. Lodds `e il rapporto fra la probabilit`a di successo e quella di insuccesso, o =
p/(1 p). Se si usa la link function (canonica) logit, il rapporto degli odds del caso x1
rispetto al caso x0 , ovvero lodds ratio, `e:

exp (xt1 )
p(x1 )/(1 p(x1 ))
t
=
=
exp
(x

x
)

or(x1 ,x0 ) =
1
0
p(x0 )/(1 p(x0 )
exp (xt0 )
Si definisce log odds ratio come il logaritmo dellodds ratio:
log-or(x1 ,x0 ) = (x1 x0 )t
Nel caso di una sola variabile esplicativa a valori 0 e 1 si ha x1 = (1,1)t , x0 = (1,0)t ,
= (0 ,1 )t e quindi:

or(x1 ,x0 ) = exp xt1 xt0 = exp (0 + 1 0 ) = e1 e log-or(x1 ,x0 ) = 1 .
Osserviamo che e1 rappresenta il cambio del log odds da x = 0 a x = 1. Per esempio
un odds ratio uguale a 2 (cio`e e1 = 2) significa che lodds di un evento quando x = 1 `e
doppio dellodds dellevento quando x = 0.

124

Modelli lineari generalizzati

Se la covariata (o fattore di rischio) assumesse valori reali a e b (invece che 0 e 1),


lodds ratio diventa:

or(xa ,xb ) = exp xta xtb = exp (0 + 1 a 0 1 b) = exp(1 (ab)) = exp(1 )(ab)
Leffetto della covariata pu`o essere verificato sia con un ipotesi principale 1 = 0
oppure con una ipotesi or = 1.
Un intervallo di confidenza per lodds ratio pu`o essere calcolato come:
(exp (B1 z std(B1 )) , exp (B1 + z std(B1 ))) .
Nel caso di pi`
u di 2 modalit`a assunte dalla covariata (a cui corrispondono diverse
righe della matrice X), gli odds ratio fra la modalit`a h e la modalit`a k della variabile
esplicativa sono
or(xh ,xk ) =

4.9


p(xh )/(1 p(xh ))
= exp (xh xk )t .
p(xk )/(1 p(xk ))

Modelli per variabili risposta nominali e ordinali

Esistono due approcci per lo studio di variabili multinomiali o ordinali.


Uno consiste nellestendere la regressione logistica per variabili dicotomiche al caso di
pi`
u modalit`a e laltro nellinterpretare i conteggi o le frequenze delle diverse modalit`a con
variabili con legge di Poisson. Questi due approcci permettono di avere interpretazioni
diverse dei parametri, come vedremo in seguito, ma non si differenziano da un punto di
vista teorico.
Legge multinomiale e legge di Poisson condizionata
Se Y = (Y1 , . . . ,YJ )t
PMultinom(n,p
P 1 , . . . ,pJ ), allora fY (y1 , . . . ,yJ ; n,p1 , . . . ,pJ ) =
y1
yJ
n!
p pJ con
pj = 1 e
yj = n e il logaritmo della verosimiglianza si pu`o
y1 !yJ ! 1
scrivere come:
l(p1 , . . . ,pJ ; y1 , . . . ,py ) = n log(1 p1 pJ1 )
pJ1
p1
+ + yJ1 log
.
+ y1 log
1 p1 pJ1
1 p1 pJ1
Osserviamo che la legge multinomiale appartiene alla famiglia dei modelli esponenziali,
con statistica sufficiente Y = (Y1 , . . . ,YJ1 )t e parametro canonico = (1 , . . . ,J1 )t
con


pj
j = log
1 p1 pJ1
P
J
= J1
Applicando lesponenziale e sommando per j = 1, . . . ,J1 si ottiene 1p
j=1 exp(j )
pJ
da cui:
!1
J1
X
exp(j )
pJ = 1 +
exp(j )
e pj =
per j = 1, . . . ,J 1 .
PJ1
1 + j=1 exp(j )
j=1

4.9

Modelli per variabili risposta nominali e ordinali

125

Usando le propriet`a di modelli possiamo ricavare interessanti propriet`a della statistica


sufficiente:
E(Yj ) = n pj

V(Yj ) = n pj (1 pj )

cov(Yj ,Yk ) = n pj pk .

Dimostriamo ora che la distribuzione multinomiale pu`o essere vista come una distribuzione congiunta di variabili aleatorie indipendenti con legge di Poisson, condizionate alla
loro somma.
P
Siano Y1 , . . . ,YJ variabili aleatorie indipendenti con Yj Poisson(j ) e sia N = j Yj ,
P
allora N Poisson( j j ). La densit`a di (Y1 , . . . ,YJ |N = n) `e:
y11 yJJ exp((1 + + J ))
n!
n
y1 ! yJ !
(1 + + J ) exp((1 + + J ))

y1

 yJ
1
J
n!

.
=
y1 ! yJ ! 1 + + J
1 + + J
I parametri della legge multinomiale e di quella di Poisson condizionata alla somma
sono legati dalle relazioni:
pj =
4.9.1

j
1 + + J

j =

pj
1 p1 pJ1

j = 1, . . . ,J 1 .

Modello logistico per variabili multinomiali

Generalizziamo il modello Logit gi`a introdotto per variabili binomiali al caso multinomiale.
Per quanto visto sopra, la link function canonica per il modello esponenziale `e:
log

pj
pj
= log
= xt j
pJ
1 p1 pJ1

pj =

exp(xt j )
PJ1
1 + j=1 exp(xt j )

j = 1, . . . ,J 1 .

(4.18)
La scelta della modalit`a di riferimento, in questo caso lultima, `e arbitraria.
Osserviamo che p1 , . . . pJ dipendono dalle variabili esplicative x e sarebbe pi`
u corretto
indicarle come:
p1 (x), . . . ,pJ (x)
ma ometteremo tale indicazione quando non necessaria.
Le stime di massima verosimiglianza delle probabilit`a, pj , e dei valori attesi,
j , delle variabili risposta sono ottenute come di consueto a partire dalle stime di massima
verosimiglianza bj dei coefficienti j :
pj =

exp(xt bj )
PJ1
1 + j=1 exp(xt bj )

j = n pj

j = 1, . . . ,J 1 .

Odds-ratio per i modelli multinomiali


Anche per variabili risposta multinomiali si possono considerare gli odds ratio (e il loro
logaritmo) per valutare lefficacia di variabili esplicative.

126

Modelli lineari generalizzati

Nel caso multinomiale lodds `e il rapporto: oj = pj /pJ , avendo scelto come modalit`a
di riferimento della variabile risposta la J-esima. Quindi, con la link function (4.18),
lodds ratio `e:


pj (x1 )/pJ (x1 )
= exp xt1 j xt0 j = exp (x1 x0 )t j
orj (x1 ,x0 ) =
pj (x0 )/pJ (x0 )
Come nel caso binomiale, leffetto della covariata pu`o essere verificato sia con un ipotesi
principale 1j = 0 oppure con una ipotesi orj = 1, per j = 1, . . . ,J 1.
Un intervallo di confidenza per lodds ratio pu`o essere calcolato come:
(exp (B1j z std(B1j )) , exp (B1j + z std(B1j ))) .
4.9.2

Modello logistico per variabili risposta multinomiali ordinali

Quando le modalit`a della variabile risposta multinomiale sono ordinali, si possono utilizzare ulteriori link function che estendono la link function logit.
1. La link function `e il logaritmo del rapporto delle probabilit`a delle modalit`a minori
o uguali a quella corrente rispetto a tutte le successive.
p1 + p2 + + pj
p1 + p2 + + pj
xt j = log
ovvero xt j = log
.
pj+1 + + pJ
1 (p1 + p2 + + pj )
Tale tale link function viene detta logit cumulato e il modello corrispondente viene
detto modello logit cumulato.
In questo modello lodds `e calcolato non sulle pj ma sulle probabilt`a cumulate:
p1 + + pj
oj =
1 (p1 + + pj )
e quindi gli odds ratio fra la modalit`a k e la modalit`a h della variabile esplicativa
sono:

oj (xh )
= exp (xh xk )t j
orj (xh ,xk ) =
oj (xk )
2. La link function `e il logaritmo del rapporto delle probabilit`a delle modalit`a adiacenti.
pj
log
.
pj+1
3. La link function `e il logaritmo del rapporto delle probabilit`a della modalit`a corrente
rispetto a tutte le successive.
pj
.
log
pj+1 + + pJ
In tutti i modelli precedenti, ma anche nel caso di link canonica, il vettore dei coefficienti delle variabili esplicative pu`o dipendere o meno dalla modalit`a considerata, ad
eccezione del coefficiente costante che viene sempre considerato diverso per ogni modelit`a,
0j . La parte lineare del modello pu`o quindi avere due espressioni:
(
0j + 1j x1 + + p1,j xp1
t
x=
0j + 1 x1 + + p1 xp1 .

4.10

127

Modelli log-lineari per tabella di contingenza

Osserviamo che nel caso in cui solo il coefficiente della costante dipenda da j, gli odds
ratio sono uguali per tutte le modalit`a della variabile risposta:
orj (xh ,xk ) = or(xh ,xk ) .

4.10

Modelli log-lineari per tabella di contingenza

Vari sono gli approcci allo studio delle tabelle di contingenza, dallanalisi delle corrispondenze sia descrittiva che inferenziale, ai test di bont`a di adattamento sotto lipotesi di indipendenza, o allapproccio pi`
u moderno basato sulla statistica algebrica. Qui
esamineremo lapproccio basato sui modelli lineari generalizzati.
Consideriamo una tabella a due entrate, con I righe e J colonne.
Il conteggio nij `e considerato come realizzazione campionaria di una variabile aleatoria Nij . Analogamente i totali marginali
ni. e n.j sono considerati realizzazioni di
Ni. e N.j . Le variabili A e B sono considerate variabili esplicative qualitative e tipicamente espresse come nellanalisi della
varianza a due fattori.

1
...
A i
...
I

1
n11

...

B
j

...

J
n1J

ni1

nij

niJ

ni.

nI1
n.1

n.j

nIJ
n.J

Con i simboli normalmente usati in questo contesto, la parte lineare `e quindi esprimibile come:
B
AB
xtij = + A
i + j + ij
Tale modello `e saturo in quanto per ogni combinazione di livelli si ha una sola osservazione.
Le variabili aleatorie risposta vengono in genere modellate con leggi di Poisson condizionate alla somma uguale a n; sostanzialmente si tratta di un modello multinomiale. I
gradi di libert`a del modello saturo sono dunque I J 1. La link function utilizzata `e
quella canonica:
xtij = log (E(Nij )) = log (ij ) = log (n pij )
Se si vuol sottoporre a verifica un modello di indipendenza, allora, sotto questa ipotesi,
si ha:
i. .j
ij =
n
dove i. e .j sono rispettivamente i valori attesi di Ni. e N.j . Quindi il modello diventa:
B
log (ij ) = log n + log (i. ) + log (.j ) = + A
i + j

che, rispetto al modello saturo non comprende il termine di interazione AB


ij ; infatti sotto
AB
lipotesi di indipendenza ij dipende dai due parametri di ordine minore.
Questo tipo di modelli ha il vantaggio che pu`o essere facilmente generalizzato a tabelle
di contingenze a pi`
u vie. Ad esempio nel caso di 3 variabili esplicative A, B e C, il modello
saturo `e:
B
C
AB
AC
BC
ABC
log (ijk ) = + A
i + j + k + ij + ik + jk + ijk .

128

Modelli lineari generalizzati

Si possono avere sottomodelli di indipendenza a seconda dei parametri di interazione


presenti.
- Indipendenza completa. Quindi nessun parametro di interazione.
C
B
log (ijk ) = + A
i + j + k .

- Indipendenza a tre ma non a coppie. Non compare il parametro di interazione tripla.


AB
AC
BC
C
B
log (ijk ) = + A
i + j + k + ij + ik + jk .

- Indipendenza condizionata (A B)|C. Per ogni livello k del fattore C si richiede lindipendenza fra i fattori A e B. Un esempio in ambito epidemiologico di
indipendenza condizionata potrebbe essere (malattia genere)|fumo. Il modello `e:
ij k =

i.k .j k
n

quindi, per ogni k, la link function `e:


B
C
AC
BC
log (ijk ) = + A
+ ik + jk .
i + j + k

e `e presupposta lindipendenOsserviamo che non `e presente il parametro AB


ij perch`
za.
Se oltre allindipendenza condizionata (A B)|C si volesse anche (A C)|B
allora la link function sarebbe:
B
C
BC
log (ijk ) = + A
+ jk .
i + j + k

Nei modelli precedenti non `e mai presente il parametro di interazione tripla perch`e
normalmente si considerano modelli gerarchici: se `e presente una interazione, lo sono
anche quelle di ordine inferiore.
Le statistiche sufficienti sono i totali marginali i cui valori attesi intervengono nella
link function. Ad esempio per lindipendenza condizionata (A B)|C gli stimatori di
massima verosimiglianza dei conteggi sono:

ij k =

Ni.k N.j k
n

Per quanto riguarda i test di bont`a di adattamento del modello osserviamo che la
statistica X 2 di Pearson coincide con gli usuali test di indipendenza sulle tabelle:
X2 =

X (Nijk N
ijk)2
ijk

Nijk

2[df]

dove df `e il numero delle celle meno il numero di parametri liberi.


Come si `e potuto vedere questo tipo di modelli sono piuttosto duttili e permettono
diverse generalizzazioni.
Altri modelli per tabelle di contingenza quadrate sono i seguenti.

4.10

Modelli log-lineari per tabella di contingenza

129

- Quasi indipendenza. Nei casi in cui si ipotizza una forte concentrazione di valori
sulla diagonale, si pu`o prevedere una indipendenza fuori della diagonale:
B
log (ij ) = + A
i + j + i (i = j) .

In questo modello i parametri i relativi alla diagonale sono identificati in modo


esatto (senza residui) e stimati in massima verosimiglianza da log Nii . Non sono
quindi applicabili quando sulla diagonale si ha un valore campionario uguale a 0.
Dal punto di vista operativo il modello si costruisce introducendo una nuova variabile
qualitativa che ad esempio sulla diagonale valga i e fuori valga I + 1.
Si pu`o affinare questo modello per verificare se esite una prevalenza di realizzazioni
sopra (oppure sotto) la diagonale della tabella di contingenza.
- Simmetria. In tal caso si ipotizza pij = pji .
B
AB
log (ij ) = + A
i + j + ij

AB
B
con AB
o anche A
ij = ji
i = j .

130

Capitolo 5
Esercizi desame con soluzione
Esercizio Sia Y una variabile aleatoria discreta con densit`a di probabilit`a
fY (y; ) = y(1 log )2 (log )y1

(1,e) y Z+

1. Verificare che appartiene alla famiglia dei modelli esponenziali, indicare il parametro
canonico con il suo dominio e la statistica sufficiente canonica.
2. Calcolare valore atteso e varianza della variabile aleatoria Y , scritti in funzione di
.
3. Si considerino n variabili aleatorie indipendenti con la stessa legge di Y .
(1) Scrivere la log-verosimiglianza del modello per il campione.
1+log
(2) Calcolare lo stimatore di massima verosimiglianza V del parametro 1log
e

scriverlo in funzione della media campionaria Y . Lo stimatore V `e distorto?


(3) Calcolare la varianza dello stimatore V e dire se raggiunge il limite inferiore di
Cramer-Rao.

4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n con la stessa legge di


Y , ciascuna con un diverso parametro i .
(1) Scrivere la log-verosimiglianza parametrizzata in i , valore atteso di Yi
(2) Indicare la link function canonica e la sua inversa: x0i = g(i ) = . . ., i =
g 1 (x0i ) = . . .
Soluzione:
1. La log-verosimiglianza si pu`o scrivere come l(; y) = 2 log(1log )+(y1) log(log )
quindi parametro canonico `e = log(log ), dove log (0,1) e quindi (,0).
La statistica sufficiente `e Y . Inoltre () = 2 log(1 e ) + .
2. Il valore atteso e la varianza della statistica sufficiente, e quindi di Y , sono:
E(Y ) = 0 () =

2e
1 + log
+1 =

1e
1 log
131

V(Y ) = 00 () =

2e
2 log
=

2
(1 e )
(1 log )2

132

Esercizi desame con soluzione

3. (1) La log-verosimiglianza
 del
P modello per un n-campione `e: l(; y1 , . . . ,yn ) =
n 2 log(1 e ) + yi
(2) Il parametro

1+log
1log

`e E(Y ), quindi stimatore di massima verosimiglianza `e

)
2 log
V = Y che `e non distorto e ha varianza V(v) = V(Y
= n(1log
. La varianza
n
)2
raggiunge il limite di CR in quanto il parametro da stimare `e il valore atteso
della statistica sufficiente.
.
4. (1) Si ha: log i = ii 1
+1
X
l(1 , . . . ,n ; y1 , . . . ,yn ) =
l(i ; y1 ) =




X
i 1
i 1
i 1
2 log 1
log
+ yi log
=
i + 1
i + 1
i + 1
X
i 1
i 1
2
log
+ yi log
2 log
i + 1
i + 1
i + 1


0
1+exp(x )
(2) x0i = g(i ) = log ii 1
, i = g 1 (x0i ) = 1exp(x0i )
+1
i

Esercizio
Si considerino n variabili aleatorie indipendenti Y1 , . . . ,Yn con legge normale. Si vuole
studiare la dipendenza delle variabili Yi da due fattori qualitativi A e C, ciascuno a
due livelli con un modello lineare che comprende solo i fattori principali (cio`e senza
interazioni). Si consideri la parte del modello X che esplicita la dipendenza lineare dai
fattori con = (,1 ,2 ,1 ,2 ).
1. Scrivere almeno una parametrizzazione stimabile per il vettore e la corrispondente matrice X supponendo lesperimento bilanciato con due ripetizioni per ogni
combinazione di livelli.
2. Dire se il parametro + 1 `e stimabile motivando la risposta.
Soluzione:
1. Una parametrizzazione stimabile `e:

+ 2 + 2
1 2
1 2

1
1
1

X =
1

1
1

1
1
1
1
0
0
0
1 0

1
1
0

1
0
0

1
1
1

1
X=
1

1
1

Inoltre:

1
1
1
1
0
0
0
1 0

0
0
0
0
1
1
1
1

1
1
0
0
1
1
0
0

0
0
1

0
1
1

2. Una combinazione lineare di parametri ct `e stimabile se e solo se ct appartiene


allo spazio delle righe di X (con X indicata nel punto precedente). In questo caso
ct1 = (1,1,0,0,0,0); non esiste nessuna soluzione (a,b,c,d,e) 6= (0,0,0,0,0) che risolva il
sistema lineare
a(1,1,0,1,0) + b(1,1,0,0,1) + d(1,0,1,1,0) + e(1,0,1,0,1) = (1,1,0,0,0,0).

133

Esercizi desame con soluzione

Esercizio Si vogliono studiare le manifestazioni di un fenomeno in tre tempi successivi


in dipendenza da un fattore deterministico A. Si assume che le variabili risposta che modellano il fenomeno, Y1 ,Y2 ,Y3 , abbiano legge normale e che siano soddisfatte le condizioni
di un modello di misure ripetute. Lanalisi viene effettuata con il seguente programma
SAS:
proc glm data=dati;
class A;
model y1-y3= A;
repeated time 3 profile / summary printm printh printe;
run;

Commentare loutput e in particolare:


. Lanalisi della varianza per ciascuna variabile risposta
. Le correlazioni fra le variabili risposta precisando sulla base di quali dati sono
calcolate.
. Esplicitare le variabili indotte dalla matrice M (cio`e dire come `e formata la matrice
MY) e commentare le correlazioni fra variabili risposta MY.
. I test multivariati within subjects, precisando a che cosa si riferiscono i diversi
test.
. I test univariati within subjects, precisando se possono essere applicati a questa
situazione. ]
. I test univariati between subjects relativi alla media delle variabili risposta.
. I test univariati between subjects relativi alle variabili risposta MY.
. Commentare complessivamente i risultati dellanalisi.
The SAS System
The GLM Procedure
Class Level Information
Class
Levels
Values
A
3
1 2 3
Number of Observations Read
Number of Observations Used

60
60

Dependent Variable: Y1
Source
Model
Error
Corrected Total

DF
2
57
59
R-Square
0.061480

Sum of
Squares
63.246261
965.481052
1028.727312

Coeff Var
50.04731

Mean Square
31.623130
16.938264

Root MSE
4.115612

F Value
1.87

Pr > F
0.1639

Y1 Mean
8.223443

Source
A

DF
2

Type I SS
63.24626065

Mean Square
31.62313032

F Value
1.87

Pr > F
0.1639

Source
A

DF
2

Type III SS
63.24626065

Mean Square
31.62313032

F Value
1.87

Pr > F
0.1639

134

Esercizi desame con soluzione

Dependent Variable: Y2
Source
Model
Error
Corrected Total

DF
2
57
59
R-Square
0.022958

Sum of
Squares
12.8562762
547.1414813
559.9977575

Coeff Var
36.17658

Mean Square
6.4281381
9.5989734

Root MSE
3.098221

F Value
0.67

Pr > F
0.5159

Y2 Mean
8.564163

Source
A

DF
2

Type I SS
12.85627621

Mean Square
6.42813810

F Value
0.67

Pr > F
0.5159

Source
A

DF
2

Type III SS
12.85627621

Mean Square
6.42813810

F Value
0.67

Pr > F
0.5159

DF
2
57
59

Sum of
Squares
151.7549946
660.1950582
811.9500528

Mean Square
75.8774973
11.5823694

F Value
6.55

Pr > F
0.0027

Dependent Variable: Y3
Source
Model
Error
Corrected Total
R-Square
0.186902

Coeff Var
32.38663

Root MSE
3.403288

Y3 Mean
10.50831

Source
A

DF
2

Type I SS
151.7549946

Mean Square
75.8774973

F Value
6.55

Pr > F
0.0027

Source
A

DF
2

Type III SS
151.7549946

Mean Square
75.8774973

F Value
6.55

Pr > F
0.0027

Repeated Measures Analysis of Variance


Repeated Measures Level Information
Dependent Variable
Y1
Y2
Level of time
1
2

Y3
3

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 57
Y1
Y2
Y3
Y1
1.000000
-0.065038
-0.197224
0.6276
0.1378
Y2
-0.065038
1.000000
0.365980
0.6276
0.0047
Y3
-0.197224
0.365980
1.000000
0.1378
0.0047
time_N represents the nth successive difference in time
M Matrix Describing Transformed Variables
Y1
Y2
Y3
time_1
1.000000000
-1.000000000
0.000000000
time_2
0.000000000
1.000000000
-1.000000000
E = Error SSCP Matrix
time_N represents the nth successive difference in time
time_1
time_2
time_1
1607.16
-216.99
time_2
-216.99
767.42

135

Esercizi desame con soluzione

Partial Correlation Coefficients from the Error SSCP Matrix of the


Variables Defined by the Specified Transformation / Prob > |r|
DF = 57
time_1
time_2
time_1
1.000000
-0.195388
0.1416
time_2
-0.195388
1.000000
0.1416
Sphericity Tests
Mauchlys
DF
Criterion
2
0.8415367
2
0.7644887

Variables
Transformed Variates
Orthogonal Components

Chi-Square
9.6614362
15.038688

Pr > ChiSq
0.0080
0.0005

H = Type III SSCP Matrix for time


time_N represents the nth successive difference in time
time_1
time_2
time_1
6.965407104
39.74464728
time_2
39.74464728
226.78315335
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no time Effect
H = Type III SSCP Matrix for time
E = Error SSCP Matrix
S=1
M=0
N=27
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.75398263
9.14
2
56
0.0004
Pillais Trace
0.24601737
9.14
2
56
0.0004
Hotelling-Lawley Trace
0.32629050
9.14
2
56
0.0004
Roys Greatest Root
0.32629050
9.14
2
56
0.0004
H = Type III SSCP Matrix for time*A
time_N represents the nth successive difference in time
time_1
time_2
time_1
27.110869264
17.240985398
time_2
17.240985398
238.22664574
MANOVA Test Criteria and F Approximations for the Hypothesis of no time*A Effect
H = Type III SSCP Matrix for time*A
E = Error SSCP Matrix
S=2
M=-0.5
N=27
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.73976124
4.55
4
112
0.0019
Pillais Trace
0.26408093
4.34
4
114
0.0027
Hotelling-Lawley Trace
0.34659372
4.82
4
66.174
0.0018
Roys Greatest Root
0.33089766
9.43
2
57
0.0003
NOTE: F Statistic for Roys Greatest Root is an upper bound.
NOTE: F Statistic for Wilks Lambda is exact.
Tests of Hypotheses for Between Subjects Effects
Source
A
Error

DF
2
57

Type III SS
39.4718645
734.4258929

Mean Square
19.7359323
12.8846648

F Value
1.53

Pr > F
0.2249

136

Source
time
time*A
Error(time)

Esercizi desame con soluzione

Univariate Tests of Hypotheses for Within Subject Effects


Adj Pr > F
DF
Type III SS
Mean Square F Value Pr > F
G - G
H - F
2
4
114

182.328805
188.385667
1438.391698

91.164403
47.096417
12.617471

Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon

7.23
3.73

0.0011
0.0068

0.0025
0.0119

0.0020
0.0103

0.8094
0.8588

Analysis of Variance of Contrast Variables


time_N represents the nth successive difference in time
Contrast Variable: time_1
Source
Mean
A
Error

DF
1
2
57

Type III SS
6.965407
27.110869
1607.162899

Mean Square
6.965407
13.555435
28.195840

F Value
0.25
0.48

Pr > F
0.6211
0.6208

Contrast Variable: time_2


Source
Mean
A
Error

DF
1
2
57

Type III SS
226.7831534
238.2266457
767.4170936

Mean Square
226.7831534
119.1133229
13.4634578

F Value
16.84
8.85

Pr > F
0.0001
0.0005

Soluzione:
. Solo per il modello con Y3 come variabile risposta i coefficienti del fattore A sono
significativamente diversi da 0; quindi si pu`o dire che il fattore A influenza, a livello
univariato, solo Y3
. Dal test sulla nullit`a delle correlazioni fra le variabili risulta che solo Y2 e Y3 risultano
significativamente correlate. Le correlazioni sono stimate a partire dalla matrice E
che contiene le stime della matrice dellerrore, quindi usando sia le variabili risposta,
che la matrice X.
. La matrice YM ha due colonne contenenti le variabili Y1 Y2 e Y2 Y3 . Queste
due variabili risultano significativamente non correlate.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui `e misurata la variabile risposta. Per essere applicabili la matrice di
varianza/covarianza delle variabili risposta deve essere sferica. In questa situazione il test corrispondente porta a un rifiuto di tale ipotesi e quindi loutput dei test
univariati within subjects non sono commentabili.
. Il test multivariato within subjects per time, che verifica luguaglianza delle medie delle tre variabili risposta, porta a rifiutare lipotesi principale con tutte le statistiche test considerate; quindi il tempo influenza le risposte nelle tre
condizioni.
Analogamente per il test multivariato within subjects per time*A; in questo
caso si verifica la nullit`a di tutti i coefficienti relativi al fattore. Lipotesi principale
L = 0 ha come matrice L la seguente (scritta in riga) L = (0 1 0 0,0 0 1 0,0 0 0 1).

Esercizi desame con soluzione

137

. Il test univariato between subjects


porta a rifiutare linfluenza del fattore A sulla
variabile risposta (Y1 + Y2 + Y3 )/ 3.
. I test univariati between subjects relativi alle variabili risposta trasformate tramite la matrice M portano a considerare che linfluenza del fattore avviene tra il
secondo e il terzo tempo.
. I test multivariati within subjects evidenziano una influenza del tempo e del fattore
A, le analisi univariate e gli ultimi test portano a concludere che linfluenza del
fattore avviene tra il secondo e il terzo tempo.
Esercizio Sia Y una variabile aleatoria definita sugli interi positivi dispari {1,3,5 . . . }
tale che:
p
(1 p)y/2
p (0,1),
P(Y = y) =
1p
1. Verificare che appartiene alla famiglia dei modelli esponenziali, indicare il parametro
canonico con il suo dominio e la statistica sufficiente canonica.
2. Calcolare il valore atteso della variabile aleatoria Y , scritto in funzione di p.
3. Si considerino n variabili aleatorie indipendenti con la stessa legge di Y .
(1) Scrivere la log-verosimiglianza del modello per il campione.
(2) Calcolare lo stimatore di massima verosimiglianza V del parametro p. Lo
stimatore V `e distorto? `e asintoticamente non distorto?
4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n, con la stessa legge di
Y , ciascuna con un diverso parametro pi e si consideri un modello lineare generalizzato con variabili esplicative x0i per lunit`a sperimentale i-esima. Scrivere il modello
nella forma:
Yi = g 1 (x0i ) + i
dove g indica la link function canonica dei modelli di famiglia esponenziale.
5. Scrivere la log-verosimiglianza con parametri i e la devianza del modello
6. Un fenomeno viene studiato con il modello precedente in dipendenza da due variabili
esplicative A e B binarie con B fattore nested in A. Si consideri la parte del
modello X che esplicita la dipendenza lineare della risposta dalle esplicative A e
B. Scrivere la matrice X e il vettore per il modello sovraparametrizzato e possibili
riparametrizzazioni e/o vincoli sui coefficienti. Per semplicit`a considerare una sola
replica per ogni combinazione di livelli
Soluzione:
1. La log-verosimiglianza si pu`o scrivere come l(p; y) = log p 21 log(1 p) + 12 y log(1
p) + costante quindi scegliendo come parametro = 12 log(1 p) con (,0)
si ha p = 1 e2 e la verosimiglianza
in forma canonica per i modelli esponenziali

`e l(; y) = log 1 e2  + y + costante. La statistica sufficiente `e Y . Inoltre
() = log 1 e2 .

138

Esercizi desame con soluzione

2. Il valore atteso della statistica sufficiente, e quindi di Y , `e:


E(Y ) =

d ()
2e2
1 + e2
2p
=1
=
=
2
2
d
1e
1e
p

3. (1) La log-verosimiglianza del modello per un n-campione `e:


X


yi + cost.
l(; y1 , . . . ,yn ) = n log 1 e2 +
(2) Lo stimatore di massima verosimiglianza per E(Y ) `e Y . Essendo E(Y ) = 2p
,
p
2
2
si ha p = E(Y )+1 e quindi: V = Y +1 . Un risultato analogo si poteva ottenere
ponendo uguale a 0 la derivata prima della log-verosimiglianza in p e verificando
che la soluzione corrisponde a un punto di massimo.
Lo stimatore V `e distorto perch`e Y `e non distorto e, essendo

2
Y +1

una funzio`
ne convessa in Y , si ha, per la disuguaglianza di Jensen, E(V ) > E(Y2)+1 . E
asintoticamente non distorto perch`e stimatore di massima verosimiglianza.

4. Si ha: i = g 1 (x0i ) =

1+e2xi
0 .
1e2xi

Quindi la forma generale del modello `e:


0

Yi =
5. La link function `e i =
i `e:

1
2

1 + e2xi
+ i
0
1 e2xi

log ii 1
. Quindi la log-verosimiglianza parametrizzata in
+1
n 
X



i 1
i 1
i 1
1
1
l(1 , . . . ,n ; y1 , . . . ,yn ) =
log 1
log
+ yi log
i + 1
2
i + 1
2
i + 1
i=1


n
1X
i 1
=
2 log 2 log(i 1)(i + 1) + yi log
2 i=1
i + 1
max la stima del valore atteso nel modello massimale e con
la
Indichiamo con
max = y e
=
stima di massima verosimiglianza nel modello corrente. Si ha:
0
1+e2xi b
dove b `e la stima di massima verosimiglianza dei coefficienti delle variabili
0
1e2xi b
esplicative. La realizzazione della devianza `e quindi:
max ) l())
=
d = 2(l(

n
X
i=1

n
X
i=1

(yi 1) log

log

(yi 1)(yi + 1)
(yi 1)(
i + 1)
+ yi log
=
(
i 1)(
i + 1)
(yi + 1)(
i 1)

yi 1
yi + 1
(yi + 1) log

i 1

i + 1

Esercizi desame con soluzione

6. Si ha:

139

1
2

(
)
=
1
1

2 (1 )

2 (1 )
2 (2 )

1
1
X=1
1

1
1
0
0

0
0
1
1

1
0
0
0

0
1
0
0

0
0
1
0

0
0
0
1

Un possibile modo per rendere il modello stimabile `e quello di porre i seguenti vincoli
sui coefficienti:
1 + 2 = 0

1 (1 ) + 2 (1 ) = 0

1 (2 ) + 2 (2 ) = 0

che corrisponde a:

1
1

X = 1
1

1
1
1
1

1
1
0
0

0
0
1
1

= (1 )
1
1
1 (2 )

Esercizio
Si considera un esperimento per verificare la perdita di peso nei topi in dipendenza
di tre tipi di farmaco. Il peso viene misurato dopo una settimana e dopo due settimane
dallinizio della somministrazione. Si considerano due tipi di modelli:
. Primo modello: modello multivariato
. Secondo modello: modello di misure ripetute
1. Commentare le differenze fra i due modelli e dire quale dei due si ritiene pi`
u
appropriato per questa situazione?
2. Nel primo modello vengono considerate due variabili esplicative (sesso e farmaco),
nel secondo una sola (farmaco). Nel secondo modello viene richiesta anche una
analisi univariata.
Commentare loutput e in particolare [se presenti nel modello e/o nelloutput]:
. lanalisi della varianza per ciascuna variabile risposta;
. le correlazioni fra le variabili risposta; perch`e sono diverse nei due modelli che
hanno le stesse variabili risposta?
. le correlazioni fra variabili risposta trasformate tramite la matrice M;
. i test multivariati within subjects, precisando a cosa si riferisce la matrice H;
. i test univariati within subjects, precisando se possono essere applicati in
questa situazione; perche non `e riporto il test di sfericit`a della matrice di
correlazione delle variabili risposta?
. i test univariati between subjects relativi alla media delle variabili risposta;
. commentare complessivamente i risultati dellanalisi.
3. Per il secondo modello, calcolare la stima del valore atteso delle due variabile risposta
per i tre tipi di farmaco. Alla luce del risultato quale test potrebbe essere interessante
effettuare?

140

Esercizi desame con soluzione

Primo modello
PROC GLM data=drugs outstat=stats;
CLASS sex drug; MODEL Y1 Y2 = sex drug sex*drug/ ss3 nouni;
manova h=_all_/printe printh;
run;quit;
Class Level Information
Class
Levels
Values
sex
2
F M
drug
3
A B C
Number of Observations Read 24
Number of Observations Used

24

Multivariate Analysis of Variance


E = Error SSCP Matrix
Y1
Y2
Y1
94.5
76.5
Y2
76.5
114
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 18
Y1
Y2
Y1
1.000000
0.737043
0.0003
Y2
0.737043
1.000000
0.0003
H = Type III SSCP Matrix for sex
Y1
Y2
Y1
0.6666666667
0.6666666667
Y2
0.6666666667
0.6666666667
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall sex Effect
H = Type III SSCP Matrix for sex
E = Error SSCP Matrix
S=1
M=0
N=7.5
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root

Value
0.99253694
0.00746306
0.00751918
0.00751918

F Value
0.06
0.06
0.06
0.06

Num DF
2
2
2
2

Den DF
17
17
17
17

Pr > F
0.9383
0.9383
0.9383
0.9383

H = Type III SSCP Matrix for drug


Y1
Y2
Y1
301
97.5
Y2
97.5
36.333333333
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall drug Effect
H = Type III SSCP Matrix for drug
E = Error SSCP Matrix
S=2

Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root
NOTE: F Statistic for Roys

M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.16862952
12.20
4
34
<.0001
0.88037810
7.08
4
36
0.0003
4.63953666
19.40
4
19.407
<.0001
4.57602675
41.18
2
18
<.0001
Greatest Root is an upper bound, for Wilks Lambda is exact.

Esercizi desame con soluzione

141

H = Type III SSCP Matrix for sex*drug


Y1
Y2
Y1
14.333333333
21.333333333
Y2
21.333333333
32.333333333
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall sex*drug Effect
H = Type III SSCP Matrix for sex*drug
E = Error SSCP Matrix
S=2

Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root
NOTE: F Statistic for Roys

M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.77436234
1.16
4
34
0.3459
0.22694905
1.15
4
36
0.3481
0.28969161
1.21
4
19.407
0.3381
0.28372273
2.55
2
18
0.1056
Greatest Root is an upper bound, for Wilks Lambda is exact.

Secondo modello
PROC GLM data=drugs;
CLASS drug; MODEL Y1 Y2 = drug / ss3 solution;
repeated tempo 2 /printe printh printm;
run;quit;
Dependent Variable: Y1

Week1
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
21
109.5000000
5.2142857
23
410.5000000
Coeff Var
Root MSE
Y1 Mean
23.42032
2.283481
9.750000
DF
Type III SS
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
Standard
Estimate
Error
t Value
Pr > |t|
14.75000000 B
0.80733247
18.27
<.0001
-7.75000000 B
1.14174053
-6.79
<.0001
-7.25000000 B
1.14174053
-6.35
<.0001
0.00000000 B
.
.
.

Source
Model
Error
Corrected Total
R-Square
0.733252
Source
drug
Parameter
Intercept
drug
A
drug
B
drug
C
Dependent Variable: Y2

Week2
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
36.3333333
18.1666667
2.60
0.0984
21
147.0000000
7.0000000
23
183.3333333
Coeff Var
Root MSE
Y2 Mean
30.52790
2.645751
8.666667
DF
Type III SS
Mean Square
F Value
Pr > F
2
36.33333333
18.16666667
2.60
0.0984
Standard
Estimate
Error
t Value
Pr > |t|
10.25000000 B
0.93541435
10.96
<.0001
-3.00000000 B
1.32287566
-2.27
0.0340

Source
Model
Error
Corrected Total
R-Square
0.198182
Source
drug
Parameter
Intercept
drug
A

142

Esercizi desame con soluzione

drug
B
-1.75000000 B
1.32287566
-1.32
0.2001
drug
C
0.00000000 B
.
.
.
NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.
Repeated Measures Analysis of Variance
Repeated Measures Level Information
Dependent Variable
Y1
Y2
Level of tempo
1
2
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 21
Y1
Y2
Y1
1.000000
0.776373
<.0001
Y2
0.776373
1.000000
<.0001
tempo_N represents the contrast between the nth level of tempo and the last
M Matrix Describing Transformed Variables
Y1
Y2
tempo_1
1.000000000
-1.000000000
tempo_N represents the contrast between the nth level of tempo and the last
E = Error SSCP Matrix
tempo_1
tempo_1
59.5
H = Type III SSCP Matrix for tempo
tempo_1
tempo_1
28.166666667
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo Effect
H = Type III SSCP Matrix for tempo
E = Error SSCP Matrix
S=1
M=-0.5
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.67870722
9.94
1
21
0.0048
Pillais Trace
0.32129278
9.94
1
21
0.0048
Hotelling-Lawley Trace
0.47338936
9.94
1
21
0.0048
Roys Greatest Root
0.47338936
9.94
1
21
0.0048
H = Type III SSCP Matrix for tempo*drug
tempo_N represents the contrast between the nth level of tempo and the last
tempo_1
tempo_1
142.33333333
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo*drug Effect
H = Type III SSCP Matrix for tempo*drug
E = Error SSCP Matrix
S=1
M=0
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.29479769
25.12
2
21
<.0001
Pillais Trace
0.70520231
25.12
2
21
<.0001
Hotelling-Lawley Trace
2.39215686
25.12
2
21
<.0001
Roys Greatest Root
2.39215686
25.12
2
21
<.0001

143

Esercizi desame con soluzione

Tests of Hypotheses for Between Subjects Effects


DF
Type III SS
Mean Square
F Value

Source
drug
Error

2
21

266.1666667
226.7500000

133.0833333
10.7976190

Pr > F

12.33

0.0003

Univariate Tests of Hypotheses for Within Subject Effects


Source
DF
Type III SS
Mean Square
F Value
tempo
1
14.08333333
14.08333333
9.94
tempo*drug
2
71.16666667
35.58333333
25.12
Error(tempo)
21
29.75000000
1.41666667

Pr > F
0.0048
<.0001

Soluzione:
1. Questa situazione corrisponde a un modello di misure ripetute quindi `e pi`
u appropriato il secondo modello in cui vengono fatti anche i test between subjects. Avendo per`o solo due variabili risposta anche il primo modello pu`o essere di
interesse.
2. Commento delloutput.
Primo modello.
. La matrice E contiene le stime della covarianza dei residui (a meno di una
costante):
E = (Y XB)t (Y XB) = Yt PV Y
La corrispondente matrice di correlazione e il p-value del test di non correlazione
evidenziano che le due variabili risposta sono significativamente correlate fra
loro.
. Le matrici H dei test multivariati corrispondono a Yt PV \V0 Y. Le ipotesi dei
tre test sono rispettivamente: nullit`a dei coefficienti corrispondenti a sex,
a drug e a sex*drug. Le statistiche riportate si basano sugli autovalori
delle matrici E1 H. Risulta che solamente il tipo di farmaco `e da considerarsi
statisticamente significativo.
Secondo modello.
. Lanalisi univariata evidenzia che la variabile risposta misurata dopo una settimana risente statisticamente del tipo di farmaco, mentre misurata dopo due settimane no. Questo si deduce sia dal test di nullit`a contemporanea dei coefficienti
della variabile esplicativa sia dallindice R-sq.
Le stime dei coefficienti riportate riguardano il vettore ( + C ,A C ,B C )t .
In particolare per la variabile Week 2 il coefficiente B C risulta significativamente nullo, quindi sembra non ci siano differenze fra leffetto del farmaco
B e quello del farmaco C dopo due settimane.
. La matrice di correlazione parziale delle variabili risposta risulta diversa da
quella del primo modello in quanto i due modelli hanno variabili esplicative
diverse; la correlazione parziale `e calcolata usando i residui, quindi anche le
variabili esplicative.

144

Esercizi desame con soluzione

. I successivi test multivariati within subjects sono calcolati sulle variabili trasformate tramite la matrice M. Avendo solo due variabili esplicative, si ha
una sola variabile trasformata. Quindi le matrici E e H hanno un solo elemento. Il test within subjects per tempo, che verifica luguaglianza delle
medie delle due variabili risposta, porta a rifiutare lipotesi principale; quindi
il tempo influenza le risposte. Analogamente per il test per tempo*drug;
in questo caso viene verificata la nullit`a di tutti i coefficienti relativi al fattore.
Lipotesi principale L = 0 ha come matrice L la seguente (scritta in riga)
L = (0 1 0 0,0 0 1 0,0 0 0 1).
. Anche il test univariato between subjects porta a rifiutare la nullit`a dei coef
ficienti relativi al fattore drug sulla variabile risposta (W eek1 + W eek2)/ 2,
quindi a considerare il tipo di farmaco influente sulla media delle variabili
risposta.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui `e misurata la variabile risposta (il tempo in questo caso). Per
essere applicabili la matrice di varianza/covarianza delle variabili risposta deve
essere sferica. Per`o, avendo solo due variabili risposta, non ha significato parlare di sfericit`a della matrice di covarianza della variabili trasformate. I test,
che sono da utilizzare con cautela, comunque portano alle stesse conclusioni del
test multivariati.
. I test univariati between subjects per le variabili trasformate non sono presenti perche in questo caso (due sole variabili risposta) corrisponde al test
multivariato within subjects.
Commento generale. Il sesso non influisce sulle variabili risposta, mentre il tipo
di farmaco somministrato si, anche se in modo diverso sulle due risposte. Sia nel
primo modello che nel secondo i test multivariati within subjects evidenziano una
influenza del tempo e del tipo di farmaco. Analoghe conclusioni si possono trarre
per i test univariati relativi alla media delle risposte.
3. Si ha:
1 = (14. 750 7. 75,14. 75 7. 25,14. 75)t = (7. 00,7. 50,14. 75)t

2 = (10. 25 3. 00,10. 25 1. 75,10. 25)t = (7. 25,8. 50,10. 25)t

Potrebbe essere interessante, per ciascuna variabile risposta, effettuare il test di


uguaglianza fra il valore atteso corrispondente al primo farmaco e quello corrispondente al secondo; basterebbe prendere come livello di riferimento il primo o il secondo
invece del terzo.


,1
tale che:
Esercizio Sia Y una variabile aleatoria definita su 0, k1 , k2 , . . . , k1
k
 
k
P(Y = y) =
ky (1 + )k
R+ , k noto ,k Z+
ky
1. Verificare che appartiene alla famiglia dei modelli esponenziali, indicare il parametro
canonico con il suo dominio e la statistica sufficiente canonica.
2. Calcolare il valore atteso della variabile aleatoria Y , scritto in funzione di .

145

Esercizi desame con soluzione

3. Si considerino n variabili aleatorie indipendenti con la stessa legge di Y .


(1) Scrivere la log-verosimiglianza del modello per il campione.
(2) Indicare lo stimatore di massima verosimiglianza di E(Y ) e calcolare lo stimatore
di massima verosimiglianza V del parametro . Lo stimatore V `e distorto? `e
asintoticamente non distorto?
(3) Calcolare la varianza asintotica dello stimatore V e dire qual `e la legge asintotica
di V . [Suggerimento per il calcolo dellinformazione di Fisher utilizzare la logverosimiglianza scritta in funzione di ].
4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n, con la stessa legge
di Y , ciascuna con un diverso parametro i . Indicare la link function canonica e la
sua inversa: x0i = g(i ) = . . ., i = g 1 (x0i ) = . . ..
5. Un fenomeno viene studiato con il modello precedente, con n = 24 e k = 20.
Si ottengono i seguenti risultati. Dopo aver verificato che il modello `e adeguato,
completare loutput relativo alla prima combinazione di livelli. Indicare i calcoli
fatti. [Si utilizzi il fatto che: V(Yi ) = k1 i (1 i ).]
The GENMOD Procedure
Model Information
Data Set
WORK.DATI
Distribution
User
Link Function
User
Dependent Variable
y
Number of Observations Read
Number of Observations Used

24
24

Class Level Information


Class
Levels
Values
a
2
0 1
b
2
0 1
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Deviance
21
15.7875
Scaled Deviance
21
15.7875
Pearson Chi-Square
21
15.8145
Scaled Pearson X2
21
15.8145
Log Likelihood
-7.8937
Algorithm converged.

Value/DF
0.7518
0.7518
0.7531
0.7531

Analysis Of Parameter Estimates


Standard
Wald 95\% Confidence
ChiParameter
DF
Estimate
Error
Limits
Square Pr > ChiSq
Intercept
1
45.1007
5.2212
34.8674
55.3340
74.62
<.0001
a
0
1
-15.8942
5.6964
-27.0589
-4.7294
7.79
0.0053
a
1
0
0.0000
0.0000
0.0000
0.0000
.
.
b
0
1
-78.0307
5.7085
-89.2192
-66.8421 186.84
<.0001
b
1
0
0.0000
0.0000
0.0000
0.0000
.
.
Scale
0
1.0000
0.0000
1.0000
1.0000
NOTE: The scale parameter was held fixed.

146

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

y
0.1
0.1
0.1
0.05
0.05
0.05
0.7
0.75
0.9
0.9
0.8
0.85
0.15
0.05
0.1
0.2
0.2
0.3
0.95
0.85
0.95
0.95
0.9
0.8

a
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1

b
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
1

Esercizi desame con soluzione

Pred
.........

0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.905084
0.905084
0.905084
0.905084
0.905084
0.905084

Observation Statistics
Xbeta
Std
HessWgt
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646 .........
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953

Lower

Upper

.........

.........

0.739382
0.739382
0.739382
0.739382
0.739382
0.739382
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148

0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495

Soluzione:
1. La log-verosimiglianza si pu`o scrivere come l(; y) ky log k log(1 + ) quindi
parametro canonico `e = k log con R. La statistica sufficiente `e Y . Inoltre
() = k log(1 + e/k ).
2. Il valore atteso della statistica sufficiente, e quindi di Y , `e:
E(Y ) = 0 () = k

e/k /k
e/k

=
=
/k
/k
1+e
1+e
1+

3. (1) La log-verosimiglianza
P del modello per un n-campione `e: l(; y1 , . . . ,yn )
/k
nk log(1 + e ) + yi
(2) Lo stimatore di massima verosimiglianza per E(Y ) `e Y . Essendo =
ha: V =

E(Y )
,
1E(Y )

si

Y
1Y

` asintoticamente non distorto


Lo stimatore `e distorto perch`e Y `e non distorto. E
perch`e stimatore di massima verosimiglianza.
(3) La varianza asintotica di V `e linverso dellinformazione di Fisher calcolata in
.
 2

)
Si ha: I = E d l(;Y
d2
X 1
dl()
1
=k
Yi nk
d

1+

X 1
dl()2
1
=
k
Yi 2 + nk
2
d

(1 + )2

147

Esercizi desame con soluzione

Da cui:

I = E

d2 l(; Y )
d2


=

nk
(1 + )2

i
4. x0i = g(i ) = k log 1
e i = g 1 (x0i ) =
i

V(V ) =

exp(x0i /k)
1+exp(x0i /k))

(1 + )2
nk

1
1+exp(x0i /k)

1
1
5. Nella colonna Pred `e scritta la stima di i ; quindi:
1 = 1+exp(x
0 /k) = 1+exp(48.82414/20) =
i
0. 0801.
Nella colonna HessWgt `e scritta la stima di wii ; in caso di link function canonica
del modello esponenziale questa `e uguale alla stima della varianza di Yi . Quindi:
1

1 (1
1 ) = 0. 00368.
w11 = 20
Nelle colonne Lower e Upper sono scritte le realizzazioni dellintervallo di confidenza
asintotico per i a livello del 95%. Si possono calcolare a partire dalla realizzazione
dellintervallo di confidenza per xti :

xt1 b 1. 96 std(xti B),xt1 b + 1. 96 std(xt1 B) =
(48. 824141. 965. 4362646,48. 82414+1. 965. 4362646) = (59. 4792,38. 1691)

e applicando ai limiti la link function inversa, ottenendo:




1
1
,
= (0. 0486,0. 129)
1 + exp(59. 4792/20) 1 + exp(38. 1691/20)
Loutput SA `e infatti
Obs
1

y
0.1

a
0

b
0

Pred
0.080084

Xbeta
-48.82414

Std
5.4362646

HessWgt
0.0036835

Lower
0.0486167

Upper
0.1291537

148

Bibliografia
R
c
[1] AA. VV., Minitab
, StatGuide, Copyright 2000-2006
Minitab Inc.

R
c
[2] AA. VV., SAS , Help and documentation, Copyright 2002-2003
by SAS Institute
Inc., Cary, NC, USA.
[3] Adelchi Azzalini, Statistical inference, Monographs on Statistics and Applied
Probability, vol. 68, Chapman & Hall, London, 1996.
[4] Margherita Coppola, Modelli lineari generali: teoria classica e bootstrap, Tesi di
laurea, Dipartimento di Matematica Universit`a di Genova, 1997, Relatore: Rogantin,
M. P.
[5] D. R. Cox and D. V. Hinkley, Theoretical statistics, Chapman and Hall, London,
1974.
[6] Didier Dacunha-Castelle and Marie Duflo, Probabilites et statistiques. Tome 1, Collection Mathematiques Appliquees pour la Matrise. Masson, Paris, 1982, Probl`emes
a` temps fixe..
[7] Lilla Di Scala, Analisi della varianza: aspetti teorici e modelli mixed con misure
ripetute, Tesi di laurea, Dipartimento di Matematica Universit`a di Genova, 1998,
Relatore: Rogantin, M. P.
[8] Annette J. Dobson, An introduction to generalized linear models, second ed., Chapman & Hall/CRC Texts in Statistical Science Series, Chapman & Hall/CRC, Boca
Raton, FL, 2002.
[9] Ludovic Lebart, Alain Morineau, and M. Piron, Statistique exploratoire
multidimensionelle, second ed., Dunod, Piron, 1997.
[10] Kantilal Varichand Mardia, John T. Kent, and John M. Bibby, Multivariate analysis,
Academic Press, London, 1979, Probability and Mathematical Statistics: A Series
of Monographs and Textbooks.
[11] P. McCullagh and J. A. Nelder, Generalized linear models, Monographs on Statistics
and Applied Probability, Chapman & Hall, London, 1983.
[12] Donald F. Morrison, Multivariate statistical methods, second ed., McGraw-Hill Book
Co., New York, 1976, McGraw-Hill Series in Probability and Statistics.
[13] Marcella Oliveri, Modelli di analisi della sopravvivenza, Tesi di laurea, Dipartimento
di Matematica Universit`a di Genova, 1998, Relatore: Rogantin, M. P.

149

150

Bibliografia

[14] B. L. Raktoe, A. Hedayat, and Walter Theodore Federer, Factorial designs, Wiley
Series in Probability and Mathematical Statistics, John Wiley & Sons Inc., New
York, 1981.
[15] Fabio Rapallo and Maria Piera Rogantin, Statistica descrittiva multivariata, second
ed., CLUT, Torino, 2003.
[16] Maria Piera Rogantin, Introduzione alla statistica, second ed., CLUT, Torino, 2003.
[17] Henry Scheffe, The analysis of variance, Wiley Classics Library, John Wiley &
Sons Inc., New York, 1999, Reprint of the 1959 original, A Wiley Publication in
Mathematical Statistics.
[18] Shayle R. Searle, Linear models for unbalanced data, Wiley Series in Probability and
Mathematical Statistics: Applied Probability and Statistics, John Wiley & Sons Inc.,
New York, 1987.