Stat Mat

Maria Piera Rogantin
I MODELLI LINEARI
GENERALI E GENERALIZZATI
2014
Indice
1 Regressione lineare
1.1 Aspetti geometrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Interpretazione vettoriale nello spazio delle osservazioni . . . . . . .
1.1.2 Minimizzazione dellerrore di approssimazione . . . . . . . . . . . . . . .
1.1.3 Interpretazione vettoriale nello spazio delle variabili . . . . . . . . . .
1.1.4 Proiettore sullo spazio generato dalle colonne di X . . . . . . . . . . .
1.1.5 Decomposizione della varianza e indice R2 . . . . . . . . . . . . . . . . . .
1.1.6 La regressione lineare multivariata . . . . . . . . . . . . . . . . . . . . . . . .
1.1.7 Il grafico dei residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 La regressione lineare su un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Condizioni su media e varianza dei residui . . . . . . . . . . . . . . . . . .
1.2.2 Residui con legge normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Intervalli di confidenza per k e (xi )t . Residui standardizzati .
1.2.4 Test di ipotesi per il modello lineare . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Predittore del valore atteso e della risposta . . . . . . . . . . . . . . . . .
1.2.6 Stimatori di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . .
1
1
2
2
4
5
5
7
8
12
12
15
17
20
33
37
2 Analisi della varianza

2.1 Analisi della varianza a una via per esperimenti bilanciati . . . . . . . . . . . .
2.1.1 Decomposizione dello spazio V e stime per esperimenti bilanciati
2.1.2 Test per la nullità dei coefficienti relativi al fattore A . . . . . . . . .
2.2 Analisi della varianza a due vie senza interazione. . . . . . . . . . . . . . . . . . .
2.2.1 Decomposizione dello spazio V e stime dei parametri per esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 I due test per verificare la non influenza di A e di B . . . . . . . . . .
2.2.3 Decomposizione della varianza per gli esperimenti bilanciati . . .
2.3 Analisi della varianza a due vie con interazione - Fattori crossed . . . . .
2.3.1 Decomposizione dello spazio V e stime dei parametri per esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 I tre test per verificare la nullità dei tre gruppi di parametri . . .
39
39
41
43
46
47
48
49
53
54
55
Indice
II
Decomposizione della varianza per gli esperimenti bilanciati . . .

della varianza con fattori nested . . . . . . . . . . . . . . . . . . . . . . . . .
Vantaggi degli esperimenti bilanciati . . . . . . . . . . . . . . . . . . . . . . .
della varianza per esperimenti non bilanciati . . . . . . . . . . . . . . . .
Analisi della varianza a una via . . . . . . . . . . . . . . . . . . . . . . . . . . .
I diversi tipi di somme dei quadrati in SAS . . . . . . . . . . . . . . . . .
Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
della covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
57
60
60
61
62
63
65
3 Modelli lineari generali

3.1 Parametrizzazioni per modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Modelli sovraparametrizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Funzioni parametriche stimabili . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Verifica di ipotesi su funzioni parametriche . . . . . . . . . . . . . . . . .
3.1.4 Un approfondimento: stimabilità dei coefficienti e confusione .
3.2 Modello lineare multivariato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Test di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Misure ripetute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
69
69
74
77
77
79
80
80
86
4 Modelli lineari generalizzati

4.1 Link function per modelli di classe esponenziale . . . . . . . . . . . . . . . . . . . .
4.2 Stime dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Le equazioni di massima verosimiglianza . . . . . . . . . . . . . . . . . . .
4.2.2 Metodi numerici per le stime di massima verosimiglianza . . . . . .
4.3 Statistiche basate sulla verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Test di bontà di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Modello massimale e devianza . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 Statistica 2 di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.3 Statistiche basate sul modello minimale . . . . . . . . . . . . . . . . . . . .
4.5 Intervalli di confidenza e test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Inferenza sui coefficienti delle variabili esplicative . . . . . . . . . . . .
4.5.2 Inferenza sui valori attesi della variabile risposta . . . . . . . . . . . . .
4.6 Residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Due esempi estesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Alcuni modelli per variabili dicotomiche . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8.1 Odds-ratio e log-odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Modelli per variabili risposta nominali e ordinali . . . . . . . . . . . . . . . . . . .
4.9.1 Modello logistico per variabili multinomiali . . . . . . . . . . . . . . . . .
4.9.2 Modello logistico per variabili risposta multinomiali ordinali . . .
4.10 Modelli log-lineari per tabella di contingenza . . . . . . . . . . . . . . . . . . . . . .
93
94
96
97
99
104
107
107
111
112
112
112
113
113
114
120
123
124
125
126
127
5 Esercizi desame con soluzione
131
Bibliografia
149
2.4
2.5
2.6
2.3.3
Analisi
2.4.1
Analisi
2.5.1
2.5.2
2.5.3
Analisi
Capitolo 1
Regressione lineare
1.1
Aspetti geometrici
Indichiamo con y e x1 , . . . ,xp1 i vettori colonna contenti rilevazioni statistiche quantitative su n unità sperimentali. Si vuol stabilire se la variabile y è esprimibile come
combinazione lineare di x1 , . . . ,xp1 pi`
u un residuo. Le variabili x1 , . . . ,xp1 vengono
dette variabili esplicative e la variabile y viene detta variabile risposta.
In termini di ciascuna unità sperimentale, ciò significa:
yi = 0 + 1 xi1 + 2 xi2 + + p1 xi
p1
+ i
per i = 1, . . . ,n ,
e in forma vettoriale:
y = 0 + x1 1 + . . . + xp1 p1 +
dove con si è indicato il vettore (1 , . . . ,n )t .
Sia X la matrice di dimensione n p che ha come colonne i vettori 1,x1 , . . . ,xp1 , dove
1 è un vettore di dimensione n con tutti 1. Sia = (0 ,1 , . . . ,p1 )t .
Allora il modello si scrive come:
y =X +
y1
yi
yn
y
1
1
1
1
1
1
1
1
1
x1
x11
x2
x12
xp1
x1 p1
1
0
1
xi1
xi2
xi
p1
p1
xn1
xn2
xn
p1
Osserviamo che il modello viene detto lineare perche i coefficienti compaiono come termini lineari; la linearità delle relazioni in rapporto ai coefficienti può essere
1
Regressione lineare
eventualmente esplicitata dopo una trasformazione dei dati; ad esempio:

y = 0 x1 1 x2 2 (1 + ) diventa
log y = log 0 + 1 log x1 + 2 log x2 + log(1 + )
In seguito le colonne della matrice X e il vettore y potranno anche essere trasformazioni

di x1 , . . . ,xp1 e y.
La relazione fra la variabile risposta y e le variabili esplicative x1 , . . . ,xp1 , e quindi anche lerrore di approssimazione , dipendono dai parametri (0 ,1 , . . . ,p1 )t . Si vogliono
trovare quindi quei valori dei parametri che rendono minimo lerrore dellapprossimazione.
Lerrore (o residuo) di approssimazione commesso nelle diverse unità sperimentali è:
i = yi 0 1 xi1 2 xi2 p1 xi
p1
per i = 1, . . . ,n
Con motivazioni che vedremo nel prossimo paragrafo, la funzione degli errori che si
minimizza è la somma dei quadrati dei residui di ogni unità sperimentale:
SS (0 ,1 , . . . ,p1 ) =
n
X
2i
i=1
n
X
(yi 0 1 xi1 2 xi2 p1 xi
p1 )
i=1
La notazione SS sta per Sum of Squares.

1.1.1
Interpretazione vettoriale nello spazio delle osservazioni
Di seguito è riportato un esempio in cui il modello comprende una sola variabile esplicativa. In questo caso si parla di modello di regressione semplice:
y = 0 + 1 x + .
y
60
Un punto rappresenta una unità sperimentale e le sue coordinate (xi ,yi ) sono i valori
delle variabili x e y per quella unità. I valori
b0 +b1 xi , che appartengono alla retta indicata, sono la migliore approssimazione lineare
di yi tramite xi . Con (b0 ,b1 ) si sono infatti indicati i valori di (0 ,1 ) che rendono minima
la somma dei quadrati degli errori. Lerrore
minimo è indicato con ei :
ei = yi b0 b1 xi .
1.1.2
50
40
(x
(xii,, b01+xxi +
i b 1)
2)
30
20
((xxii,,yyi i))
x
0
10
20
30
40
Minimizzazione dellerrore di approssimazione
Come già detto, si vuole fare in modo che lerrore di approssimazione della variabile risposta tramite le variabili esplicative sia minimo. Si cercano allora quei valori (b0 ,b1 , . . . ,bp1 )
di (0 ,1 , . . . ,p1 ) che minimizzano la funzione SS (0 ,1 , . . . ,p1 ). Vedremo linterpretazione geometrica di questa scelta nel prossimo paragrafo. Ricaviamo qui i valori in
modo analitico, ponendo uguali a 0 le e p derivate parziali di SS (0 ,1 , . . . ,p1 ) rispetto
a 0 ,1 , . . . ,p1 .
1.1
Aspetti geometrici
Caso della regressione semplice

In questo caso
SS (0 ,1 ) =
n
X
(ei = yi b0 b1 xi )2
i=1
Le derivate parziali di SS (0 ,1 ) in 0 e 1 uguagliate a 0 sono:

2
n
X
xi (yi 0 1 xi ) = 0 e
i=1
n
X
(yi 0 1 xi ) = 0
i=1
Se indichiamo con b0 e b1 le soluzioni di tale sistema si ottiene: b0 = y b1 x e

P
n
i=1 xi (yi b1 xi y + b1 x) = 0. Dallultima segue:
!
n
n
n
n
X
X
X
X
xi y i y
x i = b1
x2i x
xi
cioè, cov(x,y) = b1 V(x)
i=1
i=1
i=1
i=1
Quindi le soluzioni cercate, se x non è costante, sono:

b0 = y b1 x
e b1 =
cov(x,y)
V(x)
Le soluzioni del sistema delle derivate prime uguagliate a 0 corrispondono a un minimo

in quanto la funzione da minimizzare è una somma di quadrati; non è quindi necessario
calcolare le derivate seconde.
(xx)+y è detta retta di regressione di y rispetto a x. Osserviamo
La retta y = cov(x,y)
V(x)
che tale retta passa per il punto (x,y), baricentro della nuvola dei dati, e che il segno del
suo coefficiente angolare è quello della covarianza fra le due variabili.
Lerrore che si commette approssimando y con una funzione lineare di x è:
2
n
X

cov(x,y)
(x i x) = . . . = n V(y) 1 2 (x,y)
SS (b0 ,b1 ) =
yi y
V(x)
i=1
Questa quantità è tanto pi`
u piccola quanto pi`
u è piccola la numerosità campionaria e la
varianza di y e quanto pi`
u è grande, in valore assoluto, la correlazione tra le variabili.
A parità di V(y) e n, pi`
u i dati sono ben correlati, pi`
u è buona lapprossimazione con la
retta; però se V(y) è molto piccola (cioè y quasi costante), lapprossimazione lineare è
buona anche se la correlazione fra x e y è quasi nulla.
Caso della regressione multipla
Per una matrice X con un numero p di colonne, in termini vettoriali, possiamo scrivere:
SS() = t = (y X)t (y X) = yt y t Xt y yt X + t Xt X .
Essendo t Xt y e yt X scalari e inoltre uno il trasposto dellaltro, SS() diventa:
SS() = yt y 2 t Xt y + t Xt X
Eguagliando a 0 le derivate vettoriali di SS() si ha:
Xt y Xt X = 0 .
Regressione lineare
Queste vengono dette equazioni normali.

Indichiamo con b il vettore (b0 ,b1 , . . . ,bp1 )t , soluzione del sistema delle equazioni delle
derivate parziali. Se Xt X è invertibile, si ha:
1 t
b = Xt X
Xy .
La matrice Xt X è invertibile se è di rango pieno, cioè se lo è X. Supponendo che il
numero di unità sperimentali n sia superiore a p, il fatto che X sia di rango pieno vuol
dire che le colonne della matrice X sono linearmente indipendenti. Problemi legati alla
invertibilità di Xt X saranno affrontati nel capitolo relativo ai Modelli lineari generali.
Qui osserviamo solo che nel caso in cui la condizione di invertibilità non fosse verificata
si può rendere di rango pieno la matrice X togliendo dal modello una o pi`
u variabili che
risultano essere combinazioni lineari di altre.
1.1.3
Interpretazione vettoriale nello spazio delle variabili
Vediamo a che cosa corrisponde, da un punto di vista geometrico nello spazio delle
colonne, la minimizzazione della funzione SS (), cioè la minimizzazione della somma
dei quadrati dei residui.
Consideriamo anzitutto il caso della regressione lineare semplice:
y = X + = 0 1 + 1 x1 +
I vettori (0 1 + 1 x1 ), al variare della coppia (0 ,1 ), appartengono a un piano, che
indicheremo con V , generato appunto dai due vettori 1 e x1 .
Il vettore è il vettore differenza fra il vettore y e il generico vettore X e il quadrato
della sua lunghezza è SS (0 ,1 ). La lunghezza del vettore è minima per la coppia di
valori (b0 ,b1 ). Indichiamo con:
- b il vettore (b0 ,b1 ),
il vettore Xb, cioè il vettore b0 1 + b1 x1 ,
- y
- e il vettore y Xb.
Quindi il vettore Xb dello spazio V che corrisponde alla minima lunghezza di è il punto
di minima distanza di y da V , cioè è la proiezione ortogonale di y su tale spazio.
Interpretazione geometrica in R3 .
Se x1 e y sono due vettori di R3 , la figura a
fianco illustra quanto spiegato sopra: in questo
caso V è un piano di R3 .
Utilizzeremo comunque la figura a lato per
visualizzare la situazione anche se i vettori
considerati appartengono a Rn .
Xb
Xb
Nel caso in cui le variabili esplicative siano pi`

u di una linterpretazione geometrica non
cambia: in questo caso V è un sottospazio vettoriale di Rn generato dalle colonne della
matrice X e il vettore Xb è la proiezione ortogonale di y su V .
1.1
1.1.4
Aspetti geometrici
Proiettore sullo spazio generato dalle colonne di X
Il proiettore di un vettore di Rn su V è:

PV = X(Xt X)1 Xt
La matrice PV è effettivamente un proiettore; infatti è:
- simmetrica; infatti PV = PtV ;
- idempotente; infatti: PV PV = X(Xt X)1 Xt X(Xt X)1 Xt = PV .
Inoltre applicato a ciascun vettore che genera V , cioè a 1,x1 , . . . ,xp1 produce il vettore
stesso:
PV X = X(Xt X)1 Xt X = X
In particolare applicato alla colonna di X formata dal vettore 1 significa che la somma
di ciascuna riga di PV è 1; useremo questa relazione in seguito.
Esempio A
Consideriamo una popolazione di pioppi studiata da ricercatori della Pennsylvania
State University. Costruiamo un modello per esprimere laltezza tramite il diametro.
`
I risultati della regressione dellaltezza tramite il diametro sono i seguenti. E
riportata solo la parte di output oggetto di studio in questo capitolo.
The REG Procedure
Model: MODEL1
Dependent Variable: Altezza
Number of Observations Read
Number of Observations Used
295
295
Analysis of Variance
Source
Model
Error
Corrected Total
Root MSE
Dependent Mean
Coeff Var
1.1.5
DF
1
293
294
8.10615
76.65583
10.57474
Sum of
Squares
138748
19253
158001
R-Square
Adj R-Sq
Mean
Square
138748
65.70974
0.8781
0.8777
Decomposizione della varianza e indice R2
Esaminiamo la tabella Analysis of Variance. Le righe corrispondono ai vettori:

- y
y (Model),
- e, ovvero y y
(Error),
- y y (Total).
Regressione lineare
Linterpretazione geometrica è la seguente:

- il vettore e, ovvero y y
, è contenuto nel
sottospazio ortogonale a V .
- il vettore y (con ogni elemento uguale a y)
si trova sulla bisettrice (indicata con 1) che
appartiene al sottospazio V ;
- il vettore y
y si trova in un sottospazio contenuto in V e quindi è ortogonale
al vettore e.
y
y - ^y
Error
y-y
Total
^
y
1
y
^
y-y
Model
Nella colonna Sum of Squares si possono leggere i quadrati delle lunghezze dei vettori
y
y, e e y y. Per il teorema di Pitagora, il quadrato della lunghezza di y y è la
somma dei quadrati delle lunghezze di y y
ey
y.
Nella colonna DF (Degree of Freedom) si leggono le dimensioni degli spazi in cui si
trovano i tre vettori. Il vettore y ha dimensione n, il vettore y ha dimensione 1, lo spazio
vettoriale V ha dimensione p; quindi:
- il vettore y
y appartiene a uno spazio di dimensione p 1,
- il vettore e appartiene a uno spazio di dimensione n p,
- il vettore y y appartiene a uno spazio di dimensione n 1.
Un indice che permette di valutare ladeguatezza del modello è il coefficiente R2 , che
nelloutput è indicato con R-sq e si trova prima della tabella Analysis of Variance.
Tale indice ha due possibili interpretazione equivalenti.
La prima consiste nel considerarlo come rapporto fra la varianza dellapprossimazione
lineare y
e la varianza della variabile risposta y (o meglio il rapporto fra i numeratori di
tali varianze).
Il numeratore della varianza di y è il quadrato della lunghezza di y y.
Il numeratore della varianza di y
è il quadrato della lunghezza di y
y; infatti il
valore medio di y
è y:
n
1X
1
1
1
1
1
= 1t Xb = 1t PV y = yt PV 1 = yt 1 = y .
y
=
yi = 1t y
n i=1
n
n
n
n
n
Quindi il rapporto fra le due varianze (a meno di una costante) è il rapporto fra le due
quantità SS(Model) e SS(Total):
R2 =
SS(M odel)
SS(Error)
k
y yk2
kek2
=1
=
=
1
.
SS(T otal)
SS(T otal)
ky yk2
ky yk2
Un altro indice che viene usato per valutare la bontà del modello è lindice R2 adjusted,
che è costruito dal precedente, considerando anche i gradi di libertà:
R2 -adj = 1
kek2 /(n p)
ky yk2 /(n 1)
1.1
Aspetti geometrici
Il coefficiente R2 può essere interpretato anche come il quadrato del coefficiente di correlazione fra la variabile risposta y e la sua
approssimazione lineare y
:
y-y
R2 = 2 (y,
y)
^
y
k
yyk
infatti il rapporto kyyk
e il quadrato del
2 `
y, che
coseno fra i vettori y y e y
corrisponde a 2 (y,
y).
1
y
^y - y
Nei casi in cui il modello comprende una sola variabile esplicativa R2 è il quadrato del
coefficiente di correlazione fra la variabile risposta y e la variabile x.
Modello senza costante
Le interpretazioni vettoriali della decomposizione della varianza e del coefficiente R2
valgono quando il modello ha anche la costante, cioè quando la matrice X ha una colonna
con gli elementi tutti uguali a 1.
Infatti nel modello senza costante il vettore y non appartiene a V . Quindi langolo
u retto; inoltre il valore medio di y
non è y e quindi
fra i vettori e e y
y non è pi`
linterpretazione del coefficiente R2 come rapporto di varianze non vale pi`
u.
1.1.6
La regressione lineare multivariata
Nella regressione multivariata le variabili risposta sono y1 , . . . ,yr , ciascuna delle quali
dipende dalle stesse variabili esplicative. Indichiamo con j il vettore p-dimensionale dei
coefficienti relativi alla variabile yj e con j i corrispondenti residui, per j = 1, . . . ,q. Il
modello per ogni variabile risposta è:
y j = X j + j
per j = 1, . . . ,r
Indicando con Y la matrice con colonne y1 , . . . ,yr , con B la matrice con colonne
, . . . , r e con la matrice con colonne 1 , . . . ,r , il modello diventa:
1
Y = X +
y1
y11
...
yi1
yr
y1r
yir
yni
ynr
Y
1
1
1
1
1
1
1
1
1
x1
x11
xi1
xp1
x1p1
xip1
...
1
i1
01
11
+
...
r
r1
1i
ri
1n
rn
1
p1
xn1
xnp1
X
Regressione lineare
y1
Linterpretazione geometrica dellapprossimazione lineare nel modello multivariato non
cambia rispetto al caso precedente; infatti lo
spazio vettoriale V rimane lo stesso per ciascun modello e non intervengono eventuali
correlazioni fra le variabili risposta.
y2
e1
e2
Xb1
Xb2
V
La differenza sostanziale fra la regressione multivariata e quella a risposta univariata
che rende la prima pi`
u complicata della seconda si evidenzia quando si prendono in
considerazione gli aspetti inferenziali, che affronteremo in seguito, con test sui coefficienti
coinvolgono le correlazioni fra y 1 , . . . ,y q .
1.1.7
Il grafico dei residui
Un metodo grafico molto utile per verificare la bontà del modello è quello di analizzare
il grafico dei grafico dei residui rispetto ai valori predetti. Se si ottiene una nuvola
omogenea di punti intorno alla retta orizzontale che passa per lorigine allora vuol dire i
residui non presentano ulteriori caratteristiche da modellare.
Esempio B Riprendiamo lEsempio A relativo alla descrizione dellaltezza di alcuni
esemplari di pioppi in funzione del diametro. Qui sotto sono riportati il grafico di
dispersione con la retta di regressione e il corrispondente grafico dei residui.
Se la dipendenza della variabile risposta dalle variabili esplicative non è lineare ma è

ad esempio quadratica, logaritmica, . . . , il grafico dei residui rispetto ai valori predetti
enfatizzerà questa dipendenza non lineare.
Osserviamo che il grafico dei residui rispetto ai valori predetti è comunque bidimensionale anche in presenza di pi`
u variabili esplicative; è quindi una rappresentazione grafica
che può essere sempre effettuata.
Ricerca del modello tramite il grafico dei residui
Vediamo tramite il seguente esempio come si può trovare un buon modello utilizzando
il grafico dei residui.
1.1
Aspetti geometrici
Esempio C Si vuole stabilire se esiste una dipendenza fra il flusso di un corso dacqua
(cioè la quantità di acqua che passa in un dato punto in un determinato intervallo di
tempo) e la profondità del corso dacqua. I dati e il diagramma di dispersione sono i
seguenti:
ROW
profond
flusso
1
2
3
4
5
6
7
8
9
10
0.34
0.29
0.28
0.42
0.29
0.41
0.76
0.73
0.46
0.40
0.636
0.319
0.734
1.327
0.487
0.924
7.350
5.890
1.979
1.124
Si può già intravedere che la dipendenza lineare non è marcata; questo si osserva
ancora meglio tramite il grafico dei residui di un modello in cui si è supposta una
dipendenza lineare. Degli output delle regressioni seguenti sono riportate solo le parti
relative alla statistica descrittiva.
Modello 1: y = 0 + 1 x +
DF
1
8
9
Sum of
Squares
51.73860
2.91341
54.65201
Root MSE
Dependent Mean
Coeff Var
0.60347
2.07700
29.05490
Source
Model
Error
Corrected Total
Obs
1
2
3
4
5
6
7
8
9
10
Dependent Predicted
Variable Value Residual
0.6360 0.7213
0.3190 0.0296
0.7340 -0.1087
1.3270 1.8280
0.4870 0.0296
0.9240 1.6897
7.3500 6.5314
5.8900 6.1164
1.9790 2.3813
1.1240 1.5513
-0.0853
0.2894
0.8427
-0.5010
0.4574
-0.7657
0.8186
-0.2264
-0.4023
-0.4273
Mean
Square
51.73860
0.36418
R-Square
Adj R-Sq
F Value
142.07
0.9467
0.9400
Pr > F
<.0001
10
Regressione lineare
Modello 2: y = 0 + 1 x + 2 x2 +
I dati e il precedente grafico dei residui
possono indurre a supporre una dipendenza quadratica; si può quindi costruire un modello polinomiale del secondo
ordine in cui le variabili esplicative sono due, x e x2 . Il grafico dei residui è
riportato a fianco.
Il grafico dei residui della regressione polinomiale del secondo ordine presenta già
un andamento migliore ma si possono provare altri modelli ad esempio:
y = 0 + 1 x +
oppure
log(y) = 0 + 1 log(x) +
Il primo di questi due modelli è del tutto simile al modello 2, mentre il secondo
è motivato dal fatto che i due valori con il flusso e la profondità pi`
u alti sono quelli
che si discostano maggiormente dalla linearità rispetto agli altri dati e il logaritmo
schiaccia i valori pi`
u alti.
Analizziamo i risultati nei due casi.
Modello 3: y = 0 + 1 x +
Di seguito sono riportati il diagramma di dispersione in cui la variabile risposta è stata
trasformata tramite la radice quadrata e il grafico dei residui del modello.
Modello 4: log(y) = 0 + 1 log(x) +

Di seguito sono riportati il diagramma di dispersione in cui sia la variabile risposta
che la variabile esplicativa sono stata trasformate tramite il logaritmo e il grafico dei
residui del modello.
1.1
Aspetti geometrici
11
I grafici dei residui dei modelli 3 e 4 sono migliori di quello del modello 1; sarà
poi la conoscenza del problema specifico che farà decidere quale dei due modelli è pi`
u
opportuno.
Il grafico dei residui è molto pi`
u significativo del coefficiente R2 nella determinazione
di un buon modello di regressione lineare. Vediamo un esempio in cui il coefficiente
R2 è alto ma in cui il grafico dei residui segnale linadeguatezza del modello.
Esempio D Consideriamo alcuni dati relativi a due specie di pesci di un lago finlandese (Laengelmavesi) vicino a Tampere, labramide e il pesce persico. Si vuole
esprimere il peso in funzione della lunghezza standard (lunghezza naso inizio coda),
dellaltezza e dello spessore. Si effettua una regressione lineare per ciascuna delle due
specie.
I risultati sono i seguenti. A sinistra labramide e a destra il pesce persico. In
entrambi i casi lindice R2 è elevato: 0. 9405 per labramide e 0. 9600 per il pesce
persico, ma nel secondo caso il grafico dei residui non è una nuvola di punti omogenea
intorno allorigine ma presenta un andamento; questo è indice che per la specie pesce
persico il modello non è adeguato.
12
1.2
Regressione lineare
La regressione lineare su un campione
Nel capitolo precedente non abbiamo fatto nessuna ipotesi sul fatto che i valori di y
fossero realizzazioni campionarie di una qualche variabile aleatoria. Introducendo ipotesi
di questo tipo possiamo calcolare intervalli di confidenza ed effettuare test relativi ai parametri . Questo permette - tra laltro - di stabilire se le variabili esplicative introdotte
nel modello siano effettivamente tutte utili per lapprossimazione della variabile risposta.
1.2.1
Condizioni su media e varianza dei residui
Supponiamo che i residui siano leffetto risultante di un gran numero di cause non identificate, quindi siano una perturbazione aleatoria; allora Y diventa un vettore aleatorio
di cui si osservano alcune realizzazioni y.
Pi`
u precisamente supponiamo che ciascun residuo i sia una variabile aleatoria con
media 0 e varianza 2 costante e che inoltre che la correlazione fra due variabili aleatorie
residui sia nulla, cioè cov(i ,j ) = 0 se i 6= j.
Quindi, in forma vettoriale:
E() = 0n
cov() = 2 In
dove 0n è un vettore di dimensione n con tutti 0 e In è la matrice identità di dimensione

n.
Tali ipotesi comportano che ciascun elemento yi del vettore y sia la realizzazione di
una variabile aleatoria avente come valore atteso lelemento i-esimo del vettore X ,
E(Yi ) = (xi )t , e varianza 2 costante; supponiamo inoltre che la correlazione fra le
variabili Yi e Yj sia nulla, cioè cov(Yi ,Yj ) = 0 se i 6= j. Quindi:
E(Yi ) = (xi )t
e V(Yi ) = 2 , cov(Yi ,Yj ) = 0 se i 6= j
e, in forma vettoriale:
E(Y) = X
cov(Y) = 2 In
Il vettore Y non è quindi un campione di una stessa variabile aleatoria in quanto i valori
attesi di ciascuna Yi sono diversi.
Nei casi reali vi sono alcuni problemi relativi alle ipotesi fatte. Ipotizzando che la
varianza della variabile risposta sia costante non si ammettono fenomeni di eteroschedasticità, mentre in alcune situazioni può essere realistico supporre che ci sia dispersione
maggiore attorno a valori di Yi maggiori. Ipotizzando che la covarianza fra i residui sia
nulla non si ammette il caso, ad esempio, di osservazioni cronologiche, in cui, raramente,
si può fare lipotesi di correlazione nulla fra le variabili a due tempi successivi (fenomeno
di autocorrelazione). Questi casi si analizzano con altri metodi statistici che qui non
consideriamo.
Osserviamo che solo il vettore Y è considerato aleatorio, mentre le variabili x1 , . . . ,xp1
sono considerate deterministiche.
Effettuando le stime dei coefficienti con il metodo dei minimi quadrati, cos` come è
stato descritto nel Capitolo 1.1, si ha che:
1. la stima dei coefficienti del modello è b = (Xt X)1 Xt y
o con Xb, è X (Xt X)1 Xt y
2. la stima dei valori attesi E(Y), indicata con y
1.2
13
3. la stima dei residui, cioe della differenza fra valori osservati e i valori stimati, e, cioè
, è e = (I X (Xt X)1 Xt ) y.
yy
Tutte queste stime risultano combinazioni lineari dei valori del vettore y, con y =
(y1 ,y2 , . . . ,yn )t . Quindi sono realizzazioni di variabili aleatorie, in quanto combinazioni
lineari di realizzazioni delle variabili aleatorie Y1 ,Y2 , . . . ,Yn .
e E i corrispondenti stimatori e elenchiamo
Indichiamo rispettivamente con B, Y
alcune loro proprietà. Osserviamo che questi sono vettori di stimatori di dimensione,
rispettivamente, p, n e n; quindi i loro valori attesi dei tre stimatori sono vettori e le loro
e
matrici di varianza/covarianza sono matrici quadrate, che indichiamo con V(B), V(Y)
V(E).
1. Stimatore B dei coefficienti :
- E(B) = e in particolare E(Bk ) = k ; quindi sono non distorti
- V(B) = 2 (Xt X)1
- ogni altro stimatore lineare non distorto ha una varianza pi`
u grande di Bk .
(o XB) dei valori attesi delle variabili risposta X:
2. Stimatore Y

= X e in particolare E Yi = (xi )t ; quindi sono non distorti
- E(Y)
= 2 (X (Xt X)1 Xt )
- V(Y)
3. Stimatore E dei residui :
- E(E) = 0
- V(E) = 2 (I X (Xt X)1 Xt )
Dimostrazioni relative alle matrici di varianza-covarianza
Per dimostrare le relazioni precedenti premettiamo prima il calcolo della matrice di matrice di varianza covarianza di un vettore aleatorio Y = (X1 , . . . ,Xp )t di valore atteso
E(Y ) = = (1 , . . . ,p ). La matrice di varianza covarianza di Y è:

V(Y ) = E (Y ) (Y )t = E Y Y t Y t Y t + t =

= E Y Y t E Y t E Y t + t =

= E Y Y t t t + t = E Y Y t t
1. Matrice di varianza covarianza degli stimatori B dei coefficienti . Si ha:
E(B) =

V(B) = E BB t t = E (X t X)1 X t Y Y t X(X t X)1 t =

= (X t X)1 X t E Y Y t X(X t X)1 t

Essendo V(Y ) = E Y Y t X t X t = 2 I, si ha:

V(B) = (X t X)1 X t 2 I + X t X t X(X t X)1 t =
= 2 (X t X)1
14
Regressione lineare
2. Matrice di varianza covarianza degli stimatori Y dei valori attesi di Y . Si ha:

E(Y ) = E(Y ) = X

V(Y ) = E XBB t X t X t X t = XV(B)X t = 2 X(X t X)1 X t
= 2P V
3. Matrice di varianza covarianza degli stimatori E dei residui . Si ha:
E(E) = E(Y XB) = 0

V(E) = V(Y XB) = V Y X(X t X)1 X t Y =

= I X(X t X)1 X t V (Y ) = 2 I X(X t X)1 X t =
= 2P V
Nelle matrici di varianza/covarianza precedenti compare il termine 2 che in generale
è incognito.
Pn
P
t
2
Lo stimatore n1 ni=1 Ei2 di 2 è distorto. Infatti si ha
i=1 Ei = E E e inoltre,
essendo la traccia di una matrice la somma degli elementi sulla diagonale si ha

E E t E = E traccia(EE t ) = traccia E EE t = traccia (V(E)) = 2 traccia P V
La matrice P V è idempotente (essendo un proiettore) e quindi la sua traccia è uguale
al suo rango, che sappiamo essere n p.
Quindi uno stimatore non distorto di 2 è:
n
1 X 2
S =
E
n p i=1 i
2
Stimatori non distorti delle matrici di varianza/covarianza precedenti si ottengono

sostituendo al valore 2 lo stimatore S 2 . In particolare
1. uno stimatore della varianza di Bk che indichiamo con Sk2 è uguale a S 2 moltiplicato per il k-esimo termine della diagonale di (Xt X)1 .
2. uno stimatore della varianza di Yi che indichiamo con (Si? )2 è uguale a S 2
moltiplicato per li-esimo termine della diagonale di X (Xt X)1 Xt .
3. uno stimatore della varianza di Ei che indichiamo con (Si?? )2 è uguale a S 2
moltiplicato per li-esimo termine della diagonale di (I X (Xt X)1 Xt ).
Esempio E
Riprendiamo lEsempio A già analizzato nel Capitolo 1.1, relativo allaltezza dei
pioppi in dipendenza del diametro e analizziamo nuove parti di output.
Model: MODEL1
Dependent Variable: Altezza
295
295
1.2
DF
Sum of
Squares
1
293
294
138748
19253
158001
Root MSE
Dependent Mean
Coeff Var
8.10615
76.65583
10.57474
Source
Model
Error
Corrected Total
15
Mean
Square
138748
65.70974
R-Square
Adj R-Sq
F Value
Pr > F
2111.53
<.0001
0.8781
0.8777
Parameter Estimates
Variable
Intercept
Diametro
DF
1
1
Parameter
Estimate
14.00115
12.76450
Standard
Error
1.44287
0.27778
t Value
9.70
45.95
Pr > |t|
<.0001
<.0001
Nella tabella Parameter Estimates sono indicate le stime bk dei parametri k ,

colonna Parameter Estimate, e le stime delle deviazione standard sk degli stimatori
Bk , colonna Standard error.
Il valore Root MSE 8.10615 è il valore dello stimatore della deviazione standard del
modello.
Commenteremo le altre parti delloutput in seguito.
1.2.2
Residui con legge normale
In molte situazioni concrete è ragionevole modellare i residui con una variabile aleatoria
con legge normale. Se la variabile aleatoria Y è quantitativa e assume valori su tutto
lintervallo reale, lipotesi di normalità dei residui può essere giustificata dal considerarli
come il risultato della somma di pi`
u variabili aleatorie non specificate nel modello e
quindi con legge tendente alla legge normale.
Quindi alle assunzioni precedenti su valore atteso e varianza/covarianza:
E() = 0n
V() = 2 In
va aggiunta lipotesi che ciascun i abbia legge normale N (0,).

Queste ipotesi sono equivalenti a supporre che il vettore Y osservato sia la realizzazione
di un vettore aleatoria di legge normale con:
E(Y) = X
V(Y) = 2 In
Dalle assunzioni sulla legge dei residui si possono dedurre le leggi degli stimatori B,
e E. Per trovare tali leggi utilizziamo un teorema di Teorema di Cochran di cui
Y
riportiamo qui di seguito una versione e la sua dimostrazione.
Teorema di Cochran
Sia X = (X1 , . . . ,Xn ) un campione di legge N (0, 2 ).
a) Le componenti di X in ogni base ortonormale di Rn formano un n-campione di
legge N (0, 2 ). Pi`
u precisamente se H è la matrice di dimensione n n con colonne
16
Regressione lineare
i vettori della nuova base ortonormale di Rn , allora il vettore aleatorio Ht X ha legge

N (0n , 2 In ).
b) Sia E1 . . . Es una decomposizione di Rn in s sottospazi due a due ortogonali
di dimensioni rj (1 j s). Si può scegliere una base ortonormale di Rn tale che
ciascun Ej sia generato da rj vettori di questa base. Sia Hj la matrice di dimensione
n rj con colonne i vettori della nuova base di Ej .
Il proiettore ortogonale sullo spazio Ej è: PEj = Hj Htj e la proiezione di X su Ej è:
XEj = PEj X = Hj Htj X
Si ha:
i) Il valore atteso e la matrice di varianza covarianza di XEj sono:
E(XEj ) = 0n
V(XEj ) = 2 Hj Htj
ii) I vettori aleatori XE1 , . . . ,XEs sono indipendenti.

iii) I vettori aleatori kXE1 k2 , . . . ,kXEs k2 sono indipendenti e le variabili aleatorie
kXEj k2
2
hanno legge
2[rj ]
per 1 j s
Dimostrazione
a) Si ha Ht H = In . Inoltre il valore atteso e la matrice di varianza covarianza di Ht X
sono:

E(Ht X) = Ht E(X) = 0n
V(Ht X) = Ht E XXt H = 2 In
b) Il proiettore ortogonale sullo spazio Ej è: PEj = Hj Htj Hj
1
Htj = Hj Htj . Si ha:
i) Il valore atteso e la matrice di varianza covarianza di XEj sono:

E(XEj ) = E(Hj Htj X) = 0n
V(XEj ) = Hj Htj E XXt Hj Htj = 2 Hj Htj
ii) Gli elementi del vettore aleatorio XEj e gli elementi del vettore aleatorio XEt
con j 6= thanno covarianza nulla; infatti:

E(XEj XtEt ) = E Hj Htj XXt Htt Ht = 2 Hj Htj Ht Htt = 2 Hj 0rj rt Htt = 0nn
iii) I vettori aleatori kXEj k2 e kXEt k2 sono indipendenti in quanto costruiti tramite
i due vettori XEj e XEt che sono indipendenti.
La norma al quadrato di XEj è:
kXEj k2 = XtEj XEj = Xt Hj Htj Hj Htj X = kHtj Xk2

Avendo il vettore Htj X legge N 0rj , 2 Irj , si ha:
kXEj k2
' 2[rj ]
2
1.2
17
Applicazione al modello lineare: legge degli stimatori dei parametri

. Il vettore aleatorio di legge N (0, 2 ) a cui applicare
il teorema di Cochran è il vettore (e non Y, in
quanto le sue componenti non sono identicamente
distribuite, avendo valori attesi diversi)
y
PV
y^
. I sottospazi ortogonali sono V e V di dimensioni

p e n p. I proiettori sono PV = X(Xt X)1 Xt e
PV = I X(Xt X)1 Xt
PV
. La proiezione di su V è il vettore E per cui la variabile aleatoria

kEk2
2
ha legge 2[np]
Inoltre:
e E appartengono a spazi ortogonali e hanno legge normale; per
a) I vettori aleatori Y
cui sono indipendenti.
= X(Xt X)1 X Y e B = (Xt X)1 Xt Y.
Quindi lo sono anche B e E; infatti Y
E lo sono anche B e kEk2 .
b) Ciascuna variabile aleatoria Bk , elemento k-esimo del vettore aleatorio B ha legge
N (k , 2 vk2 ), con vk2 elemento diagonale della matrice (Xt X)1
Per cui, essendo S 2 =
kEk2
,
np
Bk k
vk
S
la variabile aleatoria:
ovvero
Bk k
S vk
ha legge t2[np]
Indichiamo come sopra con Sk lo stimatore della standard deviation di Bk e ricordiamo

che k è il valore atteso di Bk .
1.2.3
Intervalli di confidenza per k e (xi )t . Residui standardizzati
Il risultato precedente ci permette di costruire intervalli di confidenza per i parametri k ,

per i valori attesi (xi )t delle variabili risposta, a un livello di significatività prefissato
. Indichiamo con t il valore del quantile 1 /2 di una variabile aleatoria con legge t
di Student a n p gradi di libertà.
1. Coefficienti :

Bk t Sk ,Bk + t Sk
2. Valori attesi delle variabili risposta (xi )t

Yi t Si? ,Yi + t Si?
Infatti dal risultato relativo alla legge dei Bk segue che gli stimatori Yi hanno legge
normale con media (xi )t e varianza stimata (Si? )2 . Ricordiamo che con (Si? )2 si è
18
Regressione lineare
indicato il termine i-esimo della diagonale della matrice X (Xt X)1 Xt moltiplicato
per S 2 . Quindi la variabile aleatoria
Yi (xi )t
Si?
ha legge t di Student con n p gradi di libertà.
Sostituendo i valori campionari bk e sk , yi e s?i si ottengono le realizzazioni campionaria
di tali intervalli.
Dai risultati precedenti segue che le variabili aleatorie
Ei /Si??
2
hanno legge t di Student a n p gradi di libertà; ricordiamo che con (s??
i ) abbiamo
indicato il termine i-esimo della diagonale della matrice I X (Xt X)1 Xt moltiplicata
per S 2 .
I software statistici forniscono spesso i cosiddetti residui standardizzati o studentizzati (studentized residual) che sono le quantità
ei /s??
i
In genere il grafico dei residui viene fatto utilizzando queste quantità perche sono depurate dalle deviazioni standard e quindi meglio confrontabili fra loro.
Esempio F
Si vuole stabilire se il consumo di ossigeno da parte di atleti che praticano sport
di fondo è esprimibile come combinazione lineare di variabili esplicative facilmente
rilevabili anche sul campo.
Le variabili esplicative considerate sono:
-
letà del soggetto (eta),

letà del soggetto (peso),
il tempo di percorrenza di un prefissato tragitto (tempo),
le pulsazioni cardiache al minuto da fermo (pulsfer),
le pulsazioni cardiache al minuto medie (pulsmed),
le pulsazioni cardiache al minuto massime nella corsa (pulsmax),
Il programma SAS è il seguente.

proc reg data=fitness;
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse /
corrb clb clm p r ;
plot student.*p.;
run; quit;
Le opzioni corrb clb clm p r permettono di ottenere rispettivamente le stime delle

matrici di covarianza e di correlazione degli stimatori B, gli intervalli di confidenza
e E.
per i coefficienti e per i valori attesi delle variabili risposta Y i valori Y
I risultati sono i seguenti.
1.2
19
Source
Model
Error
Corrected Total
Sum of
Squares
722.54361
128.83794
851.38154
DF
6
24
30
Root MSE
Dependent Mean
Coeff Var
2.31695
47.37581
4.89057
Mean
Square
120.42393
5.36825
R-Square
Adj R-Sq
F Value
22.43
Pr > F
<.0001
0.8487
0.8108
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
1
1
1
1
1
1
1
102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322
12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650
8.30
-2.27
-1.36
-6.84
-3.08
-0.33
2.22
<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360
Variable
95% Confidence Limits
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
77.33541
-0.43303
-0.18685
-3.42235
-0.61699
-0.15786
0.02150
128.53355
-0.02092
0.03850
-1.83496
-0.12226
0.11480
0.58493
Correlation of Estimates
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
Intercept
1.0000
-0.7285
-0.2632
0.1610
0.1889
-0.1806
-0.4919
Age
-0.7285
1.0000
0.1875
-0.3696
-0.1006
0.2259
0.2629
Weight
-0.2632
0.1875
1.0000
-0.2104
0.1474
0.1054
-0.1842
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
RunPulse
0.1889
-0.1006
0.1474
-0.1963
1.0000
-0.0966
-0.9140
RestPulse
-0.1806
0.2259
0.1054
-0.4297
-0.0966
1.0000
0.0380
MaxPulse
-0.4919
0.2629
-0.1842
0.0881
-0.9140
0.0380
1.0000
RunTime
0.1610
-0.3696
-0.2104
1.0000
-0.1963
-0.4297
0.0881
20
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Dep Var Predicted

Std Error
Oxygen
Value Mean Predict
44.6090
45.3130
54.2970
59.5710
49.8740
44.8110
45.6810
49.0910
39.4420
60.0550
50.5410
37.3880
44.7540
47.2730
51.8550
49.1560
40.8360
46.6720
46.7740
50.3880
39.4070
46.0800
45.4410
54.6250
45.1180
39.2030
45.7900
50.5450
48.6730
47.9200
47.4670
44.4799
48.1954
56.1519
56.8041
51.0710
43.0132
44.8244
48.9203
40.2197
58.0793
48.7762
37.5993
45.7745
47.3677
46.4703
50.8615
46.2386
49.3203
47.1135
47.2738
39.1567
46.4614
48.8382
54.8806
44.7887
39.1324
45.3528
50.7506
48.4904
46.6774
45.5659
0.8734
1.0672
1.1443
1.2075
1.1743
0.6705
1.1907
1.0635
1.0438
1.6245
1.0925
1.5015
1.0219
0.8839
0.8320
1.1855
0.6639
0.6103
1.1692
1.2236
1.0656
1.2187
0.7598
1.1055
0.9153
1.4192
1.1495
1.3230
1.1986
1.1923
0.7433
Regressione lineare
95% CL Mean
42.6773
45.9928
53.7903
54.3119
48.6474
41.6294
42.3668
46.7255
38.0654
54.7266
46.5213
34.5004
43.6654
45.5435
44.7531
48.4147
44.8684
48.0607
44.7003
44.7485
36.9574
43.9463
47.2701
52.5990
42.8996
36.2033
42.9804
48.0201
46.0167
44.2166
44.0318
46.2825
50.3981
58.5136
59.2963
53.4946
44.3970
47.2819
51.1152
42.3740
61.4321
51.0311
40.6982
47.8835
49.1919
48.1875
53.3083
47.6087
50.5798
49.5266
49.7991
41.3560
48.9766
50.4063
57.1623
46.6777
42.0615
47.7252
53.4812
50.9641
49.1381
47.1001
Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)
1.2.4
Residual
Std Error Student

Residual Residual
0.1291
-2.8824
-1.8549
2.7669
-1.1970
1.7978
0.8566
0.1707
-0.7777
1.9757
1.7648
-0.2113
-1.0205
-0.0947
5.3847
-1.7055
-5.4026
-2.6483
-0.3395
3.1142
0.2503
-0.3814
-3.3972
-0.2556
0.3293
0.0706
0.4372
-0.2056
0.1826
1.2426
1.9011
2.146
2.057
2.015
1.977
1.997
2.218
1.988
2.058
2.069
1.652
2.043
1.765
2.079
2.142
2.162
1.991
2.220
2.235
2.000
1.968
2.057
1.971
2.189
2.036
2.128
1.831
2.012
1.902
1.983
1.987
2.194
0.0602
-1.402
-0.921
1.399
-0.599
0.811
0.431
0.0829
-0.376
1.196
0.864
-0.120
-0.491
-0.0442
2.490
-0.857
-2.434
-1.185
-0.170
1.583
0.122
-0.194
-1.552
-0.126
0.155
0.0386
0.217
-0.108
0.0921
0.626
0.866
0
128.83794
192.78822
Test di ipotesi per il modello lineare
I procedimenti di tipo inferenziale ci permettono anche di valutare se le variabili esplicative scelte hanno una influenza statisticamente significativa sulla variabile risposta. In
genere si è interessati a individuare modelli che approssimino bene la variabile risposta
con un numero sufficientemente ridotto di variabili esplicative. Naturalmente questo tipo
di procedimenti inferenziali vanno messi in opera dopo che i procedimenti di carattere
descrittivo (analisi del grafico dei residui e dellindice R2 ) hanno permesso di scegliere
un modello adeguato per descrivere la variabile risposta.
Test di ipotesi sui singoli coefficienti k
Possiamo dire che la k-esima variabile esplicativa xk ha uninfluenza sulla variabile risposta se il suo coefficiente k non è nullo. Quindi, la conoscenza della legge della variabile
1.2
aleatoria
Bk k
,
Sk
21
ci permette di effettuare il seguente test:

H0 : k = 0
contro
H1 : k 6= 0
Se lipotesi H0 è vera, allora la variabile Tk = BSkk ha legge t di Student a n p gradi

di libertà.
Fissato un livello per il test, se il valore campionario tk appartiene a uno degli
intervalli (, t ) o (t , + ) si rifiuta lipotesi nulla, cioè si afferma che la variabile
esplicativa xk ha influenza sulla variabile risposta.
Osservazione: il test è fatto su un coefficiente per volta e ad esempio dallaccettazione che singolarmente due coefficienti sono nulli non si può concludere che entrambi
contemporaneamente sono nulli.
Esempio G Riprendiamo lesempio precedente. Nella tabella Parameter estimates,
nella colonna T-value si trovano i valori campionari tk = sbkk e nella colonna Pr > |t|
il corrispondente p-value per il test di nullità dei singoli coefficienti.
/2
Se il valore di Pr > |t| è pi`
u piccolo del livello
/2
p /2
del test allora il valore campionario tk si trova
nella regione critica del test e quindi si rifiuta
-t
lipotesi nulla, come è indicato nella figura a
t tk
fianco.
Si può osservare che singolarmente sono da considerarsi statisticamente ininfluenti
per la determinazione del consumo di ossigeno le variabili Weight, RestPulse a un
livello di significatività del 5% e le variabili Age e MaxPulse a un livello di significatività
dell1%.
Questo vuol dire che modelli ridotti, ciascuno senza una delle precedenti variabili,
permettono di approssimare altrettanto bene del modello completo la variabile risposta
Oxigen.
Esempio H Riprendiamo i dati relativi a una specie di pesci di un lago finlandese
(Laengelmavesi) vicino a Tampere già considerato nellEsempio D del Capitolo 1.1.
Abbiamo visto che per il pesce Abramide il peso può essere espresso in funzione della
lunghezza standard (lunghezza naso inizio coda), dellaltezza e dello spessore. Loutput della regressione è il seguente. Analizziamo la parte relativa ai test di nullità dei
singoli coefficienti.
Source
Model
Error
Corrected Total
DF
3
30
33
Root MSE
Dependent Mean
Coeff Var
Sum of
Mean
Squares
Square
1352263
450754
56357
1878.57495
1408620
43.34253
626.00000
6.92373
R-Square
Adj R-Sq
F Value
239.94
0.9600
0.9560
Pr > F
<.0001
22
Regressione lineare
Parameter Estimates
Variable
Intercept
lungh
alt
largh
DF
1
1
1
1
Parameter
Estimate
-886.00619
9.14971
71.32465
87.69245
Standard
Error
66.81188
7.73560
17.62939
36.68327
t Value
-13.26
1.18
4.05
2.39
Pr > |t|
<.0001
0.2462
0.0003
0.0233
La variabile lunghezza può essere considerata ininfluente e al livello dell1% anche

la larghezza. Ricordiamo che questo test si effettua su una variabile alla volta: dal
precedente output non possiamo concludere che entrambe le variabili sono ininfluenti
a livello dell1%. Per stabilire questo fatto bisogna effettuare un test sulla nullità
contemporanea di un sottoinsieme di coefficienti.
Test di ipotesi su un sottoinsieme di coefficienti
Si vuol stabilire se q variabili non incidono nella determinazione della approssimazione
della variable risposta; per comodità supponiamo che i coefficienti su cui si effettua il
test siano 1 ,2 , . . . ,q .
Questo corrisponde a verificare lipotesi
H0 : 1 = 2 = . . . = q = 0
contro
H1 : almeno uno di essi è diverso da 0
Indichiamo con X0 le p q colonne di X corrispondenti ai coefficienti non ipotizzati

nulli e con 0 il vettore di dimensione p q dei coefficienti non ipotizzati nulli.
Il modello completo (sotto lipotesi H1 ) è: Y = X + ,
mentre il modello ridotto (sotto lipotesi H0 ) è: Y = X0 0 + 0 .
Il test viene effettuato analizzando lerrore relativo che si commette nella somma dei
quadrati dei residui usando il modello ridotto, che indicheremo con SSR o con kER k2 ,
rispetto alla corrispondente somma nel modello completo, indicata con SSC o con kEC k2 ,
cioè la quantità:
kER k2 kEC k2
kEC k2
Legge della statistica test
Per determinare una quantità pivotale che permetta di effettuare il test utilizziamo
nuovamente il teorema di Cochran.
Sia V0 lo spazio generato dai vettori del
y
modello ridotto: V0 V .
EC
Decomponiamo lo spazio V in due sottospazi
V
ER
fra loro ortogonali: V0 e il suo complemento
^
yC
ortogonale in V , V \V0 ; cioè V = V0 (V \V0 ).
0
. Rn = V (V \V0 ) V0
. PV0 PV è un proiettore ortogonale
sullo spazio V \V0 di dimensione q
y^R
(PV - PV ) = PV \ V
0
PV
1.2
. a)
kPV \V0 k2
2
23
ha legge 2[q] e
kPV k2
2
ha legge 2[np]
b) kPV \V0 k2 è indipendente da kPV k2

Quindi:
(kER k2 kEC k2 ) / q
kEC k2 / (n p)
ha legge F[q,np]
Resta da dimostrare che PV0 PV è un proiettore ortogonale sullo spazio V \V0 . Si

ha: PV0 PV = I PV I + PV0 = PV PV0 . La matrice PV PV0 è un proiettore
ortogonale; infatti è simmetrica (differenza di matrici simmetriche) e idempotente:
(PV PV0 )(PV PV0 ) = P2V PV0 PV PV PV0 + P2V0 = PV 2PV0 PV + PV0
Per calcolare PV0 PV osserviamo che la matrice X0 le cui colonne generano il sottospazio V0 del modello ridotto può essere scritta come
XA, con A matrice di dimensione p (p q) la cui parte superiore
di dimensione q (p q) è tutta nulla e la cui parte inferiore è la
matrice identica di dimensione (p q) (p q).
Scrivendo esplicitamente lespressione di PV0 PV si ha:
XA(At Xt XA)1 At Xt X(Xt X)1 Xt = XA(At Xt XA)1 At Xt = PV0
p-q
X0
p-q
p-q
A
Il rango di PV PV0 è p q. Inoltre tale matrice proietta nello spazio V \V0 ; per
dimostrare ciò fatto verifichiamo che applicato a ogni vettore di tale spazio produce
il vettore stesso. Se Z è un vettore di V \V0 , allora PV z = z e PV0 z = 0. Quindi:
(PV PV0 )z = z.
Test per la nullità di un sottoinsieme di coefficienti
La verificare dellipotesi
H0 : 1 = 2 = . . . = q = 0
contro
H1 : almeno uno di essi è diverso da 0
viene quindi effettuata utilizzando

(kER k2 kEC k2 ) / q
kEC k2 / (n p)
che, se H0 è vera, ha legge di Fisher a (q,n p) gradi di libertà. Ricordiamo che q è il
numero di coefficienti che si suppongono nulli, n è il numero di osservazioni e p è il
numero di coefficienti del modello completo.
Si può giustificare il test nel seguente modo: la somma dei quadrati dei residui nel
modello ridotto è sicuramente pi`
u grande di quella nel modello completo, quindi se la
differenza fra queste due quantità rispetto alla seconda è grande leffetto delle prime q
variabili è importante e bisognerà rifiutare H0 .
Il test è unilaterale perche se H1 è vera la variabile aleatoria F ha una legge con un
numero di gradi di libertà al numeratore maggiore della stessa variabile aleatoria se H0
è vera. Quindi ha una legge pi`
u spostata verso destra e la regione critica è del tipo
(f , + ).
24
Regressione lineare
Esempio I
Riprendiamo lEsempio F di questo Capitolo sulla determinazione del consumo di
ossigeno tramite variabili misurabili facilmente sul campo. Si era osservato che singolarmente le variabili Weight e RestPulse potevano essere considerate ininfluenti.
Effettuiamo ora un test sulla nullità contemporanea dei due coefficienti.
La realizzazione campionaria della somma dei quadrati dei residui nel modello completo kEC k2 è fornita dal software, nelloutput standard. In SAS il test su un modello
ridotto viene effettuato con listruzione test. Sotto è riportato il programma e loutput
relativo al test di nullità contemporanea dei due coefficienti.
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse ;
test Weight , RestPulse;
run; quit;
The REG Procedure
Model: MODEL1
Test 1 Results for Dependent Variable Oxygen
Source
DF
Mean
Square
Numerator
Denominator
2
24
5.04604
5.36825
F Value
Pr > F
0.94
0.4045
Il p-value indica che il modello ridotto non fa perdere informazioni statisticamente

significative rispetto al modello completo. Analizziamo quindi il modello ridotto.
DF
4
26
30
Sum of
Squares
712.45153
138.93002
851.38154
Root MSE
Dependent Mean
Coeff Var
2.31159
47.37581
4.87927
Source
Model
Error
Corrected Total
Mean
Square
178.11288
5.34346
R-Square
Adj R-Sq
F Value
33.33
Pr > F
<.0001
0.8368
0.8117
Parameter Estimates
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
1
1
1
1
1
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
t Value
8.33
-2.07
-8.13
-2.96
2.02
Pr > |t|
<.0001
0.0488
<.0001
0.0064
0.0533
Osservando loutput del modello ridotto si nota che, rispetto a questo modello, la
variabile MaxPulse non apporta informazioni significative; infatti nella colonna Pr
> |t| si legge che il p-value del test sulla nullità del coefficiente di questa variabile è 0.0533. Vedremo nel successivo Paragrafo 1.2.4 alcuni metodi automatici per
determinare modelli ridotti in presenza di molte variabili esplicative.
1.2
25
Test di ipotesi sulla nullità di tutti i coefficienti esclusa la costante

I software statistici in genere forniscono un test sulla nullità contemporanea di tutti i coefficienti tranne la costante, cioè sulla non influenza complessiva delle variabili esplicative
x1 ,x2 , . . . ,xp1 : questa è una prima indicazione sulla bontà del modello.
`
Come gidetto
nel Capitolo 1.1, nella tabella Analysis of Variance delloutput dei
software statistici si possono leggere nella colonna Sum of Square i quadrati delle lun y (Error) e y y (Total), nella colonna Mean
y (Model), e = y
ghezze dei vettori y
Square i valori precedenti divisi per i corrispondenti gradi di libertà (colonna DF).
y è la differenza fra la somma dei quadrati
La somma dei quadrati del vettore y
nel modello completo e la somma dei quadrati nel modello ridotto (comprendente la sola
y è la somma dei quadrati nel
costante); la somma dei quadrati del vettore e = y
modello completo.
Quindi il rapporto fra i due valori della colonna Mean Square è proprio il valore campionario della variabile aleatoria di Fisher del test sulla non influenza delle variabili
esplicative del modello: tale valore è appunto riportato nella colonna F value; nella colonna a fianco, indicata con p, è riportata la probabilità della coda destra di una variabile
aleatoria con legge F [p 1,n p] gradi di libertà oltre il valore indicato nella colonna Pr
> F.
Modello senza costante
Riprendiamo lEsempio C del Capitolo 1.1: si vuole stabilire se esiste una dipendenza
fra il flusso di un corso dacqua (cioè la quantità di acqua che passa in un dato punto in
un determinato intervallo di tempo) e la profondità del corso dacqua.
Avevamo osservato che poteva essere opportuno un modello polinomiale del secondo
ordine. Dallanalisi delloutput si osserva che la costante può essere considerata nulla.
DF
2
7
9
Sum of
Squares
54.10549
0.54652
54.65201
Root MSE
Dependent Mean
Coeff Var
0.27942
2.07700
13.45294
Source
Model
Error
Corrected Total
Mean
Square
27.05275
0.07807
R-Square
Adj R-Sq
F Value
346.50
Pr > F
<.0001
0.9900
0.9871
Parameter Estimates
Variable
Intercept
profond
profond2
DF
1
1
1
Parameter
Estimate
1.68269
-10.86091
23.53522
Standard
Error
1.05912
4.51711
4.27447
t Value
1.59
-2.40
5.51
Pr > |t|
0.1561
0.0472
0.0009
Consideriamo quindi un modello con il termine di primo e di secondo grado senza la

costante. Loutput è il seguente.
26
Regressione lineare
NOTE: No intercept in model. R-Square is redefined.

DF
2
8
10
Sum of
Squares
97.04771
0.74359
97.79130
Root MSE
Dependent Mean
Coeff Var
0.30488
2.07700
14.67864
Source
Model
Error
Uncorrected Total
Mean
Square
48.52386
0.09295
R-Square
Adj R-Sq
F Value
522.05
Pr > F
<.0001
0.9924
0.9905
Parameter Estimates
Variable
profond
profond2
DF
1
1
Parameter
Estimate
-3.74919
16.93820
Standard
Error
0.66133
1.10711
t Value
-5.67
15.30
Pr > |t|
0.0005
<.0001
Osserviamo che per i modelli senza costante lindice R2 non è pi`

u interpretabile come
E
1 SS
;
infatti
linterpretazione
della
decomposizione
della
varianza
della variabile riSST
sposta come varianza del modello e residuo non è pi`
u valida in quanto, in questo caso,
la media della variabile Y non è pi`

u Y.
Metodi iterativi per la ricerca di modelli ridotti
1. Metodo forward
(1) si parte considerando il modello con la sola intercetta
(2) a ogni passo :
. per ciascuna variabile esplicativa non presente nel modello si calcola la statistica test F considerando come modello ridotto il modello precedente e
come completo il precedente a cui è stata aggiunta la variabile considerata
. si confronta il p-value corrispondente alla F di ciascun modello con il livello
0.50. Se nessuna variabile ha un p-value minore di 0.50 il procedimento termina. Altrimenti entra nel modello la variabile esplicativa con la F
maggiore. Quando una variabile entra nel modello non viene pi`
u tolta.
(3) Il procedimento termina - come già detto - quando nessuna variabile non presente nel modello ha una F con p-value maggiore di 0.50 (per nessuna rifiuto
che il suo coefficiente sia nullo, cioè tutte le variabili non presenti nel modello
hanno un coefficiente che può essere considerato nullo)
2. Metodo backward
(1) si parte considerando il modello con tutte le variabili
(2) a ogni passo:
. per ciascuna variabile esplicativa presente nel modello si calcola la statistica
test F considerando come modello completo il modello precedente e come
ridotto il precedente a cui è stata tolta la variabile considerata
1.2
27
. si confronta il p-value corrispondente alla F di ciascun modello con il livello

0.10. Se nessuna variabile ha un p-value maggiore di 0.10 il procedimento
termina. Altrimenti esce dal modello la variabile esplicativa con la F minore.
Quando una variabile esce dal modello non viene pi`
u inserita.
(3) Il procedimento termina - come già detto - quando nessuna variabile presente
nel modello ha una F con p-value minore di 0.10 (per nessuna accetto che il
suo coefficiente sia nullo, cioè tutte le variabili presenti nel modello hanno un
coefficiente che non può essere considerato nullo)
3. Metodo stepwise
(1) si parte considerando il modello con la sola intercetta
(2) a ogni passo:
. per ciascuna variabile esplicativa non presente nel modello si calcola la statistica test F considerando come modello ridotto il modello precedente e
come completo il precedente a cui è stata aggiunta la variabile considerata
e si procede come per il metodo forward
. per ciascuna variabile esplicativa presente nel modello si calcola la statistica
test F considerando come modello completo il modello precedente e come
ridotto il precedente a cui è stata tolta la variabile considerata e si procede
come per il metodo backward (livello 0.15)
. Le variabili possono entrare e uscire anche pi`
u volte.
(3) Il procedimento termina quando nessuna variabile non presente nel modello ha
una F con p-value minore di 0.50 e nessuna variabile presente nel modello ha
una F con p-value maggiore di 0.15
Il metodo stepwise è una modifica del metodo forward e differisce da questo nel fatto
che una variabile che è stata inserita nel modello può anche essere tolta. Come nel
metodo forward, le variabili vengono aggiunte nel modello una a una e sono aggiunte
solo se la statistica F è significativa. Dopo che una variabile è stata aggiunta,
comunque, il metodo stepwise controlla tutte le variabili già incluse e cancella tutte
quelle che non producono una F significativa per essere conservate. Dopo che questo
controllo è stato fatto, ed eventualmente sono state eliminate delle variabili, viene
aggiunta una nuova variabile.
Esempio J Riprendiamo lEsempio F di questo Capitolo e applichiamo i tre metodi
automatici sopra descritti per la determinazione di modelli ridotti.
28
Regressione lineare
Metodo forward
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
run;
Dependent Variable: Oxygen
/ selection=forward;
Forward Selection: Step 1

Variable RunTime Entered: R-Square = 0.7434 and C(p) = 13.6988
Source
Model
Error
Corrected Total
DF
1
29
30
Sum of
Mean
Squares
Square
632.90010
632.90010
218.48144
7.53384
851.38154
F Value
84.01
Pr > F
<.0001
Parameter
Standard
Estimate
Error
Type II SS F Value Pr > F
82.42177
3.85530
3443.36654
457.05 <.0001
-3.31056
0.36119
632.90010
84.01 <.0001
Bounds on condition number: 1, 1
-----------------------------------------------------------------------------------Forward Selection: Step 2
Variable Age Entered: R-Square = 0.7642 and C(p) = 12.3894
Variable
Intercept
RunTime
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
DF
2
28
30
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154
Parameter
Estimate
88.46229
-0.15037
-3.20395
Standard
Error
5.37264
0.09551
0.35877
Type II SS
1943.41071
17.76563
571.67751
F Value
45.38
F Value
271.11
2.48
79.75
Pr > F
<.0001
Pr > F
<.0001
0.1267
<.0001
Bounds on condition number: 1.0369, 4.1478

Variable RunPulse Entered: R-Square = 0.8111 and C(p) = 6.9596
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
DF
3
27
30
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154
Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091
Standard
Error
10.23509
0.09623
0.35828
0.05059
Type II SS
709.69014
42.28867
370.43529
39.88512
F Value
38.64
F Value
119.14
7.10
62.19
6.70
Pr > F
<.0001
Pr > F
<.0001
0.0129
<.0001
0.0154

------------------------------------------------------------------------------------
1.2
29
Forward Selection: Step 4

Variable MaxPulse Entered: R-Square = 0.8368 and C(p) = 4.8800
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
4
26
30
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
33.33
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

Variable Weight Entered: R-Square = 0.8480 and C(p) = 5.1063
Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
MaxPulse
DF
5
25
30
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154
Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491
Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394
Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640
F Value
27.90
F Value
72.79
5.29
1.84
61.89
10.16
5.18
Pr > F
<.0001
Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316

-----------------------------------------------------------------------------------No other variable met the 0.5000 significance level for entry into the model.
Summary of Forward Selection
Step
Variable
Entered
1
2
3
4
5
RunTime
Age
RunPulse
MaxPulse
Weight
Number
Vars In
1
2
3
4
5
Partial
R-Square
Model
R-Square
C(p)
0.7434
0.0209
0.0468
0.0257
0.0112
0.7434
0.7642
0.8111
0.8368
0.8480
13.6988
12.3894
6.9596
4.8800
5.1063
F Value
Pr > F
84.01
2.48
6.70
4.10
1.84
<.0001
0.1267
0.0154
0.0533
0.1871
30
Regressione lineare
Metodo backward
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse / selection=backward;
run;
Backward Elimination: Step 0
All Variables Entered: R-Square = 0.8487 and C(p) = 7.0000
Source
Model
Error
Corrected Total
Variable
Intercept
Age
Weight
RunTime
RunPulse
RestPulse
MaxPulse
DF
6
24
30
Sum of
Mean
Squares
Square
722.54361
120.42393
128.83794
5.36825
851.38154
Parameter
Estimate
102.93448
-0.22697
-0.07418
-2.62865
-0.36963
-0.02153
0.30322
Standard
Error
12.40326
0.09984
0.05459
0.38456
0.11985
0.06605
0.13650
Type II SS
369.72831
27.74577
9.91059
250.82210
51.05806
0.57051
26.49142
F Value
22.43
F Value
68.87
5.17
1.85
46.72
9.51
0.11
4.93
Pr > F
<.0001
Pr > F
<.0001
0.0322
0.1869
<.0001
0.0051
0.7473
0.0360

-----------------------------------------------------------------------------------Backward Elimination: Step 1
Variable RestPulse Removed: R-Square = 0.8480 and C(p) = 5.1063
Source
Model
Error
Corrected Total
DF
5
25
30
Sum of
Mean
Squares
Square
721.97309
144.39462
129.40845
5.17634
851.38154
F Value
27.90
Pr > F
<.0001
Backward Elimination: Step 1

Variable
Intercept
Age
Weight
RunTime
RunPulse
MaxPulse
Parameter
Estimate
102.20428
-0.21962
-0.07230
-2.68252
-0.37340
0.30491
Standard
Error
11.97929
0.09550
0.05331
0.34099
0.11714
0.13394
Type II SS
376.78935
27.37429
9.52157
320.35968
52.59624
26.82640
F Value
72.79
5.29
1.84
61.89
10.16
5.18
Pr > F
<.0001
0.0301
0.1871
<.0001
0.0038
0.0316

-----------------------------------------------------------------------------------Backward Elimination: Step 2
Variable Weight Removed: R-Square = 0.8368 and C(p) = 4.8800
Source
Model
DF
4
Sum of
Mean
Squares
Square
712.45153
178.11288
F Value
33.33
Pr > F
<.0001
1.2
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
31
26
30
138.93002
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
5.34346
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

-----------------------------------------------------------------------------------All variables left in the model are significant at the 0.1000 level.
Step
Variable
Removed
1
2
RestPulse
Weight
Summary of Backward Elimination

Number
Partial
Model
Vars In
R-Square
R-Square
C(p)
5
4
0.0007
0.0112
0.8480
0.8368
F Value
5.1063
4.8800
0.11
1.84
Pr > F
0.7473
0.1871
Metodo stepwise
model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse
/ selection=stepwise;
Stepwise Selection: Step 1
Variable RunTime Entered: R-Square = 0.7434 and C(p) = 13.6988
Source
DF
Model
Error
Corrected Total
1
29
30
Variable
Intercept
RunTime
Sum of
Squares
632.90010
218.48144
851.38154
Parameter
Estimate
82.42177
-3.31056
Standard
Error
3.85530
0.36119
Mean
Square
632.90010
7.53384
Type II SS
3443.36654
632.90010
F Value
Pr > F
84.01
<.0001
F Value
457.05
84.01
Pr > F
<.0001
<.0001
Bounds on condition number: 1, 1

-----------------------------------------------------------------------------------Stepwise Selection: Step 2
Variable Age Entered: R-Square = 0.7642 and C(p) = 12.3894
Source
Model
Error
Corrected Total
DF
2
28
30
Sum of
Mean
Squares
Square
650.66573
325.33287
200.71581
7.16842
851.38154
F Value
45.38
Pr > F
<.0001
32
Variable
Intercept
Age
RunTime
Parameter
Estimate
88.46229
-0.15037
-3.20395
Regressione lineare
Standard
Error
5.37264
0.09551
0.35877
Type II SS
1943.41071
17.76563
571.67751
F Value
271.11
2.48
79.75
Pr > F
<.0001
0.1267
<.0001

Variable RunPulse Entered: R-Square = 0.8111 and C(p) = 6.9596
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
DF
3
27
30
Sum of
Mean
Squares
Square
690.55086
230.18362
160.83069
5.95669
851.38154
Parameter
Estimate
111.71806
-0.25640
-2.82538
-0.13091
Standard
Error
10.23509
0.09623
0.35828
0.05059
Type II SS
709.69014
42.28867
370.43529
39.88512
F Value
38.64
F Value
119.14
7.10
62.19
6.70
Pr > F
<.0001
Pr > F
<.0001
0.0129
<.0001
0.0154

Variable MaxPulse Entered: R-Square = 0.8368 and C(p) = 4.8800
Source
Model
Error
Corrected Total
Variable
Intercept
Age
RunTime
RunPulse
MaxPulse
DF
4
26
30
Sum of
Mean
Squares
Square
712.45153
178.11288
138.93002
5.34346
851.38154
Parameter
Estimate
98.14789
-0.19773
-2.76758
-0.34811
0.27051
Standard
Error
11.78569
0.09564
0.34054
0.11750
0.13362
Type II SS
370.57373
22.84231
352.93570
46.90089
21.90067
F Value
33.33
F Value
69.35
4.27
66.05
8.78
4.10
Pr > F
<.0001
Pr > F
<.0001
0.0488
<.0001
0.0064
0.0533

-----------------------------------------------------------------------------------All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the model.
Variable
Entered
RunTime
Age
RunPulse
MaxPulse
Variable
Removed
Summary of Stepwise Selection

Number
Partial
Model
Vars In
R-Square
R-Square
1
2
3
4
0.7434
0.0209
0.0468
0.0257
0.7434
0.7642
0.8111
0.8368
C(p)
13.6988
12.3894
6.9596
4.8800
F Value
Pr > F
84.01
2.48
6.70
4.10
<.0001
0.1267
0.0154
0.0533
1.2
33
Infine un test sulla nullità contemporanea dei coefficienti di Weight, RestPulse e

MaxPulse ci permette di dire che il modello senza queste variabili non fa perdere
i.formazioni significative rispetto al modello iniziale.
model Oxygen=Age Weight RunTime RestPulse RunPulse MaxPulse ;
test Weight, RestPulse ;
run; quit;
Test 1 Results for Dependent Variable Oxygen
Source
DF
Numerator
Denominator
2
24
1.2.5
Mean
Square
5.04604
5.36825
F Value
Pr > F
0.94
0.4045
Predittore del valore atteso e della risposta
In un modello lineare
Y = X +
dopo aver stimato stimano i coefficienti tramite gli stimatori B sulla base di n v.a.
Y1 , . . . ,Yn , si effettua una nuova osservazione delle variabili esplicative:
xt0 = (x00 , . . . ,x0p1 )t
di cui non si ha la corrispondente osservazione della variabile risposta.
Per la nuova osservazione si considera il modello:
Y0 = xt0 + 0
Si predice il valore atteso della variabile risposta, E(Y0 ), con lo stimatore xt0 B.
1. Intervallo di confidenza per E(Y0 ), valore atteso di Y0
Si ha: E(xt0 B) = xt0 E(B) = xt0 . Lo stimatore è quindi non distorto. La sua
varianza è:

V(xt0 B) = E xt0 (B )(B )t x0 = xt0 E(B ) (B )t x0
= 2 xt0 (X t X)1 x0 = 2 v02
Quindi:
xt0 B xt0
N (0,1)
v0
xt0 B xt0
tnp
S v0
Un intervallo di confidenza per xt0 , valore atteso di E(Y0 ), è:

xt0 B t S v0 , xt0 B + t S v0
34
Regressione lineare
2. Intervallo di confidenza per la risposta Y0

Per la nuova osservazione si ha:
Y0 = xt0 + 0
da cui
0 = Y0 xt0
La variabile aleatoria Y0 xt0 B ha legge normale con valore atteso nullo. Inoltre
le variabili aleatorie Y0 e B0 , . . . ,Bp1 sono indipendenti perche gli stimatori dei
coefficienti sono costruiti sulla base delle prime n osservazioni campionarie; quindi
V(Y0 xt0 B) = V(Y0 ) + V(xt0 B) = 2 + 2 v0 = 2 (1 + v0 )
Da cui:

=P
xt0 B

q
q
t
2
2
t S 1 + v0 < Y0 < x0 B + t S 1 + v0
Osserviamo che

q
q
t
t
x0 B t S 1 + v02 , x0 B + t S 1 + v02
non è propriamente un intervallo di confidenza in quanto non si riferisce a un
parametro.
Esempio K
I dati riguardano laccrescimento percentuale (growth) di topi sottoposti a un particolare regime alimentare (dose).
Obs
1
2
3
4
5
6
7
8
9
10
11
12
dose
10
10
15
20
20
25
25
25
30
35
40
45
growth
73
78
85
90
91
87
86
91
75
65
.
.
Si vuole prevedere laccrescimento per le ultime due dosi.

Dallosservazione del grafico si ipotizza un modello lineare del secondo ordine. Si costruisce quindi una nuova variabile (dosesq) corrispondente al quadrato della variabile
dose. Il modello lineare è quindi:
growth = 0 + 1 dose + 2 dosesq +
Il programma SAS è il seguente.
proc reg;
model growth= dose dosesq / cli clm p r;
1.2
35
output out=b p=growth_hat lclm=inf_media lcl=inf_prev uclm=sup_media ucl=sup_prev;

run; quit;
symbol1 v=dot c=black i=none;
symbol2 v=plus i=j l=3 c=black;
symbol3 v=star i=j l=2 c=black;
symbol4 v=diamond i=j l=1 c=black;
symbol6 v=plus i=j l=3 c=black;
goption ftext=swissb;
proc gplot data=b;
plot (growth inf_prev inf_media growth_hat sup_media sup_prev)* dose /overlay;
run;quit;
I risultati della regressione in SAS sono i seguenti.

The REG Procedure
Dependent Variable: growth
Source
Model
Error
Corrected Total
DF
2
7
9
Sum of
Mean
Squares
Square
665.70617
332.85309
45.19383
6.45626
710.90000
Root MSE
Dependent Mean
Coeff Var
Variable
Intercept
dose
dosesq
Variable
Intercept
dose
dosesq
Obs
1
2
3
4
5
6
7
8
9
10
11
12
2.54092
82.10000
3.09491
75.5190
75.5190
85.8742
89.8457
89.8457
87.4335
87.4335
87.4335
78.6377
63.4581
41.8948
13.9478
1.6913
1.6913
1.0768
1.1080
1.1080
1.0696
1.0696
1.0696
1.2044
2.2694
4.2082
6.8595
95% CL Mean
71.5198
71.5198
83.3280
87.2258
87.2258
84.9042
84.9042
84.9042
75.7897
58.0917
31.9440
-2.2724
Pr > F
<.0001
0.9364
0.9183
t Value
6.35
9.43
-9.97
Covariance of Estimates
Intercept
dose
31.561106475
-3.024329365
-3.024329365
0.3113886154
0.0652777053
-0.00702493
Dep Var Predicted

Std Error
growth
Value Mean Predict
73.0000
78.0000
85.0000
90.0000
91.0000
87.0000
86.0000
91.0000
75.0000
65.0000
.
.
R-Square
Adj R-Sq
Parameter Estimates
Parameter
Standard
Estimate
Error
35.65744
5.61793
5.26290
0.55802
-0.12767
0.01281
DF
1
1
1
F Value
51.56
79.5182
79.5182
88.4204
92.4656
92.4656
89.9629
89.9629
89.9629
81.4856
68.8244
51.8455
30.1680
Pr > |t|
0.0004
<.0001
<.0001
dosesq
0.0652777053
-0.00702493
0.0001641307
95% CL Predict
68.3014
68.3014
79.3486
83.2911
83.2911
80.9145
80.9145
80.9145
71.9885
55.4021
30.2708
-3.3495
82.7366
82.7366
92.3998
96.4004
96.4004
93.9525
93.9525
93.9525
85.2868
71.5140
53.5188
31.2450
36
Obs
Residual
1
2
3
4
5
6
7
8
9
10
11
12
-2.5190
2.4810
-0.8742
0.1543
1.1543
-0.4335
-1.4335
3.5665
-3.6377
1.5419
.
.
Regressione lineare
Std Error Student

Residual Residual
1.896
1.896
2.301
2.287
2.287
2.305
2.305
2.305
2.237
1.143
.
.
-1.328
1.308
-0.380
0.0675
0.505
-0.188
-0.622
1.547
-1.626
1.349
.
.
Sum of Residuals
Sum of Squared Residuals
Predicted Residual SS (PRESS)
0
45.19383
145.72996
Il grafico riporta:
. con il simbolo dot i dati originali
. con il simbolo diamond e linea unita i valori previsti (per growth)
. con il simbolo star e linea tratteggiata lunga lintervallo di confidenza (al 95%) per
i valori attesi di growth
. con il simbolo plus e linea tratteggiata corta lintervallo di confidenza (al 95%) per
i valori previsti di growth
1.2
1.2.6
37
Stimatori di massima verosimiglianza
Gli stimatori dei coefficienti B trovati con il metodo dei minimi quadrati, sono anche
stimatori di massima verosimiglianza rispetto al modello Y N (X , 2 I). Indichiamo
con xti la rica i-esima della matrice X. Le variabili aleatorie campionarie hanno legge
Yi N (xti , 2 ) e sono indipendenti.
La verosimiglianza e la log-verosimiglianza per ciascuna variabile aleatoria Yi sono:

1
1
2
t
2
exp 2 (yi (xi ))
Li (, ; yi ) =
2
2 2
(xt )2
y2
xt
1
li (, 2 ; yi ) = log(2 2 ) i 2 i 2 + i 2 yi
2
2
2
da cui si evidenzia che il modello appartiene alla famiglia esponenziale.

La log-verosimiglianza per le n variabili aleatorie, trascurando gli addendi dipendenti
solo dalle realizzazioni campionarie e da costanti note è:
2
l(, ; y) =
n
X
li (, 2 ; yi ) =
i=1
n
n
n
1 X t 2
1 X 2
1 X t
n
(xi ) 2
yi + 2
x yi =
log( 2 ) 2
2
2 i=1
2 i=1
i=1 i
1
1
1
n
log( 2 ) 2 t Xt X 2 yt y + 2 < ,Xt y >
2
2
2
La statistica sufficiente e completa p + 1-dimensionale per i parametri è: (Xt Y,Yt Y).
Gli stimatori di massima verosimiglianza per i parametri si ottengono eguagliando
a zero le derivate in della log-verosimiglianza:
l(, 2 ; Y)
=0
Xt Xb Xt Y = 0
(1.1)
che sono proprio le equazioni normali ricavate nel capitolo 1.1.2 con il metodo dei minimi
quadrati.
Lo stimatore di massima verosimiglianza per 2 si ottiene sostituendo nella log-verosimiglianza
i valori di che soddisfano le equazioni normali e poi uguagliando a zero la derivata in
2:

n
1 t
l(B, 2 ; Y)
2
=0
log( ) 2 Y (I PV ) Y = 0
2
2
2
2
n
1

+
kEk2 = 0
2
2
2 4
che corrisponde allo stimatore distorto: n1 kEk2 .
Teorema di Gauss-Markov
Gli stimatori B e S 2 sono stimatori di minima varianza fra gli stimatori non distorti di
e 2.
Presentiamo due dimostrazioni del teorema. La prima si basa su risultati legati alle
statistiche sufficienti e complete. La seconda si basa su risultati di algebra lineare.
38
Regressione lineare
. Prima dimostrazione.
` conseguenza del teorema di Rao-Blackwell di cui riportiamo un corollario. Sia U
E
uno stimatore non distorto di e sia T una statistica sufficiente e completa. Se U è
funzione di T allora è di minima varianza nella classe degli stimatori non distorti.
Nel caso del modello lineare, abbiamo visto che B e S 2 sono non distorti e sono
funzioni della statistica sufficiente.
. Seconda dimostrazione.
Sia G uno stimatore lineare non distorto di diverso da B. Essendo sia G che B
lineari un Y si può scrivere:
G = B + ZY
E(G) = E(B) + ZE(Y)
con Z matrice (p n). Da cui, essendo G e B non distorti, segue che ZX = 0 e
anche ZX = 0. Si ha quindi:

G = (Xt X)1 Xt + Z (X + ) = + (Xt X)1 Xt + Z

V(G) = E (G )(G )t

= E (Xt X)1 Xt + Z t X(Xt X)1 + Zt

= 2 (Xt X)1 Xt X(Xt X)1 + ZX(Xt X)1 + (Xt X)1 Xt Zt + ZZt =
= V(B) + 2 ZZt
La matrice ZZt contiene sulla diagonale principale somme di quadrati e quindi la
varianza di G è maggiore della varianza di B.
Capitolo 2
Analisi della varianza
2.1
Analisi della varianza a una via per esperimenti bilanciati
Consideriamo una variabile quantitativa e una variabile qualitativa osservate su uno

stesso insieme di unità sperimentali; ad esempio il reddito annuale e il grado di scolarizzazione di un insieme di individui. Si vuol determinare se i valori della variabile
quantitativa dipendono o meno dallappartenenza delle osservazioni a una classe della
variabile qualitativa.
La variabile qualitativa è detta anche fattore e, se è ordinale, le modalità che il fattore
assume vengono dette livelli. Ad esempio: se il fattore considerato è il grado di scolarizzazione, i suoi livelli possono essere nessun titolo o licenza elementare, solo licenza
media, solo licenza superiore, laurea, codificabili con 1, 2, 3, 4.
In questo paragrafo considereremo solo esperimenti bilanciati, cioè casi in cui si
ha un uguale numero di unità sperimentali per ogni livello della variabile qualitativa.
Indichiamo con:
- s il numero dei livelli del fattore
- r il numero di unità sperimentali in ciascun livello, r =
n
s
- yik il valore della variabile quantitativa assunto dalla k-esima unità sperimentale del
livello i, con k = 1, . . . ,r.
Lipotesi che i risultati della variabile quantitativa Y dipendono dallappartenenza
delle osservazioni a un livello si può tradurre nel seguente modello:
yik = + i + ik
dove:
- indica un valore medio generale dipendente dalla caratteristica quantitativa
- i indica un valore che dipende dal livello i-esimo della variabile qualitativa
- ik indica il residuo per lunità sperimentale considerata.
Indichiamo con:
39
(2.1)
40
- y il vettore (y11 , . . . ,y1r , . . . ,ys1 , . . . ,ysr ) ordinato secondo i livelli del fattore e con
le corrispondenti lettere maiuscole le variabili aleatorie di cui si osservano le realizzazioni,
- il vettore (11 , . . . ,1r , . . . ,s1 , . . . ,sr ); a seconda del contesto sarà una variabile
aleatoria multidimensionale o sua sua realizzazione.
- il vettore (,1 ,2 , . . . ,s )
- X la matrice con colonne 1,a1 , . . . ,as dove ai è un vettore binario che indica lappartenenza o meno dellunità sperimentale al livello i, come si vede nellesempio
riportato qui sotto nel caso s = 4 e r = 2.
y
y11
y12
y21
y22
y31
y32
y41
y42
1
1
1
1
= 1
1
1
1
1
a1
1
1
0
0
0
0
0
0
X
a2 a3
0 0
0 0
1 0
1 0
0 1
0 1
0 0
0 0
a4
0
0
0
0
0
0
1
1
1
1
3
4
11
+
42
Come per il modello lineare considereremo prima gli aspetti geometrici e successivamente quelli inferenziali.
Il modello relativo alle realizzazioni campionarie può essere in forma vettoriale è:
y =X +
Linterpretazione geometrica è simile a quella del modello lineare. Il vettore X b che
minimizza la somma dei quadrati dei residui è la proiezione ortogonale di y nel sottospazio
generato da X.
In questo caso però le colonne della matrice non sono linearmente indipendenti: infatti
la somma delle righe di a1 ,a2 , . . . ,as è uguale agli elementi del vettore 1. Le soluzioni per
i coefficienti del metodo dei minimi quadrati, b = (X0 X)1 X0 y, necessitano linversione
della matrice X0 X, che è di rango pieno se e solo se lo è la matrice X. Bisogna quindi
anzitutto costruire una matrice X? che generi lo stesso sottospazio della matrice X e che
sia di rango pieno.
Molti sono i modi per risolvere questo problema; alcuni saranno analizzati in un capitolo successivo. Qui ne vediamo uno. Si sostituiscono gli s vettori a1 ,a2 , . . . ,as con s 1
vettori a?1 ,a?2 , . . . ,a?s1 dove:
a?i = ai as
Il vettore dei coefficienti è modificato di conseguenza: la sua dimensione deve essere s
e si verifica facilmente che ? = (,1 ,2 , . . . ,s1 ).
2.1
y
y11
y12
y21
y22
y31
y32
y41
y42
1
1
1
1
= 1
1
1
1
1
X?
a?2
1 0
1 0
0 1
0 1
0 0
0 0
-1 -1
-1 -1
a?1
a?3
0
0
0
0
1
1
-1
-1
41
11
1
2
3
42
Mentre per i primi s 1 livelli il modello rimane invariato, per il livello s, si ha:
ysk = 1 2 . . . s1 + sk
cioè lartificio usato per rendere la matrice di rango pieno corrisponde a porre un vincolo
sui coefficienti:
s
X
i = 0 .
i=1
2.1.1
Decomposizione dello spazio V e stime per esperimenti bilanciati
Da un punto di vista geometrico osserviamo che - nel caso di esperimenti bilanciati - i

vettori a?1 ,a?2 , . . . ,a?s1 che generano il sottospazio VA? del fattore A sono tutti ortogonali
al vettore 1; è infatti facile verificare che:
< 1,a?i >= 0
i = 1, . . . ,s 1 .
Quindi possiamo scomporre lo spazio V in due sottospazi ortogonali VI , generato da 1,

e VA? , generato da a?1 ,a?2 , . . . ,a?s1 e possiamo scrivere:
V = VI VA?
Questa scrittura vuol dire che ogni vettore di V si può esprimere in modo univoco come
somma di un vettore di VI e un vettore di VA? . Osserviamo che V = VI VA? = VI VA ,
con VA generato da a1 ,a2 , . . . ,as1 ,as .
0
Per lortogonalità dei vettori 1 e a?i , i = 1, . . . ,s 1, la matrice X? X? è diagonale a
blocchi e quindi lo è anche la sua inversa. Qui sotto sono riportate le due matrici per il
caso s = 4 e r = 2.
0
1
A
0
1
8
0
0
0
X? X?
A
0 0
4 2
2 4
2 2
0
0
2
2
4
1
A
1
1
0
0
0
(X? X? )1
A
0
0
0
3 1 1
1
3 1 18
1 1
3
In generale X? X? e (X? X? )1 sono matrici ss del tipo seguente, dove il determinante

0
della sottomatrice diagonale in basso di X? X? vale s.
42
X ? X? = r
s 0
0 2
0 1
0 ...
0 1
0 0 0
1 ... 1
2 ... 1
... ... ...
1 ... 2
(X? X? )1 =
1
n
1
0
0 0
0
0 s1
1 ...
1
0
1 s 1 ...
1
0
...
... ...
...
0
1
1 ... s 1
Le soluzioni per i coefficienti che minimizzano la somma dei quadrati dei residui, date
1 ?0
0
da b = X? X?
X y, hanno la seguente proprietà: la stima di non dipende dalla
stima dei coefficienti i . Da un punto di vista inferenziale questo corrisponde al fatto che
0
la matrice (X? X? )1 è proporzionale alla matrice di varianza-covarianza degli stimatori
1
0
dei coefficienti, V(B) = 2 X? X? , per cui lo stimatore di è indipendente dagli
stimatori dei coefficienti i .
1 ?0
0
La matrice X? X?
X , che interviene nella stima dei coefficienti, nel caso bilanciato è:
1
s1
1
...
1
1
s1
1
...
1
1
1
s1
...
1
1
1
s1
...
1
...
...
...
...
s1
...
...
...
...
s1
1
1
1
1
1
1
1
1
1
1
Moltiplicando tale matrice per il vettore y, si hanno le stime dei coefficienti:

s
1 XX
yjk = y
m=
n j=1 k=1
e, indicando con y i la media delle realizzazioni delle variabili risposta che corrispondono
al livello i per il fattore A, per ogni i = 1, . . . ,s 1:
!
r
s
r
r
s
r
X
X
X
1
1X
1 XX
ai =
(s 1)
yik
yjk =
yik
yjk = y i y .
rs
r k=1
n j=1 k=1
k=1
j=1,j6=i k=1
Per quanto riguarda il coefficiente as si ha:
as =
s1
X
i=1
ai =
s1
X
y i + (s 1)y + (y s y s ) = sy + y s + (s 1)y = y s y
i=1
con un risultato analogo agli altri livelli.

Lapprossimazione lineare di yik (ovvero, da un punto di vista inferenziale, la stima
del valore atteso di Yik ) per tutte le unità sperimentali che corrispondono al livello i per
il fattore A, è:
yik = y i
per ogni k = 1, . . . r .
Ovviamente se gli y i sono molto differenti fra loro si può dire che il fattore influenza la variabile Y ; questa affermazione si può verificare in un ambito inferenziale se
consideriamo il vettore y è la realizzazione di una variabile aleatoria Y.
2.1
2.1.2
43
Test per la nullit`

a dei coefficienti relativi al fattore A
La non influenza del fattore A nella determinazione della variabile aleatoria risposta Y
si traduce in un test di nullità contemporanea di tutti i coefficienti i :
H0 : 1 = = s = 0
H1 : h {1, . . . ,s} tale che h 6= 0
Se lipotesi H0 è vera, cioè se Y non è influenzato dal fattore, il modello della formula
(2.1) diventa:
Y =+
avendo indicato con un vettore con ogni elemento uguale a .
In questo caso, direttamente dalle proprietà del valore medio, si ottiene che la minima
somma dei quadrati dei residui si ha per
= m = y; quindi la stima yik di E(Yik ) con
questo modello è y, per ogni i e per ogni k.
Come nel caso generale del modello lineare, per verificare se la variabile quantitativa
Y è influenzata o meno dal fattore si analizza lerrore relativo che si commette nella
somma dei quadrati dei residui del modello ridotto (formato dalla sola costante) rispetto
al modello completo.
Diamo prima una interpretazione geometrica di questo test e consideriamo le realizzazioni campionarie y e la sua proiezione ortogonale y
nel sottospazio V generato
dalle colonne della matrice X. Modifichiamo leggermente le notazioni per le somme dei
quadrati dei residui usate nel capitolo precedente. Invece di SSC e SSR usiamo SS(m,a)
e SS(m) per evidenziare quali parametri intervengono nel modello considerato; inoltre
usiamo le lettere latine perchè le quantità sono valori campionari. Si ha:
- Variazione residua SS(m,a): somma dei quadrati dei residui nel modello completo
2
SS(m,a) = ky y
k =
s X
r
X
(yik y i )2
i=1 k=1
- Variazione totale SS(m): somma dei quadrati dei residui nel modello ridotto
ky yk2 =
s X
r
X
(yik y)2
i=1 k=1
- Variazione interclasse, dovuta alleffetto del fattore, SS(m) SS(m,a)

XX
ky y
k2 ky yk2 =
(yik y)2 (yik yi )2 =
i
XX
i
= r
k
s
X
2
2
+ 2 yik yi yi 2
yik
2 y yik + y 2 yik
2 y yi + y 2 + 2 yi 2 yi 2
i=1
= r
s
X
i=1
Dallultima relazione si ottiene:
(y i y)2 = k
y yk2
44
Variazione totale = Variazione residua + Variazione interclasse

che esprime la varianza di y suddivisa in varianza fra i gruppi e varianza interna.
y
La figura a fianco, del tutto simile
y-y
a quella per il modello lineare, evi- variazione residua
denzia i vettori precedenti e la relazione fra le lunghezze di tali vettori,
espressione del teorema di Pitagora.
Lerrore relativo che si commette
nella somma dei quadrati dei residui
usando il modello ridotto rispetto a
quello completo è:
y-y
variazione totale
y
y -y
variazione interclasse
SS(m) SS(m,a)
variazione interclasse
=
SS(m,a)
variazione residua
Affrontiamo ora il problema da un punto di vista inferenziale e - come nel caso del
modello lineare - ipotizziamo che i residui siano variabili aleatorie non correlate fra loro,
di valore atteso 0 e varianza 2 , e con con legge normale. Allora
(SS(m) SS(m,a))/(s 1)
varianza interclasse
=
SS(m,a)/(n s)
varianza residua
diventa la realizzazione di una variabile aleatoria
Yk2 /(s 1)
kY
2 /(n s)
kY Yk
con legge di Fisher a (s 1,n s) gradi di libertà.
Fissato un livello per il test, se la realizzazione campionaria della statistica test
supera la soglia f , si rifiuta lipotesi di non influenza del fattore, avendo indicato con
f il quantile 1 di una variabile aleatoria con legge Fisher a (s 1,n s) gradi di
libertà. Osserviamo che anche in questo caso il test è unilaterale come già visto per il
caso della regressione lineare.
Esempio A
Consideriamo i risultati di unanalisi di laboratorio sulla infiammabilità dei pigiami
per bambini; lanalisi consiste nel tenere sotto una fiamma un pezzo standard di stoffa
appoggiato su una piastra di metallo. Vengono attentamente controllate lumidità del
tessuto, la sua temperatura, laltezza della fiamma, il modo con cui la fiamma è tenuta
sul tessuto e cos` via. Quando la fiamma è rimossa e il tessuto ha finito di bruciare, è
misurata la lunghezza del tessuto carbonizzato. Ci si pone il problema se i diversi tipi
di tessuto danno gli stessi risultati.
2.1
I dati e i box-plot sono i seguenti.

2.9
3.1
3.1
3.7
3.1
4.2
3.7
3.9
3.1
3.0
2.9
1
1
1
1
1
1
1
1
1
1
1
2.7
3.4
3.6
3.2
4.0
4.1
3.8
3.8
4.3
3.4
3.3
2
2
2
2
2
2
2
2
2
2
2
3.3
3.3
3.5
3.5
2.8
2.8
3.2
2.8
3.8
3.5
3.8
3
3
3
3
3
3
3
3
3
3
3
3.3
3.2
3.4
2.7
2.7
3.3
2.9
3.2
2.9
2.6
2.8
4
4
4
4
4
4
4
4
4
4
4
4.1
4.1
3.7
4.2
3.1
3.5
2.8
3.5
3.7
3.5
3.9
5
5
5
5
5
5
5
5
5
5
5
Effettuando lanalisi della varianza si ottiene il seguente output.

The ANOVA Procedure
Class Level Information
Class
Levels
Values
tessuto
5
1 2 3 4 5
55
55
The ANOVA Procedure
Dependent Variable: valore
Source
Model
Error
Corrected Total
R-Square
0.266198
DF
4
50
54
Sum of
Squares
2.98654545
8.23272727
11.21927273
Coeff Var
12.01815
Mean Square
0.74663636
0.16465455
Root MSE
0.405776
F Value
4.53
Pr > F
0.0033
valore Mean
3.376364
La lettura delloutput è del tutto analoga a quella del modello lineare.

Ricordiamo che in questo caso le dimensioni degli spazi a cui appartengono i tre
vettori (colonna DF) sono: s 1, n s e n 1.
Nella colonna Sum of Square si trovano le quantità:
- SS(m) SS(m,a) variazione interclasse dovuta al fattore tessuto Model)
- SS(m,a) variazione residua (Error)
- SS(m) variazione totale (Total)
Nella colonna Mean Square si trovano le due quantità:
- (SS(m) SS(m,a))/(s 1) varianza interclasse
- SS(m,a)/(n s) varianza residua
Nella quinta colonna (F Value) si trova il rapporto delle due quantità precedenti e
nellultima colonna il corrispondente p-value. In questo caso il p-value è al di sotto
delle soglie usuali a cui si effettuano i test, 5% o 1%, quindi si rifiuta la nullità contemporanea dei coefficienti, cioè lesperimento dà risultati diversi per i diversi tipi di
tessuto.
45
46
2.2
Analisi della varianza a due vie senza interazione.
Indichiamo le due variabili qualitative, o fattori, con A e B.

Consideriamo sempre esperimenti bilanciati, cioè casi in cui il numero di unità
sperimentali per ciascun livello dellinterazione dei fattori è uguale, cioè il numero di
unità sperimentali con livello i per il fattore A e contemporaneamente con livello j per
il fattore B è uguale per ogni i e j.
Le notazioni che utilizzeremo sono ovvie estensioni del caso con un fattore:
- s1 e s2 sono il numero dei livelli dei due fattori,
r è il numero di unità sperimentali appartenenti a ciascun livello dellinterazione fra
i due fattori, r = s1ns2 ,
- yijk è il valore della variabile quantitativa assunto dalla k-esima unità sperimentale
del livello i per il primo fattore e contemporaneamente del livello j per il secondo
fattore e y è il vettore contenente le realizzazioni della variabile risposta,
- è il coefficiente che corrisponde alla costante,
i sono i coefficienti per il livello i-esimo del fattore A,
j sono i coefficienti per il livello j-esimo del fattore B,
è il vettore dei coefficienti,
- ijk è il residuo per lunità ijk e è il vettore dei residui.
Supponiamo che gli effetti dei fattori siano additivi; in tal caso lipotesi che i risultati
della variabile quantitativa Y dipendono dallappartenenza delle osservazioni a diversi
livelli per i due fattori A e B si può tradurre nel seguente modello per le realizzazioni
campionarie di Y:
yijk = + i + j + ijk
Per scrivere il modello in forma matriciale costruiamo dei vettori binari ai per i livelli
del primo fattore e bj per i livelli del secondo fattore e la matrice X di dimensione
(n,s1 + s2 + 1) che ha come colonne i vettori 1,a1 , . . . ,as1 ,b1 , . . . ,bs2 . Quindi:
y =X +
Qui sotto è considerato il caso s1 = 2, s2
fattori.
X
y
1 a1 a2 b1
y111
1 1 0
1
y112
1 1 0
1
y121
1 1 0
0
y122
1 1 0
0
y131
1 1 0
0
y132 = 1 1 0
0
y211
1 0 1
1
y212
1 0 1
1
y221
1 0 1
0
y222
1 0 1
0
y231
1 0 1
0
y232
1 0 1
0
= 3 e due repliche in ogni interazione di
b2
0
0
1
1
0
0
0
0
1
1
0
0
b3
0
0
0
0
1
1
0
0
0
0
1
1
1
2
1
2
3
2.2
47
Per rendere le colonne della matrice X di rango pieno si può procedere agendo sui due
gruppi di vettori della matrice (quello relativo al fattore A e quello relativo al fattore B)
in modo analogo a quanto fatto nel caso di un solo fattore.
Gli s1 vettori relativi al fattore A, a1 , . . . ,as1 , vengono sostituiti con s1 1 vettori
?
a1 , . . . ,a?s1 1 tali che: a?i = ai as1 .
Gli s2 vettori relativi al fattore B, b1 , . . . ,bs2 , vengono sostituiti con s2 1 vettori
b?1 , . . . ,b?s2 1 tali che: b?i = bi bs2 .
Il vettore dei coefficienti è modificato di conseguenza: la sua dimensione deve essere 1 + (s1 1) + (s2 1) (cioè s1 + s2 1) e si può facilmente verificare che ? =
(,1 ,2 , . . . ,s1 1 ,1 ,2 , . . . ,s2 1 ).
In questo caso lartificio utilizzato per rendere la matrice di rango pieno corrisponde
a porre un vincolo su ciascuno dei due blocchi di coefficienti:
s1
X
i = 0
i=1
2.2.1
s2
X
j = 0 .
j=1
Decomposizione dello spazio V e stime dei parametri per esperimenti

bilanciati
Nel caso che stiamo considerando di esperimento bilanciato, i tre gruppi di vettori della
matrice X? , corrispondenti alla costante, al fattore A e al fattore B sono fra di loro
ortogonali; infatti è facile verificare che:
< 1,a?i >= 0
< 1,b?j >= 0
< a?i ,b?j >= 0
(2.2)
per ogni i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.

Quindi, nelcaso di esperimento bilanciato, i tre sottospazi generati da a?1 , . . . ,a?s1 1 ,
b?1 , . . . ,b?s2 1 e da 1 sono a due a due ortogonali; le proiezioni (e quindi la somma
dei quadrati dei residui) possono essere effettuate in un ordine indifferente sui modelli corrispondenti. Lo spazio V può essere scomposto in tre sottospazi mutuamente
ortogonali:
V = VI VA? VB ?
Come generalizzazione del caso di un solo fattore, le ortogonalità dei vettori (2.2),
0
comportano che le matrici X? X? e la sua inversa siano diagonali a blocchi. Da un
punto di vista inferenziale questo vuol dire che gli stimatori dei 3 gruppi di parametri
sono indipendenti.
1
0
0
Qui sotto sono riportate le matrici X? X? e X? X?
per s1 = 2, s2 = 3 e due
repliche in ogni interazione di fattori.
0
1
A
B
1
12
0
0
0
X ? X?
A
B
0 0 0
12 0 0
0 8 4
0 4 8
(X? X? )1
1 A
B
1 1 0 0 0
A 0 1 0 0
1
B 0 0 2 -1 12
0 0 -1 2
48
Le stime dei parametri sono:

m=y
ai = y i. y
bj = y .j y
avendo indicato con y, y i. e y .j rispettivamente la media generale, la media del livello i

e la media del livello j.
Quindi:
yijk = y i. + y .j y
Osserviamo che - per esperimenti bilanciati - le stime dei coefficienti risultano uguali
a quelle che si ottengono nei due modelli con un singolo fattore.
Si effettuano separatamente due test ipotizzando una volta che i coefficienti i siano
uguali fra loro e unaltra che i j siano uguali fra loro, procedendo poi in modo del tutto
simile a quanto visto per il caso a un fattore.
2.2.2
I due test per verificare la non influenza di A e di B
Per effettuare il test di nullità simultanea dei coefficienti i

H0 : 1 = = s = 0
H1 : h {1, . . . ,s} tale che h 6= 0
bisogna calcolare la somma dei quadrati dei residui nel modello completo, che indicheremo
- in analogia alle notazioni precedenti - con SS(m,a,b), e poi nel modello ridotto, che
indicheremo con SS(m,b).
Per precisare il modello, indichiamo con y
A,B
la proiezione di y nel sottospazio V generato
dalle colonne di X e con y
B la proiezione di
y nell sottospazio generato dalle sole colonne
di X corrispondenti alla costante e al fattore
B.
^
yA,B
VB*
^
La figura a fianco rappresenta i vettori
yB
y
che intervengono per il test sul fattore A.
Attenzione lo spazio ambiente è Rn .
Come nel caso a un fattore, la varianza residua non è influenzata dai vincoli posti sui
coefficienti, in quanto il sottospazio generato da X coincide con quello generato da X? .
La realizzazione della statistica test è:
fA =
(SS(m,b) SS(m,a,b)) / (s1 1)

SS(m,a,b) / (n s1 s2 + 1)
Si procede in modo analogo per il fattore B. Indichiamo SS(m,a) le somme dei

quadrati dei residui nel modello con la costante e i coefficienti del fattore A, cioè - dal
punto di vista geometrico - il quadrato della distanza fra y e sottospazio generato dalle
sole colonne di X corrispondenti alla media e al fattore A. La realizzazione della statistica
test è:
(SS(m,a) SS(m,a,b)) / (s2 1)
fB =
SS(m,a,b) / (n s1 s2 + 1)
2.2
2.2.3
49
Decomposizione della varianza per gli esperimenti bilanciati
Osserviamo che i modelli ridotti coincidono con un modello (completo) a un fattore e

le stime degli yijk sono quelle già viste in precedenza e cos` pure le quantità SS(m,a) e
SS(m,b). Ricordiamo che negli esperimenti bilanciati si ha:
s2 X
r
1 X
y i. =
yijk
rs2 j=1 k=1
s1 X
r
1 X
y .j =
yijk
rs1 i=1 k=1
s1
s2
1 X
1 X
y=
y =
y
s1 i=1 i. s2 j=1 .j
Quindi le quantità che intervengono nei test sono le seguenti.

- Variazione totale SS(m):
2
ky yk =
s1 X
s2 X
r
X
(yijk y)2
i=1 j=1 k=1
I gradi di libertà, cioè la dimensione dello spazio a cui appartiene il vettore y y,

sono n 1.
- Variazione residua SS(m,a,b):
2
ky y
A,B k =
s1 X
s2 X
r
X
yijk y i. y .j + y
2
i=1 j=1 k=1
La dimensione dello spazio a cui appartiene il vettore y y

A,B è n s1 s2 + 1
- Variazione interclasse del fattore A, SS(m,b) SS(m,a,b), talvolta indicata con
SSA :
2
ky y
B k ky y
A,B k =
s1 X
s2 X
r
X
yijk y .j
2
yijk y i. y .j + y
2
i=1 j=1 k=1
s1 X
s2 X
r
X
2
2
y 2i. y 2.j y 2
yijk
+ y 2.j 2yijk y .j yijk
i=1 j=1 k=1

+ 2yijk y i. + 2yijk y .j 2yijk y 2y i. y .j + 2y i. y + 2y .j y =
s1
s1
s1
X
X
X
2
2
2
rs2
y i. ny + 2rs2
y i. 2rs2 y
y i. 2rs1 s2 y 2 + 2rs1 s2 y 2 + 2rs1 s2 y 2 =
i=1
i=1
rs2
s1
X
i=1
y 2i. 2rs2
i=1
s1
X
i=1
y i. y + ny 2 = r s2
s1
X
(y i. y)2 = k
yA yk2
i=1
La dimensione dello spazio a cui appartiene il vettore y

A y è s1 1.
50
- Variazione interclasse del fattore B SS(m,a) SS(m,a,b), talvolta indicata con

SSB :
ky y
A k ky y
A,B k =
s1 s2
s2 X
s1 X
X
(yijk y i. )2 yijk y i. y .j + y
2
i=1 j=1 k=1
r s1
s2
X
(y.j y)2 = k
yB yk2
j=1
La dimensione dello spazio a cui appartiene il vettore y

A y è s2 1.
Osserviamo che le varianze interclasse di A e di B (cioè le quantità che intervengono
al numeratore della statistica di Fisher per il test sulla influenza dei fattori A e B) nel
caso di modello con due fattori senza interazione sono uguali a quelle dei due modelli
con un singolo fattore. Geometricamente ciò si interpreta, ad esempio per il fattore A,
nel senso che la distanza fra la proiezione di y nel sottospazio V VA? e la proiezione di
y in VI è uguale sia nel modello con due fattori senza interazione che in quello con un
solo fattore, anche se gli spazi V sono diversi nei due casi. Invece la varianza residua distanza fra y e V - (cioè la quantità al denominatore) è diversa nei due casi essendo i
due spazi V diversi.
Sostituendo la relazione che lega la variazione del fattore A alla variazione totale (si
veda anche la figura):
yA yk2
ky y
A k2 = ky yk2 k
nella formula della variazione interclasse di B, si ha:
yA yk2 k
yB yk2
ky y
A,B k2 = ky y
A k2 k
yB yk2 = ky yk2 k
e quindi si ottiene:
ky yk2 = ky y
A,B k2 + k
yA yk2 + k
yB yk2
che esprime la variazione totale come somma della variazione residua e delle variazioni
interclassi dei due fattori.
Esempio B
Si vuole studiare la quantità di DDT presente nei tessuti di uccelli rapaci (falchi) in
dipendenza dalla zona di nidificazione (1: zona artica, 2: Canada, 3: USA) e dalletà
dei soggetti (1: giovani, 2: medi, 3: vecchi).
Anzitutto osserviamo i box-plot per la quantità di DDT con i dati suddivisi per
livello di zona e poi per livello di età.
2.2
51
Già da unanalisi descrittiva si osserva che linfluenza sulla variabile DDT è diversa
per i due fattori.
Passiamo quindi a unanalisi di tipo inferenziale ed effettuiamo unanalisi della varianza a una via per studiare linfluenza sulla quantità di DDT della zona di nidificazione, poi separatamente una analisi della varianza a una via per studiare linfluenza
delletà e infine unanalisi della varianza a due vie. I risultati sono i seguenti.
ANOVA a una via. Fattore zona.
The ANOVA Procedure
Class
Levels
Values
zona
3
1 2 3
27
Dependent Variable: ddt

Source
Model
Error
Corrected Total
DF
2
24
26
R-Square
0.908054
Source
zona
Sum of
Squares
17785.40741
1800.88889
19586.29630
Coeff Var
19.52292
DF
2
Mean Square
8892.70370
75.03704
Root MSE
8.662392
Anova SS
17785.40741
F Value
118.51
Pr > F
<.0001
ddt Mean
44.37037
Mean Square
8892.70370
F Value
118.51
Pr > F
<.0001
F Value
1.16
Pr > F
0.3316
ANOVA a una via. Fattore et`

a.
The ANOVA Procedure
Class
Levels
Values
eta
3
1 2 3
27

Source
Model
Error
Corrected Total
DF
2
24
26
Sum of
Squares
1721.18519
17865.11111
19586.29630
Mean Square
860.59259
744.37963
52
2
R-Square
0.087877
Source
eta
Coeff Var
61.48996
DF
2
Root MSE
27.28332
Anova SS
1721.185185
ddt Mean
44.37037
Mean Square
860.592593
F Value
1.16
Pr > F
0.3316
F Value
1346.06
Pr > F
<.0001
ANOVA a due via. Fattori zona e et`

a.
The ANOVA Procedure
Class
Levels
Values
zona
3
1 2 3
eta
3
1 2 3
27

Source
Model
Error
Corrected Total
R-Square
0.995931
Source
zona
eta
DF
4
22
26
Sum of
Squares
19506.59259
79.70370
19586.29630
Coeff Var
4.289778
DF
2
2
Mean Square
4876.64815
3.62290
Root MSE
1.903391
Anova SS
17785.40741
1721.18519
ddt Mean
44.37037
Mean Square
8892.70370
860.59259
F Value
2454.58
237.54
Pr > F
<.0001
<.0001
Nell prima tabella si trovano, nella colonna Sum of Square la variazione residua e
quella totale e nella colonna DF i corrispondenti gradi di libertà.
Nellultima tabella si trovano, nella colonna Anova SS le variazioni interclasse e nella
colonna DF i corrispondenti gradi di libertà. Nella colonna Mean Square si trovano le
varianze interclasse per il primo e il secondo fattore. Infine nelle colonne F Value e Pr
> F si trovano rispettivamente i valori della statistica test e i corrispondenti p-value
per i due test separati per linfluenza della zona e delletà.
Ricordiamo che i gradi di libertà sono s1 1 per la variazione del primo fattore,
s2 1 per la variazione del secondo fattore e n 1 per la variazione totale. I gradi di
libertà della variazione dellerrore sono diversi per il modello a una via,n s1 , e per il
modello a due vie, n s1 s2 + 1.
Osserviamo - come già detto - che le due varianze interclasse sono uguali nel modello
a un fattore e nel modello a due fattori, mentre la varianza residua è sempre pi`
u piccola
nel modello a due fattori, quindi la statistica F sarà pi`
u grande nel modello a due
fattori rispetto al modello a un fattore (in genere vale, anche se cambiano i gradi di
libertà del denominatore).
Ciò conduce - nellesempio considerato - a considerazioni diverse per quanto riguarda
linfluenza delletà sulla quantità di DDT a seconda che si consideri un modello con un
solo fattore o un modello con due fattori senza interazione; nel primo letà sembra non
influire, nel secondo si: questo è dovuto al fatto che nel secondo modello lerrore, cioè
Sum of Square(Erorr), risulta molto piccolo. Quindi il denominatore della statistica
test è piccolo e il valore della statistica è grande.
2.3
2.3
53
Analisi della varianza a due vie con interazione - Fattori crossed
Analisi della varianza a due vie con interazione - Fattori

crossed
I fattori si dicono crossed (o incrociabili) se è possibile effettuare un esperimento per

ogni combinazione dei livelli. Questo è il caso in cui una unità sperimentale può essere
sottoposta a qualunque livello di trattamento relativo al fattore A e a qualunque livello
di trattamento relativo al fattore B. In queste situazioni, se si pensa che lappartenenza
di una unità sperimentale a una combinazione di livelli del primo fattore e del secondo
fattore possa incidere sulla variabile risposta, cioè che ci sia interazione fra i due fattori
il modello prende la forma:
yijk = + i + j + ij + ijk
dove ij esprime linterazione fra i due fattori.
I fattori A e B vengono anche detti fattori principali e i loro coefficienti effetti principali; linterazione è anche indicata con AB e coefficienti corrispondenti vengono detti
effetti di interazione.
La matrice X è formata da ulteriori s1 s2 colonne c11 , . . . ,cs1 s2 che corrispondono
alla congiunzione delle presenze nei livelli del primo e del secondo fattore: la colonna cij
è il prodotto di ai e bj .
X
y
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
a2
b1
b2
b3
a1 b1
a1 b2
a1 b3
a2 b1
a2 b2
a2 b3
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
1
1
0
0
0
0
0
0
1
1
0
0
0
0
1
1
0
0
0
0
0
0
1
1
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
1
2
3
11
12
13
21
22
23
Le s1 s2 colonne cij sono fra di loro

ma
linearmente indipendenti,
sono linearmente
?
?
?
?
dipendenti dalle colonne a1 , . . . ,as1 1 , dalle colonne b1 , . . . ,bs2 1 e dalla colonna 1.
La matrice X, che possiede 1 + s1 + s2 + s1 s2 colonne, ha rango s1 s2 .
Una matrice di rango pieno si ottiene a partire dalla matrice X? del modello senza
interazione, aggiungendo le colonne ottenute moltiplicando ciascun vettore a?i con ciascun
vettore b?j ; la nuova matrice ha 1 + (s1 1) + (s2 1) + (s1 1)(s2 1), cioè s1 s2
colonne linearmente indipendenti.
54
y
y111
y112
y121
y122
y131
y132
y211
y212
y221
y222
y231
y232
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a?1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1
X?
b?1
1
1
0
0
-1
-1
1
1
0
0
-1
-1
b?2
0
0
1
1
-1
-1
0
0
1
1
-1
-1
c?11
1
1
0
0
-1
-1
-1
-1
0
0
1
1
c?12
0
0
1
1
-1
-1
0
0
-1
-1
1
1
1
1
2
11
12
111
211
+
311
Questa costruzione delle colonne relative allinterazione corrisponde ad imporre nuovi

vincoli ai coefficienti:
s1
s2
X
X
ij = 0 j = 1, . . . ,s2
e
ij = 0 i = 1, . . . ,s2 .
i=1
j=1
Osserviamo che fra questi s1 + s2 vincoli quello relativo al caso s1 s2 è ripetuto due volte.
Il numero di vincoli sui coefficienti sono quindi: uno per i coefficienti del fattore A, 1 per
i coefficienti del fattore B e s1 + s2 1 per linterazione, in totale s1 + s2 + 1.
2.3.1
Decomposizione dello spazio V e stime dei parametri per esperimenti

bilanciati
Il sottospazio V generato da X (ovvero da X? ) coincide con il sottospazio VAB generato

dalle colonne cij corrispondenti alla sola interazione AB. I gradi di libertà sono s1 s2 , che
coincidono con il numero di colonne iniziali 1 + s1 + s2 + s1 s2 meno il numero di vincoli.
In generale si ha:
V = VAB = VAB VI = VAB VI VA = VAB VI VA VB .
Nel caso di esperimento bilanciato, cioè di equinumerosità di unità sperimentali in
ciascun livello dellinterazione (come quello che abbiamo considerato finora) il sottospazio
VAB può essere scomposto in quattro sottospazi fra loro ortogonali. Infatti anche in questo
caso i vettori corrispondenti ai quattro gruppi di parametri sono fra di loro ortogonali.
Dimostriamo che i vettori c?ij sono ortogonali ai vettori a?i ; lortogonalità con la costante
è immediata e quella con i b?j si dimostra in modo analogo. Si ha:
< c?ij ,a?i >=
n
X
h=1
(c?ij )h (a?i )h =
n
X
h=1
(a?i )2h (b?j )h =
n
X
(b?j )h = 0
h=1,j=i,j=s1
Infatti il vettore a?i al quadrato ha elementi uguali a 1 solo nel livello i e nel livello s1 ;
allintermo di ciascun livello il vettore b?j è bilanciato e quindi la somma vale 0.
Quindi:
V = VI VA? VB ? VAB ? .
2.3
Analisi della varianza a due vie con interazione - Fattori crossed

0

0
1
A
B
AB
X? X?
1 A
B
12 0 0 0
0 12 0 0
0 0 8 4
0 0 4 8
0 0 0 0
0 0 0 0
1
55
per s1 = 2, s2 = 3 e due
AB
0 0
0 0
0 0
0 0
8 4
4 8
1
A
B
AB
1
1
0
0
0
0
0
(X? X? )1
A
B
AB
0 0 0 0 0
1 0 0 0 0
0 2 -1 0 0
1
0 -1 2 0 0 12
0 0 0 2 -1
0 0 0 -1 2
Le stime dei parametri risultano:

ai = y i. y
m=y
bj = y .j y
cij = y ij y i. y .j + y
avendo indicato con y, y i. , y .j e y ij rispettivamente la media generale, la media del livello

i, la media del livello j e la media nel livello di interazione (i,j).
Quindi:
yijk = y ij
Osserviamo che le stime dei coefficienti , i e j risultano uguali a quelle che si ottengono
nei modelli con un singolo fattore e nel modello con due fattori senza interazione.
2.3.2
I tre test per verificare la nullit`

a dei tre gruppi di parametri
Anche in questo caso si effettuano tre test separati: uno per linfluenza del fattore A,
uno per linfluenza del fattore B e uno per linfluenza dellinterazione.
Le realizzazioni campionarie delle statistiche test sono (con ovvie estensioni delle
notazioni):
SS(m,b,c) SS(m,a,b,c) / (s1 1)
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,c) SS(m,a,b,c) / (s2 1)
=
SS(m,a,b,c) / (n s1 s2 )
SS(m,a,b) SS(m,a,b,c) / ((s1 1)(s2 1))
=
SS(m,a,b,c) / (n s1 s2 )
fA =
fB
fAB
2.3.3
Decomposizione della varianza per gli esperimenti bilanciati
Ricordiamo che negli esperimenti bilanciati si ha:

r
1X
y ij =
yijk
r k=1
s1 X
s1
r
1 X
1 X
y .j =
yijk =
y
rs1 i=1 k=1
s1 i=1 ij
s2 X
s2
r
1 X
1 X
yijk =
y i. =
y
rs2 j=1 k=1
s2 j=1 ij
s1
s2
s1 X
s2
1 X
1 X
1 X
y=
y =
y =
y
s1 i=1 i. s1 j=1 .j s1 s2 i=1 j=1 ij
56
Quindi le quantità che intervengono nei test sono le seguenti, con ovvie estensioni delle
notazioni.
- Variazione totale SS(m)
ky yk2 =
XXX
i
(yijk y)2 .
La dimensione dello spazio a cui appartiene il vettore ky yk2 è n 1

- Variazione residua SS(m,a,b,c).
XXX
XXX
2
ky y
A,B,AB k2 =
(yijk yijk )2 =
yijk y ij .
i
La dimensione dello spazio a cui appartiene il vettore ky y

ABC k2 è n s1 s2 .
- Variazione interclasse del fattore A, SS(m,b,c) SS(m,a,b,c) o SSA
ky y
B,AB k2 ky y
A,B,AB k2 =
XXX
X
2
2
yijk y i. y ij + y yijk y ij = r s2
(y i. y)2 = k
yA yk2 .
i
La dimensione dello spazio a cui appartiene il vettore k

yA yk2 è s1 1.
- Variazione interclasse del fattore B, SS(a,b,c) SS(m,a,b,c) o SSB
ky y
A,AB k2 ky y
A,B,AB k2 =
XXX
X
2
2
2
y .j y = k
yB yk2 .
yijk y .j y ij + y yijk y ij = r s1
i

yB yk2 è s2 1.
- Variazione interclasse allinterazione AB, SS(m,a,b) SS(m,a,b,c) o SSAB
ky y
A,B k2 ky y
A,B,AB k2 =
XXX
2
2
yijk y i. y .j + y ij yijk y ij =
i
XX
i
y ij y i. y .j + y
2
= ky y
AB k2 .

yAB yk2 è (s1 1)(s2 1).
Osserviamo che, nel caso di esperimento bilanciato, le due varianze interclasse nel modello con interazione sono uguali a quelle nel modello a un fattore e a quelle nel modello
a due fattori senza interazione.
Anche in questo caso si può dimostrare - in modo analogo a quanto fatto per il modello
senza interazione - che la variazione totale è la somma della variazione residua, delle
variazioni interclassi dei due fattori e della variazione interclasse dellinterazione.
2.4
57
Analisi della varianza con fattori nested
Esempio C Riprendiamo in esame lesempio B di questo capitolo riguardante linfluenza della zona di nidificazione e delletà sulla quantità di DDT presente nei tessuti
dei falchi in un modello con interazione, ricordando che si erano ottenute conclusioni
diverse per quanto riguarda linfluenza delletà nel caso di un modello a un fattore e
nel caso del modello a due fattori senza interazione.

Source
Model
Error
Corrected Total
R-Square
0.996835
Source
zona
eta
zona*eta
DF
8
18
26
Sum of
Squares
19524.29630
62.00000
19586.29630
Coeff Var
4.182795
DF
2
2
4
Mean Square
2440.53704
3.44444
Root MSE
1.855921
Anova SS
17785.40741
1721.18519
17.70370
F Value
708.54
Pr > F
<.0001
ddt Mean
44.37037
Mean Square
8892.70370
860.59259
4.42593
F Value
2581.75
249.85
1.28
Pr > F
<.0001
<.0001
0.3128
In questo modello solo linterazione fra i due fattori risulta non influente sulla quantità di DDT, mentre letà - da sola - influisce, come nel modello a due fattori senza
interazione; la zona rimane sempre influente in tutti e tre i modelli.
2.4
Si dice che fattore B è annidato dentro il fattore A e si indica B(A) nel caso in cui i
livelli del fattore B hanno un significato differente a seconda del livello corrispondente
del fattore A. Ad esempio in una sperimentazione di un farmaco il fattore A indica il
centro dove viene effettuato lesperimento e il fattore B il reparto; se i reparti dei due
centri hanno caratteristiche diverse allora si dice che il reparto è annidato nel centro.
Il modello si scrive come:
yijk = + i + j (i ) + ijk
con ovvie estensioni delle notazioni.
Se s1 = 2, s2 = 3 e si hanno due repliche per ciascun livello di B(A), la situazione è
rappresentabile nel seguente modo.
58
X
y
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
a2
b1 (a1 )
b2 (a1 )
b3 (a1 )
b1 (a2 )
b2 (a2 )
b3 (a2 )
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
1 (1 )
2 (1 )
3 (1 )
1 (2 )
2 (2 )
3 (2 )
Con una notazione derivata dai software statistici un modello di questo tipo può essere
indicato con A + B(A), mentre un modello con interazione è indicato con A + B + AB
o con A|B.
Il sottospazio generato dalle colonne della matrice X nei due modelli crossed e nested
è lo stesso ma la parametrizzazione è differente. Osserviamo che la sottomatrice B(A)
del modello nested e la sottomatrice AB del modello crossed sono uguali anche se hanno
un significato differente.
La matrice X? di rango pieno si costruisce, per il fattore B(A) considerando i vettori
bj (ai )? = bj (ai ) bs2 (ai )
per ogni i = 1, . . . ,s1 e ogni j = 1, . . . ,s2 1.
y
y1(1)1
y1(1)2
y2(1)1
y2(1)2
y3(1)1
y3(1)2
y1(2)1
y1(2)2
y2(2)1
y2(2)2
y3(2)1
y3(2)2
1
1
1
1
1
1
= 1
1
1
1
1
1
1
a1
1
1
1
1
1
1
-1
-1
-1
-1
-1
-1
I vincoli del modello

fattore nested
X
?
b2 (a1 ) b1 (a2 ) b2 (a2 )

1
0
0
0
1(1)1
1
0
0
0
0
1
0
0
0
1
0
0
-1
-1
0
0
1
-1
-1
0
0
1 (1 ) +
0
0
1
0
2 (1 )
1(2)1
0
0
1
0
1 (2 )
0
0
0
1
2 (2 )
0
0
0
1
0
0
-1
-1
0
0
-1
-1
P
sono quindi i i = 0 per il primo fattore e gli s1 vincoli per il
b1 (a1 )
s2
X
j(i) = 0
per i = 1, . . . ,s1 .
j=1
Anche in questo caso i vettori corrispondenti ai quattro gruppi di parametri sono fra
di loro ortogonali.
2.4

0
1
12
0
0
B(A1 ) 0
0
B(A2 ) 0
1
A
A
0
12
0
0
0
0
59
1
per s1 = 2, s2 = 3 e due
X? X?
B(A1 )
0 0
0 0
4 2
2 4
0 0
0 0
B(A2 )
0 0
0 0
0 0
0 0
4 2
2 4
1
A
B(A1 )
B(A2 )
1
1
0
0
0
0
0
(X? X? )1
A B(A1 ) B(A2 )
0 0 0 0 0
1 0 0 0 0
0 4 -2 0 0
1
0 -2 4 0 0 12
0 0 0 4 -2
0 0 0 -2 4
In un modello con due fattori di cui uno nested i gradi di libertà del primo fattore
sono s1 1 e quelli per il fattore nested sono s1 (s2 1).
Essendo uguali i sottospazi del modello crossed e nested, vale anche in questo caso che
la variazione totale è la somma della variazione residua e delle variazioni interclassi dei
due fattori.
Esempio D Consideriamo un esempio tratto da un lavoro di Snedecor e Cochran del
1976. Per studiare la concentrazione di calcio in turnip greens vengono scelte a caso
quattro piante a caso e quindi da ciascuna pianta sono scelte a caso tre foglie. Da
ciascuna foglia sono presi due campioni di 100 mg e per ciascuno è determinata con
metodi chimici la quantità di calcio. I risultati sono i seguenti.
The ANOVA Procedure

Class
Levels
Values
Plant
4
1 2 3 4
Leaf
3
1 2 3
24
Dependent Variable: Calcium

Source
Model
Error
Corrected Total
R-Square
0.992225
Source
Plant
Leaf(Plant)
DF
11
12
23
Sum of
Squares
10.19054583
0.07985000
10.27039583
Coeff Var
2.708195
DF
3
8
Mean Square
0.92641326
0.00665417
Root MSE
0.081573
Anova SS
7.56034583
2.63020000
F Value
139.22
Pr > F
<.0001
Calcium Mean
3.012083
Mean Square
2.52011528
0.32877500
F Value
378.73
49.41
Pr > F
<.0001
<.0001
60
2.4.1
Vantaggi degli esperimenti bilanciati
Concludiamo con alcune considerazioni, verificabili anche negli esempi precedenti, sulla
decomposizione dello spazio Rn nel caso di esperimenti bilanciati e sulle conseguenze
nella stima e nella verifica di ipotesi dei parametri.
Prendiamo in considerazione per semplicità il modello a una e a due vie senza interazione e indichiamo con lindice in alto (1) e (2) rispettivamente gli spazi e le stime dei
due modelli. La generalizzazione a modelli pi`
u ampi è immediata.
Abbiamo visto anzitutto che gli stimatori dei vari gruppi di parametri che intervengono nel modello, la media, i parametri per il fattore A e quelli per il fattore B sono
indipendenti.
Inoltre le stime nel modello a un fattore sono uguali a quelle nel modello a pi`
u fattori,
(1)
(2)
ad esempio a
i = a
i .
Per quanto riguarda gli spazi generati dalle colonne della matrice X del modello questo
(1)
(2)
si traduce nel fatto che VA? = VA? . Si ha quindi:
(1)
(1)
Rn = VI VA? VI+A?
(2)
(2)
(1)
(1)
(2)
Rn = VI VA? +B ? VI+A? +B ? = VI VA? VB ? VI+A? +B ?

(1)
Dunque lo spazio residuo nel modello a una via VI+A? è decomposto, nel modello a due
(1)
(2)
vie in due sottospazi ortogonali VB ? e VI+A? +B ? , cioè:
(1)
(1)
(2)
VI+A? = VB ? VI+A? +B ?
nel modello
Nel caso di esperimenti bilanciati, per trovare le stime dei valori attesi y
(1)
A? , considerare il vettore
a due vie è possibile, prima proiettare y su VA? , ottenendo y
(1)
B ? . Essendo i sottospazi considerati
residuo y
yA? e proiettare questo su VB ? ottenendo y
tutti ortogonali fra loro si ottengono le stesse stime cambiando lordine dei fattori, cioè
(1)
B ? , e proiettano poi il residuo y y
B ? su VV(1)
proiettando prima y su VB ? , ottenendo y
? ,
A? .
ottenendo y
2.5
Analisi della varianza per esperimenti non bilanciati
Nella pratica sperimentale spesso si presentano situazioni in cui non è possibile avere un
uguale numero di osservazioni per ciascun livello dellinterazione dei fattori. Anche in
tal caso è possibile effettuare una analisi della varianza in modo sostanzialmente simile
a quanto visto sopra.
Nel caso non bilanciato, però, non risultano pi`
u ortogonali i sottospazi di V corrispondenti ai vari fattori e la decomposizione della varianza (o meglio della variazione) della
variabile risposta y non è pi`
u univoca. Inoltre gli stimatori dei coefficienti del modello
1
0
non sono pi`
u indipendenti fra i vari fattori; infatti la matrice X? X?
non è ortogonale
a blocchi come è illustrato nel seguente semplice esempio di analisi della varianza a una
via.
2.5
1 1 0
1 1 0
1 0 1
?
X = 1 0 1
1 -1 -1
1 -1 -1
1 -1 -1
7 -1 -1
X X = -1 5 3
-1 3 5
?0
?0
X X

? 1
61
0.15 0.02 0.02

= 0.02 0.31 -0.02
0.02 -0.02 0.31
Le statistiche test assumono - ovviamente - la stessa forma, ma le loro espressioni sono

pi`
u complicate. Analizziamo nei dettagli nellanalisi della varianza a una via.
2.5.1
Analisi della varianza a una via
Consideriamo il modello:
yik = + i + ik
i = 1, . . . ,s k = 1, . . . ,ri
con il numero
P di repliche ri diverso per ogni livello del fattore A e con vincolo sui
coefficienti sj=1 j = 0.
La somma dei quadrati dei residui nel modello completo è:
SS(,) =
ri
s X
X
(yik i )2
i=1 k=1
Uguagliando a 0 le derivate parziali rispetto ai coefficienti si ottiene:

ri
s X
X
SS
=0
(yik i ) = 0
i=1 k=1
ri
s X
X
yik n
s
X
ri i = 0
i=1
i=1 k=1
s
1X
y
ri i = 0
n i=1
rj
X
SS
(yjk j ) = 0
= 0 , j = 1, . . . ,s
j
k=1
rj y j rj rj j = 0
y j j = 0
Sommando, su j, le derivate parziali rispetto a j si ha:
s
X
y j s
j=1
s
X
j = 0
j=1
Per il vincolo sui coefficienti si ottengono le stime:

s
1X
m=
y
s j=1 j
1X
aj = y j
y
s i=1 i
62
Osserviamo che m non è la media di y, come nel caso bilanciato.

Quindi lapprossimazione lineare di yik per tutte le unità sperimentali che corrispondono al livello i per il fattore A, è, come nel caso di esperimento bilanciato:
yik = y i
per ogni k = 1, . . . r .
La somma dei quadrati dei residui del modello completo nel campione considerato è:
2
SS(m,a) = ky y
k =
ri
s X
X
(yik y i ) =
ri
s X
X
i=1 k=1
2
yik
i=1 k=1
s
X
ri y 2i
i=1
avendo indicato con y

C il vettore con elementi y i .
Indichiamo con R la costante del modello ridotto senza fattore. Nel modello ridotto
si ha:
ri
s X
X
SS(R ) =
(yik R )2
i=1 k=1
Uguagliando a 0 la rispetto a R si ottiene:

r
i
XX
dSS
yik nR = 0 mR = y
=0
dR
i=1 k=1
La somma dei quadrati dei residui del modello ridotto nel campione considerato è:
2
SS(mR ) = ky y
R k =
ri
s X
X
(yik mR ) =
ri
s X
X
2
yik
ny 2
i=1 k=1
i=1 k=1
avendo indicato con y

R il vettore con elementi y.
La variazione interclasse del fattore A, SS(mR ) SS(mC ,a), è:
2
ky y
R k ky y
k =
ri
s X
X
i=1 k=1
2
yik
ny
ri
s X
X
2
yik
i=1 k=1
s
X
i=1
ri y 2i
s
X
ri y 2i ny 2 .
i=1
Osserviamo che, anche nel caso non bilanciato, ky y

R k2 ky y
k2 = k
y yk2 , in
quanto in entrambi i casi yik = y i .
La realizzazione della statistica test per verificare la nullità contemporanea dei coefficienti i è quindi:
P
( si=1 ri y 2i ny 2 ) /(s 1)
P
fA = Ps Pri 2
.
( i=1 k=1 yik si=1 ri y 2i ) /(n s)
2.5.2
I diversi tipi di somme dei quadrati in SAS
Come già osservato, se i sottospazi in cui è decomposto V non sono tra loro ortogonali,
lordine con cui si fanno le proiezioni successive di y e dei residui nel vari sottospazi non
sono univoche. Ad esempio nellanalisi della varianza a due fattori se prima si proietta
y su VA , y
A , poi si proietta il residuo y y
A su VB si ottiene un risultato diverso che se
si proietta y su VB , y
B , poi si proietta il residuo y y
B su VA .
Per gli esperimenti non bilanciati, il software SAS prevede diversi modi per calcolare
le somme dei quadrati per il calcolo delle statistiche test.
2.5
63
SS1 Sono dette anche sequenziali. Si considerano le proiezioni successive di y e dei

residui nel vari sottospazi nellordine con cui sono scritte le variabili nel modello.
In tal modo si può valutare il miglioramento dellapprossimazione un fattore dopo
laltro. Ad esempio in un modello
yijhk = + i + j + h + ijhk
(2.3)
le somme dei quadrati di tipo 1 per ciascun parametro corrispondono a

- Fattore A: SS(m) SS(m,a), indicata anche con R(a|m)
- Fattore B: SS(m,a) SS(m,a,b), indicata anche con R(b|m,a)
- Fattore C: SS(m,a,b) SS(m,a,b,c), indicata anche con R(c|m,a,b)
SS2 Permettono di valutare il miglioramento dellapprossimazione dovuta a un fattore
rispetto a un modello con tutti gli altri. Possono essere dette marginali. Nel
modello precedente (2.3) le somme dei quadrati di tipo 2 per ciascun parametro
corrispondono a
- Fattore A: SS(m,b,c) SS(m,a,b,c), indicata anche con R(a|m,b,c)
- Fattore B: SS(m,a,c) SS(m,a,b,c), indicata anche con R(b|m,a,c)
- Fattore C: SS(m,a,b) SS(m,a,b,c), indicata anche con R(c|m,a,b).
SS3 e SS4 Sono dette anche parziali. Differiscono fra loro solo se nei dati ci sono valori mancanti. Non sono calcolate in genere come differenza fra somme dei quadrati
di diversi tipi di modelli, ma il modello viene riparametrizzato per avere stimatori
indipendenti per i coefficienti relativi al fattore considerato. Vengono imposti vincoli
sui coefficienti.
Le ipotesi per i coefficienti di un fattore non implicano ipotesi sugli altri coefficienti
tranne che per quelli di fattori in esso contenuti (ad esempio il fattore A è contenuto
nel fattore AB e quindi, in questo caso, nel test per i coefficienti di AB sono imposti
vincoli anche sui coefficienti del fattore A).
Le ipotesi da verificare sono invarianti per lordine con cui sono scritti i fattori nel
modello.
Osserviamo che solo nel primo tipo di test la somma delle quantità in gioco è uguale
a SS(model).
Nel caso di esperimento bilanciato i risultati sono uguali per i quattro metodi. Con
un solo fattore SS1 e SS3 forniscono, ovviamente, lo stesso risultato.
2.5.3
Alcuni esempi
Esempio E Si vuole verificare leffetto del tipo di cura (fattore Drug) e del tipo di
malattia (fattore Disease) su una variabile risposta (variabile Y) tramite un modello di
analisi della varianza a due vie con interazione. La variabile risposta presenta alcuni
valori mancanti in alcune combinazioni di livelli dei due fattori, quindi lesperimento
non risulta bilanciato. Pi`
u precisamente il numero di osservazioni per i quattro livelli
di Draug è 15,15,12,16 e per i tre livelli di Disease è 19,19,20; come si vede il fattore
Disease è meno sbilanciato del fattore Drug.
64
proc glm;
class drug disease;
model y=drug|disease;
run; quit;
The GLM Procedure
Class
drug
disease
Levels
4
3
Values
1 2 3 4
1 2 3

72
58
Dependent Variable: y
Source
Model
Error
Corrected Total
DF
11
46
57
R-Square
0.456024
Sum of
Squares
Mean Square
4259.338506
387.212591
5080.816667
110.452536
9340.155172
Coeff Var
55.66750
Root MSE
10.50964
F Value
3.51
Pr > F
0.0013
y Mean
18.87931
Source
drug
disease
drug*disease
DF
3
2
6
Type I SS
3133.238506
418.833741
707.266259
Mean Square
1044.412835
209.416870
117.877710
F Value
9.46
1.90
1.07
Pr > F
<.0001
0.1617
0.3958
Source
drug
disease
drug*disease
DF
3
2
6
Type II SS
3063.432863
418.833741
707.266259
Mean Square
1021.144288
209.416870
117.877710
F Value
9.25
1.90
1.07
Pr > F
<.0001
0.1617
0.3958
Source
drug
disease
drug*disease
DF
3
2
6
Type III SS
2997.471860
415.873046
707.266259
Mean Square
999.157287
207.936523
117.877710
F Value
9.05
1.88
1.07
Pr > F
<.0001
0.1637
0.3958
In questo caso i risultati dei test effettuati con i tre tipi di somme sono uguali, anche
perchè le repliche nelle varie combinazioni di livelli non sono molto diverse fra loro.
Possiamo verificare che la decomposizione di SS(model) in tre quantità si ottiene
solo con le somme di tipo I.
Esempio F
Si considera il numero di piccioni morti ritrovati in un mese, suddivisi per regione,
provincia e tipologia di ambiente (montano, rurale, urbano). I dati non sono reali ma
simulati.
Si vuole costruire un modello predittivo del numero di piccioni morti attraverso
la tipologia di ambiente, ma si suppone che linfluenza di tale variabile sia differente
da regione a regione (lambiente montano siciliano differisce da quello trentino, ad
esempio), perciò si considera la variabile AMBIENTE come annidata in REGIONE.
Nota: inserendo il fattore annidato regione(ambiente) è necessario inserire anche il
2.6
65
Analisi della covarianza
fattore regione, per evitare che linfluenza della sola regione confluisca nella stima del
coefficiente del fattore annidato.
PROC GLM data=piccioni;
CLASS regione ambiente;
MODEL piccionimorti = regione ambiente(regione) ;quit;run;
The GLM Procedure
Class
regione
ambiente
Levels
20
3
Values
AB BA CL CM EM FR LA LI LO MA MO PI PU SA SI TO TR UM VA VE
MOUNT RURAL URBAN
Dependent Variable: piccionimorti

Source
Model
Error
Corrected Total
R-Square
0.715915
Sum of
Squares
5117.405763
2030.656349
7148.062112
DF
59
262
321
Coeff Var
3.515469
Root MSE
2.783989
Mean Square
86.735691
7.750597
F Value
11.19
Pr > F
<.0001
piccionimorti Mean
79.19255
Source
regione
ambiente(regione)
DF
19
40
Type I SS
4027.635249
1089.770513
Mean Square
211.980803
27.244263
F Value
27.35
3.52
Pr > F
<.0001
<.0001
Source
regione
ambiente(regione)
DF
19
40
Type III SS
4100.420719
1089.770513
Mean Square
215.811617
27.244263
F Value
27.84
3.52
Pr > F
<.0001
<.0001
I due tipi di somme di quadrati sono quasi uguali perche il numero di osservazioni
è pressoche uguale per ogni livello del fattore annidato.
2.6
Lanalisi della covarianza è una generalizzazione dei modelli di regressione lineare e di analisi della varianza. Il modello considerato, infatti, comprende come variabili esplicative
sia variabili quantitative che qualitative.
Se indichiamo con X la matrice le cui colonne contengono le rilevazioni delle variabili
esplicative quantitative (oltre la colonna di tutti 1) e con A la matrice con le indicatrici
dei livelli di q fattori, e con K la matrice con colonne il prodotto di ciascuna colonna di
X con ciascuna colonna di A, il modello di analisi della covarianza è:
y = X + A + K +
dove è il vettore dei coefficienti delle variabili quantitative, è il vettore dei coefficienti
delle variabili qualitative e è il vettore dei coefficienti dellinterazione fra variabili
quantitative e qualitative.
Ad esempio se si vuole studiare una variabile Y in dipendenza da una variabile quantitativa X, da un fattore A e dallinterazione fra X e A, lespressione del modello per
66
una generica unità sperimentale è:

Yik = + xik + i + i xik + ik = + i + ( + i )xik + ik
Un modello riparametrizzato stimabile è il seguente:
Yik = ( + s ) + (i s ) + (( + s ) + (i s )) xik + ik
Esempio G I dati sono stati selezionati da un pi`
u vasto insieme di dati sulluso di
diversi farmaci nel trattamento della lebbra (Snedecor and Cochran 1967, p. 422). Si
vuole studiare leffetto di diversi farmaci (fattore Drug) sulla quantità di bacilli della
lebbra (variabile PostTreatment) in un campione di 30 soggetti. Il fattore Drug ha tre
livelli: A e D due antibiotici e F farmaco di controllo.
Nel primo modello è considerato come variabile esplicativa solo il fattore Drug, nel
secondo è aggiunta una variabile quantitativa che indica la quantità di bacilli prima
del trattamento (PreTreatment).
proc glm;
class Drug;
model PostTreatment = Drug;
run;quit;
The GLM Procedure
Class
Levels
Values
Drug
3
A D F
30
Dependent Variable: PostTreatment

Source
Model
Error
Corrected Total
R-Square
0.227826
DF
2
27
29
Coeff Var
76.84655
Sum of
Squares
293.600000
995.100000
1288.700000
Mean Square
146.800000
36.855556
Root MSE
6.070878
F Value
3.98
Pr > F
0.0305
PostTreatment Mean
7.900000
Source
Drug
DF
2
Type I SS
293.6000000
Mean Square
146.8000000
F Value
3.98
Pr > F
0.0305
Source
Drug
DF
2
Type III SS
293.6000000
Mean Square
146.8000000
F Value
3.98
Pr > F
0.0305
proc glm;
class Drug;
model PostTreatment = Drug PreTreatment ;
run; quit;
The GLM Procedure
2.6
Class
Drug
67

Levels
3
Values
A D F
30
Dependent Variable: PostTreatment

Source
Model
Error
Corrected Total
R-Square
0.676261
DF
3
26
29
Coeff Var
50.70604
Sum of
Squares
871.497403
417.202597
1288.700000
Root MSE
4.005778
Mean Square
290.499134
16.046254
F Value
18.10
Pr > F
<.0001
PostTreatment Mean
7.900000
Source
Drug
PreTreatment
DF
2
1
Type I SS
293.6000000
577.8974030
Mean Square
146.8000000
577.8974030
F Value
9.15
36.01
Pr > F
0.0010
<.0001
Source
Drug
PreTreatment
DF
2
1
Type III SS
68.5537106
577.8974030
Mean Square
34.2768553
577.8974030
F Value
2.14
36.01
Pr > F
0.1384
<.0001
La variazione interclasse per Drug utilizzando la somma dei quadrati di tipo 1 è

uguale a quella dellanalisi della varianza a una via, in quanto Drug è la prima variabile inserita nel modello. Il test corrispondente considera la differenza nei diversi
trattamenti senza tenere conto dei valori prima del trattamento. Il p-value indica che
il trattamento influisce sul numero di bacilli finali.
Nei testi effettuati utilizzando le somme dei quadrati di tipo 3, la variazione interclasse per Drug tiene conto anche della presenza dellaltra variabile. In questo caso
non ci sono differenze significative fra i risultati dei tre trattamenti.
Concludendo possiamo dire che cè una differenza statisticamente significativa fra le
medie nei diversi trattamenti, ma questa differenza è ridotta al di sotto del livello della
variabilità casuale quando il numero di bacilli prima del trattamento è considerato con
uguale importanza del tipo di medicina, cos` come viene fatto usando le somme dei
quadrati di tipo 3.
68
Capitolo 3
Modelli lineari generali
3.1
Parametrizzazioni per modelli lineari
In questo paragrafo approfondiremo alcune questioni legate alla stimabilità dei parametri
di un modello lineare, considerando genericamente modelli con variabili esplicative sia
quantitative che qualitative, se non diversamente precisato.
3.1.1
Modelli sovraparametrizzati
Abbiamo visto, nel capitolo sullanalisi della varianza, che non sempre tutti i parametri
del modello sono stimabili e abbiamo messo in relazione la stimabilità con il rango della
matrice X. Si possono avere casi di non stimabilità di tutti i parametri anche quando il
numero di colonne della matrice X è maggiore del numero di righe, cioè quando si hanno
pi`
u variabili esplicative che unità sperimentali. Questo avviene quando le rilevazioni sono
particolarmente costose o in generale difficili da effettuare; una situazione tipica riguarda
le espressioni geniche negli studi del DNA, dove il numero di geni presi in considerazione
è molto pi`
u elevato del numero di osservazioni effettuate. Metodi per trattare questo
tipo di modelli sono oggetto di studi e ricerche attuali. Di seguito ci concentreremo
essenzialmente su parametrizzazioni per modelli di tipo analisi della varianza.
Consideriamo il modello:
Y = X +
(3.1)
dove il numero di parametri è p e il rango di X è r, con r < p.
Un primo tipo di approccio per trovare un insieme di parametri stimabili è quello di
costruire un nuovo modello
Y = D +
(3.2)
con D di rango r che generi lo stesso sottospazio vettoriale di X.
Esamineremo tre tipi di soluzioni a questo problema: limposizione di vincoli sui parametri, la riparametrizzazione del modello a partire da un vettore di coefficienti fissati
e la riparametrizzazione del modello a partire da una sottomatrice di X fissata.
` quanto è già stato visto nel capitolo relativo
1. Si impongono vincoli sui parametri. E
allanalisi della varianza.
69
70
Ad esempio nel caso di un modello con due fattori, a 3 e 2 livelli rispettivamente,

senza interazione, il vettore dei parametri è = (,1 ,2 ,3 ,1 ,2 )t . I vincoli posti
sui parametri possono essere scritti in forma matriciale come F = 0 con

0 1 1 1 0 0
F= 0 0 0 0 1 1
In generale la matrice F deve avere p r righe linearmente indipendenti e p colonne.
Inoltre i vincoli non sono necessariamente 0; quindi la forma generale è:
F = v
con v vettore (p r)-dimensionale.
Ricordiamo che: le righe (o le colonne) di una matrice sono linearmente indipendenti
se una loro combinazione lineare è zero solo se i coefficienti della combinazione sono
tutti nulli. Cioè data una matrice A di dimensione n m, le righe di A sono
linearmente indipendenti se per k Rn , kt A = 0, implica k = 0. Analogamente
le colonne di A di sono linearmente indipendenti se per h Rm , Ah = 0, implica
h = 0.
2. Si considera un vettore di r parametri combinazioni lineari (fra di loro indipendenti) dei p parametri iniziali e si trova la matrice D corrispondente.
Se è scritto come:
= L
con L matrice r p di rango pieno, allora il corrispondente modello di rango pieno
(3.2) diventa:
Y = DL + ,
che, come già detto, deve essere equivalente al modello sovraparametrizzato (3.1).
Quindi bisogna trovare D che soddisfi la relazione
X = DL .
(3.3)
Una possibile soluzione (non unica) si trova osservando che la matrice LLt è quadrata
e di rango pieno, dunque è invertibile. Quindi, nella relazione (3.3) moltiplichiamo
1
a destra per la matrice Lt (LLt ) ottenendo:
1
1
XLt LLt
= DLLt LLt
;
da cui:
D = XLt LLt
1
(3.4)
Come esempio consideriamo un modello ANOVA a una via con tre livelli in cui si
vuole stimare il vettore delle deviazioni delle medie di livello dalla media generale
= ( + 1 , + 2 , + 3 )t . In tal caso le matrici L e X (considerando per
due repliche per ogni livello del fattore) sono:
1 1 0 0
!
1 1 0 0
1 1 0 0
1 0 1 0
L = 1 0 1 0
X=
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
3.1
71
La matrice del modello di rango pieno D che si ottiene dalla relazione (3.4) è:
1 1 1
1 1 1
1
1 1 1
.
D=
1
1
1
2
1 1 1
1 1 1
Il modello Y = D + , scritto esplicitando le relazioni nei tre livelli del fattore,
diventa:
Y1k = 1/2 ( + 1 + 2 + 3 ) + 1k = 1/2 ( + 1 2 3 ) + 1k
Y2k = 1/2 ( 1 + 2 + 3 ) + 2k = 1/2 ( 1 + 2 3 ) + 2k
Y3k = 1/2 ( 1 + 2 + 3 ) + 3k = 1/2 ( 1 2 + 3 ) + 3k .
Una scelta di parametri da stimare che corrisponde a un modello pi`
u facilmente
t
interpretabile è: = ( + 1 , + 2 , + 3 ) . Infatti in tal caso
1 0 0
!
1 0 0
1 1 0 0
0 1 0
L= 1 0 1 0
D=
0 1 0
1 0 0 1
0 0 1
0 0 1
Quindi il modello, scritto esplicitando le relazioni nei tre livelli del fattore, diventa:
Y1k = + 1 + 1k
Y2k = + 2 + 2k
Y2k = + 3 + 3k .
3. Si determina una sottomatrice D di X di rango pieno e si trova il vettore di r
parametri corrispondenti.
Si partiziona la matrice X in due blocchi X = [X1 X2 ] in modo che X1 sia di rango
pieno. Il corrispondente vettore dei coefficienti è = ( 1 2 )t . Il modello (3.2) che
si considera è:
Y = X1 + ,
Bisogna ricavare in funzione di . Si ha:
= 1 + Xt1 X1
1
Xt1 X2 2
Dimostrazione.
Sappiamo che il proiettore ortogonale nel sottospazio V generato da X1 è: PV =
1
X1 (Xt1 X1 ) Xt1 . Le colonne di X2 , essendo linearmente dipendenti dalle colonne
di X1 , appartengono a V , quindi PV X2 = X2 . Quindi:
1 t
Y = X + = X1 1 + X2 2 + = X1 1 + X1 Xt1 X1
X 1 X2 2 + =

1
= X1 1 + Xt1 X1
Xt1 X2 2 +
72
Come esempio consideriamo nuovamente un modello ANOVA a una via con tre
livelli non bilanciato. Si partiziona la matrice X, e di conseguenza il vettore , nel
seguente modo:
1 1 0 0
1 1 0 0
1 0 1 0
= 1
X=
1 0 1 0
2
1 0 0 1
3
1 0 0 1
1 0 0 1
Da cui:
Xt1 X1
1
Xt1 X2 =
1
1
1
!
=
+ 3
1 3
2 3
Gli ultimi parametri (relativi al fattore A) sono quindi le deviazioni delle medie di
livello dalla media del terzo livello, che quindi risulta essere un livello di riferimento. La scelta di X2 dipende da quale livello del fattore si intende prendere come
riferimento.
Il modello Y = X1 + , scritto esplicitando le
diventa:
Y1k = + 3 + 1 3 + 1k
Y2k = + 3 + 2 3 + 2k
Y3k =
relazioni nei tre livelli del fattore,

= + 1 + 1k
= + 2 + 2k
= + 3 + 3k
Vediamo le riparametrizzazioni che si ottengono nellanalisi della varianza con due

fattori, scegliendo come livelli di riferimento lultimo del fattore A e lultimo del
fattore B.
Nel caso di fattori crossed, per il modello senza interazione e quello con interazione
si ottengono rispettivamente:
+ s1 + s2 + s1 ,s2
..
.
( ) + (
i
s1
i,s2
s1 ,s2
..
= ( ) + (
)
j
s
s
,j
s
,s
2
1
1
2
..
( ) (
)
s1 ,j
i,s2
s1 ,s2
i,j
..
.
+ s1 + s2
..
i s
1
=
..
s2
j
..
.
con i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.
3.1
73
Nel caso di fattori nested con B annidato dentro A si ottiene
+ s1 + s2 (s1 )
(1 s1 ) + (s2 (1 ) s2 (s1 ))
..
(i s ) + (s (i ) s (s ))
1
2
2
1
..
(
)
(
)
=
1
1
s2
1
2 (1 ) s2 (1 )
.
.
j (i ) s2 (i )
..
s2 1 (s1 ) s2 (s1 )
con i = 1, . . . ,s1 1 e j = 1, . . . ,s2 1.
Osservazione. Questo tipo di riparametrizzazione è quella che usa il software SAS.
Le stime fornite per i parametri sono quindi quelle per e non, ad esempio per
(,1 ,2 )t , come potrebbe sembrare.
Esempio A Riprendiamo in considerazione lesempio G sulleffetto del trattamento
sul numero di bacilli della lebbra del capitolo 2. Qui sotto è riportata la parte di
output corrispondente alle stime dei parametri.
proc glm;
class Drug;
model PostTreatment = Drug PreTreatment / solution;
run; quit;
Parameter
Intercept
Drug
A
Drug
D
Drug
F
PreTreatment
Estimate
-0.434671164
-3.446138280
-3.337166948
0.000000000
0.987183811
B
B
B
B
Standard
Error
2.47135356
1.88678065
1.85386642
.
0.16449757
t Value
-0.18
-1.83
-1.80
.
6.00
Pr > |t|
0.8617
0.0793
0.0835
.
<.0001
NOTE: The XX matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter B are not uniquely estimable.
La stima del valore atteso della variabile risposta nei tre livelli è quindi:
(
PostTreatmentik =
(0. 4347 3. 4461) +0. 9872 PreTreatmentik se i = A

(0. 4347 3. 3372) +0. 9872 PreTreatmentik se i = D
(0. 4347)
+0. 9872 PreTreatmentik se i = F
74
Esiste poi un quarto modo per effettuare le stime dei coefficienti quando la matrice X
non è di rango pieno che consiste nellusare una inversa generalizzata.
Ricordiamo che se A è una matrice n m, si dice che A è inversa generalizzata di
A, se vale:
AA A = A .
Se A è invertibile, allora A = A1 . Per ogni matrice quadrata non di rango pieno o
rettangolare esistono infinite inverse generalizzate.
Nel caso in cui: A = Xt X si può dimostrare che:
- X (Xt X) Xt X = X, cioè (Xt X) Xt è inversa generalizzata di X;
- X (Xt X) Xt è invariante per ogni scelta di inversa generalizzata
- X (Xt X) Xt è simmetrica indipendentemente dalla simmetria di (Xt X) .

Le conseguenze di queste proprietà nel caso dei modelli lineari sono:
- X (Xt X) Xt è un proiettore sullo spazio delle colonne di X; infatti è una matrice simmetrica (per la proprietà precedente), idempotente (facilmente verificabile).
Inoltre proietta proprio sullo spazio delle colonne di X; infatti X (Xt X) Xt X = X.

Quindi indichiamo tale matrice con PV .
- Il vettore degli stimatori dei coefficienti (Xt X) Xt Y non è unico;

- PV è unico e quindi è unico anche lo stimatore PV Y dei valori attesi della variabile
risposta.
3.1.2
Funzioni parametriche stimabili
In questo capitolo formalizzeremo il concetto di stimabilità dei parametri di un modello

lineare Y = X + .
Una combinazione lineare dei parametri del modello può essere indicata con lt dove l è un vettore con i coefficienti delle combinazioni lineari dei parametri originali,
l= (l1 ,l2 , . . . ,lp )t . lt viene anche chiamata funzione parametrica lineare.
Definizione 1 Si dice che:
P
- lt è un contrasto se pj=1 lj = 0 e che è un contrasto normalizzato se vale anche
klk = 1.
- lt1 e lt2 (con l1 e l2 righe di L) sono algebricamente dipendenti se l2 può essere
scritto come al1 + b, a,b R e che sono algebricamente ortogonali se lt1 l2 = 0.
Definizione 2 Una funzione parametrica lineare lt è stimabile se ha uno stimatore non
distorto funzione lineare delle variabili aleatorie Y1 , . . . ,Yn , cioè se esiste s Rn tale che:
E(st Y) = lt .
Vediamo alcune caratterizzazioni e proprietà delle funzioni parametriche stimabili.
Proposizione 1 Una funzione parametrica lt è stimabile se e solo se l appartiene allo
spazio generato dalle righe di X, cioè è combinazione lineare delle righe di X.
Dimostrazione
3.1
75
Se lt è stimabile allora, per la definizione, esiste s tale che E(st Y) = lt . Allora

st E(Y) = lt , cioè st X = lt . Quindi l = Xt s.
Si dimostra in modo analogo con passaggi a ritroso.
Proposizione 2 Sia lt una funzione parametrica stimabile. Lo stimatore è unico se e
solo se le righe della matrice X sono linearmente indipendenti. Cioè non esiste nessun
altro vettore s1 Rn , s1 6= s, tale che E(st1 Y) = lt .
Dimostrazione Dimostriamo per assurdo. Supponiamo quindi che esista un tale vettore
s1 che in generale si potrà scrivere come s1 = s + s, con s vettore non nullo. Allora:
E(st1 Y) = E(st Y) + E(st Y)
da cui lt = lt + st X e quindi st X = 0 per ogni . Dunque Xts = 0. Questo
contraddice lipotesi di indipendenza delle righe di X.
Esempio In un modello di ANOVA a una via con 3 livelli un singolo coefficiente non
è stimabile. Vediamo il caso di ; per gli altri coefficienti la dimostrazione è analoga.
Si ha: = (1,0,0,0)t . Il vettore (1,0,0,0) non appartiene allo spazio delle righe di X;
infatti non esistono a,b,c R tali che
(1,0,0,0) = a(1,1,0,0) + b(1,0,1,0) + c(1,0,0,1) .
Proposizione 3 Ogni funzione parametrica lineare lt è stimabile se e solo se le colonne
della matrice X sono linearmente indipendenti, cioè X = 0 implica lt = 0.
Dimostrazione
Immediata. Infatti E(st Y) = st E(Y) = st X. Da cui st X = lt e quindi X = 0
implica lt = 0 per ogni l Rp e quindi = 0.
Supponiamo per assurdo che lt non sia stimabile, cioè che per ogni s si abbia st X 6=
lt e quindi se X = 0 si avrebbe lt 6= 0, ovvero 6= 0 il che contraddice lipotesi
di indipendenza delle colonne di X.
Definizione 3 Sia lt stimabile da st Y. Si dice che st Y è il Best linear unbiased
estimator (BLUE) se è di minima varianza fra gli stimatori lineari non distorti.
Definizione 4 Sia lt stimabile. Uno stimatore del tipo

l t Xt X Xt Y
è detto Least Square Estimator (LSE) di lt .
Ricordiamo la non unicità di un tale stimatore.
Osserviamo che il LSE ha caratteristiche geometriche, mentre il BLUE prevede un
modello, cioè una legge per la variabile risposta.
Sotto le usuali ipotesi sulla varianza di Y, la matrice di varianza/covarianza degli
stimatori LSE di lt è: 2 lt (Xt X) l.

1
Se X è di rango pieno il LSE di lt è lt (Xt X) Xt Y ed è indicato con lt BLS . Nel
Capitolo 1.2.6 abbiamo dimostrato che BLS è uno stimatore BLUE di .
Riassumiamo alcune delle proprietà viste:
76
1. Se le colonne di X sono linearmente indipendenti, ogni funzione parametrica lineare

lt è stimabile. Lo stimatore LS è anche BLUE ma non è unico.
2. Se le righe di X sono linearmente indipendenti, lo stimatore è unico.
3. Se vale 1. e n > p per ogni s ker Xt , cioè tale che Xts = 0, si ha uno stimatore
dato da:
s = sLS + s
1
dove stLS = lt (Xt X) Xt .

Se il modello è saturo, cioè se il numero dei parametri è uguale a quello delle unità
sperimentali, n = p, lo stimatore è unico e il modello è completamente identificato.
Quanto visto nel precedente capitolo 3.1.1 e in questo conduce alla seguente Proposizione.
Proposizione 4 Se il modello sovraparametrizzato Y = X + è riparametrizzato in
1
Y = X1 + con X1 sottomatrice di X di rango pieno e = 1 + (Xt1 X1 ) Xt1 X2 2 ,
allora:
a) Qualunque combinazione lineare di è stimabile
b) Una combinazione lineare di è stimabile se e solo se si può decomporre in
1 t
lt = lt1 1 + lt2 2 con lt2 = lt1 Xt1 X1
X1 X 2 .
Per esemplificare la non unicità degli stimatori, consideriamo un modello ANOVA con
un fattore a 3 livelli e 2 repliche per ciascun livello. Nel capitolo precedente, paragrafo
2.1.1, abbiamo visto che per il modello Y = X? ? + con
1 1 0
!
1 1 0
1 0 1
1
X? ? =
1 0 1
2
1 1 1
1 1 1
P
e il vincolo
i = 0, lo stimatore dei minimi quadrati di ? è:
Y11

! Y12
Y
Y
1
1
1
1
1
1
Y21
1
1 (Y11 + Y12 ) Y = Y 1. Y
2 2 1 1 1 1
Y22 =
2
6 1 1 2 2 1 1
1
(Y21 + Y22 ) Y
Y 2. Y
Y31
2
Y32
Utilizzando il software CoCoA si ottiene che una base del ker della matrice (X? )t è:
!
1 1 0 0 0 0
0 0 1 1 0 0
0 0 0 0 1 1
3.1
77
e dunque per esempio uno stimatore non distorto del parametro 1 (con il vincolo sulla
somma dei coefficienti uguale a 0) è dato da:
Y11
Y12
Y21 1
1
(Y11 + Y12 ) Y + ( 1 1 0 0 0 0 )
Y22 = 2 (3Y11 Y21 ) Y
2
Y31
Y32
Verifichiamo che è non distorto:

1
1
E
(3Y11 Y12 ) Y = (3 + 31 1 ) = 1
2
2
Questo stimatore però non è di minima varianza; si verifica facilmente che la sue varianza
è 37 2 mentre quella dello stimatore dei minimi quadrati è 13 2
3.1.3
Verifica di ipotesi su funzioni parametriche
Consideriamo un modello Y = X + . Un insieme di ipotesi sui parametri può essere

scritto usando una matrice L di dimensioni r p e di rango r:
H0 : L = 0
H0 : L 6= 0
Definizione 5 Lipotesi L = 0 è verificabile se

X = 0
implica
L = 0
La definizione è del tutto analoga a quella della stimabilità.

Se X è di rango pieno, lipotesi è sempre verificabile. In caso contrario si considera il modello Y = X1 + con X1 sottomatrice di X di rango pieno e =
1
1 + (Xt1 X1 ) Xt1 X2 2 . Lipotesi principale del test diventa: L1 = 0.
3.1.4
Un approfondimento: stimabilit`
a dei coefficienti e confusione
Precisiamo le condizioni di stimabilità di una funzione lineare dei parametri lt e individuiamo relazioni di confusione con altre funzioni lineari dei parametri. Consideriamo
lt funzione parametrica lineare dei e indichiamo con W lo spazio di dimensione p
generato dalla matrice X con l, Rp , allora lt non è stimabile se l 6 W .
W è un sottospazio vettoriale di Rp , che può essere riscritto quindi come
Rp = W W c
con W c uno spazio complementare di W. Analogamente anche l può essere decomposto
come
l = lW + lW c
Dalluguaglianza precedente si ricava che la funzione parametrica lt può essere riscritta come
lt = ltW + ltW c
78
Sappiamo che ltW è stimabile, quindi lt risulta stimabile sotto il vincolo ltW c = 0.
La sceltà di W c è arbitraria, una possibilità è considerare W .
Un esempio
Consideriamo un modello di tipo ANOVA ad una via con un fattore a tre livelli
Y = + 1 A1 + 2 A2 + 3 A3 +
un generico elemento appartenente allo spazio generato dalle righe della matrice X
assume la forma
lW = k1 (1,1,0,0) + k2 (1,0,1,0) + k3 (1,0,0,1) = (k1 + k2 + k3 ,k1 ,k2 ,k3 )
con ki Rp . Nessun parametro è singolarmente stimabile, ad esempio la media si ottiene
t
da lW
= [1,0,0,0] che non appartiene a W . Per conoscere quali parametri sono stimabili
bisogna prima individuare i vincoli a cui devono sottostare. Scegliamo come sottospazio
complementare a W il suo ortogonale W , allora il vincolo a cui devono sottostare i
t
parametri stimabili è lW
= 0. Indichiamo un generico elemento appartenente a W ,
come
ltW = (l1 ,l2 ,l3 ,l4 ) con li Rp
Essendo i due sottospazi ortogonali, i vettori che li generano saranno ortogonali quindi
(k1 + k2 + k3 )l1 + l2 k1 + k2 l3 + k3 l4 = 0
che sviluppato diventa
k1 (l1 + l2 ) + k2 (l1 + l3 ) + k3 (l1 + l4 ) = 0
e quindi si ottiene
l1 = l2
l1 = l3
l1 = l4
Un vettore che genera W è h(1, 1, 1, 1).

Quindi dalla decomposizione di l citata in precedenza si ottiene
l = (k1 + k2 + k3 ,k1 ,k2 ,k3 ) + h(1, 1, 1, 1)
da cui deriva
k1 + k2 + k3 + h = 1 k1 h = 0 k2 h = 0 k3 h = 0
e quindi h = k1 = k2 = k3 = 41 . Sostituendo i valori ottenuti troviamo
lW = (3/4,1/4,1/4,1/4)t
lW = (1/4,1/4,1/4,1/4)t
Per cui la media risulta stimabile sotto il vincolo = 1 + 2 + 3 che non è quello
usuale.
Consideriamo ora lt non stimabile. Allora lt è confusa con dt se esiste un numero
reale 6= 0 tale che
(l + d)t
sia stimabile, con
l + d 6= 0
Se sono rispettate le condizioni precedenti allora

l + d W
e lW + dW = 0
3.2
79
Modello lineare multivariato
Quindi la forma generale di d tale che dt sia confuso con lt e sarà

d = e + lW
e W
R \ {0}
Se prendiamo in esame lesempio citato in precedenza, è confusa con tutte quelle

funzioni parametriche dt tali che
d = (k1 + k2 + k3 ,k1 ,k2 ,k3 ) + lW
quindi considerando il vettore (1, 1, 1, 1) W otterremo
d = (k1 + k2 + k3 + ,k1 ,k2 ,k3 ).
Ad esempio scegliendo k1 = k2 = 0 allora un vettore d sarà
d = (k1 + ,k1 , , )
mentre dt diventerà
3.2
dt = 21 + 2 + 3 .
Un modello lineare si dice multivariato se un insieme di r vettori di variabili risposta

Y1 , . . . ,Yj , . . . Yr dipende linearmente dalle stesse p variabili esplicative, colonne di una
matrice X. A ciascun vettore Yj corrisponde un vettore di coefficienti j e un vettore
di errori j .
Ciascun modello univariato è quindi:
Y j = X j + j
j = 1, . . . ,r
con le usuali ipotesi sulla distribuzione degli errori e quindi delle variabili aleatorie
risposta:

j N n 0n , j2 In
e
Yj N n X j , j2 In .
Il modello multivariato si scrive come:
Y =X B+
dove Y è una matrice di dimensione nr con colonne le variabili risposta Y1 , . . . ,Yj , . . . Yr ,
B è una matrice di dimensione pr con colonne i vettori dei coefficienti 1 , . . . , j , . . . r e
è una matrice di dimensione nr con colonne le variabili aleatorie errori 1 , . . . ,j , . . . r .
Y1
Y11
Yi1
Yr
Y1r
Yir
x1
x11
=
xi1
xp
x1p
xip
11
21
Ynr
Y
xn1
r1
r1
1i
ri
1n
rn
pr
xnp
X
1
11
1r
2r
p1
Yn1
80
Come già detto le variabili risposta di ciascun vettore aleatorio (colonna) sono assunti indipendenti. La stessa ipotesi di indipendenza non vale per le variabili riga
della matrice Y; infatti Yi1 , . . . ,Yir sono riferite alla stessa unità sperimentale e quindi
bisogna supporre che abbiano una matrice di covarianza i non diagonale. Si assume
che tale matrice sia uguale per ogni unità sperimentale, . Indichiamo con Yi il vettore
(Yi1 , . . . ,Yir ), con i il vettore (1i , . . . ,ri ) e con xti la riga i-esima della matrice X. Quindi:

i N n (0n , )
e
Yi N n xti B, .
La matrice di covarianza delle n r variabili aleatorie campionarie
Y11 , . . . ,Y1r , . . . ,Yi1 , . . . ,Yir , . . . ,Yn1 , . . . ,Ynr
è quindi diagonale a blocchi e ciascun blocco corrisponde alla matrice .
3.2.1
Stimatori
Come già studiato nel capitolo 1.1.6, linterpretazione geometrica dellapprossimazione

lineare nel modello multivariato non cambia rispetto al caso univariato; infatti lo spazio
vettoriale V generato dalle colonne di X rimane lo stesso per ciascun modello e non intervengono le correlazioni fra le variabili risposta. Quindi gli stimatori Bj dei coefficienti
j sono (Xt X)1 Xt Yj .
Indichiamo con B la matrice degli stimatori di tutti i coefficienti B:
(Xt X)1 Xt Y
La matrice di covarianza di B dipende dalla matrice .
la matrice degli stimatori dei residui , E
= Y XB = PV Y.
Indichiamo con E
Possiamo stimare la matrice di covarianza tramite E, in modo analogo a quanto visto
nel caso univariato:
= 1 Y t PV Y .
tE
= 1 E
np
np
è
La stima della matrice di correlazione costruita a partire da quella di covarianza
detta matrice di correlazione parziale delle variabili risposta Y, dove il termine parziale
indica che tali stime sono effettuate tramite i residui, cioè utilizzando sia le realizzazioni
campionarie di Y che le stime dei valori attesi Y.

3.2.2
Test di ipotesi
La forma generale dei test di ipotesi sui parametri dei modelli lineari multivariati è:
H0 : LBM = 0
H1 : LBM 6= 0
Consideriamo ad esempio 3 variabili risposta e 4 variabili esplicative; per semplicità

espositiva non includiamo la costante nel modello. La matrice dei coefficienti è:
1 2 3
1 1 1
21 22 23
B= 1 2 3
3 3 3
41 42 43
Esaminiamo separatamente i due casi:
3.2
1. Effetti delle variabili esplicative H0 : LB = 0.

Ad esempio:
1
1

1 0 0 1 21
LB = 0 1 1 0 1
3
41
12
22
32
42
81
13
23
=0
33
43
corrisponde a verificare le ipotesi:

1j = 4j
2j = 3j
j = 1,2,3
cioè leffetto su ciascuna variabile risposta di X1 è uguale a quello di X4 e leffetto

su ciascuna variabile risposta di X2 è uguale a quello di X3 .
2. Effetti delle diverse condizioni delle variabili risposta H0 : BM = 0
Ad esempio:
1 2 3
!
1 1 1
1 1
1
2
3

1 0 = 0
BM = 21 22 23
3 3 3
0 1
41 42 43
corrisponde a verificare le ipotesi:
i1 = i2
i1 = i3
i = 1, . . . ,4
cioè leffetto su ciascuna variabile esplicativa su Y1 è uguale a quello su Y2 e leffetto

di ciascuna variabile esplicativa su Y1 è uguale a quello su Y3 .
Questo tipo di test risulta interessante solo se le variabili risposta corrispondo a
una grandezza misurata, sulle stesse unità sperimentali, in diverse condizioni, ad
esempio in tempi successivi, in livelli diversi di dosaggio, ... . Modelli di questo tipo
vengono detti modelli di misure ripetute e saranno trattati nel successivo capitolo
3.2.3.
Osserviamo che nei test H0 : LB = 0 vengono confrontati i coefficienti relativi a
una variabile risposta alla volta, mentre nei test H0 : BM = 0 vengono confrontati i
coefficienti relativi a diverse variabili risposta e stesse esplicative.
Consideriamo ora il caso H0 : LB = 0.
Nel caso univariato la statistica test che permette di valutare lerrore relativo che si
commette passando dal modello completo al modello ridotto sotto H0 considerata era:
SSR SSC
np
;
SSC
q
dove
SSC = Yt PV Y
e SSR SSC = Yt PV \V0 Y
Osserviamo che nel caso univariato con Y si intende un vettore di variabili risposta. Si
può dimostrare che PV \V0 si può scrivere in funzione della matrice L:
1 t
1
1 t
L Xt X
PV \V0 = X Xt X
L LXt XLt
X .
82
Nel caso multivariato le statistiche test sono costruite in modo analogo e si basano
sulle matrici E e H calcolate come:
1
1 t
1 t
L Xt X
XY
E = Yt PV Y e H = Yt PV \V0 Y = Yt X Xt X
L LXt XLt
dove in questo caso (multivariato) con Y si intende una matrice di variabili risposta. Da
cui si ha:
E + H = Yt PV0 Y .
1
E.
Osserviamo che lo stimatore della matrice è np
Se il test coinvolge anche ipotesi che comprendono la matrice M, le statistiche precedenti sono costruite sostituendo alla matrice Y, la matrice YM.
Statistiche test
Nella costruzione delle principali statistiche test per i modelli multivariati giocano un
ruolo importante la matrice E1 H e suoi autovalori, che indichiamo con 1 , . . . ,m .
Si può dimostrare che gli autovalori di E1 H non dipendono dalla matrice M scelta.
- Lambda di Wilks: = det E/det(H + E).
Nel caso univariato questa statistica corrisponde a SSC /SSR .
Si può dimostrare che questa statistica corrisponde a quella del test del rapporto di
verosimiglianza.
Q
1
Si può dimostrare inoltre che = m
i=1 1+i .
P
i
- Traccia di Pillai: traccia (H(H + E)1 ). Si può dimostrare che è uguale a m
i=1 1+i .
P
- Traccia di Hotelling: traccia (E1 H) che è uguale a m
i=1 i
- Massimo autovalore di Roy: maxi i .
Sotto lipotesi nulle, tutte le statistiche precedenti possono essere approssimate con
variabili aleatorie con legge Fisher con opportuni gradi di libertà.
Esempio B Analisi della varianza multivariata (MANOVA)
Lesempio è tratto dal manuale on-line di SAS.
Si vogliono studiare le differenze nelle caratteristiche chimiche di vasi antichi trovati
in quattro luoghi di forni in Gran Bretagna. I dati sono tratti da Tubb, Parker, and
Nickless (1980), come riportato in Hand et al. (1994). Per ciascuno dei 26 campioni di vasi sono misurate le percentuali di ossido di cinque metalli, alluminio, ferro,
manganese, calcio e sodio. Queste sono considerate variabili risposta in dipendenza
dal fattore luogo di ritrovamento. Viene quindi effettuata una analisi della varianza
multivariata a una via. Inoltre viene effettuato un test per verificare se le percentuali
di ossidi dei vasi di un sito del Galles (Llanederyn, quarto livello in ordine alfabetico)
differiscono o meno dalla media di quelle degli altri luoghi.
In questo esempio i test sono solo del tipo H0 : LB = 0 in quanto le variabili
risposta si riferiscono a ossidi diversi e non risulta interessante considerare variabili
ottenute per trasformazione lineare delle variabili risposta,
3.2
data pottery;
input Site $12. Al
datalines;
Llanederyn
14.4 7.00
Llanederyn
13.8 7.08
Llanederyn
14.6 7.09
Llanederyn
11.5 6.37
Llanederyn
13.8 7.06
Llanederyn
10.9 6.26
Llanederyn
10.1 4.26
Llanederyn
11.6 5.78
Llanederyn
11.1 5.49
Llanederyn
13.4 6.92
Llanederyn
12.4 6.13
Llanederyn
13.1 6.64
Llanederyn
12.7 6.69
Llanederyn
12.5 6.44
83
Fe Mg Ca Na;
4.30
3.43
3.88
5.64
5.34
3.47
4.26
5.91
4.52
7.23
5.69
5.51
4.45
3.94
0.15
0.12
0.13
0.16
0.20
0.17
0.20
0.18
0.29
0.28
0.22
0.31
0.20
0.22
|
|
|
|
|
|
|
|
|
|
|
|
|
0.51
0.17
0.20
0.14
0.20
0.22
0.18
0.16
0.30
0.20
0.54
0.24
0.22
0.23
Caldicot
Caldicot
IslandThorns
IslandThorns
IslandThorns
IslandThorns
IslandThorns
AshleyRails
AshleyRails
AshleyRails
AshleyRails
AshleyRails
;
11.8
11.6
18.3
15.8
18.0
18.0
20.8
17.7
18.3
16.7
14.8
19.1
5.44
5.39
1.28
2.39
1.50
1.88
1.51
1.12
1.14
0.92
2.74
1.64
3.94
3.77
0.67
0.63
0.67
0.68
0.72
0.56
0.67
0.53
0.67
0.60
0.30
0.29
0.03
0.01
0.01
0.01
0.07
0.06
0.06
0.01
0.03
0.10
0.04
0.06
0.03
0.04
0.06
0.04
0.10
0.06
0.05
0.05
0.05
0.03
proc glm data=pottery;

class Site;
model Al Fe Mg Ca Na = Site /solution;
contrast Llanederyn vs. the rest Site 1 1 1 -3;
manova h=_all_ / printe printh;
run;
Dopo alcune informazioni generali, la procedura GLM di SAS produce le analisi

della varianza univariate per ciascuna variabile risposta. Qui riportiamo solo loutput
relativo alla percentuale di ossido di alluminio.
The GLM Procedure
Dependent Variable: Al
Source
DF
Squares
Model
Error
Corrected Total
3
22
25
175.6103187
48.2881429
223.8984615
R-Square
0.784330
Coeff Var
10.22284
Sum of
Mean Square
F Value
Pr > F
26.67
<.0001
58.5367729
2.1949156
Root MSE
1.481525
Al Mean
14.49231
Source
Site
DF
3
Type I SS
175.6103187
Mean Square
58.5367729
F Value
26.67
Pr > F
<.0001
Source
Site
DF
3
Type III SS
175.6103187
Mean Square
58.5367729
F Value
26.67
Pr > F
<.0001
Contrast
Llanederyn vs. the rest
DF
1
Contrast SS
58.58336640
Mean Square
58.58336640
F Value
26.69
Pr > F
<.0001
Parameter
Intercept
Site
Site
Site
Site
AshleyRails
Caldicot
IslandThorns
Llanederyn
Estimate
12.56428571
4.75571429
-0.86428571
5.61571429
0.00000000
B
B
B
B
B
Standard
Error
0.39595414
0.77185672
1.11992744
0.77185672
.
t Value
31.73
6.16
-0.77
7.28
.
Pr > |t|
<.0001
<.0001
0.4485
<.0001
.
84
Lopzione PRINTE dellistruzione MANOVA visualizza gli elementi della matrice E

stimata e la corrispondente stima della matrice di correlazione parziale. Gli elementi
diagonali di E sono le stime delle varianze j2 moltiplicate per n p. Nellesempio
nessuno degli ossidi è fortemente correlato con gli atri; la correlazione maggiore è tra
il magnesio e il calcio.
Multivariate Analysis of Variance
E = Error SSCP Matrix
Al
Fe
Mg
Ca
Na
Al
48.288142857
7.0800714286
0.6080142857
0.1064714286
0.5889571429
Fe
7.0800714286
10.950845714
0.5270571429
-0.155194286
0.0667585714
Mg
0.6080142857
0.5270571429
15.429611429
0.4353771429
0.0276157143
Ca
0.1064714286
-0.155194286
0.4353771429
0.0514857143
0.0100785714
Na
0.5889571429
0.0667585714
0.0276157143
0.0100785714
0.1992928571
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 22
Al
Al
1.000000
Fe
0.307889
0.1529
0.022275
0.9196
0.067526
0.7595
0.189853
0.3856
Mg
Ca
Na
Fe
0.307889
0.1529
1.000000
0.040547
0.8543
-0.206685
0.3440
0.045189
0.8378
Mg
0.022275
0.9196
0.040547
0.8543
1.000000
0.488478
0.0180
0.015748
0.9431
Ca
0.067526
0.7595
-0.206685
0.3440
0.488478
0.0180
1.000000
0.099497
0.6515
Na
0.189853
0.3856
0.045189
0.8378
0.015748
0.9431
0.099497
0.6515
1.000000
Lopzione PRINTH produce la visualizzazione delle stime della matrice H per le

ipotesi sia dellanalisi della varianza sia per il test richiesto esplicitamente con lopzione
CONTRAST. In questultimo caso la matrice L, riferita ai soli coefficienti del fattore
Site è L = (111 3). Gli elementi diagonali della matrice H stimata sono le
corrispondenti somme dei quadrati delle analisi univariate. Infatti nel caso univariato:
k2 = k
yt PV \V0 y = SSR SSC = ky yk2 ky y
y yk2 .
Test sulla nullità dei coefficienti del fattore Site
H = Type III SSCP Matrix for Site
Al
Fe
Mg
Ca
Na
Al
Fe
Mg
Ca
Na
175.61031868
-149.295533
-130.8097066
-5.889163736
-5.372264835
-149.295533
134.22161582
117.74503516
4.8217865934
5.3259491209
-130.8097066
117.74503516
103.35052703
4.2091613187
4.7105458242
-5.889163736
4.8217865934
4.2091613187
0.2047027473
0.154782967
-5.372264835
5.3259491209
4.7105458242
0.154782967
0.2582456044
3.2
85
Characteristic Roots and Vectors of: E Inverse * H, where

Character.
Root Percent
34.1611140
1.2500994
0.0275396
0.0000000
0.0000000
96.39
3.53
0.08
0.00
0.00
Characteristic Vector
Al
Fe
VEV=1
Mg
Ca
Na
0.09562211 -0.26330469 -0.05305978 -1.87982100 -0.47071123

0.02651891 -0.01239715 0.17564390 -4.25929785 1.23727668
0.09082220 0.13159869 0.03508901 -0.15701602 -1.39364544
0.03673984 -0.15129712 0.20455529 0.54624873 -0.17402107
0.06862324 0.03056912 -0.10662399 2.51151978 1.23668841
MANOVA Test Criteria and F Approximations for

the Hypothesis of No Overall Site Effect
S=3
Statistic
Wilks Lambda
Pillais Trace
Hotelling-Lawley Trace
Roys Greatest Root
M=0.5
N=8
Value
F Value
Num DF
Den DF
Pr > F
0.01230091
1.55393619
35.43875302
34.16111399
13.09
4.30
40.59
136.64
15
15
15
5
50.091
60
29.13
20
<.0001
<.0001
<.0001
<.0001
NOTE: F Statistic for Roys Greatest Root is an upper bound.
Test definito da CONTRAST

H = Contrast SSCP Matrix for Llanederyn vs. the rest
Al
Fe
Mg
Ca
Na
Al
Fe
Mg
Ca
Na
58.583366402
-64.56230291
-57.57983466
-1.438395503
-3.698102513
-64.56230291
71.151441323
63.456352116
1.5851961376
4.0755256878
-57.57983466
63.456352116
56.593493386
1.4137558201
3.6347541005
-1.438395503
1.5851961376
1.4137558201
0.0353168783
0.0907993915
-3.698102513
4.0755256878
3.6347541005
0.0907993915
0.2334444577
Characteristic Roots and Vectors of: E Inverse * H, where

Character.
Root
Percent
Characteristic Vector
Al
Fe
16.1251646
0.0000000
0.0000000
0.0000000
0.0000000
100.00 -0.08883488 0.25458141

0.00 -0.00503538 0.03825743
0.00 0.00162771 -0.08885364
0.00 0.04450136 -0.15722494
0.00 0.11939206 0.10833549
VEV=1
Mg
Ca
Na
0.08723574 0.98158668
-0.17632854 5.16256699
-0.01774069 -0.83096817
0.22156791 0.00000000
0.00000000 0.00000000
0.71925759
-0.01022754
2.17644566
0.00000000
0.00000000
86
MANOVA Test Criteria and Exact F Statistics for the Hypothesis

of No Overall Llanederyn vs. the rest Effect
S=1
Statistic
Wilks Lambda
Pillais Trace
Roys Greatest Root
M=1.5
N=8
Value
F Value
Num DF
Den DF
Pr > F
0.05839360
0.94160640
16.12516462
16.12516462
58.05
58.05
58.05
58.05
5
5
5
5
18
18
18
18
<.0001
<.0001
<.0001
<.0001
In questo caso lanalisi multivariata fornisce gli stessi risultati di quella univariata. Si
conclude che cè una differenza statisticamente significativa della composizione chimica
dei vasi dei differenti insediamenti (test di uguaglianza dei valori attesi dei siti); inoltre
risulta che la composizione dei vasi provenienti da Llanederyn è differente dalla media
delle composizioni chimiche degli altri insediamenti (test calcolato con contrast).
3.2.3
Misure ripetute
Nei modelli in cui una grandezza è misurata sulle stesse unità sperimentali in diverse
condizioni assumono rilevanza i test del tipo H0 : BM = 0 o pi`
u in generale H0 :
LBM = 0.
La matrice M, come già visto in precedenza, permette di verificare gli effetti delle
variabili esplicative su trasformazioni lineari delle variabili risposta. Le statistiche test
sono infatti costruite sostituendo alla matrice Y, la matrice YM. Un caso tipico si ha
quando si vuol verificare se le variabili esplicative hanno un diverso effetto sulla stessa
variabile risposta rilevata in tempi successivi. Il SAS ha predefinite alcune matrici M
che corrispondono ai test pi`
u comuni per verificare se sono intervenute modifiche della
variabile risposta misurata in ciascuna condizione rispetto:
- a una condizione di riferimento (tipicamente lultima, il default, o la prima) (opzione
contrast(k))
- alla condizione successiva (opzione profile)
- alla media delle condizioni successive (opzione helmert)
- alla media di tutte le altre condizioni (opzione mean).
Le matrici M per questi tre test sono (supponendo 4 condizioni per la variabile risposta)
1 0 0
1 1/3 1/3
1 0 0
1 0 0
0 1 0 1 1 0 1/3 1 0 1/3 1 1/3
0 0 1 0 1 1 1/3 1/2 1 1/3 1/3 1/3
1 1 1
0 0 1
1/3 1/2 1
1/3 1/3 1
Esiste poi la possibilità di verificare la forma polinomiale dei coefficienti. Questo è il
caso in cui si ipotizza che landamento della variabile risposta nelle diverse condizioni
sia di tipo polinomiale (ad esempio Y 2 corrisponda alleffetto quadratico, Y 3 corrisponda
3.2
87
alleffetto cubico, . . . ). Vediamo come si costruisce la matrice M in tal caso. Se i livelli

della variabile risposta sono codificati con l1 ,l2 , . . . ,lr si parte da una matrice con colonne
i livelli delle potenze fino al grado r 1. Da questa si costruisce una matrice con vettori
colonne a media nulla e ortogonali fra loro (ad esempio con lalgoritmo di Gram-Schmidt)
ed eventualmente ortonormali.
Facciamo un esempio con tre condizioni:
!
!
1/ 2 1/ 6
0 0
1 1
1 1
0 2
0
2/ 6
2 4
1 1
1/ 2 1/ 6
Il test che ne risulta dallipotesi H0 : BM = 0 è: i1 = i3 e i1 + 2i2 i3 = 0.
Esaminiamo nei dettagli i diversi tipi di test effettuati da SAS nella procedura GLM
per i modelli di misure ripetute, o in generale, di variabili risposta di cui si possono
considerare trasformazioni lineari con variabili esplicative qualitative (caso dellanalisi
della varianza).
. Test between-subjects. Vengono effettuati riconducendosi a modelli univariati.
1. Viene considerata come variabile risposta la media (moltiplicata per r) delle

variabili risposta rilevate nelle diverse condizioni:
Y1 + + Yr
r = X +
r
dove è un vettore di parametri e è un vettore di residui
2. Vengono considerate come variabile risposta le trasformazioni delle variabili
originali indotte dalla matrice M. Ad esempio nel caso di tre condizioni in cui è
misurata la variabile risposta e matrice M che corrisponde allopzione profile
di SAS si considerano i due modelli univariati:
Y1 Y2 = X (12) + (12)
Y2 Y3 = X (23) + (23)
Per tutti questi modelli vengono effettuati i test H0 : L = 0 con i del modello.
. Test within-subjects. Quando ci sono pi`
u di due condizioni in cui è misurata la variabile risposta, la PROC GLM visualizza due differenti insiemi di test
within-subjects: uno che usa lapproccio multivariato e laltro che usa lapproccio
univariato. Generalmente i due tipi di test portano a conclusioni simili.
1. I test di tipo multivariato sono quelli basati sulle statistiche di Wilks, di Pillai,
di Hotelling e di Roy, già esaminati nel capitolo precedente.
Il primo test multivariato within-subjects riportato da SAS riguarda leffetto
principale delle condizioni in cui viene misurata la variabile risposta. Lipotesi
principale è che il valore atteso delle variabili risposta non si modifica nelle
diverse condizioni.
I successivi verificano la nullità contemporanea dei coefficienti delle variabili
qualitative esplicative del modello.
88
Ribadiamo che le matrici H e E dipendono dalla matrice M ma gli autovalori

di E1 H non dipendono da questa scelta.
2. Lapproccio univariato consiste nel considerare un modello con una sola variabile risposta concatenando le variabili risposta originali e una ulteriore variabile
qualitativa esplicativa con le condizioni in cui la variabile risposta viene misurata. Ovviamente questo modo di procedere necessita di specifiche assunzioni
legate al fatto che le variabili risposta misurate sugli stessi soggetti in diverse
condizioni non possono essere considerate indipendenti. I test univariati richiedono quindi lassunzione di sfericità della matrice di covarianza delle variabili
risposta; se questa assunzione non è soddisfatta è opportuno usare solamente i
test within-subjects multivariati, che richiedono come assunzioni solo quelle già
viste, cioè la normalità multivariata delle variabili risposta, luguale matrice di
covarianza per le variabili riferite alle singole unità sperimentali e lindipendenza
per le variabili riferite a diverse unità sperimentali.
Una matrice di varianza-covarianza è detta sferica quando si riferisce a variabili che, trasformate tramite una matrice ortogonale, produce variabili che
hanno uguale varianza e covarianza nulla. Se Y 1 , . . . ,Y r sono le variabili risposta, SAS, se non ulteriormente
specificato, considera come insieme di variabili
P
trasformate Y j i Y i /r, per j = 2 . . . ,r. Nelloutput, se è presente lopzione
PRINTE, viene visualizzato il test con ipotesi nulla la sfericità della matrice di
covarianza delle variabili risposta trasformate come appena indicato e anche il
test di sfericità per le trasformazioni indotte dalla matrice M, ma la violazione
della sfericità per queste variabili non inficia i risultati del test within-subject
univariato.
Esempio C Nel seguente esempio la variabile risposta è misurata in tre diverse
condizioni successive di tempo. Le variabili esplicative qualitative sono due; il primo
fattore ha 4 livelli e il secondo 5.
La trasformazione scelta per le variabili risposta è quella che permette di confrontare
gli effetti delle condizioni adiacenti.
` riportato il programma SAS e loutput corrispondente.
E
proc glm data=anova;
class A1 A2;
model y1-y3= A1 A2/nouni;
repeated tempo 3 profile / summary printm printh printe;
run;
- Descrizioni generali. Correlazione parziale fra le variabili risposta.

The GLM Procedure
Class
Levels
Values
A1
4
1 2 3 4
A2
5
1 2 3 4 5
40
40
3.2
89
Repeated Measures Level Information

Dependent Variable
Y1
Y2
Level of tempo
1
2
Y3
3
DF = 32
Y1
Y2
Y3
Y1
1.000000
0.163046
0.116381
0.3646
0.5189
Y2
0.163046
1.000000
0.182585
0.3646
0.3091
Y3
0.116381
0.182585
1.000000
0.5189
0.3091
- Matrice M (attenzione: è stampata la trasposta).

tempo_N represents the nth successive difference in tempo
tempo_1
tempo_2
M Matrix Describing Transformed Variables

Y1
Y2
Y3
1.000000000
-1.000000000
0.000000000
0.000000000
1.000000000
-1.000000000
- Matrice E. Correlazione parziale fra le variabili risposta trasformate tramite M.

Test di sfericità.
tempo_1
tempo_2
tempo_1
1683.1
-887.6
tempo_2
-887.6
2412.4
Partial Correlation Coefficients from the Error SSCP Matrix of the
Variables Defined by the Specified Transformation / Prob > |r|
DF = 32
tempo_1
tempo_2
tempo_1
1.000000
-0.440491
0.0103
tempo_2
-0.440491
1.000000
Variables
Transformed Variates
Orthogonal Components
Sphericity Tests
Mauchlys
DF
Criterion
2
0.7804103
2
0.9540174
Chi-Square
7.6860008
1.459274
Pr > ChiSq
0.0214
0.4821
- Test multivariati within-subjects: matrici H e statistiche test.

Test per tempo. Lipotesi principale è che la media delle variabili risposta non
si modifica nelle diverse condizioni.
90
H = Type III SSCP Matrix for tempo

tempo_1
tempo_2
tempo_1
2001.5288805
1680.5806176
tempo_2
1680.5806176
1411.0969068
MANOVA Test Criteria and Exact F Statistics
for the Hypothesis of no tempo Effect
S=1
M=0
N=14.5
Statistic
Value F Value Num DF Den DF
Pr > F
Wilks Lambda
0.24313826
48.25
2
31
<.0001
Pillais Trace
0.75686174
48.25
2
31
<.0001
3.11288626
48.25
2
31
<.0001
Roys Greatest Root
3.11288626
48.25
2
31
<.0001
NOTE: F Statistic for Wilks Lambda is exact.
Test per tempo*A1.

H = Type III SSCP Matrix for
tempo_N represents the nth successive
tempo_1
tempo_1
51.118659866
tempo_2
-19.11291092
tempo*A1
difference in tempo
tempo_2
-19.11291092
27.550643598
MANOVA Test Criteria and F Approximations

for the Hypothesis of no tempo*A1 Effect
H = Type III SSCP Matrix for tempo*A1
S=2
M=0
N=14.5
Statistic
Pr > F
Wilks Lambda
0.95987344
0.21
6
62
0.9711
Pillais Trace
0.04043250
0.22
6
64
0.9690
0.04148528
0.21
6 39.604
0.9712
Roys Greatest Root
0.03130315
0.33
3
32
0.8009
Test per tempo*A2.

H = Type III SSCP Matrix for
tempo_N represents the nth successive
tempo_1
tempo_1
2481.9737388
tempo_2
464.14143773
tempo*A2
difference in tempo
tempo_2
464.14143773
2677.6386434
MANOVA Test Criteria and F Approximations

for the Hypothesis of no tempo*A2 Effect
H = Type III SSCP Matrix for tempo*A2
S=2
M=0.5
N=14.5
3.2
91
Statistic
Pr > F
Wilks Lambda
0.15567639
11.89
8
62
<.0001
Pillais Trace
1.15022589
10.83
8
64
<.0001
3.45859353
13.16
8 42.028
<.0001
Roys Greatest Root
2.74195612
21.94
4
32
<.0001
- Test univariati between-subjects: la risposta è la media delle variabili risposta

originali
Source
A1
A2
Error
Tests of Hypotheses for Between Subjects Effects

DF
Type III SS
Mean Square
F Value
3
45.15239
15.05080
0.29
4
13217.08885
3304.27221
64.69
32
1634.51433
51.07857
Pr > F
0.8289
<.0001
- Test univariati within-subjects: essendo accettabile lipotesi di sfericità sono attendibili. Tempo è considerata variabile esplicativa.
Univariate Tests of Hypotheses for Within Subject Effects
Source
DF
Type III SS
Mean Square
F Value
tempo
2
3395.470937
1697.735468
50.81
tempo*A1
6
39.704262
6.617377
0.20
tempo*A2
8
3749.169213
468.646152
14.02
Error(tempo)
64
2138.603523
33.415680
Adj Pr > F
Source
G - G
H - F
tempo
<.0001
<.0001
tempo*A1
0.9731
0.9762
tempo*A2
<.0001
<.0001
Error(tempo)
Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon
Pr > F
<.0001
0.9762
<.0001
0.9560
1.2378
- Test univariati between-subjects: la risposta è indotta dalla matrice M applicata

variabili risposta originali
Analysis of Variance of Contrast Variables
Contrast Variable: tempo_1
Source
Mean
A1
A2
Error
DF
1
3
4
32
Type III SS
2001.528881
51.118660
2481.973739
1683.104013
Mean Square
2001.528881
17.039553
620.493435
52.597000
F Value
38.05
0.32
11.80
Pr > F
<.0001
0.8080
<.0001
Contrast Variable: tempo_2

Source
Mean
A1
A2
Error
DF
1
3
4
32
Type III SS
1411.096907
27.550644
2677.638643
2412.401998
Mean Square
1411.096907
9.183548
669.409661
75.387562
F Value
18.72
0.12
8.88
Pr > F
0.0001
0.9466
<.0001
92
Capitolo 4
Modelli lineari generalizzati
In questo capitolo prenderemo in esame quei modelli in cui la variabile risposta non ha
legge normale; la forma generale del modello è sempre:
Y = E(Y) + .
Qui però il legame fra il valore atteso della variabile risposta e le covariate non è, in genere,
di tipo lineare come nel caso in cui la variabile risposta di legge normale, E(Y) = X,
ma è espresso da una funzione g invertibile e derivabile:
g(E(Y)) = X
quindi il modello lineare assume la forma:
Y = g 1 (X ) + .
La funzione g è detta link function e, in genere, è scelta in modo da assumere valori in
tutto linsieme dei numeri reali. Un motivo per cui non è opportuno che la link function
sia la funzione identica è che il valore atteso della variabile aleatoria Y può appartenere
a un sottoinsieme proprio dei numeri reali e, in caso di link function identica, nella
stima dei coefficienti del modello sarebbe necessario imporre dei vincoli; ad esempio
se la variabile risposta avesse legge di Bernoulli, la stima del suo valore atteso dovrebbe
appartenere a (0,1), se avesse legge di Poisson il suo valore atteso dovrebbe appartenere
ai reali positivi, e cos` via.
La scelta della link function dipende dal tipo di legge della variabile risposta; alcune
scelte particolari per modelli a risposta binomiale o multinomiale saranno trattati in
seguito nei paragrafi 4.8 e 4.9. Nel prossimo paragrafo vedremo una famiglia di link
function che gode di buone proprietà nel caso in cui la variabile risposta appartenga alla
classe dei modelli esponenziali.
93
94
4.1
Link function per modelli di classe esponenziale
Una variabile aleatoria Yi appartiene alla classe dei modelli esponenziali se, opportunamente riparametrizzata, la sua verosimiglianza è proporzionale a:
L(i ; yi ) = exp (i (i )+ < i ,ti (yi ) >)
con i parametro canonico e ti (Yi ) statistica sufficiente.
Consideriamo un vettore aleatorio Y a n componenti indipendenti in cui ciascuna
variabile aleatoria Yi appartenga a una stessa famiglia di variabili aleatorie (normale,
come nel caso dei modelli lineari generali, di Bernoulli, binomiale, di Poisson, esponenziale, . . . ) con diverso parametro. Quindi le funzioni i e ti sono uguali per ogni i e la
verosimiglianza di un campione di Y è proporzionale a:
n
Y
L(; y) =
exp ((i )) + < , T (y) >
i=1
con = (1 , . . . ,n )t e T (y) = (T (y1 ) . . . ,T (yn ))t . Il logaritmo della verosimiglianza, o

log-verosimiglianza, è:
l(; y) =
n
X
(i )+ < , T (y) > .
i=1
Nel paragrafo 1.2.6 abbiamo visto che se Yi N (xti , 2 ), allora per i modelli lineari
generali si ha:
1
1
1
n
l(, 2 ; y) = log( 2 ) 2 kXk2 2 yt y + 2 < , Xt y >
2
2
2
e, se 2 è noto o di non interesse,

l(; y) =
1
1
kXk2 + 2 < , Xt y > .
2
2
Quindi i coefficienti delle variabili esplicative sono parametri canonici del modello
esponenziale e la statistica sufficiente è Xt Y.
Nei modelli lineari generalizzati di classe esponenziale la link function cosiddetta canonica è quella funzione che lega il valore atteso della variabile risposta alla combinazione
lineare delle variabili esplicative in modo che il modello, opportunamente riparametrizzato, abbia come parametro canonico e Xt T (Y) come statistica sufficiente. In tal caso,
per le proprietà dei modelli di classe esponenziale, si ha E(Xt T (Y)) = ().
Vediamo alcuni esempi.
Esempio A
1. Bernoulli. Yi Bern(pi ). Si ha: E(Yi ) = i = pi e le log-verosimiglianze nei
parametri originali e nei valori attesi sono:
li (pi ; yi ) = log(1 pi ) + log
pi
yi
1 pi
li (i ; yi ) = log(1 i ) + log
i
yi .
1 i
4.1
Link function per modelli di classe esponenziale
95
Scegliendo come link function

g(i ) = log
i
= xti
1 i
si ottiene
i = g
(xti )
exi
1
=
.
t =
t
x
1+e i
1 + exi
La log-verosimiglianza delle n realizzazioni campionarie del vettore aleatorio Y è:

l(; y) =
n
X
li (; yi ) =
i=1
n
X
log(1 + exi )+ < , Xt y > .
i=1
2. Poisson. Yi P(i ). Si ha: E(Yi ) = i = i e le log-verosimiglianze nei parametri

originali e nei valori attesi sono:
l(i ; yi ) = i + log i yi
l(i ; yi ) = i + log i yi
Scegliendo come link function

g(i ) = log i = xti
si ottiene
t
i = g 1 (xti ) = exi .
La log-verosimiglianza delle n realizzazioni campionarie del vettore aleatorio Y è:
l(; y) =
n
X
li (; yi ) =
i=1
n
X
exi + < , Xt y > .
i=1
Negli esempi precedenti il parametro originale della legge della variabile aleatoria
coincideva con il valore atteso. Consideriamo ora il caso generale.
Indichiamo con linsieme a cui appartengono i parametri originali della variabile
aleatoria, con linsieme dei parametri canonici del modello di classe esponenziale e con
linsieme dei valori attesi. Per ottenere la link function canonica per i modelli di classe
esponenziale bisogna prima scrivere la log-verosimiglianza nei parametri originali:
l(i ,yi )
poi riparametrizzare il modello nei valori attesi tramite una funzione invertibile k tale
che i = k(i ):
l(i ,yi ) = l(k 1 (i ),yi )
e infine riparametrizzarlo nei parametri canonici del modello esponenziale tramite una
funzione invertibile g tale che i = g(i ):
li (i ,yi ) = (i ) + i yi = (g(i )) + g(i )yi .
96
Ponendo g(i ) = xti e considerando le realizzazioni campionarie del vettore aleatorio

Y ottiene la verosimiglianza in :
l(,y) =
n
X
(xti )+ < , Xt y >
i=1
che ha come parametro canonico i coefficienti della parte lineare e come statistica
sufficiente Xt Y come nel caso dei modelli lineari generali.
Esempio B
Consideriamo il caso in cui la variabile risposta abbia distribuzione Geometrica,
Yi G(pi ). Si ha E(Yi ) = i = p1i , da cui k(pi ) = 1/pi e pi = k 1 (i ) = 1/i .
le log-verosimiglianze nei parametri originali e nei valori attesi sono:
li (pi ; yi ) = log
pi
+ log(1 pi ) yi
1 pi
li (i ; yi ) = log(i 1) + log
i 1
yi
i
La link function canonica è quindi

g(i ) = log
i 1
= xti
i
da cui
i = g 1 (xti ) =
1
t
1 exi
e la log-verosimiglianza delle realizzazioni campionarie del vettore aleatorio Y è:

l(; y) =
n
X
li (; yi ) =
n
X
i=1
log(1 exi )+ < ,Xt y > .
i=1
Osserviamo che in questo caso il codominio della link function non è R ma (,0).
Questo comporta che, una volta stimati i parametri , si controlli che Xb assuma
valori negativi.
4.2
Stime dei parametri
I parametri dei modelli lineari generalizzati vengono stimati tramite il metodo della
massima verosimiglianza, quindi risolvendo il sistema di equazioni
l(; y)
=0
j
j = 0, . . . ,p 1 .
(4.1)
t
Indichiamo con U = U1 , . . . ,Uj , . . . ,Up il vettore con componenti le derivate
parziali della log-verosimiglianza rispetto agli elementi del vettore :
n
Uj
l(; y) X li (; yi )
=
.
=
j
j
i=1
4.2
97
Stime dei parametri
Tale vettore viene chiamato anche score function.

Esaminiamo nei dettagli le stime di massima verosimiglianza nel caso di un vettore
aleatorio Y a componenti indipendenti e in cui ciascuna variabile aleatoria appartenga
alla classe dei modelli esponenziali con log-verosimiglianza del tipo:
l(; y) =
n
X
li (i ,yi ) =
i=1
n
X
(i )+ < ,T (y) >
i=1
con i R; lestensione al caso multivariato è immediata.

2
i)
i)
Si ha: E(T (Yi )) = (
.
e V(T (Yi )) = (
i
(i )2
Il sistema di equazioni di massima verosimiglianza (4.1), qui sotto riscritto esplicitando
il contributo alla log-verosimiglianza di ciascuna realizzazione della variabile risposta
n
X
li (; yi )
i=1
j = 0, . . . ,p 1
=0
(4.2)
non è lineare e viene risolto con metodi numerici che approfondiremo in seguito.
4.2.1
Le equazioni di massima verosimiglianza
Riprendiamo gli esempi A.

Esempio C
i
1. Bernoulli. Scegliendo la link function canonica, gi = g(i ) = log 1
= xti si ha:
i
l(; y) =
n
X
li (; yi ) =
i=1
n
X
log(1 + exi ) + xti yi .
i=1
Calcoliamo le componenti della score function:

Uj
=
=
n
X
li (; y)
i=1
n
X
n
X
i=1

n
X
1
1
yi
xij
t xij + xij yi =
t
1 + exi
1 + exi
i=1
(yi i ()) xij
i=1
t
dove i () è espresso nei coefficienti , cioè in questo caso 1 + exi

2. Poisson. Consideriamo due tipi di link function.
(a) Link function canonica: gi = g(i ) = log(i ) = xti . Si ha:
l(; y) =
n
X
i=1
li (; yi ) =
n
X
i=1
exi + xti yi .
1
98

Uj
=
=
n
X
l(; y)
i=1
n
X
n
X
xti
xij + xij yi =
i=1
n
X

t
yi exi xij
i=1
(yi i ()) xij
i=1
dove anche qui i è espresso nei coefficienti .

` possibile effettuare una scelta
(b) Link function identica: gi = g(i ) = i = xti . E
di questo tipo quando si presuppone che le realizzazioni campionarie di Y siano
tali che la stima dei parametri portino a un valore positivo per la stima dei
valori attesi. In tal caso si ha:
n
n
X
X
l(; y) =
li (; yi ) =
xti + log(xti )yi .
i=1
i=1

Uj =
=
n
X
l(; y)
i=1
n
X
i=1
n
X
i=1
xij +
X y i xt
xij
i
y
=
xij
i
t
xti
x
i
i=1
yi i ()
xij
V(Yi )()
dove i e V(Yi ) sono espressi in .

Il sistema di equazioni di massima verosimiglianza (4.2) può essere risolto utilizzando
le derivate in altre parametrizzazioni e applicando le regole di derivazione delle funzioni
composte, sotto opportune ipotesi di regolarità delle varie riparametrizzazioni.
Qui nel seguito considereremo il caso in cui la variabile aleatoria Yi sia statistica
sufficiente.
Dalle proprietà dei modelli di classe esponenziale sappiamo che:
li (i )
(i )
=
+ yi = i (i ) + yi
i
i
i (i )
(i )
2 (i )
=
=
= V(Yi )(i ) .
i
i i
(i )2
Inoltre, ponendo gi = g(i ) = xti , si ha:
gi
xti
=
= xij .
j
j
Possiamo quindi calcolare le componenti della score function come:
li ()
li (i ) i (i ) i (gi ) gi ()
=
=
j
i
i
gi
j
li () i (gi ) gi ()
i
gi
j
i (i )
i
i () + yi
i
xij
V(Yi )()
gi
4.2
99
Stime dei parametri
con i parametri espressi nei coefficienti .

Quindi, se Yi è statistica sufficiente, le componenti della score function diventano:
n
X
i
y i i
j
xij
(4.3)
U =
V(Yi )
gi
i=1
Osserviamo che
i
gi
dipende dalla link function:
- se si sceglie la link function identica si ha i = gi e

n
X
yi i ()
xij ;
Uj =
V(Y
)()
i
i=1
- se si sceglie la link function canonica si ha i = gi = xti e
cui:
n
X
Uj =
(yi i ()) xij
(4.4)
li ()
j
li (i ) i ()
i
j
da
(4.5)
i=1
che sono le espressioni che avevamo trovato negli esempi C.

Dallultimo risultato si ottiene uninteressante proprietà. Se, oltre a utilizzare la link
canonica, la parte lineare del modello contiene la costante allora si ha:
n
X
yi
i = 0 .
(4.6)
i=1
Infatti consideriamo la derivata di l() in 0 della formula (4.5):

U0
n
X
=
(yi i )xi0
con xi0 = 1 .
i=1
è la stima di massima verosimiglianza di , allora U 0 ()

= 0 e quindi, in generale:
Se
Pn
y
=
0.
i
i
i=1
4.2.2
Metodi numerici per le stime di massima verosimiglianza
Il sistema di equazioni di massima verosimiglianza Uj = 0 con j = 0, . . . ,p 1 viene

risolto tramite metodi numerici iterativi. Presentiamo qui il metodo di Newton-Raphson
e il metodo di scoring che ne costituisce una variante.
Esponiamo brevemente il metodo di Newton-Raphson prima per risolvere unequazione
f (x) = 0, con f derivabile e non nulla in un intorno di un punto x(0) , e poi per risolvere
un sistema di p equazioni e p incognite.
- Consideriamo p = 1. Si vuole trovare x tale che f (x) = 0. Si sceglie x(0) tale
che f (x(0) ) sia vicino a 0. Indichiamo x(1) il punto di intersezione con lasse delle
ascisse della retta tangente al grafico di f (x) nel punto (x(0) ,f (x(0) )). Quindi si
ha: f 0 (x(0) ) = f (x(0) )/(x(0) x(1) ) da cui x(1) = x(0) f (x(0) )/f 0 (x(0) ). Il processo
continua in modo iterativo e al passo m-esimo si ha:
x(m) = x(m1) f (x(m1) )/f 0 (x(m1) ) .
100
- Si vogliono trovare le soluzioni di un sistema
f1 (x1 , . . . ,xp ) = 0
..
.
fp (x1 , . . . ,xp ) = 0
Indichiamo con J la matrice Jacobiana, di elementi Jij =
inversa.
(m)
fi
,
xj
e con J1 la sua
(m)
Indichiamo inoltre con x(m) il vettore (x1 , . . . ,xp ), con fjm la funzione fj calcolata
in x(m) e con f (m) il vettore (f1m , . . . ,fpm ).
La soluzione iterativa per il sistema al passo m è:
x(m) = x(m1) J1 (x(m1) ) f (m1) .
(4.7)
Applichiamo ora il metodo di Newton-Raphson multidimensionale (4.7) al sistema

di equazioni di massima verosimiglianza
1
U (0 , . . . ,p1 ) = 0
..
.
p
U (0 , . . . ,p1 ) = 0
Gli elementi della matrice Jacobiana in questo caso sono:
Jij =
Ui ()
2 l()
=
= Hij
j
i j
(;yi )
dove Uj = li
e Hij è lelemento (i,j) della matrice hessiana della log-verosimiglianza
j
H (l()). Quindi le stime di massima verosimiglianza dei coefficienti al passo m sono:
b(m) = b(m1) H (l(b(m1) ))1 U (b(m1) ) .

Il metodo di scoring consiste nellapprossimare H (l()) con il suo valore atteso:
H (l()) ' E (H (l())) = I
dove I è la matrice di informazione di Fisher. Quindi le stime di massima verosimiglianza dei coefficienti al passo m sono:
b(m) = b(m1) + I (b(m1) )1 U (b(m1) )) .
(4.8)
4.2
101
Stime dei parametri

Calcoliamo quindi lespressione di I il cui elemento (j,k) è I,ij = E Uj Uk . Utilizzando lespressione Uj della formula (4.3) si ottiene:

I,jk = E Uj Uk
! n
!!
n
X
X Yh h
Y i i
i
h
= E
xij
xhk
V(Y
)
g
V(Y
)
gh
i
i
h
i=1
h=1

n X
n
X
i h
Yi i Yh h
=
xij xhk
E
V(Yi ) V(Yh )
gi gh
i=1 h=1

2 !
n
X
1
i
E(Yi i )2
xij xik
[E ((Yi i )(Yh h )) = 0]
=
V(Yi )
V(Yi )
gi
i=1

2
n
X
1
i
=
xij xik
.
V(Yi )
gi
i=1
La matrice I è quindi:
I = Xt WX
con W matrice diagonale di elementi
1
wii =
V(Yi )
i
gi
2
.
(4.9)
La matrice W dipende dalla link function:

- se si sceglie la link function identica si ha i = gi e
1
;
wii =
V(Yi )
(4.10)
- se si sceglie la link function canonica dalla formula (4.5) si ha:

I,jk =
n
X
E(Yi i ) xij xik =
i=1
n
X
V(Yi ) xij xik
i=1
e quindi
wii = V(Yi ) .
(4.11)
Essendo W una matrice diagonale si può scrivere come W1/2 W1/2 e la matrice W1/2 X
può essere considerata come la matrice X le cui righe sono pesate dagli elementi di W1/2 ,
i
1
la matrice W1/2 X. La matrice di informazione di Fisher
cioè std(Y
. Indichiamo con X
i ) gi
si scrive quindi come:
tX
.
I = X
(4.12)
Possiamo riscrivere le componenti della score function Uj della formula (4.3) utilizzando la matrice W1/2 :
n
n
X
1 i X
Y i i
j
xij
=
Yi wii xij
U =
std(Yi )
std(Yi ) gi
i=1
i=1
102
dove con Yi si è indicato la variabile aleatoria Yi standardizzata. Quindi:

t
.
=X
tY
U = W1/2 X Y
(4.13)
Utilizziamo le espressioni di I della formula (4.12) e di U della formula (4.13) per

riscrivere le equazioni iterative per le stima di massima verosimiglianza dei coefficienti
della formula (4.8):
1
t
b(m) = b(m1) + Xt WX
W1/2 X Y

1
tX
tY
= b(m1) + X
X

1

tX
t X
b(m1) + Y
(4.14)
= X
X
Y
espressi in b(m1) .
con X
b(m1) + Y
si ottiene una formula analoga a quella
Se indichiamo con Z la quantità X
delle equazioni normali della formula (1.1) ottenute per il caso in cui la variabile risposta
ha distribuzione normale. Le equazioni ottenute per i modelli lineari generalizzati

1
tX
tZ
b(m) = X
X
e Z sono calcolate in b(m1) .
vengono dette dei minimi quadrati pesati. Le matrici X
Questi metodi iterativi terminano o dopo un numero prefissato di passi o quando la
differenza delle stime a due passi successivi è inferiore a un valore prefissato: |b(m)
b(m1) | < r.
Illustriamo quanto visto con un esempio tratto da Dobson (2002).
Esempio D Consideriamo le realizzazioni campionarie di variabili aleatorie Yi osservate in corrispondenza di diversi valori di una covariata X.
Assumiamo che le risposte Yi abbiano legge di Poisson, quindi E(Yi ) = V(Yi ).
Questa assunzione sulla legge della variabile risposta può essere supportata
del fatto che, per ogni valore della covariata, la media e la varianza delle
realizzazioni campionarie sono simili. Utilizziamo la link function identica. Il
modello è quindi:
yi xi
2 -1
3 -1
6 0
7 0
8 0
9 0
10 1
12 1
15 1
E(Yi ) = i = 0 + 1 xi = xti
i = 1, . . . ,n
dove = (0 ,1 )t e xi = (1,xi )t .
Con la link function identica, dalla formula (4.10), lespressione di wii è:
1
1
=
.
V(Yi )
0 + 1 xi
Calcoliamo le quantità che intervengono nelle stime iterative dei coefficienti della
formula (4.14). Si ha:
Pn
Pn
x
1
wii () =
(m1)
I (b
) = X W(b
(m1)
i=1 b(m1) +b(m1) x

i
0
1
xi
i=1 b(m1) +b(m1) x
i
0
1
)X = Pn
i=1 b(m1) +b(m1) x

i
1
Pn 0
x2i
i=1 b(m1) +b(m1) x
0
4.2
..
.
=
W1/2 Xb(m1) + y
xi
+b1
b
q0
(m1)
(m1)
xi
+b1
b0
(m1)
(m1)
(m1)
(m1)
103
Stime dei parametri
+
..
.
xi )
+b1
yi (b0
q
(m1)
(m1)
xi
+b1
b0
Pn
yi
(m1)
(m1)
+b1
xi
Pni=1 b0
xi yi
i=1 b(m1) +b(m1) x
i
1
0
=
XW1/2 W1/2 Xb(m1) + y
..
.
yi
q
(m1)
(m1)
xi
+b1
b0
..
.
b(m) =
i=1 b(m1) +b(m1) x

i
1
Pn 0
x2i
i=1 b(m1) +b(m1) x
yi
i1 b(m1) +b(m1) x
i
1
Pn 0
xi yi
i1 b(m1) +b(m1) x
i
1
0
Le stime iterative dei coefficienti si calcolano quindi come:

Pn
1 P
Pn
xi
1
n
i=1 b(m1) +b(m1) x
i
1
Pn 0
xi
i=1 b(m1) +b(m1) x
!
.
Effettuiamo i calcoli con il software SAS.

proc genmod data=dati;
model y= x / dist=poisson link=identity itprint obstats;
run;quit;
La procedura GENMOD fornisce, con lopzione itprint, le stime dei parametri

nelle varie iterazioni e la valutazione nellultima iterazione della stima dei parametri
della score function (che ci si aspetta essere 0!) e della matrice hessiana della logverosimiglianza.
The GENMOD Procedure
Model Information
Distribution
Poisson
Link Function
Identity
Dependent Variable
y
Observations Used
9
Parameter Information
Parameter
Effect
Prm1
Intercept
Prm2
x
Iter
0
1
2
Iteration History For Parameter Estimates

Log
Ridge
Likelihood
Prm1
Prm2
0
85.9574147
7.2543239
4.8292513
0
85.9827712
7.4516174
4.9354434
0
85.9827712
7.4516332
4.9353013
Last Evaluation Of The Negative of The Gradient and Hessian

Gradient
Prm1
Prm2
Algorithm converged.
Prm1
-6.274E-7
1.5737935
-0.552617
Prm2
9.4726E-7
-0.552617
1.0369984
104
Parameter
DF
Estimate
Intercept
x
Scale
1
1
0
7.4516
4.9353
1.0000
Analysis Of Parameter Estimates

Standard
Wald 95% Confidence
Error
Limits
0.8841
1.0892
0.0000
5.7188
2.8006
1.0000
9.1845
7.0700
1.0000
ChiSquare
71.04
20.53
Pr > ChiSq
<.0001
<.0001
NOTE: The scale parameter was held fixed.
Con lopzione obstats vengono scritte

- Pred: le stime dei valori attesi della variabile risposta
i calcolati a partire dalle
stime dei coefficienti ;
- Xbeta: i valori di xti b;
- Std: le stime delle standard deviation degli stimatori xti B; vedremo in seguito il
loro significato;
- HessWgt: le stime di wii ; con la link function identica sono linverso delle stime della
varianza di Yi ;
- Lower e Upper: le stime dei limiti di confidenza per i valori attesi della variabile
risposta; vedremo in seguito il loro significato;
- Resraw: i residui grezzi, cioè la differenza fra yi e
i
- altri residui che qui sotto sono omessi.
Osservare che ovviamente tutti le quantità precedenti (eccetto i residui) sono uguali
per uguali valori della covariata.
Observation
Obs y
1
2
3
4
5
6
7
8
9
4.3
2
3
6
7
8
9
10
12
15
x
-1
-1
0
0
0
0
1
1
1
Pred
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693
Xbeta
2.516332
2.516332
7.451633
7.451633
7.451633
7.451633
12.38693
12.38693
12.38693
Std
1.065302
1.065302
0.88412
0.88412
0.88412
0.88412
1.673646
1.673646
1.673646
HessWgt
Lower
Upper
Resraw
0.397404
0.397404
0.134199
0.134199
0.134199
0.134199
0.080730
0.080730
0.080730
0.428378
0.428378
5.718782
5.718782
5.718782
5.718782
9.106649
9.106649
9.106649
4.604286
4.604286
9.184485
9.184485
9.184485
9.184485
15.6672
15.6672
15.6672
-0.51633
0.483668
-1.45163
-0.45163
0.548367
1.548367
-2.38693
-0.38693
2.613066
Statistiche basate sulla verosimiglianza
Per verificare ladeguatezza del modello e fare inferenza sui coefficienti delle variabili esplicative è necessario introdurre brevemente alcune statistiche basate sulla verosimiglianza e ricordare alcune proprietà - asintotiche - degli stimatori di massima
verosimiglianza.
4.3
Statistiche basate sulla verosimiglianza
105
Indichiamo con , A Rd , un vettore di parametri del modello e con V il

suo stimatore di massima verosimiglianza, se esiste. Sottindentedo le altre condizioni
di esistenza, elenchiamo alcune statistiche basate sulla verosimiglianza L() o il suo
logaritmo l(); alcune di esse sono già state introdotte e utilizzate.
- Score function:
U = grad (l()) con E(U ) = 0
- Informazione di Fisher :
I = E(U Ut ) = V(U ) oppure I = E (H (l()))
- Statistica W basata sul logaritmo del rapporto di verosimiglianza:
W () = 2 log
L()
= 2(l(V) l())
L(V)
misura la differenza della log-verosimiglianza dal suo massimo.

- Statistica di Wald :
WV () = (V )t I (V) (V )
misura lo scarto quadratico medio di V opportunamente standardizzato (si vedrà
meglio in seguito).
Vediamo il legame fra la statistica W basata sul rapporto di verosimiglianza e la
statistica di Wald WV .
Supponiamo inizialmente che sia unidimensionale e sviluppiamo l() in serie di
Taylor fino al secondo ordine in un intorno del punto di massimo V :
l() ' l(V ) + ( V ) U (V ) +
1
( V )2 U0 (V ) .
2
Essendo V stimatore di massima verosimiglianza di si ha: U (V ) = 0. Inoltre, per grandi campioni possiamo approssimare U0 (V ) con il suo valore atteso: U0 (V ) ' E(U0 (V )) =
I (V ). Quindi:
2 (l(V ) l()) ' ( V )2 I (V ) .
In generale se A Rd , l() è una funzione da Rd a R e si ha:
l() = l(V) + ( V)t U (V) +
1
( V )t H (l(V))( V)
2
e con le osservazioni fatte per il caso univariato:

W () = 2 (l(V) l()) ' ( V)t I (V)( V) = WV () .
Quindi la statistica di Wald è una approssimazione per grandi campioni della statistica
del logaritmo del rapporto di verosimiglianza.
Riportiamo ora alcune proprietà asintotiche degli stimatori di massima verosimiglianza
e delle due statistiche W e WV .
106
1. Gli stimatori di massima verosimiglianza sono asintoticamente non distorti:

E(V ) = .
Dimostrazione. U () è una funzione da Rd a Rd . Approssimandola in serie di
Taylor fino al primo ordine in un intorno del punto V e approssimando H (l(V))
con il suo valore atteso, H (l(V)) ' E(H (l(V))) = I (V), si ha:
U () ' U (V ) + H (l(V))( V ) ' I (V ) (V ) .
(4.15)
Se consideriamo il valore atteso e osserviamo che I (V ) è costante, abbiamo:

0 = E (U ()) ' I (V ) E(V )
e quindi, per grandi campioni: E(V ) = .
2. La matrice di varianza asintotica degli stimatori di massima verosimiglianza è:
V(V ) = I 1
.
Inoltre V(V ) raggiunge asintoticamente il limite di Cramer Rao, cioè V è asintoticamente efficace.
Dimostrazione. Dalla formula (4.15) si ha: (V ) ' I (V )1 U (). Quindi:
1

1
1
t
t
= I 1
V(V ) = E I 1
E U U I = I .
U U I
Il risultato sul limite di Cramer-Rao deriva immediatamente, infatti il limite di
t
Cramer-Rao per la varianza di V è LCR(V(V )) = (E(V ))I 1
(E(V )) .
3. La score function ha legge asintoticamente normale:
U () N (0, I ) .
Omettiamo la dimostrazione, che si basa sul teorema del limite centrale.
4. Gli stimatori di massima verosimiglianza hanno legge asintoticamente normale:

V N , I 1
.
Dimostrazione. Deriva dai tre punti precedenti.

5. La statistica di Wald ha legge asintoticamente chi quadro con d gradi di libertà.
WV () = (V )t I (V) (V ) 2[d] .
Dimostrazione. Deriva dal punto 4 precedente e dal fatto che, in generale se X
N (0d , G) e G è invertibile, allora Y = Xt G1 X ha legge 2[d] .
Dimostriamo questo fatto. Se Q è la matrice con colonne gli autovettori di G e è la
matrice diagonale con gli autovalori di G, tali che QQt = Qt Q = I e G = Q Qt ,
allora
G1 = Q 1 Qt
infatti GG1 = Q Qt Q 1 Qt = I.
Quindi:
t
Y =X G X=X Q
1/2
1/2
Q X=
1/2
Q X
t
1/2
Q X = Zt Z
4.4
Test di bontà di adattamento
107
con E(Z) = 1/2 Qt E(X) = 0 e

V(Z) = E(ZZt ) = E 1/2 Qt XXt Q 1/2 = 1/2 Qt E XXt Q 1/2 =
= 1/2 Qt G Q 1/2 = 1/2 Qt Q Qt Q 1/2 = I .
Per cui Z N (0, I) e Y 2[d] .
6. La statistica di W del logaritmo del rapporto di verosimiglianza ha legge [d] .
W () = 2(l(V) l()) 2[d] .
Dimostrazione. Deriva dal punto 5 precedente e dallapprossimazione delle due
statistiche.
I risultati riportati in questo paragrafo saranno utilizzati nel caso dei modelli lineari
generalizzati dove, in particolare si avrà:
- gli stimatori di massima verosimiglianza B hanno legge asintoticamente normale:

B N , (Xt WX)1 ;
- le statistiche W () e WV () hanno legge asintotica 2[d] .
W () = 2(l(B) l()) ' WV () = ( B)t (Xt W(B)X)( B)
W () 2[d]
WV () 2[d] .
4.4
Test di bont`
a di adattamento
Introduciamo alcune statistiche che permettono di valutare la bontà di adattamento del

modello ai dati.
Chiamiamo modello corrente il modello sottoposto a verifica in cui il vettore dei
coefficienti delle variabili esplicative è , Rp , che viene stimato in massima verosimiglianza con B, come indicato nel paragrafo 4.2.2.
4.4.1
Modello massimale e devianza
Confrontiamo il modello corrente con il cosiddetto modello massimale.

Il modello massimale ha un numero di parametri uguale al numero di righe della
matrice delle variabili esplicative X differenti fra loro; se non ci sono repliche tale numero
è uguale al numero di unità sperimentali n. Come analizzato nel paragrafo 3.1.2, se
la matrice X ha m righe diverse, con p < m n, è possibile costruire un modello
con m parametri stimabili, cioè costruire una matrice Xmax con m colonne linearmente
indipendenti aggiungendo alla matrice X m p colonne ottenute come funzioni non
lineari delle p colonne originali.
Vediamo come si può costruire un modello massimale polinomiale a partire dal modello
corrente. Se le variabili esplicative sono X1 e X2 possiamo aggiungere al modello ad
esempio X12 ,X13 ,X22 , . . . ,X1 X2 ,X12 X2 , . . . fino a non trovare identità di variabili. Consideriamo un caso semplice. Se X1 è un fattore a due livelli codificati con 1,0,1, possiamo
aggiungere X12 , ma non X13 , perche coincide con X1 . Se X2 è un fattore a due livelli
108
codificati con 1,1, non possiamo aggiungere nessuna potenza perche X22 , coincide con il
vettore costante che, si presuppone, già appartenga al modello. In questo caso il modello
massimale è:
Y = g 1 (Xmax max )

= g 1 max0 + max1 X1 + max2 X21 + max3 X2 + max4 X1 X2 + max5 X21 X2 .
Questo modello ha 6 parametri, che è infatti il numero di righe della matrice X differenti
fra loro, 6 = 3 2. Osserviamo che il modello massimale non ha errore.
In realtà per gli scopi di questo paragrafo il modello massimale non viene costruito
esplicitamente, ma si utilizza solo lo stimatore del valore atteso della variabile risposta.
La matrice Xmax è quadrata di rango pieno, quindi è invertibile, e lo stimatore dei
coefficienti è
Bmax = X1
max g(Y).
Infatti da Y = g 1 (Xmax Bmax ) segue g(Y) = Xmax Bmax e X1
max g(Y) = Bmax . Quindi
E(Yi ) viene stimato con Yi ; infatti:
b = g 1 (Xmax Bmax ) = g 1 (Xmax X1
max g(Y)) = Y .
Dunque, per la singola unità sperimentale:
xtmaxi bmax = g(yi ) e yi = g 1 (xtmaxi bmax ).
Vediamo alcuni esempi considerando le link function canoniche:
1. Se Yi N (xti , 2 ), allora xtmaxi bmax = yi
i
2. Se Yi Binom(ni ,pi ), allora xtmaxi bmax = log niyy
i
3. Se Yi Poisson(i ), allora xtmaxi bmax = log(yi ).

Una statistica basata sul modello massimale è devianza definita come:
L(B)
D() = 2 log
= 2 (l(Bmax ) l(B)) .
L(Bmax )
Riscriviamo la devianza utilizzando le statistiche W () e W ( max ):
D() = 2 [(l(Bmax ) l( max )) (l(B) l()) + (l( max ) l())]
= W ( max ) W () + 2 (l( max ) l()) .
Abbiamo visto nel paragrafo precedente che asintoticamente W ( max ) 2[m] e W ()
2[p] ; si dimostra che le due variabili sono indipendenti e quindi:
W ( max ) W () 2[mp] .
Se indichiamo con k la costante 2 (l( max ) l()) allora
D() = W ( max ) W () + k 2[mp] (k)
cioè la legge asintotica della devianza è una chi quadro con costante di decentramento k.
Esempio E Calcoliamo la devianza per alcuni modelli.
4.4
109
1. Legge normale. Yi N (xti , 2 )

Nel paragrafo 1.2.6 abbiamo visto che la verosimiglianza nel modello lineare è:
n
1
1
1
l(, 2 ) = log( 2 ) 2 t Xt X 2 Yt Y + 2 < ,Xt Y >
2
2
2
che calcolata nello stimatore di massima verosimiglianza B = (Xt X)
Xt Y diventa:
1 t
1 t
1
1
n
l(B) = log( 2 ) 2 Yt X Xt X
X X Xt X
X Y 2 Yt Y +
2
2
2

1
1 t
n
1
Y X Xt X
Xt Y = log( 2 ) 2 Yt PV Y =
2
2
2
n
1
= log( 2 ) 2 Et E .
2
2
Nel modello saturo Xmax Bmax = Y e
1
1
1
n
n
l(Bmax ) = log( 2 ) 2 Yt Y 2 Yt Y + 2 Yt Y = log( 2 ) .
2
2
2
2
Quindi la devianza per il modello lineare generale è:
D() =
1 t
EE
2
che ha legge esatta 2[np] . In questo caso la devianza dipende dal parametro 2 ,
detto anche parametro di disturbo. Talvolta si utilizza la cosiddetta devianza
scalata che è definita come: 2 D().
2. Legge binomiale. Yi Binom(ni ,pi ), i = 1, . . . ,n.
Come abbiamo già visto nellesempio A del paragrafo 4.1, la verosimiglianza parametrizzata nei parametri è:
l() =
n
X
li (i ) =
i=1
n
X
ni log
i=1
ni i
i
+ yi log
.
ni
ni i
Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
g 1 (xti ), allora
l((b))
n
X
li (
i (b)) =
i=1
n
X
ni log
i=1
i
ni
i
+ yi log
.
ni
ni
i
La verosimiglianza del modello massimale è:

l((b
max )) =
n
X
i=1
li (yi ) =
n
X
i=1
ni log
yi
ni y i
+ yi log
.
ni
ni yi
110
Quindi la realizzazione della devianza è:
D(b) = D((b))
n
X
ni yi
yi
ni
i
i
= 2
ni log
+ yi log
ni log
yi log
ni
ni yi
ni
ni
i
i=1
= 2
n
X
i=1
yi log
ni y i
yi
+ (ni yi ) log
.
i
ni
i
Osserviamo che in questo caso non ci sono parametri di disturbo.

3. Legge di Poisson. Yi Poisson(i ), allora xti bmax = log(yi ).
Anche in questo caso abbiamo già visto nellesempio A del paragrafo 4.1 che la
verosimiglianza parametrizzata in è:
l() =
n
X
li (i ) =
n
X
i=1
i + yi log i .
i=1
Se indichiamo con
i la stima di massima verosimiglianza di i del modello corrente
effettuata a partire dalle stime di massima verosimiglianza dei coefficienti ,
i =
1
t
g (xi b), allora
l((b))
n
X
li (
i (b)) =
n
X
i=1
i + yi log
i .
i=1
La verosimiglianza del modello massimale è:

l((b
max )) =
n
X
li (yi ) =
i=1
n
X
yi + yi log yi .
i=1
Quindi la realizzazione della devianza è:
D(b) = D((b))
=2
n
X
i=1
X
yi
yi log 2
yi
i .
i
i=1
Se il modello contiene la costante e la link function è quella canonica allora, utilizzando la formula (4.6), lultimo addendo è nullo e la devianza per il modello di
Poisson è:
n
X
yi
D(b) = 2
.
yi log
i
i=1
Osserviamo che sia per il modello binomiale con la link function canonica che per il
modello di Poisson con la link function canonica e, questultimo, nel caso in cui ci sia
il termine costante la devianza si scrive come
n
X
oi
D=2
oi log
(4.16)
ei
i=1
4.4
111
avendo indicato con oi i valori osservati e con ei le stime dei valori attesi, cioè
i . Nel
modello di Poisson questo è evidente. Nel modello binomiale bisogna tener presente
che i valori osservati sono sia i successi, gli yi , che gli insuccessi, cioè gli ni yi .
Il test sulla bontà del modello corrente basato sulla devianza ha una zona di rifiuto
dellipotesi principale del tipo (c , + ). Questo test ha il difetto che in presenza di un
alto numero di unità sperimentali in genere la conclusione del test è il rifiuto lipotesi
principale. Infatti, allaumentare delle unità sperimentali, da un lato aumenta il numero
dei parametri del modello massimale e dallaltro aumenta il valore campionario della devianza in quanto questo è calcolato come la somma dei valori della devianza per ciascuna
unità e, anche se il valore c aumenta allaumentare dei gradi di libertà, spesso in questi
casi si giunge a un rifiuto della bontà di adattamento del modello ai dati.
Per questo spesso si considera la realizzazione della devianza divisa per i gradi di
libertà. Se questo valore non è molto pi`
u grande di 1 si considera il modello corrente ben
adattato ai dati. Per capire il significato di questo indice ricordiamo che il valore atteso
di una variabile aleatoria con legge chi quadro è uguale ai gradi di libertà; ricordiamo
inoltre nel modello lineare generale se il parametro 2 è stimato da S 2 , allora questo
indice vale 1.
4.4.2
Statistica 2 di Pearson
Con le notazioni appena introdotte per oi e ei , la statistica X 2 di Pearson è:

2
X =
n
X
(oi ei )2
ei
i=1
Vediamo un esempio. Consideriamo un modello binomiale, Yi Binom(ni ,pi ), i =

1, . . . ,n. Abbiamo già osservato che i valori osservati sono sia i successi, gli yi , che gli
insuccessi, cioè gli ni yi e i corrispondenti valori attesi sono ni pi e ni (1 pi ). Quindi:
2
X =
n
X
(yi ni pi )2
i=1
ni pi
n
X
((ni yi ) ni (1 pi ))2
i=1
ni (1 pi )
n
X
(yi ni pi )2
=
.
ni pi (1 pi )
i=1
Legame fra devianza e statistica 2 di Pearson

Abbiamo
nella formula (4.16), che in alcuni casi la devianza può scriversi come
Pvisto,
n
oi
. Vediamo il legame fra questa espressione della devianza e quella
D=2
o
log
i
i=1
ei
della statistica di Pearson.
Sviluppiamo in serie di Taylor la funzione f (o) = o log oe in un intorno del punto e. Si
ha:
o
e1
o
e1
1
f 0 (o) = log + o
= log + 1
f 00 (o) =
=
e
oe
e
oe
o
quindi

1
o
e
e
1
1 (o e)2
o log ' e log + (o e) log + 1 + (o e)2 = (o e) +
.
e
e
e
2
e
2
e
112
La devianza si può approssimare come:

D'2
n
X
i=1
oi ei +
n
X
(oi ei )2
i=1
ei
=X +2
n
X
oi ei .
i=1
Se la link
P function è quella canonica e la parte lineare del modello comprende la costante
si ha ni=1 oi ei = 0 e dunque:
D ' X2 .
4.4.3
Statistiche basate sul modello minimale
Il modello corrente può essere confrontato anche con il modello minimale, cioè il modello
comprendente nella parte lineare solo la costante, cos` come si fa per i modelli lineari
generali. Due sono le statistiche che in genere si usano:
G = 2 (l(B) l(Bmin ))
D(Bmin ) D(B)
l(B) l(Bmin )
=
.
pseudoR2 =
l(Bmin )
2l(Bmin )
Con dimostrazione analoga a quanto visto per la devianza, si trova che la statistica G ha
legge asintotica 2[p1] .
4.5
4.5.1
Intervalli di confidenza e test

Inferenza sui coefficienti delle variabili esplicative
Per linferenza sui singoli coefficienti k si utilizzano essenzialmente le due quantità

pivotali e le loro leggi già studiate nel paragrafo 4.3:

B N 0, I 1
WV () = ( B)t (Xt W(B)X)( B) 2[p] .

Per effettuare test sulla nullità di un sottoinsieme di q coefficienti si utilizzano statistiche basate sulla differenza fra le devianze del modello ridotto e del modello completo.
Indichiamo con DR la devianza del modello sotto lipotesi principale di nullità di un
sottoinsieme di coefficienti e con DC la devianza del modello corrente o completo. Si ha:
D = DR DC = 2 (l(Bmax ) l(BR )) 2 (l(Bmax ) l(B))
= 2 (l(B) l(BR ))
dove BR è lo stimatore di massima verosimiglianza dei coefficienti del modello ridotto.
Se il modello corrente è ben adattato ai dati, allora DC 2[np] . Se anche il modello
ridotto (sotto H0 ) è ben adattato ai dati, allora DR 2[np+q] , altrimenti ha legge chi
quadro decentrata DR 2[np+q] (k). Si dimostra che DR e DC sono indipendenti, quindi:
D 2[q]
se H0 è vera .
Se non compaiono parametri di disturbo allora la realizzazione di D è completamente

determinata dai dati. Se invece, come nel caso di modello con variabile risposta normale,
4.6
Residui
113
compare un parametro nelle devianze, allora spesso si usa come statistica test la differenza
relativa di devianze:
D/q
F =
F[q,np]
se H0 è vera
DC /(n p)
altrimenti ha legge F di Fisher decentrata.
4.5.2
Inferenza sui valori attesi della variabile risposta
Per linferenza sui valori attesi i della variabile risposta Yi si utilizzano i risultati già
indicati per i coefficienti , ricordando che:
i = g 1 (xti )
= g 1 (X )
i = g 1 (xti B)
= g 1 (X B) .
Si ha, asintoticamente:
t
1
V(B) = I 1
B = (X W(B)X)
V(XB) = X(Xt W(B)X)1 Xt .
Quindi se indichiamo con Si2 lelemento diagonale della matrice di varianza

Si2 = V(xti B) = xti (Xt W(B)X)1 xi
un intervallo di confidenza asintotico per la parte lineare del modello xti è:

xti B z Si , xti B + z Si
e un intervallo di confidenza asintotico per i , nel caso in cui g 1 sia crescente è:

g 1 xti B z Si , g 1 xti B + z Si .
4.6
Residui
Ladeguatezza del modello, anche in questo caso, deve essere controllata tramite unanalisi dei residui. Vari tipi di residui possono essere considerati.
- Residui grezzi
ri = y i
i
- Residui chi quadro di Pearson
ri
r
q i
e i corrispondenti standardizzati rPi = q
\
\
V(Y
V(Y
i)
i )(1 hi )
dove con hi si è indicato lelemento diagonale della matrice H:
H = W(B)1/2 X(Xt W(B)X)1 XW(B)1/2 .
- Residui basati sulla devianza
p
sign(ri ) di
sign(ri ) di e i corrispondenti standardizzati rDi =
1 hi
dove con di si è indicato il contributo alla devianza delli-esima unità sperimentale.
114
- Residui basati sulla verosimiglianza

rGi
4.7
q
2
= sign(ri ) (1 hi )rD
+ hi rP2 i .
i
Due esempi estesi
Esempio F Modello binomiale.

Lesempio è tratto da http://www.sci.usq.edu.au/staff/dunn/Datasets/index.html cui
si rimanda per maggiori dettagli.
Si vuole studiare la proporzione di insetti morti dopo 6 giorni di esposizione a
diversi depositi di insetticida. Per ciascuno dei tre insetticidi preso in esame sono
considerate sei diverse dosi. In totale sono stati sottoposti allesperimento 50 insetti.
Le variabili del data set sono: Killed: numero di insetti morti, Number: numero
di insetti sottoposti allesperimento, Insecticide: tipo di insetticida usato (1, 2 o 3),
Deposit: quantità di deposito di insetticida usato in milligrammi.
Il riferimento dellesperimento è: Hewlett, P. S. and Plackett, T. J. (1950). Statistical aspects of the independent joint action of poisons, particularly insecticides. II
Examination of data for agreement with hypothesis in Annals of Applied Biology, 37,
527552.
Siamo in una situazione di analisi della covarianza in quanto in presenza di una
variabile esplicativa qualitativa (insetticida) e una quantitativa (deposito)
Qui di seguito è riportato il programma SAS.
data insetticida;
input Killed Number
Insecticide Deposit;
datalines;
3
50 1
2.00
5
49 1
2.64
19 47 1
3.48
19 38 1
4.59
24 29 1
6.06
35 50 1
8.00
2
50 2
2.00
14 49 2
2.64
20 50 2
3.48
27 50 2
4.59
41 50 2
6.06
40 50 2
8.00
28 50 3
2.00
37 50 3
2.64
46 50 3
3.48
48 50 3
4.59
48 50 3
6.06
50 50 3
8.00
;
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
proc genmod;
class insecticide;
model killed/number= insecticide deposit
/ obstats itprint expected corrb;
output out=risultati pred=pre STDRESCHI=res_st
LOWER=inf_med UPPER=sup_med;
run;quit;
goption ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90);
symbol1 v=dot c=black i=none;
symbol2 v=diamond i=j l=1 c=black;
proc gplot data=risultati;
plot res_st*pre/vref=0 vaxis=axis1;
run;quit;
plot (pre inf_med sup_med)*deposit/
overlay vaxis=axis1;
by insecticide;
run;quit;
Loutput è il seguente. Alcuni dati sono stati arrotondati per problemi di impaginazione.
Per la lettura, oltre a quanto osservato nellEsempio D di questo capitolo, possiamo aggiungere che i limiti di confidenza per i coefficienti, come indicato nelloutput,
vengono calcolati usando la statistica di Wald, o meglio la sua radice quadrata.
4.7
115
Due esempi estesi
Model Information
Data Set WORK.RISULTATI
Predicted Values and Diagnostic Statistics
Distribution
Link Function
Response Variable (Events)
Response Variable (Trials)
Observations Used
Number Of Events
Number Of Trials
Binomial
Logit
Killed
Number
18
506
862

Class
Levels
Values
Insecticide
3
1 2 3
Parameter
Prm1
Prm2
Prm3
Prm4
Prm5
Iter
0
1
2
3
Ridge
0
0
0
0
Parameter Information
Effect
Insecticide
Intercept
Insecticide
1
Insecticide
2
Insecticide
3
Deposit
Iteration History For Parameter Estimates

Log
Likelihood
Prm1
Prm2
Prm3
-403.25367
-0.378737
-2.456751
-2.057824
-401.57653
-0.521241
-2.669687
-2.299159
-401.56592
-0.533255
-2.68789
-2.318361
-401.56592
-0.533348
-2.688016
-2.318489
Prm5
0.5475149
0.6247137
0.6316239
0.6316762
Criteria For Assessing Goodness Of Fit

Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
DF
14
14
14
14
Value
48.0258
48.0258
47.2792
47.2792
-401.5659
Value/DF
3.4304
3.4304
3.3771
3.3771
Last Evaluation Of The Negative Of The Gradient and Hessian

Gradient
Prm1
Prm2
Prm3
Prm5
Prm1
-2.196E-7
130.4985
43.448286
54.002832
523.6365
Prm2
-5.124E-8
43.448286
43.448286
0
191.49338
Prm3
-4.149E-8
54.002832
0
54.002832
229.90198
Prm5
-1.925E-6
523.6365
191.49338
229.90198
2510.4832
Estimated Correlation Matrix
Prm1
Prm2
Prm3
Prm5
Prm1
1.0000
-0.3391
-0.3795
-0.6782
Prm2
-0.3391
1.0000
0.6238
-0.2832
Prm3
-0.3795
0.6238
1.0000
-0.2637
Prm5
-0.6782
-0.2832
-0.2637
1.0000
116
Parameter
Intercept
Insecticide
Insecticide
Insecticide
Deposit
Scale
DF
1
2
3

Standard
Wald 95% Confidence
Estimate
Error
Limits
1
1
1
0
1
0
-0.5333
-2.6880
-2.3185
0.0000
0.6317
1.0000
0.2367
0.2407
0.2290
0.0000
0.0519
0.0000
-0.9973
-3.1597
-2.7672
0.0000
0.5300
1.0000
-0.0694
-2.2163
-1.8697
0.0000
0.7334
1.0000
ChiSquare Pr > ChiSq

5.08
124.75
102.54
.
148.21
0.0242
<.0001
<.0001
.
<.0001
Per questo modello:

- la colonna indicata con Xbeta contiene i valori:
xtik b = b0 + bINSi + bDeposit Depositoik
- la colonna indicata con Pred contiene i valori:
1
pi = 1 + exp(xti b)
- la colonna indicata con Std contiene le stime delle standard deviation degli stimatori
xti B, quindi:
p
si = xti (Xt W(b)X)1 xi
\
- la colonna indicata con HessWgt contiene i valori V(Y
i (1 pi ) in quanto Yi è
i ) = ni p
statistica sufficiente, la link function è quella canonica, come ricavato nella formula
(4.11).
- la colonne indicate con Lower e Upper contengono le realizzazioni campionarie dei
limiti dellintervallo di confidenza per pi , come indicato nel paragrafo precedente.
Observation Statistics
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Killed
3
5
19
19
24
35
2
14
20
27
41
40
28
37
46
48
48
50
Number Deposit
50
2
49
2.64
47
3.48
38
4.59
29
6.06
50
8
50
2
49
2.64
50
3.48
50
4.59
50
6.06
50
8
50
2
50
2.64
50
3.48
50
4.59
50
6.06
50
8
Insect
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
Pred
0.1236824
0.1745469
0.264418
0.4201957
0.6471634
0.8620052
0.1695972
0.2342957
0.3421778
0.5118869
0.7263377
0.9003906
0.6748063
0.7566274
0.8408927
0.9142012
0.9642434
0.9892289
Xbeta
-1.958012
-1.553739
-1.023131
-0.32197
0.6065937
1.8320454
-1.588485
-1.184212
-0.653604
0.0475564
0.9761204
2.2015721
0.7300047
1.1342774
1.6648854
2.3660459
3.2946098
4.5200616
Std
0.196516
0.177272
0.159158
0.1520054
0.1742659
0.2403409
0.1795395
0.159871
0.141929
0.1371703
0.1651279
0.2371307
0.1829764
0.175539
0.1751033
0.1904904
0.2322647
0.308324
HessWgt
5.4192535
7.0599346
9.1415529
9.2579881
6.6219452
5.9476112
7.0416989
8.7906601
11.254608
12.492935
9.9385614
4.4843684
10.972138
9.2071186
6.6896078
3.9218675
1.7239017
0.5327529
4.7
117
Due esempi estesi
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Lower
0.088
0.130
0.208
0.350
0.566
0.796
0.126
0.183
0.283
0.445
0.658
0.850
0.592
0.688
0.789
0.880
0.945
0.980
Upper
0.172
0.230
0.329
0.494
0.721
0.909
0.225
0.295
0.407
0.578
0.786
0.935
0.748
0.814
0.882
0.939
0.977
0.994
Resraw
-3.184
-3.553
6.572
3.033
5.232
-8.100
-6.480
2.520
2.891
1.406
4.683
-5.020
-5.740
-0.831
3.955
2.290
-0.212
0.539
Reschi
-1.368
-1.337
2.174
0.997
2.033
-3.321
-2.442
0.850
0.862
0.398
1.486
-2.370
-1.733
-0.274
1.529
1.156
-0.162
0.738
Resdev
-1.501
-1.429
2.079
0.990
2.155
-2.954
-2.854
0.830
0.852
0.398
1.551
-2.118
-1.691
-0.272
1.665
1.281
-0.159
1.041
StResdev
-1.688
-1.619
2.372
1.117
2.411
-3.646
-3.246
0.943
0.968
0.455
1.816
-2.449
-2.126
-0.321
1.867
1.383
-0.167
1.068
StReschi
-1.538
-1.516
2.480
1.124
2.275
-4.099
-2.777
0.965
0.980
0.455
1.740
-2.741
-2.179
-0.324
1.715
1.249
-0.170
0.757
Reslik
-1.658
-1.597
2.397
1.118
2.384
-3.808
-3.146
0.948
0.971
0.455
1.796
-2.526
-2.146
-0.322
1.837
1.365
-0.167
1.055
Qui sotto è riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti. Di seguito sono riportati i grafici dei valori predetti e dei limiti di confidenza
rispetto al deposito per i tre tipi di insetticida.
Si può osservare che, pur se la devianza divisa per i gradi di libertà presenta valori
un po alti, il grafico dei residui rispetto ai valori predetti è piuttosto omogeneo,
quindi il modello sembra ben adattato ai dati. Singolarmente tutti i coefficienti sono
significativamente diversi da 0.
Dal secondo gruppo di grafici si può osservare che il comportamento della proporzione di uccisi stimata rispetto al deposito a cui sono esposti gli insetti è diversa a
seconda del tipo di insetticida.
118
Esempio G Modello di Poisson.

Lesempio è tratto da http://www.sci.usq.edu.au/staff/dunn/Datasets/index.html cui
si rimanda per maggiori dettagli. Riguarda le richieste di copertura di danni alle
assicurazioni per autoveicoli in Svezia per lanno 1977.
Le variabili prese in esame sono: Kilometres, i chilometri percorsi per anno (1: meno
di 1000, 2: da 1000 a 15 000, 3: da 15 000 a 20 000, 4: da 20 000 a 25 000, 5: pi`
u
di 25 000); Zone: la zona geografica (1: Stockholm, Goteborg, Malmo, 2: altre grandi
città, 3: piccole città del sud , 4: aree rurali del sud, 5: piccole città del nord, 6: aree
rurali del nord, 7: Gotland); Bonus (nessuna richiesta, oppure il numero di anni pi`
u
uno dallultima richiesta); Make: modello dellautoveicolo (da1 a 8); Insured: numero
di assicurazioni in anni di polizza; Claims: Numero di richieste; Payment: pagamento
effettuato in corone svedesi.
Qui sotto è riportata una parte delloutput.
Model Information
Data Set
WORK.ASSICURAZIONI
Distribution
Poisson
Link Function
Log
Dependent Variable
Claims
Observations Used
2182
Class
Levels
Values
Kilometres
5
1 2 3 4
Zone
7
1 2 3 4
Bonus
7
1 2 3 4
Make
9
1 2 3 4
5
5 6 7
5 6 7
5 6 7 8 9

Criterion
DF
Value
Deviance
2155
13176.1068
Scaled Deviance
2155
13176.1068
Pearson Chi-Square
2155
14005.7757
Scaled Pearson X2
2155
14005.7757
Log Likelihood
544867.0509
Parameter
Intercept
Kilometres
Kilometres
Kilometres
Kilometres
Kilometres
Zone
Zone
Zone
Zone
Zone
Zone
Zone
Bonus
Bonus
Bonus
1
2
3
4
5
1
2
3
4
5
6
7
1
2
3
DF
1
1
1
1
1
0
1
1
1
1
1
1
0
1
1
1
Estimate
2.6236
1.4177
1.4845
1.0449
0.1499
0.0000
3.3795
3.3624
3.3229
3.7864
2.2171
2.7349
0.0000
-1.0537
-1.4705
-1.7521

Standard
Wald 95% Confidence
Error
Limits
0.0419
2.5415
2.7056
0.0133
1.3917
1.4438
0.0137
1.4576
1.5114
0.0135
1.0184
1.0714
0.0155
0.1195
0.1803
0.0000
0.0000
0.0000
0.0413
3.2986
3.4604
0.0411
3.2819
3.4430
0.0411
3.2423
3.4034
0.0412
3.7056
3.8672
0.0422
2.1344
2.2999
0.0414
2.6537
2.8161
0.0000
0.0000
0.0000
0.0106
-1.0745
-1.0330
0.0126
-1.4952
-1.4458
0.0142
-1.7799
-1.7242
Value/DF
6.1142
6.1142
6.4992
6.4992
ChiSquare Pr > ChiSq

3927.12
<.0001
11385.8
<.0001
11683.3
<.0001
5976.99
<.0001
93.36
<.0001
.
.
6703.75
<.0001
6693.09
<.0001
6540.33
<.0001
8432.23
<.0001
2757.89
<.0001
4357.87
<.0001
.
.
9878.85
<.0001
13639.6
<.0001
15191.8
<.0001
4.7
Bonus
4
Bonus
5
Bonus
6
Bonus
7
Make
1
Make
2
Make
3
Make
4
Make
5
Make
6
Make
7
Make
8
Make
9
Insured
Payment
Scale
NOTE: The scale
119
Due esempi estesi
1
-1.9279
0.0154
-1.9581
1
-1.8032
0.0148
-1.8321
1
-1.2731
0.0120
-1.2966
0
0.0000
0.0000
0.0000
1
-1.8044
0.0118
-1.8276
1
-3.2185
0.0208
-3.2592
1
-3.6101
0.0247
-3.6585
1
-3.4909
0.0235
-3.5370
1
-3.1001
0.0197
-3.1388
1
-2.6838
0.0167
-2.7167
1
-3.4452
0.0230
-3.4902
1
-4.1261
0.0312
-4.1874
0
0.0000
0.0000
0.0000
1
-0.0000
0.0000
-0.0000
1
0.0000
0.0000
0.0000
0
1.0000
0.0000
1.0000
parameter was held fixed.
-1.8977
-1.7742
-1.2496
0.0000
-1.7812
-3.1778
-3.5617
-3.4447
-3.0614
-2.6510
-3.4002
-4.0649
0.0000
-0.0000
0.0000
1.0000
15619.8
14897.3
11273.0
.
23247.3
24027.2
21371.5
21973.1
24646.4
25676.2
22526.6
17447.9
.
1469.44
1469.42
<.0001
<.0001
<.0001
.
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
<.0001
<.0001
Qui sotto è riportato il grafico dei residui chi-quadro standardizzati rispetto ai valori
predetti.
I valori della devianza e della statistica di Pearson divise per i gradi di libertà indicano
che ladattamento del modello ai dati non è molto buono. Dal grafico possiamo osservare che percentualmente non sono molti i residui standardizzati alti; in particolare
sembrano esserci problemi in presenza di poche richieste di rimborso. I coefficienti
sono tutti significativamente diversi da 0, considerati singolarmente.
Un modello meglio adattato ai dati si ottiene considerando la radice quadrata delle
variabili quantitative, come mostrato sotto.
data a.assic_svedesi2;
set a.assic_svedesi;
if payment = 0 then delete; else sPayment=sqrt(Payment);
if claims = 0 then delete; else sclaims=sqrt(claims);
proc genmod data=a.assic_svedesi2;
class Kilometres Zone Bonus Make;
model sclaims = Kilometres Zone Bonus Make Insured sPayment/ dist=poisson ;
output out=risultati pred=pre STDRESCHI=res_st LOWER=inf_med UPPER=sup_med;
run;quit;
goption reset=(all) ftext=swissb hsize=15cm vsize=10cm;
axis1 label=(a=90); symbol1 v=dot c=black i=none;
plot res_st*pre/vref=0 vaxis=axis1; run;quit;
120
La deviance diventa 1214. 3432 e la devianza diviso i gradi di libertà è 0. 5635. Il

grafico dei residui è il seguente
Il nuovo modello risulta quindi decisamente meglio adattato ai dati del precedente.
4.8
Alcuni modelli per variabili dicotomiche
I primi modelli per variabili aleatorie con legge non normale sono stati introdotti nella prima metà degli anni 70 per casi dose-risposta in cui la risposta consisteva nellavverarsi
o meno di un evento oggetto di studio in relazione a diverse dosi di farmaco.
Come si può anche osservare nei grafici dellesempio F la probabilità di successo si può
esprimere come funzione crescente della dose: i primi due grafici hanno un andamento
lineare, mentre il terzo no; ci sono dunque diverse funzioni possibili.
Definiamo dunque la probabilità di successo nel seguente modo:
Z x
p(x) =
f (s) ds
(4.17)
dove f (. ) è chiamata tolleranza. Affinchè p sia una probabilità, la tolleranza deve avere
le proprietà di una funzione di densità.
Vediamo alcuni esempi di funzione di tolleranza.
1. Se la probabilità cresce in modo lineare (primi due grafici), allora la funzione di
tolleranza è uniforme in un intervallo [c1 ,c2 ]:
1
x c1
(c1 < s < c2 )
p(x) = 0 (x < c1 ) +
(c1 < x < c2 ) + (c2 < x)
f (s) =
c2 c1
c2 c1
ovvero, per c1 < x < c2 :
1
c1
e 1 =
p(x) = 0 + 1 x
con 0 =
c2 c1
c2 c1
che corrisponde a una link function identica. Questa link function necessita però
condizioni sui limiti dellintervallo per la dose e quindi è usata raramente.
2. Se la funzione di tolleranza corrisponde a una densità Normale, con media m e
varianza 2 , allora:

xm
p(x) =
4.8
121
dove con si è indicata la funzione di ripartizione di una variabile aleatoria normale

standardizzata. Quindi:
p(x) = (0 + 1 x)
con 0 =
1
m
e 1 =
1 (p) = 0 + 1 x
Il modello con link function 1 si chiama Probit ed è molto usato in biologia e in
scienze sociali. In particolare se p è una probabilità di morte, m è chiamata dose
letale media o mediana.
p
3. Se la probabilità di successo è modellata con la link function canonica log 1p
=
0 + 1 x allora la funzione di tolleranza è
f (s) =
1 exp(0 + 1 x)
(1 + exp(0 + 1 x))2
infatti:
Z
p(x) =
1 exp(0 + 1 s)
1
ds =
2
(1 + exp(0 + 1 s))
1 + exp((0 + 1 x))
Il modello con la link function canonica si chiama anche modello Logit o logistico.
4. Unaltra link function per la probilità di successo è la cosiddetta log-log complementare:
log ( log (1 p)) = 0 + 1 x
la cui inversa è:
p(x) = 1 exp ( exp (0 + 1 x))
e la cui la funzione di tolleranza è:
f (s) = 1 exp (0 + 1 s exp (0 + 1 s))
Le funzioni di tolleranza e le link function degli ultimi tre modelli sono abbastanza simili
per valori di p prossimi a 0. 5, ma differiscono nelle code. In particolare il modello loglog complementare è maggiormente appropriato se la tolleranza è asimmetrica, mentre i
modelli Logit e Probit modellano meglio casi pi`
u simmetrici.
Esempio H Questo esempio è tratto da Dobson (2002).
Si vuole studiare la proporzione di
coleotteri morti dopo essere stati
sottoposti allesposizione di solfuro di carbonio gassoso a diverse
concentrazioni.
Mettiamo a confronto il modello
logistico con il modello probit e il
modello log-log complementare.
Modello logistico
data coleotteri;
input dose pres morti;
datalines;
1.6907 59 6
1.7242 60 13
1.7552 62 18
1.7842 56 28
1.8113 63 52
1.8369 59 53
1.8610 62 61
1.8839 60 60
;
proc genmod data=coleotteri;

model morti/pres= dose;
model morti/pres=dose
/ LINK=PROBIT;
model morti/pres=dose
/ LINK=CLOGLOG;
122

Model Information
Data Set
WORK.COLEOTTERI
Distribution
Binomial
Link Function
Logit
Response Variable (Events)
morti
Response Variable (Trials)
pres
8
8
Number of Events
291
Number of Trials
481
Criterion
DF
Value
Deviance
6
11.2322
Scaled Deviance
6
11.2322
Pearson Chi-Square
6
10.0268
Scaled Pearson X2
6
10.0268
Log Likelihood
-186.2354
Parameter
DF

Standard
Wald 95%
Estimate
Error
Confidence Limits
Intercept
1 -60.7175
dose
1
34.2703
Scale
0
1.0000
NOTE: The scale parameter was
5.1807 -70.8715
2.9121
28.5626
0.0000
1.0000
held fixed.
-50.5634
39.9780
1.0000
Value/DF
1.8720
1.8720
1.6711
1.6711
ChiSquare
Pr > ChiSq
137.36
138.49
<.0001
<.0001
Modello probit
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
DF
6
6
6
6
Value
10.1198
10.1198
9.5134
9.5134
-185.6792
Value/DF
1.6866
1.6866
1.5856
1.5856
Parameter
Intercept
dose
Scale
DF
1
1
0

Standard
Wald 95%
Estimate
Error
Confidence Limits
-34.9353
2.6395 -40.1086 -29.7619
19.7279
1.4841
16.8192
22.6366
1.0000
0.0000
1.0000
1.0000
ChiSquare
175.18
176.71
Pr > ChiSq
<.0001
<.0001
Modello log-log complementare

Criterion
DF
Value
Deviance
6
3.4464
Scaled Deviance
6
3.4464
Pearson Chi-Square
6
3.2947
Scaled Pearson X2
6
3.2947
Log Likelihood
-182.3425
Value/DF
0.5744
0.5744
0.5491
0.5491
4.8
123
Parameter
DF

Standard
Wald 95%
Estimate
Error
Confidence Limits
Intercept
1 -39.5723
dose
1
22.0412
Scale
0
1.0000
NOTE: The scale parameter was
3.2290 -45.9012
1.7931
18.5268
0.0000
1.0000
held fixed.
-33.2435
25.5556
1.0000
ChiSquare
Pr > ChiSq
150.19
151.10
<.0001
<.0001
La regione di rifiuto dellipotesi principale a un livello del 5% è (12. 59,+). Quindi

tutti i modello si adattano bene ai dati, ma il modello log-log complementare ha un
valore minore per la devianza e quindi è preferibile agli altri.
4.8.1
Odds-ratio e log-odds-ratio
Quando le variabili esplicative sono categoriche, spesso per interpretare gli effetti delle
variabili esplicative, è pi`
u efficace, piuttosto che utilizzare i parametri , considerare gli
odds ratio.
Prendiamo in esame il caso di una sola variabile esplicativa dicotomica, che può indicare ad esempio un fattore di rischio o in generale la presenza o lassenza di una particolare
condizione, codificata con 0 e 1 (altre codifiche non cambiano il senso del discorso).
Vogliamo confrontare il valore atteso della variabile risposta quando la variabile esplicativa vale 1 (presenza della condizione), indicato con (x1 ), rispetto al valore atteso
quando lesplicativa vale 0 (assenza della condizione), indicato con (x0 ), ad esempio
considerando il rapporto
(x1 )
g 1 (xt1 )
ovvero
.
(x0 )
g 1 (xt0 )
Se tale valore è minore di 1 significa che il valore atteso della variabile risposta in presenza
della condizione è inferiore a quello in assenza della condizione, se è maggiore di 1 è vero
il viceversa; un rapporto vicino a 1 indica la non influenza della variabile esplicativa.
Nel caso specifico di variabili aleatorie binomiali, invece dei valori attesi si considerano
gli odds. Lodds è il rapporto fra la probabilità di successo e quella di insuccesso, o =
p/(1 p). Se si usa la link function (canonica) logit, il rapporto degli odds del caso x1
rispetto al caso x0 , ovvero lodds ratio, è:

exp (xt1 )
p(x1 )/(1 p(x1 ))
t
=
=
exp
(x
x
)
or(x1 ,x0 ) =
1
0
p(x0 )/(1 p(x0 )
exp (xt0 )
Si definisce log odds ratio come il logaritmo dellodds ratio:
log-or(x1 ,x0 ) = (x1 x0 )t
Nel caso di una sola variabile esplicativa a valori 0 e 1 si ha x1 = (1,1)t , x0 = (1,0)t ,
= (0 ,1 )t e quindi:

or(x1 ,x0 ) = exp xt1 xt0 = exp (0 + 1 0 ) = e1 e log-or(x1 ,x0 ) = 1 .
Osserviamo che e1 rappresenta il cambio del log odds da x = 0 a x = 1. Per esempio
un odds ratio uguale a 2 (cioè e1 = 2) significa che lodds di un evento quando x = 1 è
doppio dellodds dellevento quando x = 0.
124
Se la covariata (o fattore di rischio) assumesse valori reali a e b (invece che 0 e 1),

lodds ratio diventa:

or(xa ,xb ) = exp xta xtb = exp (0 + 1 a 0 1 b) = exp(1 (ab)) = exp(1 )(ab)
Leffetto della covariata può essere verificato sia con un ipotesi principale 1 = 0
oppure con una ipotesi or = 1.
Un intervallo di confidenza per lodds ratio può essere calcolato come:
(exp (B1 z std(B1 )) , exp (B1 + z std(B1 ))) .
Nel caso di pi`
u di 2 modalità assunte dalla covariata (a cui corrispondono diverse
righe della matrice X), gli odds ratio fra la modalità h e la modalità k della variabile
esplicativa sono
or(xh ,xk ) =
4.9

p(xh )/(1 p(xh ))
= exp (xh xk )t .
p(xk )/(1 p(xk ))
Modelli per variabili risposta nominali e ordinali
Esistono due approcci per lo studio di variabili multinomiali o ordinali.

Uno consiste nellestendere la regressione logistica per variabili dicotomiche al caso di
pi`
u modalità e laltro nellinterpretare i conteggi o le frequenze delle diverse modalità con
variabili con legge di Poisson. Questi due approcci permettono di avere interpretazioni
diverse dei parametri, come vedremo in seguito, ma non si differenziano da un punto di
vista teorico.
Legge multinomiale e legge di Poisson condizionata
Se Y = (Y1 , . . . ,YJ )t
PMultinom(n,p
P 1 , . . . ,pJ ), allora fY (y1 , . . . ,yJ ; n,p1 , . . . ,pJ ) =
y1
yJ
n!
p pJ con
pj = 1 e
yj = n e il logaritmo della verosimiglianza si può
y1 !yJ ! 1
scrivere come:
l(p1 , . . . ,pJ ; y1 , . . . ,py ) = n log(1 p1 pJ1 )
pJ1
p1
+ + yJ1 log
.
+ y1 log
1 p1 pJ1
1 p1 pJ1
Osserviamo che la legge multinomiale appartiene alla famiglia dei modelli esponenziali,
con statistica sufficiente Y = (Y1 , . . . ,YJ1 )t e parametro canonico = (1 , . . . ,J1 )t
con

pj
j = log
1 p1 pJ1
P
J
= J1
Applicando lesponenziale e sommando per j = 1, . . . ,J1 si ottiene 1p
j=1 exp(j )
pJ
da cui:
!1
J1
X
exp(j )
pJ = 1 +
exp(j )
e pj =
per j = 1, . . . ,J 1 .
PJ1
1 + j=1 exp(j )
j=1
4.9
Modelli per variabili risposta nominali e ordinali
125
Usando le proprietà di modelli possiamo ricavare interessanti proprietà della statistica

sufficiente:
E(Yj ) = n pj
V(Yj ) = n pj (1 pj )
cov(Yj ,Yk ) = n pj pk .
Dimostriamo ora che la distribuzione multinomiale può essere vista come una distribuzione congiunta di variabili aleatorie indipendenti con legge di Poisson, condizionate alla
loro somma.
P
Siano Y1 , . . . ,YJ variabili aleatorie indipendenti con Yj Poisson(j ) e sia N = j Yj ,
P
allora N Poisson( j j ). La densità di (Y1 , . . . ,YJ |N = n) è:
y11 yJJ exp((1 + + J ))
n!
n
y1 ! yJ !
(1 + + J ) exp((1 + + J ))

y1

yJ
1
J
n!
.
=
y1 ! yJ ! 1 + + J
1 + + J
I parametri della legge multinomiale e di quella di Poisson condizionata alla somma
sono legati dalle relazioni:
pj =
4.9.1
j
1 + + J
j =
pj
1 p1 pJ1
j = 1, . . . ,J 1 .
Modello logistico per variabili multinomiali
Generalizziamo il modello Logit già introdotto per variabili binomiali al caso multinomiale.
Per quanto visto sopra, la link function canonica per il modello esponenziale è:
log
pj
pj
= log
= xt j
pJ
1 p1 pJ1
pj =
exp(xt j )
PJ1
1 + j=1 exp(xt j )
j = 1, . . . ,J 1 .
(4.18)
La scelta della modalità di riferimento, in questo caso lultima, è arbitraria.
Osserviamo che p1 , . . . pJ dipendono dalle variabili esplicative x e sarebbe pi`
u corretto
indicarle come:
p1 (x), . . . ,pJ (x)
ma ometteremo tale indicazione quando non necessaria.
Le stime di massima verosimiglianza delle probabilità, pj , e dei valori attesi,
j , delle variabili risposta sono ottenute come di consueto a partire dalle stime di massima
verosimiglianza bj dei coefficienti j :
pj =
exp(xt bj )
PJ1
1 + j=1 exp(xt bj )
j = n pj
j = 1, . . . ,J 1 .
Odds-ratio per i modelli multinomiali

Anche per variabili risposta multinomiali si possono considerare gli odds ratio (e il loro
logaritmo) per valutare lefficacia di variabili esplicative.
126
Nel caso multinomiale lodds è il rapporto: oj = pj /pJ , avendo scelto come modalità
di riferimento della variabile risposta la J-esima. Quindi, con la link function (4.18),
lodds ratio è:

pj (x1 )/pJ (x1 )
= exp xt1 j xt0 j = exp (x1 x0 )t j
orj (x1 ,x0 ) =
pj (x0 )/pJ (x0 )
Come nel caso binomiale, leffetto della covariata può essere verificato sia con un ipotesi
principale 1j = 0 oppure con una ipotesi orj = 1, per j = 1, . . . ,J 1.
Un intervallo di confidenza per lodds ratio può essere calcolato come:
(exp (B1j z std(B1j )) , exp (B1j + z std(B1j ))) .
4.9.2
Modello logistico per variabili risposta multinomiali ordinali
Quando le modalità della variabile risposta multinomiale sono ordinali, si possono utilizzare ulteriori link function che estendono la link function logit.
1. La link function è il logaritmo del rapporto delle probabilità delle modalità minori
o uguali a quella corrente rispetto a tutte le successive.
p1 + p2 + + pj
p1 + p2 + + pj
xt j = log
ovvero xt j = log
.
pj+1 + + pJ
1 (p1 + p2 + + pj )
Tale tale link function viene detta logit cumulato e il modello corrispondente viene
detto modello logit cumulato.
In questo modello lodds è calcolato non sulle pj ma sulle probabiltà cumulate:
p1 + + pj
oj =
1 (p1 + + pj )
e quindi gli odds ratio fra la modalità k e la modalità h della variabile esplicativa
sono:

oj (xh )
= exp (xh xk )t j
orj (xh ,xk ) =
oj (xk )
2. La link function è il logaritmo del rapporto delle probabilità delle modalità adiacenti.
pj
log
.
pj+1
3. La link function è il logaritmo del rapporto delle probabilità della modalità corrente
rispetto a tutte le successive.
pj
.
log
pj+1 + + pJ
In tutti i modelli precedenti, ma anche nel caso di link canonica, il vettore dei coefficienti delle variabili esplicative può dipendere o meno dalla modalità considerata, ad
eccezione del coefficiente costante che viene sempre considerato diverso per ogni modelità,
0j . La parte lineare del modello può quindi avere due espressioni:
(
0j + 1j x1 + + p1,j xp1
t
x=
0j + 1 x1 + + p1 xp1 .
4.10
127
Modelli log-lineari per tabella di contingenza
Osserviamo che nel caso in cui solo il coefficiente della costante dipenda da j, gli odds
ratio sono uguali per tutte le modalità della variabile risposta:
orj (xh ,xk ) = or(xh ,xk ) .
4.10
Vari sono gli approcci allo studio delle tabelle di contingenza, dallanalisi delle corrispondenze sia descrittiva che inferenziale, ai test di bontà di adattamento sotto lipotesi di indipendenza, o allapproccio pi`
u moderno basato sulla statistica algebrica. Qui
esamineremo lapproccio basato sui modelli lineari generalizzati.
Consideriamo una tabella a due entrate, con I righe e J colonne.
Il conteggio nij è considerato come realizzazione campionaria di una variabile aleatoria Nij . Analogamente i totali marginali
ni. e n.j sono considerati realizzazioni di
Ni. e N.j . Le variabili A e B sono considerate variabili esplicative qualitative e tipicamente espresse come nellanalisi della
varianza a due fattori.
1
...
A i
...
I
1
n11
...
B
j
...
J
n1J
ni1
nij
niJ
ni.
nI1
n.1
n.j
nIJ
n.J
Con i simboli normalmente usati in questo contesto, la parte lineare è quindi esprimibile come:
B
AB
xtij = + A
i + j + ij
Tale modello è saturo in quanto per ogni combinazione di livelli si ha una sola osservazione.
Le variabili aleatorie risposta vengono in genere modellate con leggi di Poisson condizionate alla somma uguale a n; sostanzialmente si tratta di un modello multinomiale. I
gradi di libertà del modello saturo sono dunque I J 1. La link function utilizzata è
quella canonica:
xtij = log (E(Nij )) = log (ij ) = log (n pij )
Se si vuol sottoporre a verifica un modello di indipendenza, allora, sotto questa ipotesi,
si ha:
i. .j
ij =
n
dove i. e .j sono rispettivamente i valori attesi di Ni. e N.j . Quindi il modello diventa:
B
log (ij ) = log n + log (i. ) + log (.j ) = + A
i + j
che, rispetto al modello saturo non comprende il termine di interazione AB

ij ; infatti sotto
AB
lipotesi di indipendenza ij dipende dai due parametri di ordine minore.
Questo tipo di modelli ha il vantaggio che può essere facilmente generalizzato a tabelle
di contingenze a pi`
u vie. Ad esempio nel caso di 3 variabili esplicative A, B e C, il modello
saturo è:
B
C
AB
AC
BC
ABC
log (ijk ) = + A
i + j + k + ij + ik + jk + ijk .
128
Si possono avere sottomodelli di indipendenza a seconda dei parametri di interazione

presenti.
- Indipendenza completa. Quindi nessun parametro di interazione.
C
B
log (ijk ) = + A
i + j + k .
- Indipendenza a tre ma non a coppie. Non compare il parametro di interazione tripla.

AB
AC
BC
C
B
log (ijk ) = + A
i + j + k + ij + ik + jk .
- Indipendenza condizionata (A B)|C. Per ogni livello k del fattore C si richiede lindipendenza fra i fattori A e B. Un esempio in ambito epidemiologico di
indipendenza condizionata potrebbe essere (malattia genere)|fumo. Il modello è:
ij k =
i.k .j k
n
quindi, per ogni k, la link function è:

B
C
AC
BC
log (ijk ) = + A
+ ik + jk .
i + j + k
e è presupposta lindipendenOsserviamo che non è presente il parametro AB

ij perch`
za.
Se oltre allindipendenza condizionata (A B)|C si volesse anche (A C)|B
allora la link function sarebbe:
B
C
BC
log (ijk ) = + A
+ jk .
i + j + k
Nei modelli precedenti non è mai presente il parametro di interazione tripla perchè
normalmente si considerano modelli gerarchici: se è presente una interazione, lo sono
anche quelle di ordine inferiore.
Le statistiche sufficienti sono i totali marginali i cui valori attesi intervengono nella
link function. Ad esempio per lindipendenza condizionata (A B)|C gli stimatori di
massima verosimiglianza dei conteggi sono:
ij k =
Ni.k N.j k
n
Per quanto riguarda i test di bontà di adattamento del modello osserviamo che la
statistica X 2 di Pearson coincide con gli usuali test di indipendenza sulle tabelle:
X2 =
X (Nijk N
ijk)2
ijk
Nijk
2[df]
dove df è il numero delle celle meno il numero di parametri liberi.

Come si è potuto vedere questo tipo di modelli sono piuttosto duttili e permettono
diverse generalizzazioni.
Altri modelli per tabelle di contingenza quadrate sono i seguenti.
4.10
129
- Quasi indipendenza. Nei casi in cui si ipotizza una forte concentrazione di valori
sulla diagonale, si può prevedere una indipendenza fuori della diagonale:
B
log (ij ) = + A
i + j + i (i = j) .
In questo modello i parametri i relativi alla diagonale sono identificati in modo

esatto (senza residui) e stimati in massima verosimiglianza da log Nii . Non sono
quindi applicabili quando sulla diagonale si ha un valore campionario uguale a 0.
Dal punto di vista operativo il modello si costruisce introducendo una nuova variabile
qualitativa che ad esempio sulla diagonale valga i e fuori valga I + 1.
Si può affinare questo modello per verificare se esite una prevalenza di realizzazioni
sopra (oppure sotto) la diagonale della tabella di contingenza.
- Simmetria. In tal caso si ipotizza pij = pji .
B
AB
log (ij ) = + A
i + j + ij
AB
B
con AB
o anche A
ij = ji
i = j .
130
Capitolo 5
Esercizi desame con soluzione
Esercizio Sia Y una variabile aleatoria discreta con densità di probabilità
fY (y; ) = y(1 log )2 (log )y1
(1,e) y Z+
1. Verificare che appartiene alla famiglia dei modelli esponenziali, indicare il parametro
canonico con il suo dominio e la statistica sufficiente canonica.
2. Calcolare valore atteso e varianza della variabile aleatoria Y , scritti in funzione di
.
3. Si considerino n variabili aleatorie indipendenti con la stessa legge di Y .
(1) Scrivere la log-verosimiglianza del modello per il campione.
1+log
(2) Calcolare lo stimatore di massima verosimiglianza V del parametro 1log
e
scriverlo in funzione della media campionaria Y . Lo stimatore V è distorto?

(3) Calcolare la varianza dello stimatore V e dire se raggiunge il limite inferiore di
Cramer-Rao.
4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n con la stessa legge di

Y , ciascuna con un diverso parametro i .
(1) Scrivere la log-verosimiglianza parametrizzata in i , valore atteso di Yi
(2) Indicare la link function canonica e la sua inversa: x0i = g(i ) = . . ., i =
g 1 (x0i ) = . . .
Soluzione:
1. La log-verosimiglianza si può scrivere come l(; y) = 2 log(1log )+(y1) log(log )
quindi parametro canonico è = log(log ), dove log (0,1) e quindi (,0).
La statistica sufficiente è Y . Inoltre () = 2 log(1 e ) + .
2. Il valore atteso e la varianza della statistica sufficiente, e quindi di Y , sono:
E(Y ) = 0 () =
2e
1 + log
+1 =
1e
1 log
131
V(Y ) = 00 () =
2e
2 log
=
2
(1 e )
(1 log )2
132
3. (1) La log-verosimiglianza
del
P modello per un n-campione è: l(; y1 , . . . ,yn ) =
n 2 log(1 e ) + yi
(2) Il parametro
1+log
1log
è E(Y ), quindi stimatore di massima verosimiglianza è
)
2 log
V = Y che è non distorto e ha varianza V(v) = V(Y
= n(1log
. La varianza
n
)2
raggiunge il limite di CR in quanto il parametro da stimare è il valore atteso
della statistica sufficiente.
.
4. (1) Si ha: log i = ii 1
+1
X
l(1 , . . . ,n ; y1 , . . . ,yn ) =
l(i ; y1 ) =

X
i 1
i 1
i 1
2 log 1
log
+ yi log
=
i + 1
i + 1
i + 1
X
i 1
i 1
2
log
+ yi log
2 log
i + 1
i + 1
i + 1

0
1+exp(x )
(2) x0i = g(i ) = log ii 1
, i = g 1 (x0i ) = 1exp(x0i )
+1
i
Esercizio
Si considerino n variabili aleatorie indipendenti Y1 , . . . ,Yn con legge normale. Si vuole
studiare la dipendenza delle variabili Yi da due fattori qualitativi A e C, ciascuno a
due livelli con un modello lineare che comprende solo i fattori principali (cioè senza
interazioni). Si consideri la parte del modello X che esplicita la dipendenza lineare dai
fattori con = (,1 ,2 ,1 ,2 ).
1. Scrivere almeno una parametrizzazione stimabile per il vettore e la corrispondente matrice X supponendo lesperimento bilanciato con due ripetizioni per ogni
combinazione di livelli.
2. Dire se il parametro + 1 è stimabile motivando la risposta.
Soluzione:
1. Una parametrizzazione stimabile è:
+ 2 + 2
1 2
1 2
1
1
1
X =
1
1
1
1
1
1
1
0
0
0
1 0
1
1
0
1
0
0
1
1
1
1
X=
1
1
1
Inoltre:
1
1
1
1
0
0
0
1 0
0
0
0
0
1
1
1
1
1
1
0
0
1
1
0
0
0
0
1
0
1
1
2. Una combinazione lineare di parametri ct è stimabile se e solo se ct appartiene

allo spazio delle righe di X (con X indicata nel punto precedente). In questo caso
ct1 = (1,1,0,0,0,0); non esiste nessuna soluzione (a,b,c,d,e) 6= (0,0,0,0,0) che risolva il
sistema lineare
a(1,1,0,1,0) + b(1,1,0,0,1) + d(1,0,1,1,0) + e(1,0,1,0,1) = (1,1,0,0,0,0).
133
Esercizio Si vogliono studiare le manifestazioni di un fenomeno in tre tempi successivi

in dipendenza da un fattore deterministico A. Si assume che le variabili risposta che modellano il fenomeno, Y1 ,Y2 ,Y3 , abbiano legge normale e che siano soddisfatte le condizioni
di un modello di misure ripetute. Lanalisi viene effettuata con il seguente programma
SAS:
proc glm data=dati;
class A;
model y1-y3= A;
repeated time 3 profile / summary printm printh printe;
run;
Commentare loutput e in particolare:

. Lanalisi della varianza per ciascuna variabile risposta
. Le correlazioni fra le variabili risposta precisando sulla base di quali dati sono
calcolate.
. Esplicitare le variabili indotte dalla matrice M (cioè dire come è formata la matrice
MY) e commentare le correlazioni fra variabili risposta MY.
. I test multivariati within subjects, precisando a che cosa si riferiscono i diversi
test.
. I test univariati within subjects, precisando se possono essere applicati a questa
situazione. ]
. I test univariati between subjects relativi alla media delle variabili risposta.
. I test univariati between subjects relativi alle variabili risposta MY.
. Commentare complessivamente i risultati dellanalisi.
The SAS System
The GLM Procedure
Class
Levels
Values
A
3
1 2 3
60
60
Dependent Variable: Y1
Source
Model
Error
Corrected Total
DF
2
57
59
R-Square
0.061480
Sum of
Squares
63.246261
965.481052
1028.727312
Coeff Var
50.04731
Mean Square
31.623130
16.938264
Root MSE
4.115612
F Value
1.87
Pr > F
0.1639
Y1 Mean
8.223443
Source
A
DF
2
Type I SS
63.24626065
Mean Square
31.62313032
F Value
1.87
Pr > F
0.1639
Source
A
DF
2
Type III SS
63.24626065
Mean Square
31.62313032
F Value
1.87
Pr > F
0.1639
134
Source
Model
Error
Corrected Total
DF
2
57
59
R-Square
0.022958
Sum of
Squares
12.8562762
547.1414813
559.9977575
Coeff Var
36.17658
Mean Square
6.4281381
9.5989734
Root MSE
3.098221
F Value
0.67
Pr > F
0.5159
Y2 Mean
8.564163
Source
A
DF
2
Type I SS
12.85627621
Mean Square
6.42813810
F Value
0.67
Pr > F
0.5159
Source
A
DF
2
Type III SS
12.85627621
Mean Square
6.42813810
F Value
0.67
Pr > F
0.5159
DF
2
57
59
Sum of
Squares
151.7549946
660.1950582
811.9500528
Mean Square
75.8774973
11.5823694
F Value
6.55
Pr > F
0.0027
Source
Model
Error
Corrected Total
R-Square
0.186902
Coeff Var
32.38663
Root MSE
3.403288
Y3 Mean
10.50831
Source
A
DF
2
Type I SS
151.7549946
Mean Square
75.8774973
F Value
6.55
Pr > F
0.0027
Source
A
DF
2
Type III SS
151.7549946
Mean Square
75.8774973
F Value
6.55
Pr > F
0.0027
Repeated Measures Analysis of Variance

Dependent Variable
Y1
Y2
Level of time
1
2
Y3
3
DF = 57
Y1
Y2
Y3
Y1
1.000000
-0.065038
-0.197224
0.6276
0.1378
Y2
-0.065038
1.000000
0.365980
0.6276
0.0047
Y3
-0.197224
0.365980
1.000000
0.1378
0.0047
time_N represents the nth successive difference in time
Y1
Y2
Y3
time_1
1.000000000
-1.000000000
0.000000000
time_2
0.000000000
1.000000000
-1.000000000
time_1
time_2
time_1
1607.16
-216.99
time_2
-216.99
767.42
135
Partial Correlation Coefficients from the Error SSCP Matrix of the

Variables Defined by the Specified Transformation / Prob > |r|
DF = 57
time_1
time_2
time_1
1.000000
-0.195388
0.1416
time_2
-0.195388
1.000000
0.1416
Sphericity Tests
Mauchlys
DF
Criterion
2
0.8415367
2
0.7644887
Variables
Transformed Variates
Orthogonal Components
Chi-Square
9.6614362
15.038688
Pr > ChiSq
0.0080
0.0005
H = Type III SSCP Matrix for time

time_1
time_2
time_1
6.965407104
39.74464728
time_2
39.74464728
226.78315335
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no time Effect
H = Type III SSCP Matrix for time
S=1
M=0
N=27
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.75398263
9.14
2
56
0.0004
Pillais Trace
0.24601737
9.14
2
56
0.0004
0.32629050
9.14
2
56
0.0004
Roys Greatest Root
0.32629050
9.14
2
56
0.0004
H = Type III SSCP Matrix for time*A
time_1
time_2
time_1
27.110869264
17.240985398
time_2
17.240985398
238.22664574
MANOVA Test Criteria and F Approximations for the Hypothesis of no time*A Effect
H = Type III SSCP Matrix for time*A
S=2
M=-0.5
N=27
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.73976124
4.55
4
112
0.0019
Pillais Trace
0.26408093
4.34
4
114
0.0027
0.34659372
4.82
4
66.174
0.0018
Roys Greatest Root
0.33089766
9.43
2
57
0.0003
Source
A
Error
DF
2
57
Type III SS
39.4718645
734.4258929
Mean Square
19.7359323
12.8846648
F Value
1.53
Pr > F
0.2249
136
Source
time
time*A
Error(time)

Adj Pr > F
DF
Type III SS
Mean Square F Value Pr > F
G - G
H - F
2
4
114
182.328805
188.385667
1438.391698
91.164403
47.096417
12.617471
Greenhouse-Geisser Epsilon
Huynh-Feldt Epsilon
7.23
3.73
0.0011
0.0068
0.0025
0.0119
0.0020
0.0103
0.8094
0.8588
Analysis of Variance of Contrast Variables

Contrast Variable: time_1
Source
Mean
A
Error
DF
1
2
57
Type III SS
6.965407
27.110869
1607.162899
Mean Square
6.965407
13.555435
28.195840
F Value
0.25
0.48
Pr > F
0.6211
0.6208
Contrast Variable: time_2

Source
Mean
A
Error
DF
1
2
57
Type III SS
226.7831534
238.2266457
767.4170936
Mean Square
226.7831534
119.1133229
13.4634578
F Value
16.84
8.85
Pr > F
0.0001
0.0005
Soluzione:
. Solo per il modello con Y3 come variabile risposta i coefficienti del fattore A sono
significativamente diversi da 0; quindi si può dire che il fattore A influenza, a livello
univariato, solo Y3
. Dal test sulla nullità delle correlazioni fra le variabili risulta che solo Y2 e Y3 risultano
significativamente correlate. Le correlazioni sono stimate a partire dalla matrice E
che contiene le stime della matrice dellerrore, quindi usando sia le variabili risposta,
che la matrice X.
. La matrice YM ha due colonne contenenti le variabili Y1 Y2 e Y2 Y3 . Queste
due variabili risultano significativamente non correlate.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui è misurata la variabile risposta. Per essere applicabili la matrice di
varianza/covarianza delle variabili risposta deve essere sferica. In questa situazione il test corrispondente porta a un rifiuto di tale ipotesi e quindi loutput dei test
univariati within subjects non sono commentabili.
. Il test multivariato within subjects per time, che verifica luguaglianza delle medie delle tre variabili risposta, porta a rifiutare lipotesi principale con tutte le statistiche test considerate; quindi il tempo influenza le risposte nelle tre
condizioni.
Analogamente per il test multivariato within subjects per time*A; in questo
caso si verifica la nullità di tutti i coefficienti relativi al fattore. Lipotesi principale
L = 0 ha come matrice L la seguente (scritta in riga) L = (0 1 0 0,0 0 1 0,0 0 0 1).
137
. Il test univariato between subjects

porta a rifiutare linfluenza del fattore A sulla
variabile risposta (Y1 + Y2 + Y3 )/ 3.
. I test univariati between subjects relativi alle variabili risposta trasformate tramite la matrice M portano a considerare che linfluenza del fattore avviene tra il
secondo e il terzo tempo.
. I test multivariati within subjects evidenziano una influenza del tempo e del fattore
A, le analisi univariate e gli ultimi test portano a concludere che linfluenza del
fattore avviene tra il secondo e il terzo tempo.
Esercizio Sia Y una variabile aleatoria definita sugli interi positivi dispari {1,3,5 . . . }
tale che:
p
(1 p)y/2
p (0,1),
P(Y = y) =
1p
2. Calcolare il valore atteso della variabile aleatoria Y , scritto in funzione di p.
(2) Calcolare lo stimatore di massima verosimiglianza V del parametro p. Lo
stimatore V è distorto? è asintoticamente non distorto?
4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n, con la stessa legge di
Y , ciascuna con un diverso parametro pi e si consideri un modello lineare generalizzato con variabili esplicative x0i per lunità sperimentale i-esima. Scrivere il modello
nella forma:
Yi = g 1 (x0i ) + i
dove g indica la link function canonica dei modelli di famiglia esponenziale.
5. Scrivere la log-verosimiglianza con parametri i e la devianza del modello
6. Un fenomeno viene studiato con il modello precedente in dipendenza da due variabili
esplicative A e B binarie con B fattore nested in A. Si consideri la parte del
modello X che esplicita la dipendenza lineare della risposta dalle esplicative A e
B. Scrivere la matrice X e il vettore per il modello sovraparametrizzato e possibili
riparametrizzazioni e/o vincoli sui coefficienti. Per semplicità considerare una sola
replica per ogni combinazione di livelli
Soluzione:
1. La log-verosimiglianza si può scrivere come l(p; y) = log p 21 log(1 p) + 12 y log(1
p) + costante quindi scegliendo come parametro = 12 log(1 p) con (,0)
si ha p = 1 e2 e la verosimiglianza
in forma canonica per i modelli esponenziali

è l(; y) = log 1 e2 + y + costante. La statistica sufficiente è Y . Inoltre
() = log 1 e2 .
138
2. Il valore atteso della statistica sufficiente, e quindi di Y , è:

E(Y ) =
d ()
2e2
1 + e2
2p
=1
=
=
2
2
d
1e
1e
p
3. (1) La log-verosimiglianza del modello per un n-campione è:

X

yi + cost.
l(; y1 , . . . ,yn ) = n log 1 e2 +
(2) Lo stimatore di massima verosimiglianza per E(Y ) è Y . Essendo E(Y ) = 2p
,
p
2
2
si ha p = E(Y )+1 e quindi: V = Y +1 . Un risultato analogo si poteva ottenere
ponendo uguale a 0 la derivata prima della log-verosimiglianza in p e verificando
che la soluzione corrisponde a un punto di massimo.
Lo stimatore V è distorto perchè Y è non distorto e, essendo
2
Y +1
una funzio`
ne convessa in Y , si ha, per la disuguaglianza di Jensen, E(V ) > E(Y2)+1 . E
asintoticamente non distorto perchè stimatore di massima verosimiglianza.
4. Si ha: i = g 1 (x0i ) =
1+e2xi
0 .
1e2xi
Quindi la forma generale del modello è:

0
Yi =
5. La link function è i =
i è:
1
2
1 + e2xi
+ i
0
1 e2xi
log ii 1
. Quindi la log-verosimiglianza parametrizzata in
+1
n
X

i 1
i 1
i 1
1
1
l(1 , . . . ,n ; y1 , . . . ,yn ) =
log 1
log
+ yi log
i + 1
2
i + 1
2
i + 1
i=1

n
1X
i 1
=
2 log 2 log(i 1)(i + 1) + yi log
2 i=1
i + 1
max la stima del valore atteso nel modello massimale e con
la
Indichiamo con
max = y e
=
stima di massima verosimiglianza nel modello corrente. Si ha:
0
1+e2xi b
dove b è la stima di massima verosimiglianza dei coefficienti delle variabili
0
1e2xi b
esplicative. La realizzazione della devianza è quindi:
max ) l())
=
d = 2(l(
n
X
i=1
n
X
i=1
(yi 1) log
log
(yi 1)(yi + 1)
(yi 1)(
i + 1)
+ yi log
=
(
i 1)(
i + 1)
(yi + 1)(
i 1)
yi 1
yi + 1
(yi + 1) log
i 1
i + 1
6. Si ha:
139
1
2
(
)
=
1
1
2 (1 )
2 (1 )
2 (2 )
1
1
X=1
1
1
1
0
0
0
0
1
1
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
Un possibile modo per rendere il modello stimabile è quello di porre i seguenti vincoli
sui coefficienti:
1 + 2 = 0
1 (1 ) + 2 (1 ) = 0
1 (2 ) + 2 (2 ) = 0
che corrisponde a:
1
1
X = 1
1
1
1
1
1
1
1
0
0
0
0
1
1
= (1 )
1
1
1 (2 )
Esercizio
Si considera un esperimento per verificare la perdita di peso nei topi in dipendenza
di tre tipi di farmaco. Il peso viene misurato dopo una settimana e dopo due settimane
dallinizio della somministrazione. Si considerano due tipi di modelli:
. Primo modello: modello multivariato
. Secondo modello: modello di misure ripetute
1. Commentare le differenze fra i due modelli e dire quale dei due si ritiene pi`
u
appropriato per questa situazione?
2. Nel primo modello vengono considerate due variabili esplicative (sesso e farmaco),
nel secondo una sola (farmaco). Nel secondo modello viene richiesta anche una
analisi univariata.
Commentare loutput e in particolare [se presenti nel modello e/o nelloutput]:
. lanalisi della varianza per ciascuna variabile risposta;
. le correlazioni fra le variabili risposta; perchè sono diverse nei due modelli che
hanno le stesse variabili risposta?
. le correlazioni fra variabili risposta trasformate tramite la matrice M;
. i test multivariati within subjects, precisando a cosa si riferisce la matrice H;
. i test univariati within subjects, precisando se possono essere applicati in
questa situazione; perche non è riporto il test di sfericità della matrice di
correlazione delle variabili risposta?
. i test univariati between subjects relativi alla media delle variabili risposta;
. commentare complessivamente i risultati dellanalisi.
3. Per il secondo modello, calcolare la stima del valore atteso delle due variabile risposta
per i tre tipi di farmaco. Alla luce del risultato quale test potrebbe essere interessante
effettuare?
140
Primo modello
PROC GLM data=drugs outstat=stats;
CLASS sex drug; MODEL Y1 Y2 = sex drug sex*drug/ ss3 nouni;
manova h=_all_/printe printh;
run;quit;
Class
Levels
Values
sex
2
F M
drug
3
A B C
Number of Observations Read 24
24
Multivariate Analysis of Variance

Y1
Y2
Y1
94.5
76.5
Y2
76.5
114
DF = 18
Y1
Y2
Y1
1.000000
0.737043
0.0003
Y2
0.737043
1.000000
0.0003
H = Type III SSCP Matrix for sex
Y1
Y2
Y1
0.6666666667
0.6666666667
Y2
0.6666666667
0.6666666667
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall sex Effect
H = Type III SSCP Matrix for sex
S=1
M=0
N=7.5
Statistic
Wilks Lambda
Pillais Trace
Roys Greatest Root
Value
0.99253694
0.00746306
0.00751918
0.00751918
F Value
0.06
0.06
0.06
0.06
Num DF
2
2
2
2
Den DF
17
17
17
17
Pr > F
0.9383
0.9383
0.9383
0.9383
H = Type III SSCP Matrix for drug

Y1
Y2
Y1
301
97.5
Y2
97.5
36.333333333
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall drug Effect
H = Type III SSCP Matrix for drug
S=2
Statistic
Wilks Lambda
Pillais Trace
Roys Greatest Root
NOTE: F Statistic for Roys
M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.16862952
12.20
4
34
<.0001
0.88037810
7.08
4
36
0.0003
4.63953666
19.40
4
19.407
<.0001
4.57602675
41.18
2
18
<.0001
Greatest Root is an upper bound, for Wilks Lambda is exact.
141
H = Type III SSCP Matrix for sex*drug

Y1
Y2
Y1
14.333333333
21.333333333
Y2
21.333333333
32.333333333
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall sex*drug Effect
H = Type III SSCP Matrix for sex*drug
S=2
Statistic
Wilks Lambda
Pillais Trace
Roys Greatest Root
NOTE: F Statistic for Roys
M=-0.5
N=7.5
Value
F Value
Num DF
Den DF
Pr > F
0.77436234
1.16
4
34
0.3459
0.22694905
1.15
4
36
0.3481
0.28969161
1.21
4
19.407
0.3381
0.28372273
2.55
2
18
0.1056
Greatest Root is an upper bound, for Wilks Lambda is exact.
Secondo modello
PROC GLM data=drugs;
CLASS drug; MODEL Y1 Y2 = drug / ss3 solution;
repeated tempo 2 /printe printh printm;
run;quit;
Week1
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
21
109.5000000
5.2142857
23
410.5000000
Coeff Var
Root MSE
Y1 Mean
23.42032
2.283481
9.750000
DF
Type III SS
Mean Square
F Value
Pr > F
2
301.0000000
150.5000000
28.86
<.0001
Standard
Estimate
Error
t Value
Pr > |t|
14.75000000 B
0.80733247
18.27
<.0001
-7.75000000 B
1.14174053
-6.79
<.0001
-7.25000000 B
1.14174053
-6.35
<.0001
0.00000000 B
.
.
.
Source
Model
Error
Corrected Total
R-Square
0.733252
Source
drug
Parameter
Intercept
drug
A
drug
B
drug
C
Week2
Sum of
DF
Squares
Mean Square
F Value
Pr > F
2
36.3333333
18.1666667
2.60
0.0984
21
147.0000000
7.0000000
23
183.3333333
Coeff Var
Root MSE
Y2 Mean
30.52790
2.645751
8.666667
DF
Type III SS
Mean Square
F Value
Pr > F
2
36.33333333
18.16666667
2.60
0.0984
Standard
Estimate
Error
t Value
Pr > |t|
10.25000000 B
0.93541435
10.96
<.0001
-3.00000000 B
1.32287566
-2.27
0.0340
Source
Model
Error
Corrected Total
R-Square
0.198182
Source
drug
Parameter
Intercept
drug
A
142
drug
B
-1.75000000 B
1.32287566
-1.32
0.2001
drug
C
0.00000000 B
.
.
.
Repeated Measures Analysis of Variance
Dependent Variable
Y1
Y2
Level of tempo
1
2
DF = 21
Y1
Y2
Y1
1.000000
0.776373
<.0001
Y2
0.776373
1.000000
<.0001
tempo_N represents the contrast between the nth level of tempo and the last
Y1
Y2
tempo_1
1.000000000
-1.000000000
tempo_1
tempo_1
59.5
tempo_1
tempo_1
28.166666667
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo Effect
S=1
M=-0.5
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.67870722
9.94
1
21
0.0048
Pillais Trace
0.32129278
9.94
1
21
0.0048
0.47338936
9.94
1
21
0.0048
Roys Greatest Root
0.47338936
9.94
1
21
0.0048
H = Type III SSCP Matrix for tempo*drug
tempo_1
tempo_1
142.33333333
MANOVA Test Criteria and Exact F Statistics for the Hypothesis of no tempo*drug Effect
H = Type III SSCP Matrix for tempo*drug
S=1
M=0
N=9.5
Statistic
Value
F Value
Num DF
Den DF
Pr > F
Wilks Lambda
0.29479769
25.12
2
21
<.0001
Pillais Trace
0.70520231
25.12
2
21
<.0001
2.39215686
25.12
2
21
<.0001
Roys Greatest Root
2.39215686
25.12
2
21
<.0001
143

DF
Type III SS
Mean Square
F Value
Source
drug
Error
2
21
266.1666667
226.7500000
133.0833333
10.7976190
Pr > F
12.33
0.0003

Source
DF
Type III SS
Mean Square
F Value
tempo
1
14.08333333
14.08333333
9.94
tempo*drug
2
71.16666667
35.58333333
25.12
Error(tempo)
21
29.75000000
1.41666667
Pr > F
0.0048
<.0001
Soluzione:
1. Questa situazione corrisponde a un modello di misure ripetute quindi è pi`
u appropriato il secondo modello in cui vengono fatti anche i test between subjects. Avendo però solo due variabili risposta anche il primo modello può essere di
interesse.
2. Commento delloutput.
Primo modello.
. La matrice E contiene le stime della covarianza dei residui (a meno di una
costante):
E = (Y XB)t (Y XB) = Yt PV Y
La corrispondente matrice di correlazione e il p-value del test di non correlazione
evidenziano che le due variabili risposta sono significativamente correlate fra
loro.
. Le matrici H dei test multivariati corrispondono a Yt PV \V0 Y. Le ipotesi dei
tre test sono rispettivamente: nullità dei coefficienti corrispondenti a sex,
a drug e a sex*drug. Le statistiche riportate si basano sugli autovalori
delle matrici E1 H. Risulta che solamente il tipo di farmaco è da considerarsi
statisticamente significativo.
Secondo modello.
. Lanalisi univariata evidenzia che la variabile risposta misurata dopo una settimana risente statisticamente del tipo di farmaco, mentre misurata dopo due settimane no. Questo si deduce sia dal test di nullità contemporanea dei coefficienti
della variabile esplicativa sia dallindice R-sq.
Le stime dei coefficienti riportate riguardano il vettore ( + C ,A C ,B C )t .
In particolare per la variabile Week 2 il coefficiente B C risulta significativamente nullo, quindi sembra non ci siano differenze fra leffetto del farmaco
B e quello del farmaco C dopo due settimane.
. La matrice di correlazione parziale delle variabili risposta risulta diversa da
quella del primo modello in quanto i due modelli hanno variabili esplicative
diverse; la correlazione parziale è calcolata usando i residui, quindi anche le
variabili esplicative.
144
. I successivi test multivariati within subjects sono calcolati sulle variabili trasformate tramite la matrice M. Avendo solo due variabili esplicative, si ha
una sola variabile trasformata. Quindi le matrici E e H hanno un solo elemento. Il test within subjects per tempo, che verifica luguaglianza delle
medie delle due variabili risposta, porta a rifiutare lipotesi principale; quindi
il tempo influenza le risposte. Analogamente per il test per tempo*drug;
in questo caso viene verificata la nullità di tutti i coefficienti relativi al fattore.
Lipotesi principale L = 0 ha come matrice L la seguente (scritta in riga)
L = (0 1 0 0,0 0 1 0,0 0 0 1).
. Anche il test univariato between subjects porta a rifiutare la nullità dei coef
ficienti relativi al fattore drug sulla variabile risposta (W eek1 + W eek2)/ 2,
quindi a considerare il tipo di farmaco influente sulla media delle variabili
risposta.
. I test univariati within subjects considerano come variabile esplicativa la condizione in cui è misurata la variabile risposta (il tempo in questo caso). Per
essere applicabili la matrice di varianza/covarianza delle variabili risposta deve
essere sferica. Però, avendo solo due variabili risposta, non ha significato parlare di sfericità della matrice di covarianza della variabili trasformate. I test,
che sono da utilizzare con cautela, comunque portano alle stesse conclusioni del
test multivariati.
. I test univariati between subjects per le variabili trasformate non sono presenti perche in questo caso (due sole variabili risposta) corrisponde al test
multivariato within subjects.
Commento generale. Il sesso non influisce sulle variabili risposta, mentre il tipo
di farmaco somministrato si, anche se in modo diverso sulle due risposte. Sia nel
primo modello che nel secondo i test multivariati within subjects evidenziano una
influenza del tempo e del tipo di farmaco. Analoghe conclusioni si possono trarre
per i test univariati relativi alla media delle risposte.
3. Si ha:
1 = (14. 750 7. 75,14. 75 7. 25,14. 75)t = (7. 00,7. 50,14. 75)t
2 = (10. 25 3. 00,10. 25 1. 75,10. 25)t = (7. 25,8. 50,10. 25)t
Potrebbe essere interessante, per ciascuna variabile risposta, effettuare il test di

uguaglianza fra il valore atteso corrispondente al primo farmaco e quello corrispondente al secondo; basterebbe prendere come livello di riferimento il primo o il secondo
invece del terzo.

,1
tale che:
Esercizio Sia Y una variabile aleatoria definita su 0, k1 , k2 , . . . , k1
k

k
P(Y = y) =
ky (1 + )k
R+ , k noto ,k Z+
ky
2. Calcolare il valore atteso della variabile aleatoria Y , scritto in funzione di .
145

(2) Indicare lo stimatore di massima verosimiglianza di E(Y ) e calcolare lo stimatore
di massima verosimiglianza V del parametro . Lo stimatore V è distorto? è
asintoticamente non distorto?
(3) Calcolare la varianza asintotica dello stimatore V e dire qual è la legge asintotica
di V . [Suggerimento per il calcolo dellinformazione di Fisher utilizzare la logverosimiglianza scritta in funzione di ].
4. Si considerino n variabili aleatorie indipendenti Yi , i = 1 . . . ,n, con la stessa legge
di Y , ciascuna con un diverso parametro i . Indicare la link function canonica e la
sua inversa: x0i = g(i ) = . . ., i = g 1 (x0i ) = . . ..
5. Un fenomeno viene studiato con il modello precedente, con n = 24 e k = 20.
Si ottengono i seguenti risultati. Dopo aver verificato che il modello è adeguato,
completare loutput relativo alla prima combinazione di livelli. Indicare i calcoli
fatti. [Si utilizzi il fatto che: V(Yi ) = k1 i (1 i ).]
Model Information
Data Set
WORK.DATI
Distribution
User
Link Function
User
Dependent Variable
y
24
24

Class
Levels
Values
a
2
0 1
b
2
0 1
Criterion
DF
Value
Deviance
21
15.7875
Scaled Deviance
21
15.7875
Pearson Chi-Square
21
15.8145
Scaled Pearson X2
21
15.8145
Log Likelihood
-7.8937
Value/DF
0.7518
0.7518
0.7531
0.7531

Standard
Wald 95\% Confidence
ChiParameter
DF
Estimate
Error
Limits
Square Pr > ChiSq
Intercept
1
45.1007
5.2212
34.8674
55.3340
74.62
<.0001
a
0
1
-15.8942
5.6964
-27.0589
-4.7294
7.79
0.0053
a
1
0
0.0000
0.0000
0.0000
0.0000
.
.
b
0
1
-78.0307
5.7085
-89.2192
-66.8421 186.84
<.0001
b
1
0
0.0000
0.0000
0.0000
0.0000
.
.
Scale
0
1.0000
0.0000
1.0000
1.0000
146
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
y
0.1
0.1
0.1
0.05
0.05
0.05
0.7
0.75
0.9
0.9
0.8
0.85
0.15
0.05
0.1
0.2
0.2
0.3
0.95
0.85
0.95
0.95
0.9
0.8
a
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
b
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
1
Pred
.........
0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.8115827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.1615827
0.905084
0.905084
0.905084
0.905084
0.905084
0.905084
Xbeta
Std
HessWgt
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646 .........
-48.82414 5.4362646
-48.82414 5.4362646
-48.82414 5.4362646
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
29.206543 4.2609761 0.0076458
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
-32.92998 4.4681274 0.0067737
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
45.100701 5.2211544 0.0042953
Lower
Upper
.........
.........
0.739382
0.739382
0.739382
0.739382
0.739382
0.739382
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.1106255
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148
0.8511148
0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.8673692
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.2299435
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495
0.9408495
Soluzione:
1. La log-verosimiglianza si può scrivere come l(; y) ky log k log(1 + ) quindi
parametro canonico è = k log con R. La statistica sufficiente è Y . Inoltre
() = k log(1 + e/k ).
2. Il valore atteso della statistica sufficiente, e quindi di Y , è:
E(Y ) = 0 () = k
e/k /k
e/k
=
=
/k
/k
1+e
1+e
1+
3. (1) La log-verosimiglianza
P del modello per un n-campione è: l(; y1 , . . . ,yn )
/k
nk log(1 + e ) + yi
(2) Lo stimatore di massima verosimiglianza per E(Y ) è Y . Essendo =
ha: V =
E(Y )
,
1E(Y )
si
Y
1Y
` asintoticamente non distorto

Lo stimatore è distorto perchè Y è non distorto. E
perchè stimatore di massima verosimiglianza.
(3) La varianza asintotica di V è linverso dellinformazione di Fisher calcolata in
.
2

)
Si ha: I = E d l(;Y
d2
X 1
dl()
1
=k
Yi nk
d
1+
X 1
dl()2
1
=
k
Yi 2 + nk
2
d
(1 + )2
147
Da cui:

I = E
d2 l(; Y )
d2

=
nk
(1 + )2
i
4. x0i = g(i ) = k log 1
e i = g 1 (x0i ) =
i
V(V ) =
exp(x0i /k)
1+exp(x0i /k))
(1 + )2
nk
1
1+exp(x0i /k)
1
1
5. Nella colonna Pred è scritta la stima di i ; quindi:
1 = 1+exp(x
0 /k) = 1+exp(48.82414/20) =
i
0. 0801.
Nella colonna HessWgt è scritta la stima di wii ; in caso di link function canonica
del modello esponenziale questa è uguale alla stima della varianza di Yi . Quindi:
1
1 (1
1 ) = 0. 00368.
w11 = 20
Nelle colonne Lower e Upper sono scritte le realizzazioni dellintervallo di confidenza
asintotico per i a livello del 95%. Si possono calcolare a partire dalla realizzazione
dellintervallo di confidenza per xti :

xt1 b 1. 96 std(xti B),xt1 b + 1. 96 std(xt1 B) =
(48. 824141. 965. 4362646,48. 82414+1. 965. 4362646) = (59. 4792,38. 1691)
e applicando ai limiti la link function inversa, ottenendo:

1
1
,
= (0. 0486,0. 129)
1 + exp(59. 4792/20) 1 + exp(38. 1691/20)
Loutput SA è infatti
Obs
1
y
0.1
a
0
b
0
Pred
0.080084
Xbeta
-48.82414
Std
5.4362646
HessWgt
0.0036835
Lower
0.0486167
Upper
0.1291537
148
Bibliografia
R
c
[1] AA. VV., Minitab
, StatGuide, Copyright 2000-2006
Minitab Inc.

R
c
[2] AA. VV., SAS , Help and documentation, Copyright 2002-2003
by SAS Institute
Inc., Cary, NC, USA.
[3] Adelchi Azzalini, Statistical inference, Monographs on Statistics and Applied
Probability, vol. 68, Chapman & Hall, London, 1996.
[4] Margherita Coppola, Modelli lineari generali: teoria classica e bootstrap, Tesi di
laurea, Dipartimento di Matematica Università di Genova, 1997, Relatore: Rogantin,
M. P.
[5] D. R. Cox and D. V. Hinkley, Theoretical statistics, Chapman and Hall, London,
1974.
[6] Didier Dacunha-Castelle and Marie Duflo, Probabilites et statistiques. Tome 1, Collection Mathematiques Appliquees pour la Matrise. Masson, Paris, 1982, Problèmes
a` temps fixe..
[7] Lilla Di Scala, Analisi della varianza: aspetti teorici e modelli mixed con misure
ripetute, Tesi di laurea, Dipartimento di Matematica Università di Genova, 1998,
Relatore: Rogantin, M. P.
[8] Annette J. Dobson, An introduction to generalized linear models, second ed., Chapman & Hall/CRC Texts in Statistical Science Series, Chapman & Hall/CRC, Boca
Raton, FL, 2002.
[9] Ludovic Lebart, Alain Morineau, and M. Piron, Statistique exploratoire
multidimensionelle, second ed., Dunod, Piron, 1997.
[10] Kantilal Varichand Mardia, John T. Kent, and John M. Bibby, Multivariate analysis,
Academic Press, London, 1979, Probability and Mathematical Statistics: A Series
of Monographs and Textbooks.
[11] P. McCullagh and J. A. Nelder, Generalized linear models, Monographs on Statistics
and Applied Probability, Chapman & Hall, London, 1983.
[12] Donald F. Morrison, Multivariate statistical methods, second ed., McGraw-Hill Book
Co., New York, 1976, McGraw-Hill Series in Probability and Statistics.
[13] Marcella Oliveri, Modelli di analisi della sopravvivenza, Tesi di laurea, Dipartimento
di Matematica Università di Genova, 1998, Relatore: Rogantin, M. P.
149
150
Bibliografia
[14] B. L. Raktoe, A. Hedayat, and Walter Theodore Federer, Factorial designs, Wiley
Series in Probability and Mathematical Statistics, John Wiley & Sons Inc., New
York, 1981.
[15] Fabio Rapallo and Maria Piera Rogantin, Statistica descrittiva multivariata, second
ed., CLUT, Torino, 2003.
[16] Maria Piera Rogantin, Introduzione alla statistica, second ed., CLUT, Torino, 2003.
[17] Henry Scheffe, The analysis of variance, Wiley Classics Library, John Wiley &
Sons Inc., New York, 1999, Reprint of the 1959 original, A Wiley Publication in
Mathematical Statistics.
[18] Shayle R. Searle, Linear models for unbalanced data, Wiley Series in Probability and
Mathematical Statistics: Applied Probability and Statistics, John Wiley & Sons Inc.,
New York, 1987.

Stat Mat

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Stat Mat

Caricato da

Copyright:

Formati disponibili

Maria Piera Rogantin

2 Analisi della varianza

Decomposizione della varianza per gli esperimenti bilanciati . . .

3 Modelli lineari generali

4 Modelli lineari generalizzati

5 Esercizi desame con soluzione

eventualmente esplicitata dopo una trasformazione dei dati; ad esempio:

log y = log 0 + 1 log x1 + 2 log x2 + log(1 + )

In seguito le colonne della matrice X e il vettore y potranno anche essere trasformazioni

(yi 0 1 xi1 2 xi2 p1 xi

La notazione SS sta per Sum of Squares.

Interpretazione vettoriale nello spazio delle osservazioni

Minimizzazione dellerrore di approssimazione

Caso della regressione semplice

Le derivate parziali di SS (0 ,1 ) in 0 e 1 uguagliate a 0 sono:

Se indichiamo con b0 e b1 le soluzioni di tale sistema si ottiene: b0 = y b1 x e

Quindi le soluzioni cercate, se x non `e costante, sono:

Le soluzioni del sistema delle derivate prime uguagliate a 0 corrispondono a un minimo

Queste vengono dette equazioni normali.

Interpretazione vettoriale nello spazio delle variabili

Nel caso in cui le variabili esplicative siano pi`

Proiettore sullo spazio generato dalle colonne di X

Il proiettore di un vettore di Rn su V `e:

Decomposizione della varianza e indice R2

Esaminiamo la tabella Analysis of Variance. Le righe corrispondono ai vettori:

Linterpretazione geometrica `e la seguente:

La regressione lineare multivariata

Il grafico dei residui

Se la dipendenza della variabile risposta dalle variabili esplicative non `e lineare ma `e

Modello 4: log(y) = 0 + 1 log(x) +

La regressione lineare su un campione

Condizioni su media e varianza dei residui

dove 0n è un vettore di dimensione n con tutti 0 e In è la matrice identità di dimensione

e V(Yi ) = 2 , cov(Yi ,Yj ) = 0 se i 6= j

La regressione lineare su un campione

2. Matrice di varianza covarianza degli stimatori Y dei valori attesi di Y . Si ha:

Stimatori non distorti delle matrici di varianza/covarianza precedenti si ottengono

La regressione lineare su un campione

Nella tabella Parameter Estimates sono indicate le stime bk dei parametri k ,

Residui con legge normale

va aggiunta lipotesi che ciascun i abbia legge normale N (0,).

i vettori della nuova base ortonormale di Rn , allora il vettore aleatorio Ht X ha legge

ii) I vettori aleatori XE1 , . . . ,XEs sono indipendenti.

Htj = Hj Htj . Si ha:

i) Il valore atteso e la matrice di varianza covarianza di XEj sono:

La regressione lineare su un campione

Applicazione al modello lineare: legge degli stimatori dei parametri

. I sottospazi ortogonali sono V e V di dimensioni

. La proiezione di su V `e il vettore E per cui la variabile aleatoria

Indichiamo come sopra con Sk lo stimatore della standard deviation di Bk e ricordiamo

Intervalli di confidenza per k e (xi )t . Residui standardizzati

Il risultato precedente ci permette di costruire intervalli di confidenza per i parametri k ,

2. Valori attesi delle variabili risposta (xi )t

let`a del soggetto (eta),

Il programma SAS `e il seguente.

Le opzioni corrb clb clm p r permettono di ottenere rispettivamente le stime delle

La regressione lineare su un campione

95% Confidence Limits

Dep Var Predicted

Std Error Student

Test di ipotesi per il modello lineare

La regressione lineare su un campione

ci permette di effettuare il seguente test:

Se lipotesi H0 `e vera, allora la variabile Tk = BSkk ha legge t di Student a n p gradi