Sei sulla pagina 1di 34

Captulo 3: Modelos Lineares Generalizados

MLGs (cont.)

Os Modelos Lineares Generalizados (MLGSs ou GLMs com a ordem


inglesa)
so uma famlia muito vasta de modelos;

A generalizao dos MLGs incide essencialmente sobre dois aspectos


fundamentais:

generalizam o Modelo Linear;


o chapu de chuva comum dos MLGs foi introduzido e
formalizado por McCullagh e Nelder (1989);
mas englobando muitos modelos j conhecidos e que, nalguns
casos, eram utilizados h largas dcadas, entre eles:

a relao entre a combinao linear das variveis preditoras e a


varivel-resposta pode ser mais geral do que no Modelo Linear.

modelo probit
modelo logit
modelos log-lineares
o prprio modelo linear.

J. Cadima (DM/ISA)

a distribuio de probabilidades associada varivel-resposta


aleatria Y j no se restringe Normal, podendo ser qualquer
distribuio numa classe designada famlia exponencial de
distribuies;

Modelao Estatstica II

2010-11

204 / 406

As trs componentes dum MLG

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

205 / 406

As trs componentes dum MLG (cont.)


2) Componente Sistemtica: Consiste numa combinao linear de
variveis preditoras.

Na definio de McCullagh e Nelder (1989), um Modelo Linear


Generalizado assenta sobre trs componentes fundamentais:
1) Componente aleatria: A varivel-resposta Y que se quer modelar,
tratando-se duma:

Havendo p variveis preditoras e n observaes:

0 + 1 x1(i) + 2 x2(i) + 3 x3(i) + ... + p xp(i)

i {1, ..., n} .

varivel aleatria;
da qual se recolhem n observaes independentes; e

Pode simplificar-se a notao construindo a matriz do modelo Xn(p+1)


de forma idntica ao Modelo Linear: uma primeira coluna de uns
(associada constante aditiva) e p colunas adicionais dadas pelas
observaes de cada varivel preditora.

cuja distribuio de probabilidades faz parte da famlia


exponencial de distribuies (definida mais adiante);

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

206 / 406

As trs componentes dum MLG (cont.)

X=

1
1
1
..
.
1

x1(1)
x1(2)
x1(3)
..
.
x1(n)

x2(1)
x2(2)
x2(3)
..
.
x2(n)

..
.

xp(1)
xp(2)
xp(3)
..
.
xp(n)

2010-11

207 / 406

3) Funo de ligao: uma funo diferencivel e montona g que


associa as componentes aleatria e sistemtica, atravs duma
relao da forma:

g( ) = g(E [Y]) = X

g(i ) = g(E [Yi ]) = xti = 0 + j xj(i)


j=

( i = 1 : n)
onde:

= X ,
sendo = (0 , 1 , 2 , ..., p ) o vector de coeficientes nas n
combinaes lineares (afins) das variveis preditoras definidas pelas n
observaes:

Modelao Estatstica II

Modelao Estatstica II

As trs componentes dum MLG (cont.)

Nesse caso, a componente sistemtica do modelo dada por:

J. Cadima (DM/ISA)

J. Cadima (DM/ISA)

2010-11

208 / 406

Y o vector com as n observaes {Yi }ni=1 .


= E [Y] = (1 , 2 , ..., n )t o vector de valores esperados das n
observaes de Y ;
xi a i-sima linha da matriz X (enquanto vector-coluna), isto , o
conjunto de valores das variveis preditoras para os quais se
efectuou a i-sima observao da varivel-resposta.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

209 / 406

As trs componentes dum MLG (cont.)

MLGs (cont.)

Caso a funo g seja invertvel (o que sucede se a monotonia acima


exigida fr estrita), pode escrever-se:

Ou seja, e nas palavras de Agresti (1990, p.81):

g( ) = g(E [Y]) = X
g(i ) =

xti

j xj(i)

= E [Y] = g 1 (X )
i = g

xti

= g

j=0

J. Cadima (DM/ISA)

j xj(i)

j=0

Modelao Estatstica II

2010-11

um MLG um modelo linear para uma transformao da


esperana duma varivel aleatria cuja distribuio pertence
famlia exponencial.

210 / 406

A famlia exponencial de distribuies

Nota: ao contrrio do Modelo Linear, aqui no so explicitados erros


aleatrios aditivos. A flutuao aleatria da varivel-resposta dada
directamente pela sua distribuio de probabilidades.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

211 / 406

A famlia exponencial (cont.)

A famlia exponencial de distribuies apresentada aqui na forma


bi-paramtrica usada por McCullagh & Nelder (1989).
Seja Y uma varivel aleatria, cuja funo densidade ou de massa
probabilstica se pode escrever na forma:
f ( y | , )

O parmetro designa-se o parmetro natural da distribuio, e


designado o parmetro de disperso.
Admite-se que as funes que definem esta relao so o
suficientemente bem comportadas para que seja possvel efectuar as
operaes que seguidamente se estudaro.

y b( )
+c(y , )
a( )

onde
A famlia exponencial de distribuies vasta e inclui algumas das
mais importantes e conhecidas distribuies, contnuas e discretas.

e so parmetros (escalares reais); e


a(), b() e c() so funes reais conhecidas.
Ento diz-se que a distribuio de Y pertence famlia exponencial de
distribuies.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

212 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

213 / 406

A Normal

A Poisson

A famlia exponencial inclui a distribuio Normal:

Recorde-se que uma varivel aleatria discreta tem distribuio de


Poisson se toma valores em N0 com funo de massa probabilstica

y
2
1 y 2
1
f (y| , ) = e 2 ( ) = e 2
2

+ln

1
2

P[Y = k] =

y2
2 2

Para os valores y {0, 1, 2, ...}, podemos escrever a funo de massa


probabilstica duma Poisson como:

da forma indicada, com:


=

f (y| ) = e

= 2

b( ) =

2
2

k
e .
k!

2
2

y
= e +y ln( )ln(y !)
y!

que da famlia exponencial com:


= ln( )

a( ) = = 2




2
2
c(y , ) = ln 1
2y = ln 12 2y 2

=1
b( ) = e =

a( ) = 1
c(y , ) = ln(y !)
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

214 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

215 / 406

A Bernoulli

A Binomial

A varivel aleatria dicotmica ou seja, binria Y diz-se de


Bernoulli com parmetro p, se toma valor 1 com probabilidade p e
valor 0 com probabilidade 1 p.

A Binomial no pertence famlia de distribuies exponenciais.


Mas se X B(n, p), ento Y = n1 X pertence famlia exponencial.
Tem-se P[Y = y] = P[X = ny]. A funo de massa probabilstica de Y
pode escrever-se da seguinte forma, para y F = {0, n1 , n2 , ..., 1}:

Para os valores y = 0 ou y = 1, a funo de massa probabilstica


duma Bernoulli pode escrever-se como:
f (y|p) = p y (1 p)1y = eln(1p)+y ln(

p
1p


f (y|p) =

p

+ln(1p)
y ln(
1p )
n
+ln[(ny
)]
n
1
n
p ny (1 p)n(1y ) = e
ny

que da familia exponencial com:


que da familia exponencial com:
= ln

p
1p

= ln

=1

p
1p

1
n


b( ) = ln 1 + e = ln(1 p)


b( ) = ln 1 + e = ln(1 p)

a( ) = =

a( ) = 1

c(y , ) = ln

c(y , ) = 0
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

216 / 406

1
n

n
ny

J. Cadima (DM/ISA)

Modelao Estatstica II

A Gama

Funes de ligao

Uma varivel aleatria Y tem distribuio Gama com parmetros e


se toma valores em R+ , com funo densidade da forma

A mais simples a ligao identidade: g( ) = .


Essa a funo ligao utilizada no Modelo Linear.

y 1 e = e
f (y | , ) =
( )

( 1 )y +ln( 1 ) + ln ln( )+( 1)ln y


1

que da familia exponencial com:


= 1
=

b( ) = ln
a( ) = =

 
1

217 / 406

As mais importantes funes de ligao tornam, para cada


distribuio da famlia exponencial, o valor esperado da
varivel-resposta igual ao parmetro natural, .
Num Modelo Linear Generalizado, a funo g() diz-se uma funo de
ligao cannica para a varivel-resposta Y , se g(E [Y ]) = .

= ln ( )

Existe uma funo de ligao cannica associada a cada distribuio


da varivel-resposta.

c(y , ) = ln ln ( ) + ( 1) ln y

As funes de ligao cannica so teis porque simplificam de forma


assinalvel o estudo do Modelo. A ligao cannica representa de
alguma forma uma funo de ligao natural para o respectivo tipo
de distribuio da varivel-resposta.

A famlia das distribuies Gama inclui como caso particular a


distribuio Qui-quadrado (n2 se = n2 e = n) e tambm a
distribuio Exponencial ( = 1).
J. Cadima (DM/ISA)

2010-11

Modelao Estatstica II

2010-11

218 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

219 / 406

O Modelo Linear como um MLG

MLGs para variveis resposta dicotmicas

Eis alguns exemplos de MLGs:

Considere-se um Modelo com varivel resposta dicotmica (binria),


i.e., que apenas toma dois possveis valores: 0 e 1, e cuja distribuio
Bernoulli, com probabilidades p (para 1) e 1p (para 0).

1) O Modelo Linear.
O Modelo Linear um caso particular de MLG, em que:

Admite-se que o parmetro p varia nas n observaes de Y , e o valor


esperado da i-sima observao de Y dado por:

cada uma das n observaes da varivel-resposta Y tem


distribuio Normal, com varincia constante 2 ;

E [Yi ] = 1 pi + 0 (1 pi ) = pi

a funo de ligao a funo identidade.

Uma funo de ligao vai relacionar este valor esperado pi da


varivel-resposta com uma combinao linear dos preditores:

g(p(x)) = xt

p(x) = g 1 xt .

A funo de ligao identidade a ligao cannica para a


distribuio Normal.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

220 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

221 / 406

A Regresso Logstica

A Regresso Logstica (cont.)

2) A Regresso Logstica.
A funo de ligao cannica transforma
p no parmetro natural da

p
. Logo, a funo de ligao
distribuio Bernoulli: = ln 1p
cannica para variveis resposta de Bernoulli a funo logit:


p
g(p) = ln
1p
Com estas opes, o MLG conhecido por Regresso Logstica.
A funo de ligao logit o logaritmo do quociente entre a
probabilidade de Y tomar o valor 1 (xito) e a probabilidade de tomar
o valor 0 (fracasso). Esse quociente conhecido na literatura
anglo-saxnica por odds ratio.

Consideramos que os logits dos valores esperados pi so


combinaes lineares das variveis preditoras X0 , X1 , ..., Xp .
Concretamente, dado um conjunto x de observaes nas variveis
preditoras, tem-se:


p
g(p) = ln
= xt
1p
Logo, a relao entre o valor esperado de Yi (a probabilidade de xito
de Y ) e o vector de valores das variveis preditoras, xi , :
p(xti ) = g 1 xti

1
t
1 + exi

habitual designar a funo de ligao logit como um log-odds ratio.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

222 / 406

A Regresso Logstica (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

223 / 406

A Regresso Logstica (cont.)

No caso duma nica varivel preditora quantitativa, fica uma curva


logstica, que origina o nome Regresso Logstica.
p(x) = g

(0 + 1 x)

Nota: Trocando os acontecimentos que do varivel aleatria Y os


valores 0 e 1, uma funo decrescente para p = P[Y = 1] pode
transforma-se numa funo crescente.

1 + e(0 +1 x)

1.0

Ainda no caso de haver uma nica varivel preditora quantitativa, o


parmetro 1 tem a seguinte interpretao: como
0.6
0.4
0.2

y=f(x)

0.8

p(x)
1 p(x)
2

e0 e1 x

cada aumento de uma unidade na varivel preditora X traduz-se num


efeito multiplicativo sobre o odds ratio, de e1 .

0.0
4

uma funo crescente, caso 1 > 0, e decrescente caso 1 < 0.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

224 / 406

A Regresso Logstica (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

225 / 406

A Regresso Logstica (cont.)

No caso mais geral de vrios preditores, a relao significa que a


probabilidade da varivel-resposta tomar o valor 1 (o seu valor
esperado) descreve uma relao logstica como funo dos valores da
combinao linear das variveis preditoras, = xt .

Caso a varivel preditora X seja uma varivel indicatriz (associada a


um factor preditor), 1 indica o incremento no log-odds ratio resultante
de a observao em questo pertencer categoria de que X
varivel indicatriz.
A funo logstica tem boas propriedades para representar uma
probabilidade: para qualquer valor da componente sistemtica, toma
valores entre 0 e 1.

Assim, a funo de ligao logit gera uma relao logstica para a


probabilidade de xito p, como funo dos valores da combinao
linear das variveis preditoras.
As interpretaes dos coeficientes j generalizam-se quando h mais
do que uma varivel preditora quantitativa: um aumento de uma
unidade na varivel preditora j (mantendo as restantes constantes)
traduz-se numa multiplicao do odds ratio por um factor ej .

O mesmo no acontece com uma relao linear


p(xt ) = xt =

j xj ,

j=0

que pode tomar valores em toda a recta real R.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

226 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

227 / 406

A Regresso Logstica (cont.)

A Regresso Probit

O modelo de regresso logstica uma opo a considerar sempre


que a varivel-resposta Y assinala qual de duas categorias de
classificao se verifica e se pretende relacionar probabilidade do
acontecimento associado ao valor 1 com um conjunto de variveis
preditoras.
A funo logstica revela rigidez estrutural (como se viu no Captulo 2),
com um ponto de inflexo associado probabilidade p = 0.5.
A relao g pode ser substituda por outras funes de
comportamento anlogo, embora nesse caso j no se trate de
funes de ligao cannicas para uma distribuio Bernoulli. Nesse
caso, j no se fala em regresso logstica.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

228 / 406

A Regresso Probit (cont.)

3) A Regresso Probit
Outro exemplo de MLG o modelo probit de Bliss (1935), muito
frequente em Toxicologia.
Tal como na Regresso Logstica, tem-se:
varivel resposta dictmica (com distribuio Bernoulli).
componente sistemtica, dada por combinao linear de variveis
preditoras.
Diferente da Regresso Logstica a funo de ligao.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

A Regresso Probit (cont.)


No caso de haver uma nica varivel preditora, tem-se:

Na Regresso Logstica, a funo de ligao exprime p como uma


funo logstica da componente sistemtica xt .
Aqui, escolhe-se uma outra relao sigmide, dada pela funo de
distribuio cumulativa (f.d.c.) de uma Normal Reduzida, a funo :
=

g 1 xt

p(x; 0 , 1 ) = g 1 (0 + 1 x) = (0 + 1 x) =


,

onde 0 = e 1 = 1 , i.e., a probabilidade de xito p relaciona-se


com a varivel preditora X atravs da f.d.c. duma N ( , 2 ).

(xt )
1.0

p(xt )

229 / 406

0.6
0.0

0.2

Esta opo significa considerar como funo de ligao a inversa da


f.d.c. duma Normal reduzida, ou seja, g = 1 :


xt = g p(xt )
= 1 p(xt ) .

0.4

pnorm(x, m = 5, s = 2)

0.8

onde indica a f.d.c. duma N (0, 1).

10

15

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

230 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

A Regresso Probit (cont.)

A Regresso Probit em toxicologia

Em geral, para qualquer nmero de variveis preditoras, a


probabilidade de xito p = P[Y = 1] dada, no Modelo Probit, por uma
funo cujo comportamento muito semelhante ao do Modelo Logit:

No contexto toxicolgico, frequente:

funo estritamente crescente,


com um nico ponto de inflexo quando o preditor linear xt = 0,
a que corresponde uma probabilidade de xito p(0) = 0.5.

2010-11

231 / 406

existir uma varivel preditora X que indica a dosagem (ou


log-dosagem) dum determinado produto txico;
para cada dosagem h um nvel de tolerncia t: o limiar acima do
qual o produto txico provoca a morte do indivduo;
esse nvel de tolerncia varia entre indivduos e pode ser
representado por uma v.a. T .

com simetria em torno do ponto de inflexo, isto ,


p( ) = 1 p( ), para qualquer .

Definindo a v.a. binria Y :



1 ,
individuo morre
Y =
0 , individuo sobrevive

Inconvenientes:
no h interpretao fcil do significado dos parmetros j ;
a funo de ligao no-cannica.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

232 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

233 / 406

A Regresso Probit em toxicologia (cont.)

O modelo log-log do complementar


No mesmo contexto de varivel resposta dicotmica Y , outra escolha
frequente de funo de ligao , com tradio histrica desde 1922 no
estudo de organismos infecciosos consiste em tomar para
probabilidade de xito (Y = 1):

Tem-se:
P[ Y = 1 | x ]

P[T x]

p(x)

Admitindo que a tolerncia T segue uma distribuio N ( , 2 ),




x
p(x) =
.

p(xt )

tem-se o Modelo Probit com X como nica varivel preditora.


Os coeficientes verificam 0 = e 1 = 1 , estando pois associados
aos parmetros da distribuio de T .

g 1 xt

xt

1 ee

A funo p a diferena entre uma curva de Gompertz com valor


assinttico = 1 (na notao usada no Captulo da Regresso No
Linear) e esse mesmo valor assinttico. O facto de se fixar o valor
assinttico em 1 natural, uma vez que a funo p descreve
probabilidades.
O contradomnio da funo agora definida o intervalo ]0, 1[.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

234 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

235 / 406

O modelo log-log do complementar (cont.)

O modelo log-log do complementar (cont.)

A funo de ligao ser, neste caso, da forma:




xt = g p(xt ) = ln ln(1 p(xt ))

Esta funo para p tem analogias e diferenas de comportamento em


relao aos Modelos Logit e Probit:
igualmente estritamente montona;

donde a designao do modelo que usa esta funo de ligao.


No caso de haver uma nica varivel preditora X , a funo p(x) a
funo distribuio cumulativa da distribuio de Gumbel:

(+x))

= 0, = 0.5

Tal como no caso do Modelo Probit, os coeficientes j da componente


sistemtica no tm um significado to facilmente interpretvel como
os do Modelo da Regresso Logstica.

0.4

0.6

= 0.5, = 1

0.2

y = f(x)

mas o valor de probabilidade associado j no se encontra a meio


caminho na escala de probabilidades, sendo p(0) = 1 1e ;
isso significa que a fase de acelerao da curva de
probabilidades decorre at um valor superior da probabilidade
(1 1/e 0.632) do que nas Regresses Logit e Probit.

1.0
0.8

f(x) = 1 e(e

tem igualmente um nico ponto de inflexo, quando = 0;

0.0

= 0.5, = 2
4

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

236 / 406

Outras funes de ligao para respostas binrias

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

237 / 406

Outras funes de ligao (cont.)

As inversas das trs funes de ligao em modelos com respostas


de Bernoulli eram sigmides.
Em dois dos modelos, tratava-se de inversas de funes de
distribuio cumulativas:
f.d.c. duma Normal reduzida no Modelo Probit;
f.d.c. duma Gumbel, no Modelo log-log do Complementar
Uma generalizao bvia consiste em utilizar outra f.d.c. duma
varivel aleatria contnua, gerando um novo Modelo para este
contexto.

Outra possvel generalizao das funes de ligao para dados


binrios consiste em considerar a seguinte famlia de funes de
ligao, que depende de um parmetro, :
"
#
(1/(1 p)) 1
g(p; ) = ln

A funo de ligao logit corresponde a tomar = 1.


A funo de ligao log-log do complementar corresponde ao limite
quando 0.

No R, alm das opes acima referidas, pode usar-se uma f.d.c. da


distribuio de Cauchy.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

238 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

239 / 406

Resposta dicotmica e a distribuio Binomial

Resposta dicotmica e Binomial (cont.)

Estivemos a considerar variveis resposta Y dicotmicas (binrias),


associadas a n conjuntos de valores xi das variveis preditoras.
Admita-se que:
existem m diferentes conjuntos de valores da(s) varivel(is)
preditora(s);
para cada um desses m conjuntos de valores h uma
probabilidade pi (i = 1, ..., m) de xito (de Y = 1);
existem ni (i = 1 : m) observaes efectuadas para cada um dos
m diferentes conjuntos de valores xi das variveis preditoras.
logo, h ao todo n = m
i=1 ni observaes.
Havendo observaes independentes, o nmero de xitos em cada
uma das m situaes dado por uma varivel aleatria com
distribuio Binomial. Concretamente,
Yi

B(ni , pi )

J. Cadima (DM/ISA)

Existem ligaes ntimas, no contexto de MLGs, entre considerar que:


temos n variveis resposta Bernoulli, com parmetros pi ; ou
temos m variveis resposta Yi B(ni , pi ).
O tratamento destas opes alternativas igual, desde que
transforme as Binomiais Yi em propores de xitos, i.e., desde que
se considere novas v.a.s resposta Wi = Yi /ni , cujas distribuies
pertencem famlia exponencial de distribuies.

i = 1, ..., m

Modelao Estatstica II

2010-11

240 / 406

MLGs para variveis resposta de Poisson

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

241 / 406

Funes de ligao e ligao cannica


O valor esperado de Y Po( ) o parmetro .

Consideremos agora modelos em que a componente aleatria Y tem


distribuio de Poisson.
A distribuio de Poisson surge com muita frequncia, associada
contagem de acontecimentos aleatrios (quando se pode admitir que
no h acontecimentos simultneos).

Uma funo de ligao ser uma funo g() tal que:


g( ) = xt ,
onde xt a componente sistemtica do Modelo.
O parmetro natural da distribuio de Poisson = ln( ).

Se Y tem distribuio de Poisson, toma valores em N0 com


k
probabilidades P[Y = k] = e k ! , com > 0.

Assim, a funo de ligao cannica para uma componente aleatria


com distribuio de Poisson a funo de ligao logartmica:

Esta distribuio no indicada para situaes em que seja fixado


partida o nmero mximo de observaes ou realizaes do
fenmeno, como sucede com uma Binomial.

g( ) = ln( ) = xt

(xt ) = g 1 xt

= ex
t

Um Modelo assim definido designa-se um Modelo Log-Linear.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

242 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

243 / 406

Interpretao dos parmetros j

Modelos log-lineares

No caso de haver uma nica varivel preditora X , a relao entre o


parmetro da distribuio Poisson e o preditor fica:
So modelos com:

(x) = e0 e1 x

componente aleatria de Possion;

O aumento de uma unidade no valor do preditor multiplica o valor


esperado da varivel resposta por ej .

funo de ligao logaritmo natural, que a ligao cannica


para as Poisson.
Nota: a ligao apenas permite valores positivos do parmetro , o
que est estruturalmente de acordo com as caractersticas do
parmetro duma distribuio Poisson.

A interpretao generaliza-se para mais do que uma varivel


preditora. Com p variveis preditoras tem-se:

(x) = e0 e1 x1 e2 x2 ep xp .
Um aumento de uma unidade no valor da varivel preditora Xj ,
mantendo as restantes variveis preditoras constantes, multiplica o
valor esperado de Y por ej .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

244 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

245 / 406

Factores preditores e tabelas de contingncia

Modelos com varivel resposta Gama


Com a excepo do Modelo Linear, os restantes MLGs considerados
at aqui tinham varivel resposta discreta.

No caso de uma varivel indicatriz Xj , tem-se que a pertena


categoria assinalada pela indicatriz Xj multiplica o parmetro da
distribuio de Poisson por ej .
Os modelos log-lineares tm grande importncia no estudo de tabelas
de contingncia, cujos margens correspondem a diferentes factores e
cujo recheio corresponde a contagens de observaes nos
cruzamentos de nveis correspondentes.
Tal como nos casos anteriores, outras funes de ligao so
concebveis para variveis-resposta com distribuio de Poisson.
Mas nesta disciplina apenas ser estudado o caso do Modelo
Log-Linear, associado funo de ligao cannica para a
distribuio de Poisson.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Vejamos agora um exemplo de MLG com varivel resposta contnua,


no Normal. Consideremos uma componente aleatria Y com
distribuio Gama (que, como sabemos, inclui como casos
particulares uma Exponencial ou uma Qui-quadrado).
Se Y G( , ), tem-se:
E [Y ] =

V [Y ] =

Assim, na distribuio Gama a varincia proporcional ao quadrado


da mdia. Esta propriedade sugere que MLGs com componente
aleatria Gama podem ser teis em situaes onde a varincia dos
dados no seja constante, mas proporcional ao quadrado da mdia.
246 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Funes de ligao e ligao cannica

Um nico preditor

Uma vez que para Y G( , ) se verifica E [Y ] = , as funes de


ligao g num MLG com varivel resposta Gama relacionam a mdia
com as combinaes lineares das variveis preditoras:

O modelo fica completo equacionando a parte sistemtica a esta


transformao cannica do valor esperado de Y :

g( ) = xt

g( ) =

A funo de ligao cannica para modelos com distribuio Gama


ser a funo g que transforma o valor esperado de Y no parmetro
natural = 1 .

J. Cadima (DM/ISA)

(xt ) = g 1 xt

1
xt

E [Y ] =

1
.
0 + 1 x

Esta funo a curva de rendimento por planta, estudada no Captulo


da Regresso No Linear.

Modelao Estatstica II

No caso particular de haver uma nica varivel preditora, a relao


que acabmos de estabelecer diz que o valor mdio de Y dado por
uma curva hiperblica,

Como o sinal negativo no relevante na discusso, hbito definir a


funo de ligao cannica para modelos com varivel resposta
Gama apenas como a funo recproco:
g( ) =

1
= xt

247 / 406

2010-11

248 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

249 / 406

Um preditor transformado

Estimao de parmetros em MLGs

Caso se opte por trabalhar com os recprocos dum nico preditor, ou


seja com a transformao X = X1 , o valor esperado fica

A estimao de parmetros em Modelos Lineares Generalizados


feita pelo Mtodo da Mxima Verosimilhana.

E [Y ] =

x
1
,
=
0 + 1 /x
x 0 + 1

O facto das distribuies consideradas em MLGs pertencerem


famlia exponencial de distribuies gera algumas particularidades na
estimao.
A funo verosimilhana para n observaes independentes
y1 , y2 , ..., yn numa qualquer distribuio da famlia exponencial :

pelo que o valor esperado de Y ser dado pela curva de


Michaelis-Menten (com a parametrizao de Shinozaki-Kira).
Nota: embora o valor esperado da varivel resposta Y tenha de ser
positivo (uma vez que uma varivel Y com distribuio Gama s toma
valores positivos), na relao estabelecida o valor esperado pode ser
negativo para alguns valores da(s) varivel(is) preditora(s)
(com um nico preditor X , para que > 0 tem de ter-se x > 01 ).
Assim, e ao contrrio de modelos anteriores, no existe uma garantia
estrutural de que os valores de estimados faam sentido.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

250 / 406

L( , ; y1 , y2 , ..., yn ) =

f (yi ; i , i )

ni=1

= e

yi i b(i )
+c(yi ,i )
a(i )

i=1

Maximizar a verosimilhana maximizar a log-verosimilhana:



n 
y b(i )
L ( , ; y1 , y2 , ..., yn ) = i i
+ c(yi , i )
a(i )
i=1
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

251 / 406

Mxima Verosimilhana em MLGs

Mxima Verosimilhana em MLGs (cont.)

Num MLG, a componente sistemtica e o valor esperado da varivel


resposta esto relacionados por g(E [Y ]) = xt . No caso de uma
funo de ligao cannica tem-se = xt .
Em geral, pode escrever-se a log-verosimilhana como funo dos
parmetros desconhecidos .
O Mtodo da Mxima Verosimilhana de estimar esses parmetros
consiste em escolher o vector que torne mxima a funo de
log-verosimilhana L ( ).

A maximizao da funo de p + 1 variveis L ( ) tem como condio


necessria:
L ( )
= 0,
j =0:p
j
Admite-se que as funes a(), b() e c() so suficientemente
regulares para que as operaes envolvidas estejam bem definidas.
No caso de um Modelo Linear Generalizado genrico, no existe a
garantia de que haja mximo desta funo log-verosimilhana (pelo
menos para os valores admissveis dos parmetros ), nem que,
existindo mximo, este seja nico.
Nos casos concretos abordados nesta disciplina, a situao no cria
dificuldades.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

252 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Exemplo: o caso da Regresso Logstica

Estimao na Regresso Logstica (cont.)

No Modelo de Regresso Logstica, as n observaes independentes


referem-se a uma Varivel aleatria com distribuio de Bernoulli.
A sua funo de verosimilhana dada por:

Tem-se:



pi
ln(1pi )+yi ln 1p

L(p ; y) = e

L ( ) =

yi xk (i) k ln

i=1 k =0

253 / 406



p
1 + ek =0 xk (i) k

i=1

i=1

e a log-verosimilhana por:
L (p ; y) =


ln(1 pi ) + yi ln

i=1

pi
1 pi

Condio necessria para a existncia de extremo da


log-verosimilhana no ponto = que:




p
Uma vez que a funo de ligao dada por g(p) = ln 1p
= xt ,
tem-se a seguinte expresso para a log-verosimilhana como funo
dos parmetros (e considerando que a varivel x0 toma valores 1):



n 
t
L ( ) = ln 1 + exi + yi xti

L ( )
=
j

ek =0 xk (i) k

yi xj(i)

p
k =0 xk (i) k

i=1 1 + e

i=1

xj(i) = 0

j = 0 : p

Ao contrrio do que acontece para o Modelo Linear, estas p+1


equaes normais formam um sistema no-linear de equaes nas
p+1 incgnitas j (j = 0 : p).

i=1

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

254 / 406

Estimao na Regresso Logstica (cont.)

L( ; y) =

ek =0 xk (i) k
p

Xt y = Xt p

L ( ; y) =

iyi
yi !

2010-11

(i + yi ln i ln yi !)

i=1

A funo de ligao dada por g( ) = ln ( ) = xt . Eis a expresso


para a log-verosimilhana como funo dos parmetros :
L ( ) =

Sendo um sistema no-linear, a sua soluo exigir mtodos


numricos que sero considerados mais adiante.
Modelao Estatstica II

255 / 406

E a log-verosimilhana por:

1 + ek =0 xk (i) k

e uma matriz X que (tal como no Modelo Linear) tem uma primeira
coluna de n uns e em cada uma de p colunas adicionais tem as n
observaes de uma das p variveis preditoras. Com esta notao, o
sistema de p + 1 equaes toma a forma:

J. Cadima (DM/ISA)

i=1

2010-11

Num Modelo Log-Linear, as n observaes independentes so duma


varivel aleatria com distribuio de Poisson.
A funo de verosimilhana destas n observaes dada por:

de
Mas existe uma notao mnemnica, definindo o vector p
probabilidades estimadas, cuja i-sima componente dada por:
=

Modelao Estatstica II

Exemplo: Modelos log-lineares

A no-linearidade nos parmetros no permite explicitar uma


soluo do sistema de equaes.

i
p

J. Cadima (DM/ISA)

i
t
exi + yi xti ln (yi !)

i=1
256 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

257 / 406

Estimao em modelos log-lineares (cont.)

Estimao em modelos log-lineares (cont.)

Deixando cair a ltima parcela, que constante nos parmetros j ,


logo dispensvel na identificao dos mximos:
!

Tal como no caso anterior, estas p + 1 equaes formam um sistema


no-linear de equaes nas p + 1 incgnitas j , j = 0 : p.

L ( ) =

ek =0 xk (i) k + yi

xk (i) k

k =0

i=1

De novo, embora o sistema de equaes seja no linear, possvel


utilizar uma notao mnemnica matricial, definindo o vector de
probabilidades estimadas, cuja i-sima componente dada por:
i

Condio necessria para a existncia de extremo da


log-verosimilhana no ponto = que:

L ( )
=
j

xj(i)

h
yi

ek =0 xk (i) k
p

ek =0 xk (i) k

Com esta notao, o sistema de p+1 equaes toma a forma:


= 0

j = 0 : p

Xt y = Xt

i=1

A no-linearidade do sistema exige mtodos numricos.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

258 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

Algoritmos de estimao

Fisher Scoring Method

Foi visto que, em geral, o sistema de p+1 equaes normais


associado maximizao da funo de log-verosimilhana num
Modelo Linear generalizado um sistema no-linear:

Designando por:
[0] , a soluo inicial para ;

L ( )
=0
j

j = 0 : p.

O Mtodo de Newton-Raphson trabalha com uma aproximao de


segunda ordem da funo log-verosimilhana (frmula de Taylor), com
desenvolvimento em torno duma estimativa inicial do vector .
Modelao Estatstica II

2010-11

260 / 406

O mtodo de Fisher (cont.)

Se h(x) =
Se h(x) =

xt Ax

Assim,

(at x)
tem-se h(x)
x = x = a.
(xt Ax)
, tem-se h(x)
=
x =
x



L [0] t 
( )
[0] +


t

1
+
[0] H [0] [0]

L ( ) L0 ( ) = L ( [0] ) +

Em vez de proceder maximizao de L ( ), maximiza-se a


aproximao L0 ( ).
J. Cadima (DM/ISA)

Modelao Estatstica II

[i+1]

2Ax.

Admitindo a invertibilidade de H [0] , tem-se:

tem-se a aproximao:

Tome-se:

2010-11

261 / 406

= [0] H 1[0]

[i] H 1[i]


L [i]
( )

Notas:
A possibilidade de aplicar com xito este algoritmo exige a
existncia e invertibilidade das matrizes Hessianas de L nos
sucessivos pontos [i];



L0
L [0]
( ) =
( ) + H [0] [0] .

L0
( ) = 0

( ) o vector gradiente de L ( ) calculado no ponto ;

O mtodo de Fisher (cont.)

Quando a funo que se pretende maximizar uma combinao


linear ou uma forma quadrtica das variveis, o clculo do vector
gradiente particularmente simples:
at x

259 / 406

H a matriz Hessiana das segundas derivadas parciais da


funo L (), nesse mesmo ponto,

Um algoritmo numrico de resoluo utilizado no contexto de MLGs


uma modificao do algoritmo de Newton-Raphson, conhecida por
vrios nomes: Mtodo Iterativo de Mnimos Quadrados Ponderados
(IWLS) ou Re-ponderados (IRLS), ou ainda Mtodo de Fisher (Fisher
Scoring Method , em ingls).

J. Cadima (DM/ISA)

2010-11

No est garantida a convergncia do algoritmo a partir de


qualquer ponto inicial [0] , mesmo quando existe e nico o
mximo da funo log-verosimilhana;


L [0]
( ) .

Dada a existncia e unicidade do mximo, a convergncia tanto


melhor quanto mais prximo [0] estiver do mximo.

Esta relao a base do processo iterativo do algoritmo


Newton-Raphson.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

262 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

263 / 406

O mtodo de Fisher (cont.)

O mtodo de Fisher (cont.)

O clculo da matriz Hessiana da log-verosimilhana nos pontos [i]


computacionalmente exigente.
Quando se considera uma MLG com a funo de ligao cannica, a
matriz Hessiana da log-verosimilhana no depende da
varivel-resposta Y , pelo que a Hessiana e o seu valor esperado
coincidem.

O algoritmo de Fisher uma modificao do algoritmo de


Newton-Raphson, que substitui a matriz Hessiana pela matriz de
informao de Fisher, definida como o simtrico da esperana da
matriz Hessiana:


I [i] = E H [i]

Logo, neste caso os mtodos de Fisher e Newton-Raphson coincidem.


Esta uma das razes que confere s ligaes cannicas a sua
importncia.

Assim, a iterao que est na base do Algoritmo de Fisher :




L [i]
[i+1] = [i] + I 1[i]
( )

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

264 / 406

O mtodo de Fisher (cont.)

Xt W[i]X

1

Xt W[i] z[i]

2010-11

265 / 406

A expresso anterior significa que o algoritmo de Fisher est


associado a uma projeco no-ortogonal, em que, quer o vector z[i] ,
quer os subespaos envolvidos na projeco, so re-definidos em
cada iterao do algoritmo.
A matriz X Xt W[i]X

onde:
z[i] uma linearizao da funo de ligao g(y), escrita como
funo dos parmetros ; e
W[i] uma matriz diagonal.

Modelao Estatstica II

2010-11

1

Xt W[i] idempotente.

No , em geral, simtrica, a no ser que a matriz diagonal W[i]


verifique Xt W[i] = Xt .
O Mtodo de Fisher baseia-se em ideias de Mnimos Quadrados em
sentido generalizado, isto , envolvendo projeces no-ortogonais.

Para alguns modelos, as expresses concretas de z[i] e W[i] sero


vistas adiante.

J. Cadima (DM/ISA)

Modelao Estatstica II

O mtodo de Fisher (cont.)

O algoritmo de Fisher tambm conhecido por Mtodo Iterativo de


Mnimos Quadrados Ponderados (IWLS) ou Re-ponderados (IRLS)
porque , em geral, possvel re-escrever a expresso anterior para
[i+1] na forma:

[i+1]

J. Cadima (DM/ISA)

266 / 406

IRLS para a Regresso Logstica

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

267 / 406

IRLS para a Regresso Logstica (cont.)

J se viu que as derivadas parciais de primeira ordem da


log-verosimilhana, no Modelo Logit (Regresso Logstica) so:

L ( )
j

L ( )

ek =0 xk (i) k

yi xj(i)

p
k =0 xk (i) k

i=1 1 + e

i=1

{z

=pi

xj(i) ,

j = 0 : p

Como acontece sempre quando se trabalha com Modelos que utilizam


a funo de ligao cannica, estes elementos das matrizes
Hessianas no dependem dos valores observados da varivel
resposta Y , pelo que a Hessiana e o seu valor esperado coincidem
(os Mtodos de Newton-Raphson e de Fisher coincidem).

= Xt y Xt p

As derivadas parciais de 2a. ordem (elementos da Hessiana) so:


p

n
2L
1
ek =0 xk (i) k
( ) = xj(i) xl(i)

p
p
xk (i) k

j l
k
=0
k
=0 xk (i) k
i=1
|1 + e {z
} |1 + e {z
}
= pi

A matriz Hessiana da funo de log-verosimilhana L , nos pontos


correspondentes s iteraes [i], constituda pelos valores destas
derivadas parciais de segunda ordem.

Defina-se a matriz n n diagonal W, cujos elementos diagonais so


dados pelos n valores pi (1 pi ).

= 1pi

= xj(i) xl(i) pi (1 pi )
i=1

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

268 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

269 / 406

IRLS para a Regresso Logstica (cont.)

IRLS para a Regresso Logstica (cont.)

A matriz Hessiana e a matriz de informao de Fisher associada,


podem escrever-se, em termos matriciais, como:
H = Xt WX

I = Xt WX

A equao que define a iterao dos vectores no algoritmo IRLS


para a Regresso Logstica assim:

[i+1]

J. Cadima (DM/ISA)

Logo, designando:



1 
Xt y p[i]
[i] + Xt W[i] X

z [i]


1 

Definindo o vector z[i] = X [i] + W[i]
y p[i] , tem-se:

[i+1]

A expresso indicada para o vector z[i] pode ser entendida como uma
aproximao linear da funo de ligao do Modelo Logit, em torno do
ponto p[i]. De facto,


p
1
.
g(p) = ln
= g (p) =
1p
p(1 p)

Xt W[i]X

1


 
 
g p [i] + g p [i] y p [i]

e, recordando as relaes entre funo de ligao e parte sistemtica,


bem como a definio da matriz W, tem-se, em termos matriciais:

1 

y p[i]
z[i] = X [i] + W[i]

Xt W[i] z[i]

Modelao Estatstica II

2010-11

270 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

271 / 406

IRLS para modelos log-lineares

IRLS para modelos log-lineares (cont.)

No contexto do Modelo Log-Linear, as derivadas parciais de primeira


ordem da log-verosimilhana so:

De novo, a funo de ligao cannica e os elementos da matriz


Hessiana no dependem de Y , pelo que Hessiana e seu valor
esperado so iguais, ou seja, o Mtodo de Newton-Raphson e de
Fisher coincidem.

L ( )
j

xj(i)

i=1

i
p
yi ek =0 xk (i) k ,
{z
}
|

j = 0 : p

Defina-se a matriz n n diagonal W, cujos elementos diagonais so


dados pelos n valores i . A matriz Hessiana e a correspondente
matriz de informao de Fisher podem escrever-se como:

=yi i

L ( )

= Xt y Xt

H = Xt WX

Assim, as derivadas parciais de segunda ordem so:


n
p
2L
( ) = xj(i) xl(i) ek =0 xk (i) k
l j
i=1
n
2L
( ) = xj(i) xl(i) i ,
l j
i=1

J. Cadima (DM/ISA)

A equao que define a iterao dos vectores no algoritmo IRLS


para a Regresso Logstica dada por:

[i+1]

j, l = 0 : p

Modelao Estatstica II

2010-11

272 / 406

IRLS para modelos log-lineares


  (cont.)




1 

Xt y [i]
[i] + Xt W[i] X

Modelao Estatstica II

2010-11

273 / 406

No R, o comando crucial para o ajustamento de Modelos Lineares


Generalizados o comando glm.

Tambm aqui, z[i] pode ser entendido como uma aproximao linear
da funo de ligao do Modelo Log-Linear, em torno do ponto [i] :
1
=
g ( ) = .
g( ) = ln( )

Logo, considerando:
 

 
z [i] = g [i] + g [i] y [i]
tem-se, em termos matriciais, e recordando a definio da matriz W e
a ligao entre valor esperado de Y e parte sistemtica do Modelo:
1 


y [i]
z[i] = X [i] + W[i]
Modelao Estatstica II

J. Cadima (DM/ISA)

GLMs no

y [i] , tem-se uma


Definindo o vector z[i] = X [i] + W[i]
expresso de transio idntica do Modelo Logit:

1
[i+1] =
Xt W[i]X
Xt W[i] z[i]

J. Cadima (DM/ISA)

I = Xt WX

2010-11

274 / 406

Dos numerosos argumentos desta funo, dois so cruciais:


formula indica, de forma anloga usada no modelo linear, qual
a componente aleatria ( esquerda dum ) e quais os
preditores ( direita, e separados por sinais de soma):
y x1 + x2 + x3 + ... + xp
family indica simultaneamente a distribuio de probabilidades
da componente aleatria Y e a funo de ligao do
modelo.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

275 / 406

GLMs no

(cont.)

GLMs no

(cont.)

Exemplos: GLMs com componente aleatria Y e preditores X1 , X2 , X3


1) Modelo log-linear:

A indicao da distribuio de probabilidades de Y faz-se atravs


duma palavra-chave, que se segue ao nome do argumento.
Por exemplo, um modelo com componente aleatria Bernoulli ou
Binomial/n, indica-se assim:

> glm( y ~ x1 + x2 + x3 , family=poisson)

family = binomial

2) Modelo Gama com funo de ligao logartmica:

Por omisso, usada a funo de ligao cannica dessa distribuio.


Caso se deseje outra funo de ligao (implementada) acrescenta-se
ao nome da distribuio, entre parenteses, o argumento link com a
especificao da funo de ligao.
Por exemplo, um modelo probit pode ser indicado da seguinte forma:
family = binomial(link=probit)

> glm( y ~ x1 + x2 + x3 , family=Gamma(link=log))


3) Modelo complementar do log-log:
> glm( y ~ x1 + x2 + x3 , family=binomial(link=cloglog))
Para mais pormenores sobre as distribuies e respectivas funes de
ligao disponveis, veja-se
> help(family)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

276 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Inferncia em GLMs

Inferncia em MLGs (cont.)

No Captulo 2 recordmos que estimadores de mxima verosimilhana


so consistentes e, em condies gerais de regularidade so:

Consequncias importantes do Teorema anterior:

assintoticamente Normais;
assintoticamente centrados;
assintoticamente de matriz de varincias igual inversa da matriz
de informao de Fisher associada estimao.
Aplicando estes resultados gerais aos estimadores , obtm-se,
assintoticamente;

Dado um MLG e admitindo as condies de regularidade necessrias,


os estimadores de Mxima Verosimilhana verificam,
assintoticamente:

t

 
I

2
.

(p+1)

I 1
N(p+1) ( ,I
)

Modelao Estatstica II

Teorema

Dada uma matriz no-aleatria Cq(p+1) de caracterstica q,




I 1 Ct .
C Nq C , CI
Dado um vector no-aleatrio ap+1 :

onde I a matriz de informao de Fisher da log-verosimilhana


da amostra, calculada no ponto .

J. Cadima (DM/ISA)

2010-11

277 / 406

278 / 406

Inferncia em MLGs (cont.)

t
t
qa a
1
at I a

N (0, 1).

i1 

t h

I 1 Ct
C C q2 .
Dada Cq(p+1) : C C
CI

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

279 / 406

Inferncia em MLGs (cont.)

Os resultados do Teorema anterior permitem construir Intervalos de


Confiana e Testes de Hipteses para combinaes lineares dos
parmetros , e testes de ajustamento de Modelos e de Submodelos.
A derivao de resultados para combinaes lineares dos parmetros
inclui como casos particulares importantes, resultados sobre
parmetros individuais e sobre somas ou diferenas de parmetros.
Na expresso que serve de base aos ICs e Testes de Hipteses surge
a inversa da matriz de informao no ponto desconhecido . Essa
matriz desconhecida substituda por outra, conhecida: a matriz de
informao calculada para a estimativa .

Um intervalo assinttico a (1 ) 100% de confiana para a


combinao linear at dado por:


r
r
t
t I 1 a

a
,
a
b
+
z
a
at b z 2 at I 1

sendo I 1
a inversa da matriz de informao de Fisher da

log-verosimilhana, calculada no ponto .

Esta substituio refora a necessidade de grandes amostras para


que se possa confiar nos resultados.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

280 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

281 / 406

Inferncia em MLGs (cont.)

Inferncia no

Teste de Hipteses (assinttico) a Combinao Linear dos j

A informao fundamental para construir ICs ou Testes a parmetros


fica disponibilizada no R atarvs do acomando summary aplicado a um
objecto glm.

Hipteses:

H0 : at = c

> summary(sangueu.glm)
Call: glm(formula = tempo ~ log(conc.plasma), family = poisson)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-2.5048 -1.3714
0.2999
0.9017
3.6696
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
5.48515
0.12805
42.84
<2e-16 ***
log(conc.plasma) -0.66633
0.04475 -14.89
<2e-16 ***
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 278.624 on 17 degrees of freedom
Residual deviance: 45.685 on 16 degrees of freedom
AIC: 141.71
Number of Fisher Scoring iterations: 4

H1 : at 6= c

vs.

Estatstica do Teste:
at at |H0
Z= q
at I 1
a

N (0, 1) ,

Regio Crtica: Bilateral. Rejeitar H0 se |Zcalc | > z 2 .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

282 / 406

A matriz de (co-)varincias entre estimadores

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

283 / 406

Teste de Wald
Para testar em simultneo hipteses sobre vrias combinaes
lineares dos parmetros, usa-se a estatstica de Wald (acetato 279),
substituindo a matriz desconhecida I por I .

Para se obter, no R, a matriz de varincias-covarincias entre os


estimadores , ou seja, a matriz I 1
, pode usar-se o comando vcov:

> vcov(sangueu.glm)
(Intercept) log(conc.plasma)
(Intercept)
0.016397754
-0.005422905
log(conc.plasma) -0.005422905
0.002002123

Teste de Hipteses (assinttico) a q Combinaes Lineares de j


Seja Cq(p+1) uma matriz no-aleatria, de caracterstica q. Seja
um vector q-dimensional.
Hipteses:

H0 : C =

H1 : C 6=

vs.

Estatstica do Teste:
i1 
t h


t
I 1
C
2 =
CI
C
C

q2 ,

2
Regio Crtica: Unilateral. Rejeitar H0 se calc
> 2 ;q .
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

284 / 406

Teste de Wald a Submodelos

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

285 / 406

Teste de Wald a submodelos (cont.)


Sejam S os ndices de variveis que no pertencem ao submodelo.

Dado um MLG com p variveis preditoras X1 , ..., Xp , que se considera


adequado, til perguntar se possvel simplificar o Modelo atravs
da excluso de algumas das variveis preditoras, sem com isso
afectar de forma significativa o ajustamento do mesmo aos dados.
Seja S o subconjunto de k ndices das variveis do submodelo.
O submodelo que exclui as variveis cujos ndices no pertencem a S
pode ser definido atravs das p k condies j = 0, j
/ S.
O conjunto destas restries pode ser escrito, em forma matricial,
como C = 0 , onde C uma matriz (p k) (p + 1), cujas linhas so
as p k linhas da matriz identidade (p + 1) (p + 1) associadas s
p k variveis que no pertencem ao subconjunto S.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

286 / 406

Hipteses:
/ S vs. H1 : j
H0 : j = 0, j
/ S, t.q. j 6= 0
H0 : S = 0
vs. H1 : S 6= 0
[Submodelo OK]
vs. [Modelo melhor]
Estatstica do Teste:

t
S



I 1

1

(S,S)

2
pk
,

2
> 2 ;pk .
Regio Crtica: Unilateral. Rejeitar H0 se calc

Nota: a inversa duma submatriz no igual submatriz


correspondente da inversa da matriz completa.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

287 / 406

Teste da razo de Verosimilhanas (Wilks)

Teste de Wilks a Submodelos

Um outro teste admissibilidade de um Submodelo pode ser obtido


com base num resultado geral j antes referido: o Teorema de Wilks.

No contexto dum Modelo Linear Generalizado, os parmetros so


os p + 1 coeficientes da combinao linear que constitui a
componente sistemtica do Modelo.

Recorde-se que, neste contexto, indica um conjunto genrico de


parmetros, e no tem o significado especfico do contexto duma
famlia exponencial de distribuies.

Por 1 indica-se a condio complementar: pelo menos um desses


parmetros S diferente de zero.

Teste de Razo de Verosimilhanas (contexto geral)


Hipteses: H0 : 0

H 1 : 1

vs.

Estatstica do Teste: 
= 2 max L ( ; x)
0

max

(0 1 )

O mximo da funo log-verosimilhanas para 0 1


corresponde s estimativas MV do Modelo Completo.


L ( ; x) q2 ,

O mximo da funo log-verosimilhanas para 0 so as


estimativas de Mxima Verosimilhana do Submodelo, S .

Regio Crtica: Unilateral. Rejeitar H0 se calc > 2 ;q .

J. Cadima (DM/ISA)

Modelao Estatstica II

Sejam 0 os valores resultantes de impr a restrio C = S = 0.

2010-11

288 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

289 / 406

Teste de Wilks a Submodelos (cont.)

Modelo Nulo e modelo saturado

Designando por:

Adiante se ver que possvel escrever a estatstica deste Teste


numa forma alternativa. Mas para isso, ser necesrio introduzir o
importante conceito de Desvio de um Modelo, que desempenha nos
GLMs um papel anlogo ao da Soma de Quadrados Residual nos
Modelos Lineares.

LM a log-verosimilhana associada ao Modelo completo


(p + 1 parmetros, estimados por M ); e
LS a log-verosimilhana associada ao Submodelo
(k + 1 parmetros, estimados por S )

Teste de Wilk a Submodelos


H0 : j = 0, j
/ S vs. H1 : j
/ S, t.q. j 6= 0
Hipteses: H0 : S = 0
vs. H1 : S 6= 0
(Submodelo OK)
vs. (Modelo melhor)


Estatstica do Teste: = 2 L ( ) L ( ) 2 ,
S

pk

Regio Crtica: Unilateral. Rejeitar H0 se calc > 2 ;pk .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

290 / 406

Modelo Nulo e modelo saturado (cont.)

Recorde-se que, quer no Modelo Logstico, quer no Modelo


Log-Linear, o sistema de equaes normais resultante da condio
necessria para a existncia de mximo da log-verosimilhana toma a
forma Xy = X , onde indica o vector estimado de E [Yi ] para as n
observaes (Acetatos 268 e 272).
Num modelo saturado, com tantos parmetros quantas observaes,
X de tipo n n e, em geral, invertvel. Nesse caso, = y.

Modelao Estatstica II

No estudo de Modelos Lineares Generalizados de utilidade um


Modelo que ocupa o extremo oposto na gama de possveis modelos:
o Modelo Saturado, que tem tantos parmetros quantas as
observaes de Y disponveis.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

291 / 406

Desvios

Num Modelo Saturado, o ajustamento perfeito, mas intil: a


estimativa de cada valor esperado de Y coincide totalmente com o
i ] = Yi .
valor observado de Y correspondente, isto , E [Y

J. Cadima (DM/ISA)

No estudo do Modelo Linear foi introduzida a noo de Modelo Nulo:


um Modelo em que o preditor linear constitudo apenas por uma
constante e toda a variao nos valores observados variao
residual, no explicada pelo Modelo.

2010-11

292 / 406

Assim, um modelo saturado ocupa o polo oposto em relao ao


Modelo Nulo: enquanto que neste ltimo tudo variao residual, no
explicada pelo modelo, num modelo saturado tudo explicado pelo
modelo, no havendo lugar a variao residual.
Um tal ajustamento total dos dados ao modelo ilusrio. Mas de
utilidade como termo de comparao para medir o grau de
ajustamento de um conjunto de dados a um MLG.
nessa ideia que se baseia a definio do conceito de Desvio ou
Deviance.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

293 / 406

Desvios (cont.)

Teste de Wilks a Submodelos

Considere-se um Modelo Linear Generalizado baseado em n


observaes independentes da varivel resposta Y .

O conceito de Desvio desempenha um papel importante no estudo da


qualidade do ajustamento de dados a um Modelo Linear
Generalizado: a estatstica do Teste de Wilks a modelos encaixados
a diferena dos Desvios de Modelo e Submodelo.

Seja M o vector estimado dos seus parmetros e LM ( M ) a


respectiva log-verosimilhana mxima.
Considere-se um modelo saturado com n parmetros. Designe-se por
LT ( T ) a log-verosimilhana correspondente.
Define-se o desvio como sendo:


D = 2 LM ( M ) LT ( T )

J. Cadima (DM/ISA)

Modelao Estatstica II

Teste de Wilk a Submodelos Encaixados


H0 : j = 0, j
/ S vs. H1 : j
/ S, t.q. j 6= 0
Hipteses: H0 : S = 0
vs. H1 : S 6= 0
[ Submodelo OK]
vs. [ Modelo melhor]
Estatstica do Teste:

DS DM

2 ,
pk

Regio Crtica: Unilateral direito. Rejeitar H0 se

2010-11

294 / 406

J. Cadima (DM/ISA)

calc > 2 ;(pk ).

Modelao Estatstica II

2010-11

Teste de Wilks ao Ajustamento Global

Teste de Wilks ao Ajustamento Global (cont.)

Para MLGs cuja componente sistemtica inclui uma parcela aditiva


constante, o conceito de ajustamento global do Modelo pode ser
semelhante ao usado no estudo do Modelo Linear: compare-se o
ajustamento do Modelo e do Submodelo Nulo, que se obtm sem
qualquer varivel preditora (apenas com a constante).

Teste de Wilk ao Ajustamento de um MLG

No Submodelo Nulo tem-se:

Estatstica do Teste:

g(E [Yi ]) = 0

E [Yi ] = g 1 (0 ),

i = 1 : n.

Hipteses:

H0 : j = 0, j = 1 : p vs. H1 : j = 1 : p, t.q. j 6= 0
[Modelo inutil]
vs. [Melhor que Modelo Nulo]

DN DM

p2 ,

Regio Crtica: Unilateral direito. Rejeitar H0 se

Ou seja, a variao de E [Y ] no depende de variveis preditoras.

295 / 406

calc > 2 ;p .

DN indica o Desvio do Modelo Nulo.

Se esse Submodelo Nulo no se ajustar de forma significativamente


diferente do Modelo sob estudo, conclui-se pela inutilidade do Modelo.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

296 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Seleco de Submodelos

A excluso sequencial

Tal como sucede no Modelo Linear, a escolha de um Submodelo


adequado, que simplifique um Modelo com um grande nmero de
variveis preditoras, pode ser determinado por consideraes de
diversa ordem.

Por exemplo, o mtodo de excluso sequencial consiste em:

297 / 406

iniciar com o Modelo Completo de p variveis preditoras;

No caso de no haver ideia prvia de qual Submodelo propr, a


pesquisa completa da admissibilidade dos 2p 2 possveis
Submodelos (com k + 1 variveis preditoras, para qualquer
k = 1 : p 1) coloca as mesmas dificuldades computacionais j
consideradas no estudo do Modelo Linear.

verificar qual a varivel preditora cuja excluso do modelo


provoca o menor acrscimo do Desvio;
proceder sua excluso, desde que esse acrscimo no seja
considerado significativo pelo Teste de Wilks.
reajustar o modelo e repetir at no haver variveis a excluir.

Nesses casos, possvel usar algoritmos de de excluso ou incluso


sequenciais (ou mtodos que alternam passos nos dois sentidos),
semelhantes aos usados no estudo do Modelo Linear, mas adoptando
como critrio para a incluso/excluso de variveis a maior/menor
reduo (significativa) que geram no Desvio.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

298 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

299 / 406

Algoritmos sequenciais no

No

Desvios na Poisson

M apenas como
i ) :
A log-verosimilhana da Poisson (escrevendo
i
LM ( M ) =

i
i + yi ln(
i ) ln(yi !)

i=1

o comando anova fornece a informao bsica para efectuar um


Teste de razo de verosimilhanas a Submodelos encaixados
(indicando os submodelos como argumentos do comando); e
os comandos drop1 e add1 fornecem a informao bsica para
proceder aos algoritmos de excluso/incluso sequenciais de
variveis preditoras, na escolha de Submodelos.
o comando step automatiza os algoritmos de seleco
sequencial com base no teste de Wilks.

T = yi , a sua log-verosimilhana :
Como no Modelo Saturado
i
LT ( T ) =

[yi + yi ln(yi ) ln(yi !)]

i=1

A expresso do Desvio ento:



i
n h 
i
i ) yi +
D = 2 yi ln(yi ) ln(

i=1
n 

= 2 yi ln

i=1

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

300 / 406

Desvios na Binomial/n

Modelao Estatstica II


i )
(yi

2010-11

301 / 406

Desvios na Binomial/n (cont.)

A log-verosimilhana da Binomial/n, cujos valores yi so as


propores de ni observaes associadas aos xitos, sendo pi a
iM
probabilidade de xito numa prova individual (e escrevendo p

apenas como pi ) :




n  
i
ni
p
i ) + yi ln
LM ( M ) = ni ln(1 p
+ ln
i
1p
ni yi
i=1

A expresso do Desvio ento:


  




n
i
p
yi
i ) ln(1 yi )]
D = 2 ni yi ln
ln
+ [ln(1 p
i
1p
1 yi
i=1
Modelao Estatstica II

2010-11




 
n
1 yi
yi
+ (1 yi ) ln
2 ni yi ln
i
i
p
1p
i=1

Caso se trabalhe com observaes duma Binomial propriamente dita,


sendo xi = ni yi o nmero de xitos na i-sima observao, associada
a ni experincias, a expresso anterior pode ser re-escrita como
 


n 
xi
ni xi

D = 2 xi ln
+ (ni xi ) ln
,
i
i

ni
i=1
i representa a mdia estimada para a observao i.
i = ni p
onde

302 / 406

Desvios e desvios reduzidos

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

303 / 406

Desvios e desvios reduzidos

As expresses para os desvios calculadas at aqui so mais simples


do que no caso geral, uma vez que as distribuies de Poisson e
Binomial/n tm parmetro de disperso constante ( = 1 na Poisson)
ou conhecido ( = 1/n na Binomial/n).
Mas, em geral, o parmetro de disperso no conhecido, e tem de
ser estimado a partir dos dados.
Uma medida alternativa de desvio resulta de admitir que a variao
dos parmetros de disperso entre as observaes individuais
obedece a uma estrutura especfica. Concretamente, admite-se que:
a(i ) =

Esta expresso considera que yi so os valores da Binomial/n.

iT = yi , pelo que a substituio na expresso


Num Modelo Saturado p
anterior d:




n  
ni
yi
LT ( T ) = ni ln(1 yi ) + yi ln
+ ln
ni yi
1 yi
i=1

J. Cadima (DM/ISA)

J. Cadima (DM/ISA)

yi
i

Para uma distribuio da famlia exponencial de distribuies, tem-se:



n 
y b(i )
L ( , ) = i i
+ c(yi , i )
a(i )
i=1
O desvio correspondente, indicando pelas letras M e T os estimadores
associados ao parmetro natural , e admitindo conhecidos os
parmetros de disperso, vem:

D = 2(L (M ) L (T )) = 2

,
wi

i=1

"

yi (iT iM ) [b(iT ) b(iM ]


a(i )

para constantes wi conhecidas e comum a todas as observaes.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

304 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

305 / 406

Desvios e desvios reduzidos (cont.)


Admitindo a(i ) =

wi ,

Desvio e desvio reduzido na Normal

tem-se:

D = 2(L (M ) L (T )) = 2

i
wi h T M
yi (i i ) [b(iT ) b(iM ]
i=1
n

usual chamar-se expresso completa D o desvio reduzido


(scaled deviance e reservar a expresso desvio (deviance) para D,
definido tal que:
D
D =
,

A log-verosimilhana da Normal, (admitindo a varincia fixa e


iM apenas como i ) :
escrevendo
#
"
 
n
i )2
(yi

LM ( M ) =
ln i 2
2i2
i=1
iT = yi , pelo que a substituio na expresso
Num Modelo Saturado
anterior d apenas:
n

LT ( T ) =

 i
ln i 2

i=1

ou seja,
D = 2

wi

A expresso do desvio reduzido ento:

i
yi (iT iM ) (b(iT ) b(iM )

D =

i=1

i=1

NOTA: Na Poisson e Binomial/n, desvio e desvio reduzido coincidem.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

306 / 406

Desvio e desvio reduzido na Normal (cont.)

J. Cadima (DM/ISA)

i )2
(yi
i2

Modelao Estatstica II

2010-11

307 / 406

Desvio e desvio reduzido na Gama


Tem-se, a partir das expresses para D do Acetato 305 e para D do
Acetato 306, e tendo em conta que = 1 , b( ) = ln( ) = ln( ),

=
i2

Com a hiptese usual do Modelo Linear de que


todas as observaes, o desvio da Normal vem:
D

= para

e a( ) = = 1 :

D = 2



i=1

(yi i )2

SQRE ,

ou seja, o desvio e a tradicional Soma de Quadrados Residual


coincidem.

Modelao Estatstica II

2010-11

i
yi
i


ln

yi
i



Admitindo que a(i ) = wi , para algum conjunto de constantes wi , o


desvio no vem muito diferente (apenas substituindo i por wi .

i=1

J. Cadima (DM/ISA)

Com a hiptese da igualdade de parmetros de disperso nas n


observaes, fica-se com uma expresso mais simples para o desvio:
 
n 
i
y
yi
D = 2 i
ln

i
i=1
308 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

309 / 406

Esperanas e varincias na famlia exponencial de


distribuies

A estimao do parmetro de disperso


A estatstica de Wilks para os testes a submodelos utiliza os desvios
reduzidos D .
No caso de componentes aleatrias em que o parmetro de disperso
no seja conhecido, torna-se necessrio estimar o parmetro de
disperso. Admite-se que i igual para todas as observaes, ou
que da forma i = wi para algum conjunto de ponderaes wi .
A estimao pode ser feita de vrias formas. Uma consiste em utilizar
o estimador de Mxima Verosimilhana de .

Em condies de regularidade bastante gerais, as funes de


distribuio da famlia exponencial de distribuies tm
valor esperado dado por:
E [Yi ]

Modelao Estatstica II

2010-11

V [Yi ]

310 / 406

b (i ) ,

e varincia dada por:

Outro critrio de estimao est associado ao nome estatstica de


Pearson generalizada. Para introduzir esta forma de estimar
comecemos por definir o conceito de funo de varincia das
distribuies da famlia exponencial.

J. Cadima (DM/ISA)

J. Cadima (DM/ISA)

b (i ) a(i ) .

Modelao Estatstica II

2010-11

311 / 406

Alguns exemplos

Alguns exemplos (cont.)

1) Na Normal,

3) Na Bernoulli,
b( ) = ln(1 + e ) ; logo

b( ) =
a( ) =

2 ;
2,

logo

b ( ) =

b ( ) = 1.

E [Yi ] = b (i ) = pi

V [Yi ] = b (i ) a(i ) = i2 .

b ( ) = b ( ) = e

a( ) = 1,

a( ) =

Como = ln( ) , tem-se:

b ( ) =

p
1p

b ( ) =

e
1+e

b ( ) =

e V [Yi ] = b (i ) a(i ) = i .

Modelao Estatstica II

2010-11

Alguns exemplos (cont.)

(1+e )

, tem-se:

E [Yi ] = b (i ) = pi
312 / 406

(1+e )

E [Yi ] = b (i ) = i

J. Cadima (DM/ISA)

1
n ,

Como = ln

e V [Yi ] = b (i ) a(i ) = pi (1 pi ) .

4) Na Binomial/n,
b( ) = ln(1 + e ) ; logo

2) Na Poisson,
b( ) = e ; logo

e
1+e

a( ) = 1,


p
, tem-se:
Como = ln 1p

Como = , tem-se:
E [Yi ] = b (i ) = i

b ( ) =

J. Cadima (DM/ISA)

e V [Yi ] = b (i ) a(i ) =

pi (1 pi )
.
ni

Modelao Estatstica II

2010-11

313 / 406

As funes de varincia

5) Na Gama,
b( ) = ln( ) ; logo
a( ) = 1 ,
Como = 1

b ( ) = 1

b ( ) =

1
2

A expresso genrica para a varincia de uma observao de Y o


produto de duas funes:

b ( ) apenas funo do parmetro natural ;

, tem-se:

E [Yi ] = b (i ) = i

J. Cadima (DM/ISA)

a( ) apenas funo do parmetro de disperso, .

2
e V [Yi ] = b (i ) a(i ) = i .
i

Modelao Estatstica II

2010-11

b ( ), designada a funo de varincia da distribuio de Y .

314 / 406

Funes de varincia (cont.)

fV ( ) = 1;

Poisson:

fV ( ) = ;

Bernoulli e Binomial/n:
Gama:

Modelao Estatstica II

2010-11

315 / 406

Estimao do parmetro de disperso

Como se viu, as funes de varincia das distribuies especficas


consideradas so:
Normal:

J. Cadima (DM/ISA)

Uma forma de estimar o parmetro de disperso est associado ao


nome de Pearson:

fV (p) = p(1 p);

fV ( ) = 2 .

Extenses aos Modelos Lineares Generalizados resultam de escolher


outras expresses para estas funes de varincia, procurando
acompanhar eventuais afastamentos das expresses acima indicadas.

n
i )2
wi (yi
1
,

n (p + 1) i=1 fv (i )

onde
i indica a estimativa do valor esperado de Yi ;

fv (
) indica a funo de varincia associada distribuio;
wi indicam possveis ponderaes.

Esta abordagem, proposta por Wedderburn, est ligada ao conceito


de quasi-verosimilhana.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

316 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

317 / 406

Exemplos de estimao de

Estatstica de Pearson generalizada

1) Em modelos com varivel resposta Normal, tem-se = 2 .


Tendo em conta que a funo varincia para esta distribuio
fv ( ) = 1, e admitindo a igualdade de varincias (wi = 1),

Alm dos desvio e desvio reduzido, tm sido utilizados outros critrios


de avaliao do desempenho de um MLG.

= 2 =

n
1
(yi i )2 ,
n (p + 1) i=1

A estatstica de Pearson generalizada definida como:

2 =

que o habitual Quadrado Mdio Residual da Regresso Linear.


2) Em modelos com varivel resposta Gama, tem-se = 1 .
Como fV ( ) = 2 , tem-se

Para componentes aleatrias Normais e admitindo igualdade de


varincias, a habitual Soma de Quadrados Residual (SQRE ).
Em geral, valores baixos da estatstica 2 indicam uma
proximidade global entre os valores de Yi e os valores mdios
estimados, i , o que corresponde a uma boa correspondncia
entre os dados e o modelo ajustado.

n
i )2
1
1
wi (yi
=
=
.

n (p + 1) i=1
i

possvel mostrar que, em geral, se trata dum estimador


assintoticamente centrado de e numericamente estvel.
J. Cadima (DM/ISA)

Modelao Estatstica II

i )2
wi (yi
.
fv (
i )
i=1
n

2010-11

318 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

319 / 406

O AIC

Resduos e Validao do Modelo

O Critrio de Informao de Akaike (AIC) define-se, num MLG com p


preditores (e constante aditiva), como

O conceito de resduos, ei = yi yi , usado no Modelo Linear como


ferramenta para a validao das hipteses subjacentes ao Modelo,
tem de ser adaptado nos MLGs, onde, diversamente do que acontecia
nos Modelos Lineares, no se contempla a existncia de erros
aleatrios aditivos.

AIC = 2 L ( ; Y) + 2 (p + 1) .

Quanto menor o valor do AIC (para igual varivel resposta Y),


melhor o ajustamento do modelo.

Em Modelos Lineares Generalizados utilizam-se diversos conceitos de


resduos, sendo os principais os

O AIC pode ser usado como critrio de comparao de modelos e


submodelos, para um mesmo conjunto de observaes duma
dada componente aleatria.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

320 / 406

resduos de Pearson; e os
resduos do desvio.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

321 / 406

Resduos de Pearson

Resduos de Pearson (cont.)

Como base da ideia de resduos de Pearson est a comparao


normalizada entre valores observados de Yi e correspondentes
i ] = i .
estimativas dos seus valores esperados, E [Y

No denominador tem-se a raz quadrada da funo de varincia


associada observao Yi correspondente. A expresso para esta
funo de varincia diferente para cada distribuio de Y .

Resduos de Pearson
Seja Y1 , Y2 , ..., Yn uma amostra aleatria de uma Componente
Aleatria dum Modelo Linear Generalizado. Designa-se resduos de
Pearson de cada observao raz quadrada da contribuio de cada
observao para a estatstica de Pearson generalizada:

) wi
(Yi
p i
ri P =
fv (
i )

Normal: Tem-se fv (
i ) = 1. O resduo de Pearson o habitual
resduo do Modelo Linear:
i
riP = Yi
i ) = p
i (1 p
i ). O resduo de Pearson :
Bernoulli: Tem-se fv (p
riP = p

i
Yi p
i (1 p
i )
p

As ponderaes wi so utilizadas, por exemplo, no caso da Binomial/n.


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

322 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

323 / 406

Resduos de Pearson (cont.)

Resduos de Pearson (cont.)

i ) = p
i (1 p
i ), mas definem-se
Binomial/n: Tem-se de novo fv (p
ponderaes wi = ni , pelo que o resduo de Pearson dado por:
i
Y p
riP = q i

Dada a funo de ligao, os resduos de Pearson podem ser


expressos em termos dos preditores lineares:
Numa Regresso Logstica tem-se:

i (1p
i )
p
ni

i ) =
i . O resduo de Pearson :
Poisson: Tem-se fv (
riP

Numa Regresso Probit fica:

i
Yi
= q
i

riP = q

i
Y
riP = i
i

riP

Modelao Estatstica II

Yi (xti )
(xti ) 1 (xti )

Num modelo Log-log do complementar vm:

i2 . O resduo de Pearson :
Gama: Tem-se fv (
i ) =

J. Cadima (DM/ISA)

Yi (1 + exi ) 1
q
t
exi

riP =

2010-11

324 / 406

Resduos do Desvio

J. Cadima (DM/ISA)



xt
Yi 1 ee i

= r

1 ee

xt
i

  xt 
ee i

Modelao Estatstica II

2010-11

325 / 406

Resduos do desvio (cont.)

Um conceito alternativo de resduo baseia-se na analogia entre o


Desvio no estudo dum MLG, e da Soma de Quadrados dos Resduos
no Modelo Linear.

Concretizando:
i )2 . O resduo do Desvio vem:
Normal: Tem-se di = (yi
i
riD = yi

Resduos do Desvio
Seja Y1 , Y2 , ..., Yn uma amostra aleatria de uma Componente
Aleatria dum Modelo Linear Generalizado. Seja

No caso do Modelo Linear, os resduos do Desvio so os


habituais resduos.
Bernoulli: tem-se

D=

di

i ) + (1 yi ) ln(1 p
i )] =
di = 2 [yi ln(p

i=1

Os resduos do Desvio para Y Bernoulli so:


 p
p
i )
2 ln(1 p
p
i ) di =
riD = sinal(yi p
i )
2 ln(p

o seu Desvio. Designa-se resduo do Desvio da observao i a:


p
i ) di
ri D = sinal(yi

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

i )
2 ln(1 p
i )
2 ln(p

326 / 406

Resduos do Desvio (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

se
se

yi = 0
yi = 1

se
se

yi = 0
yi = 1

2010-11

327 / 406

Resduos do Desvio (cont.)

Binomial/n: tem-se
(

di =

h
 
i

1yi
2ni yi ln pyi + (1 yi ) ln 1
pi
i
i ) (1 yi ) ln(1 p
i )]
2ni [yi ln(p

se
se

yi =
6 0, 1
yi {0, 1} .

Gama: neste caso

Os resduos do Desvio para Y Binomial/n so:


riD =

2ni yi ln

 
yi
i
p

+ (1 yi ) ln

1yi
1
pi

 i
)

i ) + (1 yi ) ln(1 p
i )]
2ni [yi ln(p

Poisson: Neste caso

"

di = 2 yi ln

yi

se

yi 6= 0, 1

se

yi {0, 1} .

 
i
y
yi
ln i
i
i

Os resduos do Desvio para Y Gama so:


s 
 
i
y
yi
D
i ) 2 i
ri = sinal(yi
ln
i
i


di = 2

)
(yi
i

Os resduos do Desvio para Y Poisson so:


riD

J. Cadima (DM/ISA)

v "
u
u

= sinal(yi i ) t2 yi ln

Modelao Estatstica II

yi

#
)
(yi
i

2010-11

328 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

329 / 406

Os Resduos estandardizados

Os Resduos estandardizados

Tal como no estudo do modelo linear, usual definir resduos


estandardizados que resultam de dividir os resduos usuais por uma
medida global da sua variabilidade.

em vez de QMRE , a estimativa do parmetro de disperso, .

No modelo linear, os resduos estandardizados definem-se como:


ri

Nos MLGs, define-se um conceito anlogo, com as devidas


substituies:
em vez da matriz H = X(Xt X)1 Xt , a matriz

ei
p
,
QMRE (1 hii )

H = W1/2 X(Xt WX)1 Xt W1/2 ,

onde

sendo W a matriz referida aquando da discusso do Mtodo de


Fisher (Acetatos 266 e seguintes).

QMRE estima a varincia 2 dos erros aleatrios; e


hi,i a leverage (efeito alavanca) da i-sima observao, dada
pelo i-simo elemento diagonal da matriz de projeco ortogonal,
H = X(Xt X)1 Xt .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

330 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

331 / 406

Resduos estandardizados de Pearson e do Desvio

Os Resduos no

Os resduos de Pearson estandardizados definem-se como:

Tal como no modelo linear, o R disponibiliza funes para o clculo


dos resduos.

ri P

rP
q i
(1 hii )

i )
(Yi

(1 hii ) fv (
i )

residuals calcula os resduos (no estandardizados). Por


omisso, trata-se dos resduos do desvio:
> residuals(toxico.glm)
1
2
3
4
5
6
-0.1785893 -1.5621554 0.6421616 -0.6229189 1.2091715 -0.1955369
8
9
10
11
12
-0.5679427 1.4211256 -1.7989247 1.9850357 -1.4380000

Os resduos do Desvio estandardizados definem-se como:


ri D

riD

Podem obter-se os resduos de Pearson explicitando a opo


type=pearson.

(1 hii )

Tambm se podem definir resduos studentizados, resultantes de


estimativas de obtidas sem a i-sima observao, embora sejam
computacionalmente pesadas.

J. Cadima (DM/ISA)

Os Resduos no

7
0.7903046

Modelao Estatstica II

2010-11

332 / 406

(cont.)

> residuals(toxico.glm, type="pearson")


1
2
3
4
5
6
-0.1740663 -1.1216744 0.6710920 -0.5922706 1.2433189 -0.1944047
8
9
10
11
12
-0.5702404 1.3022474 -1.9324076 1.4389199 -1.6287271

J. Cadima (DM/ISA)

7
0.7822631

Modelao Estatstica II

2010-11

333 / 406

Os Resduos na Validao de um MLG


Os resduos podem ser utilizados para:
estudar a validade da hiptese distribucional associada sua
componente aleatria;

Os resduos estandardizados do desvio podem ser obtidos


atravs do comando rstandard:
> rstandard(toxico.glm)
1
2
3
4
5
6
-0.1940009 -1.6969641 0.7077878 -0.6865786 1.3122925 -0.2122128
8
9
10
11
12
-0.6139834 1.5767825 -1.9959623 2.2022768 -1.5953739

estudar a adequabilidade da componente sistemtica como


preditor linear;

7
0.8543712

estudar a adequabilidade da funo de ligao escolhida;

Resduos externamente estandardizados, cujas estimativas do


parmetro de disperso no envolvem a prpria observao
associada ao resduo obtm-se atravs do comando rstudent
> rstudent(toxico.glm)
1
2
3
4
5
6
-0.1932594 -1.6330486 0.7135305 -0.6807268 1.3179548 -0.2120277
8
9
10
11
12
-0.6143426 1.5528805 -2.0245860 2.1019875 -1.6371460

7
0.8531218

como diagnsticos na procura de observaes com


particularidades especiais.
Para uma discusso geral mais aprofundada, sugere-se a consulta de
McCullagh & Nelder (1989);
Turkman & Silva (2000).
Para MLGs especficos h tcnicas de estudo de resduos especficas.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

334 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

335 / 406

O estudo dos resduos (cont.)

O estudo dos resduos (cont.)

Sugerem-se as seguintes inspeces grficas:


1) Resduos contra transformaes das esperanas estimadas:
o grfico correspondente ao grfico de resduos vs. valores
ajustados no Modelo Linear. Em MLGs, estas transformaes diferem
consoante a distribuio dos Yi , na tentativa de fazer com que os
grficos tenham uma leitura semelhante do Modelo Linear.
As transformaes sugeridas por McCullagh & Nelder (1989) so:
para Y Normal de mdia ;

p
para Y Poisson de parmetro ;
2
) para Y Bernoulli de parmetro p.
2arcsin(p

Num bom ajustamento do MLG, os resduos neste grfico devem


dispersar-se em torno de zero, sem ordem aparente, e dentro duma
banda horizontal de amplitude constante.
Curvaturas em grficos deste tipo sugerem a possibilidade de escolha
errada de funo de ligao ou a necessidade de transformao de
uma ou mais variveis preditoras.
McCullagh & Nelder sugerem a utilizao dos resduos do desvio
estandardizados neste tipo de grficos.

2 ln para Y Gama de parmetro .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

336 / 406

O estudo dos resduos (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

337 / 406

O estudo dos resduos (cont.)

Um exemplo deste tipo de grfico (sem problemas aparentes) com os

dados do Exerccio 1 (menarche) e utilizando a transformao de p


adequada para dados dicotmicos, :
2) resduos contra cada varivel preditora: trata-se dum tipo de grfico
tambm anlogo ao que foi considerado no caso do Modelo Linear, e
de leitura semelhante.

> plot(2*asin(sqrt(fitted(menarche.probit))),rstandard(menarche.probit),pch=16)

1.0
0.5
0.5 0.0

Um padro evidente neste grfico indicia ou uma funo de ligao


errada, ou a necessidade duma transformao do preditor.

1.5

rstandard(menarche.probit)

1.5

A sua utilidade tanto maior quanto menor fr o nmero de variveis


preditoras.

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2 * asin(sqrt(fitted(menarche.probit)))

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

338 / 406

O estudo dos resduos (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

339 / 406

O estudo dos resduos (cont.)

Um exemplo deste tipo de grfico (sem problemas aparentes) com os


dados do Exerccio 1 (menarche) :
> plot(menarche$Age, rstandard(menarche.probit), pch=16)

0.5 0.0

0.5

1.0

: til para
4) mdulo dos resduos contra os valores ajustados de
estudar se a funo de varincia admitida plausvel, em cujo caso os
pontos devem dispersar-se numa banda horizontal, sem padro
evidente.

1.5

rstandard(menarche.probit)

1.5

3) resduos contra ordem de observao: caso faa sentido, este tipo


de grfico pode indicar a presena de correlao entre observaes
que se desejam independentes.

10

12

14

16

menarche$Age

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

340 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

341 / 406

Observaes influentes

MLGs no estudo de tabelas de contingncia

No modelo linear, o conceito de influncia indica uma observao cuja


excluso do conjunto de dados conduziria a alteraes importantes
nos valores ajustados. A forma usual de medir a influncia de
observaes no modelo linear atravs da distncia de Cook.

MLGs admitem qualquer tipo de variveis preditoras - quantitativas,


qualitativas, ou de ambos os tipos.

Em MLGs, um conceito anlogo resulta de considerar, para a


observao i a seguinte analogia com a distncia de Cook:
Di

Trata-se de um contexto onde a componente aleatria corresponde a


contagens (varivel discreta), que se pretendem relacionar com os
nveis de um ou mais factores.

( (i) )t (Xt W X)( (i) )


,
(p + 1)

onde (i) indica o vector de estimativas dos parmetros que


resultaria de omitir a i-sima observao.
No R podem obter-se pelo comando cooks.distance.

J. Cadima (DM/ISA)

Modelao Estatstica II

No entanto, a importncia dos MLGs - e, em particular, dos Modelos


Log-lineares - no estudo de tabelas de contingncia, merece uma
referncia especial.

2010-11

So frequentes os casos onde a varivel resposta se pode considerar


como tendo uma distribuio de Poisson, ou ainda binomial ou a sua
generalizao multinomial

342 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

343 / 406

Tabelas de contingncia para 2 factores

Tabelas de contingncia para 2 factores (cont.)

Consideremos o caso frequente de tabelas de contingncia com dois


factores de classificao.

Quando no h restries sobre o nmero total de observaes, ou


sobre qualquer das margens (como ser o caso nas tabelas de locais
espcies), pode ser admissvel considerar as contagens como
observaes independentes de distribuies de Poisson.

Exemplo: uma tabela de contagens de observaes de espcies


(primeiro factor) em vrios locais (segundo factor).
Uma tal tabela tem o seguinte aspecto.
Nveis do
Factor A
1
2
..
.
a1
a
Marginal de B

J. Cadima (DM/ISA)

1
n11
n21
..
.
n(a1),1
na1
n1

Nveis do Factor B
2

b1
n12

n1,(b1)
n22

n2,(b1)
..
...
...
.
n(a1),2 n(a1),(b1)
na2

na,(b1)
n2

n(b1)

Modelao Estatstica II

b
n1,b
n2,b
..
.
n(a1),b
na,b
nb

Marginal
de A
n1
n2
..
.
n(a1)
na
n = n..

2010-11

344 / 406

Numa situao dessas, ser de considerar um modelo com algumas


semelhanas aos modelos ANOVA, mas em que a varivel resposta
Yij = nij , tenha distribuio Poisson.
Neste contexto, um modelo tipo ANOVA factorial em que, alm de
efeitos principais de cada factor, se prevejam efeitos de interaco
entre os dois factores, um modelo saturado, uma vez que:
h apenas uma observao em cada uma das ab clulas (a
contagem nij );
h ab parmetros num modelo factorial com interaco.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

345 / 406

A hiptese de independncia

A hiptese de independncia (cont.)

Mais til sero modelos associados a hipteses mais especficas


sobre a natureza da relao entre os factores associados tabela.
Em particular a hiptese de independncia entre os factores
interessante.

Uma vez que o valor da varivel resposta , neste caso, dada por um
produto, surge de forma natural a ideia de logaritmizar, gerando ento
a equao de base:

ln E [Yij ]
= ln(n) + ln(pi. ) + ln(p.j )

Existindo independncia entre os factores, os valores esperados de


Yij = nij sero dados (para qualquer i e j) por:

Trata-se duma relao do tipo ANOVA a dois factores, sem interaco:

E [Yij ] = ij = n pij = n pi. p.j


ln E [Yij ]

onde:
n o nmero total de observaes;
pij a probabilidade duma observao recair na clula (i,j);
pi. a probabilidade marginal associada ao nvel i do Factor A;
p.j a probabilidade marginal associada ao nvel j do Factor B.
J. Cadima (DM/ISA)

Modelao Estatstica II

+ i + j

onde se pode considerar (embora mais tarde se modifique):

2010-11

346 / 406

= ln(n) uma constante comum a todas as observaes;


i = ln(pi.) um efeito associado ao nvel i do factor A;
j = ln(p.j ) um efeito associado ao nvel j do factor B.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

347 / 406

A hiptese de independncia (cont.)

As restries aos parmetros

Estamos perante um Modelo Log-linear com:

Consideramos

componente aleatria Poisson;


funo de ligao logartmica (ligao cannica da Poisson);
componente sistemtica dada por variveis indicatrizes de nveis
de cada factor.
Tal como nas ANOVAs clssicas, vrias convenes so possveis
para resolver o problema de sobreparametrizao que resultaria de se
admitirem indicatrizes para todos os nveis dos dois factores.
Iremos adoptar uma conveno anloga usada no estudo do Modelo
Linear, considerando que a clula associada ao primeiro nvel de cada
factor uma clula de referncia, sendo a situao nas restantes
clulas comparada com essa clula de referncia.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

348 / 406

O modelo log-linear a dois factores

11 = E [Y11 ] = n p1. p.1


ij = E [Yij ] = n pi. p.j = 11

pi. p.j

p1. p.1

, i =1:a , j =1:b

Logaritmizando, temos as relaes


ln(11 ) = ln(E [Y11 ]) = ln(n) + ln(p1. ) + ln(p.1 )
 
 
p.j
pi.
+ ln
, i, j
ln(ij ) = ln(E [Yij ]) = ln(11 ) + ln
| {z }
p1.
p.1
| {z } | {z }
=
= i

J. Cadima (DM/ISA)

=j

Modelao Estatstica II

2010-11

349 / 406

O modelo log-linear a dois factores (cont.)


O valor de n, o nmero total de observaes, conhecido.

Tem-se a relao caracterstica de um modelo ANOVA a dois factores,


sem interaco,

ln(ij ) = ln E [Yij ] = + i + j , i , j ,

Os estimadores de mxima verosimilhana dos parmetros , i e j


sero dados de forma directa pelas frequncias relativas marginais:
i. =
p

Repare que, por definio, 1 = 1 = 0, e:

= ln(11 ) e
i = ln pp1.i.
ei
 
p.j
j = ln p.1
ej

= 11
=
=

pi.
p1.
p.j
p.1



n n
= ln n 1. .1
n.. n..
 
ni.
i = ln

n
 1. 
n.j
j = ln
n.1

(i = 2 : a)
(j = 2 : b)

Ateno: aqui, no uma mdia.

Modelao Estatstica II

2010-11

.j =
p

n.j
,
n..

pelo que

n p1. p.1

o que d interpretaes teis para os parmetros i e j .

J. Cadima (DM/ISA)

ni.
n..

350 / 406

J. Cadima (DM/ISA)


=

Modelao Estatstica II

ln

n1. n.1
n..

2010-11

351 / 406

O Desvio mede afastamento da independncia

A estatstica 2 de Pearson

O Desvio associado ao modelo uma medida do grau de afastamento


da hiptese de independncia.

A abordagem ao estudo das tabelas de contingncia considerada aqui


uma abordagem alternativa ao estudo de independncia atravs do
conhecido teste do Qui-quadrado, baseado na estatstica de Pearson.

J vimos que saturar este modelo log-linear a dois factores


corresponde a prever efeitos de interaco. Nesse modelo, cada
clula livre de ter o seu valor, sem qualquer estrutura especial
associada tabela.

A tradicional estatstica do teste 2 para testes de independncia,


dada por
a b (O E
ij )2
ij
,
2 =
ij
E
i=1 j=1

O Desvio do modelo sem interaco corresponde ao valor da


estatstica de Wilks para uma comparao do submodelo sem
interaco (isto , a hiptese de independncia) face ao modelo
saturado, com interaco (sem qualquer relao especial). A rejeio
da hiptese nula corresponde a rejeitar a hiptese de independncia
entre os factores.

onde Oij = nij indica o nmero de observaes na clula (i, j) e


ij = n.. p
.j indica o nmero esperado estimado de observaes
i. p
E
nessa mesma clula.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

352 / 406

Esta estatstica a estatstica de Pearson generalizada para o modelo


log-linear a dois factores, uma vez que para distribuies de Poisson,
a funo varincia fv ( ) = .
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

353 / 406

A estatstica 2 de Pearson (cont.)

Tabelas de contingncia com trs factores

Assim, sabemos que para este tipo de modelos log-lineares, a


estatstica de Pearson generalizada tm, assintoticamente,
distribuio 2 .

Vejamos agora o contexto de tabelas de contingncia com trs


factores de classificao:
um factor A com a nveis,
um factor B com b nveis, e

Com o teste de Wilks para testar a hiptese de independncia, sero


de esperar resultados anlogos aos que se obtm com o teste do
qui-quadrado.
O estudo de tabelas de contingncia atravs de modelos log-lineares
ganha mais interesse quando se considera o caso de tabelas com trs
(ou mais) factores de classificao.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

um factor C com c nveis.


Os dados so contagens nijk do nmero de observaes na clula
(i, j, k) (i = 1 : a , j = 1 : b e k = 1 : c).
Uma tabela deste tipo corresponde a uma matriz tri-dimensional.

354 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

355 / 406

Tabelas de contingncia com trs factores (cont.)

Conceitos de independncia com 3 factores

Admita-se que as contagens em cada clula duma tabela com trs


factores de classificao so observaes independentes com
distribuio de Poisson, de parmetros ijk .

Consideremos agora vrios conceitos de independncia relacionados


com trs factores A, B e C.
Sejam
A, B e C trs factores com, respectivamente, a, b e c nveis;

O modelo mais geral um modelo log-linear do tipo ANOVA factorial,


a 3 factores, com todas as possveis interaces (tripla e os trs tipos
de interaco dupla):

pijk a probabilidade duma observao pertencer ao nvel i do


factor A, j do factor B e k do factor C;

O modelo tem abc parmetros, e neste contexto saturado.

pij. a probabilidade (marginal) de uma observao recair no nvel i


do factor A e j do factor B, qualquer que seja o nvel do factor C
associado. Sejam pi.k e p.jk probabilidades definidas de forma
anloga.

De novo, os modelos teis correspondem a modelos com algum tipo


de estrutura associada tabela.

pi.. a probabilidade (marginal) da observao recair no nvel i do


factor A, qualquer que sejam os nveis dos outros dois factores.
Sejam p.j. e p..k as probabilidades marginais anlogas para B e C.

log(E [Yijk ]) = + i + j + k + ( )ij + ( )ik + ( )jk + ( )ijk .

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

356 / 406

Conceitos de independncia (cont.)


1

J. Cadima (DM/ISA)

pi.. p.j. p..k

i, j, k ;
diz-se que A, B e C so independentes se forem

diz-se que A conjuntamente independente de B e C se


pijk

pi.. p.jk

i, j, k

(definies anlogas para os outros casos anlogos);


diz-se que A e B so condicionalmente independentes de C se
pij|k

357 / 406

Conceitos de independncia (cont.)

2010-11

diz-se que A, B e C so mutuamente independentes se


pijk

Modelao Estatstica II

pi.|k p.j|k

i, j, k

pi.. p.j.

Existem relaes de implicao entre vrios destes tipos de


independncia.
imediato a partir da definio que a independncia implica a
independncia mtua e ainda a independncia marginal de qualquer
dos possveis pares de factores.

(definies anlogas para os outros casos anlogos);


diz-se que A e B so marginalmente independentes se
pij.

mutuamente independentes e
os trs pares (A,B), (A,C) e (B,C) forem marginalmente
independentes.

i, j

(definies anlogas para os outros casos anlogos);


J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

358 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

359 / 406

Relaes de conceitos de independncia

Relaes de conceitos de independncia (cont.)


Se A conjuntamente independente de (B,C), ento

Se A, B e C so factores mutuamente independentes, cada factor


conjuntamente independente dos outros dois. I.e., (isolando C):
pijk = pi.. p.j. p..k

k =1

pijk =

k =1

Ou seja,

pi.. p.j. p..k = pi.. p.j.

k =1

pijk = pi.. p.jk

pijk = pij. p..k ,

Dem.: Basta mostrar que A e B so marginalmente independentes


(pij. = pi.. p.j. ). Ora, se A, B e C so mutuamente independentes,
pij. =

(A,B) so condicionalmente independentes de C; e


(A,C) so condicionalmente independentes de B.

Dem: Tem-se (no primeiro caso),


pi.. p.jk
pijk
=
= pi.. p.j|k ,
p..k
p..k

pij|k =

donde, somando ao longo do ndice j se tem

p..k = pi.. p.j. ,

pi.|k =

= 1. A demonstrao
uma vez que necessariamente
anloga para qualquer outra das independncias conjuntas.
ck =1 p..k

j=1

pij|k = pi..

j=1

Modelao Estatstica II

2010-11

360 / 406

Relaes de conceitos de independncia (cont.)

J. Cadima (DM/ISA)

a independncia marginal de A e C; e
a independncia marginal de B e C.

ou seja,

pijk = pij. p..k

pi.k = pi.. p..k


p.jk = p.j. p..k

, i, j, k .
, i, j, k .
3

Dem.: O resultado evidente somando (no primeiro caso) a equao


inicial em j:
pi.k =

pijk =

pij. p..k = pi.. p..k .

j=1

j=1

A independncia marginal de B e C sai de forma anloga.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

pi.|k p.j|k .

Modelao Estatstica II

2010-11

361 / 406

Como j se tinha mostrado que a independncia mtua dos trs


factores implica a independncia conjunta de, digamos, (A,B) com
C, o ltimo ponto do Teorema anterior mostra que a
independncia mtua dos trs factores implica a independncia
marginal de qualquer par desses factores.
possvel exemplificar que a independncia marginal de,
digamos, A e C no implicada pela independncia condicional
de (A,B) face a C.
A independncia condicional pode escrever-se apenas custa de
probabilidades marginais. De facto, a partir da definio de
independncia condicional tem-se a seguinte expresso
alternativa para a definio de A e B serem independentes
condicionalmente a C:
pi.k p.jk
pij|k =
p..k

A independncia conjunta de (A,B) com C implica

Notas
1

p.jk
= pi.. .
p..k

Substituindo a expresso para pi.. , obtem-se o resultado desejado:


pij|k

J. Cadima (DM/ISA)

pij.|k = pi..|k p.j.|k


pi.k |j = pi..|j p..k |j

362 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

363 / 406

Modelo para a independncia mtua

Modelo para a independncia mtua (cont.)

Vejamos como, associados a cada uma destes tipos de


independncia, se pode definir um modelo log-linear adequado, de tal
forma que s implicaes referidas correspondam submodelos
encaixados.

Tendo mais uma vez em conta a necessidade de evitar dependncias


lineares nas colunas da matriz do delineamento, j estudados em
Modelao Estatstica I, iremos re-escrever a equao base da
relao sob a forma

Por analogia com o caso a dois factores, a independncia mtua dos


trs factores significa que o valor esperado do nmero de
observaes na clula (i, j, k) dado por
E [Yijk ]

n pijk


ln E [Yijk ]

E[Y111 ]

n p1.. p.1. p..1

E[Yijk ]

n pi.. p.j. p..k


p.j. p..k
p
111 i..

p1.. p.1. p..1

i =2:a, j =2:b , k =2:c

Logaritmizando, temos as relaes


=

ln(n) + ln(pi.. ) + ln(p.j. ) + ln(p..k ) ,

que uma equao do tipo de um modelo ANOVA para trs factores,


sem qualquer tipo de interaco:

ln E [Yijk ]
= + i + j + k .
J. Cadima (DM/ISA)

ijk

n pi.. p.j. p..k .

Logaritmizando, tem-se
ln(ijk )

111

Modelao Estatstica II

2010-11

364 / 406

ln(111 )
ln(ijk )

=
=

J. Cadima (DM/ISA)

ln(E[Y111 ])

ln(E[Yijk ])

ln(n) + ln(p1.. ) + ln(p.1. ) + ln(p..1 )








p.j.
pi..
p..k
ln(111 ) + ln
+ ln
+ ln
p1..
p.1.
p..1
, i =2:a , j =2:b , k =2:c

Modelao Estatstica II

2010-11

365 / 406

Modelo para a independncia mtua (cont.)

Modelo para a independncia mtua (cont.)

Assim, o modelo associado independncia mtua dos trs factores


um modelo tipo ANOVA a 3 factores, sem qualquer tipo de interaco,

Neste modelo, os trs tipos de efeitos, i , j e k so log-razes de


probabilidades. Uma transio de uma observao do primeiro nvel
de referncia do factor A para o nvel i desse mesmo factor
corresponde (mantendo o resto igual) a multiplicar por ei o valor
esperado da contagem de clula .

ln(ijk )

+ i + j + k

i =2:a , j =2:b , k =2:c ,

onde

= ln(111)
i..
i = ln pp1..
 
p.j.
j = ln p.1.
 
k = ln pp..k
..1

= 111

ei

ej

ek

J. Cadima (DM/ISA)

pi..
p1..
p.j.
p.1.
p..k
p..1

Os estimadores de mxima verosimilhana de cada um destes efeitos


resultam de substituir cada uma das probabilidades marginais pela
frequncia relativa correspondente. Por exemplo, para qualquer i, a
i.. = nni.. .
probabilidade marginal pi.. estimada por p
...

n p1.. p.1. p..1

(i = 2 : a)
(j = 2 : b)

O modelo log-linear para a independncia mtua dos factores A,B e C


pode ser representado, de forma mnemnica, como (A,B,C), indicando
a existncia de apenas trs efeitos principais dos nveis de cada factor.

(k = 2 : c) .

Modelao Estatstica II

2010-11

366 / 406

Modelos para independncias conjuntas

ijk = E [Yijk ] = n pijk = n pi.. p.jk .


Para modelar esta relao, iremos admitir, para o logaritmo deste valor
esperado, um modelo tipo ANOVA com:
uma parcela comum a todas as observaes;
parcelas de efeitos principais de cada factor; e
parcelas de interaco entre os factores B e C.
=

J. Cadima (DM/ISA)

+ i + j + k + ( )jk .
Modelao Estatstica II

2010-11

368 / 406

Modelos para independncias conjuntas (cont.)

no necessria a tripla interaco;


tendo em conta que a independncia conjunta implica a
independncia marginal, quer de A e B, quer de A e C, tambm as
parcelas das duplas interaces referidas so dispensveis.

um modelo para a relao B-C sem qualquer tipo especial de


estrutura seria um modelo com parcelas de efeitos principais dos
factores B e C e ainda de interaco B-C. Falta ainda cobrir os
efeitos do factor A, pi.., tornando-se assim necessrio acrescentar
parcelas de efeitos principais do factor A.
Modelos em que, havendo efeitos de interaco, h efeitos dos
factores individuais envolvidos nessas interaces chamam-se
modelos hierarquizados.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

369 / 406

Para obter as parcelas do tipo j , efeitos principais do factor B,


considerem-se as parcelas associadas a clulas com i = k = 1, mas
j > 1. Teremos ento, para j = 2 : b,

ijk = E [Yijk ] = n pi.. p.jk .


Considerando a clula de cruzamento dos nveis i = j = k = 1 como
clula de referncia, tem-se:

367 / 406

Modelos para independncias conjuntas (cont.)

Pode construir-se o modelo a partir da ideia-base que

111 = E[Y111 ] = n p111 = n p1.. p.11

2010-11

Este tipo de modelo justifica-se porque:


Em relao ao modelo saturado, que admite todos os tipos de
efeitos, a independncia conjunta de (B,C) com A significa que:

Logo, o nmero esperado de observaes na clula (i, j, k)

ln ijk

Modelao Estatstica II

Modelos para independncias conjuntas (cont.)

Como vimos na definio do conceito, a independncia conjunta de,


digamos, o factor A face ao par (B,C) significa que pijk = pi.. p.jk , para
qualquer i, j, k.

J. Cadima (DM/ISA)

ln(111 ) = ln(n p1.. p.11 ) =

1j1 = E[Y1j1 ]

ln(1j1 )

 p.j1
n p1j1 = n p1.. p.j1 = n p1.. p.j1
p.11




p.j1
p.j1
= + ln
ln(n p1.. p.11 ) + ln
p.11
p.11
| {z }
= j

Agora, consideremos as clulas em que a esta parcela se acrescenta


apenas um dos efeitos principais do factor A, ou seja, uma clula em
que j = k = 1, mas i > 1. Teremos ento, para i = 2 : a,
i11 = E[Yi11 ]

ln(i11 )

p
npi11 = n pi.. p.11 = (n p1.. p.11 ) i..
p1..




pi..
pi..
ln(n p1.. p.11 ) + ln
= + ln
p1..
p1..
| {z }

Consideremos ainda as clulas em que a apenas se acrescenta


um dos efeitos principais do factor C, ou seja, uma clula em que
i = j = 1, mas k > 1. Teremos ento, para k = 2 : c,
11k = E[Y11k ]

ln(11k )

= i

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

p
n p11k = n p1.. p.1k = (n p1.. p.11 ) .1k
p.11




p.1k
p.1k
= + ln
ln(n p1.. p.11 ) + ln
p.11
p.11
| {z }
= k

370 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

371 / 406

Modelos para independncias conjuntas (cont.)

Modelos para independncias conjuntas (cont.)

Falta apenas obter as parcelas de interaco B-C, ( )jk .

este o modelo associado independncia conjunta de (B,C) com A:


ln ijk

Consideremos uma clula em que i = 1, mas j, k 6= 1: Nesse caso,


temos, para j = 2 : b e k = 2 : c,
1jk = E[Y1jk ]

ln(11k )

( )jk

p.j1 p.1k p.jk p.11


p.11 p.11 p.j1 p.1k






p.j1
p.jk p.11
p.1k
ln(n p1.. p.11 ) + ln
+ ln
+ ln
p.11
p.11
p.j1 p.1k


p.jk p.11
+ j + k + ln
p.j1 p.1k
{z
}
|

Os valores esperados do nmero de observaes em outras clulas,


ijk = E [Yijk ], obtm-se somando as correspondentes parcelas do tipo
j referido.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

372 / 406

Modelos para independncias conjuntas (cont.)

As estimativas de mxima verosimilhana so as que se obtm

substitundo cada probabilidade p pela respectiva estimativa p


resultante de tomar a proporo de observaes na clula ou margem
.jk = nn.jk .
correspondente. Assim, por exemplo, p
...

Modelao Estatstica II

2010-11

ln(n p1.. p.11 )




pi..
ln
i = 2 : a
p1..


p.j1
ln
j = 2 : b
p.11


p.1k
ln
k = 2 : c
p.11


p.jk p.11
j = 2 : b , k = 2 : c
ln
p.j1 p.1k

Os restantes modelos de independncia conjunta de B face a (A,C)


ou C face a (A,B) so anlogos, trocando o papel de cada factor.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

373 / 406

Testes a tipos de independncia

Para este tipo de modelos, os efeitos principais de cada factor mantm


a sua natureza de log-razes de probabilidades, embora a
interpretao do efeito de interaco, ( )jk seja mais complexa.

J. Cadima (DM/ISA)

i = 2 : a, j = 2 : b, k = 2 : c .

sendo

np1jk = n p1.. p.jk = (n p1.. p.11 )

= ( )jk

+ i + j + k + ( )jk ,

374 / 406

Como se viu anteriormente, a independncia mtua implica a


independncia conjunta de cada factor com o par restante (embora a
implicao inversa no seja verdadeira).
Tendo em conta a relao dos modelos acima expostos com as
hipteses de independncia mtua e independncia conjunta de A
com (B,C), poderemos testar estas hipteses, em alternativa,
verificando se os correspondentes modelos encaixados diferem
significativamente, para o que podemos utilizar a teoria geral dos
MLGs anteriormente estudada.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

375 / 406

Testes a tipos de independncia (cont.)

Modelos para independncias condicionais

Ou seja, podemos comparar o desvio do modelo de independncia


conjunta de (B,C) com A (acetato 373):

ln ijk
= + i + j + k + ( )jk ,

Consideremos agora a independncia de um par de factores,


condicional ao terceiro factor, por exemplo, a independncia de (A,B),
condicional a C.

com o desvio do submodelo da independncia mtua (acetato 366):


ln(ijk )

+ i + j + k

Como foi salientado, esta independncia condicional pode escrever-se


apenas em termos das probabilidades conjuntas e marginais:

Se os modelos diferem significativamente, a hiptese de


independncia mtua deve ser rejeitada a favor da independncia
conjunta.

pijk

Os modelos log-lineares de independncia conjunta de um par com o


factor restante podem ser indicados de forma mnemnica com a
indicao de qual o par de factores que , conjuntamente,
independente do terceiro. Assim, por exemplo, o modelo acima A
pode ser referenciado como modelo (B:C).
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

376 / 406

pi.k p.jk
p..k

Tendo este facto em conta, ser necessrio que existam dois termos
de dupla interaco num modelo log-linear associado a esta hiptese:
a interaco A-C e a interaco B-C, que so ambas necessrias para
se poder dispensar a tripla interaco.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

377 / 406

Modelos para independncias condicionais (cont.)

Modelos para independncias condicionais (cont.)

Por um raciocnio anlogo ao utilizado no caso das independncias


conjuntas, o valor esperado na clula (i, j, k), no caso de haver
independncia de (A,B) condicional a C, ser da forma

ijk = E [Yijk ] = n pijk

Obtem-se o modelo da independncia de (A,B) condicional a C:



= + i + j + k + ( )ik + ( )jk ,
ln ijk
sendo

( )ik

( )jk

pi.k p.jk
=n
.
p..k

Para modelar esta relao, admite-se que o logaritmo deste valor


esperado uma soma tipo ANOVA, com:
uma parcela comum a todas as observaes;
parcelas de efeitos principais de cada factor; e ainda
parcelas de interaco entre os factores A-C e B-C.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

378 / 406



p p
ln n 11. 1.1
p1..


pi.1
ln
i = 2 : a
(1 = 0)
p1.1


p.j1
(1 = 0)
j = 2 : b
ln
p.11


p1.k p.1k p..1
(1 = 0)
ln
i = 2 : a
p1.1 p.11 p..k


pi.k p1.1
i = 2 : a , k = 2 : c
ln
[( )1k = ( )i1 = 0]
p1.k pi.1


p.jk p.11
ln
[( )1k = ( )j1 = 0]
j = 2 : b , k = 2 : c
p.1k p.j1

J. Cadima (DM/ISA)

Modelao Estatstica II

Modelos para independncias condicionais (cont.)

Testes a tipos de independncias

A justificao para esta opo de modelo est, como j se indicou, no


facto de ser possvel recuperar as probabilidades pijk , desde que se
mantenham as duas interaces duplas indicadas.

O modelo agora discutido contm como submodelos:

A justificao para estes parmetros do modelo est num raciocnio


anlogo ao que se utilizou no caso de modelos para independncias
conjuntas.
Os estimadores de mxima verosimilhana dos parmetros resultam
ser, mais uma vez, os que resultam de substituir cada probabilidade p
, dada pela frequncia
pela correspondente probabilidade estimada p
relativa correspondente na tabela.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

380 / 406

2010-11

379 / 406

o modelo de independncia mtua


(se todas as interaces so nulas);
o modelo de independncia conjunta de (B,C) com A
(se ( )ik = 0, para todo o i e k);
o modelo de independncia conjunta de (A,C) com B
(se ( )jk = 0, para todo o j e k).
Pode-se testar a independncia condicional em relao s duas
independncias conjuntas que surgem como casos particulares deste
modelo anulando, ou uma ou outra, das duplas interaces presentes.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

381 / 406

Tabela de independncias

O facto dos modelos surgirem como modelos encaixados est


associado s implicaes entre os tipos de independncia
considerados atrs.

A tabela indica as designaes mnemnicas para os vrios tipos de


modelos considerados at aqui.

Tal como para os modelos associados aos tipos anteriores de


independncias, pode recorrer-se a uma notao compacta, utilizando
os termos de dupla interaco presentes no modelo, para o descrever.
Assim, podemos representar o modelo da independncia de (A,B)
condicional a C como o modelo (A:C,B:C).

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

382 / 406

Notao
(A,B,C)
(B:C)
(A:B)
(A:C)

Tipo de Modelo
Independncia Mtua
Ind. conjunta (B,C) com A
Ind. conjunta (A,B) com C
Ind. conjunta (A,C) com B

Equao do Modelo para ln(ijk )


+ i + j + k
+ i + j + k + ( )jk
+ i + j + k + ( )ij
+ i + j + k + ( )ik

(A:C,B:C)

Ind. (A,B) condicional a C

+ i + j + k + ( )ik + ( )jk

pijk =

(A:B,B:C)

Ind. (A,C) condicional a B

+ i + j + k + ( )ij + ( )jk

pijk =

(A:B,A:C)

Ind. (B,C) condicional a A

(A:B:C)

Modelo Saturado

J. Cadima (DM/ISA)

+ i + j + k + ( )ij + ( )ik
+ i + j + k + ( )ij + ( )ik + ( )jk + ( )ijk

Modelao Estatstica II

Relao-base
pijk = pi.. p.j. p..k
pijk = pi.. p.jk
pijk = pij. p..k
pijk = pi.k p.j.
pi.k p.jk
p..k
pij. p.jk
p.j.
pij. pi.k
pijk = p
i..

2010-11

383 / 406

Um exemplo famoso

Um exemplo famoso (cont.)

Completemos a discusso de modelos log-lineares para tabelas de


contingncia com trs factores de classificao, com um exemplo
famoso, a que est associado o chamado paradoxo de Simpson. O
exemplo pode ser visto em mais pormenor no livro de A. Agresti
referido na bibliografia.
O exemplo tem por base dados reais relacionados com o sistema
jurdico dos EUA: 326 julgamentos em que o ru foi considerado
culpado de homcidio foram classificados de acordo com trs factores,
cada um dos quais possui apenas dois nveis.
raa do ru (branco ou negro);
raa da vtima (branco ou negro).

Modelao Estatstica II

Negro

Raa Vtima
Branco
Negro
Branco
Negro

Sentena
Pena de Morte Outra Pena
19
132
0
9
11
52
6
97

Tabela: Dados de 326 julgamentos por homicdio nos EUA de Radelet, M.


Racial characteristics and the imposition of the death penalty, American
Sociology Review, 1981, 46: 918-927.

Comecemos por analisar a tabela criando a data frame


> radelet
contagens sentenca raca.reu raca.vitima
1
19
Morte
branco
branco
2
0
Morte
branco
negro
3
11
Morte
negro
branco
4
6
Morte
negro
negro
5
132
Outra
branco
branco
6
9
Outra
branco
negro
7
52
Outra
negro
branco
8
97
Outra
negro
negro

sentena do ru (condenao morte, ou no);

J. Cadima (DM/ISA)

Raa Ru
Branco

2010-11

384 / 406

Um exemplo famoso (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

Os resultados sugerem que a interaco sentena:raa do ru a


menos significativa de todas, tendo-se repetido a anlise na sua
ausncia. Os resultados obtidos foram os seguintes.

Call: glm(formula = contagens ~ sentenca + raca.reu + raca.vitima +


sentenca:raca.reu + sentenca:raca.vitima + raca.reu:raca.vitima,
family = poisson)

Call: glm(formula = contagens ~ sentenca + raca.reu + raca.vitima +


sentenca:raca.vitima + raca.reu:raca.vitima, family = poisson)

Coefficients:

Coefficients:

Estimate Std. Error z value Pr(>|z|)


(Intercept)
3.0525
0.1878 16.251 < 2e-16 ***
sentencaOutra
1.8137
0.1969
9.212 < 2e-16 ***
raca.reunegro
-0.8741
0.1500 -5.828 5.60e-09 ***
raca.vitimanegro
-3.7820
0.5515 -6.858 6.99e-12 ***
sentencaOutra:raca.vitimanegro
1.0579
0.4635
2.282
0.0225 *
raca.reunegro:raca.vitimanegro
3.3116
0.3786
8.748 < 2e-16 ***
--Null deviance: 395.9153 on 7 degrees of freedom
Residual deviance:
1.8819 on 2 degrees of freedom
AIC: 49.563
Number of Fisher Scoring iterations: 4

Estimate Std. Error z value Pr(>|z|)


(Intercept)
2.9272
0.2297 12.746 < 2e-16 ***
sentencaOutra
1.9581
0.2451
7.991 1.34e-15 ***
raca.reunegro
-0.5001
0.3690 -1.355
0.1753
raca.vitimanegro
-4.0491
0.6065 -6.676 2.46e-11 ***
sentencaOutra:raca.reunegro
-0.4402
0.4009 -1.098
0.2722
sentencaOutra:raca.vitimanegro
1.3242
0.5193
2.550
0.0108 *
raca.reunegro:raca.vitimanegro
3.3580
0.3820
8.791 < 2e-16 ***
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 395.91531 on 7 degrees of freedom
Residual deviance:
0.70074 on 1 degrees of freedom
AIC: 50.382
Number of Fisher Scoring iterations: 4

Como a tabela de contingncias do tipo 2 2 2, cada linha dos


resultados est associada a um tipo de efeitos.
Modelao Estatstica II

2010-11

386 / 406

O modelo ajustado um modelo de independncia condicional dos


factores (Raa do ru,Sentena), face ao factor Raa da vtima.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

Um exemplo famoso (cont.)

Paradoxo de Simpson

Os valores estimados dos parmetros do modelo tm a interpretao


indicada no Acetato 379, simplificada pelo facto de haver apenas dois
nveis em todos os factores.

Vimos que a sentenas e raa do ru podem ser consideradas


independentes, dada a raa da vtima.

111 ) = 3.0525 significa que o valor esperado


= ln(
O valor estimado
na clula de referncia (a clula de condenao, para rus brancos e
vtimas brancas) e3.0525 = 21.1682 , prximo do valor observado (19).
2 = 1.8137 significa
No caso do primeiro factor (Sentena), o valor
que, em relao ao valor esperado para a clula de referncia, o valor
esperado na clula resultante de transitar para Outra sentena
(mantendo ru e vtima brancos) e1.8137 = 6.133 vezes maior, ou
seja, e1.8137 21.1682 = 126.3050, prximo do valor observado (132).

J. Cadima (DM/ISA)

Modelao Estatstica II

385 / 406

Um exemplo famoso (cont.)

Foi efectuada no R a anlise a um modelo log-linear apenas abaixo do


modelo saturado: um modelo com todas as duplas interaces, mas
sem tripla interaco. Os resultados obtidos foram os seguintes.

J. Cadima (DM/ISA)

2010-11

2010-11

388 / 406

387 / 406

Mas olhando para a tabela verifica-se que em nenhum caso, houve


condenao morte de um ru branco quando a vtima era negra,
enquanto que no caso de um ru negro e vtima branca, a proporo
de condenaes morte era mais elevada do que o habitual: 17.5%,
comparado com os 11.4% de condenaes morte globais, sendo a
mais alta das percentagens tambm de qualquer das combinaes de
raa do ru e raa da vtima.
Este exemplo ilustra uma situao conhecida por paradoxo de
Simpson.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

389 / 406

Tabelas parciais

Tabelas marginais

Comecemos por introduzir um conceito auxiliar. Designa-se por tabela


parcial uma sub-tabela resultante de fixar um nvel de um dos factores.
Por exemplo, a tabela parcial resultante de fixar o nvel Branco do
factor Raa da vtima a seguinte:
Raa Vtima
Branco

Raa Ru
Branco
Negro

Assim, por exemplo, a tabela marginal correspondente a Sentena vs.


Raa do ru obtm-se somando as entradas correspondentes para
ambas as raas da vtima e dada por:

Sentena
Pena de Morte Outra Pena
19
132
11
52

E a tabela parcial associada a fixar o nvel Negro do factor Raa da


vtima a seguinte:
Raa Vtima
Negro

J. Cadima (DM/ISA)

Raa Ru
Branco
Negro

Sentena
Pena de Morte Outra Pena
0
9
6
97

Modelao Estatstica II

O conceito de tabela parcial no deve ser confundido com o de tabela


marginal, que se obtm somando as contagens ao longo de todos os
nveis de um dos factores.

2010-11

390 / 406

Raa Ru
Branco
Negro
Freq. Marginal

J. Cadima (DM/ISA)

Sentena
Pena de Morte Outra Pena
19
141
17
149
36
290

Freq. marginal
160
166
326

Modelao Estatstica II

2010-11

391 / 406

O paradoxo de Simpson

O paradoxo de Simpson (cont.)

Analisando as tabelas parciais e marginal surge um resultado


aparentemente contraditrio.

Mas analisemos agora as tabelas parciais, em que se consideram


apenas as vtimas de uma ou outra cr. A tabela parcial para vtimas
de raa branca mostra como, nesse caso, a percentagem de rus
19
= 12.58%, sendo a
brancos condenados morte de 19+132
11
percentagem para os rus negros de 11+52
= 17.46%, e portanto
superior.

Ao inspeccionar a tabela marginal, vemos que a proporo de rus


19
= 11.875%. A mesma
brancos condenados morte foi de 160
17
= 10.241%.
proporo para rus negros foi de 166
Ou seja, juntando as vtimas das duas raas, a percentagem de
brancos condenados morte superior percentagem de negros
condenados morte.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

392 / 406

Analisando a tabela parcial para vtimas de raa negra temos que,


nesse caso, a percentagem de rus brancos condenados morte de
0%, enquanto que a percentagem de rus negros condenados
6
morte de 6+97
= 5.83%. Assim, controlando a raa da vtima, e
qualquer que esta seja a percentagem de negros condenados morte
superior: o contrrio do que se tinha concludo quando se ignorou a
raa da vtima.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

393 / 406

O paradoxo de Simpson (cont.)

A relao entre Bernoullis e Binomial/n

Ou seja, as associaes nas tabelas parciais Sentena-Raa do ru


so ao contrrio das associaes na tabela marginal Sentena-Raa
do ru. esta a situao conhecida pela designao de paradoxo de
Simpson.

Desde os Acetatos 216 e 217, quando se verificou que quer uma v.a.
Bernoulli, quer a transformao da Binomial representada por
Binomial/n, pertenciam famlia exponencial de distribuies, se
tornou claro que era possvel modelar de formas alternativas
componentes aleatrias que:

Este exemplo mostra que tabelas parciais e tabelas marginais podem


ter diferentes tipos de associao. Ou seja, pode ser enganador
analisar apenas tabelas marginais.
Em particular, a independncia de A e B condicional a C no implica a
independncia marginal de A e B.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

394 / 406

tomam valores dicotmicos (0/1);


so observadas repetidamente associadas a conjuntos idnticos
de valores dos preditores.
Aprofundemos um pouco mais a relao entre as duas abordagens.

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

395 / 406

Log-verosimilhana das Bernoulli

Log-verosimilhana da Binomial/n

No Acetato 254 viu-se que a log-verosimilhana para n observaes


independentes de Bernoullis :


n 
pi
L (p ; y) = ln(1 pi ) + yi ln
1 pi
i=1
Se h apenas m < n diferentes conjuntos de valores dos preditores,

Mas a log-verosimilhana de m observaes independentes de


Binomiais Xj B(nj , pj ), j = 1 : m, dada (Acetato 302) por:
L (p) =

j=1

com nj observaes em cada situao, ( nj = n), natural


log

 


pj
nj
+ nj log(1 pj ) + xj log
xj
1 pj

nj

j=1

considerar que o parmetro dessas nj repeties seja equivalente,


pelo que a expresso anterior se pode re-escrever como:


m 
pj
L (p) = nj log(1 pj ) + xj log
1 pj
j=1

com xj = yi , sendo yi as variveis Bernoulli (0/1) associadas


i=1

situao j e havendo nj observaes nessa situao. Ou seja, xj


indica o nmero de xitos na situao j.

onde xj indica o nmero de xitos nas nj provas de Bernoulli


associadas situao j.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

396 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

397 / 406

Relao Bernoullis e Binomial/n

MLGs combinando preditores numricos e factores

Esta log-verosimilhana no igual das n Bernoullis, mas h uma


relao muito forte entre elas:

as parcelas log nxjj desta expresso da log-verosimilhana no
dependem dos pj , pelo que no intervm na maximizao de L ;

Tal como para Modelos Lineares (Anlise de Covarincia), possvel


definir Modelos Lineares Generalizados que combinem preditores
numricos e factores.

as restantes parcelas so idnticas s da log-verosimilhana das


n observaes Bernoulli independentes.
do ponto de vista da estimao de parmetros as duas funes
log-verosimilhana so iguais: produzem os mesmos estimadores
MV dos parmetros.
Mas, sendo diferentes as log-verosimilhanas, so diferentes as
funes dessas log-verosimilhanas, ou seja,

os AICs de cada caso.


2010-11

um factor A com a = 3 nveis.


Um modelo com componente sistemtica (onde I i a indicatriz do
nvel i do factor):
0 1n + 1 x + 2 I 2 + 3 I 3

0 caso a observao corresponda ao primeiro nvel do factor;


0 + 2 para observaes do segundo nvel do factor;
0 + 3 para observaes do terceiro nvel do factor.

os resduos dos desvios em cada caso;


Modelao Estatstica II

uma varivel preditora numrica x;

prev diferentes constantes aditivas:

os desvios de modelos correspondentes;

J. Cadima (DM/ISA)

Considere-se um modelo em que existe:

398 / 406

MLGs tipo ANCOVA (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

399 / 406

MLGs tipo ANCOVA (cont.)

possvel prever tambm coeficientes diferentes para a varivel


numrica x, consoante os nveis do factor.
Representando por a operao de produto, elemento a elemento,
de dois vectores, o modelo com componente sistemtica:
I 2 + 1:3 x I
I3
0 1n + 1 x + 0:2 I 2 + 0:3 I 3 + 1:2 x I
prev diferentes constantes aditivas:

0 caso a observao corresponda ao primeiro nvel do factor;


0 + 0:2 para observaes do segundo nvel do factor;
0 + 0:3 para observaes do terceiro nvel do factor.
mas tambm diferentes coeficientes de x:
1 caso a observao corresponda ao primeiro nvel do factor;
1 + 1:2 para observaes do segundo nvel do factor;
1 + 1:3 para observaes do terceiro nvel do factor.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

400 / 406

Esta forma de associar preditores numricos e factores pode ser


usada com qualquer nmero de variveis numricas e de factores.
No R, a frmula para indicar modelos com o cruzamento de variveis
numricas e preditores utiliza um . Para uma varivel de nome x e
um factor de nome f , a frmula seria:
y

J. Cadima (DM/ISA)

x f

Modelao Estatstica II

2010-11

401 / 406

Um exemplo

Um exemplo (cont.)

Considerem-se os dados utilizados no Exerccio 2, relativos


mortalidade de traas do tabaco resultante de diferentes doses duma
substncia txica.
No Exerccio 2 ajustaram-se modelos para varivel resposta binria.
No entanto, no foi utilizada uma informao que, at visualmente, se
revelava importante: o sexo das traas.
O modelo ajustado foi:

Cruzando o preditor numrico com o factor sexo, obtm-se o


ajustamento:
> summary( glm( cbind(Mortes,20-Mortes) ~ log(dose,2)*sexo, family=binomial, data=tabaco))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-2.9935
0.5527 -5.416 6.09e-08 ***
log(dose, 2)
0.9060
0.1671
5.422 5.89e-08 ***
sexoMachos
0.1750
0.7783
0.225
0.822
log(dose, 2):sexoMachos
0.3529
0.2700
1.307
0.191
--Null deviance: 124.8756 on 11 degrees of freedom
Residual deviance:
4.9937 on 8 degrees of freedom
AIC: 43.104

As equaes ajustadas para as duas regresses logsticas so:


Fmeas:
p = 1/(1 + e2.9935+0.9060 log2 (dose) )

> summary( glm( cbind(Mortes,20-Mortes) ~ log(dose,2), family=binomial, data=tabaco))


Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-2.7661
0.3701 -7.473 7.82e-14 ***
log(dose, 2)
1.0068
0.1236
8.147 3.74e-16 ***
--Null deviance: 124.876 on 11 degrees of freedom
Residual deviance: 16.984 on 10 degrees of freedom
AIC: 51.094

Machos:
p = 1/(1 + e(2.9935+0.1750)+(0.9060+0.3529) log2 (dose) )
= 1/(1 + e2.8185+1.2589 log2 (dose) )

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

402 / 406

Um exemplo (cont.)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

403 / 406

MLGs de tipo ANCOVA

Os grficos das duas curvas ajustadas so os seguintes:

0.6

I2
g(E [Y ]) = 0 1n + 1 x + 0:2 I 2 + 1:2 x I

0.4

g(E [Y ]) = 0 1n + 1 x

0.2

Mortes/20

0.8

1.0

Esta abordagem tem a vantagem de que o modelo que prev uma


nica curva para todos os nveis do factor um submodelo do modelo
diferenciado:

0.0

Torna-se assim possvel efectuar um teste (por exemplo, o teste de


Wilks, de comparao dos respectivos desvios) para determinar se o
modelo e submodelos se podem considerar equivalentes.

log(dose, 2)

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

404 / 406

Ainda o exemplo
No caso do exemplo anterior, esse teste produz os seguintes
resultados:
> anova(tabaco.glm, tabaco.glm.ancova)
Analysis of Deviance Table
Model 1:
Model 2:
Resid.
1
2

cbind(Mortes, 20 - Mortes) ~ log(dose, 2)


cbind(Mortes, 20 - Mortes) ~ log(dose, 2) * sexo
Df Resid. Dev Df Deviance
10
16.9840
8
4.9937 2
11.990

O p-value desta estatstica bastante baixo,


> 1-pchisq(11.990,2)
[1] 0.002491177
pelo que se pode rejeitar a hiptese nula de igualdade dos dois
modelos e considerar que o modelo diferenciado por sexo tem um
ajustamento significativamente melhor que o modelo nico.
J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

406 / 406

J. Cadima (DM/ISA)

Modelao Estatstica II

2010-11

405 / 406

Potrebbero piacerti anche