Sei sulla pagina 1di 59

Modelo Lineal Generalizado

Introduccion
Comenzaremos con un ejemplo que nos servira para ilustrar el analisis de
datos binarios.
Nuestro interes se centra en relacionar una estructura estocastica en los datos
que siguen una distribucion binomial y una estructura sistematica en terminos
de alguna transformacion de las variables independientes.
Los siguientes datos tomados de Little (1978) corresponden a 1607 mujeres
casadas y fertiles entrevistadas por la Encuesta de Fertilidad Fiji de 1975, clasi-
ficadas por edad, nivel de educacion, deseo de tener mas hijos y el uso de
anticonceptivos.

1
Edad Educacion Mas Hijos? Uso de Anticonceptivos Total
No Si
< 25 Baja Si 53 6 59
No 10 4 14
Alta Si 212 52 264
No 50 10 60
2529 Baja Si 60 14 74
No 19 10 29
Alta Si 155 54 209
No 65 27 92
3039 Baja Si 112 33 145
No 77 80 157
Alta Si 118 46 164
No 68 78 146
4049 Baja Si 35 6 41
No 46 48 94
Alta Si 8 8 16
No 12 31 43
Total 1100 507 1607

En este ejemplo se considera a Anticoncepcion como variable dependiente


y a las demas como predictoras. En este caso, todas las predictoras son vari-
ables categoricas, sin embargo el modelo que presentaremos permite introducir
variables independientes continuas y discretas.

2
El objetivo es decribir como el uso de metodos anticonceptivos vara segun la
edad, el nivel de educacion y el deseo de tener mas hijos.
Por ejemplo, una pregunta que sera interesante responder es si la asociacion
entre educacion y anticoncepcion es afectada por el hecho de que mujeres con
un nivel de educacion mas elevado prefieren familias mas chicas que las mujeres
con niveles de educacion inferior.
Compenente Aleatoria
Definamos



1 si usa anticonceptivo
Yi =
0 si no
Yi toma los valores 1 y 0 con probabilidad i y 1 i, respectivamente,y por
lo tanto

E(Yi) = i
V ar(Yi) = i(1 i) .
Tanto la media como la varianza dependen de i, por lo tanto cualquier fac-
3
tor que afecte la esperanza tambien afectara la varianza. Esto nos sugiere que
cualquier modelo, que como el lineal, asuma homoscedasticidad de las observa-
ciones no sera adecuado para este problema.
En nuestro ejemplo, de acuerdo con el valor de las variables predictoras, las
observaciones pueden ser clasificadas en 16 grupos. Si llamamos ni al numero
de observaciones del grupo i e Yi denota al numero de exitos , tendremos que
Yi Bi(ni, i).
En nuestro caso,
Yi = numero de mujeres que usan anticonceptivos en el iesimo grupo.
Luego,

ni k
ni k
P (Yi = k) =
i (1 i )
k
E(Yi) = nii
V ar(Yi) = nii(1 i) ,
para k = 0, . . . , ni.

4
Compenente sistematica
El proximo paso en la definicion del modelo involucra a las covariables xi que
participan en lo que llamaremos componente sistematica.
El modelo mas sencillo podra expresar a i como una combinacion lineal de
las variables independientes:

i = x0i ,
siendo el vector de parametros a estimar.
Este modelo recibe el nombre de modelo de probabilidad lineal y su
estimacion puede basarse en mnimos cuadrados ordinarios.
Un problema evidente de este modelo es que las probabilidades i son aco-
tadas, mientras que las x0i pueden tomar cualquier valor real. Si bien esto
podra controlarse imponiendo complicadas restricciones a los coeficientes, esta
solucion no resulta muy natural.
Una solucion sencilla es transformar la probabilidad mediante una funcion
que mapee el intervalo (0, 1) sobre la recta real y luego modelar esta transfor-
macion como una funcion lineal de las variables independientes.
5
Una manera de hacer esto es mediante los odds definidos como

= ,
1
es decir la razon entre los casos favorables y los no favorables. Veamos unos
ejemplos:

0.1 0.11
0.2 0.25
0.5 1
0.6 4
0.9 9

De manera que odds menores que 1 estan asociados a probabilidades menores


que 0.5 y odds mayores que 1 estan asociados a probabilidades mayores que 1.
Sin embargo, esta transformacion no alcanza, pues solo mapea sobre los reales
positivos. Para extenderla a los negativos introduciremos el log:

6


0
logit() = log = o + 1 x1 + 2 x2 + . . . + p xp = x =
1
La funcion logit es estrictamente creciente y tiene inversa:

1 e
= logit () =
.
1+e
En nuestro ejemplo tenemos: 507 mujeres usan anticonceptivos entre las 1607,
507
por lo que estimamos la probabilidad como 1607 =0.316. Luego, los odds se
calculan como
507
1607 507
1100 = = 0,461.
1607
1100
Entonces, aproximadamente por cada mujer que usa anticoceptivos hay dos
que no usan. El logit(0,461) = 0,775.

7
Modelo de Regresion Logstica
Supongamos que Y1, . . . , Yn son v.a.independientes tales que

Yi Bi(ni, i) . (1)
Esto define la componente aleatoria.
Supongamos ademas que la probabilidad i es una funcion de los predictores:

logit(i) = x0i , (2)


donde las xi son las covariables.
Esto define la componente sistematica del modelo.
El modelo definido por (1) y por (2) es un modelo lineal generalizado
con respuesta binomial y funcion de enlace logit.
Los coeficientes tienen una interpretacion similar a la que tienen en el
modelo lineal, pero debemos tener en cuenta que el miembro de la derecha es
un logit y no una media. Los j representan entonces el cambio en el logit de
la probabailidad asociada cuando hay un cambio de una unidad en el jesimo

8
9
predictor y se matienen constantes todas las demas variables.
Como
x0i
e
i = 0 ,
1+e i x

la relacion con i es no lineal, luego no es tan sencillo como en el modelo


lineal expresar el cambio en i al cambiar un predictor. Sin embargo, cuando
el predictor es continuo, podemos hacer una aproximacion tomando derivadas
con respecto a la jesima coordenada de xi, obteniendo

i
= j i(1 i) .
xij
Luego, el efecto del jesimo predictor depende del coeficiente j y de la
probabilidad i.
Una vez establecido el modelo que queremos ajustar deberemos estimar los
parametros, hallar intervalos de confianza para los mismos, evaluar la bondad
del ajuste y es probable que nos interese realizar algun test que involucre a los
parametros. Tambien tendremos que evaluar la influencia de las observaciones
en la determinacion de los valores estimados.
10
Modelo Lineal Generalizado
El modelo lineal clasico lo podemos definir como:

Y = (Y1, . . . , Yn)0 N (E(Y), Y ) donde (3)


E(Y) = = X
Y = 2I

Podemos pensar el modelo (3) como un modelo con tres componentes:

1. Componente Aleatoria: Y N (, 2)
2. Componente Sistematica: covariables x1, x2, . . . , xp que dan origen al pre-
dictor lineal = Ppj=1 xj j .
3. Funcion de enlace: enlace entre las dos componentes = .

Si escribimos = g(), g es la llamada funcion de enlace o link .


Los modelos lineales generalizados permiten dos extensiones:

I. podemos tratar distribuciones que pertenezcan a una familia exponencial.


11
II. podemos elegir una funcion de enlace que sea una funcion monotona y
diferenciable.

El Modelo Lineal Generalizado tuvo mucha difusion a partir del libro de


McCullagh y Nelder (1989). En estos modelos la variable de respuesta Yi sigue
una distribucion que pertenece a una familia exponencial con media i que es
una funcion, por lo general no lineal, de x0i.

Nota
Recordemos que en la expresion clasica del modelo lineal tenemos un error
aleatorio aditivo
Y = x0 +  .
Los modelos GLM no tienen esta estructura. Por ejemplo, en el caso del logit
no podemos escribir
0
log
= x + .
1
Para este modelo, el error aleatorio ya esta incluido en Y Bi(n, ) y g() =
es una relacion funcional.

12
Funcion de Verosimilitud para el GLM
Sea Y una v.a. con funcion de densidad o probabilidad dada por:



y b()


fY (y, , ) = exp + c(y, ) ,
a()
para algunas funciones a(), b() y c(y, ). Si es un parametro conocido, esta
es una familia exponencial con parametro canonico o natural .
Si no es conocido, esta puede ser una familia exponencial en (, ) o no.
es un parametro de dispersion o de forma.
La media E(Y ) es solo funcion de y es por lo tanto el parametro de interes;
en general es tratado como un parametro nuisance. En la mayora de los casos
no sera tratado tal como es tratado . Estimaremos y haremos inferencia
bajo un valor asumido de y si necesita ser estimado, lo estimaremos y luego
sera tomado como un valor fijo y conocido.
Esta familia incluye distribuciones simetricas, asimetricas, discretas y conti-
nuas, tales como la distribucion Normal, Binomial, Poisson o Gamma.

13
Momentos de una familia exponencial
Deduciremos el primer y segundo momento de una familia exponencial a
partir del logaritmo de su verosimilitud.

y b()
`(, y) = + c(y, ) .
a()
Su primera derivada o score es:

0 `(, y) y b0()
` (, y) = = ,
a()
mientras que su derivada segunda es:
2 00
00 ` (, y) b ()
` (, y) = = .
2 a()

`(, y)
Como E = 0, entonces

14

0
y b ()
0 = E (`0(, y)) = E
a()
y por lo tanto

= E(Y ) = b0() .
Ademas, sabemos que
 
00 0 2
E(` (, y)) = E (` (, y)) ,
entonces

0

0 2
 b00() 00
V ar(` (, y)) = E (` (, y)) = E(` (, y)) = .
a()
Por otro lado,

0
y b () 1
V ar(`0(, y)) = V ar =
2
V ar(Y )
a() a ()
15
y en consecuencia

V ar(Y ) = a()b00() .

La varianza es el producto de dos funciones: una que depende del parametro


natural, y otra que depende solo del parametro nuisance .

16
Supuestos del modelo

la variable de respuesta Y tiene distribucion





y b()


exp + c(y, ) ,
a()
donde es el parametro canonico, para el cual

= E(Y ) = b0() y V ar(Y ) = a()b00()


el predictor lineal

= x0
siendo x el vector de covariables y el vector a estimar
la funcion de enlace que relaciona a y

g() =

17

Nota: En algunos casos a() es de la forma a() = , donde w es un peso
w
conocido.
Ejemplos
1. Caso Normal: Y N (, 2).

2
1 1 (y )
f (y, , ) = 2
exp

2


2 2

2 2
y /2 1 y 2
= exp 2

2
+ log(2 ) ,
2

2 2
1 y 2
por lo tanto = , b() = , = 2, a() = y c(y, ) = 2

+ log(2 ) .
2 2
E(Y ) =
2
En el caso heteroscedastico Y N (, w ), donde w es un peso conocido,
tenemos = 2 y a() = w .
2. Caso Binomial: Y Bi(n, p)

18
Y
Consideremos n = proporcion de exitos.

Y y n y ny
P( = ) =
p (1 p)
n n y

y p n
= exp n log + n log(1 p) + log y


n 1p n
n
p 1 y
por lo tanto = log , b() = log(1 + e ) , = n, a() = y c( , ) =

1p n n
n
y .

nn

Y e
E =p=
n 1 + e

3. Caso Poisson: Y P ().


y

P (Y = y) = e
y!
= exp (y log log y!)

19
por lo tanto = log , b() = e , = 1, a() = 1 y c(y, ) = log y!
E(Y ) = = e

Funcion de enlace o link


Esta funcion relaciona el predictor lineal con la esperanza de la respuesta
Y . A diferencia del modelo lineal clasico, aqu introducimos una funcion uno
auno continua y diferenciable, g(), tal que

= g() .
Ejemplos de g(t) son la identidad, el log,la logstica y la probit. Como la
funcion g es biyectiva podremos invertirla, obteniendo:
= g 1() = g 1(x0) .
En el caso Binomial, por ejemplo, tenemos que (0, 1) y el link tiene que
mapear sobre la recta real. Suelen usarse 3 links:

e
1. Logit: = log 1 ( 1+e)

20
2. Probit: = 1()
3. Complemento loglog: = log( log(1 ))

Links Canonicos:
En el caso normal mostramos que si Y N (, 2) el parametro canonico es
= .
En el caso binomial Y Bi(n, p) en el que consideremos Yn vimos que el
canonico es = logit(). Estos son los links mas usados en cada caso.
Cuando usamos = el modelo tiene el link canonico o natural. Es conve-
niente usar el link natural, ya que algunas cosas se simplifican, pero la posibi-
lidad de usarlo dependera de los datos con los que estemos trabajando.

Normal:
Poisson: = log

Binomial: = log 1
Gamma: = 1

21
Estimacion de los parametros:
Metodo de NewtonRaphson y Fisherscoring
Supongamos que Y1, . . . , Yn son variables aleatorias que satisfacen los supuestos
de un GLM y que queremos maximizar el loglikelihood `(, y) respecto a
= (1, . . . , p)0. Queremos resolver

`0() = `0(, y) = 0 .
En general este es un sistema no lineal.
Aproximaremos la ecuacion linealmente en la vecindad de un punto (t) me-
diante el algoritmo de NewtonRaphson.
Usando una expansion de Taylor de primer orden, tenemos que:

`0()
= `0( (t)) + ( (t)) `00((t))
" #
(t) (t) 1 0
= 00
` ( ) ` ( (t)) (4)

Si `() es cuadratica, entonces `0() es lineal y el algoritmo iterativo con-


22
23
vergera en un solo paso a partir de un punto inicial.

En problemas regulares, el loglikelihood se hace aproximadamente cuadratico


a medida que n crece. En estas situaciones el metodo de NR funcionara
bien, mientras que en muestras pequenas y con loglikelihoods alejados de una
cuadratica NR podra no converger.
Veamos como quedan los distintos elementos de (4). Por simplicidad estu-
diaremos la contribucion de cada termino Yi al loglikelihood omitiendo los
subndices superfluos. Salvo constantes tenemos que:
y b()
`(, y) =
a()
` `
=
j j

Cuanto vale cada derivada?


Recordemos que

24

y b()






exp + c(y, ) ,
a()
= E(Y ) = b0() y V ar(Y ) = a()b00()
= x0
g() =

` y b0() y
= =
a() a()
1 a()
= 00 =
b () V ar(Y )

= depende de la funcion de enlace


= xij ,
j
luego, resulta
` Y
= xij .
j V ar(Y )
25
De esta manera, las ecuaciones de maxima verosimilitud quedan:
` n Yi i
X i
= xij = 0 (5)
j i=1 Vi i
Por ejemplo, si usamos el link natural tenemos que
V = b00() = b00()
y ademas
= b0() = b0()

= b00() ,

por lo tanto
1
V = 1.

Si consideramos la derivada segunda a partir de (5) queda:

2` X 1 i X 1 i
= (Yi i) xij + (Yi i) xij . (6)
k j i k Vi i i k Vi i

2`
En el metodo de Fisherscoring se propone utilizar E en lugar de
k j

26
2`
k j con el fin de obtener resultados mas estables.
Podemos hallar esta esperanza recordando que:

2
` ` `
E = E



k j k j

2 2
Y
= E


x x
ij ik
V ar(Y )

2
1
=
xij xik .

V ar(Y )

Cuando usamos el link natural queda



2
`
b00()
E
= xij xik .
k j a()
Si volvemos a la muestra tendremos

X i 2
Vi1
xij xik
i i

27
que en forma matricial podemos escribir como:
X0WX
!
i 2
siendo W = diag Vi1 i .


Tambien notemos que cuando usamos el link natural V 1 = 1, por lo

tanto (6) queda

X 1
(Y ) xj ,
i k V
por lo tanto,en este caso, NewtonRaphson coincide con Fisher scoring.
Finalmente, si V1 = diag(Vi1), entonces

` 0 1
=XV (Y ) ,
j
y si volvemos a (4) queda

28
1
(t+1) = (t) + (X0WX) X0V1
(Y )


1
(t+1) = (X0WX) X0WX (t) + X0V1 (Y )

1
(t+1) = (X0WX) X0Wz ,

donde


z=+ (Y )

De esta manera vemos al metodo de Fisherscoring como mnimos cuadrados
pesados iterados(IRWLS)
1) En cada ciclo usamos el valor actual de para construir la variable de
trabajo z y nuevos pesos W.
2) Hacemos la regresion de z sobre x usando los pesos W para actualizar el
valor de .

29
Recordemos el algoritmo de calculo del estimador:
" #
(t) (t) 1 0
= 00
+ ` ( ) ` ((t))

La contribucion de cada termino Yi al loglikelihood es, salvo constantes:

Yii b(i)
`i(i, Yi) = + c(Yi, )
a()

Su derivada respecto de j

`i Yi i i
= xij .
j V ar(Yi) i

Las ecuaciones de maxima verosimilitud quedan:

` n
X Yi i i
= xij = 0 . (7)
j i=1 Vi i

30
La derivada segunda es:


2` X 1 i X 1 i
= (Yi i) xij + (Yi i) xij .
k j i k Vi i i k Vi i

Metodo de Fisherscoring: usamos



2 2
` i 1 i
E =

xij xik .

k j V ar(Yi) i
Por lo tanto


2 2
` X
i

E
= Vi1
xij xik .
k j i i
X i i
= Vi1 xij xik .
i i i

31
entonces, en forma matricial

` 2
X i 0 1 i
E
=

Vi .
i

Finalmente, si:


2
i
W(t) = diag Vi1



i
(V(t))1 = diag(Vi1)

resulta

(t) 1
!
(t+1) (t) 0 (t) 1 0
= + XW X X (V ) (Y )

!
1
(t+1) = X0W(t)X X0W(t)z(t) ,

donde = (t) y = (t) y


32

z(t) = + (Y )

Casos Particulares
Distribucion Binomial: regresion logstica
!
i
Sean Yi Bi(ni, i). Supongamos que log 1i = x0i, con lo cual

exi
0
1
i = =
exi 1 + exi
0 0
1+
Tenemos las siguientes igualdades:

n ni!
yi i (1 i)niyi
Y
Likelihood =
i=1 yi ! (ni yi )!
y
n i i
Y
Likelihood (1 i)ni
i=1 1 i
n x0 y
e i i (1 + exi )ni
Y 0
Likelihood
i=1
n n
ni log(1 + exi )
X X 0
`() = x0i yi
i=1 i=1
33
`() n n 1
exi xij
X X 0
= yixij ni
1 + exi
0
j i=1 i=1
n
X
= (yi i) xij ,
i=1

donde i = E(Yi) = nii.


Derivadas segundas:

2 x0i
`() n
X e

= ni xij


j k i=1 k 1 + exi
0

n
X
= ni i (1 i)xij xik
i=1
Usemos la notacion matricial:

n ni!
yi i (1 i)niyi
Y
Likelihood =
i=1 yi! (ni yi)!

`0() = X0(y ) ,
`00() = XWX ,
34
donde

W = diag(nii(1 i)) .
NewtonRaphson resulta:
! !
(t+1) (t) 0 (t) 1 0 (t)
= + XW X X y .
Si como antes, pensamos a Y como la proporcion de exitos en los ni ensayos,
tendramos
i(1 i)
niYi Bi(ni, i). Tenemos que V ar(Yi) = . La funcion de vari-
ni
anza resulta:

V (i) = i(1 i) .
Bajo el modelo logstico

i 1
= ,
i i(1 i)
35
por lo tanto

W = diag (nii(1 i)) .


Por ultimo la variable dependiente ajustada es:

y i i y i i
zi = i + = x0i + .
i(1 i) i(1 i)

Intervalos de Confianza y Tests de Hipotesis


Dos de las herramientas mas usada de la inferencia estadstica son los inter-
valos de confianza y los tests de hipotesis.
Por ejemplo, los tests de hipotesis son necesarios para comparar el ajuste de
dos modelos ajustados a los datos.
Tanto para realizar tests como intervalos de confianza necesitamos las dis-
tribuciones muestrales de los estadsticos involucrados.
Distribucion Asintotica
Haremos una deduccion heurstica de la distribucion asintotica. Fahrmeir y
36
Kaufmann (1985, Annals of Statistics, 13, 342368) deducen la consistencia y la
distribucion asintotica de los estimadores de maxima verosimilitud en el GLM
bajo condiciones de regularidad all establecidas.
Sea In = In( 0) = D0V 1D donde

i
Dij =
j
V = Diag(V (i))
evaluadas en 0
Fahrmeir y Kaufmann (1985) probaron que si

(D) (Diveregencia) min(In)


(C) (Cota inferior) Para todo > 0
In() cIn es semidefinida positiva
para todo Nn() si n n1(), donde Nn() es un entorno de 0 y c es
independiente de .

37
(N) (Convergencia y Continuidad) Para todo > 0
max kVn() Ik 0
Nn ()

donde
Vn() = In1/2In()In1/2
es una matriz de informacion normalizada.

Existencia y Consistencia
c
Entonces, bajo (C) y (D) exite el EMV y ademas
c p
n 0

Distribucion Asintotica
Entonces, bajo (D) y (N) existe

D
(In)1/2 U N (0, I)
y
D
(In)1/2 (
c
n 0 ) N (0, I)

38
c
En la practica, usaremos como matriz de covarianza asintotica a In( n)
Esto nos servira para deducir intervalos de confianza para los parametros y
para deducir tests tipo Wald en tanto

c 0 c c (a) 2
( n 0 ) In ( n ) ( n 0 ) p .

Por lo que ya vimos, entonces para n es suficientemente grande

c (a) 0 1
( n 0 ) N (O, (X WX) ) .

Para n sufcientemente grande, una aproxmacion razonable esperamos que


sea

c (a) d c
( n 0 ) N (O, V( n)) ,
siendo

d c
V( n) = (X0W(cn)X) .
Si queremos computar un intervalo de confianza de nivel asintotico 1 para
39
j , este sera:

cnj z (
c
c
nj ) ,

siendo
 1/2
c d c
(j ) = V()jj
c .
Inferencia acerca de una funcion de los coeficientes
Para una funcion lineal de los prametros = a0 0, una aproximacion razon-
able para n suficientemente grande es

(a)
(a0
c
n a0
0 ) N (O, a0d c
V(n)a) .
Para una funcion no lineal = g( 0), para n grande tendremos

c (a) (1) c 0 d c (1) c


g( n ) N (g( 0 ), g ( n ) V( n )g ( n )) ,

donde hemos notado


g (1) al Jacobiano de g.
40
Ejemplo
Supongamos un problema de dosisrespuesta en el que un grupo de animales
son expuestos a una sustancia peligrosa en distintas concentraciones. Sea ni el
numero de animales que recibe la dosis i , Yi el numero de animales que muere
y por lo tanto pi = Yi/ni la proporcion de muertos en el iesimo grupo.
Llamemos i a la probabilidad de muerte y modelemos a i en terminos de
zi = log10(concentracion).
Proponemos el modelo:

logit(i) = 0 + 1zi .
Un parametro de interes en estos problemas suele ser el valor de z para el
cual se obtiene el 50 % de muertes. Llamemos a dicho valor M50.
0
Como logit(1/2) = 0, tenemos que M50 = . Por lo tanto,
1

M50 1
=
0 1

41
M50 0
= 2
1 1

c0
La varianza estimada de c es
1


1

c

1 c



1
0  0 d
1


c , c X WX


,
1 12


c
0






c12
d c c
donde W = diag(ni i (1 i )).

Tests de Hipotesis
En el contexto de GLM abordaremos el problema de comparar dos modelos
cuando tienen la misma distribucion subyacente y la misma funcion link.
Consideraremos la comparacion de dos modelos anidados, es decir la diferen-
cia entre los dos modelos sera que la componente lineal de un modelo tendra mas
42
parametros que el otro. El modelo mas simple, que correspondera a Ho, sera un
caso especial de un modelo mas general. Si el modelo mas simple ajusta a los
datos tan bien como el mas general, entonces, en virtud del principio de parsi-
mona no rechazaremos Ho. Si el modelo mas general ajusta significativamente
mejor, rechazaremos Ho en favor de H1, que corresponde al modelo mas gen-
eral. Para realizar estas comparaciones deberemos usar medidas de bondad de
ajuste.
Las medidas de bondad de ajuste pueden basarse en en el maximo valor
de la funcion de verosimilitud, en el maximo valor del log de la funcion de
verosimilitud, en el mnimo valor de la suma de cuadrados o en un estadstico
combinado basado en los residuos.
El proceso de comparacion sera como siempre:

1. Especificamos un modelo Mo correspondiente a Ho y un modelo mas general,


M1, que corresponde a H1.
2. Ajustamos Mo y calculamos el estadstico de bondad de ajuste Go. Idem
con M1 y su correspondiente G1.
3. Computamos la mejora G1 Go (eventualmente G1/Go).
43
4. A partir de la distribucion de G1 Go testeamos Ho vs. la alternativa H1,
es decir Mo vs. M1.
5. Si la hipotesis Ho no es rechazada, preferimos el modelo Mo. Si rechazamos
Ho elegiremos M1.
Estadstico de Cociente de Verosimilitud
El modelo con el maximo numero de parametros que pueden ser estimados
se conoce como modelo saturado. Es un GLM con la misma distribucion
subyacente y la misma funcion de enlace que el modelo de interes, que podra
tener tantos parametros como observaciones. Si hay observaciones que tienen
las mismas covariables (replicaciones), el modelo saturado podra determinarse
con menos de n parametros. Llamemos m al maximo numero de paramertos
que puede especificarse.
En el modelo saturado los justan exactamente a los datos. Por lo tanto,
en el modelo saturado se asigna toda la variacion a la componente sistematica
y ninguna a la componente aleatoria. Este modelo no no se usa ya que no
resume la informacion presente en los datos, pero provee una base para medir la
discrepancia para un modelo intermedio entre el modelo saturado y el modelo
nulo, en el que hay un unico parametro para todas las observaciones.
44
c c
Si llamamos s al al valor estimado bajo el modelo saturado, el L( s , y),
likelihood evaluado en dicho estimador, tomara el valor mas grande posible para
estas observaciones, asumiendo la misma distribucion subyacente y la misma
funcion de enlace.
c
Sea L(, y) el maximo valor del likelihood para el modelo de interes. El
cociente de verosimilitud sera
c
L( s , y)
= c ,
L(, y)
que nos da una idea de cuan bueno es el ajuste del modelo.
En la practica se usa el logaritmo de este cociente

c c
log() = `( s , y) `(, y) .

Grandes valores de log() sugieren un pobre ajuste del modelo respecto al


modelo saturado.
Un estadstico cercano y muy usado en el contexto de GLM es la deviance,
introducida por Nelder y Wedderburn (1972).
45
La deviance se define como

 
c c
D = 2 `(s, y) `(, y)
n
X
D = 2 a1
i (){y i ( c
si c
i ) b( c
si ) + b( c
i )} .
i=1

Nota: A veces es conveniente expresar el log likelihood en terminos de las


medias s mas que de o . En ese caso llamaramos `(,c y) al likelihood

maximizado sobre , mientras que el maximo alcanzado en el modelo saturado


sera `(y, y).
Ejemplos
Caso Normal
2
Recordemos que = , b() = 2 , = 2 (wi = 1).
Entonces

n
X 1 1 n
X
D=2 (yi(yi i) yi2 + 2i ) = (yi i)2 .
i=1 2 2 i=1

46
Caso Binomial
!
e
Recordemos que = log 1 , es decir = 1+e
,

b() = log(1 ) = log(1 + e ), entonces

n
X yi c c c c
D = 2 ni{ ( si i ) b(( si ) + b( i )}
i=1

ni
c
n
X yi yi/ni i
= 2 ni log log c +
i=1 ni 1 yi/ni 1 i
yi c
log(1 ) log(1 i )

ni
c
n
X y i /n i 1 i 1 y i /ni
= 2 yi log

c + y i log + log c
i=1

i 1 yi/ni
1 i
n
X yi/ni 1 yi/ni
= 2 yi log

c + (1 y i ) log c
i=1

i 1 i
n
X yi ni yi
= 2 yi log

+ (n i y i ) log
i=1 i
c ni i
c

Para realizar los tests de bondad de ajuste debemos conocer la distribucion


47
de D.
Heursticamente podramos deducir la la distribucion de D. Si hacemos un
desarrrollo de Taylor de segundo orden tenemos que:

1
`() ' `(b) + ( b) U(b) ( b)0I(b) b) .
0
2
donde U = (U1, . . . , Up)0
`(, y) n
X `i(, yi)
Uj = =
j i=1 j
n (Yi i ) i
X
= xij j = 1, . . . , p .
i=1 var(Yi) j

E(U) = 0 E(UU0) = I ,
siendo I la matriz de informacion de Fisher.
Si b es el punto donde ` alcanza su maximo, entonces

1
`() `(b) ' ( b)0I(b) b) .
2
48
Por lo tanto

2(`(b) `()) ' ( b)0I(b) b) .


y en consecuencia, para n suficientemente grande

(a)
`() `(b) 2p .
de este resultado, obtenemos

 
c c
D = 2 `(s, y) `(, y)
 
c
= 2 `(s, y) `(s, y)
 
c
2 `(, y) `(, y) + 2 [`(s, y) `(, y)]

Luego,

(a)
D 2mp, ,
siendo
49
= 2 [`(s, y) `(, y)] ,
donde es una constante positiva cercana a 0 si el modelo propuesto ajusta
a los datos tan bien como el modelo saturado.
En el caso particular de la distribucion binomial demostraremos este lmite
usando las aproximaciones que ya vimos.
Teorema. Bajo las condiciones de regularidad supuestas para los resultados
de convergencia de los tests 2 y G2 y suponiendo que 0 = (, 0), entonces
D
G2(M0) G2(M1) 210
donde 1 = dim(, ) 0 = dim(, 0)
Usaremos en la demostracion el resultado dadopor el siguiente
Teorema: Sea Y un vector con distribucion N (, ). Una condicion nece-
saria y suficiente para que (Y )0C(Y ) tenga distribucion 2 es que
CC = C, donde los grados de libertad seran el rango de C (si es
no singular la condicion se simplifica a CC = C). (Rao, 1965, p. 150)

50
Aplicaciones a Test de Hipotesis
Consideremos la hipotesis nula:

H0 : = 0 = (01, . . . , 0q )0
y una hipotesis mas general

H1 : = 1 = (01, . . . , 0p)0, con q < p < n .


Si testeamos H0 vs. H1 usando la diferencia de los estadsticos de cociente
del logaritmo de la verosimilitud tenemos

D = D0 D1
   
c c c c
= 2 `(s, y) `(0, y) 2 `( s, y) `(1, y)
 
c c
= 2 `(1, y) `(0, y) .
(a)
Compararamos a D con una 2pq ya que bajo H0tendramos que D 2pq .

51
Si el valor observado de D fuera mayor que el percentil 2pq,
rechazaramos a H0 en favor de H1, bajo el supuesto de que H1 da una mejor
descripcion de los datos (aun cuando H1 no provea un muy buen ajuste).

52
Ejemplo: los siguientes datos corresponden a un experimento de dosis
respuesta en el que 5 grupos de 6 animales fueron expuestos a una sustancia
peligrosa (Schafer, 2000). Yi denota al numero de animales que murieron al ser
expuestos a la iesima dosis.

c
obs. xi = log10 concentrac. yi ni yi yi /ni i
1 -5 0 6 0.000 0.0080899
2 -4 1 5 0.1667 0.1267669
3 -3 4 2 0.667 0.7209767
4 -2 6 0 1.000 0.9787199
5 -1 6 0 1.000 0.9987799

El comando Splus que usamos es:

salida< glm(SF logdosis, family=binomial)

53
yy<- c(0,1,4,6,6)
sf<- cbind(yy,6-yy)
logdosis<- -c(5:1)

salida<- glm(sf~logdosis,family=binomial)

summary(salida)

Call: glm(formula = sf ~ logdosis, family = binomial)


Deviance Residuals:
1 2 3 4 5
-0.3122076 0.282141 -0.291303 0.5080521 0.1210355

Coefficients:
Value Std. Error t value
(Intercept) 9.586802 3.703679 2.588454
logdosis 2.879164 1.101315 2.614296

(Dispersion Parameter for Binomial family taken to be 1 )

Null Deviance: 28.009 on 4 degrees of freedom

54
Residual Deviance: 0.5347011 on 3 degrees of freedom

Number of Fisher Scoring Iterations: 5

Correlation of Coefficients:
(Intercept)
logdosis 0.9820848

salida$deviance
[1] 0.5347011

pchisq(salida$deviance,3)
[1] 0.0887958

1-pchisq(salida$deviance,3)
[1] 0.9112042

55
Resumiendo
Call: glm(formula = SF logdosis, family = binomial)
Deviance Residuals:
1 2 3 4 5
-0.3122076 0.282141 -0.291303 0.5080521 0.1210355

Coefficients:
Value Std. Error t value
(Intercept) 9.586802 3.703679 2.588454
logdosis 2.879164 1.101315 2.614296

Null Deviance: 28.009 on 4 degrees of freedom


Residual Deviance: 0.5347011 on 3 degrees of freedom
Number of Fisher Scoring Iterations: 5
Correlation of Coefficients: (Intercept)
logdosis 0.9820848

56
57
En el caso de la binomial el test G2 es:

yi ni y
N


X i
G2 = 2

y i log


+ (ni y i ) log




i=1 i
c ni ic

Otra medida importante de discrepancia es el estadstico


generalizado de Pearson 2, que es de la forma

c )2
(yi N (yi ni c )2
2 X i X i
= d = ,
V (Yi) i=1 ni i (1 i )
c c

donde V (
c ) es la funcion de varianza estimada para la distribucion subyacente.
i
Para la distribucion Normal, 2 es la suma de cuadrados habitual.

Tanto la deviance como el estadstico 2 tienen distribucion


exacta 2 bajo normalidad y solo obtenemos resultados asintoticos bajo otras
distribuciones.

58
La ventaja de la deviance como medida de discrepancia es que es aditiva para
modelos anidados si se usan estimadores de maxima verosimilitud, mientras que
en general 2 no es aditiva.

59

Potrebbero piacerti anche