Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduccion
Comenzaremos con un ejemplo que nos servira para ilustrar el analisis de
datos binarios.
Nuestro interes se centra en relacionar una estructura estocastica en los datos
que siguen una distribucion binomial y una estructura sistematica en terminos
de alguna transformacion de las variables independientes.
Los siguientes datos tomados de Little (1978) corresponden a 1607 mujeres
casadas y fertiles entrevistadas por la Encuesta de Fertilidad Fiji de 1975, clasi-
ficadas por edad, nivel de educacion, deseo de tener mas hijos y el uso de
anticonceptivos.
1
Edad Educacion Mas Hijos? Uso de Anticonceptivos Total
No Si
< 25 Baja Si 53 6 59
No 10 4 14
Alta Si 212 52 264
No 50 10 60
2529 Baja Si 60 14 74
No 19 10 29
Alta Si 155 54 209
No 65 27 92
3039 Baja Si 112 33 145
No 77 80 157
Alta Si 118 46 164
No 68 78 146
4049 Baja Si 35 6 41
No 46 48 94
Alta Si 8 8 16
No 12 31 43
Total 1100 507 1607
2
El objetivo es decribir como el uso de metodos anticonceptivos vara segun la
edad, el nivel de educacion y el deseo de tener mas hijos.
Por ejemplo, una pregunta que sera interesante responder es si la asociacion
entre educacion y anticoncepcion es afectada por el hecho de que mujeres con
un nivel de educacion mas elevado prefieren familias mas chicas que las mujeres
con niveles de educacion inferior.
Compenente Aleatoria
Definamos
1 si usa anticonceptivo
Yi =
0 si no
Yi toma los valores 1 y 0 con probabilidad i y 1 i, respectivamente,y por
lo tanto
E(Yi) = i
V ar(Yi) = i(1 i) .
Tanto la media como la varianza dependen de i, por lo tanto cualquier fac-
3
tor que afecte la esperanza tambien afectara la varianza. Esto nos sugiere que
cualquier modelo, que como el lineal, asuma homoscedasticidad de las observa-
ciones no sera adecuado para este problema.
En nuestro ejemplo, de acuerdo con el valor de las variables predictoras, las
observaciones pueden ser clasificadas en 16 grupos. Si llamamos ni al numero
de observaciones del grupo i e Yi denota al numero de exitos , tendremos que
Yi Bi(ni, i).
En nuestro caso,
Yi = numero de mujeres que usan anticonceptivos en el iesimo grupo.
Luego,
ni k
ni k
P (Yi = k) =
i (1 i )
k
E(Yi) = nii
V ar(Yi) = nii(1 i) ,
para k = 0, . . . , ni.
4
Compenente sistematica
El proximo paso en la definicion del modelo involucra a las covariables xi que
participan en lo que llamaremos componente sistematica.
El modelo mas sencillo podra expresar a i como una combinacion lineal de
las variables independientes:
i = x0i ,
siendo el vector de parametros a estimar.
Este modelo recibe el nombre de modelo de probabilidad lineal y su
estimacion puede basarse en mnimos cuadrados ordinarios.
Un problema evidente de este modelo es que las probabilidades i son aco-
tadas, mientras que las x0i pueden tomar cualquier valor real. Si bien esto
podra controlarse imponiendo complicadas restricciones a los coeficientes, esta
solucion no resulta muy natural.
Una solucion sencilla es transformar la probabilidad mediante una funcion
que mapee el intervalo (0, 1) sobre la recta real y luego modelar esta transfor-
macion como una funcion lineal de las variables independientes.
5
Una manera de hacer esto es mediante los odds definidos como
= ,
1
es decir la razon entre los casos favorables y los no favorables. Veamos unos
ejemplos:
0.1 0.11
0.2 0.25
0.5 1
0.6 4
0.9 9
6
0
logit() = log = o + 1 x1 + 2 x2 + . . . + p xp = x =
1
La funcion logit es estrictamente creciente y tiene inversa:
1 e
= logit () =
.
1+e
En nuestro ejemplo tenemos: 507 mujeres usan anticonceptivos entre las 1607,
507
por lo que estimamos la probabilidad como 1607 =0.316. Luego, los odds se
calculan como
507
1607 507
1100 = = 0,461.
1607
1100
Entonces, aproximadamente por cada mujer que usa anticoceptivos hay dos
que no usan. El logit(0,461) = 0,775.
7
Modelo de Regresion Logstica
Supongamos que Y1, . . . , Yn son v.a.independientes tales que
Yi Bi(ni, i) . (1)
Esto define la componente aleatoria.
Supongamos ademas que la probabilidad i es una funcion de los predictores:
8
9
predictor y se matienen constantes todas las demas variables.
Como
x0i
e
i = 0 ,
1+e i x
i
= j i(1 i) .
xij
Luego, el efecto del jesimo predictor depende del coeficiente j y de la
probabilidad i.
Una vez establecido el modelo que queremos ajustar deberemos estimar los
parametros, hallar intervalos de confianza para los mismos, evaluar la bondad
del ajuste y es probable que nos interese realizar algun test que involucre a los
parametros. Tambien tendremos que evaluar la influencia de las observaciones
en la determinacion de los valores estimados.
10
Modelo Lineal Generalizado
El modelo lineal clasico lo podemos definir como:
1. Componente Aleatoria: Y N (, 2)
2. Componente Sistematica: covariables x1, x2, . . . , xp que dan origen al pre-
dictor lineal = Ppj=1 xj j .
3. Funcion de enlace: enlace entre las dos componentes = .
Nota
Recordemos que en la expresion clasica del modelo lineal tenemos un error
aleatorio aditivo
Y = x0 + .
Los modelos GLM no tienen esta estructura. Por ejemplo, en el caso del logit
no podemos escribir
0
log
= x + .
1
Para este modelo, el error aleatorio ya esta incluido en Y Bi(n, ) y g() =
es una relacion funcional.
12
Funcion de Verosimilitud para el GLM
Sea Y una v.a. con funcion de densidad o probabilidad dada por:
y b()
fY (y, , ) = exp + c(y, ) ,
a()
para algunas funciones a(), b() y c(y, ). Si es un parametro conocido, esta
es una familia exponencial con parametro canonico o natural .
Si no es conocido, esta puede ser una familia exponencial en (, ) o no.
es un parametro de dispersion o de forma.
La media E(Y ) es solo funcion de y es por lo tanto el parametro de interes;
en general es tratado como un parametro nuisance. En la mayora de los casos
no sera tratado tal como es tratado . Estimaremos y haremos inferencia
bajo un valor asumido de y si necesita ser estimado, lo estimaremos y luego
sera tomado como un valor fijo y conocido.
Esta familia incluye distribuciones simetricas, asimetricas, discretas y conti-
nuas, tales como la distribucion Normal, Binomial, Poisson o Gamma.
13
Momentos de una familia exponencial
Deduciremos el primer y segundo momento de una familia exponencial a
partir del logaritmo de su verosimilitud.
y b()
`(, y) = + c(y, ) .
a()
Su primera derivada o score es:
0 `(, y) y b0()
` (, y) = = ,
a()
mientras que su derivada segunda es:
2 00
00 ` (, y) b ()
` (, y) = = .
2 a()
`(, y)
Como E = 0, entonces
14
0
y b ()
0 = E (`0(, y)) = E
a()
y por lo tanto
= E(Y ) = b0() .
Ademas, sabemos que
00 0 2
E(` (, y)) = E (` (, y)) ,
entonces
0
0 2
b00() 00
V ar(` (, y)) = E (` (, y)) = E(` (, y)) = .
a()
Por otro lado,
0
y b () 1
V ar(`0(, y)) = V ar =
2
V ar(Y )
a() a ()
15
y en consecuencia
V ar(Y ) = a()b00() .
16
Supuestos del modelo
= x0
siendo x el vector de covariables y el vector a estimar
la funcion de enlace que relaciona a y
g() =
17
Nota: En algunos casos a() es de la forma a() = , donde w es un peso
w
conocido.
Ejemplos
1. Caso Normal: Y N (, 2).
2
1 1 (y )
f (y, , ) = 2
exp
2
2 2
2 2
y /2 1 y 2
= exp 2
2
+ log(2 ) ,
2
2 2
1 y 2
por lo tanto = , b() = , = 2, a() = y c(y, ) = 2
+ log(2 ) .
2 2
E(Y ) =
2
En el caso heteroscedastico Y N (, w ), donde w es un peso conocido,
tenemos = 2 y a() = w .
2. Caso Binomial: Y Bi(n, p)
18
Y
Consideremos n = proporcion de exitos.
Y y n y ny
P( = ) =
p (1 p)
n n y
y p n
= exp n log + n log(1 p) + log y
n 1p n
n
p 1 y
por lo tanto = log , b() = log(1 + e ) , = n, a() = y c( , ) =
1p n n
n
y .
nn
Y e
E =p=
n 1 + e
19
por lo tanto = log , b() = e , = 1, a() = 1 y c(y, ) = log y!
E(Y ) = = e
= g() .
Ejemplos de g(t) son la identidad, el log,la logstica y la probit. Como la
funcion g es biyectiva podremos invertirla, obteniendo:
= g 1() = g 1(x0) .
En el caso Binomial, por ejemplo, tenemos que (0, 1) y el link tiene que
mapear sobre la recta real. Suelen usarse 3 links:
e
1. Logit: = log 1 ( 1+e)
20
2. Probit: = 1()
3. Complemento loglog: = log( log(1 ))
Links Canonicos:
En el caso normal mostramos que si Y N (, 2) el parametro canonico es
= .
En el caso binomial Y Bi(n, p) en el que consideremos Yn vimos que el
canonico es = logit(). Estos son los links mas usados en cada caso.
Cuando usamos = el modelo tiene el link canonico o natural. Es conve-
niente usar el link natural, ya que algunas cosas se simplifican, pero la posibi-
lidad de usarlo dependera de los datos con los que estemos trabajando.
Normal:
Poisson: = log
Binomial: = log 1
Gamma: = 1
21
Estimacion de los parametros:
Metodo de NewtonRaphson y Fisherscoring
Supongamos que Y1, . . . , Yn son variables aleatorias que satisfacen los supuestos
de un GLM y que queremos maximizar el loglikelihood `(, y) respecto a
= (1, . . . , p)0. Queremos resolver
`0() = `0(, y) = 0 .
En general este es un sistema no lineal.
Aproximaremos la ecuacion linealmente en la vecindad de un punto (t) me-
diante el algoritmo de NewtonRaphson.
Usando una expansion de Taylor de primer orden, tenemos que:
`0()
= `0( (t)) + ( (t)) `00((t))
" #
(t) (t) 1 0
= 00
` ( ) ` ( (t)) (4)
24
y b()
exp + c(y, ) ,
a()
= E(Y ) = b0() y V ar(Y ) = a()b00()
= x0
g() =
` y b0() y
= =
a() a()
1 a()
= 00 =
b () V ar(Y )
= depende de la funcion de enlace
= xij ,
j
luego, resulta
` Y
= xij .
j V ar(Y )
25
De esta manera, las ecuaciones de maxima verosimilitud quedan:
` n Yi i
X i
= xij = 0 (5)
j i=1 Vi i
Por ejemplo, si usamos el link natural tenemos que
V = b00() = b00()
y ademas
= b0() = b0()
= b00() ,
por lo tanto
1
V = 1.
Si consideramos la derivada segunda a partir de (5) queda:
2` X 1 i X 1 i
= (Yi i) xij + (Yi i) xij . (6)
k j i k Vi i i k Vi i
2`
En el metodo de Fisherscoring se propone utilizar E en lugar de
k j
26
2`
k j con el fin de obtener resultados mas estables.
Podemos hallar esta esperanza recordando que:
2
` ` `
E = E
k j k j
2 2
Y
= E
x x
ij ik
V ar(Y )
2
1
=
xij xik .
V ar(Y )
27
que en forma matricial podemos escribir como:
X0WX
!
i 2
siendo W = diag Vi1 i .
Tambien notemos que cuando usamos el link natural V 1 = 1, por lo
tanto (6) queda
X 1
(Y ) xj ,
i k V
por lo tanto,en este caso, NewtonRaphson coincide con Fisher scoring.
Finalmente, si V1 = diag(Vi1), entonces
` 0 1
=XV (Y ) ,
j
y si volvemos a (4) queda
28
1
(t+1) = (t) + (X0WX) X0V1
(Y )
1
(t+1) = (X0WX) X0WX (t) + X0V1 (Y )
1
(t+1) = (X0WX) X0Wz ,
donde
z=+ (Y )
De esta manera vemos al metodo de Fisherscoring como mnimos cuadrados
pesados iterados(IRWLS)
1) En cada ciclo usamos el valor actual de para construir la variable de
trabajo z y nuevos pesos W.
2) Hacemos la regresion de z sobre x usando los pesos W para actualizar el
valor de .
29
Recordemos el algoritmo de calculo del estimador:
" #
(t) (t) 1 0
= 00
+ ` ( ) ` ((t))
Yii b(i)
`i(i, Yi) = + c(Yi, )
a()
Su derivada respecto de j
`i Yi i i
= xij .
j V ar(Yi) i
` n
X Yi i i
= xij = 0 . (7)
j i=1 Vi i
30
La derivada segunda es:
2` X 1 i X 1 i
= (Yi i) xij + (Yi i) xij .
k j i k Vi i i k Vi i
2 2
` X
i
E
= Vi1
xij xik .
k j i i
X i i
= Vi1 xij xik .
i i i
31
entonces, en forma matricial
` 2
X i 0 1 i
E
=
Vi .
i
Finalmente, si:
2
i
W(t) = diag Vi1
i
(V(t))1 = diag(Vi1)
resulta
(t) 1
!
(t+1) (t) 0 (t) 1 0
= + XW X X (V ) (Y )
!
1
(t+1) = X0W(t)X X0W(t)z(t) ,
exi
0
1
i = =
exi 1 + exi
0 0
1+
Tenemos las siguientes igualdades:
n ni!
yi i (1 i)niyi
Y
Likelihood =
i=1 yi ! (ni yi )!
y
n i i
Y
Likelihood (1 i)ni
i=1 1 i
n x0 y
e i i (1 + exi )ni
Y 0
Likelihood
i=1
n n
ni log(1 + exi )
X X 0
`() = x0i yi
i=1 i=1
33
`() n n 1
exi xij
X X 0
= yixij ni
1 + exi
0
j i=1 i=1
n
X
= (yi i) xij ,
i=1
n
X
= ni i (1 i)xij xik
i=1
Usemos la notacion matricial:
n ni!
yi i (1 i)niyi
Y
Likelihood =
i=1 yi! (ni yi)!
`0() = X0(y ) ,
`00() = XWX ,
34
donde
W = diag(nii(1 i)) .
NewtonRaphson resulta:
! !
(t+1) (t) 0 (t) 1 0 (t)
= + XW X X y .
Si como antes, pensamos a Y como la proporcion de exitos en los ni ensayos,
tendramos
i(1 i)
niYi Bi(ni, i). Tenemos que V ar(Yi) = . La funcion de vari-
ni
anza resulta:
V (i) = i(1 i) .
Bajo el modelo logstico
i 1
= ,
i i(1 i)
35
por lo tanto
y i i y i i
zi = i + = x0i + .
i(1 i) i(1 i)
i
Dij =
j
V = Diag(V (i))
evaluadas en 0
Fahrmeir y Kaufmann (1985) probaron que si
37
(N) (Convergencia y Continuidad) Para todo > 0
max kVn() Ik 0
Nn ()
donde
Vn() = In1/2In()In1/2
es una matriz de informacion normalizada.
Existencia y Consistencia
c
Entonces, bajo (C) y (D) exite el EMV y ademas
c p
n 0
Distribucion Asintotica
Entonces, bajo (D) y (N) existe
D
(In)1/2 U N (0, I)
y
D
(In)1/2 (
c
n 0 ) N (0, I)
38
c
En la practica, usaremos como matriz de covarianza asintotica a In( n)
Esto nos servira para deducir intervalos de confianza para los parametros y
para deducir tests tipo Wald en tanto
c 0 c c (a) 2
( n 0 ) In ( n ) ( n 0 ) p .
c (a) 0 1
( n 0 ) N (O, (X WX) ) .
c (a) d c
( n 0 ) N (O, V( n)) ,
siendo
d c
V( n) = (X0W(cn)X) .
Si queremos computar un intervalo de confianza de nivel asintotico 1 para
39
j , este sera:
cnj z (
c
c
nj ) ,
siendo
1/2
c d c
(j ) = V()jj
c .
Inferencia acerca de una funcion de los coeficientes
Para una funcion lineal de los prametros = a0 0, una aproximacion razon-
able para n suficientemente grande es
(a)
(a0
c
n a0
0 ) N (O, a0d c
V(n)a) .
Para una funcion no lineal = g( 0), para n grande tendremos
logit(i) = 0 + 1zi .
Un parametro de interes en estos problemas suele ser el valor de z para el
cual se obtiene el 50 % de muertes. Llamemos a dicho valor M50.
0
Como logit(1/2) = 0, tenemos que M50 = . Por lo tanto,
1
M50 1
=
0 1
41
M50 0
= 2
1 1
c0
La varianza estimada de c es
1
1
c
1 c
1
0 0 d
1
c , c X WX
,
1 12
c
0
c12
d c c
donde W = diag(ni i (1 i )).
Tests de Hipotesis
En el contexto de GLM abordaremos el problema de comparar dos modelos
cuando tienen la misma distribucion subyacente y la misma funcion link.
Consideraremos la comparacion de dos modelos anidados, es decir la diferen-
cia entre los dos modelos sera que la componente lineal de un modelo tendra mas
42
parametros que el otro. El modelo mas simple, que correspondera a Ho, sera un
caso especial de un modelo mas general. Si el modelo mas simple ajusta a los
datos tan bien como el mas general, entonces, en virtud del principio de parsi-
mona no rechazaremos Ho. Si el modelo mas general ajusta significativamente
mejor, rechazaremos Ho en favor de H1, que corresponde al modelo mas gen-
eral. Para realizar estas comparaciones deberemos usar medidas de bondad de
ajuste.
Las medidas de bondad de ajuste pueden basarse en en el maximo valor
de la funcion de verosimilitud, en el maximo valor del log de la funcion de
verosimilitud, en el mnimo valor de la suma de cuadrados o en un estadstico
combinado basado en los residuos.
El proceso de comparacion sera como siempre:
c c
log() = `( s , y) `(, y) .
c c
D = 2 `(s, y) `(, y)
n
X
D = 2 a1
i (){y i ( c
si c
i ) b( c
si ) + b( c
i )} .
i=1
n
X 1 1 n
X
D=2 (yi(yi i) yi2 + 2i ) = (yi i)2 .
i=1 2 2 i=1
46
Caso Binomial
!
e
Recordemos que = log 1 , es decir = 1+e
,
n
X yi c c c c
D = 2 ni{ ( si i ) b(( si ) + b( i )}
i=1
ni
c
n
X yi yi/ni i
= 2 ni log log c +
i=1 ni 1 yi/ni 1 i
yi c
log(1 ) log(1 i )
ni
c
n
X y i /n i 1 i 1 y i /ni
= 2 yi log
c + y i log + log c
i=1
i 1 yi/ni
1 i
n
X yi/ni 1 yi/ni
= 2 yi log
c + (1 y i ) log c
i=1
i 1 i
n
X yi ni yi
= 2 yi log
+ (n i y i ) log
i=1 i
c ni i
c
1
`() ' `(b) + ( b) U(b) ( b)0I(b) b) .
0
2
donde U = (U1, . . . , Up)0
`(, y) n
X `i(, yi)
Uj = =
j i=1 j
n (Yi i ) i
X
= xij j = 1, . . . , p .
i=1 var(Yi) j
E(U) = 0 E(UU0) = I ,
siendo I la matriz de informacion de Fisher.
Si b es el punto donde ` alcanza su maximo, entonces
1
`() `(b) ' ( b)0I(b) b) .
2
48
Por lo tanto
(a)
`() `(b) 2p .
de este resultado, obtenemos
c c
D = 2 `(s, y) `(, y)
c
= 2 `(s, y) `(s, y)
c
2 `(, y) `(, y) + 2 [`(s, y) `(, y)]
Luego,
(a)
D 2mp, ,
siendo
49
= 2 [`(s, y) `(, y)] ,
donde es una constante positiva cercana a 0 si el modelo propuesto ajusta
a los datos tan bien como el modelo saturado.
En el caso particular de la distribucion binomial demostraremos este lmite
usando las aproximaciones que ya vimos.
Teorema. Bajo las condiciones de regularidad supuestas para los resultados
de convergencia de los tests 2 y G2 y suponiendo que 0 = (, 0), entonces
D
G2(M0) G2(M1) 210
donde 1 = dim(, ) 0 = dim(, 0)
Usaremos en la demostracion el resultado dadopor el siguiente
Teorema: Sea Y un vector con distribucion N (, ). Una condicion nece-
saria y suficiente para que (Y )0C(Y ) tenga distribucion 2 es que
CC = C, donde los grados de libertad seran el rango de C (si es
no singular la condicion se simplifica a CC = C). (Rao, 1965, p. 150)
50
Aplicaciones a Test de Hipotesis
Consideremos la hipotesis nula:
H0 : = 0 = (01, . . . , 0q )0
y una hipotesis mas general
D = D0 D1
c c c c
= 2 `(s, y) `(0, y) 2 `( s, y) `(1, y)
c c
= 2 `(1, y) `(0, y) .
(a)
Compararamos a D con una 2pq ya que bajo H0tendramos que D 2pq .
51
Si el valor observado de D fuera mayor que el percentil 2pq,
rechazaramos a H0 en favor de H1, bajo el supuesto de que H1 da una mejor
descripcion de los datos (aun cuando H1 no provea un muy buen ajuste).
52
Ejemplo: los siguientes datos corresponden a un experimento de dosis
respuesta en el que 5 grupos de 6 animales fueron expuestos a una sustancia
peligrosa (Schafer, 2000). Yi denota al numero de animales que murieron al ser
expuestos a la iesima dosis.
c
obs. xi = log10 concentrac. yi ni yi yi /ni i
1 -5 0 6 0.000 0.0080899
2 -4 1 5 0.1667 0.1267669
3 -3 4 2 0.667 0.7209767
4 -2 6 0 1.000 0.9787199
5 -1 6 0 1.000 0.9987799
53
yy<- c(0,1,4,6,6)
sf<- cbind(yy,6-yy)
logdosis<- -c(5:1)
salida<- glm(sf~logdosis,family=binomial)
summary(salida)
Coefficients:
Value Std. Error t value
(Intercept) 9.586802 3.703679 2.588454
logdosis 2.879164 1.101315 2.614296
54
Residual Deviance: 0.5347011 on 3 degrees of freedom
Correlation of Coefficients:
(Intercept)
logdosis 0.9820848
salida$deviance
[1] 0.5347011
pchisq(salida$deviance,3)
[1] 0.0887958
1-pchisq(salida$deviance,3)
[1] 0.9112042
55
Resumiendo
Call: glm(formula = SF logdosis, family = binomial)
Deviance Residuals:
1 2 3 4 5
-0.3122076 0.282141 -0.291303 0.5080521 0.1210355
Coefficients:
Value Std. Error t value
(Intercept) 9.586802 3.703679 2.588454
logdosis 2.879164 1.101315 2.614296
56
57
En el caso de la binomial el test G2 es:
yi ni y
N
X i
G2 = 2
y i log
+ (ni y i ) log
i=1 i
c ni ic
c )2
(yi N (yi ni c )2
2 X i X i
= d = ,
V (Yi) i=1 ni i (1 i )
c c
donde V (
c ) es la funcion de varianza estimada para la distribucion subyacente.
i
Para la distribucion Normal, 2 es la suma de cuadrados habitual.
58
La ventaja de la deviance como medida de discrepancia es que es aditiva para
modelos anidados si se usan estimadores de maxima verosimilitud, mientras que
en general 2 no es aditiva.
59