Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
52
Estimaci
on y Tests de Bondad de Ajuste
Supongamos que tenemos un muestreo multinomial y obtenemos la tabla
(X, Y ) en n individuos.
Y =1 Y =2
Y =J
X = 1 n11
n12
n1J
X = 2 n21
n22
n2J
X = I nI1
nI2
nIJ
Cuadro 1: Tabla de I J
i =1 j=1
ni j
53
i j = i j
i , j ,
i , j .
54
mi j = E(ni j ) = ni j .
Bajo el supuesto de independencia, el EMV es
ni +n+j
m
=
n
=
ij
ij
n
Estos estimadores tienen la propiedad de tener las mismas marginales que la
tabla:
mi +
m
+j
ni +n+j
=
= ni +
n
j=1
I ni + n+j
= n+j
=
n
i =1
J
55
i =1
ni .
j=1
i 0 =
j=1
i = 1
H1 : i : i 6= i 0
donde mi 0 = ni 0
56
mi
apr ox.
N(0, 1)
entonces
2
ni mi apr ox.
2N
mi
i =1
N
i =1
57
2
p
(p 0)
(p 0)
(p 0)
+n
=n
=
n
0
1 0
0(1 0)
0(1 0)/n
H1 : 6= 0
58
Proposici
on 1:
Sean Xn = (X1n , . . . , Xkn )0 una sucesi
on de v.a. y = (1, . . . , k )0 <k .
Si <k
D
1X1 + . . . + k Xk ,
0Xn = 1X1n + . . . + k Xkn
Ui j , entonces
Ui n =
n j=1
59
D
n )
n(U
Nk (0, ) .
n.
Segun la Proposici
on 1 debemos estudiar la distribuci
on de 0U
n = 1U1n + . . . + k Ukn
0 U
n
n
Ukj
U1j
+ . . . + k j=1
= 1 j=1
n
n
n
1
0Uj
=
n j=1
n
1
=
Wj
n j=1
= W
donde E(Wi ) = 0, V ar (Wi ) = 0.
Por el TCL univariado, tenemos que
60
D
n 0)
n(W
Nk (0, 0) ,
es decir,
D
n 0)
Nk (0, 0) ,
n(0U
D
n )
n(U
Nk (0, ) .
Proposici
on 2:
D
Z y g es una funci
on continua, entonces
Si Zn
D
g(Zn )
g(Z) .
61
D
n(Xn )
N(0, 2)
D
n(g(Xn ) g())
N(0, 2(g 0())2)
El siguiente lema, conocido como Metodo generaliza este resultado para una
funci
on de vector aleatorio.
62
Lema 2: M
etodo una funci
on de vector aleatorio.
Supongamos que Tn = (Tn1, . . . , TnN ) es una sucesi
on de vectores aleatorios
tal que
D
N(0, )
n((Tn1, . . . , TnN ) (1, . . . , N ))
D
N(0, 0)
n(g(Tn1, . . . , TnN ) g(1, . . . , N ))
63
donde
D
Nq (0, GG 0)
n(g(Tn1, . . . , TnN ) g(1, . . . , N ))
gi
Gi j =
|
tj t=
(n1, . . . , nN ) M(n, 1, . . . , N )
i =1
i = 1.
ni
.
n
Consideremos el vector Yi M(1, 1, . . . , N ) que ya definimos con todas
sus componentes iguales a 0 y un unico 1 en la coordenada j-esima si en la
i -esima observaci
on ocurri
o la categora j:
Llamemos p = (p1, . . . , pN )0, pi =
Yi = (0, . . . , 1 , . . . , 0)0
j
1i n
64
p=
D
n(p )
NN (0, () 0) .
65
Notemos que p
= Tp, siendo T es una transformaci
on lineal, luego aplicando
el T.C.L. multivariado a Tp
D
n(
p
)
NN1(0, (
)
0) ,
donde (
)
0 s es invertible.
Esto quiere decir que bajo H0
D
0) ,
n(
p
0)
NN1(0,
0 = (
donde
0)
0
00.
66
0 1
p
0) = n
n(
p
0) 0 (
i 0
j=1
67
2005.75)
(n
6017.25)
2
1
+
= 0.015
2 =
6017.25
2005.75
con un p-valor=0.88, lo que no contradice la teora de Mendel.
68
69
B=1 B=2
A = 1 X11
X12
A = 2 X21
X22 1
1
Cuadro 2:
i j = P (A = i , B = j) = P (A = i )P (B = j)
Llamemos = P (A = i ) y = P (B = j), luego
11
12 (1 )
=
=
21 (1 )
22
(1 )(1 )
70
donde 0 1, 0 1.
Para hallar los estimadores de maxima verosimilitud de y tenemos que
maximizar:
71
=0
1
X11 + X21 X12 + X22
l
=
=0
(2) :
1
por lo tanto
X11 + X12
.
=
n
X11 + X21
=
.
n
En el caso general de una tabla de I J, el modelo sera i j = i ++j .
72
i , j
es decir, la hip
otesis nula depende de ciertos parametros.
Por esto si bien para testear esta hip
otesis usaremos un test de tipo Pearson,
antes sera necesario estudiar la distribuci
on asint
otica de dicho estadstico bajo
estas condiciones.
Otro ejemplo es el de las tablas simetricas.
Ejemplo: Tabla de 2 2 con simetra
Consideremos X = (X11, X12, X21, X22)0 como en el ejemplo anterior, pero
supongamos) que ahora A y B representan dos caractersticas medidas en dos
oportunidades distintas. Por ejemplo, A podra ser la respuesta a
A : Apoya usted la gesti
on de gobierno?
73
74
11
12
=
,
=
21
1 2
22
con = (, )0.
Sera un ejercicio de la practica probar que los EMV bajo este modelo son:
X11
.
n
X12 + X21
=
.
2n
75
Caso Param
etrico General (Rao, Captulo 5e)
Supongamos que X M(n, (0)), donde (0) = (1(0), . . . , N (0)) y
0 <q .
Aun cuando en los dos ejemplos anteriores los EMV tienen una forma cerrada,
en otros modelos mas complicados, los EMV deben ser computados en forma
iterativa.
on de las ecuaciones de score:
En general, es soluci
l((), X) = 0 ,
j
j = 1, . . . , q .
(1)
D
n( 0)
Nq (0, (A0A)1)
76
donde
1/2
A = ((0))
.
=0
Este resultado lo deduciremos expresando a en terminos de las frecuencias
relativas, es decir p, y luego aplicando el metodo .
Esto nos permitira derivar la distribuci
on del estadstico 2 en casos bastante
generales.
77
Esta condici
on implica que fuera de la bola k 0k no hay ninguna sucesi
on de puntos r tal que (r ) (0) a medida que r , es decir que
no hay valores lejanos a 0 que den practicamente las mismas probabilidades
que (0).
Es decir:
> 0, exite > 0 tal que si k 0k > entonces k() (0)k > .
Bajo la condici
on fuerte de identificabilidad y continuidad de las funciones i (),
se puede demostrar que el EMV de existe y que converge a 0 con probabilidad
1.
Mas aun, si las funciones i () tienen derivadas parciales de primer orden, se
puede demostrar que el EMV es soluci
on de
l
= 0,
j
j = 1, . . . , q .
(2)
78
Por ultimo, si () 6= () si 6= , las funciones i () tienen derivadas parciales de primer orden continuas en 0 y la matriz de informaci
on I
Ir s =
i =1
1 i i
i r s
cuando
= ()
y calcularemos grados de libertad de la 2 correspondiente.
El resultado que probaremos es el siguiente:
79
i)
i)
=
=
m
n
i =1
i =1
i
i
2N1q
80
j (0)
j (0)
Ir s =
s
j=1 j ( 0 ) r
l
= 0 i = 1, . . . , q, ecuaci
on de
Luego, existe una raz consistente de
i
verosimilitud y tomando = tenemos que su distribuci
on asint
otica es normal
qvariada
D
n( 0)
Nq (0, (A0A)1)
81
donde
A = ((0))1/2
(0)
.
Esquema de demostraci
on
(1) Lemita: Si
i =1
ai
i =1
i =1
ai log
y la igualdad se alcanza si ai = bi i .
bi
0
ai
82
i =1
i (0) log
i (0)
i ()
sobre la bola
k 0k
(3) Con esto probamos que
nf
k0 k=
i =1
i =1
pi log i ()
punto interior de k 0k .
por lo tanto el maximo se alcanza en ,
83
pi i (0) i ()
=
n
i ()
r
i =1
N
q
N
i =1 s=1
i ()
1
i ()
n (s 0s )
r
s i ()
(3)
i (0)
j
1/2 ( 0 )
= ((0)
)
1/2
( 0 ) n(p
(a)
0) = (A A)
n( 0)
84
Dado que
(a)
)
n( 0) = (A0A)1 A0 ( 1/2
n(p 0)
0
(a)
= nDZn
deduciremos que
D
n(p (0))
Nq (0, ( 0) 0 00)
D
n( 0)
Nq (0, (A0A)1) .
de ().
Aplicando todos los resultados anteriores obtenemos que:
0
(
)
(
)
0
0
D
(0))
)
(A0A)1
n(()
N(0,
85
e0 =
pN N ()
p1 1()
,...,
1()
N ()
(p, ()).
Recordemos que
(a)
1/2
0
1 0
n( 0) = (A A) A ( 0 ) n(p 0)
(0)
( 0) + op (n1/2)
(
0) =
86
Por lo tanto
de donde
p 0
n
=
donde
I
n(p 0) + op (1)
p 0 D
N(0, )
0
0 00
( 0)
=
D(( 0) 0 0)
(( 0) 0 00)D0
D(( 0) 0 00)D0
D
n e
N(0, I (0)1/2 0(0)1/2 A(A0A)1A0)
87
1 pi + i
ei
=
i
2 i 3/2
ei
ei
=
=0
pj
j
De manera que
e
= (i 1/2)
p
1
e
= ((p) + (
))(
3/2)
88
ne
D
ne
2N1q
89
i , j
(ni j m
ij)
m
i =1 j=1
ij
I
90
279
(261.4)
165
(182.6)
444
73
(70.7)
47
(49.3)
120
225
(244.9)
191
(171.1)
416
577
403
980
91
Otro Ejemplo
Este es otro ejemplo en que las probablidades dependen de una cantidad menor
de parametros desconocidos, .
Una muestra de 156 terneros nacidos en Florida fueron clasificados de acuerdo
a que hayan contrado neumona dentro de los 60 das de haber nacido. Los
terneros que contrayeron neumona fueron a su vez clasificados segun se hayan
infectado o no a los 15 das de haberse curado. La Tabla muestra los datos
recolectados:
Segunda Infecci
on
Si
No
Primera Infecci
on
Si
30
No
0
63
63
Cuadro 5:
92
11
11 + 12
93
Segunda Infecci
on
Si
No
Total
Primera Infecci
on
Si
2
No
(1 )
1
Cuadro 6:
el loglikelihood queda
n11 log( 2) + n12 log( 2) + n22 log(1 ) ,
Derivando e igualando a 0 resulta
2n11 + n12
2n11 + 2n12 + n22
94
Segunda Infecci
on
Si
No
Primera Infecci
on
Si
No
30
(38.1)
0
()
63
(39)
63
(78.9)
Cuadro 7: