Sei sulla pagina 1di 23

Página www

MODELOS
Página de Abertura
Clase 10
Contenido
Juan Carlos Correa
JJ II 15 de octubre de 2019

J I

Página 1 de 22

Regresar

Full Screen

Cerrar

Abandonar
Página www
Distribuciones No Informativas en
Página de Abertura
el Modelo Lineal Bayesiano
Contenido
Yang y Berger (1998) presentan varias razones por las cuales es
JJ II
importante considerar las distribuciones no informativas. Tene-
mos entre ellas
J I
Con frecuencia la elicitación de las distribuciones apriori es
Página 2 de 22
imposible, por múltiples razones, por ejemplo, limitaciones
de costo o tiempo, o resistencia o falta de entrenamiento
Regresar
de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
Full Screen

La elicitación subjetiva puede producir malas distribucio-


Cerrar
nes subjetivas, por ejemplo si la elicitación es sesgada.
Abandonar
Página www

Página de Abertura

Contenido

En problemas de alta dimensión, lo más que se puede espe-


JJ II rar es obtener buenas distribuciones subjetivas para algu-
nos pocos parámetros, y a los parámetros de perturbación
J I se les asignan distribuciones no informativas.

Página 3 de 22
El análisis bayesiano con distribuciones no informativas
puede utilizarse para obtener procedimientos clásicos bue-
Regresar nos.

Full Screen

Cerrar

Abandonar
Página www

Página de Abertura

Contenido
Aún cuando un investigador tenga creencias apriori fuertes,
JJ II
puede ser más convincente analizar los datos utilizando una
apriori de referencia dominada por la verosimilitud.
J I
Además podemos automatizar el proceso de hallar aprioris.
Página 4 de 22 Yang y Berger (1998) proporcionan un amplio catálogo de
distribuciones no informativas que es útil en el trabajo apli-
Regresar
cado.
Full Screen

Cerrar

Abandonar
Página www

Distribuciones No Informativas Populares


Página de Abertura

Apriori No Informativa de Laplace


Contenido
Una distribución no informativa muy popular entre los clásicos
JJ II es la apriori de Laplace,

J I ξ (β, τ ) ∝ 1

Página 5 de 22
con la cual la aposteriori termina siendo proporcional a la ve-
rosimilitud.
Regresar

El Principio de la Razón Insuficiente de Laplace Si el


Full Screen
espacio parametral es finito se puede utilizar una distribución
apriori uniforme para reflejar ignorancia total.
Cerrar

Abandonar
Apriori de Jeffreys
Página www

La distribución apriori de Jeffreys satisface la propiedad local


Página de Abertura de uniformidad para distribuciones apriori no informativas. Es-
ta apriori está basada en la matriz de información de Fisher.
Contenido Jeffreys la propuso como una “regla general” para determinar
la distribución apriori (Kass y Wasserman, 1994).
JJ II
Definición: Sea f (x|θ) la densidad de x dado θ. La informa-
ción de Fisher es definida como
J I
 2
∂ log (f (x|θ))

Página 6 de 22
I(θ) = −E
∂θ2
Regresar Si θ es un vector de p componentes, entonces
 2
∂ log (f (x|θ))

Full Screen
I(θ) = −E
∂θi ∂θj p×p
Cerrar

y entonces I(θ) será una matriz de dimensión p × p.


Abandonar
Página www

Página de Abertura

Contenido

JJ II

Definición: La distribución apriori de Jeffreys se define como


J I
1/2
ξ(θ) ∝ |I(θ)|
Página 7 de 22

Regresar

Full Screen

Cerrar

Abandonar
Página www

Página de Abertura

Contenido

JJ II
La distribución apriori de Jeffreys es localmente uniforme y
por lo tanto no informativa. Esta propiedad es importante ya
J I que nos proporciona un esquema automatizado para hallar dis-
tribuciones apriori no informativas para cualquier modelo pa-
Página 8 de 22 ramétrico (Ibrahim, 2002). Esta distribución es impropia para
muchos modelos, sin embargo, es propia para algunos.
Regresar

Full Screen

Cerrar

Abandonar
Página www Diferenciación de formas lineales y
Página de Abertura cuadráticas
Contenido
∂ a0x
=a
JJ II
∂x

J I ∂ a0x
0
= a0
∂x
Página 9 de 22

Regresar
∂ Bx
=B
∂ x0
Full Screen

0
∂ (Bx)
Cerrar
= B0
∂x
Abandonar
Página www

Página de Abertura

Contenido

JJ II ∂ x0Ax
= (A + A0) x
∂x
J I
Si A es simétrica
Página 10 de 22
∂ x0Ax
= 2Ax
Regresar
∂x

Full Screen

Cerrar

Abandonar
Apriori No Informativa de Jeffreys
Página www
Resultado 21
Página de Abertura
En el caso de distribuciones no informativas la apriori de Jef-
freys es
Contenido

JJ II
ξ (β, τ ) ∝ τ k/2−1
Prueba:
J I
Recordando que la f.d.p. para una sola observación puede ex-
Página 11 de 22
presarse como
τ
 
2
Regresar f (y |β, τ, x) ∝ τ 1/2 exp − (y − x0β)
2
Full Screen 0
donde β = (β0 , β1 , · · · , βk )
Cerrar
τ
 
f (y |β, τ, x) ∝ τ 1/2 exp − y 2 − 2yx0β + β 0xx0β

Abandonar
2
Página www

1 τ 2
log (f (y |β, τ, x)) ∝ log (τ ) − (y − x0β)
Página de Abertura
2 2
1 τ 2
log (f (y |β, τ, x)) ∝ log (τ ) − y − 2yx0β + β 0xx0β

Contenido
2 2
∂ log (f (y |β, τ, x)) 1 1 2
JJ II = − (y − x0β)
∂τ 2τ 2
∂ log (f (y |β, τ, x))
J I
= −τ (−xy + xx0β)
∂β
Página 12 de 22
∂ 2 log (f (y |β, τ, x)) τ −2
= −
Regresar
∂τ 2 2
2
∂ log (f (y |β, τ, xx))
0
= −τ (xx0)
Full Screen ∂β∂β
2
∂ log (f (y |β, τ, x))
Cerrar = − (−xy + xx0β)
∂β∂τ
Abandonar
Página www

   −2 
0
Página de Abertura
τ −τ2 − (−xy + xx β)
I = −E 0
β − (−xy + xx β) −τ (xx0)
Contenido

τ −2
 
JJ II
0
= 2
0 τ (xx0)
J I

τ −2 k+1
   τ −2 
Página 13 de 22
τ 0
τ |xx0|

I = 2 =
β 0 τ (xx0) 2
Regresar

 
Full Screen τ
ξ ∝ τ (k−1)/2
β
Cerrar

Abandonar
Página www
MCMC: Monte Carlo por Cadenas
de Markov
Página de Abertura

Los métodos MCMC son algoritmos iterativos que se uti-


Contenido
lizan cuando el muestreo directo de una distribución de
interés ξ no es factible.
JJ II
Este algoritmo fue propuesto por los fı́sicos
J I
1. Nicholas Metropolis,
Página 14 de 22
2. Arianna W. Rosenbluth,
Regresar
3. Marshall Rosenbluth,
4. Augusta H. Teller y
Full Screen
5. Edward Teller
Cerrar
en 1953 y apareció en un artı́culo llamado Equation of State
Calculations by Fast Computing Machines.
Abandonar
Página www

Página de Abertura

Contenido

JJ II
Una cadena de Markov es generada muestreando
 
J I θ(t+1) ∼ p θ|θ(t)

Página 15 de 22 Este p es llamado el kernel de transición de la cadena de Mar-


kov. Ası́ θ(t+1) depende solo de θ(t) , y no de θ(0) , θ(1) , · · · , θ(t−1)
Regresar

Full Screen

Cerrar

Abandonar
Página www

Glosario de Cadenas de Markov


Página de Abertura
Irreducibilidad Una cadena de Markov X1 , X2 , · · · es irredu-
Contenido
cible si la cadena puede moverse libremente a través del
espacio de estados; esto es, para dos estados cualesquiera
JJ II x y x0, existe un n tal que

J I
P (Xn = x0|X0 = x) > 0.
Página 16 de 22
Recurrencia Una cadena de Markov es recurrente si el número
Regresar
promedio de visitas a un estado arbitrario es infinito.

Perı́odo Un estado x tiene perı́odo d si


Full Screen
P (Xn+t = x|Xt = x) = 0 si n no es divisible por d,
Cerrar
donde d es el mayor entero con esta propiedad.

Abandonar
Página www
Aperiodicidad Si un estado x tiene perı́odo d = 1 se dice que
Página de Abertura es aperiódico.

Contenido
En una cadena irreducible todos los estados tienen el mismo
perı́odo. Si ese perı́odo es d = 1, la cadena de Markov es ape-
JJ II riódica.

J I Convergencia a una Distribución Estacionaria


Página 17 de 22 Si una cadena de Markov con espacio de estados contable
X1, X2, · · · es positiva, recurrente y aperiódica con distribución
Regresar estacionaria π , entonces desde cualquier estado inicial

Full Screen
Xn → X ∼ π
Cerrar

Abandonar
Página www

Página de Abertura
Ergodicidad Una cadena de Markov positiva, recurrente y
aperiódica es llamada ergódica.
Contenido

JJ II Convergencia de Sumas (Teorema Ergódico)

J I
Si una cadena de Markov con espacio de estados contable
X1, X2, · · · es ergódica con distribución esatcionaria π , enton-
Página 18 de 22
ces desde cualquier estado inicial
n
1X
Regresar
h (Xi) → Eπ [h(X)]
n i=1
Full Screen

Cerrar

Abandonar
Página www

Página de Abertura Algoritmo Metropolis-Hastings


Contenido El muestreo de importancia y el muestreo de rechazo tra-
bajan bien si la densidad propuesta q(θ) es similar a p(θ).
JJ II
En problemas complejos puede ser difı́cil crear una única
J I
q(θ) que tenga esta propiedad.
El algoritmo Metropolis utiliza una densidad propuesta q
que depende del estado actual de θ(t) .
Página 19 de 22

0 (t)

Regresar La densidad q θ |θ puede ser tan simple como una nor-
(t)
mal localizada en θ y no es necesario que se parezca a
Full Screen
p(θ).
Cerrar

Abandonar
Página www

El algoritmo se resume ası́:


Página de Abertura

1. Comience en cualquier lugar, y digamos que estamos en


Contenido
θ(t) = θ.
JJ II 2. Genere θ∗ de q (θ∗ |θ). θ∗ es llamado un punto candidato y
q es llamada una distribución propuesta.
J I
3. Calcule
ξ (θ∗) q (θ|θ∗)
Página 20 de 22
 

α (θ, θ ) = mı́n 1,
Regresar
ξ (θ) q (θ∗|θ)

Full Screen 4. Acepte θ(t+1) = θ∗ con probabilidad α (θ, θ∗ ).


5. En otro caso θ(t+1) = θ
Cerrar

Abandonar
Página www

Página de Abertura

Note que la densidad objetivo ξ solo entra en al proceso a través


Contenido
ξ(θ∗ )
del cociente ξ(θ) y por lo tanto no hay necesidad de conocer la
JJ II constante de normalización para implementar el algoritmo.
Casos especiales:
J I
1. q (θ|θ∗ ) = q (θ∗ |θ): Algoritmo Metropolis.
2. q (θ|θ∗ ) = g (θ∗ ): Muestreador independiente.
Página 21 de 22

Qk
Regresar
3. q (θ|θ∗ ) = i=1 ξ (θi |θ∗ < i, θ>i ) ⇒ α (θ, θ∗ ) = 1: Mues-
treador de Gibbs.
Full Screen

Cerrar

Abandonar
Página www

Página de Abertura
El Algoritmo Metropolis
Contenido
Aquı́ la distribución propuesta es simétrica, esto es,
JJ II
q (θ|θ∗) = q (θ∗|θ) ,
J I como en el caso de una Normal centrada en el punto actual,
entonces el factor ∗
Página 22 de 22 q (θ|θ )
= 1,
q (θ∗|θ)
Regresar

y el algoritmo Metropolis simplemente se limita a comparar el


Full Screen valor de la densidad objetivo en los dos puntos.

Cerrar

Abandonar
Página www

Página de Abertura Muestreador Gibbs


Contenido
Para obtener una muestra de la distribución conjunta
p(θ1, · · · , θd) el Muestreador Gibbs itera sobre este ciclo:
JJ II  
(i+1) (i),···,θd(i)
Muestree θ1 de p θ1 θ2
J I
 
(i+1) (i+1) (i) (i)
Página 23 de 22 Muestree θ2 de p θ2 θ1 , θ3 · · · , θd
...
Regresar
 (i+1)

(i+1) (i+1),···,θd−1
Full Screen Muestree θd de p θd θ1

Cerrar

Abandonar

Potrebbero piacerti anche