Clase 10 Modelos 2019

Página www
MODELOS
Página de Abertura
Clase 10
Contenido
Juan Carlos Correa
JJ II 15 de octubre de 2019
J I
Página 1 de 22
Regresar
Full Screen
Cerrar
Abandonar
Página www
Distribuciones No Informativas en
el Modelo Lineal Bayesiano
Contenido
Yang y Berger (1998) presentan varias razones por las cuales es
JJ II
importante considerar las distribuciones no informativas. Tene-
mos entre ellas
J I
Con frecuencia la elicitación de las distribuciones apriori es
Página 2 de 22
imposible, por múltiples razones, por ejemplo, limitaciones
de costo o tiempo, o resistencia o falta de entrenamiento
Regresar
de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
Full Screen
La elicitación subjetiva puede producir malas distribucio-

Cerrar
nes subjetivas, por ejemplo si la elicitación es sesgada.
Abandonar
Página www
Contenido
En problemas de alta dimensión, lo más que se puede espe-

JJ II rar es obtener buenas distribuciones subjetivas para algu-
nos pocos parámetros, y a los parámetros de perturbación
J I se les asignan distribuciones no informativas.
Página 3 de 22
El análisis bayesiano con distribuciones no informativas
puede utilizarse para obtener procedimientos clásicos bue-
Regresar nos.
Full Screen
Cerrar
Abandonar
Página www
Contenido
Aún cuando un investigador tenga creencias apriori fuertes,
JJ II
puede ser más convincente analizar los datos utilizando una
apriori de referencia dominada por la verosimilitud.
J I
Además podemos automatizar el proceso de hallar aprioris.
Página 4 de 22 Yang y Berger (1998) proporcionan un amplio catálogo de
distribuciones no informativas que es útil en el trabajo apli-
Regresar
cado.
Full Screen
Cerrar
Abandonar
Página www
Distribuciones No Informativas Populares

Apriori No Informativa de Laplace

Contenido
Una distribución no informativa muy popular entre los clásicos
JJ II es la apriori de Laplace,
J I ξ (β, τ ) ∝ 1
Página 5 de 22
con la cual la aposteriori termina siendo proporcional a la ve-
rosimilitud.
Regresar
El Principio de la Razón Insuficiente de Laplace Si el

Full Screen
espacio parametral es finito se puede utilizar una distribución
apriori uniforme para reflejar ignorancia total.
Cerrar
Abandonar
Apriori de Jeffreys
Página www
La distribución apriori de Jeffreys satisface la propiedad local

Página de Abertura de uniformidad para distribuciones apriori no informativas. Es-
ta apriori está basada en la matriz de información de Fisher.
Contenido Jeffreys la propuso como una “regla general” para determinar
la distribución apriori (Kass y Wasserman, 1994).
JJ II
Definición: Sea f (x|θ) la densidad de x dado θ. La informa-
ción de Fisher es definida como
J I
2
∂ log (f (x|θ))

Página 6 de 22
I(θ) = −E
∂θ2
Regresar Si θ es un vector de p componentes, entonces
2
∂ log (f (x|θ))

Full Screen
I(θ) = −E
∂θi ∂θj p×p
Cerrar
y entonces I(θ) será una matriz de dimensión p × p.

Abandonar
Página www
Contenido
JJ II
Definición: La distribución apriori de Jeffreys se define como

J I
1/2
ξ(θ) ∝ |I(θ)|
Página 7 de 22
Regresar
Full Screen
Cerrar
Abandonar
Página www
Contenido
JJ II
La distribución apriori de Jeffreys es localmente uniforme y
por lo tanto no informativa. Esta propiedad es importante ya
J I que nos proporciona un esquema automatizado para hallar dis-
tribuciones apriori no informativas para cualquier modelo pa-
Página 8 de 22 ramétrico (Ibrahim, 2002). Esta distribución es impropia para
muchos modelos, sin embargo, es propia para algunos.
Regresar
Full Screen
Cerrar
Abandonar
Página www Diferenciación de formas lineales y
Página de Abertura cuadráticas
Contenido
∂ a0x
=a
JJ II
∂x
J I ∂ a0x
0
= a0
∂x
Página 9 de 22
Regresar
∂ Bx
=B
∂ x0
Full Screen
0
∂ (Bx)
Cerrar
= B0
∂x
Abandonar
Página www
Contenido
JJ II ∂ x0Ax
= (A + A0) x
∂x
J I
Si A es simétrica
Página 10 de 22
∂ x0Ax
= 2Ax
Regresar
∂x
Full Screen
Cerrar
Abandonar
Apriori No Informativa de Jeffreys
Página www
Resultado 21
En el caso de distribuciones no informativas la apriori de Jef-
freys es
Contenido
JJ II
ξ (β, τ ) ∝ τ k/2−1
Prueba:
J I
Recordando que la f.d.p. para una sola observación puede ex-
Página 11 de 22
presarse como
τ

2
Regresar f (y |β, τ, x) ∝ τ 1/2 exp − (y − x0β)
2
Full Screen 0
donde β = (β0 , β1 , · · · , βk )
Cerrar
τ

f (y |β, τ, x) ∝ τ 1/2 exp − y 2 − 2yx0β + β 0xx0β

Abandonar
2
Página www
1 τ 2
log (f (y |β, τ, x)) ∝ log (τ ) − (y − x0β)
2 2
1 τ 2
log (f (y |β, τ, x)) ∝ log (τ ) − y − 2yx0β + β 0xx0β

Contenido
2 2
∂ log (f (y |β, τ, x)) 1 1 2
JJ II = − (y − x0β)
∂τ 2τ 2
∂ log (f (y |β, τ, x))
J I
= −τ (−xy + xx0β)
∂β
Página 12 de 22
∂ 2 log (f (y |β, τ, x)) τ −2
= −
Regresar
∂τ 2 2
2
∂ log (f (y |β, τ, xx))
0
= −τ (xx0)
Full Screen ∂β∂β
2
∂ log (f (y |β, τ, x))
Cerrar = − (−xy + xx0β)
∂β∂τ
Abandonar
Página www
−2
0
τ −τ2 − (−xy + xx β)
I = −E 0
β − (−xy + xx β) −τ (xx0)
Contenido
τ −2

JJ II
0
= 2
0 τ (xx0)
J I
τ −2 k+1
τ −2
Página 13 de 22
τ 0
τ |xx0|

I = 2 =
β 0 τ (xx0) 2
Regresar

Full Screen τ
ξ ∝ τ (k−1)/2
β
Cerrar
Abandonar
Página www
MCMC: Monte Carlo por Cadenas
de Markov
Los métodos MCMC son algoritmos iterativos que se uti-

Contenido
lizan cuando el muestreo directo de una distribución de
interés ξ no es factible.
JJ II
Este algoritmo fue propuesto por los fı́sicos
J I
1. Nicholas Metropolis,
Página 14 de 22
2. Arianna W. Rosenbluth,
Regresar
3. Marshall Rosenbluth,
4. Augusta H. Teller y
Full Screen
5. Edward Teller
Cerrar
en 1953 y apareció en un artı́culo llamado Equation of State
Calculations by Fast Computing Machines.
Abandonar
Página www
Contenido
JJ II
Una cadena de Markov es generada muestreando

J I θ(t+1) ∼ p θ|θ(t)
Página 15 de 22 Este p es llamado el kernel de transición de la cadena de Mar-

kov. Ası́ θ(t+1) depende solo de θ(t) , y no de θ(0) , θ(1) , · · · , θ(t−1)
Regresar
Full Screen
Cerrar
Abandonar
Página www
Glosario de Cadenas de Markov

Irreducibilidad Una cadena de Markov X1 , X2 , · · · es irredu-
Contenido
cible si la cadena puede moverse libremente a través del
espacio de estados; esto es, para dos estados cualesquiera
JJ II x y x0, existe un n tal que
J I
P (Xn = x0|X0 = x) > 0.
Página 16 de 22
Recurrencia Una cadena de Markov es recurrente si el número
Regresar
promedio de visitas a un estado arbitrario es infinito.
Perı́odo Un estado x tiene perı́odo d si

Full Screen
P (Xn+t = x|Xt = x) = 0 si n no es divisible por d,
Cerrar
donde d es el mayor entero con esta propiedad.
Abandonar
Página www
Aperiodicidad Si un estado x tiene perı́odo d = 1 se dice que
Página de Abertura es aperiódico.
Contenido
En una cadena irreducible todos los estados tienen el mismo
perı́odo. Si ese perı́odo es d = 1, la cadena de Markov es ape-
JJ II riódica.
J I Convergencia a una Distribución Estacionaria

Página 17 de 22 Si una cadena de Markov con espacio de estados contable
X1, X2, · · · es positiva, recurrente y aperiódica con distribución
Regresar estacionaria π , entonces desde cualquier estado inicial
Full Screen
Xn → X ∼ π
Cerrar
Abandonar
Página www
Ergodicidad Una cadena de Markov positiva, recurrente y
aperiódica es llamada ergódica.
Contenido
JJ II Convergencia de Sumas (Teorema Ergódico)
J I
Si una cadena de Markov con espacio de estados contable
X1, X2, · · · es ergódica con distribución esatcionaria π , enton-
Página 18 de 22
ces desde cualquier estado inicial
n
1X
Regresar
h (Xi) → Eπ [h(X)]
n i=1
Full Screen
Cerrar
Abandonar
Página www
Página de Abertura Algoritmo Metropolis-Hastings

Contenido El muestreo de importancia y el muestreo de rechazo tra-
bajan bien si la densidad propuesta q(θ) es similar a p(θ).
JJ II
En problemas complejos puede ser difı́cil crear una única
J I
q(θ) que tenga esta propiedad.
El algoritmo Metropolis utiliza una densidad propuesta q
que depende del estado actual de θ(t) .
Página 19 de 22
0 (t)

Regresar La densidad q θ |θ puede ser tan simple como una nor-
(t)
mal localizada en θ y no es necesario que se parezca a
Full Screen
p(θ).
Cerrar
Abandonar
Página www
El algoritmo se resume ası́:

1. Comience en cualquier lugar, y digamos que estamos en

Contenido
θ(t) = θ.
JJ II 2. Genere θ∗ de q (θ∗ |θ). θ∗ es llamado un punto candidato y
q es llamada una distribución propuesta.
J I
3. Calcule
ξ (θ∗) q (θ|θ∗)
Página 20 de 22

∗
α (θ, θ ) = mı́n 1,
Regresar
ξ (θ) q (θ∗|θ)
Full Screen 4. Acepte θ(t+1) = θ∗ con probabilidad α (θ, θ∗ ).

5. En otro caso θ(t+1) = θ
Cerrar
Abandonar
Página www
Note que la densidad objetivo ξ solo entra en al proceso a través

Contenido
ξ(θ∗ )
del cociente ξ(θ) y por lo tanto no hay necesidad de conocer la
JJ II constante de normalización para implementar el algoritmo.
Casos especiales:
J I
1. q (θ|θ∗ ) = q (θ∗ |θ): Algoritmo Metropolis.
2. q (θ|θ∗ ) = g (θ∗ ): Muestreador independiente.
Página 21 de 22
Qk
Regresar
3. q (θ|θ∗ ) = i=1 ξ (θi |θ∗ < i, θ>i ) ⇒ α (θ, θ∗ ) = 1: Mues-
treador de Gibbs.
Full Screen
Cerrar
Abandonar
Página www
El Algoritmo Metropolis
Contenido
Aquı́ la distribución propuesta es simétrica, esto es,
JJ II
q (θ|θ∗) = q (θ∗|θ) ,
J I como en el caso de una Normal centrada en el punto actual,
entonces el factor ∗
Página 22 de 22 q (θ|θ )
= 1,
q (θ∗|θ)
Regresar
y el algoritmo Metropolis simplemente se limita a comparar el

Full Screen valor de la densidad objetivo en los dos puntos.
Cerrar
Abandonar
Página www
Página de Abertura Muestreador Gibbs

Contenido
Para obtener una muestra de la distribución conjunta
p(θ1, · · · , θd) el Muestreador Gibbs itera sobre este ciclo:
JJ II
(i+1) (i),···,θd(i)
Muestree θ1 de p θ1 θ2
J I

(i+1) (i+1) (i) (i)
Página 23 de 22 Muestree θ2 de p θ2 θ1 , θ3 · · · , θd
...
Regresar
(i+1)

(i+1) (i+1),···,θd−1
Full Screen Muestree θd de p θd θ1
Cerrar
Abandonar

Clase 10 Modelos 2019

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Clase 10 Modelos 2019

Caricato da

Copyright:

Formati disponibili

Página www

La elicitación subjetiva puede producir malas distribucio-

En problemas de alta dimensión, lo más que se puede espe-

Distribuciones No Informativas Populares

Apriori No Informativa de Laplace

El Principio de la Razón Insuficiente de Laplace Si el

La distribución apriori de Jeffreys satisface la propiedad local

y entonces I(θ) será una matriz de dimensión p × p.

Definición: La distribución apriori de Jeffreys se define como

Los métodos MCMC son algoritmos iterativos que se uti-

Página 15 de 22 Este p es llamado el kernel de transición de la cadena de Mar-

Glosario de Cadenas de Markov

Perı́odo Un estado x tiene perı́odo d si

J I Convergencia a una Distribución Estacionaria

JJ II Convergencia de Sumas (Teorema Ergódico)

Página de Abertura Algoritmo Metropolis-Hastings

El algoritmo se resume ası́:

1. Comience en cualquier lugar, y digamos que estamos en

Full Screen 4. Acepte θ(t+1) = θ∗ con probabilidad α (θ, θ∗ ).

Note que la densidad objetivo ξ solo entra en al proceso a través

y el algoritmo Metropolis simplemente se limita a comparar el

Página de Abertura Muestreador Gibbs

Potrebbero piacerti anche