Introduccion - Inferencia Bayesiana

Introduccin a la inferencia bayesiana
La Inferencia Bayesiana descansa exclusivamente en el Teorema de Bayes
es habitualmente un parmetro, aunque podra ser un valor puntual, una hiptesis o un modelo.
Las p son funciones de densidad ( o cuanta)
p() es la densidad a priori; p(data|) , la verosimilitud (likelihood) de aportada por los datos; p(|data)
es la densidad a posteriori de dados los datos.
Lo que conduce al Mantra Bayesiano:
La densidad a posteriori es proporcional a d. a priori por la verosimilitud
El teorema de Bayes nos dice cmo actualizar nuestras creencias sobre a la luz de la evidencia ( datos)
Es un mtodo general de induccin o de aprendizaje de la experiencia a priori datos a posteriori
El teorema de Bayes ( recordemos que) es un resultado incontrovertible se sigue de los axiomas de
Kolmogorov y de la definicin de probabilidad condicionada ( La estadstica bayesiana s es discutible: la
estadstica clsica, p.ej. no admite que los parmetros sean aleatorios)
Introduccin a la inferencia bayesiana I.M.Lejarza 1

Por qu ser bayesiano?
Simplicidad conceptual: se dice lo que se quiere decir y se quiere decir lo que se dice
Un fundamento de la inferencia que no requiere pensar en experimentos repetibles que podran dar
resultados muestrales aleatorios...
Uniformidad de aplicacin: no hay que ir variando de ste a aquel anlisis de datos: slo teorema de Bayes
La potencia de computacin actual lo hace muy asequible a travs de la simulacin MCMC
Simplicidad conceptual
La densidad (o cuanta) a posteriori es una completa descripcin de nuestras creencias tras la observacin de los
datos.
de modo que aporta todo lo necesario para hacer nuestras inferencias
Ejemplos:
La probabilidad a posteriori de que un coeficiente de regresin sea positivo ( negativo, nulo,)
La probabilidad a posteriori de que un sujeto pertenezca a tal grupo
La probabilidad a posteriori de que la hiptesis H sea cierta
La probabilidad a posteriori de que cierto modelo estadstico sea el autntico modelo de entre un conjunto
de ellos.
En cambio, la inferencia frecuentista ( o clsica) :

Propone un modelo para los datos: yf()
La estimacin de se basa en un estimador ( una funcin de los datos : ( y)
Para el contraste de cierta hiptesis nula se trabaja con la distribucin del estimador condicionada a que la
hiptesis sobre el parmetro es cierta:
asumiendo Ho en un proceso de reiterado de muestreo cmo de frecuente sera obtener un resultado al menos
tan extremo como el obtenido

Si la contestacin a esta pregunta acaba siendo muy infrecuente; menos que el nivel de significacin se
rechazar la hiptesis.
Pero actuar con esa racionalidad no es, a menudo, fcil de explicar de forma intuitiva.
En la Inferencia Clsica trata a los estimadores ( ) y a los propios datos como variables aleatorias
mientras que los parmetros son rasgos fijos ( aunque desconocidos) de la poblacin de la que se obtiene la
muestra aleatoriamente.
En la Inferencia Bayesiana, es un valor no-aleatorio funcin de los datos disponibles y, es en cambio , el
parmetro desconocido lo que es aleatorio y nuestro conocimiento (incierto) sobre se expresa a travs de una
distribucin de probabilidad: Antes de los datos d. a priori y despus d. a posteriori
Bayesiana Clsica
Aleatorio (=desconocimiento) Constante,aunque

desconocida
Fijo (datos) Aleatorio
aleatoriedad (conocimiento parcial) Viene del muestreo

Subjetivo
Distribucin A posteriori D. muestral

importante

Fuente: Jackman S. : Bayesian analysis for social Science

Los peligros del dogmatismo:
Si a una hiptesis se le asigna una probabilidad inicial de 0 nunca podr establecerse a posteriori
Si a una hiptesis se le asigna una probabilidad de 1 nunca podr rechazarse

ESIMACIN PUNTUAL BAYESIANA
( en el bayesianismo no hay estimadores)
La estimacin puntual bayesiana consistir en un nmero que resuma adecuadamente la distribucin a

posteriori. Pero Cul? Su media , su moda, su mediana algn cuantil?
Diferentes funciones de prdida conducirn a diferentes estimaciones

Sea el conjunto de posibles estados de la naturaleza ( o valores ) de y sea a A una accin (estimacin) de
entre las posibles que puede llevar a cabo el investigador definimos la prdida asociada a la accin (estimacin) a
cuando el estado de la naturaleza ( el valor del parmetro) es como l(,a)
La prdida esperada a posteriori de una estimacin dada una densidad a posteriori p(|y) y una f. de
prdida l(,a) ser:
E[l ( , a) | y] l ( , a) p( | y)

La estimacin bayes ser aquella que minimice la prdida (a posteriori) esperada
Prdida cuadrtica Estimacin bayes media de la distribucin a posteriori
Prdida lineal-simtrica (proporcional al valor absoluto del error) Estimacin bayes Mediana de la
distribucin a posteriori
Prdida todo/nada Estimacin bayes Moda de la distribucin a posteriori

Estimacin por intervalo Bayesiana y Contraste de Hiptesis
Se resuelve por la obtencin de un intervalo de la probabilidad requerida (1-) en la distribucin a
posteriori.
Se suele denominar intervalo de 100(1-)% de credibilidad
Como se suele pretender que el intervalo de estimacin sea lo ms preciso posible se suele considerar
como intervalo de credibilidad aqul intervalo de probabilidad (1-) que tenga menor amplitud y por tanto que
tenga mayor densidad de probabilidad:
Es el llamado intervalo de mayor densidad ( media ) de probabilidad ( o credibilidad) (1-) :

Intervalos de mayor densidad de probabilidad 100(1-) % (100(1-) % HPD intervals ):
En una densidad unimodal y simtrica es nico y simtrico respecto a la moda
En una distribucin asimtrica el Intervalo de mxima densidad de probabilidad diferir bastante
del formado por las cuantiles /2 y 1-/2

La contrastacin de hiptesis en el bayesianismo se convierte , igualmente en una discusin sobre que hiptesis
goza de mayor probabilidad en la distribucin a posteriori.
En este ejemplo nos decantaramos claramente por la hiptesis de que el parmetro es positivo.

Introduccin emprica a la inferencia bayesiana sobre proporciones o probabilidades ( desconocidas)
Ejemplo: Supongamos que la proporcin de accidentes de cierto tipo en un proceso productivo, p, es

desconocida. Pero que basndonos en los datos de otras procesos similares podemos suponer que se encuentra
entre 0,005 y 0,01 con las siguientes probabilidades asociadas:
Si realizamos una experiencia: para un bayesiano, nuestra informacin (sobre p) mejorar y, para un
clsico, supuestas algunas hiptesis previas, simplemente, podremos usar esa (nica) informacin para
estimar p.
Observamos 200 casos ( independientes y aleatoriamente elegidos) del tipo analizado y se producen 1 accidentes
del tipo que nos interesa. Supone una informacin muestral que:
Para un estadstico clsico quedara recogida en el estadstico proporcin muestral de accidentes (un
estimador clsico del desconocido valor de p, que en este caso arrojara una estimacin puntual (clsica )
de):
1
p 0.005 Y, si se quiere un I. C , p.ej del 95% con p=q=0.5 de: 0.0050.06929
200

Para un Bayesiano tendramos un dato : se ha producido 1 accidentes en 200 casos. Si llamamos X= n de
accidentes en 200 casos y si consideramos p= probabilidad de un accidente podemos determinar la
verosimilitud
P(X=1 | p)= P(X=1|B(200,p))

200
p (1 p )
199
y podramos obtener la distribucin a posteriori de p aplicando el
1
T.Bayes:
pi P(pi) P(X|pi) P(X,pi) P(pi|x)
0,005 0,3 8,96729E-30 2,69019E-30 8,57952E-22
0,007 0,1 1,5678E-08 1,5678E-09 0,5
0,008 0,2 2,07476E-18 4,14952E-19 1,32336E-10
0,009 0,3 8,96729E-30 2,69019E-30 8,57952E-22
0,01 0,1 1,5678E-08 1,5678E-09 0,5
Sum 1 3,13559E-09 1
E(p|x)=0,0085

Conjugacin: Distribuciones conjugadas
Sin embargo, la mayora de las situaciones no son tan sencillas como la anterior en la que la distribucin a
priori era discreta y muy informativa. La conjugacin suele ser un apoyo fundamental en este sentido:
Resolver el mantra bayesiano: posteriori es proporcional a verosimilitud por a priori; es fcil cuando se
usan densidades a priori conjugadas con las verosimilitudes.
Definicin: Supongamos que una distribucin a priori pertenece a cierta clase o familia de distribuciones
paramtricas D; entonces diremos que esa distribucin es conjugada respecto a la verosimilitud si la distribucin
a posteriori tambin pertenece a la clase D.
Hasta la revolucin de las MCMC ( cadenas de markov de MonteCarlo) en los 90 la inferencia bayesiana se
reduca a el uso de distribuciones conjugadas a las verosimilitudes de:
Ratios y proporciones ( Bernouilli/binomial); conteos (Poisson), medias ,varianzas y regresiones de variables
cuantitativas ( Normal y derivadas)
La estimacin bayesiana ( prdida cuadrtica) como E(|x) se reduca al clculo ( manual) del promedio de
la estimaciones a priori y de la basada en los datos, ponderado por las precisiones (la precisin es una medida
inversa a la varianza)
Principales conjugadas: priori-verosimilitud-posteriori
priori verosimilitud posteriori
Beta Binomial Beta
Gamma Poisson Gamma
Normal Normal(=1/2conocida) Normal
Normal, Gamma-inversa Normal Normal, Gamma-inversa
Normal, Gamma-inversa Regresin Normal, Gamma-inversa

Inferencia sobre proporciones/tasas/probabilidades (verosimilitud Binomial)
En un proceso experimental de Bernouilli, el nmero de xitos X en n pruebas independientes de resultado
dicotmico A y no-A con P(a)= sigue una distribucin binomial: XB(n, )
Por tanto dada una experiencia que arroja x xitos la verosimilitud ser:
n x
l ( ) P( x | ) (1 ) n x x (1 )n x ,
x
n
ya que x no depende ni del parmetro ni de los datos x, podemos incorporarlos en la constante de

normalizacin .
Nos planteamos cmo incorporar la informacin inicial sobre p para por realizar inferencias Cul es la
conjugada de esa verosimilitud y si es capaz de dar cuenta de un adecuado rango de informaciones a priori
diversas Distribucin Beta
Beta = conjugada de la binomial:
1.-Como el parmetro es una tasa, una proporcin o una probabilidad tendremos que [0,1] y que se deber cumplir que la densidad a priori p():
1
p( )d 1 . Obviamente una densidad beta cumple esto.

0
2.- Debe ser conjugada a la d. binomial: si p()Beta(0,0) la densidad a posteriori tambin debe seguir una Beta:
p( | x) p( ).P( x | ) Beta(1, 1 )
( 0 0 ) 0 1
Como la densidad a priori p()Beta(0,0): p( ) (1 ) 0 1 con 0 , 0 0
( 0 ).( 0 )

n
La verosimilitud binomial era: P( x | ) x (1 )n x con lo que la densidad a posteriori ser:
x
p( ) p( x | )
p( | x) 1
0 1 (1 ) 0 1. x (1 ) n x

0 p( ) p( x | )d Que es la parte no constante de una densidad Beta con parmetros:

p( | x) x 0 1 (1 ) n x 0 1
1 = x+0 y 1 =0 + n x

Interpretacin de la conjugacin Beta/binomial/Beta en trminos de equivalencia a datos
Es como si la informacin inicial representara la informacin de una muestra de

(0+0 -2) pruebas en la que se obtuvieran (0 -1) xitos y (0 -1) fracasos
Si la distribucin a priori es uniforme Beta(1,1) es como si se tuviera la informacin de no haber hecho
ninguna prueba: 0+0 -2= 0
Script en R :
library(LearnBayes) plotDistr(.x, dbeta(.x, shape1=a, shape2=b), posterior<-list("beta",ppost)
library(RcmdrMisc) cdf=FALSE, xlab="p", ylab="Densidad", posterior
#Estimacin proporciones main=paste("D. a priori beta", pbeta )) #estimacion supuesta prdida cuadrtica
#obtener la prior a partir de dos cuantiles remove(.x) estima<-aa/(aa+bb)
#(50pcenti,90pcentil en #el ejemplo.Se puede #muestra estimacion<-print(c("estimacion supuesta prdida
#cambiar) la funcin beta.select da como #resultado exitos<-19 cuadrtica",estima))
#los valores de a y b de la d.beta ( d.a priori) fallos<-31 #dibujo la d.posterior
quantile1=list(p=.5,x=0.25) #plot_verosimilitud .x <- seq(0.013, 0.987, length.out=1000)
quantile2=list(p=.9,x=0.45) .x <- seq(0.013, 0.987, length.out=1000) plotDistr(.x, dbeta(.x, shape1=aa, shape2=bb),
param_beta<-beta.select(quantile1,quantile2) plotDistr(.x,dbinom(exitos,size=exitos+fallos,prob=.x cdf=FALSE, xlab="p",
a=param_beta[1] ),xlab="valor de ylab="Density", main=paste(c("D. a posteriori",
b=param_beta[2] p",ylab="verosimilitud",main=paste("verosimilitud")) posterior) ))
parmetros.d.beta<-list(param_beta) remove(.x) remove(.x)
parmetros.d.beta #Posterior
#dibujo de la distrubucin a priori aa=a+exitos #triplot: Plot de prior, veros. y posterior
.x <- seq(0.013, 0.987, length.out=1000) bb=b+fallos prior=c(a,b) # proporcion tiene una prior beta(a, b)
ppost<-c(aa,bb) data=c(exitos,fallos) # se observan exitos y fallos
ppost triplot(prior,data)

Inferencia sobre promedio de ocurrencias/ verosimilitud de Poisson.
Estamos interesados en la estimacin del nmero medio, , de ocurrencias de ciertos hechos durante un intervalo
unitario de tiempo a en el mbito de un espacio unitario en aquellos casos en los que el tiempo o el espacio de
experimentacin podemos considerarlo homogneo respecto a la factibilidad de los hechos estudiados. Si
observamos independientemente n periodos-de-tiempo/mbitos-espaciales producindose (x1,x2,,xn) hechos, la
verosimilitud asociada a ser:
n
xi
n
e xi e n i1 e n nx
l ( ) P( x1 , x2 ,..., xn | ) n n e n nx
xi ! xi !
i 1 xi !
i 1 i 1
Nos planteamos cmo incorporar la informacin inicial sobre para por realizar inferencias Cul es la
conjugada de esa verosimilitud y si es capaz de dar cuenta de un adecuado rango de informaciones a priori
diversas Distribucin Gamma
Gamma = conjugada de la veros. De Poisson:
1.-Como el parmetro es una promedio de hechos, tendremos que [0,+[ y que se deber cumplir que la densidad a priori p():
p( )d 1 . Obviamente una densidad gamma cumple esto.

0
2.- Debe ser conjugada a la d. Poisson: si p()Gamma(0,0) la densidad a posteriori tambin debe seguir una Gamma:
p( | x) p( ).P( x | ) Gamma(1, 1 )
Como la densidad a priori p()Gamma(0, 0):
p ( ) 0 e 0 . 0 1
( 0 )
con 0 , 0 0 parmetros de forma y escala respectivamente

La verosimilitud (d. Poisson) era:
e n nx
P( x1 , x2 ,..., xn | ) n
e n nx con lo que la densidad a posteriori ser:
x !
i 1
i
p ( ).P (( x1 , x2 ,..., xn ) | )
p ( | ( x1 , x2 ,..., xn )
p ( ).P (( x1 , x2 ,..., xn ) | )
p( ).P(( x , x ,..., x ) | )d
1 2 n
0
p( | ( x1 , x2 ,..., xn ) e 0 . 0 1.e n nx
0 n .
p( | ( x1 , x2 ,..., xn ) e 0 nx 1
Expresin que se corresponde con la parte no constante de una densidad Gamma(1 0 nx ; 1 0 n)

Por lo tanto:
Recordemos que el primer parmetro de la distribucin Gamma es el parmetro de forma y que el segundo es el
de escala y que se cumple que su media es / y su varianza es /2
La estimacin Bayes asociada a una prdida cuadrtica ser la media de la distribucin a posteriori:
0 nx 1 0
E ( | x1 , x2 ,..., xn ) 0 . nx
0 n 0 n 0
Por tanto sera una combinacin lineal (promedio ponderado) de la esperanza a priori y la media muestral.
Es como si la informacin inicial representara la informacin de una muestra de 0 intervalos/mbitos de
experimentacin en los que se produjeran 0 hechos.
La ausencia de informacin equivaldra a 0= 0= 0

Al trabajar con R hay que tener en cuenta que el segundo parmetro de la distribucin gamma , , tal como lo estamos considerando aqu ,se corresponde
con rate .
R-script
#prior #verosimilitud
#alfa .x <- seq(0.001, 4*media, length.out=1000)
a=40 plot(.x, dpois(ocurrencias, lambda=.x*n), type="l",xlab="lambda", ylab="verosimilitud",
#beta main=paste("verosimilitud con ocurrencias=",ocurrencias,"muestra=",n) )
b=20 #posterior
print(paste("valor esperado a priori para lambda",a/b,"con varianza",a/b**2)) aa=a+ocurrencias
q<-qgamma(c(.999),shape=a,rate=b) bb=b+n
.lambda <- seq(0.001, q, length.out=1000) q<-qgamma(c(.999),shape=aa,rate=bb)
plot(.lambda, dgamma(.lambda, shape=a, rate=b), type="l", xlab="lambda", .lambda <- seq(0.001, q, length.out=1000)
ylab="Density", plot(.lambda, dgamma(.lambda, shape=aa, rate=bb), type="l", xlab="lambda",
main=paste("D. apriori:gamma con forma=",a,"escala(rate)=",b)) ylab="Density",
remove (.lambda) main=paste("D. a posteriori:gamma con forma=", aa," escala(rate)=",bb))
#muestra:num. de periodos o tandas de osservacion y ocurrencias remove (.lambda)
n=7 print(paste("valor esperado a posteriori para lambda",aa/bb))
ocurrencias=16 print(paste("con varianza",aa/bb**2))
media=ocurrencias/n

Anlisis de la conjugacin con datos normales ( conocida)
Consideramos n datos independientemente yiN(,) siendo desconocido pero conociendo la varianza
La verosimilitud ser:
yi 2
2
n
e 2 1

2 n / 2
n
P( y1 , y2 ,..., yn | , ) 2 2 yi
2
2 exp
i 1 2 i 1

Buscamos una clase de distribucin que tomada como d. a priori p()nos permita obtener ( conjugadamente) una
d. a posteriori de la misma clase:
Normal = conjugada de la veros. Normal ( con conocida):

1.-Como el parmetro es la media de una Normal, tendremos que [-,+[ y que se deber cumplir que la densidad a priori p():
p ( )d 1

Obviamente una densidad Normal cumple esto.

2.- Debe ser conjugada a la d. Normal si p()Normal(0,0) la densidad a posteriori tambin debe seguir una Normal: p( | Y , ) p( ).P(Y | , ) N ( 1, 1 )
Para ver esto y en lo sucesivo tendremos en cuenta que en Estadstica Bayesiana es habitual considerar que la d. Normal se especifica en funcin de los parmetros media y
precisin, , con =1/2, y expresaremos p() y P(Y|,) como:
0
n
1 1 n
p( ) exp( 0 ( 0 ) 2 ) P(Y | , ) exp( ( yi ) 2 ) Comprobemos ahora la conjugacin: La d. a posteriori vendr dada por:
2 2 2 2 i 1
n
2
p( ).P(Y | , ) 0 2
. yi
p ( | Y , ) exp 0 .exp i 1

2 2

p( ).P(Y | , )d

Y por lo tanto:

1 n
2 1 n
2
p ( | Y , ) exp 0 0 yi y y exp 0 0 nS y2 2 y . yi y n y
2 2
2 i 1 2 i 1
1

exp 0 0 nS y2 n y
2
2 2
exp 12
0
2
2 0 0 0 02 nS y2 n 2 2 n y ny 2

1 1 n y 0 0 nS y ny
2 2 2
exp 0 n 2 2 ( 0 0 n y ) 0 02 nS y2 ny 2 exp 0 n 2 2 ( 0 0 )
2 2 n n
0 0
1 n y 0 02 ny 2 1
exp 0 n 2 2 ( 0 0 ) .exp ( nS y )
2
2 n n 2
0 0
n y 0 02 ny 2 0 0 n y
2 2
1 1
exp 0 n 0 0 exp ( nS y2 )
2 0 n 0 n 0 n
2
2

0 0 n y
2
1
exp 0 n
ya que las expresiones en azul no dependen de
2 0 n

que se corresponde con la parte no constante de una Normal:
0 0 n y
N ( 1 ;1 0 n )
0 n
Concluimos para el caso de datos normales y o , conocidas que:
La media de la d. a posteriori ( estimacin-bayes con prdida cuadrtica) es el promedio,
ponderado por las precisiones, de la media a priori y la media de los datos

(supongamos que la varianza de la poblacin es conocida 2=8,
(despus hacemos una experiencia en la que tras analizar 20 casos observamos una media de 105 con una
varianza de 6)
D. a priori Datos: n 20, X 105, S 2 6 D. a posteriori
0 0 n x
N(100,0=2)N(100,0=1/4) verosimilitud : N (105, v
2
0.258) N (105, v 15)
N ( 1 ;1 0 n )
nS 2 0 n

Script de R
#
varianza de la poblacin conocida varequival=sigma2/(n*varianzamuestral)
sigma2=8 sdequival=sqrt(varequival)
tau=1/8
.x <- seq(mediamuestral-3.5126*sdequival, mediamuestral+3.5126*sdequival,
length.out=1000)
#a priori
plot(.x, dnorm(.x, mean=mediamuestral, sd=sdequival), type="l", xlab="x",
media0=100
ylab="Density",
varianza0=4
main=paste(" verosimilitud para mu equivale a Normal
sd0=sqrt(varianza0)
[",mediamuestral,";sigma=",sdequival, "]"))
tau0=1/4
remove(.x)
.x <- seq(media0-3.5126*sd0, media0+3.5126*sd0, length.out=1000)

## a posteriori
plot(.x, dnorm(.x, mean=media0, sd=2), type="l", xlab="x",
ylab="Density",
media1=(tau0*media0+n*tau*mediamuestral)/(tau0+n*tau)
main=paste("mu a priori-> Normal [",media0,";sigma=",sd0, "]"))
tau1=tau0+n*tau
remove(.x)
sd1=sqrt(1/tau1)
.x <- seq(media1-3.5126*sd1, media1+3.5126*sd1, length.out=1000)

#muestra
plot(.x, dnorm(.x, mean=media1, sd=sd1), type="l", xlab="x",
n=20
ylab="Density",
mediamuestral=105
main=paste(" mu a posterriori -> Normal [",media1,";sigma=",sd1, "]"))
varianzamuestral=6
remove(.x)
# equivalencia de la verosimilitud

Anlisis de la conjugacin con datos normales ( desconocida)
Distribucin Gamma-inversa: Si cierta variable Y sigue una distribucin Gamma(,) la variable inversa:
X=1/Y seguir una distribucin Gamma-inversa(,) siendo su funcin de densidad:

1 E( X ) si 1 Moda
f ( x) x e x
1 1 1
( ) Var ( X )
2
si 2
1 2
2
#igamma {pscl}
#densigamma(x,alpha,beta)
#pigamma(q,alpha,beta)
#qigamma(p,alpha,beta)
#rigamma(n,alpha,beta)
#igammaHDR(alpha,beta,content=.95,debug=FALSE)
library(pscl)
alpha=5
beta=0.5
.x <- seq(0.00123, qigamma(0.999,alpha,beta), length.out=1000)
plotDistr(.x, densigamma(.x, alpha, beta), cdf=FALSE, xlab="x",
ylab="Density",
main=paste(" gamma_inversa [",alpha,";",beta, "]"))
remove(.x)

El uso bayesiano tpico de la distribucin Gamma-inversa es considerarla como la distribucin (a priori) de la
0 0 0
2
varianza de una Normal segn: Gamma inversa( ,

2
)
2 2
0 2 0 2
Lo que supone que la media ser : E ( ) siempre que 0 2 y que tendr la moda en
2 0 0
0 2 0 2
Cuando 0 media y moda tendern a coincidir y la distribucin ir ganando simetra hasta converger a una
normal.
(n Inference for S Prob

De hecho la densidad a priori ( y tambin a posteriori, por conjugacin) que suele usarse
para el vector de parmetros (, 2)es la de una Normal-Gamma-inversa.
Caracterizada por tener como distribucin de condicionada a 2 una distribucin normal
y como distribucin marginal de 2 na Gamma-inversa: esto es:
2
| 2 N ( 0 , var )
n0
2 NGI ( 0 , n0 , 0 , 0 )
2
0 0 0
2
2
Gamma Inversa( 2 , 2 )
Y la f. densidad conjunta a priori vendr dada por :

n0 0
exp[ 2 ( 0 )] 0 0 02
0 0
2

2
2 2 2 1
2

f (( , ) ) f ( | ). f ( )
2 2
e 2 2
0
2 ( ) 2
2

Puede probarse que si partimos de una distribucin conjunta a priori para los parmetros media y varianza :
2 NGI ( , n , , 2
0)

0 0 0
Y tomamos n datos YiN(,) para i=1,2,, n

La distribucin conjunta a posteriori de los dos parmetros vendr dada tambin por una NormalGammaInversa:
2 Y NGI ( 1 , n1 , 1 , 1 )
2

con:
Donde :
S (Yi Y )2
i 1

Anlisis de la conjugacin con datos normales ( desconocida).
Distribucin Marginal de a posteriori
2
La distribucin a posteriori de condicionada a es : | , Y N ( 1; var
2 2
) , como ya hemos visto.
n1
Pero si estamos interesados en inferencias sobre necesitamos conocer su distribucin marginal ( no

condicionada a la varianza)
La densidad marginal de la media ( a posteriori) ser la integral con respecto a la varianza de la densidad

conjunta a posteriori , (,2)|Y, esto es p( | Y ) p( , | Y ) d ( ) p( | 2 , Y ) p( 2 | Y ) d ( 2 )

2 2
0 0
Esta densidad marginal a posteriori acaba siendo la de una t de Student :En concreto |Y seguir una t de
12
Student (descentrada) de parmetro de localizacin 1 , y parmetro de escala , con 1 grados de
n1
libertad
.
1
t
Equivalentemente: 2
1
1
n1
R-script:
library(pscl) S=n*varianza labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors)
##distribucion a priori ###verosimilitud de la media ###a posteriori
##sobre la media a priori zz=4*sqrt(1.5*varianza/n) mu1=(n0*mu0+n*media)/(n0+n)
mu0=100 ##valor central sigm <- c(varianza*0.8, varianza*0.9, n1=n0+n
n0=1 ## precision inicial para N[mu0; sd=sigma/raiz(n0)] varianza*1.1,varianza*1.2) v1=v0+n
##sobre la varianza a priori x <- seq(-zz+media, zz+media, length=100) v1sigma1=v0*sigmados0+S+(n0*n/(n0+n)*(mu0-media)**2)
vesp=100 ##valor eesperado a priori para la varianza colors <- c("red", "blue", "darkgreen", "gold", "black") sigma1=v1sigma1/v1
vesp=(v0*sigma2)/(v0-2) labels <- c(paste("var=",sigm[1]), paste("var=",sigm[2]), ##varianza a posteriori
dispers=0.5 ##dispersin a priori cvpearson=1/sqrt((vo/2)-2) paste("var=",sigm[3]), alpha1=v1/2
v0=((1/dispers)**2+2)*2 paste("var=",sigm[4]),paste("var=",varianza)) beta1=v1sigma1/2
sigmados0=vesp*(v0-2)/v0 plot(x, dnorm(media,x,sqrt(varianza/n)), type="l", lty=2, #min=qigamma(0.001,alpha1,beta1)
##varianza apriori xlab="media", #max=qigamma(0.999,alpha1,beta1)
alpha=v0/2 ylab="verosimilitud", main="verosimilitudes de MU para .x <- seq(qigamma(0.001,alpha1,beta1),
beta=v0*sigmados0/2 distintas varianzas") qigamma(0.99,alpha1,beta1),length.out=1000)
.x <- seq(qigamma(0.001,alpha,beta), qigamma(0.99,alpha,beta), for (i in 1:4){ plot(.x,densigamma(.x,alpha1,beta1), xlab="varianza",
length.out=1000) lines(x, dnorm(media,x,sqrt(sigm[i]/n)), lwd=2, col=colors[i]) ylab="Densidad",type="l",
plot(.x, densigamma(.x, alpha, beta), xlab="varianza", } main=paste("varianza a posteriori~ gamma_inversa
ylab="Density", type="l", legend("topright", inset=.05, [",alpha1,";",beta1,"]"))
main=paste("varianza a priori~ gamma_inversa labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors) remove(.x)
[",alpha,";",beta, "]")) ##verosimilitud de la varianza print("estimacion para la varizanza asumiendo prdida
remove(.x) zz=.9*varianza cuadrtica")
##media a priori (marginal) med <- c(media-0.5*sqrt(varianza/n), media- varianza.estimada=v1sigma1/(v1-2)
print(paste("a priori la variable (mu -",mu0,"/",sqrt(1/n0),")sigue 0.3*sqrt(varianza/n), media+0.4*sqrt(varianza/n), print(varianza.estimada)
una t de Student con",v0,"grados de libertad")) media+0.6*sqrt(varianza/n)) ##media a posteriori
.x <-seq(qt(0.01,v0)*sqrt(n0)+mu0, qt(0.99,v0)*sqrt(n0)+mu0, x <- seq(-zz+varianza, zz+varianza, length=100) escala=sqrt(sigma1/n1)
length.out=1000) colors <- c("red", "blue", "darkgreen", "gold", "black") print(paste("a posteriori la variable (mu -",mu1,"/",escala,")sigue
plot(.x, dt((.x-mu0)*sqrt(n0),v0), xlab="media", labels <- c(paste("mu=",med[1]), paste("mu=",med[2]), una t de Student con",v1,"grados de libertad"))
ylab="Density", type="l", paste("mu=",med[3]), paste("mu=",med[4]),paste("mu",media)) .x <-seq(qt(0.01,v1)*escala+mu1,
main=paste("(media a priori - ",mu0,")/",n0,"~ t de student plot(x, dnorm(media,media,sqrt(x/n)), type="l", lty=2, qt(0.99,v1)*escala+mu1,length.out=1000)
[",v0,"g.l]")) xlab="varianza", plot(.x, dt((.x-mu1)/escala,v0), xlab="media",
remove(.x) ylab="verosimilitud", main="verosimilitudes de sigma2 para ylab="Densidad", type="l",
##verosimilitud distintas mus") main=paste("(media a priori - ",mu1,")/",escala,"~ t de
##muestra for (i in 1:4){ student [",v1,"g.l]"))
n=20 #tamao muestral lines(x, dnorm(media,med[i],sqrt(x/n)), lwd=2, col=colors[i]) remove(.x)
media=109.2 #media muestral }
varianza=136#varianza muestral legend("topright", inset=.05,

Bibliografa :
Box,G. y Tiao,G : Bayesian Inference in Statistical Analysis Addison-Wesley,1973
Raiffa,H. y Schlaifer,R .: Applied Statistical Decision Theory. M.I.T.Press,1971
Jackman, S.: Bayesian Analysis for Social Science Willey, 2009.

Introduccion - Inferencia Bayesiana

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Introduccion - Inferencia Bayesiana

Caricato da

Copyright:

Formati disponibili

Introduccin a la inferencia bayesiana

La Inferencia Bayesiana descansa exclusivamente en el Teorema de Bayes

La densidad a posteriori es proporcional a d. a priori por la verosimilitud

Introduccin a la inferencia bayesiana I.M.Lejarza 1

En cambio, la inferencia frecuentista ( o clsica) :

Introduccin a la inferencia bayesiana I.M.Lejarza 2

Aleatorio (=desconocimiento) Constante,aunque

aleatoriedad (conocimiento parcial) Viene del muestreo

Distribucin A posteriori D. muestral

Introduccin a la inferencia bayesiana I.M.Lejarza 3

Introduccin a la inferencia bayesiana I.M.Lejarza 4

Introduccin a la inferencia bayesiana I.M.Lejarza 5

La estimacin puntual bayesiana consistir en un nmero que resuma adecuadamente la distribucin a

Diferentes funciones de prdida conducirn a diferentes estimaciones

La estimacin bayes ser aquella que minimice la prdida (a posteriori) esperada

Prdida cuadrtica Estimacin bayes media de la distribucin a posteriori

Introduccin a la inferencia bayesiana I.M.Lejarza 6

Es el llamado intervalo de mayor densidad ( media ) de probabilidad ( o credibilidad) (1-) :

Introduccin a la inferencia bayesiana I.M.Lejarza 7

Introduccin a la inferencia bayesiana I.M.Lejarza 8

Ejemplo: Supongamos que la proporcin de accidentes de cierto tipo en un proceso productivo, p, es

Introduccin a la inferencia bayesiana I.M.Lejarza 9

P(X=1 | p)= P(X=1|B(200,p))

Introduccin a la inferencia bayesiana I.M.Lejarza 10

Introduccin a la inferencia bayesiana I.M.Lejarza 11

p( )d 1 . Obviamente una densidad beta cumple esto.

Introduccin a la inferencia bayesiana I.M.Lejarza 12

Introduccin a la inferencia bayesiana I.M.Lejarza 13

Es como si la informacin inicial representara la informacin de una muestra de

Introduccin a la inferencia bayesiana I.M.Lejarza 14

p( )d 1 . Obviamente una densidad gamma cumple esto.

Introduccin a la inferencia bayesiana I.M.Lejarza 15

Expresin que se corresponde con la parte no constante de una densidad Gamma(1 0 nx ; 1 0 n)

Introduccin a la inferencia bayesiana I.M.Lejarza 16

a=40 plot(.x, dpois(ocurrencias, lambda=.x*n), type="l",xlab="lambda", ylab="verosimilitud",

#beta main=paste("verosimilitud con ocurrencias=",ocurrencias,"muestra=",n) )

print(paste("valor esperado a priori para lambda",a/b,"con varianza",a/b**2)) aa=a+ocurrencias

.lambda <- seq(0.001, q, length.out=1000) q<-qgamma(c(.999),shape=aa,rate=bb)

ylab="Density", plot(.lambda, dgamma(.lambda, shape=aa, rate=bb), type="l", xlab="lambda",

main=paste("D. apriori:gamma con forma=",a,"escala(rate)=",b)) ylab="Density",

remove (.lambda) main=paste("D. a posteriori:gamma con forma=", aa," escala(rate)=",bb))

#muestra:num. de periodos o tandas de osservacion y ocurrencias remove (.lambda)

n=7 print(paste("valor esperado a posteriori para lambda",aa/bb))

ocurrencias=16 print(paste("con varianza",aa/bb**2))

Introduccin a la inferencia bayesiana I.M.Lejarza 17

Obviamente una densidad Normal cumple esto.

Introduccin a la inferencia bayesiana I.M.Lejarza 18

que se corresponde con la parte no constante de una Normal:

Introduccin a la inferencia bayesiana I.M.Lejarza 19

D. a priori Datos: n 20, X 105, S 2 6 D. a posteriori

Introduccin a la inferencia bayesiana I.M.Lejarza 20

.x <- seq(media0-3.5126*sd0, media0+3.5126*sd0, length.out=1000)

.x <- seq(media1-3.5126*sd1, media1+3.5126*sd1, length.out=1000)

Introduccin a la inferencia bayesiana I.M.Lejarza 21

Introduccin a la inferencia bayesiana I.M.Lejarza 22

varianza de una Normal segn: Gamma inversa( ,

(n Inference for S Prob

Y la f. densidad conjunta a priori vendr dada por :

Introduccin a la inferencia bayesiana I.M.Lejarza 24

Y tomamos n datos YiN(,) para i=1,2,, n

Introduccin a la inferencia bayesiana I.M.Lejarza 25

Pero si estamos interesados en inferencias sobre necesitamos conocer su distribucin marginal ( no

conjunta a posteriori , (,2)|Y, esto es p( | Y ) p( , | Y ) d ( ) p( | 2 , Y ) p( 2 | Y ) d ( 2 )

.x <- seq(media0-3.5126sd0, media0+3.5126sd0, length.out=1000)

.x <- seq(media1-3.5126sd1, media1+3.5126sd1, length.out=1000)