Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
es habitualmente un parmetro, aunque podra ser un valor puntual, una hiptesis o un modelo.
Las p son funciones de densidad ( o cuanta)
p() es la densidad a priori; p(data|) , la verosimilitud (likelihood) de aportada por los datos; p(|data)
es la densidad a posteriori de dados los datos.
Lo que conduce al Mantra Bayesiano:
El teorema de Bayes nos dice cmo actualizar nuestras creencias sobre a la luz de la evidencia ( datos)
Es un mtodo general de induccin o de aprendizaje de la experiencia a priori datos a posteriori
El teorema de Bayes ( recordemos que) es un resultado incontrovertible se sigue de los axiomas de
Kolmogorov y de la definicin de probabilidad condicionada ( La estadstica bayesiana s es discutible: la
estadstica clsica, p.ej. no admite que los parmetros sean aleatorios)
Simplicidad conceptual
La densidad (o cuanta) a posteriori es una completa descripcin de nuestras creencias tras la observacin de los
datos.
de modo que aporta todo lo necesario para hacer nuestras inferencias
Ejemplos:
La probabilidad a posteriori de que un coeficiente de regresin sea positivo ( negativo, nulo,)
La probabilidad a posteriori de que un sujeto pertenezca a tal grupo
La probabilidad a posteriori de que la hiptesis H sea cierta
La probabilidad a posteriori de que cierto modelo estadstico sea el autntico modelo de entre un conjunto
de ellos.
La prdida esperada a posteriori de una estimacin dada una densidad a posteriori p(|y) y una f. de
prdida l(,a) ser:
E[l ( , a) | y] l ( , a) p( | y)
Prdida lineal-simtrica (proporcional al valor absoluto del error) Estimacin bayes Mediana de la
distribucin a posteriori
Prdida todo/nada Estimacin bayes Moda de la distribucin a posteriori
Si realizamos una experiencia: para un bayesiano, nuestra informacin (sobre p) mejorar y, para un
clsico, supuestas algunas hiptesis previas, simplemente, podremos usar esa (nica) informacin para
estimar p.
Observamos 200 casos ( independientes y aleatoriamente elegidos) del tipo analizado y se producen 1 accidentes
del tipo que nos interesa. Supone una informacin muestral que:
Para un estadstico clsico quedara recogida en el estadstico proporcin muestral de accidentes (un
estimador clsico del desconocido valor de p, que en este caso arrojara una estimacin puntual (clsica )
de):
1
p 0.005 Y, si se quiere un I. C , p.ej del 95% con p=q=0.5 de: 0.0050.06929
200
E(p|x)=0,0085
2.- Debe ser conjugada a la d. binomial: si p()Beta(0,0) la densidad a posteriori tambin debe seguir una Beta:
p( | x) p( ).P( x | ) Beta(1, 1 )
( 0 0 ) 0 1
Como la densidad a priori p()Beta(0,0): p( ) (1 ) 0 1 con 0 , 0 0
( 0 ).( 0 )
1 = x+0 y 1 =0 + n x
Nos planteamos cmo incorporar la informacin inicial sobre para por realizar inferencias Cul es la
conjugada de esa verosimilitud y si es capaz de dar cuenta de un adecuado rango de informaciones a priori
diversas Distribucin Gamma
Gamma = conjugada de la veros. De Poisson:
1.-Como el parmetro es una promedio de hechos, tendremos que [0,+[ y que se deber cumplir que la densidad a priori p():
2.- Debe ser conjugada a la d. Poisson: si p()Gamma(0,0) la densidad a posteriori tambin debe seguir una Gamma:
p( | x) p( ).P( x | ) Gamma(1, 1 )
Como la densidad a priori p()Gamma(0, 0):
p ( ) 0 e 0 . 0 1
( 0 )
con 0 , 0 0 parmetros de forma y escala respectivamente
e n nx
P( x1 , x2 ,..., xn | ) n
e n nx con lo que la densidad a posteriori ser:
x !
i 1
i
p ( ).P (( x1 , x2 ,..., xn ) | )
p ( | ( x1 , x2 ,..., xn )
p ( ).P (( x1 , x2 ,..., xn ) | )
p( ).P(( x , x ,..., x ) | )d
1 2 n
0
p( | ( x1 , x2 ,..., xn ) e 0 . 0 1.e n nx
0 n .
p( | ( x1 , x2 ,..., xn ) e 0 nx 1
Recordemos que el primer parmetro de la distribucin Gamma es el parmetro de forma y que el segundo es el
de escala y que se cumple que su media es / y su varianza es /2
La estimacin Bayes asociada a una prdida cuadrtica ser la media de la distribucin a posteriori:
0 nx 1 0
E ( | x1 , x2 ,..., xn ) 0 . nx
0 n 0 n 0
Por tanto sera una combinacin lineal (promedio ponderado) de la esperanza a priori y la media muestral.
Es como si la informacin inicial representara la informacin de una muestra de 0 intervalos/mbitos de
experimentacin en los que se produjeran 0 hechos.
La ausencia de informacin equivaldra a 0= 0= 0
R-script
#prior #verosimilitud
#alfa .x <- seq(0.001, 4*media, length.out=1000)
b=20 #posterior
q<-qgamma(c(.999),shape=a,rate=b) bb=b+n
plot(.lambda, dgamma(.lambda, shape=a, rate=b), type="l", xlab="lambda", .lambda <- seq(0.001, q, length.out=1000)
media=ocurrencias/n
n
e 2 1
2 n / 2
n
P( y1 , y2 ,..., yn | , ) 2 2 yi
2
2 exp
i 1 2 i 1
Buscamos una clase de distribucin que tomada como d. a priori p()nos permita obtener ( conjugadamente) una
d. a posteriori de la misma clase:
Normal = conjugada de la veros. Normal ( con conocida):
1.-Como el parmetro es la media de una Normal, tendremos que [-,+[ y que se deber cumplir que la densidad a priori p():
p ( )d 1
0
n
1 1 n
p( ) exp( 0 ( 0 ) 2 ) P(Y | , ) exp( ( yi ) 2 ) Comprobemos ahora la conjugacin: La d. a posteriori vendr dada por:
2 2 2 2 i 1
n
2
p( ).P(Y | , ) 0 2
. yi
p ( | Y , ) exp 0 .exp i 1
2 2
p( ).P(Y | , )d
Y por lo tanto:
2 i 1 2 i 1
1
exp 0 0 nS y2 n y
2
2 2
exp 12
0
2
2 0 0 0 02 nS y2 n 2 2 n y ny 2
1 1 n y 0 0 nS y ny
2 2 2
exp 0 n 2 2 ( 0 0 n y ) 0 02 nS y2 ny 2 exp 0 n 2 2 ( 0 0 )
2 2 n n
0 0
1 n y 0 02 ny 2 1
exp 0 n 2 2 ( 0 0 ) .exp ( nS y )
2
2 n n 2
0 0
n y 0 02 ny 2 0 0 n y
2 2
1 1
exp 0 n 0 0 exp ( nS y2 )
2 0 n 0 n 0 n
2
2
0 0 n y
2
1
exp 0 n
ya que las expresiones en azul no dependen de
2 0 n
0 0 n y
N ( 1 ;1 0 n )
0 n
Concluimos para el caso de datos normales y o , conocidas que:
La media de la d. a posteriori ( estimacin-bayes con prdida cuadrtica) es el promedio,
ponderado por las precisiones, de la media a priori y la media de los datos
0 0 n x
N(100,0=2)N(100,0=1/4) verosimilitud : N (105, v
2
0.258) N (105, v 15)
N ( 1 ;1 0 n )
nS 2 0 n
#igamma {pscl}
#densigamma(x,alpha,beta)
#pigamma(q,alpha,beta)
#qigamma(p,alpha,beta)
#rigamma(n,alpha,beta)
#igammaHDR(alpha,beta,content=.95,debug=FALSE)
library(pscl)
alpha=5
beta=0.5
.x <- seq(0.00123, qigamma(0.999,alpha,beta), length.out=1000)
plotDistr(.x, densigamma(.x, alpha, beta), cdf=FALSE, xlab="x",
ylab="Density",
main=paste(" gamma_inversa [",alpha,";",beta, "]"))
remove(.x)
0 2 0 2
Cuando 0 media y moda tendern a coincidir y la distribucin ir ganando simetra hasta converger a una
normal.
| 2 N ( 0 , var )
n0
2 NGI ( 0 , n0 , 0 , 0 )
2
0 0 0
2
2
Gamma Inversa( 2 , 2 )
2 NGI ( , n , , 2
0)
0 0 0
2 Y NGI ( 1 , n1 , 1 , 1 )
2
con:
Donde :
S (Yi Y )2
i 1
0 0
Esta densidad marginal a posteriori acaba siendo la de una t de Student :En concreto |Y seguir una t de
12
Student (descentrada) de parmetro de localizacin 1 , y parmetro de escala , con 1 grados de
n1
libertad
.
1
t
Equivalentemente: 2
1
1
n1
Introduccin a la inferencia bayesiana I.M.Lejarza 26
R-script:
library(pscl) S=n*varianza labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors)
##distribucion a priori ###verosimilitud de la media ###a posteriori
##sobre la media a priori zz=4*sqrt(1.5*varianza/n) mu1=(n0*mu0+n*media)/(n0+n)
mu0=100 ##valor central sigm <- c(varianza*0.8, varianza*0.9, n1=n0+n
n0=1 ## precision inicial para N[mu0; sd=sigma/raiz(n0)] varianza*1.1,varianza*1.2) v1=v0+n
##sobre la varianza a priori x <- seq(-zz+media, zz+media, length=100) v1sigma1=v0*sigmados0+S+(n0*n/(n0+n)*(mu0-media)**2)
vesp=100 ##valor eesperado a priori para la varianza colors <- c("red", "blue", "darkgreen", "gold", "black") sigma1=v1sigma1/v1
vesp=(v0*sigma2)/(v0-2) labels <- c(paste("var=",sigm[1]), paste("var=",sigm[2]), ##varianza a posteriori
dispers=0.5 ##dispersin a priori cvpearson=1/sqrt((vo/2)-2) paste("var=",sigm[3]), alpha1=v1/2
v0=((1/dispers)**2+2)*2 paste("var=",sigm[4]),paste("var=",varianza)) beta1=v1sigma1/2
sigmados0=vesp*(v0-2)/v0 plot(x, dnorm(media,x,sqrt(varianza/n)), type="l", lty=2, #min=qigamma(0.001,alpha1,beta1)
##varianza apriori xlab="media", #max=qigamma(0.999,alpha1,beta1)
alpha=v0/2 ylab="verosimilitud", main="verosimilitudes de MU para .x <- seq(qigamma(0.001,alpha1,beta1),
beta=v0*sigmados0/2 distintas varianzas") qigamma(0.99,alpha1,beta1),length.out=1000)
.x <- seq(qigamma(0.001,alpha,beta), qigamma(0.99,alpha,beta), for (i in 1:4){ plot(.x,densigamma(.x,alpha1,beta1), xlab="varianza",
length.out=1000) lines(x, dnorm(media,x,sqrt(sigm[i]/n)), lwd=2, col=colors[i]) ylab="Densidad",type="l",
plot(.x, densigamma(.x, alpha, beta), xlab="varianza", } main=paste("varianza a posteriori~ gamma_inversa
ylab="Density", type="l", legend("topright", inset=.05, [",alpha1,";",beta1,"]"))
main=paste("varianza a priori~ gamma_inversa labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors) remove(.x)
[",alpha,";",beta, "]")) ##verosimilitud de la varianza print("estimacion para la varizanza asumiendo prdida
remove(.x) zz=.9*varianza cuadrtica")
##media a priori (marginal) med <- c(media-0.5*sqrt(varianza/n), media- varianza.estimada=v1sigma1/(v1-2)
print(paste("a priori la variable (mu -",mu0,"/",sqrt(1/n0),")sigue 0.3*sqrt(varianza/n), media+0.4*sqrt(varianza/n), print(varianza.estimada)
una t de Student con",v0,"grados de libertad")) media+0.6*sqrt(varianza/n)) ##media a posteriori
.x <-seq(qt(0.01,v0)*sqrt(n0)+mu0, qt(0.99,v0)*sqrt(n0)+mu0, x <- seq(-zz+varianza, zz+varianza, length=100) escala=sqrt(sigma1/n1)
length.out=1000) colors <- c("red", "blue", "darkgreen", "gold", "black") print(paste("a posteriori la variable (mu -",mu1,"/",escala,")sigue
plot(.x, dt((.x-mu0)*sqrt(n0),v0), xlab="media", labels <- c(paste("mu=",med[1]), paste("mu=",med[2]), una t de Student con",v1,"grados de libertad"))
ylab="Density", type="l", paste("mu=",med[3]), paste("mu=",med[4]),paste("mu",media)) .x <-seq(qt(0.01,v1)*escala+mu1,
main=paste("(media a priori - ",mu0,")/",n0,"~ t de student plot(x, dnorm(media,media,sqrt(x/n)), type="l", lty=2, qt(0.99,v1)*escala+mu1,length.out=1000)
[",v0,"g.l]")) xlab="varianza", plot(.x, dt((.x-mu1)/escala,v0), xlab="media",
remove(.x) ylab="verosimilitud", main="verosimilitudes de sigma2 para ylab="Densidad", type="l",
##verosimilitud distintas mus") main=paste("(media a priori - ",mu1,")/",escala,"~ t de
##muestra for (i in 1:4){ student [",v1,"g.l]"))
n=20 #tamao muestral lines(x, dnorm(media,med[i],sqrt(x/n)), lwd=2, col=colors[i]) remove(.x)
media=109.2 #media muestral }
varianza=136#varianza muestral legend("topright", inset=.05,