Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS
ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS
Ediciones
c IVIC
Instituto Venezolano de Investigaciones Cientı́ficas
Análisis de Datos con Técnicas Bayesianas
Lelys Bravo de Guenni, Isabel Llatas Salvador y Marı́a Eglée Pérez Hernández
Diseño y edición: Escuela Venezolana de Matemáticas
Preprensa e impresión: Editorial Texto
Depósito legal If660200851022923
ISBN 978-980-261-099-0
Caracas, Venezuela
2008
iii
Prefacio
Prefacio III
1. Introducción 1
1.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . 1
1.2. Análisis de datos Bayesiano . . . . . . . . . . . . . . . . . 2
1.3. Definiciones y notación general . . . . . . . . . . . . . . . 3
1.3.1. Parámetros, datos y predicciones . . . . . . . . . . 3
1.3.2. Notación de probabilidad . . . . . . . . . . . . . . 5
1.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . 5
1.4. Principio de verosimilitud . . . . . . . . . . . . . . . . . . 6
1.5. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Resultados útiles de teorı́a de probabilidades . . . . . . . 8
1.7. Uso de la simulación para la inferencia . . . . . . . . . . . 10
1.8. Distribuciones previas conjugadas . . . . . . . . . . . . . . 11
1.9. Análisis Bayesiano objetivo . . . . . . . . . . . . . . . . . 13
v
vi ÍNDICE GENERAL
3. Distribución Posterior 67
3.1. Integración y aproximaciones para muestras grandes . . . 68
3.1.1. Aproximación normal a la distribución posterior . 68
3.2. Métodos de simulación . . . . . . . . . . . . . . . . . . . . 71
3.2.1. Muestreo directo . . . . . . . . . . . . . . . . . . . 72
3.2.2. Muestreo de rechazo/aceptación . . . . . . . . . . 74
3.2.3. Muestreo de Importancia . . . . . . . . . . . . . . 75
3.3. Métodos Monte Carlo de Cadenas de Markov (MCMC) . 76
3.3.1. El algoritmo de Metrópolis-Hasting. . . . . . . . . 78
3.3.2. El muestreador de Gibbs . . . . . . . . . . . . . . 81
3.4. Inferencia y Evaluación de la convergencia de los métodos
MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1. Dificultades con las simulaciones obtenidas . . . . 85
3.4.2. Construcción de algoritmos de simulación eficiente 87
3.5. Breve introducción a WinBUGS . . . . . . . . . . . . . . 89
3.5.1. Distribuciones condicionales y grafos dirigidos . . . 90
3.5.2. Modelos gráficos en WinBUGS . . . . . . . . . . . 93
3.5.3. Ejemplo del Bioensayo . . . . . . . . . . . . . . . . 94
3.5.4. Otros paquetes y software . . . . . . . . . . . . . . 95
Bibliografı́a 143
viii
Capı́tulo 1
Introducción
1
2 Bravo-Llatas-Pérez
observables que suelen ser las de interés. Para ello se consideran tres
pasos:
R
p(y) = p(θ)p(y|θ)dθ (caso θ contı́nuo).
θ|y ∼ Beta(y + 1, n − y + 1)
1.5. Predicción
Una de las ventajas de los métodos Bayesianos es que todas las can-
tidades desconocidas son tratadas igual:como variables aleatorias con
distribución de probabilidad. Ası́, el problema de predecir una nueva ob-
servación se puede pensar como el hacer inferencia sobre una cantidad
observable pero desconocida, por lo que predecir una nueva observación
puede pensarse como realizar una inferencia predictiva. Si y es descono-
cida pero observable:
Z Z
p(y) = p(y, θ)dθ = p(θ)p(y|θ)dθ (1.7)
Transformación de variables:
Si pu (u) es una distribución continua del vector u y v = f (u) es
una transformación uno a uno, entonces la densidad conjunta del
vector transformado es:
pv (v) = |J|pu (f −1 (v))
donde |J| es el determinante del Jacobiano de la transformación
u = f −1 (v) como una función de v. (El elemento (i, j)-ésimo de J
∂vi
viene dado por ∂u j
)
Algunas transformaciones usuales en una dimensión son las si-
guientes:
1 1
⇒ g(u, v) = 2
exp{− 2 [(log u − θy )2 + (log v − θz )2 ]}
2πσ uv 2σ
0<u<∞ 0<v<∞
etc.
Existen diversos procedimientos para obtener muestras a partir de
una distribución de probabilidad. Una referencia muy completa es el
libro de J. Devroye [Dev], el cual puede obtenerse en la página web
http://cg.scs.carleton.ca/ luc/rnbookindex.html
Uno de los métodos más sencillos y fundamentales para obtener mues-
tras a partir de una distribución de probabilidad dada es el siguiente:
Suponga que V es una variable aleatoria con función de distribución
acumulada (cdf) F que se supone continua y sea W = F (V ). Esta
transformación de V a W es conocida como transformación acumulada
de probabilidad, y es fácil ver que la distribución de W es uniforme en el
intervalo (0, 1).
De este resultado se deriva que un procedimiento para obtener una
muestra aleatoria con distribución de probabilidad F es el siguiente:
E(θ) = E(E(θ|y))
var(θ) = E(var(θ|y)) + var(E(θ|y))
lo que implica, por una parte, que la distribución posterior está centrada,
en promedio, en la media de la distribución previa y por otra parte, que
la varianza posterior es, en promedio, menor que la varianza previa. En
algunos casos, como en el estudio de un proceso industrial en el que
se repiten las actividades de manera controlada, hay mucha información
Introducción 15
" 2 # 2
d log p(y|θ) d log p(y|θ)
J(θ) = E θ = −E θ . (1.13)
dθ dθ2
Este enfoque basado en pivotes puede ser usado en casos más comple-
jos aplicado a estadı́sticos suficientes.
Ejemplo 1.9.1. Previas objetivas para la distribución binomial
Si y ∼ Bin(n, θ), su log-verosimilitud es
Modelos uniparamétricos y
multiparamétricos
19
20 Bravo-Llatas-Pérez
n
p(y/θ) = θy (1 − θ)n−y ,
y
p(θ|y) ∝ θy (1 − θ)n−y
α+y
E(θ|y) = (2.1)
α+β+n
(α + y)(β + n − y)
var(θ)|y) = (2.2)
α + β + n)2 (α + β + n + 1)
E(θ|y)[1 − E(θ|y)]
=
α+β+n+1
1
La U (0, 1) es equivalente a una Beta(1, 1).
Modelos 21
Predicción
Sea ỹ el resultado de una nueva ocurrencia, intercambiable con las
primeras n,
Z 1
p(ỹ = 1|y) = p(ỹ = 1|θ, y)p(θ|y)dθ
0
Z 1
= θp(θ|y)dθ
0
= E(θ|y) (2.3)
p(y|θ) ∝ θy (1 − θ)n−y
> 438/(438+544)
[1] 0.4460285
> sqrt(438*544/((438+544)^2*(438+544+1)))
[1] 0.01585434
> qbeta(0.5,438,544)
[1] 0.4459919
> qbeta(0.025,438,544)
[1] 0.4150655
> qbeta(0.975,438,544)
[1] 0.4771998
Γ(α + y)β α
p(y) =
Γ(α)y!(1 + β)α+y
yi ∼ Poisson(µi )
µi = Ei θi
> summary(theta.prior)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.9695 6.6940 9.3570 9.9680 12.3700 32.9500
> # D. a posteriori \theta ~ Gamma(505,2.5)
> theta.posterior=rgamma(1000,510,scale=2/5)
> summary(theta.posterior)
Min. 1st Qu. Median Mean 3rd Qu. Max.
180.5 198.4 203.7 203.9 209.8 230.1
> length(theta.posterior[(theta.posterior>150)])/1000
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> [1] 1
> # D. a posterior con mas datos \theta ~Gamma(1505,10.5)
26 Bravo-Llatas-Pérez
> theta.posterior.2=rgamma(1000,1505,scale=2/21)
> summary(theta.posterior.2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
132.5 141.2 143.6 143.6 146.1 157.6
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> length(theta.posterior.2[(theta.posterior.2>150)])/1000
> [1] 0.034
> par(mfrow=c(3,1),bty=’n’)
> hist(theta.prior,xlab="theta",ylab="",main="Previa",
+ xlim=c(0.0,250.0))
> hist(theta.posterior,xlab="theta",ylab="",main="Distribucion
+ posterior I", xlim=c(0.0,250.0))
> hist(theta.posterior.2,xlab="theta",ylab="",main="Distribucion
+ posterior II", xlim=c(0.0,250.0))
p(y|θ) = θn exp(−nȳθ)
y la distribución posterior queda como Gamma(n + α, nȳ + β).
donde
1
µ + σ12 y
τo2 o 1 1 1
µ1 = 1 ; = 2+ 2
τo2
+ σ12 τ12 τo σ
y ȳ es un estadı́stico suficiente.
Nótese que la distribución a posteriori depende de las observaciones
a través de la media muestral ȳ. Esto trae como consecuencia que si n
es grande σ 2 y ȳ tienen gran influencia sobre la distribución posterior;
ası́ mismo, si τo → ∞ (n fijo) ó n → ∞ (τo2 fijo) entonces: p(θ|y) ∼
N (ȳ, σ 2 /n).
Esta distribución posterior es aproximadamente la que resultarı́a de
tomar la distribución previa objetiva p(θ) ∝ c para θ ∈ (−∞, ∞), aun
cuando estrictamente no es posible, ya que dicha previa no tendrı́a inte-
gral finita.
n
!
1 X
p(y|σ 2 ) ∝ σ −n exp − 2 (yi − θ)2
2σ
i=1
2 −n/2 n
= (σ ) exp(− 2 v)
2σ
o
νo σo2 + nv
2 2
σ |y ∼ Inv − χ νo + n, ,
νo + n
es decir, que la posterior corresponde a una distribución Chi-Cuadrado
inversa con escalamiento, cuya escala es igual al promedio ponderado
por los grados de libertad, entre la escala a priori y la escala de los
datos; mientras que los grados de libertad son la suma de los grados de
libertad a priori y el número de datos.
Ahora bien, si los grados de libertad de la previa, ν0 , son pequeños
relativos a los grados de libertad muestrales n, la posterior es aproxi-
madamente la que corresponderı́a a tomar ν0 = 0.
Z
p(θ1 |y) = p(θ1 |θ2 , y) p(θ2 |y) d(θ2 )
Previa “objetiva”
Con los resultados en las secciones 2.1.4 y 2.1.5, se puede usar como
distribución objetiva, suponiendo independencia a priori de los parámet-
ros de localización y escala, una distribución uniforme para (µ, log σ):
p(µ, σ 2 ) ∝ (σ 2 )−1
1 Pn 0
donde s2 = n−1 2
i=1 (yi − ȳ) es la varianza muestral de los yi s. ȳ y s
2
A
Haciendo la sustitución z = 2σ 2
con A = (n − 1)s2 + n(µ − ȳ)2 , se
Modelos 33
Previa conjugada
Para considerar una distribución previa conjugada, esta debe tener la
forma del producto p(σ 2 )p(µ|σ 2 ). Una parametrización adecuada es:
µ|σ 2 ∼ N (µ0 , σ 2 /κ0 ) (2.7)
σ 2 ∼ Inv − χ2 (ν0 , σ02 ) (2.8)
La densidad conjunta a priori toma la forma:
2 −1 2 −(ν0 /2+1) 1 2 2
p(µ, σ ) ∝ σ (σ ) exp − 2 [ν0 σo + κo (µ0 − µ) ]
2σ
34 Bravo-Llatas-Pérez
p(µ|y, Σ) ∝
n
!
1X T −1 1 T −1
exp − (yi − µ) Σ (yi − µ) × exp − (µ − µ0 ) Λ0 (µ − µ0 )
2 i=1 2
donde
µn = (Λ−1 −1 −1 −1 −1
0 + nΣ ) (Λ0 µ0 + nΣ ȳ)
Λ−1
n = Λ−1
0 + nΣ
−1
En este caso p(Σ) ∝ |Σ|(ν0 +d+1)/2 × exp(− 21 tr(Λ0 Σ−1 ) con lo que la
distribución conjunta previa tiene la forma:
1 κ0
p(µ, Σ) ∝ |Σ|−((ν0 +d)/2+1) exp − tr(Λo Σ−1 ) − (µ − µ0 )T Σ−1 (µ − µ0 )
2 2
y la densidad posterior es también una normal-inversa-Wishart con
parámetros:
κ0 n
µn = µo + ȳ
κ0 + n κ0 + n
κn = κ0 + n
νn = ν0 + n
κ0 n
Λn = Λ0 + S + (ȳ − µ0 )(ȳ − µ0 )T
κ0 + n
donde S = ni=1 (yi − ȳ)(yi − ȳ)T .
P
Para obtener muestras de la distribución posterior de (µ, Σ) se puede
usar el siguiente procedimiento:
Muestrear de Σ|y ∼ Inv-Wishartνn (Λ−1
n )
Figura 2.2: Histograma de los valores de (θ1 −θ2 ) para 1000 simulaciones
de la distribución posterior del ejemplo sobre la encuesta presidencial
(ver ejemplo 2.2.1).
y ∼ N (Xβ, σ 2 In ),
νs2
2 −ν/2
2
p(y|X, β, σ ) ∝ (σ ) exp (σ 2 )−(n−ν)/2
2σ 2
1 T
× exp − 2 (β − β̂) (β − β̂) .
2σ
De esta forma se puede proponer una distribución previa conjugada,
especificada como:
p(β, σ 2 ) = p(σ 2 )p(β|σ 2 ).
La distribución conjugada natural para σ 2 es la propuesta en la ecuación
2.8, mientras que para β esta distribución esta dada por:
2 2 −k 1 T
p(β|σ ) ∝ (σ ) exp − 2 (β − β̄) A(β − β̄) (2.10)
2σ
donde
β̃ = (X T X + A)−1 (X T X β̂ + Aβ̄)
o lo que es igual,
β|σ 2 , y ∼ N (β̂, Vβ σ 2 )
p(β, σ 2 |y)
p(σ 2 |y) =
p(β|σ 2 , y)
42 Bravo-Llatas-Pérez
σ 2 |y ∼ Inv − χ2 (n − k, s2 ),
2. Calcule s2
4. Muestree β de N (β̂, σ 2 Vβ )
2. Muestrear ỹ ∼ N (Xβ, σ 2 I)
La forma analı́tica de la distribución predictiva posterior, en el caso
en que se use la previa en 2.12 se puede obtener, considerando que dado
σ 2 , la observación futura ỹ tiene una distribución normal con media y
varianza de la forma:
y1 = Xβ1 + ε1
..
.
yc = Xβc + εc (2.13)
..
.
ym = Xβm + εm ,
Y = XB + E
p(Σ, B) = p(Σ)p(B|Σ)
Σ ∼ Inv-Wishart(ν0 , V0 ) (2.15)
−1
β|Σ ∼ N (β̄, Σ ⊗ A )
Modelos 45
y = Xβ + ε (2.17)
y1 X1 0 0 0 ε1
y2 0 X2 0 0 ε2
y = . , X = , ε =
.. ..
..
0 0 . 0 .
ym 0 0 0 Xm εm
con
var(ε) = Σ ⊗ In ,
se puede ver que, condicional en Σ, se puede usar una previa normal,
y producir una posterior usando las observaciones estandarizadas para
eliminar la correlación, pero no hay una forma cerrada para considerar
a Σ como un parámetro de estorbo.
Modelo Poisson
Para datos de conteo el modelo Poisson lineal generalizado se conoce
como el modelo de regresión Poisson. Se supone que la variable de res-
puesta y tiene una distribución Poisson con media µ y varianza µ (por
ser Poisson). En este caso la función de enlace es la función logarı́tmica
Modelos 47
Modelo binomial
Cuando los datos tienen una distribución binomial o Bernoulli, usual-
mente es de interés la proporción. Si yi ∼ Bin(ni , µi ) con ni conocido,
se considera como variable de respuesta a yi /ni cuya media es µi . En
este caso se utiliza la transformación logit como función de enlace, de
manera que g(µi ) = log(µi /(1 − µi )). La distribución de los datos viene
dada por:
n Xβ yi ni −yi
Y ni e 1
p(y|β) = .
yi 1 + eXβ 1 + eXβ
i=1
ui ∼ N ((Xβ)i , 1)
1 si ui > 0
yi = .
0 si ui < 0
. Para el caso en que el conteo total está fijo por las caraterı́sticas del
estudio, se utiliza la distribución multinomial. Si los totales de fila o
columna están fijos, entonces la verosimilitud será igual al producto de
varias distribuciones multinomiales independientes. En este caso el lo-
garitmo de los conteos esperados cae en la superficie de regresión Xβ de
50 Bravo-Llatas-Pérez
tal forma que log(µ) = Xβ. La matriz X se supone conocida y está con-
fomada por ceros y unos, es decir que todas sus variables son variables
indicadoras. Se supone también que las celdas de la tabla de contin-
gencia no admiten “ceros estructurales”, lo cual significa que no hay
categorias cruzadas con valores imposibles, por ejemplo, hombres con
placenta previa. La variables indicadoras que se eligen dependen de las
relaciones entre las variables categóricas consideradas en el estudio. Las
interacciones de dos o más efectos son utilizadas para modelar la falta
de independencia entre los efectos principales, siendo el caso del modelo
saturado, el modelo que incluye todas las interacciones. Un ejemplo de
este tipo de modelos es discutido en el capı́tulo 5.
de parámetros desconocido φ:
Z J
Y
p(θ) = p(θj |φ) p(φ)dφ. (2.18)
j=1
Suponiendo que los 5 animales dentro del i- esimo grupo son inter-
cambiables e independientes se puede considerar que yi |θi ∼ Bin(ni , θi )
54 Bravo-Llatas-Pérez
logit(θi ) = α + βxi
+ for (j in 1:100){
+ for (k in 1:4){
+ a=exp(gridalpha[i] + gridbeta[j]*dose[k])/
+ (1+exp(gridalpha[i]+gridbeta[j]*dose[k]))
+ gridposterior[i,j]=a^deaths[k]*
+ (1-a)^(n[k]-deaths[k])*gridposterior[i,j]
+ } } }
+ gridposterior
}
#Obtencion de muestras de la distribucion a posteriori.
> randomposterior=function(nsample){
+ i==sample(1:length(post.vector),
+ size=nsample,replace=T,prob=post.vector)
+ ialpha=c(row(post))[i] ; ibeta=c(col(post))[i]
+ alpha=alphagrid[ialpha] ; beta=betagrid[ibeta]
+ return(cbind(alpha,beta)) }
56 Bravo-Llatas-Pérez
# DATOS
> dose=c(-0.863,-0.296,-0.053,0.727); n=c(5,5,5,5);
> deaths=c(0,1,3,5) alphagrid=seq(-5,10,length=100);
> betagrid=seq(-10,40,length=100)
> post=posterior(alphagrid,betagrid)
# Plot de contornos de la distribucion posterior
> par(mfrow=c(1,2));
> contour(alphagrid,betagrid,post,drawlabels=FALSE,
+ lwd=0.8,ylab="beta",xlab="alpha")
> post.vector=c(post)
# Marginales sin normalizar
> post.alpha=apply(post,1,sum)
> post.beta=apply(post,2,sum)
#Generar 200 muestras de la distribucion a posteriori
> theta=randomposterior(200)
#Grfico de las 200 muestras
> plot(theta[,1],theta[,2],
+ xlab="alpha",ylab="beta",xlim=c(-5,10),ylim=c(-10,40), pch="o")
> par(mfrow=c(1,1));
> ld50=-theta[,1]/theta[,2];
> hist(ld50)
θj |µ, τ, y ∼ N (θ̂j , Vj )
donde
1 1
ȳ
σj2 .j
+ τ2
µ 1
θ̂j = 1 1 y Vj = 1 1
σj2
+ τ2 σj2
+ τ2
.
Nótese también que θ̂j y Vj son funciones de µ y τ y de los datos.
Por otra parte, para encontrar la distribución marginal posterior de
los hiperparámetros, se puede escribir:
p(µ, τ |y)
p(τ |y) =
p(µ|τ, y)
p(τ ) Jj=1 N (ȳ.j |µ, σj2 + τ 2 )
Q
∝ ,
N (µ|µ̂, Vµ )
> conditional.theta=function(ybar,mu,tau,sigma){
+ theta=rep(0,nschools)
+ theta.hat=rep(0,nschools) V.hat=rep(0,nschools)
+ for(j in 1:nschools){
+ V.hat[j]=1/(1/sigma[j]^2+1/(tau^2)) +
+ theta.hat[j]=(ybar[j]/sigma[j]^2+mu/tau^2)*V.hat[j]
+ theta[j]=rnorm(1,theta.hat[j],sqrt(V.hat[j])) }
+ theta }
> # Obtener muestras de p(mu | tau, y) de tama~no nsample
> sample.mar.mu=function(ybar, tau, sigma,nsample) {
+ V.mu.inv=sum(1/(sigma^2+tau^2))
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ mu.sample=rnorm(nsample,mu.hat,sqrt(1/V.mu.inv))
+ mu.sample }
# Evaluar p(tau | y)
> marginal.tau=function(ybar,tau,sigma) {
+ V.mu.inv=sum(1/(sigma^2+tau^2)) +
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ eval=exp(-(ybar-mu.hat)^2/(2*(sigma^2+tau^2)))
+ eval=eval/sqrt(sigma^2+tau^2)
+ eval=sqrt(1/V.mu.inv)*prod(eval)
+ eval
}
>########### Programa Principal ########################
> # Lectura de los datos del archivo sa.scores
> # School Treat.effect sd.effect
> # A 28.39 14.9 # B 7.94 10.2 ...
> sat.scores=read.table(’sat.scores’,header=TRUE)
> ybar=sat.scores$Treat.effect nschools=length(ybar)
> sigma=sat.scores$sd.effect # Grid para evaluar p(tau |y)
> x.tau=seq(0.00001,40,length=1000)
> # Evaluar p(tau |y) en 1000 puntos en el
> # intervalo [0.00001,40]
> post.tau=apply(t(x.tau),2,marginal.tau,
> ybar=ybar, sigma=sigma)
> #simular 200 muestras de p(tau |y)
> sample.tau=sample(x.tau,200,replace=TRUE, prob=post.tau)
> # simular 200 muestras de p(mu | tau, y)
> sample.mu=apply(t(sample.tau),2,sample.mar.mu, ybar=ybar,
> sigma=sigma,nsample=1)
> # simular 200 muestras de p(theta | mu, tau,y)
> sample.theta=matrix(0,ncol=nschools,nrow=200)
Modelos 63
> lines(x.tau.2,expected.theta[,8],col="green")
> text(x=22,y=12.17,"H",col="green")
yij ∼ N (θj , σ 2 ).
66 Bravo-Llatas-Pérez
Capı́tulo 3
Distribución Posterior
67
68 Bravo-Llatas-Pérez
var(θ|y) ≈ (A + H)−1 .
d2
I(θ) = − log p(θ|y)
dθ2
#Distribucion previa
> previa=function(theta) {
+ if ((theta>=0)&(theta<=0.385)) {a=0.5}
+ if((theta>=0.585)&(theta<=1.0)) {a=0.5}
+ if((theta>=0.385)&(theta<=0.485)){a=50*theta-18.75}
+ if((theta>=0.485)&(theta<=0.585)){a=-50*theta+29.75}
+ return(a) }
# Verosimilitud
> likelihood=function(theta,n=980,y=437){
+ (theta^y)*(1-theta)^(n-y) }
# Distribucion posterior no normalizada
> postprop=function(theta) {
+ a= previa(theta)*verosimilitud(theta)
+ return(a) }
# Calculo de la constante de normalizacion
> k=sum(apply(t(seq(0,1,length=1000)),2,postprop))/1000
# Graficos de la distribucion previa y posterior
74 Bravo-Llatas-Pérez
> par(mfrow=c(2,2),bty=’n’)
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,previa),xlim=c(0,1),
+ ylab="",xlab="theta",type=’l’)
# Grafico de la distribucion posterior:
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,postprop/k),type=’l’,
+ xlim=c(0.35,0.585),ylab="",xlab="theta")
# Funcion de muestreo de la posterior
> sampost=function(grid){
> sample(grid,size=length(grid),replace=T,
> prob=apply(t(seq(0,1,length=1000)),2,postprop)/k) }
> theta=sampost(seq(0,1,length=1000))
> hist(theta,ylab="",xlab="theta",xlim=c(0.35,0.55))
con wr = p(θr )p(y|θr )/f (θr ). Nótese que en este caso no hace falta que
f sea una densidad normalizada, pues las constantes de normalización
aparecen tanto en el numerador como en el denominador y se cancelan.
El error numérico estándar (ENE) se calcula como:
sP
− R−1 r h(θr ))2 wr2
P
r (h(θr )
ENE(h̄R ) = .
( r wr )2
P
Para entender este objetivo hay que definir algunos términos: (ver por
ejemplo [GCSR] para más detalles).
Algoritmo de Metrópolis
El algoritmo de Metrópolis es una modificación de un paseo al azar
que utiliza una regla de aceptación rechazo para obtener convergencia
de la cadena a una distribución especı́fica. El algoritmo consiste de los
siguientes pasos:
2. Para r = 1, 2, . . .
4. Definir
θ∗
r con probabilidad mı́n(R, 1)
θ = (3.3)
θr−1 si no
Estas ecuaciones implican que, dado θr−1 , Fr (θr |θr−1 ) es una mezcla de
la distribución de salto, Jr (θr |θr−1 ) y un punto de masa en θr = θr−1
La regla de aceptación y rechazo del algoritmo anterior se puede inter-
pretar como sigue: si el “salto”produce un valor para el que se aumenta
la densidad posterior, hacer θr = θ∗ ; si el “salto”no aumenta la densi-
dad a posteriori, hacer θt = θ∗ con probabilidad R y θt = θt−1 si no.
Esto puede ser visto como una versión estocástica de un algoritmo de
búsqueda de moda por pasos.
Algoritmo de Metrópolis-Hastings
La generalización conocida como el algoritmo de Metrópolis-Hasting,
consiste esencialmente en que en este caso las reglas de salto, dadas por
Jr no necesitan ser simétricas y el radio R es reemplazado por,
p(β, Σ) = p(β)p(Σ)
β ∼ N (β̄, A−1 ) (3.5)
Σ ∼ Inv-Wishart(ν0 , V0 )
4. Repita.
Calculamos las varianzas entre las secuencias (B) y dentro de cada se-
cuencia (W) de la siguiente forma:
J J
n X 1X 2
B= (ψ̄.j − ψ̄.. )2 , W = sj ,
J −1 J
j=1 j=1
Pn
con s2j = i=1 (ψij − ψ̄.j )2 /(n − 1). Podemos estimar var(ψ|y) por un
promedio ponderado entre las varianzas W and B,
n−1 1
ˆ + (ψ|y) =
var W + B.
n n
Esta cantidad sobreestima la varianza marginal posterior suponiendo
que la distribución inicial está apropiadamente dispersa, pero es un es-
timador insesgado bajo condiciones de estacionaridad (en el sentido de
que la distribución inicial iguala a la distribución de interés) o cuando
n → ∞.
Para cualquier valor de n finito, W deberı́a subestimar el valor de
var(ψ|y) porque las secuencias individuales no han tenido tiempo de
recorrer todo el rango de valores de la distribución de interés, pero en el
lı́mite, cuando n → ∞, la esperanza de W tiende a var(ψ|y).
La convergencia en los algoritmos de simulación MCMC es monito-
reada mediante la estimación de un factor por el cual la escala de la
distribución actual del parámetro ψ puede ser reducida suponiendo que
se continuan las simulaciones en el lı́mite n → ∞. La reducción de la
escala potencial es estimada por:
r
ˆ + (ψ|y)
var
R̂ = ,
W
lo cual va a 1 si n → ∞. Si la escala de reducción potencial es al-
ta entonces un mayor número de simulaciones pueden mejorar nuestra
inferencia sobre la distribución de interés
cantidad esté cerca de 1 para todos los estimandos escalares, se toman las
m × n muestras (después del burn-in) y se considera que estas muestras
son muestras de la distribución de interés. La condición R̂ “cerca”de 1
depende del problema que estamos considerando; para muchos ejemplos
valores por debajo de 1, 1 son aceptables.
La metodologı́a presentada anteriormente tiene la ventaja de que no
requiere la inspección visual de los gráficos de las series simuladas para
tomar una decisión sobre la convergencia. Basarse sólo en la inspección
visual puede no ser adecuado sobre todo cuando el número de parámetros
a evaluar es importante.
J
Y
p(θ, µ, log σ, log τ |y) ∝ τ N (θj |µ, τ 2 )
j=1
J Y nj
Y
× N (yij |θj , σ 2 ).
j=1 i=1
http://www.mrc-bsu.cam.ac.uk/bugs/.
θ2 | θ1
θ1 | θ2 , y
Estructura lineal
θ1 −→ θ2 −→ θ3
θ1 | θ2
θ2 | θ1 , θ 3
θ3 | θ2
θ1 | θ3 , θ 2
θ3 | θ1 , θ 2
θ2 | θ3 , θ 1
pero ahora la relación entre las ecuaciones viene dada en los parámetros
βi a través de:
http://www.mas.ncl.ac.uk/~ndjw1/bookmarks/Stats/
Software-Statistical\_computing/Bayesian_software/index.html.
Diagnóstico y selección de
modelos
97
98 Bravo-Llatas-Pérez
un desempeño similar).
En este capı́tulo se presentarán algunos de los métodos más usados
para diagnosticar y seleccionar modelos.
Pasos para medir las discrepancias entre los datos y las simu-
laciones de la distribución predictiva
Primero se define una medida de discrepancia T (y, θ), la cual es
una cantidad escalar que depende de los parámetros y los datos
(equivalente a la estadı́stica de prueba desde el punto de vista
clásico). Se utiliza la notación T (y) para el estadı́stico de prueba
en el contexto clásico, es decir, que sólo depende de los datos. En el
contexto Bayesiano se generaliza este concepto para permitir la de-
pendencia de los parámetros del modelo mediante su distribución
predictiva posterior.
100 Bravo-Llatas-Pérez
Prueba χ2
Una medida general de discrepancia es la discrepancia χ2 o prueba de
bondad de ajuste, definida como
X (yi − E(yi |θ))2
discrepancia χ2 : T (y, θ) =
var(yi |θ)
i
Diagnóstico de modelos 101
La cantidad 4.6 es un mejor estimador del error del modelo que el esti-
mador puntual 4.4 porque esta última toma en cuenta todos los valores
posibles del vector de parámetros.
La diferencia entre la devianza promedio a posteriori 4.6 y la devianza
en 4.4 es pD , que es una medida del número efectivo de parámetros en
un modelo Bayesiano:
donde D(y rep , θ) = −2 log p(y rep |θ) y θ̂ es un estimador del parámetro
como por ejemplo la media posterior. En general esta devianza será ma-
yor que D̂avg (y) definida en 4.6, porque los datos replicados son com-
parados con un modelo estimado a partir de los datos y.
pred
Davg (y) definido en 4.8 ha sido sugerido como un criterio de ajuste
de modelos y puede ser aproximado por una expresión que se denomina
Criterio de Información de la Devianza (DIC):
pred
DIC = D̂avg (y) = 2D̂avg (y) − Dθ̂ (y) (4.9)
pred
DIC = D̂avg (y) = D̂avg (y) + pD , (4.10)
Diagnóstico de modelos 107
P (y|Mi )P (Mi )
P (Mi |y) = Pq
j=1 P (y|Mj )P (Mj )
m (y)P (Mi )
= Pq i (4.11)
j=1 mj (y)P (Mj )
108 Bravo-Llatas-Pérez
R
donde mi (y) = pi (y|θi )p(θi )dθi es la distribución marginal o predictiva
del vector de datos y bajo el modelo i.
Para comparar dos modelos, se puede calcular el cociente de sus pro-
babilidades posteriores, el cual, usando la ecuación 4.11, se calcula como
En este caso hay dos modelos que compiten: M1 : La mujer está afec-
tada; y M2 : La mujer no está afectada; esto es: θ = 1 y θ = 0. La
razón de probabilidades a priori es p(M2 )/p(M1 ) = 1. El factor de
Bayes de los datos en los que la mujer tiene dos hijos no afectados es
p(y|M2 ) 1,0
B21 = p(y|M 1)
= 0,25 = 4; de acuerdo a la escala de evidencia de Jeffreys,
este valor aporta evidencia positiva a favor del modelo 2, es decir, a fa-
vor de que la mujer no es portadora del gen de la hemofilia. El cociente
de las probabilidades posteriores es p(M2 |y)/p(M1 |y) = 4. En este caso
no hay modelos intermedios entre los dos modelos a comparar y cada
p(y|Mi ) es propia.
Ejemplo 4.2.2. Proporciones de machos y hembras en pobla-
ciones de venados ([McC07], pág. 112): Flueck [Fl01] determinó el
sexo de 28 venados con el objetivo de decidir si la distribución de sex-
os era equitativa. Sea Y la cantidad de machos, y p la proporción de
machos; de acuerdo con el objetivo, se desea comparar los siguientes
modelos:
M1 : p = 0, 5
M2 : p 6= 0, 5
m1 (20) 0,0116
B12 = = = 0,336.
m2 (20) 0,0345
Es decir, el factor de Bayes apoya al modelo 2. Para ver qué tan fuerte
es ese apoyo, considere el factor de Bayes inverso:
m2 (20) 0,0345
B21 = = = 2,97
m1 (20) 0,0116
De acuerdo con la escala de evidencia de Jeffreys, el factor de Bayes
proporciona un apoyo débil al modelo M2 , es decir, al modelo para el
cual las proporciones de machos y hembras son diferentes.
Podrı́a alegarse que una previa uniforme no es adecuada en este caso,
ya que probabilidades de sexo masculino cercanas a cero o a uno son
igualmente posibles que probabilidades cercanas a 0, 5. Esto no parece
razonable desde el punto de vista biológico, ya que valores cercanos a
0, 5 deberı́an ser más probables, y no hay razón para preferir valores
superiores o inferiores a 0, 5. Si se elije una previa Beta(a,a):
Γ(2a) a−1
π(p) = p (1 − p)a−1 ,
(Γ(a))2
se obtienen las caracterı́sticas que se acaban de describir. Cuando a = 1,
se obtiene una previa uniforme, mientras que cuando a crece, la previa
se concentra cada vez más alrededor de 0,5, haciendo que los modelos
M1 y M2 sean muy parecidos.
Para esta nueva previa en el modelo M2 , la predictiva de y = 20 será
Z 1
Γ(29) Γ(2a) a−1
m2 (20) = p20 (1 − p)8 p (1 − p)a−1 dp
Γ(21)Γ(9) 0 (Γ(a))2
Z 1
Γ(29) Γ(2a)
= p20+a−1 (1 − p)8+a−1 dp
Γ(21)Γ(9) (Γ(a))2 0
Γ(29) Γ(2a) Γ(20 + a)Γ(8 + a)
=
Γ(21)Γ(9) (Γ(a))2 Γ(28 + 2a)
y por lo tanto
112 Bravo-Llatas-Pérez
Figura 4.2: Factor de Bayes B21 para comparar el modelo con propor-
ciones distintas vs proporciones iguales de machos y hembras con re-
specto al valor del parámetro de la previa, ejemplo de los venados.
Casos de estudio
113
114 Bravo-Llatas-Pérez
C(0,T ] (τ )
H(τ ) = lı́m
T →∞ T
Z τ
1
= CP M + CM R ρ(u)du . (5.1)
τ 0
Modelo:
Siguiendo a [BT], la verosimilitud para los datos de falla de n equipos
con tiempo de observación T , puede escribirse como:
n1 Z n
" #
X Ti X Z timi Y
p(θ|t) = exp − ρ(s)ds − ρ(s)ds ρ(tij ) (5.2)
i=1 0 i=n1 +1 0 i,j
donde
}
alpha<- exp(mu)
mu ~ dnorm(0, 0.0001)
beta~ dunif(1,100)
tau <- alpha*pow(15*(beta-1),-1/beta)
}
Implementación en WinBUGS:
Para la implementación en WinBUGS se consideran los dos casos: Mo-
delo independiente y Modelo saturado. Se calculan los estadı́sticos χ2
y G2 . También es necesario asignar NA a los valores iniciales de los
parámetros que conforman las restricciones. A continuación se incluyen
los códigos utilizados para el caso independiente y el modelo saturado:
#CASO INDEPENDIENTE
model {# Distribuciones a Priori
# Efectos del IOS
u1[1] <- 0; for (i in 2:I) { u1[i] ~ dnorm(0,0.01)}
# Efectos de la precipitacion
u2[1] <- 0; for (i in 2:I) { u2[i] ~ dnorm(0,0.01)}
u ~ dnorm(0,0.01);
# Estadisticos
for (i in 1:I)
{ for (j in 1:I)
{ devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j];} }
G2 <- 2 * sum( devG[,] );
X2 <- sum( devX[,] )}
Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)
Inits
list(u1=c(NA,1,1),u2=c(NA,1,1), u=1)
#MODELO SATURADO
model {
# Distribuciones a priori
# Efectos del IOS y la precipitacion
u1[1] <- 0; for (i in 2:I) { u1[i] ~ dnorm(0,0.001)}
u2[1] <- 0; for (i in 2:I) { u2[i] ~ dnorm(0,0.001)}
# Restricciones de las interacciones
for (j in 1:I){ u12[1,j] <- 0 }
for (i in 2:I) { u12[i,1] <- 0 }
124 Bravo-Llatas-Pérez
# Interacciones
for (i in 2:I-1) {
for (j in i+1:I) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 3:I) {
for (j in 2:i-1) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 2:I) { u12[i,i] ~ dnorm(0,0.001);}
u ~ dnorm(0,0.001);
# VEROSIMILITUD
for (i in 2:I) {
for (j in 1:i-1) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I-1) {
for (j in i+1:I) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I) {
m[i,i] ~ dpois(mu[i,i]);
log(mu[i,i]) <- u + u1[i]+ u2[i]+u12[i,i];}
for (i in 1:I) {
for (j in 1:I) {
devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j]; } }
Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)
Discusión de resultados:
En el análisis clásico para comparar estos dos modelos usualmente se
hace la prueba chi-cuadrado que contrasta las hipótesis de independencia
entre las variables. En análisis Bayesiano, además de los estadı́sticos
Casos 125
y además
ui ∼ N (µ∗i , Σ∗i ). (5.5)
La interpretación de este modelo es que las respuestas observadas son
multinomiales, donde las probabilidades multinomiales provienen de una
distribución normal multivariada. Ahora bien, este modelo tal como
está descrito en las ecuaciones 5.4 y 5.5 está sobreparametrizado, pues
tenemos un vector de medias y una matriz de varianzas-covarianzas di-
ferente para cada uno de los entrevistados. Una manera de soslayar esto
es considerar:
Implementación de la simulación:
En este caso se usará la función rscaleUsage de la libreria de funciones
bayesm (ver [RAM]). Para lograr convergencia de las cadenas hace falta
generar un número considerable de pasos, tomando también en cuenta
que los resultados marginales son altamente correlacionados, por lo que
se recomienda usar la técnica de “thinning” para obtener resultados más
confiables.
Casos 129
Discusión de resultados:
En la figura 5.5 se presentan los diagramas de caja construidos con 1.000
muestras de la distribución posterior para µ, el parámetro de respuesta
central para cada pregunta.
En este gráfico puede verse como las preguntas 1, 5 y 11 reciben
calificaciones menores que las demás. Las preguntas 1 y 11 se refieren
a tiempos de estadı́a en la agencia; la pregunta 5 se refiere al ambiente
fı́sico y las comodidades de la agencia. En el cuadro 5.3 se presentan los
cuantiles estimados por pregunta.
Pregunta cuantil
2.5 % 5% 50 % 95 % 97.5 %
1 6.7 6.7 6.9 7.0 7.1
2 7.5 7.6 7.7 7.9 7.9
3 7.7 7.8 7.9 8.1 8.1
4 7.9 7.9 8.1 8.2 8.3
5 7.3 7.4 7.5 7.7 7.7
6 7.5 7.5 7.7 7.8 7.9
7 7.5 7.5 7.7 7.9 7.9
8 7.5 7.5 7.7 7.9 7.9
9 7.3 7.3 7.5 7.6 7.7
10 8.0 8.0 8.2 8.4 8.4
11 7.0 7.1 7.2 7.4 7.5
12 7.4 7.4 7.6 7.7 7.8
v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))
list(alpha1=50,alpha2=50,alpha3=50,alpha4=50,alpha5=50,
tau=50,tau.v=50,
b=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))
Discusión de resultados:
En la tabla 5.6 se presenta la salida de WinBUGS para los estadı́sticos
que resumen los valores de la distribución posterior de los coeficientes
de regresión del modelo, y las precisiones del componente CAR y del
efecto espacial aleatorio a partir de la iteración número 78.000.
Modelo:
El objetivo del estudio es comprobar si el medicamento funciona mejor
que el placebo, ası́ que el análisis se enfocará en las diferencias entre
los scores de los pacientes del grupo experimental (finasteride 1mg. o
finasteride 5mg) y el grupo control (placebo). No se dispone de los datos
crudos, ası́ que será necesario usar los estadı́sticos suficientes.
Sean Xf ij la respuesta del individuo j del grupo experimental y Xpik .
Como se mencionó anteriormente, se supondrá que los scores siguen
distribuciones normales, de la siguiente manera
2
X̄f i ∼ N (µf i , σW i)
2
X̄pi ∼ N (µpi , σW i)
donde µf i y µpi son las medias de los scores para el grupo tratamiento y
el grupo control respectivamente, y σW 2 es la varianza dentro del centro
i
i, la cual se supone igual para todos los tratamientos.
La diferencia entre estos promedios, di = X̄f i − X̄pi , es un estimador
del valor de la diferencia para el centro i, δi = µf i − µpi . Su distribución
será
2 2 1 1
di |σW i ∼ N (δi , σW i + ).
nf i nf i
La información que los datos dan sobre σW 2
i está contenida en las
2
desviaciones estándar. Un estimador para σW i será
138 Bravo-Llatas-Pérez
mi mi
s2i ∼ Gamma( , 2 ).
2 2σW i
Las ecuaciones anteriores describen los resultados para cada centro.
Para las variaciones entre los centros, se empleará un modelo jerárquico
para δi y τi = 1/σW 2 . La opción más sencilla es plantear un modelo
i
en el cual los δ y los τ son independientes, lo cual lleva a la siguiente
estructura
δi |Ψ ∼ N (∆, Ψ)
ω ωζ
ωζτi ∼ χ2ω (equivalentemente, τi ∼ Gamma( , )).
2 2
Finalmente, se asignan previas vagas para ∆, Ψ, ω y ζ de la siguiente
manera
∆ ∼ N (0, 10−5 )
r
1
σB = ∼ U (0, 100)
Ψ
ω ∼ Unif. Discreta(0, 1000)
r
1
sζ = ∼ U (0, 100)
ζ
Implementación en WinBUGS:
El siguiente programa generaliza el modelo descrito en la sección an-
terior, pues incorpora las diferencias del score de sı́ntomas para las dos
dosis (1mg y 5mg diarios de finasteride), y supone que las varianzas son
iguales para los tres grupos. Se dan valores iniciales para tres cadenas
simultáneas; nótese que no se dan valores iniciales para todos los nodos;
el resto se generan aleatoriamente. Se generan además predicciones para
140 Bravo-Llatas-Pérez
model
{
#Previas para las diferencias entre grupos
Delta1~dnorm(0.0, 1.0E-5)
Delta5~dnorm(0.0, 1.0E-5)
sigma.B ~ dunif(0,100)
#Previa para la variabilidad entre grupos
Psi<-1/pow(sigma.B,2)
# Previas para la variabilidad dentro de los grupos
for ( j in 1: nomega) {omcat[j]<-1/nomega}
om~dcat(omcat[])
szeta ~dunif(0,100)
zeta<-1/pow(szeta,2)
omega2<-5*om
omz<-omega2*zeta;
for (i in 1: ncenters)
{
# Previa jerarquica para las desviaciones estandard
# entre grupos
tau.w[i]~dgamma(omega2,omz)
beta.w[i]<-0.5*tau.w[i]
# Verosimilitud para las desviaciones estandard entre grupos
m.f1[i]<-n.f1[i]-1
ss.f1[i]<-m.f1[i]*pow(s.f1[i],2)
m.f5[i]<-n.f5[i]-1
ss.f5[i]<-m.f1[i]*pow(s.f5[i],2)
m.pbo[i]<-n.pbo[i]-1
ss.pbo[i]<-m.pbo[i]*pow(s.pbo[i],2)
mt[i]<-m.f1[i]+m.f5[i]+m.pbo[i]
alpha.w[i]<-0.5*mt[i]
ss.diff[i]<-ss.f1[i]+ss.f5[i]+ss.pbo[i]
ss.diff[i] ~ dgamma(alpha.w[i],beta.w[i])
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 1mg
ntilde.f1[i]<-1.0/ (1.0/n.f1[i]+1.0/n.pbo[i])
tau.d.f1[i]<-ntilde.f1[i]*tau.w[i]
delta.f1[i]~dnorm(Delta1,Psi)
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 5mg
ntilde.f5[i]<-1.0/ (1.0/n.f5[i]+1.0/n.pbo[i])
tau.d.f5[i]<-ntilde.f5[i]*tau.w[i]
delta.f5[i]~dnorm(Delta5,Psi)
Casos 141
#Datos
list(n.pbo=c(7,11,6,10,10,6,5,12,8,9,15,8,12,9,6,14,13,15,15,11,5,
11,9,12,9,15,11,10,13),
mean.pbo=c(0.43,0.1,2.58,-2.30,2.08,1.13,1.20,-1.21,1.13,-0.11,
-4.37,-1.06,-0.08,0.00,1.83,-4.21,0.76,-1.05,2.07,-1.46,
0.8,-2.92,-3.37,-1.92,-3.89,-3.48,-1.91,-2.66,-0.77),
s.pbo=c(4.58,4.21,4.80,3.86,6.46,3.24,7.85,2.66,5.28,3.62,6.12,
5.27,3.32,5.20,5.85,7.53,3.82,4.54,4.88,5.48,4.21,5.42,4.73,2.91,
4.76,5.98,6.49,3.80,4.73), n.f1=c(7,11,6,10,10,5,6,13,8,10,14,9,12,
9,7,14,13,13,15,10,5,10,9,12,9,15,12,10,13),
mean.f1=c(-5.43,-2.59,-3.94,-1.23,-6.70,3.40,-3.67,0.18,-2.19,
-2.00,-2.68,0.44,-4.60,-0.25,-1.23,-2.10,0.55,2.54,-1.67,-1.99,
-3.35,-1.22,-1.38,-0.66,-3.22,-2.13,-1.33,-1.29,-2.31),
s.f1=c(5.53,3.95,4.25,5.17,7.45,8.17,4.89,3.81,5.17,5.35,5.34,4.39,
6.16,8.23,4.33,5.78,2.53,4.16,4.95,5.63,4.73,5.95,4.17,3.55,5.54,
3.25,4.40,3.18,3.88),
n.f5=c(8,12,7,10,10,5,5,12,9,10,15,9,11,7,6,12,13,14,15,10,5,11,7,
12,8,14,11,10,13),
mean.f5=c(-2.63,-2.21,1.29,-1.40,-5.13,-1.59,-1.40,-4.08,-1.96,
0.60,-2.14,-2.03,-6.22,-3.29,-1.00,-5.75,-0.63,-2.80,-3.43,-6.77,
-0.23,-4.45,0.57,-2.39,-1.23,-3.71,-1.52,-4.70,-0.47),
s.f5=c(3.38,4.14,7.39,2.27,3.91,3.19,2.61,6.32,5.84,3.53,4.27,5.76,
5.33,5.12,2.61,5.63,5.41,2.89,4.71,5.19,4.14,6.65,2.70,2.27,4.91,
5.30,4.68,3.43,4.95), ncenters=29,nomega=1000)
# Valores iniciales
list(Delta1=0,Delta5=0,,sigma.B=1,szeta=1,om=1)
list(Delta1=1,Delta5=1,sigma.B=5, szeta=5, om=10)
list(Delta1=-1,Delta5=-1,sigma.B=10, szeta=10, om=10)
las correlaciones. Estas eran bastante altas, ası́ que se decidió tomar una
de cada 50 iteraciones. De esta manera, se generaron 5000 simulaciones
adicionales para cada cadena.
Discusión de resultados:
La tabla 5.8 presenta un resumen de varios estadı́sticos descriptivos cal-
culados a partir de la muestra simulada usando el muestreador de Gibbs.
Los valores ∆1 y ∆5 parecen indicar que existe una mejorı́a en los pa-
cientes tratados con finasteride, y que esta mejorı́a es más marcada en
los pacientes que tomas la dosis de 5mg. De hecho, el intervalo de credi-
bilidad del 95 % para ∆1 contiene al cero y valores positivos , mientras
el de ∆5 no contiene al cero (esto no es una prueba de hipótesis; sin em-
bargo, nos indica si la posterior para un parámetro descarta o no valores
positivos).
143
144 Bibliografı́a
[GCSR] A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin, Bayesian
Data Analysis, Chapman & Hall (2001).
Director
Ángel L. Viloria
Subdirector
Rubén Machado
Representantes del Ministerio del Poder Popular
para la Ciencia y Tecnologı́a
Raúl Padrón
Oscar Noya
Representante del Ministerio del Poder Popular
para la Educación Superior
Prudencio Chacón
Representantes Laborales
Jesús Acosta
Luis Burguillos
Gerencia General
Lira Parra
Comisión Editorial
Coordinador
Ángel L. Viloria
Hebe Vessuri
Eloy Sira
Rafael Gasson
Horacio Biord
Érica Wagner
Lucı́a Antillano
Marı́a Teresa Curcio
Katherine Farı́as
Pamela Navarro