E-BOOK-2008-BRAVO, LLATAS & PEREZ-Analisis de Datos Con Tecnicas Bayesianas

XXI ESCUELA VENEZOLANA DE MATEMÁTICAS
ESCUELA MATEMÁTICA DE AMÉRICA LATINA Y EL CARIBE

EMALCA–VENEZUELA 2008
ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS
Lelys Bravo de Guenni

Isabel Llatas Salvador
Marı́a Eglée Pérez Hernández
MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008

ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS
Lelys Bravo de Guenni

Isabel Llatas Salvador
Universidad Simón Bolı́var, Caracas
lbravo@usb.ve, llatas@usb.ve
Marı́a Eglée Pérez Hernández

Universidad de Puerto Rico - Recinto de Rı́o Piedras
meglee@uprrp.edu
MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008

ii

La Escuela Venezolana de Matemáticas es una actividad de los postgra-
dos en matemáticas de las instituciones siguientes: Centro de Estudios
Avanzados del Instituto Venezolano de Investigaciones Cientı́ficas, Fa-
cultad de Ciencias de la Universidad Central de Venezuela, Facultad de
Ciencias de la Universidad de Los Andes, Universidad Simón Bolı́var,
Universidad Centroccidental Lisandro Alvarado y Universidad de Orien-
te, y se realiza bajo el auspicio de la Asociación Matemática Venezolana.
La XXI ESCUELA VENEZOLANA DE MATEMÁTICAS–EMALCA-Venezuela
2008 recibió financiamiento de la Academia de Ciencias Fı́sicas, Mate-
máticas y Naturales, el Fondo Nacional de Ciencia, Tecnologı́a e Inno-
vación (FONACIT), el Instituto Venezolano de Investigaciones Cientı́fi-
cas (Centro de Estudios Avanzados, Departamento de Matemáticas y
Ediciones IVIC), la Universidad de los Andes (CEP, CDCHT, Facul-
tad de Ciencias y Departamento de Matemáticas), Fundacite–Mérida,
la Universidad Simón Bolı́var y el CIMPA (Centre International de
Mathématiques Pures et Appliquées).
2000 Mathematics Subject Classification: 62F15, 62-07, 62P99.
Ediciones
c IVIC
Instituto Venezolano de Investigaciones Cientı́ficas
Análisis de Datos con Técnicas Bayesianas
Lelys Bravo de Guenni, Isabel Llatas Salvador y Marı́a Eglée Pérez Hernández
Diseño y edición: Escuela Venezolana de Matemáticas
Preprensa e impresión: Editorial Texto
Depósito legal If660200851022923
ISBN 978-980-261-099-0
Caracas, Venezuela
2008
iii
Prefacio
Si bien los métodos Bayesianos aparecen en el siglo XVIII con los

trabajos originales de Bayes y Laplace, no es sino hasta finales de la
década de 1980 y principios de la década de 1990 cuando la aparición de
métodos computacionalmente intensivos basados en simulación (Méto-
dos de Cadenas de Markov Montecarlo- MCMC) permite implementar el
paradigma Bayesiano. La variedad y complejidad de los problemas que
pueden ser analizados desde el punto de vista Bayesiano es amplia, in-
cluyendo situaciones en las cuales los metodos frecuentistas son difı́ciles
de aplicar e inútiles en la práctica. El desarrollo de software libre o de uso
gratuito (WinBUGS pertenece a esta última categorı́a) ha contribuido
también a la difusión y uso práctico de los métodos Bayesianos.
El presente material nace de la evolución del curso de Modelaje Es-
tadı́stico que se ha dictado en la Universidad Simón Bolı́var durante los
últimos 10 años para los programas de Especialización en Estadı́stica
Computacional y Maestrı́a en Estadı́stica. De esta manera, esperamos
poner a la disposición de los estudiantes de postgrado en Matemáticas
de todo el paı́s la experiencia adquirida durante este tiempo, y propor-
cionarles la oportunidad de conocer métodos modernos y cada vez más
extendidos de análisis estadı́stico.
Ahora bien, esta experiencia no serı́a posible sin el esfuerzo de nues-
tros colegas que contribuyeron en la creación de los programas de Es-
tadı́stica, a los que además queremos agradecer los buenos momentos
y las colaboraciones: Bruno Sansó, Raquel Prado, José Miguel Pérez,
Victor de Oliveira, y muy especialmente, Luis Raúl Pericchi, quien nos
inició en estas lides y, por allá, en 1989, dictó en la II EVM el curso
de Teorı́a estadı́stica de decisión y análisis Bayesiano, abriendo ası́ este
tópico en los estudios post-graduados en Venezuela. También queremos
agradecer a nuestros estudiantes de estos y otros años y en particular a
iv
Desireé Villalta, Pedro Sequera, Jhan Rodrı́guez, Raúl Ramı́rez y Hen-

ry Mendoza por el trabajo que realizaron en los ejemplos del capı́tulo
5 y por supuesto queremos agradecer al Comité Organizador y a todas
las instituciones que han hecho posible la realización de la XXI EVM-
EMALCA, y en particular a Carlos Di Prisco y a Stella Brassesco por
darnos esta oportunidad.
Finalmente, deseamos dedicar este trabajo a la memoria de nuestra

amiga Susana Hernández, quien nos enseñó generosidad, solidaridad y
mı́stica de trabajo aún en momentos en los cuales luchaba por su vida.
Caracas y San Juan

Junio 2008
Índice general
Prefacio III
1. Introducción 1
1.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . 1
1.2. Análisis de datos Bayesiano . . . . . . . . . . . . . . . . . 2
1.3. Definiciones y notación general . . . . . . . . . . . . . . . 3
1.3.1. Parámetros, datos y predicciones . . . . . . . . . . 3
1.3.2. Notación de probabilidad . . . . . . . . . . . . . . 5
1.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . 5
1.4. Principio de verosimilitud . . . . . . . . . . . . . . . . . . 6
1.5. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Resultados útiles de teorı́a de probabilidades . . . . . . . 8
1.7. Uso de la simulación para la inferencia . . . . . . . . . . . 10
1.8. Distribuciones previas conjugadas . . . . . . . . . . . . . . 11
1.9. Análisis Bayesiano objetivo . . . . . . . . . . . . . . . . . 13
2. Modelos uniparamétricos y multiparamétricos 19

2.1. Modelos uniparamétricos . . . . . . . . . . . . . . . . . . . 19
2.1.1. Modelo binomial . . . . . . . . . . . . . . . . . . . 19
2.1.2. Modelo Poisson . . . . . . . . . . . . . . . . . . . . 22
2.1.3. Modelo exponencial . . . . . . . . . . . . . . . . . 26
2.1.4. Modelo normal (localización) . . . . . . . . . . . . 27
2.1.5. Modelo normal (escala) . . . . . . . . . . . . . . . 29
2.2. Modelos multiparamétricos . . . . . . . . . . . . . . . . . 30
2.2.1. Modelo normal . . . . . . . . . . . . . . . . . . . . 31
2.2.2. Modelo normal multivariado . . . . . . . . . . . . 35
2.2.3. Modelo multinomial . . . . . . . . . . . . . . . . . 37
v
vi ÍNDICE GENERAL
2.3. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . 39

2.3.1. Modelo de regresión normal . . . . . . . . . . . . . 39
2.3.2. Regresiones multivariadas y aparentemente no rela-
cionadas . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4. Modelos lineales generalizados . . . . . . . . . . . . . . . . 45
2.4.1. Verosimilitud de los modelos lineales generalizados
estándar . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.2. Extensiones de los modelos lineales generalizados . 48
2.4.3. Modelos loglineales para datos multivariados dis-
cretos . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5. Modelos jerárquicos . . . . . . . . . . . . . . . . . . . . . 50
2.6. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . 53
3. Distribución Posterior 67
3.1. Integración y aproximaciones para muestras grandes . . . 68
3.1.1. Aproximación normal a la distribución posterior . 68
3.2. Métodos de simulación . . . . . . . . . . . . . . . . . . . . 71
3.2.1. Muestreo directo . . . . . . . . . . . . . . . . . . . 72
3.2.2. Muestreo de rechazo/aceptación . . . . . . . . . . 74
3.2.3. Muestreo de Importancia . . . . . . . . . . . . . . 75
3.3. Métodos Monte Carlo de Cadenas de Markov (MCMC) . 76
3.3.1. El algoritmo de Metrópolis-Hasting. . . . . . . . . 78
3.3.2. El muestreador de Gibbs . . . . . . . . . . . . . . 81
3.4. Inferencia y Evaluación de la convergencia de los métodos
MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1. Dificultades con las simulaciones obtenidas . . . . 85
3.4.2. Construcción de algoritmos de simulación eficiente 87
3.5. Breve introducción a WinBUGS . . . . . . . . . . . . . . 89
3.5.1. Distribuciones condicionales y grafos dirigidos . . . 90
3.5.2. Modelos gráficos en WinBUGS . . . . . . . . . . . 93
3.5.3. Ejemplo del Bioensayo . . . . . . . . . . . . . . . . 94
3.5.4. Otros paquetes y software . . . . . . . . . . . . . . 95
4. Diagnóstico y selección de modelos 97

4.1. Principios y métodos para el diagnóstico de un modelo . . 98
4.1.1. Comparación de los datos con la distribución pre-
dictiva posterior . . . . . . . . . . . . . . . . . . . 99
4.1.2. Ejemplo de diagnóstico de modelos . . . . . . . . . 102
ÍNDICE GENERAL vii
4.1.3. Análisis de sensibilidad y expansión de modelos . . 102

4.2. Comparación de Modelos . . . . . . . . . . . . . . . . . . 104
4.2.1. Devianza esperada como una medida de la pre-
cisión predictiva . . . . . . . . . . . . . . . . . . . 105
4.2.2. Devianza para datos replicados y criterio de infor-
mación de la devianza (DIC) . . . . . . . . . . . . 106
4.2.3. Factores de Bayes . . . . . . . . . . . . . . . . . . 107
5. Casos de estudio 113

5.1. Confiabilidad y Mantenimiento Industrial . . . . . . . . . 113
5.2. Efectos del fenómeno de El Niño
en Venezuela . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.3. Encuestas de Satisfacción . . . . . . . . . . . . . . . . . . 125
5.4. Modelación de la incidencia de malaria en el Estado Sucre,
Venezuela . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.5. Análisis Bayesiano de una ensayo clı́nico multicentro . . . 135
Bibliografı́a 143
viii
Capı́tulo 1
Introducción
1.1. Consideraciones iniciales

Vamos a empezar por el principio: ¿Por qué inclinarse por el análisis
Bayesiano de datos o en general por la inferencia Bayesiana?. Antes que
nada es importante aclarar que inferencia en este contexto se refiere
a obtener conclusiones, a partir de información en la forma de datos
numéricos observados, sobre cantidades no observadas. Considere estos
ejemplos:
Ejemplo 1.1.1. En el área de mercadeo uno de los problemas más intere-
santes se refiere a conocer cuales son los atributos de un producto que
cambian la probabilidad que un consumidor escoja dicho producto entre
una oferta de diferentes productos. La probabilidad de escogencia, para
cada consumidor, es una cantidad no observable; lo que se puede obser-
var es la selección realizada por una muestra de consumidores frente a los
productos con distintas caracterı́sticas y, a partir de esta muestra, inferir
cuales atributos o condiciones propician la escogencia del producto.
Ejemplo 1.1.2. En el área de medicina, para establecer la eficacia de un
tratamiento aplicado para una enfermedad, se puede comparar la pro-
babilidad de que un paciente sobreviva cinco años luego de recibir dicho
tratamiento, contra la probabilidad de sobrevivencia con el tratamien-
to convencional. De nuevo, aquı́ las probabilidades son cantidades de
interés que no pueden ser observadas; lo que se puede observar es el
resultado en una muestra de pacientes, entendiendo que cada paciente
recibirá uno de los dos tratamientos, por lo que el resultado de uno de
1
2 Bravo-Llatas-Pérez
los dos tratamientos es potencialmente observable, pero no es observado.

Como en todo modelo interpretativo, hay varias ventajas y desven-
tajas asociadas a la inferencia Bayesiana. Entre las ventajas se puede
destacar que, conceptualmente, los métodos Bayesianos son reconocidos
como una manera coherente de hacer inferencia; en contraste con los
métodos clásicos, donde los datos obtenidos de estudios observacionales
y/o experimentales son analizados con modelos que dependen del tipo
de datos con procedimientos de inferencia y decisión particulares para
cada caso. El análisis Bayesiano trata de una manera unificada la infer-
encia y la decisión, tomando en consideración la incertidumbre asociada
al modelo y a los parámetros, proporcionando de una vez las herramien-
tas para cuantificar esta incertidumbre. Por otra parte, el tratamiento
de las cantidades no observadas como variables aleatorias y el análi-
sis condicional, permiten naturalmente considerar modelos jerárquicos
o de variables latentes que son difı́ciles o imposibles de manejar con la
estadı́stica clásica. Entre las desventajas se pueden señalar que para re-
alizar la inferencia es necesario establecer una distribución previa sobre
las cantidades no observables, proponer una distribución de muestreo o
verosimilitud para las cantidades observables y soslayar la dificultad de
encontrar las varias integrales requeridas en el paradigma Bayesiano.
Ahora bien, las desventajas mencionadas han sido objeto de investi-
gaciones e intensos debates en los últimos 20 - 25 años que han resultado
en grandes avances; ası́, por ejemplo, los desarrollos tanto teóricos como
computacionales, de diversos métodos de simulación, potenciados por la
actual capacidad de cómputo de cualquier computadora personal, han
hecho posible estudiar distribuciones posteriores que eran prácticamente
imposibles de encontrar, lo que ha permitido su uso en diversas apli-
caciones en una variedad de campos como econometrı́a, epidemiologı́a
y ciencias ambientales. La inferencia Bayesiana basada en métodos de
simulación provee una descripción completa de todos los parámetros del
modelo propuesto y sus aplicaciones son cada vez más extendidas.
1.2. Análisis de datos Bayesiano

Siguiendo a [GCSR], el análisis de datos Bayesiano trata de encontrar
métodos prácticos para hacer inferencia usando modelos de probabili-
dad tanto de las cantidades que se observan como de las cantidades no
Introducción 3
observables que suelen ser las de interés. Para ello se consideran tres
pasos:
1. Establecer un modelo probabilı́stico completo para todas las can-

tidades observables y las no observables, esto es, establecer la dis-
tribución de probabilidad conjunta tanto de los que, de manera
clásica, se llaman parámetros del modelo, como para las cantidades
que pueden ser medidas y que se conocen como datos.
2. Condicionar la distribución de las cantidades no observadas, sobre

un conjunto de cantidades observables que han sido, valga la re-
dundancia, observadas. Esta distribución condicional se la conoce
como la distribución posterior. Encontrar e interpretar la informa-
ción que nos provee esta distribución es el objetivo fundamental
de este curso.
3. Evaluar el ajuste del modelo y las implicaciones de la distribución

posterior resultante.
Estos pasos se pueden iterar en la medida que se considera necesario

alterar o expandir el modelo. Esta manera algorı́tmica de obtener con-
clusiones sobre un fenómeno a partir de datos numéricos, puede parecer
una extrema simplificación de la inferencia estadı́stica; pero no hay que
engañarse, pues cada uno de los pasos requiere de una combinación de
conocimientos y decisiones. El modelaje estadı́stico es un arte que se
aprende con la práctica y como todo arte tiene su técnica y su lenguaje.
En la próxima sección se presenta parte del lenguaje, la notación y
algunos resultados de la teoria de probabilidad que se suponen conocidos
y pueden ser consultados en cualquier texto básico como el [DGS02].
1.3. Definiciones y notación general

1.3.1. Parámetros, datos y predicciones
Considérese el ejemplo 1.1.2. En este ejemplo hay dos tipos de canti-
dades no observables involucradas en una prueba clı́nica: no observables
(dependiente del modelo), como lo es la probabilidad de supervivencia
en cinco años de pacientes con cáncer tratados con una nueva droga,
y las potencialmente observables como lo pueden ser el posible resulta-

do de un tratamiento no recibido o el resultado en un paciente que no
participa en la prueba clı́nica.
En lo que sigue se usará la siguiente notación:
θ: Cantidades vectoriales no observables o parámetros poblaciona-

les de interés (i.e. Probabilidad de sobrevivencia a cada tratamien-
to)
y: Datos observados (i.e. Número de sobrevivientes y muertes en

cada grupo)
ỹ: Cantidad desconocida pero potencialmente observable (i.e. Re-

sultados de los pacientes bajo el otro tratamiento o resultados de
un nuevo paciente bajo tratamientos similares)
Aquı́ es necesario detenerse a considerar que los valores observados y =

(y1 , . . . , yn ) representan la medición de una (o varias) caracterı́stica(s)
de n unidades experimentales y de allı́ que a y se le llame resultados. En
el ejemplo 1.1.1, se pueden observar n consumidores escogiendo entre
K distintas marcas de una misma categorı́a en un supermercado o a
través de una encuesta o situación experimental. En este caso, yi = k
si el i-ésimo consumidor escogió la marca k, para k = 1, . . . , K. Por
supuesto los resultados pueden considerarse como aleatorios antes de
ser observados.
Ası́ mismo, es posible que para cada unidad se disponga de observa-
ciones no aleatorias, por ejemplo la edad y condición previa de salud
de un paciente o los atributos de empaque o precio para cada marca
que puede ser escogida por un consumidor. Estas variables pueden ser
usadas para “explicar” los resultados y de allı́ el nombre de variables
explicativas, también conocidas como covariables. Usualmente se deno-
tará con X a la matriz de covariables, de dimensión n × p donde n es el
número de unidades observadas y p es el número de covariables.
Las conclusiones de un análisis de datos Bayesiano vienen expresadas
en términos de probabilidad, y más especı́ficamente, en términos de pro-
babilidad condicional en los datos observados, por lo cual es necesario
establecer la notación que será usada.
Introducción 5
1.3.2. Notación de probabilidad

En este texto, se usará p para denotar indistintamente una función
de probabilidad o una densidad de probabilidad, para variables discretas
o continuas. p(·|·) denota la densidad condicional de las variables del
primer argumento con respecto al segundo, mientras que p(·) denota la
distribución marginal del argumento, esto es:
p(w, z)
p(w|z) = (1.1)
p(z)
Z
p(z) = p(w, z)dw (1.2)
Para referirse a la probabilidad de un evento en particular, por ejemplo

el evento {θ ≤ 1}, se escribirá Pr(θ ≤ 1), mientras que si se supone que la
variable θ tiene una distribución estándar, como la distribución normal
con media µ y varianza σ 2 , se escribirá θ ∼ N (µ, σ 2 ), o p(θ|µ, σ 2 ) =
N (θ|µ, σ 2 ) si es necesario aclarar el contexto.
Una suposición tácita en la mayorı́a de los análisis de datos es que los
n valores observados son intercambiables, esto es que la distribución de
probabilidades conjunta p(y1 , y2 , . . . , yn ) es invariante a permutaciones
en los ı́ndices yi . En particular, esta propiedad se cumple cuando se
puede suponer independencia entre los resultados de las n unidades (el
recı́proco puede no ser cierto).
1.3.3. Teorema de Bayes

Sea p(θ, y) la distribución conjunta de θ y y. En general se puede
escribir p(θ, y) como p(θ) × p(y|θ), con p(θ) una distribución a la que se
llamará de aqui en adelante distribución previa o a priori de θ y p(y|θ),
la distribución condicional de y dado θ, o distribución de muestreo. La
regla o teorema de Bayes establece que la distribución posterior o a
posteriori de θ condicionada sobre los valores conocidos de los datos, y,
viene dada por:
p(θ, y) p(θ)p(y|θ)
p(θ|y) = = (1.3)
p(y) p(y)
donde:
P
p(y) = θ p(θ)p(y|θ) (suma sobre todos los posibles valores de θ)
(caso θ discreto).
R
p(y) = p(θ)p(y|θ)dθ (caso θ contı́nuo).
Para un y fijo, frecuentemente se escribirá p(θ|y) ∝ p(θ)p(y|θ), donde

el simbolo “∝” se lee “proporcional a”. El lado derecho de la ecuación
anterior corresponde a la densidad posterior no normalizada.
En estas expresiones se evidencia la metodologı́a de las técnicas Baye-
sianas: la primera tarea es desarrollar un modelo para p(θ, y), escribiendo
un modelo muestral p(y|θ), y definiendo una distribución previa para θ,
p(θ). La segunda tarea es realizar los cálculos necesarios para resumir
p(θ|y) de forma apropiada.
Ejemplo 1.3.1. Modelo binomial simple: Se desea estimar la proba-
bilidad, θ, de un evento, a partir del resultado de una sucesión de n
ensayos Bernoulli, esto es, datos y1 , y2 , . . . , yn que son iguales a uno si
ocurre el evento (éxito) y cero si no ocurre. Sea y el número total de
exitos en la muestra de n ensayos. En este caso, el modelo muestral
establece que:

n
p(y|θ) = Bin(y|n, θ) = θy (1 − θ)n−y . (1.4)
y
Suponiendo que p(θ) es uniforme en el intervalo [0, 1] se tiene que:
p(θ|y) ∝ θy (1 − θ)n−y (1.5)
o lo que es lo mismo, la distribución no normalizada tiene un kernel

equivalente a la de una distribución Beta, es decir:
θ|y ∼ Beta(y + 1, n − y + 1)
1.4. Principio de verosimilitud

En el caso en que y se conozca o se considere fijo, p(y|θ), como función
de θ, se lo conoce como la función de verosimilitud .
La inferencia Bayesiana obedece el principio de verosimilitud, es decir,
para una muestra de datos, dos modelos p(y|θ) con la misma función
de verosimilitud producen la misma inferencia sobre θ, o dicho de otra
manera, que la función de verosimilitud contiene toda la información
relevante que aportan los datos. Usar el principio de verosimilitud es
aceptar que la inferencia está condicionada en los datos observados, pues
Introducción 7
la verosimilitud está parametrizada por los datos. Esto contrasta con la

inferencia basada en las distribuciones de muestreo, donde se considera
un estimador θ̂ = f (y), el cual, de acuerdo con el tipo de experimento
de muestreo, tiene una distribución muestral que resume las propiedades
del estimador previo a la observación de los datos y por tanto, irrelevante
para hacer inferencias luego que se han observado los datos.
Razón de probabilidades (Odds Ratio)
En algunas aplicaciones es natural considerar el Odds Ratio o Razón de

Probabilidades o Razón de Productos Cruzados definido como el cociente
de las densidades posteriores evaluadas en los puntos θ1 y θ2 bajo un
modelo dado. Usualmente el concepto se aplica a parámetros discretos
donde θ1 es el complemento de θ2 . Lo interesante es que la regla de
Bayes da como resultado que la razón de probabilidades posteriores es
equivalente al producto de la razón de distribuciones a priori y la razón
de verosimilitudes, esto es:
p(θ1 |y) p(θ1 )p(y|θ1 )/p(y) p(θ1 ) p(y|θ1 )

= = (1.6)
p(θ2 |y) p(θ2 )p(y|θ2 )/p(y) p(θ2 ) p(y|θ2 )
1.5. Predicción
Una de las ventajas de los métodos Bayesianos es que todas las can-
tidades desconocidas son tratadas igual:como variables aleatorias con
distribución de probabilidad. Ası́, el problema de predecir una nueva ob-
servación se puede pensar como el hacer inferencia sobre una cantidad
observable pero desconocida, por lo que predecir una nueva observación
puede pensarse como realizar una inferencia predictiva. Si y es descono-
cida pero observable:
Z Z
p(y) = p(y, θ)dθ = p(θ)p(y|θ)dθ (1.7)
Esta es la distribución marginal de y o distribución predictiva a priori

(pues es una distribución a priori porque no está condicionada a una
observación previa del proceso; es una distribución predictiva porque es
la distribución de una cantidad observable).
Después de que y ha sido observada, se puede predecir una cantidad

desconocida ỹ observable, considerando la distribución predictiva poste-
rior, que se encuentra sustituyendo en la ecuación 1.7 a p(θ) por p(θ|y).
Ejemplo 1.5.1. Sea y = (y1 , y2 , . . . , yn ) los registros del peso de un objeto
medido n veces. Sea θ = (µ, σ 2 ) el peso verdadero y la varianza de
medición del peso respectivamente. Sea ỹ el peso del objeto para una
nueva pesada
La distribución predictiva a posteriori es:
Z
p(ỹ|y) = p(ỹ, θ|y)dθ (1.8)
Z
= p(ỹ|θ, y)p(θ|y)dθ
Z
= p(ỹ|θ)p(θ|y)dθ
Aqui se supone que ỹ y y son independientes.
1.6. Resultados útiles de teorı́a de probabili-

dades
A continuación se presentan, sin prueba, algunos resultados que serán
usados en el resto del texto.
Factorización de una densidad conjunta:
p(u, v, w) = p(u|v, w) p(v|w) p(w) (1.9)
Medias y varianzas de distribuciones condicionales:
E(u) = E(E(u|v)) (1.10)
var(u) = E(var(u|v)) + var(E(u|v)) (1.11)
Ambas identidades son válidas si u es un vector. En este caso E(u)

es un vector y var(u) es una matriz.
Introducción 9
Transformación de variables:
Si pu (u) es una distribución continua del vector u y v = f (u) es
una transformación uno a uno, entonces la densidad conjunta del
vector transformado es:
pv (v) = |J|pu (f −1 (v))
donde |J| es el determinante del Jacobiano de la transformación
u = f −1 (v) como una función de v. (El elemento (i, j)-ésimo de J
∂vi
viene dado por ∂u j
)
Algunas transformaciones usuales en una dimensión son las si-
guientes:
• Transformación logarı́tmica: (0, ∞) → (−∞, +∞), v = log(u)

• Transformación
logı́stica: (0, 1) → (−∞, +∞), v = logit(u) =
u
log 1−u
• Transformación probit: (0, 1) → (−∞, +∞), v = Φ−1 (u)
donde Φ es la función de distribución para una variable aleato-
ria normal estándar.
Ejemplo 1.6.1. Sea X de dimensión 2 con X = (Y, Z)0 donde Y y Z son

escalares.
La función de densidad de X viene dada por:
1 1
f (x) = f (y, z) = 2
exp{− 2 [(y − θy )2 + (z − θz )2 ]}
2πσ 2σ
−∞ < y < ∞, −∞ < z < ∞
⇒ X ∼ N ((θy , θz ), σ 2 I)
Considerese la transformación:
Y = log U
Z = log V
Por teorema de la transformación, la densidad g(u, v) vienen dada por
la ecuación:
g(u, v) = f (y(u, v), z(u, v)) |J((y, z) → (u, v))|
1 1
= 2
exp{− 2 [(log u − θy )2 + (log v − θz )2 ]}
2πσ 2σ
× |J((y, z) → (u, v))|
∂y ∂y

J(u, v) = ∂u
∂z
∂v
∂z
∂u ∂v
1 0

= u = 1
0 v1 u.v
1 1
⇒ g(u, v) = 2
exp{− 2 [(log u − θy )2 + (log v − θz )2 ]}
2πσ uv 2σ
0<u<∞ 0<v<∞
1.7. Uso de la simulación para la inferencia

La simulación es fundamental en el análisis Bayesiano. A partir de
la década de los años 1990, se ha popularizado el uso de métodos de
simulación que permiten obtener muestras de la distribución posterior
conjunta para los parámetros sin conocer su forma exacta, evitando ası́ la
necesidad de resolver las integrales múltiples en dimensiones altas que
pueden aparecer en problemas complejos de modelización.
Las técnicas de simulación permiten estimar caracterı́sticas de las dis-
tribuciones posteriores con una muestra obtenida a través de la genera-
ción de números pseudo-aleatorios en un computador. Estas caracterı́s-
ticas, como por ejemplo, la media, percentiles y varianza, covariazas y
otras, sirven para interpretar muchos aspectos de la distribución.
El procedimiento se puede resumir en la realización la simulación de n
muestras de las cantidades desconocidas, usando para ello las distribu-
ciones a posteriori y predictivas a posteriori; en el paso i se generan
muestras de los parámetros y cantidades predictivas, obteniéndose un
arreglo de la forma:
Paso Parámetros Cantidades Predictivas

simulación θ1 , . . . , θ k ỹ1 , . . . , ỹn
1 θ11 , . . . , θk1 ỹ11 , . . . , ỹn1
.. .. ..
. . .
L θ1L , . . . , θkL ỹ1L , . . . , ỹnL
Con los valores simulados se puede estimar:

Introducción 11
La distribución posterior de funciones de los parámetros, por ejem-

plo, de θ1 /θ3 ;
Pr(ỹ1 + ỹ2 > exp(θ1 ));
El intervalo a posteriori del 95 % para el parámetro θj ;
etc.
Existen diversos procedimientos para obtener muestras a partir de
una distribución de probabilidad. Una referencia muy completa es el
libro de J. Devroye [Dev], el cual puede obtenerse en la página web
http://cg.scs.carleton.ca/ luc/rnbookindex.html
Uno de los métodos más sencillos y fundamentales para obtener mues-
tras a partir de una distribución de probabilidad dada es el siguiente:
Suponga que V es una variable aleatoria con función de distribución
acumulada (cdf) F que se supone continua y sea W = F (V ). Esta
transformación de V a W es conocida como transformación acumulada
de probabilidad, y es fácil ver que la distribución de W es uniforme en el
intervalo (0, 1).
De este resultado se deriva que un procedimiento para obtener una
muestra aleatoria con distribución de probabilidad F es el siguiente:
1. Generar un valor aleatorio u de una distribución uniforme (0, 1),
2. Obtener v = F −1 (u) donde v es una muestra de una variable con

distribución F .
En general, el primer paso de este algoritmo se realiza usando procedi-

mientos ya incorporados en diferentes programas o sistemas operativos.
Para mayor información sobre el problema de generación de variables
pseudoaleatorias con distribución uniforme, puede consultar el segundo
volumen de [Kn].
En el capı́tulo 3 se presentarán otros métodos para obtener muestras
simuladas de distribuciones posteriores.
1.8. Distribuciones previas conjugadas

Antes del boom de los métodos de simulación, la mayorı́a de las apli-
caciones se apoyaban fuertemente en modelos en los que fuera posible
encontrar expresiones analı́ticas cerradas para cantidades de interés, co-

mo los momentos de primer y segundo orden de la distribución pos-
terior. Este requerimiento impone restricciones tanto a las familias de
verosimilitudes que se pueden proponer como a las familias de distribu-
ciones previas.
Una manera de cumplir con estos requerimientos es considerar, para
una verosimilitud dada, distribuciones previas conjugadas, esto es, una
previa tal que al combinarla (conjugarla) con la verosimilitud, la pos-
terior resultante pertenece a la misma familia de distribuciones que la
previa, y de alli el rol fundamental que juega la forma de la verosimilitud
en la existencia o no de previas conjugadas.
Un poco más formalmente, si F es una clase de distribuciones mues-
trales p(y|θ) y P es una clase de distribuciones previas para θ, entonces
la clase P es conjugada para F si p(θ|y) ∈ P para todo p(·|θ) ∈ F y
p(·) ∈ P. Si P se define como el conjunto de todas las densidades que
tienen la misma forma funcional que la verosimitud, entonces se habla
de familias previas conjugadas naturales.
Un resultado importante es que para las verosimilitudes en la familia
exponencial siempre es posible encontrar previas conjugadas, (ver [DY]);
esto es para verosimitudes de la forma:
 
X k  n
X
n
p(y|θ) ∝ g(θ) exp cj φj (θ)h̄j (y) , h̄j = hj (yi ). (1.12)
 
j=1 i=1
La familia exponencial posee la propiedad de existencia de un es-

tadı́stico suficiente, de la misma dimensión que el espacio de parámetros,
de hecho, {h̄1 , . . . , h̄n } es un conjunto de estadı́sticos suficientes. Esto
hace que una distribución previa de la forma
 
X k 
p(θ|τ ) ∝ g(θ)τ0 exp cj φj (θ)τj
 
j=1
donde τ0 , τ1 , . . . , τk son los hiperparámetros previos, produzca una dis-

tribución posterior de la misma forma con parámetros τ0∗ = n + τ0 ,
τ1∗ = τ1 + h̄1 , . . . , τk + h̄k
Como las formas de la verosimilitud y de la previa son iguales, esta
última puede interpretarse como la distribución posterior de otro con-
junto de datos con τ0 observaciones. Por esta razón, algunos autores
Introducción 13
llaman a τ0 el tamaño de muestra equivalente. Este razonamiento puede

ser útil al momento de elicitar una previa conjugada, pues determina con
cuanta precisión se conoce la información que se suministra mediante la
previa.
Ejemplo 1.8.1. Considere el modelo de probabilidad Poisson p(y|θ), esto
es una variable discreta, y que toma valores {0, 1, . . . }, con probabilidad
de que y = k, igual a exp(−θ)θk /k!.
Si se obtienen n observaciones, y1 , . . . , yn , y se asume independencia,
la verosimilitud estará dada por
( n )
X
p(y|θ) ∝ exp{−nθ} exp ( yi log(θ)
i=1
Examinando la forma de esta función es fácil ver que una distribución

con función de densidad proporcional a exp{−θτ0 } exp{τ1 log(θ)} es una
distribución conjugada, y en particular, haciendo τ0 = β, τ1 = α − 1
se puede reconocer como distribución previa a una distribución Gam-
ma, con parámetros α, β. Consecuentemente, la distribución posterior
es también una Gamma con parámetros α∗ = α + yi y β ∗ = β + n.
P
1.9. Análisis Bayesiano objetivo

Una de las principales crı́ticas que muchos estadı́sticos hacen al paradig-
ma Bayesiano es la subjetividad intrı́nseca asociada a la selección de la
previa. Los defensores del enfoque Bayesiano afirman que, en realidad, la
objetividad de cualquier análisis estadı́stico puede estar en entredicho,
ya que cualquier análisis estadı́stico involucra decisiones subjetivas en la
selección del modelo y en el análisis de los resultados. Sin embargo, es
claro que, usando el enfoque Bayesiano, dos investigadores que tengan
los mismos datos pueden obtener resultados diferentes a partir de previas
distintas (de la misma manera que un médico general y un especialista
pueden llegar a diferentes diagnósticos a partir del mismo conjunto de
sı́ntomas).
Existen, sin embargo, situaciones en las cuales no se dispone de infor-
mación previa, o no se desea usar con el fin de garantizar la reproducibi-
lidad de los resultados. Para que ésto sea posible, serı́a necesario llegar
a acuerdos sobre mecanismos “automáticos”para elegir previas, en los
cuales no se incorpore conocimiento a priori sobre los parámetros. Esta

es una estrategia cuya historia se remonta a Bayes y Laplace, como se
verá más adelante, y que (pese a las crı́ticas de muchos Bayesianos), es
la estrategia más empleada (con algunas variaciones) en la mayor parte
de las aplicaciones.
Históricamente, estas previas se han denominado previas no informa-
tivas. Hoy en dı́a, existe un amplio acuerdo en que esta denominación no
es conveniente, ya que una única previa siempre contendrá información
de algún tipo sobre los parámetros. Por lo tanto, recientemente muchos
autores han denominado a este tipo de previas “objetivas” (término que
será usado en este trabajo) o “automáticas”.
En cualquier caso, la caracterı́stica común a todos los procedimien-
tos que serán usados a continuación es que el cálculo o la selección
de la distribución previa no requiere de conocimiento previo sobre los
parámetros, evitando el paso (frecuentemente difı́cil) de traducir dicho
conocimiento en una distribución de probabilidad.
Para entender un poco mejor el contexto en el cual se trabajará en
esta sección, hay que revisar dos interpretaciones de la distribución a
priori:
Interpretación poblacional: En este caso se supone que la distribu-

ción representa a una población de posibles valores del parámetro
θ de la cual se ha muestreado el valor de interés para θ.
Interpretación subjetiva: Aquı́ se supone que la distribución expre-

sa el conocimiento e incertidumbre que sobre θ se tiene, como si
fuera una realización aleatoria de la distribución previa.
Las ecuaciónes 1.10 y 1.11 se pueden en este contexto escribir como:
E(θ) = E(E(θ|y))
var(θ) = E(var(θ|y)) + var(E(θ|y))
lo que implica, por una parte, que la distribución posterior está centrada,
en promedio, en la media de la distribución previa y por otra parte, que
la varianza posterior es, en promedio, menor que la varianza previa. En
algunos casos, como en el estudio de un proceso industrial en el que
se repiten las actividades de manera controlada, hay mucha información
Introducción 15
previa lo que permite establecer una distribución previa informativa pero

no subjetiva.
Históricamente, se han desarrollado diferentes enfoques para la selec-
ción de previas objetivas. En [LRP] se señala que Bayes y Laplace, los
primeros autores en realizar un análisis Bayesiano, sugirieron usar una
distribución imparcial sobre los valores de los parámetros. De allı́ que
el postulado original, conocido como Principio de la razón insuficiente
de Laplace, fuera tomar como medida a priori la distribución uniforme.
Este postulado presenta al menos estos inconvenientes ([LRP], p. 80):
Si un investigador supone que p(θ) = 1 y otro pa-

rametriza su problema en términos del parámetro ν =
exp(θ) y supone que p∗ (ν) = 1, los resultados a que
llegan ambos con los mismos datos y verosimilitud son
inconsistentes a pesar de que la transformación es uno-
uno. La razón es que por la fórmula del cambio de va-
riables, si p(θ) = 1,
p∗ (ν) = p(log ν)/ν = 1/ν
Entonces, según el postulado de Bayes-Laplace, el primer

investigador es “no informativo” respecto de θ pero no
respecto de ν = exp(θ).
Si el espacio de parámetros es no acotado, entonces
p(θ) = 1 no integra uno, es decir, es impropia.
Para soslayar el primer inconveniente Jeffreys (ver [Jef]) propone lo

que se conoce como el principio de invariancia de Jeffreys que se basa
en considerar transformaciones 1-1 del parámetro: φ = h(θ). En tal caso,
una densidad previa sobre θ induce una densidad previa sobre φ

dθ
p(φ) = p(θ) = p(θ)|h0 (θ)|−1
dφ
El principio general de Jeffreys establece que cada regla para determi-
nar una previa p(θ) debe generar un resultado equivalente si es aplicada
al parámetro transformado φ. Esto quiere decir que si se calcula p(φ) con
la ecuación anterior a partir de p(θ), este resultado debe ser equivalente
al que se obtendrı́a determinando p(φ) directamente a partir del modelo
transformado p(y, φ) = p(φ)p(y|φ).
La elección de Jeffreys para una densidad previa objetiva es p(θ) ∝

[J(θ)]1/2 , donde J(θ) es la información de Fisher para θ:
" 2 # 2
d log p(y|θ) d log p(y|θ)
J(θ) = E θ = −E θ . (1.13)

dθ dθ2
Esta elección es invariante bajo parametrizaciones: Para ver esto, eva-

luando J(φ) en θ = h−1 (φ) se obtiene:
2
d log p(y|φ)
J(φ) = −E
dφ2
" #
d2 log p(y|θ = h−1 (φ)) dθ 2
= −E
dθ2 dφ
2
dθ
= J(θ)
dφ

dθ
y por tanto J(φ)1/2 = J(θ)1/2 dφ .
El principio de Jeffreys puede extenderse a modelos multiparamétri-
cos, pero los resultados son más controversiales, ya que estos dependen,
en general, de las suposiciones de independencia que se hagan sobre los
distintos parámetros. Las previas de referencia (ver, por ejemplo, [Bern],
[BergBern]) han sido desarrolladas para resolver este tipo de problemas.
Para algunos modelos uniparamétricos, como por ejemplo el modelo
binomial (ver ejemplo 1.3.1), diferentes principios proporcionan diferen-
tes previas objetivas (ver ejemplo 1.9.1). Sin embargo, para modelos
donde los parámetros son de localización y escala todos los enfoques
coinciden:
1. Parámetros de localización: Si p(y − θ|θ) = f (u), donde u = y − θ

diremos que u = y − θ es un pivote y que θ es un parámetro de lo-
calización. En este caso, es razonable que una previa objetiva diera
como resultado f (u) para la posterior p(y − θ|y). Esto implica que
para la distribución a posteriori, u = y −θ también es una cantidad
pivotal. Por lo tanto, p(y − θ|y) ∝ p(θ)p(y − θ|θ) ⇒ p(θ) ∝ cte en
el intervalo (−∞, ∞). Esto implica que la densidad a priori no-
informativa es uniforme en θ.
Introducción 17
2. Parámetros de escala: Si la densidad de y es tal que p(y/θ|θ) =

g(u), donde u = y/θ, entonces u = y/θ es un pivote y θ es un
parámetro de escala. En tal caso, es razonable que una previa no
informativa diera como resultado de la posterior p(y/θ|y) una fun-
ción g(u) con u = y/θ. Transformando variables,

du
p(y|θ) = p(u|θ) (1.14)
dy
1
= p(u|θ)
θ
y en forma similar,

du
p(θ|y) = p(u|y) (1.15)
dθ
y
= p(u|y)
θ2
Haciendo p(u|θ) = p(u|y) = g(u), llegamos a que la previa de
referencia debe ser p(θ) ∝ 1/θ ó, en forma equivalente: p(log θ) ∝ 1,
ó p(θ2 ) ∝ 1/θ2 .
Este enfoque basado en pivotes puede ser usado en casos más comple-
jos aplicado a estadı́sticos suficientes.
Ejemplo 1.9.1. Previas objetivas para la distribución binomial
Si y ∼ Bin(n, θ), su log-verosimilitud es
log p(y|θ) = cte. + y log θ + (n − y) log(1 − θ)
La información de Fisher en este caso es

n
J(θ) =
θ(1 − θ)
−1/2 (1 − θ)−1/2 , que corres-
por tanto, p(θ) ∝ θ
y la previa de Jeffreys es,
1 1
ponde a una Beta 2 , 2 .
Otra posibilidad es tomar la previa de Bayes-Laplace p(θ) ∝ 1 (uni-
forme, ó θ ∼ Beta(1, 1)).
Por otro lado, puede tomarse la densidad que es uniforme en el pa-
rámetro natural de la familia exponencial, es decir p(logit(θ)) ∝ cte., la
cual corresponde a la previa impropia Beta(0, 0).
En la práctica, la diferencia entre estas alternativas es, en general,

pequeña, pero se debe ser cuidadoso con la previa impropia Beta(0, 0),
ya que lleva a posteriores impropias cuando y = 0 ó n.
Los casos aquı́ mencionados son sólo una pequeña parte de las varie-
dades de previas objetivas desarrolladas, y la discusión se ha limitado
al problema de estimación de parámetros. Es necesario, sin embargo,
destacar que el análisis Bayesiano objetivo no está exento de contro-
versias, aún dentro de la comunidad Bayesiana. Para una presentación
reciente sobre la filosofı́a, historia y utilidad del análisis Bayesiano ob-
jetivo, ası́ como argumentos a favor y en contra de su uso, puede verse
[Ber] y su discusión.
Capı́tulo 2
Modelos uniparamétricos y
multiparamétricos
En este capı́tulo se presenta una discusión un poco mas detallada del

análisis de datos e inferencia en la estadı́stica Bayesiana que, como se
ha comentado, se realiza a través de la propuesta de un modelo que
considera la verosimilitud de las cantidades observadas y la distribución
previa de los parámetros.
La sección 2.1 está dedicada a los modelos estadı́sticos que están de-
terminados únicamente por un parámetro. La sección 2.2 contiene resul-
tados para los modelos multiparamétricos mas relevantes en la literatura
aplicada, separados de los modelos que usan información contenida en
covariables o variables explicativas, que se presentan en la sección 2.3 y
en la sección 2.4. La sección 2.5 se dedicará completamente a estudiar
los modelos jerárquicos. En la sección 2.6 se presentan algunos ejemplos.
2.1. Modelos uniparamétricos

2.1.1. Modelo binomial
El objetivo es estimar la proporción desconocida de un conjunto de
pruebas Bernoulli, donde los datos y1 , . . . , yn son una secuencia de 0’s y
1’s. Esta es una secuencia de n ocurrencias intercambiables, donde cada
ocurrencia tiene dos posibilidades: éxito o fracaso.
19
Ejemplo 2.1.1. Se desea estimar la probabilidad que nazca una niña, en

una población de madres sanas. Sea θ = Proporción de éxitos en una
población o la probabilidad de éxito en cada ocurrencia. Entonces

n
p(y/θ) = θy (1 − θ)n−y ,
y
donde y es la cantidad de éxitos. Si θ es la proporción de nacimientos fe-

meninos, φ = (1−θ)/(θ) es el cociente entre la proporción de nacimientos
masculinos y femeninos.
De acuerdo con los pasos de la inferencia Bayesiana, es necesario es-

pecificar una distribución previa para θ y encontrar la densidad posterior
de θ. Si por ejemplo se especifica θ ∼ U (0, 1), se obtiene, como densidad
posterior no normalizada:
p(θ|y) ∝ θy (1 − θ)n−y
De esta ecuación es fácil ver que θ|y ∼ Beta(y + 1, n − y + 1). También es

fácil ver que la familia de distribuciones Beta, es conjugada con respecto
a la verosimilitud; partiendo de una previa p(θ) ∼ Beta(α, β), se obtiene
como distribución posterior p(θ|y) ∼ Beta(α + y, β + n − y).1
Con estos resultados se pueden obtener los momentos de la distribu-
ción posterior, como:
α+y
E(θ|y) = (2.1)
α+β+n
(α + y)(β + n − y)
var(θ)|y) = (2.2)
α + β + n)2 (α + β + n + 1)
E(θ|y)[1 − E(θ|y)]
=
α+β+n+1
1
La U (0, 1) es equivalente a una Beta(1, 1).
Modelos 21
Predicción
Sea ỹ el resultado de una nueva ocurrencia, intercambiable con las
primeras n,
Z 1
p(ỹ = 1|y) = p(ỹ = 1|θ, y)p(θ|y)dθ
0
Z 1
= θp(θ|y)dθ
0
= E(θ|y) (2.3)
De esta manera si la distribución previa es una Beta(α, β),

α+y
E(θ|y) = ,
β+α+n
por lo que la probabilidad de obtener un exito en el próximo ensayo
Bernoull es un promedio ponderado entre la media muestral y el valor
esperado de la previa.
Ejemplo 2.1.2. En este ejemplo se considera la estimación de la proba-
bilidad de que nazca una hembra dada la condición de placenta previa
(Ejemplo 2.5 del [GCSR])
En un estudio inicial llevado a cabo en Alemania, se encontró que de
un total de 980 nacimientos con la condición de placenta previa, 437
eran niñas.
¿Cuánta evidencia proporcionan estos datos sobre la hipótesis de que
la proporción de nacimientos hembras en la población de placenta previa
es menor que la proporción 0.485 de hembras en la población general?.
En este caso el modelo natural para y, el número de nacimientos niña
con la condición de placenta previa, de una muestra de nacimientos con
esa condición, es el modelo Binomial,
p(y|θ) ∝ θy (1 − θ)n−y
y al igual que en el ejemplo 1.3.1, si se usa una distribución inicial U(0,1)

la distribución posterior de θ, la proporción de nacimientos hembras con
la condición de placenta previa, es Beta(θ|y+1, n−y) = Beta(θ|438, 544).
Haciendo uso del programa estadı́stico R, se puede fácilmente calcular
la media a posteriori, desviación estándar, mediana y cuantiles del 2.5 %
y 97.5 % de probabilidad:
> 438/(438+544)
[1] 0.4460285
> sqrt(438*544/((438+544)^2*(438+544+1)))
[1] 0.01585434
> qbeta(0.5,438,544)
[1] 0.4459919
> qbeta(0.025,438,544)
[1] 0.4150655
> qbeta(0.975,438,544)
[1] 0.4771998
Con esto, nos queda que el intervalo central del 95 % de probabilidad

a posteriori es: [0,415, 0,477]. Nótese que este intervalo no contiene a la
proporción de niñas en la población, con lo que se puede inferir que la
proporción de placenta previa en nacimientos hembras es menor que la
proporción poblacional.
2.1.2. Modelo Poisson

Este es el modelo natural cuando los datos se refieren a conteos, siendo
uno de los modelos más usados en el área de epidemiologı́a. El parámetro
θ representa la tasa de ocurrencia del evento, que es un parámetro dimen-
sional, en el sentido que representa ocurrencias por unidad de medida,
por ejemplo, número de enfermos por cada 100 habitantes, o número
de árboles por kilómetro cuadrado. Para un vector de n observaciones,
y = (y1 , . . . , yn ), independientes, la verosimilitud es
n
Y 1 yi −θ
p(y|θ) = θ e (2.4)
yi !
i=1
t(y) −nθ
∝ θ e
con t(y) = ni=1 yi , el estadı́stico suficiente.

P
De acuerdo con lo planteado en el ejemplo 1.8.1, usando una distribu-

ción Gamma(α, β) como distribución previa se puede realizar un análisis
conjugado, resultando como distribución posterior Gamma(α + t(y), β +
n).
Un resultado interesante es cuando se usa la ecuación 1.7 para encon-
trar la distribución predictiva en el modelo con una sola observación,
Modelos 23
puesto que en este caso:
Γ(α + y)β α
p(y) =
Γ(α)y!(1 + β)α+y
que también puede escribirse como:

α y
α+y−1 β 1
p(y) = ,
y β+1 β+1
que corresponde a la distribución binomial negativa Bin-neg(y|α, β).

La derivación anterior demuestra que la distribución binomial negativa
es la distribución marginal de una variable aleatoria Poisson cuando el
parámetro θ (la tasa) tiene una distribución a priori Gamma(α, β). Esto
puede expresarse de la siguiente forma:
Z
Bin-neg(y|α, β) ∼ Poisson(y|θ) Gamma(θ|α, β)dθ
Esto también implica que la distribución Binomial Negativa es una

distribución de mezcla continua de una distribución Poisson con dis-
tribución Gamma para el parámetro de tasa de mezcla.
Modelos Poisson en función de la tasa y la exposición

En aplicaciones puede no ser razonable suponer una tasa común para
todas las observaciones, por ejemplo, en epidemiologı́a es frecuente que
el número de casos esperados sea el producto de la tasa θ y un valor Ei
que equivale a la exposición, lo que se puede modelar como:
yi ∼ Poisson(µi )
µi = Ei θi
de manera que, cuando se supone Ei conocido, θi es la proporción de

personas afectadas, que es el parámetro de interés. Usando una previa
Gamma θi ∼ Gamma(α, β), la distribución posterior de θ = (θ1 , . . . , θn ),
será proporcional a
" n #
yi
Y
exp(−Ei θi )θi θiα−1 exp(−βθi )
i=1
con lo que la densidad posterior para cada θi es Gamma(α + yi , β + Ei ).

Si se considera en el modelo una única tasa, es decir que θi = θ, para
todo i, queda que la distribución posterior corresponde a
n
X n
X
θ|y ∼ Gamma(α + yi , β + xi )
i=1 i=1
Ejemplo 2.1.3. Ejemplo hipotético: Tasa de incidencia de malaria en el

municipio Cajigal del Estado Sucre.
Se desea estudiar la tasa de incidencia de malaria en el municipio
Cajigal del estado Sucre. Se observa por ejemplo que en el año 2001
se registraron 500 casos de la enfermedad en este municipio de 20.000
personas (250 casos por cada 10.000 personas en promedio por año).
Si se usa una distribución de muestreo Poisson para y, el número de
casos en un municipio de 20.000 habitantes en un año, la distribución de
muestreo puede expresarse como una Poisson (2,0θ), donde θ es la ver-
dadera tasa de incidencia de la enfermedad a largo plazo en el municipio
por cada 10.000 habitantes.
Considerando opinión de expertos, se tiene un conocimiento a priori
que se espera una valor de θ de alrededor de 10, se usa una distribución
previa para θ= Gamma(5.0,0.5) la cual tiene media igual a 10. La dis-
tribución posteriori resultante es una Gamma(505.0,2.5) con una media
de 204.
Esta distribución se actualiza luego de que se dispone de observaciones
adicionales. Suponiendo que la población no cambia en 5 años (20.000
habitantes), se observan 1.500 casos en 5 años. En este caso la distribu-
ción de muestreo es una Poisson(10.0θ), y la distribución posterior para
θ es Gamma(1505.0,10.5) con media 143.
En la figura 2.1 se presentan los histograma de muestras de la dis-
tribución previa, y distribuciones posteriores, producidos con el siguiente
programa en el lenguaje R2 :
> # Ejemplo sobre incidencia de malaria en el estado Sucre
> # Ejemplo Modelo Poisson
> ##############################
> # Previa \theta ~ Gamma(5,0.5)
> theta.prior=rgamma(1000,5,scale=2)
2
Observación: La parametrización de la distribución Gamma en R y la usada en
este texto difieren en el parámetro de escala
Modelos 25
Figura 2.1: Histograma de la distribución previa para θ; histograma de

la distribución posterior para θ dadas y = 500 casos en 20.000 personas;
histograma de la distribución a posteriori para θ dadas y = 1,500 en 5
años con una población constante de 20.000 habitantes
> summary(theta.prior)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.9695 6.6940 9.3570 9.9680 12.3700 32.9500
> # D. a posteriori \theta ~ Gamma(505,2.5)
> theta.posterior=rgamma(1000,510,scale=2/5)
> summary(theta.posterior)
180.5 198.4 203.7 203.9 209.8 230.1
> length(theta.posterior[(theta.posterior>150)])/1000
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> [1] 1
> # D. a posterior con mas datos \theta ~Gamma(1505,10.5)
> theta.posterior.2=rgamma(1000,1505,scale=2/21)
> summary(theta.posterior.2)
132.5 141.2 143.6 143.6 146.1 157.6
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> length(theta.posterior.2[(theta.posterior.2>150)])/1000
> [1] 0.034
> par(mfrow=c(3,1),bty=’n’)
> hist(theta.prior,xlab="theta",ylab="",main="Previa",
+ xlim=c(0.0,250.0))
> hist(theta.posterior,xlab="theta",ylab="",main="Distribucion
+ posterior I", xlim=c(0.0,250.0))
> hist(theta.posterior.2,xlab="theta",ylab="",main="Distribucion
+ posterior II", xlim=c(0.0,250.0))
2.1.3. Modelo exponencial

Este es el modelo mas sencillo para los tiempos de espera de la ocurren-
cia de algún evento, como por ejemplo, el tiempo para que se presente
una falla de un equipo, en sistemas que pueden pensarse “sin memoria”.
La verosimilitud para una observación es:
p(y|θ) = θ exp(−yθ) y > 0
donde θ es igual a 1/E(y|θ). Nótese que la distribución exponencial de

parámetro θ es igual a la distribución Gamma(1,θ).
La propiedad que describe la falta de memoria es que
Pr(y > t + s|y > s, θ) = Pr(y > t|θ),
para todo t, o lo que es lo mismo, la tasa de peligro instantánea, h(y)

(en inglés hazard rate), es constante e igual a θ). 3
En este caso la distribución conjugada natural previa corresponde a
una Gamma(θ|α, β), con lo que la distribución posterior es una
Gamma(θ|α + 1, β + y).
Cuando se cuenta con n observaciones, cuyo promedio es ȳ, la verosi-
militud es
3 f (y)
(h(y) = 1−F (y)
para una función de distribución de probabilidad F , con densidad
f ).
Modelos 27
p(y|θ) = θn exp(−nȳθ)
y la distribución posterior queda como Gamma(n + α, nȳ + β).
2.1.4. Modelo normal (localización)

Este es el caso en que se desea encontrar la distribución posterior de
la media de una distribución de muestreo normal con varianza conocida.
Considere la verosimilitud para un solo dato y
2
1 1 (y−θ)
p(y|θ) = √ e− 2 σ2
2πσ
esto es, y ∼ N (θ, σ 2 ), σ 2 conocida.
Para la distribución previa considerese el tipo de distribuciones con-
2
jugadas a priori de la forma p(θ) = eAθ +Bθ+C , la cual puede parame-
trizarse como

1 2
p(θ) ∝ exp − 2 (θ − µo )
2τo
o dicho de otro manera,θ ∼ N (µo , τo2 ) con hiperparámetros µo y τo2 ,
ambos conocidos, con lo que se obtiene como distribución posterior:

1 2
p(θ|y) ∝ exp − 2 (θ − µ1 )
2τ1
donde
1
µ + σ12 y
τo2 o 1 1 1
µ1 = 1 ; = 2+ 2
τo2
+ σ12 τ12 τo σ
lo que implica que θ|y ∼ N (µ1 , τ12 ).

Como ya se ha visto en otros casos, la esperanza posterior µ1 , es un
promedio ponderado entre la media a priori y la observación y con pesos
proporcionales a las precisiones, es decir, al inverso de la varianza. Nótese
que si τo2 = 0 la distribución previa es más precisa que los datos y las
distribuciones a priori y a posteriori están concentradas en µo . Si σ 2 = 0
los datos son precisos y la distribución a posteriori está concentrada en
y.
Para encontrar la distribución predictiva a posteriori se procede por

definición a realizar los siguientes cálculos:
Z
p(ỹ|y) = p(ỹ|θ, y) p(θ|y) dθ
Z
= p(ỹ|θ) p(θ|y) dθ
Z
1 2 1 2
∝ exp − 2 (ỹ − θ) exp − 2 (θ − µ1 ) dθ
2σ 2τ1
El producto en el integrando es la exponencial de una función cuadrática
de (ỹ, θ), por lo que ỹ y θ tienen una distribución conjunta normal y la
distribución marginal a posteriori de (ỹ, θ) es normal, con E(ỹ|θ) = θ y
V ar(ỹ|θ) = σ 2 , con esto:
E(ỹ|y) = E(E(ỹ|θ, y)|y) = E(θ|y) = µ1

V (ỹ|y) = E(V ar(ỹ|θ, y)|y) + V ar(E(ỹ|θ, y)|y)
= E(σ 2 |y) + V ar(θ|y)
= σ 2 + τ12
Ası́, la distribución predictiva tiene media igual a la media a posteriori

de θ y varianza igual a la varianza predictiva σ 2 + varianza a posteriori
τ12 , debido a la incertidumbre en θ.
Los cálculos anteriores pueden generalizarse fácilmente para el modelo
normal con observaciones múltiples: sea y = (y1 , . . . , yn ) un vector de
observaciones independientes, con lo que se obtiene como distribución
posterior:
p(θ|y) ∝ p(θ) p(y|θ)

Yn
= p(θ) p(yi |θ)
i=1
n
" #!
1 1 2 1 X 2
∝ exp − (θ − µ0 ) + 2 (yi − θ) .
2 τ02 σ
i=1
Se puede probar que p(θ|y1 , . . . , yn ) = p(θ|ȳ) = N (θ|µn , τn2 ) donde

1
µ + σn2 ȳ
τo2 o 1 1 n
µn = 1 ; = 2+ 2
τo2
+ σn2 τn2 τo σ
Modelos 29
y ȳ es un estadı́stico suficiente.
Nótese que la distribución a posteriori depende de las observaciones
a través de la media muestral ȳ. Esto trae como consecuencia que si n
es grande σ 2 y ȳ tienen gran influencia sobre la distribución posterior;
ası́ mismo, si τo → ∞ (n fijo) ó n → ∞ (τo2 fijo) entonces: p(θ|y) ∼
N (ȳ, σ 2 /n).
Esta distribución posterior es aproximadamente la que resultarı́a de
tomar la distribución previa objetiva p(θ) ∝ c para θ ∈ (−∞, ∞), aun
cuando estrictamente no es posible, ya que dicha previa no tendrı́a inte-
gral finita.
2.1.5. Modelo normal (escala)

En este caso se establece que la distribución de muestreo es una dis-
tribución Normal con media conocida y varianza desconocida, esto es:
n
!
1 X
p(y|σ 2 ) ∝ σ −n exp − 2 (yi − θ)2
2σ
i=1
2 −n/2 n
= (σ ) exp(− 2 v)
2σ
Se conoce que v = n1 ni=1 (yi − θ)2 es un estadı́stico suficiente, y en

P
este caso la familia de densidades conjugadas previas corresponde a la
familia Inversa Gamma, con hiperparámetros α y β:
2
p(σ 2 ) ∝ (σ 2 )−(α+1) e−β/σ
que es equivalente, con otra parametrización, a una Inv-χ2 (νo , σo2 ) (Chi
cuadrado inversa con escalamiento) o dicho de otra manera σ 2 ∼ σo2 νo /X
donde X se distribuye como una χ2νo .
Con esto, la distribución posterior queda:
p(σ 2 |y) ∝ p(σ 2 )p(y|σ 2 )

2 (νo /2+1)
νo σo2

σo 2 −n/2
n v
∝ exp − (σ ) exp −
σ2 2σ 2 2 σ2

1
∝ (σ 2 )−((n+νo )/2+1) exp − 2 (νo σo2 + nv)
2σ
o
νo σo2 + nv

2 2
σ |y ∼ Inv − χ νo + n, ,
νo + n
es decir, que la posterior corresponde a una distribución Chi-Cuadrado
inversa con escalamiento, cuya escala es igual al promedio ponderado
por los grados de libertad, entre la escala a priori y la escala de los
datos; mientras que los grados de libertad son la suma de los grados de
libertad a priori y el número de datos.
Ahora bien, si los grados de libertad de la previa, ν0 , son pequeños
relativos a los grados de libertad muestrales n, la posterior es aproxi-
madamente la que corresponderı́a a tomar ν0 = 0.
p(σ 2 |y) ≈ Inv-χ2 (n, v)
Esta forma lı́mite de la posterior puede obtenerse definiendo la previa

para σ 2 como p(σ 2 ) ∝ 1/σ 2 , la cual nuevamente es impropia.
2.2. Modelos multiparamétricos

Los modelos presentados en la sección anterior, con su simplicidad,
son útiles para entender propiedades y caracterı́sticas de la inferencia
Bayesiana pero, en la práctica, es cuando se consideran los modelos
multiparamétricos y jerárquicos que la manera Bayesiana de realizar la
inferencia cobra mayor valor.
Frecuentemente se plantean modelos en los que el vector de paráme-
tros, θ, tiene dos partes, cada una de las cuales puede ser, a su vez, un
vector: (θ1 , θ2 ). Si el interés de la inferencia se centra sobre θ1 solamente,
entonces θ2 es considerado un parámetro de “estorbo”(o en ingles “nui-
sance”). El como deshacerse de dicho “estorbo” es sencillo considerando
la distribución marginal, esto es, con la distribución conjunta posterior:
p(θ1 , θ2 |y) ∝ p(y|θ1 , θ2 )p(θ1 , θ2 )
se puede promediar sobre θ2 , obteniéndose:

Z
p(θ1 |y) = p(θ1 , θ2 |y) dθ2
También se puede escribir:

Modelos 31
Z
p(θ1 |y) = p(θ1 |θ2 , y) p(θ2 |y) d(θ2 )
Esta integral generalmente no se evalua explı́citamente, pero sugiere

una estrategia de evaluación: Se genera θ2 de la distribución marginal
a posteriori; luego se genera θ1 de su distribución condicional a poste-
riori dado el valor de θ2 y de esta forma la integración se lleva a cabo
indirectamente.
2.2.1. Modelo normal

El ejemplo más sencillo de un modelo multiparamétrico, es el modelo
normal, con media y varianza desconocida.
Sea y un vector de n observaciones iid N (µ, σ 2 ), para realizar la in-
ferencia hace falta considerar una distribución previa. A continuación se
presentan dos propuestas.
Previa “objetiva”
Con los resultados en las secciones 2.1.4 y 2.1.5, se puede usar como
distribución objetiva, suponiendo independencia a priori de los parámet-
ros de localización y escala, una distribución uniforme para (µ, log σ):
p(µ, σ 2 ) ∝ (σ 2 )−1
Con esto, la distribución posterior corresponde a

n
!
2 −n−2 1 X 2
p(µ, σ |y) ∝ σ exp − 2 (yi − µ) (2.5)
2σ
i=1
" n #!
1 X
= σ −n−2 exp − 2 (yi − ȳ)2 + n(ȳ − µ)2
2σ
i=1

−n−2 1 2 2
= σ exp − 2 [(n − 1)s + n(ȳ − µ) ]
2σ
1 Pn 0
donde s2 = n−1 2
i=1 (yi − ȳ) es la varianza muestral de los yi s. ȳ y s
2
son los estadı́sticos suficientes.

A partir de la ecuación 2.5 se puede ver que encontrar la distribución

condicional posterior, p(µ|σ 2 , y), es equivalente al problema de una dis-
tribución normal con varianza conocida y distribución previa uniforme,
esto es,
µ|σ 2 , y ∼ N (ȳ, σ 2 /n)
Igualmente, la distribución marginal a posterior p(σ 2 |y) se obtiene inte-

grando p(µ, σ 2 |y) con respecto a µ:
Z
2 −n−2 1 2 2
p(σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] dµ
2σ
La integración con respecto a µ equivale a la evaluación de una integral

normal del factor exp(− 2σn2 (ȳ − µ)2 ), por lo que:

2 −n−2 1 2
p
p(σ |y) ∝ σ exp − 2 (n − 1)s 2πσ 2 /n
2σ
(n − 1)s2

2 −(n+1)/2
= (σ ) exp −
2σ 2
Esto implica que σ 2 |y ∼ Inv-χ2 (n − 1, s2 ),

Observación: Contraste el resultado anterior con el resultado de 2 es-
tad̄ı́stica clásica para la distribución de muestreo de σ 2 , esto es, (n−1)s
σ2
∼
χ2n−1 .
Los resultados anteriores proveen una factorización de la densidad
p(µ, σ 2 |y) = p(µ|σ 2 , y)p(σ 2 |y), con lo que, para muestrear de la distribu-
ción posterior conjunta p(µ, σ 2 |y), se puede muestrear de la distribución
p(σ 2 |y) y luego de la distribución p(µ|σ 2 , y).
Ahora si se desea encontrar p(µ|y), la distribución marginal a posteri-
ori para µ, se puede calcular integrando la densidad a posteriori conjunta
con respecto a σ 2 :
Z ∞
p(µ|y) = p(µ, σ 2 |y)dσ 2
0
A
Haciendo la sustitución z = 2σ 2
con A = (n − 1)s2 + n(µ − ȳ)2 , se
Modelos 33
obtiene la integral gamma no-normalizada:

Z ∞
−n/2
p(µ|y) ∝ A z (n−2)/2 exp(−z)dz
0
∝ [(n − 1)s2 + n(µ − ȳ)2 ]−n/2
−n/2
n(µ − ȳ)2

∝ 1+
(n − 1)s2
la cual es una densidad tn−1 (ȳ, s2 /n).
Observación: Contraste el resultado anterior con el resultado de la
distribución de muestreo de la cantidad pivotal:
ȳ − µ
T = √ ,
s/ n
que es
ȳ − µ
√ |µ, σ 2 ∼ tn−1 .
s/ n
Finalmente, para encontrar la distribución predictiva a posteriori para
observaciones futuras, esta se puede escribir como la mezcla:
Z
p(ỹ|y) = p(ỹ|µ, σ 2 , y)p(µ, σ 2 |y)dµdσ 2 (2.6)
que resulta en una distribución t de Student con localización ȳ, parámet-

ro de escala (1 + n1 )1/2 y n − 1 grados de libertad. Nótese que el primer
término en la integral de la ecuación 2.6 no depende de y, de manera que
para simular de la distribución predictiva se toma una muestra de µ, σ 2
de su distribución conjunta a posteriori y luego se simula ỹ ∼ N (µ, σ 2 ).
Previa conjugada
Para considerar una distribución previa conjugada, esta debe tener la
forma del producto p(σ 2 )p(µ|σ 2 ). Una parametrización adecuada es:
µ|σ 2 ∼ N (µ0 , σ 2 /κ0 ) (2.7)
σ 2 ∼ Inv − χ2 (ν0 , σ02 ) (2.8)
La densidad conjunta a priori toma la forma:

2 −1 2 −(ν0 /2+1) 1 2 2
p(µ, σ ) ∝ σ (σ ) exp − 2 [ν0 σo + κo (µ0 − µ) ]
2σ
que se conoce como la distribución Normal-Inversa Chi-cuadrado con

parámetros (µ0 , σ02 /κo ; ν0 , σ02 ).
Esta previa produce, al multiplicala por la verosimilitud normal, la
densidad posterior Normal-Inv − χ2 (µn , σn2 /κn ; νn , σn2 ) donde:
κ0 n
µn = µ0 + ȳ
κ0 + n κ0 + n
κn = κ0 + n
νn = ν0 + n
κ0 n
νn σn2 = ν0 σ02 + (n − 1)s2 + (ȳ − µ0 )2 .
κ0 + n
Los parámetros de la distribución a posteriori combinan la información
a priori con la información contenida en los datos. Con esto se pueden
encontrar los siguientes resultados:
Distribución condicional a posteriori p(µ|σ 2 , y):
µ|σ 2 , y ∼ N (µn , σ 2 /κn )
Distribución marginal a posteriori p(σ 2 |y)

σ 2 |y ∼ Inv − χ2 (νn , σn2 )
Forma analı́tica de la distribución marginal a posteriori de µ

−(νn +1)/2
κn (µ − µn )2

p(µ|y) ∝ 1 +
νn σn2
= tνn (µ|µn , σ 2 /κn )
Otra variante para escogencia de la previa

Otra forma de especificar una distribución previa para µ y σ 2 es asumir
independencia de µ y σ 2 a priori. Esto implica que µ no depende de σ 2
a priori de tal forma que:
µ ∼ N (µ0 , τ02 )
σ 2 ∼ Inv − χ2 (ν0 , σ02 )
A esta distribución se le conoce como distribución a priori semi-conju-
gada, no conjugada, puesto que en la distribución posterior resultante
µ y σ 2 son dependientes y la densidad a posteriori no pertenece a una
familia paramétrica estándar.
Modelos 35
2.2.2. Modelo normal multivariado

Sea y un vector observable de d componentes tal que: y|µ, Σ ∼ N (µ, Σ).
µ es un vector columna de tamaño d y Σ es la matriz de varianza-
covarianza la cual es simétrica y positiva definida.
Lo anterior significa que la verosimilitud para una observación es:

−1/2 1 T −1
p(y|µ, Σ) ∝ |Σ| exp − (y − µ) Σ (y − µ)
2
mientras que para una muestra de observaciones y1 , . . . , yn :

n
!
−n/2 1X T −1
p(y1 , . . . , yn |µ, Σ) ∝ |Σ| exp − (yi − µ) Σ (yi − µ)
2
i=1

−n/2 1 −1
= |Σ| exp − tr(Σ S0 )
2
donde S0 = ni=1 (yi − µ)(yi − µ)T , esto es, S0 es la matriz de suma de

P
cuadrados y tr denota el operador “traza”.
Al igual que en el caso univariado, se puede considerar el problema de
localización únicamente, esto es, suponer que la distribución es normal
multivariada con varianza conocida Σ. Si se desea usar una distribución
conjugada a priori para µ, nótese que la log-verosimilitud es una forma
cuadrática en µ, por lo que una distribución a priori conjugada para
µ puede parametrizarse como N (µ0 , Λ0 ). En este caso, la distribución
posterior queda:
p(µ|y, Σ) ∝
n
!
1X T −1 1 T −1
exp − (yi − µ) Σ (yi − µ) × exp − (µ − µ0 ) Λ0 (µ − µ0 )
2 i=1 2
Esta expresión es una exponencial de una forma cuadrática en µ; ex-

pandiendo los exponentes y completando la forma cuadrática para µ se
obtiene:

1 T −1
p(µ|y, Σ) ∝ exp − (µ − µn ) Λn (µ − µn )
2
= N (µ|µn , Λn )
donde
µn = (Λ−1 −1 −1 −1 −1
0 + nΣ ) (Λ0 µ0 + nΣ ȳ)
Λ−1
n = Λ−1
0 + nΣ
−1
Nótese que los resultados son similares al caso univariado y la media a

posteriori es un promedio ponderado de la media de los datos y la media
a priori, con pesos equivalentes a sus precisiones a priori nΣ−1 y Λ−1 0
respectivamente.
Para encontrar la distribución predictiva posterior, sea ỹ una nueva
observación tal que ỹ ∼ N (µ, Σ). La distribución conjunta p(ỹ, µ|y) =
N (ỹ|µ, Σ)N (µ|µn , Λn ) es la exponencial de una forma cuadrática en
(ỹ, µ) por lo que (ỹ, µ) tiene una distribución normal multivariada con-
junta y la distribución marginal posterior de ỹ es una normal multiva-
riada con media y varianza posterior:
E(ỹ|y) = E(E(ỹ|µ, y))
= E(µ|y) = µn
var(ỹ|y) = E(var((ỹ|µ, y)|y)var(E(ỹ|µ, y)|y)

= E(Σ|y) + var(µ|y) = Σ + Λn .
En caso de usar una densidad a priori no-informativa para µ, se supone
p(µ) ∝ constante. Esto es equivalente a suponer una varianza a priori
infinita o una precisión cero. En este caso la distribución posterior es
proporcional a la verosimilitud, pero esta será una distribución propia
solo si n ≥ d. En este caso la distribución a posteriori es:
µ|Σ, y ∼ N (ȳ, Σ/n).
Ahora, en el caso de la distribución normal multivariada con media y
varianza desconocida, encontrar la familia de distribuciones conjugadas
requiere usar la distribución inversa Wishart como la generalización mul-
tivariada de la inversa escalada χ2 para describir la distribución previa
de la matriz Σ.
La distribución conjugada a priori para (µ, Σ) es la normal-inversa-
Wishart con hiperparámetros (µ0 , Λ0 /κ0 ; ν0 , Λ0 ):
Σ ∼ Inv-Wishartνo (Λ−1
0 )
µ|Σ ∼ N (µ0 , Σ/κ0 ).
Modelos 37
En este caso p(Σ) ∝ |Σ|(ν0 +d+1)/2 × exp(− 21 tr(Λ0 Σ−1 ) con lo que la
distribución conjunta previa tiene la forma:

1 κ0
p(µ, Σ) ∝ |Σ|−((ν0 +d)/2+1) exp − tr(Λo Σ−1 ) − (µ − µ0 )T Σ−1 (µ − µ0 )
2 2
y la densidad posterior es también una normal-inversa-Wishart con
parámetros:
κ0 n
µn = µo + ȳ
κ0 + n κ0 + n
κn = κ0 + n
νn = ν0 + n
κ0 n
Λn = Λ0 + S + (ȳ − µ0 )(ȳ − µ0 )T
κ0 + n
donde S = ni=1 (yi − ȳ)(yi − ȳ)T .
P
Para obtener muestras de la distribución posterior de (µ, Σ) se puede
usar el siguiente procedimiento:
Muestrear de Σ|y ∼ Inv-Wishartνn (Λ−1
n )
Muestrear de µ|Σ, y ∼ N (µn , Σ/κn )
2.2.3. Modelo multinomial

La distribución multinomial es una extensión del modelo binomial
para k grupos distintos en lugar de dos grupos. Esta distribución des-
cribe datos donde cada observación corresponde a uno de los k valo-
res posibles. Sea y = (y1 , . . . , yk ) el vector que
P cuenta el número de
observaciones para cada valor de k, con lo que yi = n. Los parámetros
se pueden pensar como las proporciones de los k grupos en la población
total. La verosimilitud es:
k
y
Y
p(y|θ) ∝ θj j
j=1
Pk Pk
donde j=1 θj = 1 y j=1 yj = n.
La distribución previa conjugada es una generalización multivaria-
da de la distribución beta conocida como la distribución de Dirichlet:
Qk αj −1
p(θ|α) ∝ j=1 θj . La distribución posterior resultante para los θj ’s
es una distribución Dirichlet con parámetros αj + yj .
Figura 2.2: Histograma de los valores de (θ1 −θ2 ) para 1000 simulaciones
de la distribución posterior del ejemplo sobre la encuesta presidencial
(ver ejemplo 2.2.1).
Ejemplo 2.2.1. Modelo Multinomial (Ej. 3.5 [GCSR], pg 83)

En 1988 se hizo una encuesta pre-electoral en la elección presidencial
de USA. De 1447 personas encuestadas, y1 = 727 apoyaron a Bush;
y2 = 583 apoyaron a Michael Dukakis y y3 = 137 apoyaron a otros can-
didatos. Suponiendo un muestreo aleatorio simple, los datos (y1 , y2 , y3 )
siguen una distribución multinomial con parámetros (θ1 , θ2 , θ3 ). Estos
parámetros representan las proporciones de los que apoyan a Bush,
Dukakis y otros candidatos respectivamente. Un estimando de interés
es θ1 − θ2 , la diferencia poblacional en el apoyo a los dos candidatos más
importantes. Suponiendo una distribución a priori uniforme para θ, tal
que α1 = α2 = α3 = 1, la distribución a posteriori para (θ1 , θ2 , θ3 ) es
Dirichlet(728,584,138). Desde R se ejecuta el siguiente programa, que
Modelos 39
produce la figura 2.2.
> # Modelo multinomial (pag 83, GCSR).

> nsample=1000
> dimension=3
> alphas=c(728,584,138) theta=matrix(0,nsample,dimension)
> theta[,1]=rbeta(nsample,alphas[1],sum(alphas[2:dimension]))
> aux=rbeta(nsample,alphas[2], sum(alphas[(2+1):dimension]))
> theta[,2]=(1-theta[,1])*aux
> theta[,dimension]=1-apply(theta[,1:2],1,sum)
> hist(theta[,1]-theta[,2],nclass=20,
+ xlab="theta1-theta2",main="")
> # Probabilidad estimada de que Bush
> # tuvo mayor apoyo que Dukakis.
> pB=length(seq(1,1000)[theta[,1]>theta[,2]])/1000
[1] 1.0
En este ejemplo se utiliza el resultado de queP

la distribución marginal
de un sólo θj es Beta(αj , α0 − αj ) con α0 = kj=1 αj ; la distribución
marginal de un subvector de θ es Dirichlet y la distribución condicional
de
Pkun subvector dados los demás elementos es Dirichlet bajo la condición
j=1 θj = 1.
2.3. Modelo de regresión

2.3.1. Modelo de regresión normal
El modelo de regresión lineal normal
yi = xTi β + εi , εi ∼ iidN (0, σ 2 ) (2.9)
es el primer ejemplo en todo curso de estadı́stica de un modelo de relación

entre una variable de respuesta continua, y, y un conjunto de k predic-
tores, con valores denotados, xi = (xi1 , . . . , xik ). Este modelo, supone
que la relación entre la y y las x’s es una relación de primer orden o de
proporcionalidad. Usualmente xi1 = 1, para todo i. De esta forma:
y ∼ N (Xβ, σ 2 In ),
donde In corresponde a la matriz identidad n × n.

Considerando los estimadores de mı́nimos cuadrados (y máximo ve-

rosimiles) para β y σ 2 ,
β̂ = (X T X)−1 X T y; νs2 = (y − X β̂)T (y − X β̂); ν = n − k,
la verosimilitud se puede escribir como:
νs2

2 −ν/2
2
p(y|X, β, σ ) ∝ (σ ) exp (σ 2 )−(n−ν)/2
2σ 2

1 T
× exp − 2 (β − β̂) (β − β̂) .
2σ
De esta forma se puede proponer una distribución previa conjugada,
especificada como:
p(β, σ 2 ) = p(σ 2 )p(β|σ 2 ).
La distribución conjugada natural para σ 2 es la propuesta en la ecuación
2.8, mientras que para β esta distribución esta dada por:

2 2 −k 1 T
p(β|σ ) ∝ (σ ) exp − 2 (β − β̄) A(β − β̄) (2.10)
2σ
donde A es la inversa de una matriz definida positiva, esto es β|σ 2 es una

N (β̄, σ 2 A−1 ). Con esto, naturalmente, la distribución posterior queda de
la misma forma:
p(β, σ 2 |y, X, ν0 , σ0 , β̄, A) ∝ p(y|X, β, σ 2 )p(β|σ 2 )p(σ 2 ) (2.11)

2 −n/2 1 T
∝ (σ ) exp − 2 (y − Xβ) (y − Xβ)
2σ

2 −k/2 1 T
× (σ ) exp − 2 (β − β̄) A(β − β̄)
2σ
ν0 σ02

2 −ν0 /2+1
× (σ ) exp − 2 .
2σ
Las formas cuadráticas se pueden combinar para obtener
p(β, σ 2 |y, X, ν0 , σ0 , β̄, A) ∝

2 −k/2 1 T T
(σ ) exp − 2 (β − β̃) (X X + A)(β − β̃)
2σ
(ν0 σ02 + ns2 )

2 −((n+ν0 )/2+1)
× (σ ) exp −
2σ 2
Modelos 41
donde
β̃ = (X T X + A)−1 (X T X β̂ + Aβ̄)
o lo que es igual,
β|σ 2 , y ∼ N (β̃, σ 2 (X T X + A)−1 )

ν1 σ12 ν0 σ0 + ns2
σ 2 |y ∼ , con ν1 = ν0 + n; σ 2
1 = .
χ2ν1 ν0 + n
Si se considera el estimador Bayesiano de β, correspondiente a la media
posterior
E(β|y) = E(E(β|σ 2 , y)|y) = β̃
este es un promedio ponderado de la media de la previa y el estimador
de mı́nimos cuadrados β̂, con pesos que dependen de la precisión de la
previa y de la información muestral.
Nótese que para establecer la distribución previa hacen falta elicitar 2
hiperparámetros para la previa de σ y k + (k(k + 1)/2) parámetros para
la previa de β. Una manera para soslayar este problema es considerar
valores grandes de σ0 y valores pequeños tanto de ν0 como de A, la
precisión previa, lo que lleva, en el lı́mite, a la distribución impropia no
informativa
p(β, σ 2 |X) ∝ σ −2 , (2.12)

esto es, una distribución previa uniforme en (β, log σ). Si hay muchos
datos y pocos parámetros, esta distribución a priori es útil, pues pro-
duce resultados razonables y necesita menor esfuerzo que especificar el
conocimiento a priori.
Usando la distribución previa de la ecuación 2.12, se obtienen los
siguientes resultados:
Distribución condicional a posteriori para β:
β|σ 2 , y ∼ N (β̂, Vβ σ 2 )
donde en este caso Vβ = (X T X)−1 ,

Distribución Marginal a posteriori de σ 2 :
p(β, σ 2 |y)
p(σ 2 |y) =
p(β|σ 2 , y)
σ 2 |y ∼ Inv − χ2 (n − k, s2 ),
Con estos se pueden obtener muestras de la distribución conjunta de β

y σ 2 , con el siguiente algoritmo4 :
1. Calcule β̂ y Vβ . Estas cantidades pueden ser obtenidas con cualquier

software estándar para regresión lineal.
2. Calcule s2
3. Muestree σ 2 de p(σ 2 |y)
4. Muestree β de N (β̂, σ 2 Vβ )
Si la eficiencia computacional es importante, por ejemplo si se usan

grandes conjuntos de datos o métodos iterativos, entonces
1. Calcule la factorización QR de X = QR, where Q es una matriz
n × k de columnas ortonormales y R es una matriz triangular
superior k × k.
2. Calcule R−1 (esto es fácil). R−1 es un factor de Cholesky (raı́z

cuadrada de la matriz de covarianza Vβ , ya que R−1 (R−1 )T = Vβ .
3. Calcule β̂ resolviendo el sistema lineal Rβ̂ = QT y, y utilizando el

hecho de que R es triangular superior.
Una de las aplicaciones más importantes de los modelos de regresión
es la predicción de valores ỹ a partir de la observación de un nuevo
conjunto de variables explicativas X̃, la inferencia Bayesiana permite
descomponer la incertidumbre de p(ỹ|y) en dos partes:
La variabilidad del modelo, representada por σ 2 y no tomada en
cuenta por Xβ.
La incertidumbre a posteriori en β y σ 2 debido a un tamaño mues-

tral finito de y. Cuando n → ∞ esta incertidumbre decrece a cero.
La obtención de muestras de ỹ a partir de su distribución predictiva
a posteriori, procede como de costumbre:
4
La condición para que esta distribución sea propia es que el rango de X sea igual
a k, i.e. las columnas de X son linealmente independiente
Modelos 43
1. Muestrear (β, σ 2 ) de p(β, σ 2 |y)
2. Muestrear ỹ ∼ N (Xβ, σ 2 I)
La forma analı́tica de la distribución predictiva posterior, en el caso
en que se use la previa en 2.12 se puede obtener, considerando que dado
σ 2 , la observación futura ỹ tiene una distribución normal con media y
varianza de la forma:
E(ỹ|y, σ 2 ) = E(E(ỹ|β, σ 2 , y)|σ 2 , y)

= E(X̃β|σ 2 , y)
= X̃ β̂
V (ỹ|σ 2 , y) = E[V (ỹ|β, σ 2 , y)|σ 2 , y]

+V [E(ỹ|β, σ 2 , y)|σ 2 , y]
= E[σ 2 I|σ 2 , y] + V [X̃β|σ 2 , y]
= (I + X̃Vβ X̃ T )σ 2
Para determinar p(ỹ|y) se debe promediar sobre la distribución marginal

a posteriori de σ 2 , entonces, p(ỹ|y) es una t multivariada con centro β̂,
matriz de escala cuadrada s2 (I + X̃Vβ X̃ T ) y n − k grados de libertad.
Comentario:
La previa impropia de la ecuación 2.12 puede sustituirse por una previa
difusa, donde este término debe relativizarse con respecto a cuan difusa
es la verosimilitud, pues lo que se desea es que la previa tenga poca
influencia sobre el resultado final. Esto se puede lograr haciendo a ν0
una fracción pequeña de n, y
A = ν0 SX donde SX = diag(s21 , . . . , s2k )

con
1 X
s2j = (xij − x¯j )2 .
n−1
i
Esto hace que la precisión de la previa dependa de la escala (unidades

de médida) de las x. Zeller (1986) [Z1] propone usar A = gX T X, con-
siderando ası́ no sólo la escala de las variables explicativas sino también
la estructura de correlación entre ellas.
2.3.2. Regresiones multivariadas y aparentemente no rela-

cionadas
En ocasiones es posible que se observen m variables de respuesta para
cada condición de las variables explicativas, lo que equivale, usando el
argot de diseño de experimentos, a decir que se miden m caracterı́sti-
cas sobre las mismas unidades experimentales, sometidas a los mismos
tratamientos. En este caso se tiene:
y1 = Xβ1 + ε1
..
.
yc = Xβc + εc (2.13)
..
.
ym = Xβm + εm ,
donde, los yc son vectores de observaciones de tamaño n. Aquı́ se supone

que los errores entre las ecuaciones están correlacionados y el modelo
estándar considera que estos siguen una distribución normal. De esta
forma se pueden escribir las mediciones sobre la r-ésima unidad ex-
perimental como un vector fila yr que tendrá una distribución normal
multivariada:
yr = B T xr + εr , εr ∼ iid N (0, Σ) (2.14)
donde B es la matriz k × m cuya c-ésima columna corresponde a los
coeficientes de regresión de la ecuación 2.13. Apilando las filas, también
se puede escribir el modelo como:
Y = XB + E
donde Y y E son ahora matrices n×m cuyo elemento (i, j) corresponde a

la i-ésima observación de la j-ésima ecuación. Las distribuciones previas
conjugadas naturales para este caso, son de la forma “inversa Wishart,
normal condicional”:
p(Σ, B) = p(Σ)p(B|Σ)
Σ ∼ Inv-Wishart(ν0 , V0 ) (2.15)
−1
β|Σ ∼ N (β̄, Σ ⊗ A )
Modelos 45
con posteriores en la misma familia:
Σ|Y, X ∼ Inv-Wishart(ν0 + n, , V0 + S),

β|Y, X, Σ ∼ N (β̃, Σ ⊗ (X T X + A)−1 ), (2.16)
T −1 T
β̃ = vec(B̃), B̃ − (X X + A) (X X B̂ + AB̄),
S = (Y − X B̃) (Y − X B̃) + (B̃ − B̄)T A(B̃ − B̄)
T
Ahora bien, considerese el modelo multivariado de la ecuación 2.13

con diferentes regresores en cada ecuación, conocido como el modelo de
regresiones aparentemente no relacionadas de Zellner o modelo SUR,
por sus siglas en ingles. Este cambio aparentemente pequeño impide el
uso de las ecuaciones matriciales anteriores y no hay una distribución
conjugada sencilla. Apilando las ecuaciones de regresión:
y = Xβ + ε (2.17)
     
y1 X1 0 0 0 ε1
 y2   0 X2 0 0   ε2 
y =  . , X =  , ε = 
     
.. ..
 .. 

 0 0 . 0   . 
ym 0 0 0 Xm εm
con
var(ε) = Σ ⊗ In ,
se puede ver que, condicional en Σ, se puede usar una previa normal,
y producir una posterior usando las observaciones estandarizadas para
eliminar la correlación, pero no hay una forma cerrada para considerar
a Σ como un parámetro de estorbo.
2.4. Modelos lineales generalizados

Cuando la suposición de normalidad no es adecuada o la relación lineal
que se asume entre X y E(y|X) no es directa, se utiliza una extensión
del modelo lineal mediante el uso de Modelos Lineales Generalizados. Si
la variable de respuesta es por ejemplo una variable dicotómica que toma
los valores 0 ó 1, el modelo lineal estándar no tienen ningún sentido. Si
se desea modelar una proporción o probabilidad en función de un con-
junto de variables explicativas, es conveniente hacer una transformación
logit a la variable de respuesta. La transformación logit hace que una
variable entre 0 y 1 tome valores en el intervalo (−∞, +∞). Si la relación

entre y y X es multiplicativa, una transformación logarı́tmica serı́a tam-
bién adecuada; pero no siempre la relación entre X y E(y|X) puede ser
modelada mediante un modelo lineal con suposición de normalidad, aún
después de aplicar una transformación. En este caso la clase general de
modelos lineales generalizados proveen la estructura necesaria para el
análisis.
Los modelos lineales generalizados que extienden la suposición de nor-
malidad y linealidad entre x y y tienen los siguientes componentes:
Un predictor lineal η = Xβ,
Una función de enlace que relaciona la media de la variable de

respuesta µ = E(y|X) con el predictor lineal η de manera que
η = g(µ) = Xβ,
Un componente aleatorio con parámetro φ.
Se tiene entonces que E(y|X) = g −1 (Xβ) donde X es la matriz de

variables explicativas n × p. Es decir, una función de la media de la
variable de muestreo tiene estructura lineal en las covariables del modelo.
2.4.1. Verosimilitud de los modelos lineales generalizados

estándar
Modelo normal
Es un caso especial de los modelos lineales generalizados para datos
contı́nuos cuando y tiene distribución normal con media µ y la función
de enlace es la identidad (g(µ) = µ). Si los datos son positivos se trabaja
en escala logarı́tmica. También pueden considerarse otras distribuciones
como la Gamma o Weibull cuando la suposición de normalidad no es
posible.
Modelo Poisson
Para datos de conteo el modelo Poisson lineal generalizado se conoce
como el modelo de regresión Poisson. Se supone que la variable de res-
puesta y tiene una distribución Poisson con media µ y varianza µ (por
ser Poisson). En este caso la función de enlace es la función logarı́tmica
Modelos 47
y log µ = Xβ. La verosimilitud para los datos y = (y1 , . . . , yn ) se escribe

como:
n
Y 1 − exp(Xβi )
p(y|β) = e (exp(Xβi ))yi .
yi !
i=1
Modelo binomial
Cuando los datos tienen una distribución binomial o Bernoulli, usual-
mente es de interés la proporción. Si yi ∼ Bin(ni , µi ) con ni conocido,
se considera como variable de respuesta a yi /ni cuya media es µi . En
este caso se utiliza la transformación logit como función de enlace, de
manera que g(µi ) = log(µi /(1 − µi )). La distribución de los datos viene
dada por:
n Xβ yi ni −yi
Y ni e 1
p(y|β) = .
yi 1 + eXβ 1 + eXβ
i=1
Un ejemplo sobre este modelo llamado el modelo de regresión logı́stica

será presentado en la sección 2.6 con el ejemplo del Bioensayo. En otras
áreas como la econometrı́a se utilizan otras funciones de enlace tales
como la función probit definida como g(µ) = Φ−1 (µ) donde Φ es la dis-
tribución normal estándar. Los modelos logit y probit son muy similares
y difieren mayormente en los extremos. Otra función de enlace estándar
es la función log-log: g(µ) = log(− log(µ)). Esta función difiere de las
anteriores en que no es simétrica con respecto a µ.
Modelo multinomial logı́stico

Este modelo es uno de los más usados en la literatura de mercadeo,
la variable dependiente es el resultado de una variable multinomial, por
ejemplo, cuando se hace una escogencia de productos como en el ejem-
plo 1.1.1; las probabilidades de escogencia están asociadas a variables
independientes que son especı́ficas de las alternativas, y el modelo, para
la probabilidad pij , de que la escogencia yi , del sujeto i, sea j donde yi
puede ser igual a {1, . . . , J}, es igual a:

exp xTij β
pij = P .
J T
j=1 exp xij β
Este modelo se encuentra en la familia exponencial, por lo que debe

haber una distribución previa conjugada, pero esto lo que significa es
que la posterior tiene la misma forma, no que se pueden obtener de
manera analı́tica funciones interesantes de los parámetros.
2.4.2. Extensiones de los modelos lineales generalizados
Modelos con sobredispersión
Cuando se desea incluir una variabilidad adicional a la que se asume

con la distribución de muestreo se habla de modelos con sobredispersión.
Por ejemplo, en un modelo de regresión logı́stica como el ejemplo del
Bioensayo discutido en la sección 2.6, la proporción de interés depende de
la dosis. Sin embargo puede existir más variación de la esperada debido
a las diferencias entre los animales utilizados para el experimento. Esta
variación puede ser incluida en la estructura del modelo como un término
de error adicional con distribución normal. Otro ejemplo de modelos con
sobredispersión es también presentado en el capı́tulo 5.
Modelos de datos discretos en función de datos latentes contı́-

nuos
Una forma de interpretar correctamente los modelos de regresión con

datos discretos es expresarlos en términos de datos contı́nuos no obser-
vados que se llamarán datos latentes. Por ejemplo, el modelo probit para
datos binarios definido como Φ−1 (Pr(yi = 1)) = (Xβ)i viene dado por
el siguiente modelo para datos latentes:
ui ∼ N ((Xβ)i , 1)

1 si ui > 0
yi = .
0 si ui < 0
Al condicionar en los datos latentes el modelo resultante es una re-

gresión lineal simple. Un ejemplo con datos latentes es discutido en el
capı́tulo 5.
Modelos 49
Modelos lineales generalizados Bayesianos: jerárquicos y no-

jerárquicos
Se pueden considerar modelos lineales generalizados con distribuciones

previas para β informativas y no-informativas. También se pueden con-
siderar modelos jerárquicos, como los que se presentan en la sección 2.5,
para los cuales la distribución previa de β depende de hiperparáme-
tros desconocidos. En el caso no informativo se asume una distribución
plana para β, ası́ que la moda posterior coincide con el estimador de
máxima verosimilitud para el parámetro β y una inferencia predictiva
a posterior aproximada puede ser obtenida con la aproximación normal
a la verosimilitud (Ver sección 3.2.1). Para modelos jerárquicos es usual
suponer una distribución previa normal para β.
2.4.3. Modelos loglineales para datos multivariados dis-

cretos
En este caso se consideran datos de conteo que provienen de tablas
de contingencia crostabuladas de acuerdo a varias variables categóricas.
Los conteos se modelan según una distribución Poisson y los logaritmos
de las medias Poisson se modelan mediante un modelo lineal que incluye
variables indicadoras para los distintos niveles de las variables categóri-
cas consideradas. Si el tamaño muestral total de la tabla ó los totales
de algunos de los márgenes está fijo, los conteos pueden ser modelados
con una distribución multinomial. Los modelos loglineales pueden ser
ajustados como un caso especial de los modelos lineales generalizados.
Considere una tabla de contingencia probablemente clasificada según
múltiples variables categóricas con conteos y = (y1 , . . . , yn ), sea µ =
(µ1 , . . . , µn ) el vector de conteos esperados. El modelo Poisson para y
tiene distribución:
n
Y 1 yi −µi
p(y|µ) = µ e
yi ! i
i=1
. Para el caso en que el conteo total está fijo por las caraterı́sticas del
estudio, se utiliza la distribución multinomial. Si los totales de fila o
columna están fijos, entonces la verosimilitud será igual al producto de
varias distribuciones multinomiales independientes. En este caso el lo-
garitmo de los conteos esperados cae en la superficie de regresión Xβ de
tal forma que log(µ) = Xβ. La matriz X se supone conocida y está con-
fomada por ceros y unos, es decir que todas sus variables son variables
indicadoras. Se supone también que las celdas de la tabla de contin-
gencia no admiten “ceros estructurales”, lo cual significa que no hay
categorias cruzadas con valores imposibles, por ejemplo, hombres con
placenta previa. La variables indicadoras que se eligen dependen de las
relaciones entre las variables categóricas consideradas en el estudio. Las
interacciones de dos o más efectos son utilizadas para modelar la falta
de independencia entre los efectos principales, siendo el caso del modelo
saturado, el modelo que incluye todas las interacciones. Un ejemplo de
este tipo de modelos es discutido en el capı́tulo 5.
2.5. Modelos jerárquicos

Estos son modelos de múltiples parámetros que están relacionados o
conectados por la estructura del problema que se está estudiando; como
su nombre lo indica, se supone un modelo de probabilidad conjunto para
los parámetros formando una jerarquı́a que refleja la dependencia entre
ellos.
Ejemplo 2.5.1. En un estudio de efectividad de tratamientos cardı́acos en

varios hospitales, se considera que los pacientes del hospital j tienen una
tasa de sobrevivencia θj , y que los estimadores de los θj provenientes de
una muestra de hospitales deben relacionarse entre sı́. Se podrı́a utilizar
una distribución a priori que considere a los θi0 s como una muestra de
una población común.
Intercambiabilidad y estructura de los modelos jerárquicos
La idea de intercambiabilidad es crucial para establecer la probabili-

dad conjunta de todos los parámetros θ de un modelo jerárquico, esto
es, suponer que dicha probabilidad conjunta p(θ1 , . . . , θJ ) es invariante a
permutaciones en los ı́ndices (1, . . . , J). Esta suposición, en la práctica,
refleja un nivel de ignorancia sobre el problema. La forma más simple
de un modelo intercambiable es suponer que los θj0 s son una muestra
independiente de una distribución poblacional gobernada por un vector
Modelos 51
de parámetros desconocido φ:
 
Z J
Y
p(θ) =  p(θj |φ) p(φ)dφ. (2.18)
j=1
En general, los hiperparámetros φ son desconocidos, por lo que la dis-

tribución para θ debe ser promediada sobre la incertidumbre en φ. Esta
es la llamada mezcla de distribuciones iid. Esta mezcla caracteriza a
los parámetros θ como una muestra de una superpoblación común que
está determinada por los hiperparámetros.
Un resultado teórico asociado es el teorema de Finetti (ver, por ejem-
plo, [DEL]) que establece que cuando J → ∞ cualquier distribución
intercambiable de (θ1 , . . . , θJ ) puede ser escrita de la forma presentada
en la ecuación 2.18.
Cuando hay información adicional disponible, en la forma de covari-
ables, x1 , . . . , xJ , la manera usual de modelar intercambiabilidad es a
través de la independencia condicional
Z Y J
p(θ1 , . . . , θJ |x1 , . . . , xJ ) = [ p(θj |φ, xj )]p(φ|x)dφ
j=1
con x = (x1 , . . . , xJ ). De esta forma los modelos intercambiables son

ampliamente aplicables ya que cualquier información disponible para
distinguir distintas unidades estará codificada en x e y.
Por supuesto, la suposición de intercambiabilidad siempre puede obje-
tarse ya que las unidades experimentales son siempre distintas, por ejem-
plo, por considerar tiempos experimentales distintos, ratas distintas, la-
boratorios distintos, etc., pero la intercambiabilidad no debe ser por ello
invalidada. Como en regresión, lo importante es codificar conocimiento
relevante a través de variables explicativas o covariables.
Tratamiento Bayesiano completo para modelos jerárquicos

Se considera la distribución a priori conjunta: p(φ, θ) = p(φ)p(θ|φ).
La distribución a posteriori conjunta viene dada por:
p(φ, θ|y) ∝ p(φ, θ)p(y|φ, θ)

= p(φ, θ)p(y|θ)
porque la distribución de los datos sólo depende de θ. Los hiperparámet-

ros φ afectan a y a través de θ.
En las secciones anteriores los hiperparámetros fueron considerados
como conocidos, pero esta consideración en una buena parte de las apli-
caciones no es realista; los modelos jerárquicos lo que hacen es incluir la
incertidumbre asociada a φ.
Ahora bien, con respecto a las distribuciones predictivas se puede tener
interés en:
La distribución de observaciones futuras ỹ dados los θj0 s existentes.

En este caso, se puede simular ỹ basada en la distribución a pos-
teriori de θj .
La distribución de observaciones ỹ correspondiente a futuros val-

ores de θj (θ̃). En este caso se puede simular θ̃ condicional en la
simulación a posteriori de φ y luego se simula ỹ dados los valores
simulados de θ̃.
En el caso de la inferencia el interés es obtener simulaciones de p(θ, φ|y)

aunque es usual considerar a φ como un parámetro de molestia, y por
ello es natural asumir que la distribución previa p(θ|φ) es conjugada de
la verosimilitud p(y|θ). Para la derivación analı́tica de las distribuciones
marginales y condicionales se puede proceder de la siguiente forma:
1. Escribir p(θ, φ|y) en forma no-normalizada. Esto implica calcular:
p(θ, φ|y) ∝ p(φ)p(θ|φ)p(y|θ)
2. Determinar analı́ticamente p(θ|φ, y) dados los hiperparámetros φ.
3. Determinar φ marginalizando la distribución a posteriori (paradig-

ma Bayesiano). Esto implica hallar la integral
Z
p(φ|y) = p(θ, φ|y)dθ.
Para algunos modelos se puede usar la fórmula:

p(θ, φ|y)
p(φ|y) = ,
p(θ|φ, y)
Modelos 53
4. Simular el vector de hiperparámetros φ de la marginal p(φ|y).

5. Simular
Q θ a partir de p(θ|φ, y). Se puede considerar que p(θ|φ, y) =
j p(θ j |φ, y). Los componentes de θj se pueden simular indepen-
dientemente, uno a la vez.
6. Simular si se desea valores predictivos ỹ de la distribución predic-
tiva a posteriori dados los valores de θ. Dependiendo del problema
puede ser necesario simular un nuevo valor de θ̃ dado φ como se
discutió anteriormente.
Los pasos anteriores se llevan a cabo L veces para obtener L muestras

de todos los parámetros.
2.6. Algunos ejemplos

Ejemplo 2.6.1. Ejemplo del Bio-Ensayo o experimento de toxici-
dad. Pag. 88 [GCSR]
Un experimento de esta clase tiene datos de la forma (xi , ni , yi ), i =
1, . . . , k donde xi =representa la i-ésima de los k niveles de dosis (medida
en escala logarı́tmica) dada a los ni animales, de los cuales yi presentan
un resultado satisfactorio, e.g. vivo o muerto; con tumor a sin tumor,
etc.
En el cuadro 2.1 se presentan los datos de un experimento de toxicidad
realizado con cinco animales inyectados con diferentes dosis.
Cuadro 2.1: Datos de Racine et al., 1986

Dosis, xi Número de Número de
(log g/ml) animales, ni muertes, yi
-0.863 5 0
-0.296 5 1
-0.053 5 3
0.727 5 5
Suponiendo que los 5 animales dentro del i- esimo grupo son inter-
cambiables e independientes se puede considerar que yi |θi ∼ Bin(ni , θi )
donde θi es la probabilidad de muerte para animales con dosis xi . (Si

las muertes son causadas por una enfermedad contagiosa el modelo no
serı́a correcto!)
Para considerar el efecto de la dosis, se incluye un modelo de dosis
respuesta con una transformación logı́stica para θi :
logit(θi ) = α + βxi
donde logit(θi ) = log(θi /(1 − θi ))

Este modelo es llamado el modelo de regresión logı́stica, con esto,
la verosimilitud para cada experimento i, se puede escribir como:
p(yi |α, β, ni , xi ) ∝ [logit−1 (α + βxi )]yi [1 − logit−1 (α + βxi )]ni −yi
El modelo está caracterizado por los parámetros α y β cuya distribu-

ción posterior es:
p(α, β|y, n, x) ∝ p(α, β|n, x)p(y|α, β, n, x)

k
Y
∝ p(α, β) p(yi |α, β, ni , xi ).
i=1
El condicionamiento sobre (n, x) no es necesario si estos valores son

fijos.
Distribución a priori:
Para considerar una distribución previa no informativa para (α, β), se
puede usar una distribución Uniforme localmente en los dos parámetros,
esto es, p(α, β) ∝ 1. Una estimación inicial de los parámetros α y β puede
obtenerse haciendo una regresión lineal de logit(yi /ni ) con respecto a xi
teniendo en cuenta que logit de 0 y 1 no están definidos.
El siguiente programa en R sirve para obtener un gráfico de contorno
de la distribución posterior y una muestra de la distribución posterior,
que se presentan en la figura 2.3.
> # Ejemplo del Bioensayo Pag 88 (GCSR)

> # Distribucion conjunta
> posterior=function(gridalpha,gridbeta){
+ gridposterior=
+ matrix(1,nrow=length(gridalpha),ncol=length(gridbeta))
+ for (i in 1:100){
Modelos 55
Figura 2.3: Gráfico de contornos de la distribución posterior para los

parámetros del ejemplo del Bio-Ensayo y gráfico de puntos de 200 mues-
tras de la distribución posterior.
+ for (j in 1:100){
+ for (k in 1:4){
+ a=exp(gridalpha[i] + gridbeta[j]*dose[k])/
+ (1+exp(gridalpha[i]+gridbeta[j]*dose[k]))
+ gridposterior[i,j]=a^deaths[k]*
+ (1-a)^(n[k]-deaths[k])*gridposterior[i,j]
+ } } }
+ gridposterior
}
#Obtencion de muestras de la distribucion a posteriori.
> randomposterior=function(nsample){
+ i==sample(1:length(post.vector),
+ size=nsample,replace=T,prob=post.vector)
+ ialpha=c(row(post))[i] ; ibeta=c(col(post))[i]
+ alpha=alphagrid[ialpha] ; beta=betagrid[ibeta]
+ return(cbind(alpha,beta)) }
# DATOS
> dose=c(-0.863,-0.296,-0.053,0.727); n=c(5,5,5,5);
> deaths=c(0,1,3,5) alphagrid=seq(-5,10,length=100);
> betagrid=seq(-10,40,length=100)
> post=posterior(alphagrid,betagrid)
# Plot de contornos de la distribucion posterior
> par(mfrow=c(1,2));
> contour(alphagrid,betagrid,post,drawlabels=FALSE,
+ lwd=0.8,ylab="beta",xlab="alpha")
> post.vector=c(post)
# Marginales sin normalizar
> post.alpha=apply(post,1,sum)
> post.beta=apply(post,2,sum)
#Generar 200 muestras de la distribucion a posteriori
> theta=randomposterior(200)
#Grfico de las 200 muestras
> plot(theta[,1],theta[,2],
+ xlab="alpha",ylab="beta",xlim=c(-5,10),ylim=c(-10,40), pch="o")
> par(mfrow=c(1,1));
> ld50=-theta[,1]/theta[,2];
> hist(ld50)
Un estadı́stico muy usado para establecer la toxicidad es la llamada

dosis letal del 50 % (LD50), esta es la dosis a la cual la probabilidad de
muerte es 50 %:
yi
LD50 : E( ) = logit−1 (α + βxi ) = 0,5
ni
entonces α + βxi = logit(0,5) = 0, por lo tanto LD50 es xi = −α/β
Un histograma de la distribución posterior de LD50 suponiendo que
β > 0 se muestra en la figura 2.4.
Estimación de un conjunto de parámetros intercambiables de

un modelo normal
Se presenta el caso de datos observados con distribución normal con
una media diferente para cada grupo o experimento; con varianza ob-
servacional conocida y una distribución normal para las medias de los
grupos. Este modelo se conoce como el modelo normal de una via con
efectos aleatorios.
Modelos 57
Figura 2.4: Histograma de la distribución posterior de LD50 suponiendo

β > 0.
Ejemplo 2.6.2. Ejemplo 5.5 ([GCSR])

Se lleva a cabo un estudio para analizar el efecto de un programa espe-
cial de preparación (propedéutico) sobre pruebas de aptitud académica
en 8 escuelas. Se desea comparar el efecto de estos programas en las 8
escuelas, los cuales se aplican a más de 30 estudiantes en cada caso. La
variable de respuesta es el resultado de la prueba.
Estructura de los datos: Se consideran J experimentos independien-
tes, con el experimento j estimando el parámetro θj (el efecto del curso
preparatorio en la escuela j) a partir de nj observaciones yij , indepen-
dientes y normalmente distribuidas con varianza del error σ 2 conocida;
esto es:
yij |θj ∼ N (θj , σ 2 ), para i = 1, . . . , nj ; j = 1, . . . , J

Pnj 2
Sea ȳ.j = n1j i=1 yij la media muestral de cada grupo y σj2 = σnj
la varianza muestral del grupo j. Se puede escribir la verosimilitud en
términos de ȳ.j tal que ȳ.j ∼ N (θj , σj2 ).
Se podrı́a estimar θj por ȳ.j que es el resultado promedio para el
Cuadro 2.2: Tabla ANOVA clásica, para el modelo de una vı́a

df P P SS MS E(M S|σ 2 , τ )
2
Entre J −1 i j (ȳ.j − ȳ.. ) SS/(J − 1) nτ 2 + σ 2
Grupos
− ȳ.j )2 σ2
P P
Dentro de J(n − 1) i j (yij SS/((J(n − 1))
Grupos
− ȳ.. )2
P P
Total Jn − 1 i j (yij SS/(nJ − 1)
grupo j o también se podrı́a utilizar una media ponderada común:

PJ 1
j=1 σ 2 ȳ.j
ȳ.. = PJ j 1
j=1 σj2
¿Cuál es el mejor estimador para los parámetros θ1 , . . . , θJ ? El

método tradicional es usar un análisis de varianza con una prueba F
para probar si existen diferencias entre las medias. Si nj = n y σj2 = σ 2
para todo j se tiene la tabla ANOVA (tabla 2.2). Si el cociente de MS
entre grupos y MS dentro de grupos es significativamente mayor que
uno, entonces θ̂j = ȳ.j . De lo contrario se usa θ̂j = ȳ.. .
Otra alternativa: Se puede utilizar la combinación ponderada:
θ̂j = λj ȳ.j + (1 − λj )ȳ..
donde λj está entre 0 y 1. En esta forma no se obliga la estimación de
la media de los grupos combinando todos los datos o no combinándolos
del todo.
Modelo Jerárquico: Aquı́ se puede suponer que los parámetros θi son
muestras de una distribución normal con hiperparámetros (µ, τ ),
J
Y
p(θ1 , . . . , θJ |µ, τ ) = N (θj |µ, τ 2 )
j=1
J
Z Y
p(θ1 , . . . , θJ ) = [N (θj |µ, τ 2 )]p(µ, τ )d(µ, τ )
j=1
con distribución no informativa para los hiperparámetros definida como:

p(µ, τ ) = p(µ|τ )p(τ ) ∝ p(τ )
Modelos 59
(esto es, la densidad a priori para µ es uniforme).

Con esto la distribución conjunta posterior, obtenida combinando la
distribución muestral de los yij y la distribución a priori, queda como:
p(θ, µ, τ |y) ∝ p(µ, τ )p(θ|µ, τ )p(y|θ)

J
Y J
Y
∝ p(µ, τ ) N (θj |µ, τ 2 ) N (ȳ.j |θj , σj2 )
j=1 j=1
Los θj0 s son condicionalmente independientes dados (µ, τ ) y se pueden

ignorar todos los factores que dependen de y y σj ya que son conocidos.
Para encontrar las distribuciones condicionales a posteriori de las me-
dias normales dados los hiperparámetros, nótese que se tienen J medias
normales independientes y desconocidas, por lo tanto se cumple que:
θj |µ, τ, y ∼ N (θ̂j , Vj )
donde
1 1
ȳ
σj2 .j
+ τ2
µ 1
θ̂j = 1 1 y Vj = 1 1
σj2
+ τ2 σj2
+ τ2
.
Nótese también que θ̂j y Vj son funciones de µ y τ y de los datos.
Por otra parte, para encontrar la distribución marginal posterior de
los hiperparámetros, se puede escribir:
p(µ, τ |y) ∝ p(µ, τ )p(y|µ, τ )
Las distribuciones marginales de ȳ.j (medias de los grupos) promedia-

das sobre θ son normales e independientes:
ȳ.j |µ, τ ∼ N (µ, σj2 + τ 2 ).
(Nota: Este resultado se puede obtener al aplicar las fórmulas 1.10 y

1.11 del capı́tulo 1).
Entonces se puede escribir la marginal posterior como:
J
Y
p(µ, τ |y) ∝ p(µ, τ ) N (ȳ.j |µ, σj2 + τ 2 ),
j=1
y de esta ecuación se pueden encontrar:

La distribución posterior de µ condicional en τ , factorizando
p(µ, τ |y) = p(µ|τ, y)p(τ |y)
donde p(µ|τ, y) es la distribución a posteriori de µ cuando τ es

conocida. De la ecuación de la distribución a posteriori de p(µ, τ |y)
se deduce que el logaritmo de esta distribución es una función
cuadrática en µ, por lo que p(µ|τ, y) tiene una distribución normal.
Si se usa una distribución a priori uniforme para p(µ|τ ) se obtiene
que:
µ|τ, y ∼ N (µ̂, Vµ )
P J 1
j=1 σ 2 +τ 2 ȳ.j
donde µ̂ = P
PJ
J
j
1 y Vµ−1 = 1
j=1 σj2 +τ 2
j=1 σ 2 +τ 2
j
La distribución posterior de τ , analı́ticamente, quedarı́a:
p(µ, τ |y)
p(τ |y) =
p(µ|τ, y)
p(τ ) Jj=1 N (ȳ.j |µ, σj2 + τ 2 )
Q
∝ ,
N (µ|µ̂, Vµ )
que es una función complicada de τ .
Escogencia de una distribución a priori para τ : Si se usa una

distribución a priori difusa no-informativa para τ debe chequearse que
la densidad posterior resultante tienen una integral finita.
La distribución a priori uniforme p(τ ) ∝ 1 produce una distribu-

ción posterior propia.
La distribución a priori p(log τ ) ∝ 1 produce una distribución

impropia.
Si se tiene algun estimado de la varianza τ y de una cota superior

para τ se puede construir una distribución a priori a partir de una
inversa-χ2 tratando de “pegar el mejor estimado con la media de
la distribución y la cota superior con el cuantil del 99 %.
Modelos 61
En vista a los resultados anteriores es natural que para encontrar las

distribuciones posteriores se recurra a la simulación de la posterior, a
partir de la factorización:
p(θ, µ, τ |y) ∝ p(τ |y)p(µ|τ, y)p(θ|µ, τ, y)
Figura 2.5: Densidad e histograma de la densidad marginal posterior de

p(τ |y).
La simulación de τ se hace a partir del muestreo de la función p(τ |y)

en una grilla uniforme en los valores de τ ; luego se simula µ y θ a partir
de las distribuciones normales correspondientes. En las figuras 2.5 y 2.6
se presentan los resultados para una simulación de tamaño 5.000, de
la densidad e histograma de la marginal posterior de τ , y los valores
esperados de los efectos dado τ .
La implementación en R del procedimiento anterior se presenta a con-
tinuación:
> # Obtener una muestra de p(theta | mu, tau, y).

> conditional.theta=function(ybar,mu,tau,sigma){
+ theta=rep(0,nschools)
+ theta.hat=rep(0,nschools) V.hat=rep(0,nschools)
+ for(j in 1:nschools){
+ V.hat[j]=1/(1/sigma[j]^2+1/(tau^2)) +
+ theta.hat[j]=(ybar[j]/sigma[j]^2+mu/tau^2)*V.hat[j]
+ theta[j]=rnorm(1,theta.hat[j],sqrt(V.hat[j])) }
+ theta }
> # Obtener muestras de p(mu | tau, y) de tama~no nsample
> sample.mar.mu=function(ybar, tau, sigma,nsample) {
+ V.mu.inv=sum(1/(sigma^2+tau^2))
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ mu.sample=rnorm(nsample,mu.hat,sqrt(1/V.mu.inv))
+ mu.sample }
# Evaluar p(tau | y)
> marginal.tau=function(ybar,tau,sigma) {
+ V.mu.inv=sum(1/(sigma^2+tau^2)) +
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ eval=exp(-(ybar-mu.hat)^2/(2*(sigma^2+tau^2)))
+ eval=eval/sqrt(sigma^2+tau^2)
+ eval=sqrt(1/V.mu.inv)*prod(eval)
+ eval
}
>########### Programa Principal ########################
> # Lectura de los datos del archivo sa.scores
> # School Treat.effect sd.effect
> # A 28.39 14.9 # B 7.94 10.2 ...
> sat.scores=read.table(’sat.scores’,header=TRUE)
> ybar=sat.scores$Treat.effect nschools=length(ybar)
> sigma=sat.scores$sd.effect # Grid para evaluar p(tau |y)
> x.tau=seq(0.00001,40,length=1000)
> # Evaluar p(tau |y) en 1000 puntos en el
> # intervalo [0.00001,40]
> post.tau=apply(t(x.tau),2,marginal.tau,
> ybar=ybar, sigma=sigma)
> #simular 200 muestras de p(tau |y)
> sample.tau=sample(x.tau,200,replace=TRUE, prob=post.tau)
> # simular 200 muestras de p(mu | tau, y)
> sample.mu=apply(t(sample.tau),2,sample.mar.mu, ybar=ybar,
> sigma=sigma,nsample=1)
> # simular 200 muestras de p(theta | mu, tau,y)
> sample.theta=matrix(0,ncol=nschools,nrow=200)
Modelos 63
> for (i in 1:200){

> sample.theta[i,]=conditional.theta(ybar, sample.mu[i],
> sample.tau[i],sigma) }
> # Medias esperadas a posteriori E(theta_j |tau, y)
> # promediadas sobre mu
> expected.theta=matrix(0,ncol=nschools,nrow=30)
> x.tau.2=seq(0.00001,30,length=30)
> for (i in 1:30){
+ sample.mu=sample.mar.mu(ybar,x.tau.2[i],sigma, nsample=5000)
+ sample.theta.2=matrix(0,ncol=nschools,nrow=5000)
+ for (j in 1:5000){
+ sample.theta.2[j,]=
+ conditional.theta(ybar,sample.mu[j],x.tau.2[i],sigma) }
+ expected.theta[i,]=apply(sample.theta.2,2,mean)}
> #Graficar la distribucion marginal posterior de tau|y
> par(mfrow=c(1,2))
> plot(x.tau,post.tau,type=’l’,ylab="",xlab="tau");
> title(’p(tau|y)’)
> hist(sample.tau,ylab="",xlab="tau",main="p(tau|y)")
> #Graficar E(theta_i|tau,y) par(mfrow=c(1,1)) # 95\% P.I.
> for tau
+ sort(sample.tau)[5]; sort(sample.tau)[195];
+ for (i in 1:8){
+ a=sort(sample.theta[,i])[5]
+ b=sort(sample.theta[,i])[195]
+ c=mean(sample.theta[,i])
+ print(c(a,b,c))}
> plot(x.tau.2,expected.theta[,1],ylim=c(-5,30),
+ ylab="Estimated treatment effects",xlab="tau",type=’l’)
> text(x=11.64725,y=16.86634,"A",col=1)
> lines(x.tau.2,expected.theta[,2],col=2)
> text(x=11.89128,y=8.757426,"B",col=2)
> text(x=12.98943,y=4.54703,"C",col=4)
> text(x=10.30,y=7.0,"D",col=5)
> text(x=9.93,y=3.37,"E",col=6)
> lines(x.tau.2,expected.theta[,6],col="purple")
> text(x=23,y=2.7,"F",col="purple")
> lines(x.tau.2,expected.theta[,7],col="lightblue")
> text(x=22,y=17.17,"G",col="lightblue")
> lines(x.tau.2,expected.theta[,8],col="green")
> text(x=22,y=12.17,"H",col="green")
De la figura 2.5 se desprende que valores de τ cercanos a cero son más

pausibles, por lo que se puede decir que los efectos entre las escuelas
son bastante similares. Sólo cuando τ es grande, (cuando hay mayor
variabilidad entre las escuelas) es que los estimados de los efectos se
distancian.
Figura 2.6: Esperanzas posteriores condicionales de los efectos de

tratamiento E(θj |τ, y) como funciones de τ .
Simulación de las distribuciones predictivas posteriores:

Dadas muestras de la distribución posterior se pueden considerar dos
posibilidades:
Observaciones futuras ỹ con medias θ = (θ1 , . . . , θJ ). En este caso

para obtener muestras de la distribución predictiva de nuevos datos
ỹ, primero se obtienen muestras de p(θ, µ, τ |y) y luego se obtienen
muestras de yij ∼ N (θj , σ 2 ).
Modelos 65
Observaciones futuras ỹ de J˜ valores futuros con medias θ̃ =

(θ̃1 , . . . , θ̃J˜). En este caso se debe especificar los J˜ futuros tamaños
muestrales individuales ñj .
Los pasos a seguir para esta simulación son los siguientes:
• Simular (µ, τ ) de su distribución posterior.

• Simular J˜ valores de nuevos parámetros θ̃ = (θ̃1 , . . . , θ̃J˜) de
la distribución poblacional p(θ̃j |µ, τ ) que es la distribución a
priori de θ dados los hiperparámetros.
• Simular ỹ dados θ̃ de la distribución de los datos
yij ∼ N (θj , σ 2 ).
Capı́tulo 3
Distribución Posterior
Como se ha descrito en los capı́tulos anteriores, la inferencia Baye-

siana requiere encontrar la distribución posterior de los parámetros o
cantidades desconocidas de los modelos. De los ejemplos y los resultados
de la sección 1.8 y del capı́tulo 2, se evidencia que obtener expresiones
analı́ticas de la distribución posterior sólo es posible en casos particulares
que usualmente representan modelos sencillos. Por esto, hace algunos
años, la aplicación de los métodos Bayesianos a problemas prácticos no
era tan extendida como ahora, pues encontrar la distribución posterior o
funciones de esta, como por ejemplo, el valor esperado posterior, requerı́a
de métodos numéricos complicados o resultados asintóticos para resolver
problemas de integración asociados a esos cálculos. Actualmente, el uso
de estas herramientas de aproximación no son necesarias para llevar
a cabo un análisis de datos Bayesiano, pero siguen siendo útiles pues
proveen un marco de referencia conceptual para la interpretación. En la
próxima parte se presentarán algunos resultados de la teorı́a asintótica,
para luego dedicar el resto del capı́tulo al tema de la obtención de la
distribución posterior a través de métodos de simulación.
67
3.1. Integración y aproximaciones para mues-

tras grandes
Para realizar la inferencia hay que resolver problemas de integración
de la forma: Z
I = h(θ)p(θ)p(y|θ)dθ,
por ejemplo, para encontrar las constantes de normalización, los momen-

tos, marginales, intervalos de credibilidad y utilidades esperadas. Hay
tres clases de métodos para resolver estos problemas de integración: o
bien aproximar el integrando por otro más fácil de integrar (numerica-
mente), o bien aproximar por sumas finitas a la integral (tal como se
hace con los métodos de cuadratura), o bien considerar la integral co-
mo el valor esperado de una variable aleatoria y aproximar este valor
esperado con el promedio de una muestra obtenida por simulación.
El primer método es usualmente implementado a través de la aproxi-
mación asintótica de la verosimilitud, para muestras grandes, por ejem-
plo, expandiendo la log-verosimilitud L(θ) = log p(y|θ), como una se-
rie de Taylor de segundo orden, centrada en el estimador de máxima
verosimilitud θ̂,
Z
1
I ≈ h(θ)p(θ) exp{L(θ) θ=θ̂ − (θ − θ̂)T H(θ − θ̂)}dθ

(3.1)
2
donde H = −[∂ 2 L/∂θ∂θT ]. Esta es la aproximación de Laplace.

Con la ecuación 3.1 se puede considerar como una previa “asintótica”
natural, a una distribución normal con media θ̄ y (matriz de) precisión
A, y encontrar valores aproximados para la constante de normalización
y los momentos, obteniéndose, por ejemplo:
E[θ|y] ≈ θ̃ = (A + H)−1 (Aθ̄ + H θ̂)
var(θ|y) ≈ (A + H)−1 .
3.1.1. Aproximación normal a la distribución posterior

En los ejemplos del capı́tulo 2 se examinó el hecho que cuando el
tamaño muestral aumenta, la influencia de la distribución a priori sobre
Distribución Posterior 69
la inferencia a posteriori disminuye. Esto se puede generalizar usando

resultados para muestras grandes.
Si la distribución posterior p(θ|y) is unimodal y aproximadamente
simétrica es conveniente aproximarla mediante una distribución normal
centrada en la moda. Para ello se usa la expansión de Taylor de log p(θ|y)
centrada en la moda a posteriori θ̂:
2
1 d
log p(θ|y) = log p(θ̂|y) + (θ − θ̂)T log p(θ|y) (θ − θ̂) + . . .
2 dθ2 θ=θ̂
Nótese que el término lineal es cero porque la primera derivada es cero

en la moda mientras que los términos de orden alto decaen a cero cuando
n es grande y θ ≈ θ̂.
La expresión anterior implica que:
p(θ|y) ≈ N (θ̂, [I(θ̂)]−1 )
donde I(θ) es la información observada:
d2
I(θ) = − log p(θ|y)
dθ2
Si θ̂ está en el espacio de parámetros, I(θ) es positiva; si θ es un vector

I(θ) es una matriz.
Ejemplo 3.1.1. Caso de la distribución normal con media y varianza
desconocida.
Suponga que se establece una densidad a priori uniforme para (µ, log σ),
utilizando la aproximación normal a posteriori para (µ, log(σ)) se ob-
tiene:
2
ȳ σ̂ /n 0
p(µ, log σ|y) ≈ N ,
log σ̂ 0 1/(2n)
Como consecuencias de esta aproximación se puede ver que:
En un gráfico de contornos en dos dimensiones, la lı́nea del con-

torno del 0.05 incluye aproximadamente el 95 % de la masa de
probabilidad.
La distribución a posteriori puede ser resumida por una simple

aproximación basada en la distribución normal, utilizando el es-
timador puntual máximo verosimil θ̂ (moda a posteriori con dis-
tribución a priori uniforme) sumando y restando 2 veces el error
estándar para construir el intervalo del 95 %. El error estándar
puede ser estimado a partir de la información I(θ̂).
Asintóticamente, la moda θ̂ y la curvatura de la densidad a poste-

riori I(θ̂) son los estadı́sticos suficientes.
En muchos casos la convergencia a la normalidad de la distribu-

ción a posteriori de θ puede ser mejorada con una transfomación
adecuada φ de θ. Si φ es una transformación contı́nua de θ, tanto
p(φ|y) como p(θ|y) se aproximan a la normal para n grande.
Teorı́a para muestras grandes

Suponga que f (y) es la distribución de los datos, pero estos son mod-
elados por una familia parámetrica p(y|θ). Si f (y) está incluida en la
familia paramétrica, es decir, f (y) = p(y|θo ) para algún θo , además de
la normalidad de la posteriori, se cumple la propiedad de consistencia:
esto es, la distribución posterior converge a un punto de masa en el
verdadero valor del parámetro θo cuando n → ∞.
Además, bajo algunas condiciones de regularidad como por ejemplo,
que la verosimilitud es contı́nua en θ y θo no cae en la frontera del
espacio de parámetros, la distribución a posteriori para θ tiende a una
normal con media θo y varianza (nJ(θo ))−1 , donde J fue definida en la
ecuación 1.13.
Estos resultados formalizan la idea de que la importancia de la dis-
tribución a priori disminuye cuando el tamaño muestral aumenta. Cuan-
do el tamaño muestral es pequeño, la distribución a priori es una parte
crı́tica de la especificación del modelo.
Limitaciones de los resultados para muestras grandes

Hay varias situaciones en las que pueden fallar los teoremas asintóticos
para muestras grandes, entre ellas, cuando:
Se usan modelos sub-identificados (igual verosimilitud para un ran-

go de parámetros) o parámetros no identificados (no existe un pun-
to único de convergencia de la distribución a posteriori).
El número de parámetros que aumentan con el tamaño de la mues-

tra.
Las verosimilitudes son no acotadas.
Se obtienen distribuciones posteriores impropias.
La convergencia ocurre en los lı́mites del espacio de parámetros.
Falta de convergencia en las colas de la distribución.
De esta lista no exhaustiva se desprende la necesidad de revisar si

el modelo empleado se encuentra en alguna de estas situaciones, antes
obtener conclusiones del mismo.
3.2. Métodos de simulación

Los métodos de simulación se refieren a la obtención de pseudo-mues-
tras provenientes de una distribución de probabilidad, en un computa-
dor. Estas muestras pueden cumplir con ciertas condiciones que permiten
estimar propiedades probabilı́sticas que no pueden ser obtenidas por
métodos analı́ticos. Como estos métodos introducen un nivel de aleato-
riedad en el análisis, también se los conoce como métodos de Monte
Carlo, en honor al famoso casino del principado de Mónaco. R
b
La aplicacion más simple de estos métodos es la de calcular a g(x)dx
para alguna función g, con a y b finitos. Esta integral se puede escribir
como:
Z b Z b
1
g(x)dx = (b − a)g(x) dx = (b − a)E[g(U )] (3.2)
a a b − a
donde U ∼ U (a, b), con lo que si se evalúa g en una muestra de tamaño

K proveniente de una distribución uniforme, la integral se puede estimar
b−a PK
con K k=1 g(uk ), haciendo uso de los resultados asintóticos tipo leyes
de grandes números.
En el caso de la inferencia Bayesiana, dado un modelo (verosimilitud
y previa), la distribución posterior frecuentemente está representada por
una densidad no normalizada y el problema es construir estimados, basa-
dos en simulación, de diversas caracterı́sticas o cantidades resumen de
esta distribución. Si el modelo no presenta jerarquı́a, frecuentemente se
pueden obtener directamente muestras de la distribución posterior, espe-

cialmente en el caso de conjugacidad. Para problemas más complicados,
se puede intentar simular por etapas, por ejemplo, en el caso jerárquico,
primero simular de la distribución posterior de los hiperparámetros y
luego simular los otros parámetros condicionados en los datos y los va-
lores simulados de los hiperparámetros. Con estos valores simulados de
p(θ|y) se puede entonces simular muestras de la distribución predictiva,
a partir de p(ỹ|θ).
Algunos métodos de simulación serán presentados a continuación, con-
centrando la discusión principalmente en los métodos de cadenas de
Markov (ver sección 3.3).
3.2.1. Muestreo directo

Aproximación discreta
En el caso en que el espacio de parámetros es continuo se puede
aproximar la distribución posterior a través de la evaluación de la den-
sidad p(θ|y), que puede ser no normalizada, en una grilla equiespacia-
da θ0 < θ1 < . . . < θN , que cubra el rango de interés. La muestra
se obtendrı́a
P a través del muestreo sobre la grilla con probabilidades
p(θi |y)/ N
i=1 p(θj |y).
Ejemplo 3.2.1. En el ejemplo 2.1.2, sobre los nacimientos de hembras
dada la condición de placenta previa, se vió que en el caso que se
use una distribución uniforme como distribución previa para la pro-
porción de nacimientos de hembras, θ, la distribución posterior es una
Beta(438, 544), y se pueden hallar por métodos análiticos los valores
de los momentos posteriores, o se pueden simular realizaciones de una
distribución beta. Ahora, suponga que se usa una distribución no con-
jugada, por ejemplo, una distribución centrada alrededor de 0.485 y
plana fuera del intervalo [0,385, 0,585], de manera que el 40 % de la masa
de probabilidad está fuera de dicho intervalo, como la que se presenta
la figura 3.1. Para esta distribución la media es 0.493 y la desviación
estándar 0.21. En este caso no hay una manera cerrada de obtener la
distribución posterior y es necesario recurrir a algún método de apro-
ximación. A continuación se transcriben las funciones de R en las que
se implementa el método de muestreo directo para la simulación, con-
siderando la forma de la distribución posterior no normalizada, evaluada
Figura 3.1: Previa no conjugada, ejemplo 3.2.1
sobre una grilla. En la figura 3.2 se presentan los resultados de la simu-

lación de la distribución posterior.
#Distribucion previa
> previa=function(theta) {
+ if ((theta>=0)&(theta<=0.385)) {a=0.5}
+ if((theta>=0.585)&(theta<=1.0)) {a=0.5}
+ if((theta>=0.385)&(theta<=0.485)){a=50*theta-18.75}
+ if((theta>=0.485)&(theta<=0.585)){a=-50*theta+29.75}
+ return(a) }
# Verosimilitud
> likelihood=function(theta,n=980,y=437){
+ (theta^y)*(1-theta)^(n-y) }
# Distribucion posterior no normalizada
> postprop=function(theta) {
+ a= previa(theta)*verosimilitud(theta)
+ return(a) }
# Calculo de la constante de normalizacion
> k=sum(apply(t(seq(0,1,length=1000)),2,postprop))/1000
# Graficos de la distribucion previa y posterior
Figura 3.2: Ejemplo de la simulación de una posterior, ejemplo 3.2.1
> par(mfrow=c(2,2),bty=’n’)
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,previa),xlim=c(0,1),
+ ylab="",xlab="theta",type=’l’)
# Grafico de la distribucion posterior:
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,postprop/k),type=’l’,
+ xlim=c(0.35,0.585),ylab="",xlab="theta")
# Funcion de muestreo de la posterior
> sampost=function(grid){
> sample(grid,size=length(grid),replace=T,
> prob=apply(t(seq(0,1,length=1000)),2,postprop)/k) }
> theta=sampost(seq(0,1,length=1000))
> hist(theta,ylab="",xlab="theta",xlim=c(0.35,0.55))
3.2.2. Muestreo de rechazo/aceptación

Esta es una técnica ampliamente usada, gracias a la rapidez de las
computadoras actuales. Para la densidad p(θ|y), suponga que existe una
densidad de probabilidad g, tal que:
Se sabe como simular variables con densidad g.

Existe una constante k tal que kg(θ) ≥ p(θ|y) para todo θ.
En este caso, para encontrar un valor θ∗ simulado, se procede de la
siguiente manera:
1. Simule un valor X a partir de g y un valor U ∼ U (0, 1)
2. Si
p(X|y)
≥ kU
g(X|y)
entonces θ∗ = X; si no, repita el proceso anterior, tantas veces
como se requiera para obtener un valor válido.
Nótese que este procedimiento no requiere que θ sea univariado.
3.2.3. Muestreo de Importancia

Los métodos de Monte Carlo para estimación de integrales, como la
presentada en la ecuación 3.2 presentan el problema de no ser factibles
en regiones no acotadas y aún en el caso de que las regiones sean aco-
tadas, pueden ser muy ineficiente si g es mucho mayor en una región del
intervalo que en otra, puesto que entonces la varianza de g(U ) es grande
y se necesitarán de muchas muestras para obtener un buen estimado de
la integral.
En el muestreo de importancia se plantea, al igual que en la ecuación
3.2, reescribir la integral como el valor esperado de una función de una
variable aleatoria X, de la que si se puede simular facilmente, esto es,
si f es una densidad de probabilidad que cumple que f (x) > 0 donde
g(x) > 0, entonces se puede escribir
Z Z
g(x) g(X)
g(x)dx = f (x)dx = E .
f (x) f (X)
En este caso, f se la conoce como la función de importancia.
Supongamos que se desea estimar h̄ = E(h(θ)|y)), con h una fun-
ción regular. En muchos casos es facil escribir la densidad posterior no
normalizada, pero para estimar h̄ se requiere estimar
R
h(θ)p(θ)p(y|θ)dθ
E(h(θ)) = R .
p(θ)p(y|θ)dθ
Si se tiene una función de importancia, f , la integral se puede aproximar,

con una muestra θ1 , . . . , θR proveniente de la distribución f , con:
R−1 r h(θr )wr

P P
h(θr )wr
h̄R = = rP
R−1 r wr
P
r wr
con wr = p(θr )p(y|θr )/f (θr ). Nótese que en este caso no hace falta que
f sea una densidad normalizada, pues las constantes de normalización
aparecen tanto en el numerador como en el denominador y se cancelan.
El error numérico estándar (ENE) se calcula como:
sP
− R−1 r h(θr ))2 wr2
P
r (h(θr )
ENE(h̄R ) = .
( r wr )2
P
3.3. Métodos Monte Carlo de Cadenas de Markov

(MCMC)
Los métodos MCMC tuvieron su origen en la estadı́stica fı́sica, cuando
fueron utilizados para estudiar las propiedades de sistemas de partı́culas
interactuando. Su uso en la inferencia Bayesiana, data de los años 80
([Gr] y [GG]) en el contexto de análisis de imágenes.
Estos métodos han sido altamente exitosos y son la base de paquetes
computacionales como WinBUGS [WB] , por su capacidad para encon-
trar aproximaciones de modelos complicados y de alta dimensionalidad;
para tener una idea del tipo de complejidad de la que se está hablando
considere un ejemplo en el área de mercadeo, donde se plantean modelos
con regresiones con 5 a 10 variables independientes, para cada uno de
100 - 200 consumidores de una muestra, con la finalidad de encontrar
las preferencias de consumo ante cambios en variables de mercado. Para
estos modelos, la inferencia requiere aproximar la distribución posterior
en un espacio de parámetros de dimensión entre 500 y 2000. Los proble-
mas de esta dimensión difı́cilmente pueden atacarse con las técnicas de
muestreo directo.
El objetivo de los métodos Monte Carlo de cadenas de Markov es
encontrar una cadena de Markov en el espacio de parámetros, de manera
tal que la distribución de equilibrio o estacionaria de la cadena coincida
con la distribución posterior.
Para entender este objetivo hay que definir algunos términos: (ver por
ejemplo [GCSR] para más detalles).
1. Una cadena de Markov es un proceso estocástico a tiempo discre-

to, tal que si se conoce el estado en el tiempo n, θn , ası́ como los
estados previos θ1 , . . . , θn−1 , la distribución de probabilidad de to-
dos los estados futuros θj ,j > n solo depende del estado θn . Dicho
de otra manera, una cadena de Markov especifica un método para
generar una secuencia de variables aleatorias θ1 , θ2 , . . . , θr , . . . , a
partir de un valor inicial θ0 , requiriendo únicamente una regla de
transición para pasar de θr a θr+1 , definida a través de la distribu-
ción condicional θr+1 |θr ∼ Fr (θr ). Si Fr no depende de r, se habla
de una cadena homogenea.
2. Bajo ciertas condiciones sobre la distribución condicional F , se

puede demostrar que la distribución de θr |θ0 converge a una única
distribución, π()˙ a la que se la llama distribución estacionaria, o
invariante.
3. Bajo ciertas condiciones sobre la distribución condicional, se puede

demostrar que una cadena de Markov con distribución estacionaria
π es ergódica, esto es
1 X
lı́m h(θr ) = Eπ [h(θ)].1
R→∞ R
Esto permite estimar valores esperados a partir de los resultados

de una realización de la cadena.
4. Excepto en casos triviales, si definimos la cadena de Markov en

términos de una caminata al azar de alguna distribución propia,
entonces es aperiódica y estacionaria. La irreducibilidad se cumple
siempre que la caminata al azar tenga una probabilidad positiva de
alcanzar eventualmente cualquier estado desde algún otro estado.
De esta manera, construyendo una cadena de Markov cuya distribu-

ción estacionaria corresponda a la distribución posterior, se puede en-
contrar la esperanza posterior de cualquier función simulando la cadena
1
Suponiendo por supuesto que el valor esperado de h existe.
y tomando el promedio de la función sobre los valores simulados. Por

supuesto, este procedimiento descansa en los resultados asintóticos, por
lo que se hace necesario realizar un número grande de simulaciones y
estudiar la convergencia de los valores obtenidos. Aunque la teorı́a no
lo requiere, en la práctica se considerarán los estimados basados en las
últimas R − B muestras, donde B, se supone lo suficientemente grande
como para que la cadena se encuentre en estado de equilibro.
3.3.1. El algoritmo de Metrópolis-Hasting.

En simulaciones de cadenas de Markov, se crean muchas secuencias de
muestras simuladas. Cada secuencia, θr , r = 1, 2, . . ., se produce comen-
zando de algún punto inicial θ0 y entonces, para cada r, se simula de
una distribución de probabilidades de transición Fr (θr |θr−1 ). Estas dis-
tribuciones deben ser construidas de tal forma que la cadena de Markov
converja a p(θ|y).
La referencia al algoritmo de Metropolis-Hasting corresponde a un
término general que se utiliza para una familia de métodos de simulación
de cadenas de Markov que se derivan del siguiente algoritmo propuesto
por [MU].
Algoritmo de Metrópolis
El algoritmo de Metrópolis es una modificación de un paseo al azar
que utiliza una regla de aceptación rechazo para obtener convergencia
de la cadena a una distribución especı́fica. El algoritmo consiste de los
siguientes pasos:
1. Simular un punto inicial para el cual p(θ0 |y) > 0 a partir de de

una distribución inicial p0 (θ).
2. Para r = 1, 2, . . .
Obtener una realización candidata θ∗ a partir de una dis-

tribución de salto en el tiempo r, Jr (θ∗ |θr−1 ). Esta dis-
tribución debe ser simétrica en el sentido de que Jr (θa |θb ) =
Jr (θb |θa ) para todo θa , θb , r.
3. Calcular R = p(θ∗ |y)/p(θr−1 |y).

4. Definir
θ∗

r con probabilidad mı́n(R, 1)
θ = (3.3)
θr−1 si no
Estas ecuaciones implican que, dado θr−1 , Fr (θr |θr−1 ) es una mezcla de
la distribución de salto, Jr (θr |θr−1 ) y un punto de masa en θr = θr−1
La regla de aceptación y rechazo del algoritmo anterior se puede inter-
pretar como sigue: si el “salto”produce un valor para el que se aumenta
la densidad posterior, hacer θr = θ∗ ; si el “salto”no aumenta la densi-
dad a posteriori, hacer θt = θ∗ con probabilidad R y θt = θt−1 si no.
Esto puede ser visto como una versión estocástica de un algoritmo de
búsqueda de moda por pasos.
Algoritmo de Metrópolis-Hastings
La generalización conocida como el algoritmo de Metrópolis-Hasting,
consiste esencialmente en que en este caso las reglas de salto, dadas por
Jr no necesitan ser simétricas y el radio R es reemplazado por,
p(θ∗ |y)/Jt (θ∗ |θt−1 )

R= .
p(θt−1 |y)/Jt (θt−1 |θ∗ )
Al ser este algoritmo uno de aceptación-rechazo, la eficiencia en la

generación de la cadena dependerá de las propiedades de la distribu-
ción de salto; una buena distribución de salto deberı́a cumplir con las
siguientes propiedades:
Para cualquier θ, es fácil muestrear de J(θ∗ |θ).
Es fácil calcular los cocientes de importancia R.
Cada salto produce resultados a una distancia razonable en el es-

pacio de parámetros .
Los saltos no son rechazados muy frecuentemente.
Ejemplo 3.3.1. Suponga que se desea obtener una aproximación a la

densidad p(θ|y) = N2 (θ|0, I). En este caso, se puede usar como dis-
tribución de salto: Jr (θ∗ |θr−1 ) = N2 (θ∗ |θr−1 , 0,22 I), con lo que R =
N (θ∗ |0, I)/N (θr−1 |0, I). En el lenguaje R la simulación queda ası́:
Figura 3.3: Ejemplo del algoritmo de Metropolis
> theta.old = rep(0,2)

> theta.new = rep(0,2)
> all.theta=matrix(0,ncol=2,nrow=1000)
> for (r in 1: 1000){
+ increment=rnorm(2,sd=0.2)
+ theta.new=theta.old+increment
+ R = exp(-0.5*sum((theta.new-c(0,0))^2))/
+ exp(-0.5*sum((theta.old-c(0,0))^2))
+ u=runif(1)
+ if(R <=u){theta.new=theta.old}
+ all.theta[r,]=theta.new
+ theta.old=theta.new
+ }
> par(mfrow=c(2,1))
> plot(all.theta[,1],xlab="Iteracion",ylab="theta.1",type=’l’)
La figura 3.3 presenta los valores de la caminata obtenida en una

realización de 1000 pasos.
3.3.2. El muestreador de Gibbs

Este algoritmo, también llamado de muestreo condicional alternante,
es sumamente útil cuando el espacio de parámetros es altamente multidi-
mensional. Se supone que θ tiene d componentes, es decir θ = (θ1 , . . . , θd ).
En cada iteración r, se escoje un ordenamiento de los d subvectores, y
cada θjr es muestreado de la distribución condicional dados todos los
demás componentes,
r−1
p(θj |θ−j , y),
r−1
donde θ−j representa todos los componentes de θ excepto por θj en sus
valores actuales,
r−1 r−1
θ−j = (θ1r , . . . , θj−1
r
, θj+1 , . . . , θdr−1 ).
En la práctica es necesario establer un valor inicial θ0 = (θ10 , . . . , θd0 ).

Cada paso del algoritmo puede describirse como:
Muestree de:
θ1r ∼ p(θ1 |θ2r−1 , . . . , θdr−1 )

θ2r ∼ p(θ2 |θ1r , θ3r−1 , . . . , θdr−1 )
θ3r ∼ p(θ3 |θ1r , θ2r , θ4r−1 , . . . , θdr−1 )
..
.
θdr ∼ p(θd |θ1r , θ2r , . . . , θd−1
r
)
El muestreador de Gibbs es un caso especial de Metropolis-Hasting

con distribución de salto dada por
r−1 ∗ = θ r−1
p(θj∗ |θ−j

Gibbs ∗ r−1 , y) si θ−j −j
Jj,r (θ |θ ) =
0 si no.
En este caso R = 1 de manera que todos los saltos son aceptados.
Cuando no es posible muestrear de alguna, o de todas las distribu-
tiones condicionales p(θj |θ−j , y) pero sı́ de aproximaciones, g(θj |θ−j ), se
puede usar la misma estrategia de muestreo condicional alternante, com-
pensando por la aproximación, con la siguiente función de salto para el
j-ésimo paso de Metropolis en la iteración r:
r−1 ∗ = θ r−1
g(θr∗ |θ−j

∗ r−1 ) si θ−j −j
Jj,r (θ |θ ) =
0 si no
En este caso se calculan los cocientes R y se usa la regla de asignación

en la ecuación 3.3 para este paso.
Ejemplo 3.3.2. En este caso se desea aproximar la distribución posterior:
p(θ|y), dada por

θ1 y1 1 ρ
|y ∼ N , .
θ2 y2 ρ 1
De esta distribución se puede ver que
θ1 |θ2 , y ∼ N (y1 + ρ(θ2 − y2 ), 1 − ρ2 )
θ2 |θ1 , y ∼ N (y2 + ρ(θ1 − y1 ), 1 − ρ2 )
Es posible por supuesto simular directamente de la distribución posterior

conjunta de (θ1 , θ2 ), pero consideramos el muestreador de Gibbs como
alternativa, con lo que, para ρ = 0,8, el algoritmo programado en R
queda:
> y=c(0,0);theta=c(0,0);rho=0.8
> all.theta=matrix(0,nrow=1000,ncol=2)
> for (i in 1:1000){
+ theta[1]=rnorm(1,mean=y[1]+rho*(theta[2]-y[2]),
+ sd=sqrt(1-rho^2))
+ theta[2]=rnorm(1,mean=y[2]+rho*(theta[1]-y[1]),
+ sd=sqrt(1-rho^2))
+ all.theta[i,]=theta
+ }
> # Simulacion directa
> # V=Matriz de Varianza-Covarianza
> V=matrix(c(1,rho,rho,1),ncol=2,byrow=T)
> LV=chol(V) # Descomposicion de Cholesky
> # t(LV)%*%LV = V
> z=matrix(rnorm(2000,sd=1),byrow=T,ncol=1000)
> theta.sim=t(LV)%*%z
> par(mfrow=c(2,2))
> plot(theta.sim[2,],theta.sim[1,],xlab="theta.2",
+ ylab="theta.1", main="Muestreo Directo")
> plot(all.theta[,2],all.theta[,1],xlab="theta.2",
+ ylab="theta.1",main="Gibbs Sampling")
En el programa anterior también se encuentran los comandos para

obtener los gráficos de la figura 3.4.
Figura 3.4: Ejemplo del algoritmo de Gibbs Sampling
Ejemplo 3.3.3. En el modelo de regresiones aparentemente no relacio-

nadas, (ver 2.3.2), se presenta un sistema de m ecuaciones de regresión,
que se puede escribir, “apilando”las m ecuaciones, (ver ecuación 2.17),
como
y = Xβ + ε, ε ∼ N (0, Σ ⊗ In ) (3.4)
No existe en este caso una previa conjunta natural para β y Σ, como en
el modelo de regresión multivariada, donde la previa sobre β depende de
Σ, pues es natural que la información sobre β no puede ser independiente
de la escala. Sin embargo, una previa conveniente puede ser:
p(β, Σ) = p(β)p(Σ)
β ∼ N (β̄, A−1 ) (3.5)
Σ ∼ Inv-Wishart(ν0 , V0 )
que es condicionalmente conjugada en el sentido que dado Σ, la posterior

de β es normal, y dado β la distribución posterior tiene la forma de
una inversa Wishart. Más aún, usando la descomposición Σ = U 0 U tal
que (U −1 )0 ΣU −1 = Im , se puede transformar la ecuación 3.4 en un

sistema con errores no correlacionados premultiplicando dicha ecuación
por (U −1 )0 ⊗In , de manera que se pueden usar los resultados de la sección
2.3.2 para obtener:

β|Σ, y, X ∼ N β̃, (X̃ 0 X̃ + A)−1 , β̃ = (X̃ 0 X̃ + A)−1 (X̃ 0 ỹ + Aβ̄) (3.6)
donde ỹ = ((U −1 )T ⊗ In )y, y X̃ = ((U −1 )T ⊗ In )X, mientras
Σ|β, y, X ∼ IW (ν0 + n, S + V0 ) donde S = E 0 E, (3.7)
con E = [ε1 , . . . , εm ]. Con estas ecuaciones se puede implementar el

muestreador de Gibbs haciendo:
1. Inicialice los valores de β0 y Σ0
2. Obtenga un valor β1 |Σ0 de la ecuación 3.6
3. Obtenga un valor Σ1 |β1 de la ecuación 3.7
4. Repita.
3.4. Inferencia y Evaluación de la convergencia

de los métodos MCMC
Para hacer inferencia Bayesiana a partir de las simulaciones obtenidas
con los métodos descritos anteriormente es necesario utilizar las mues-
tras de la distribución posterior p(θ|y) para calcular cuantiles, prome-
dios, momentos y otros estadı́sticos que resumen el comportamiento de
la distribución de probabilidad. De igual forma, para la inferencia pre-
dictiva posterior de valores no observados ỹ se toman muestras de la
distribución de los datos condicional a los valores simulados de p(θ|y) y
se obtienen los estadı́sticos de interés que resumen el comportamiento
de p(ỹ|y).
Sin embargo hay que tomar algunas previsiones con las simulaciones
obtenidas para asegurar que la inferencia se haga sobre simulaciones que
son representativas de la distribución de interés.
3.4.1. Dificultades con las simulaciones obtenidas

Si las simulaciones no son lo suficientemente largas, pueden no ser
representativas de la distribución de interés. El segundo problema es que
si se presenta una alta autocorrelación dentro de la secuencia simulada, el
número efectivo de muestras representativas de la distribución de interés
es menor que el número de valores simulados. Las posibles formas de
manejar estos problemas son enumeradas a continuación:
Simular múltiples secuencias con valores iniciales dispersos a través
del espacio de parámetros.
Monitorear todas las cantidades de interés comparando las varia-
ciones dentro y entre cada secuencia.
Si la eficiencia en la simulación es muy baja, el algoritmo puede
ser alterado mediante reparametrizaciones o la construcción de
mejores funciones de salto.
Descartar un número adecuado de iteraciones iniciales para elimi-
nar la influencia del iterado inicial. Esta práctica se llama burn-in.
Tomar una muestra cada k-ésima iteración para algún k, de tal
forma que se puedan obtener muestras aproximadamente indepen-
dientes de la distribución de interés (thinning).
Monitoreo de la convergencia de los estimandos escalares

La metodologı́a consiste en monitorear cada estimando escalar u otra
cantidad escalar de interés separadamente. Los estimados son los pará-
metros de interés en el modelo o cualquier otra cantidad como por ejem-
plo, el cociente de dos parámetros o el valor de una observación futura
que se desea predecir. Dado que el método que se propone está basado en
calcular medias y varianzas, es conveniente transformar los estimandos
escalares para que sean aproximadamente normales (por ejemplo, tomar
logaritmos de todas las cantidades positivas o aplicar la transformación
logit a las cantidades entre 0 y 1).
Supongamos que se han simulado m secuencias paralelas, de longi-
tud n, después de haber descartado un número adecuado de iteraciones
iniciales. Para cada estimando escalar ψ, tenemos simulaciones de J se-
cuencias paralelas de longitud n, ψij con i = 1, . . . , n; j = 1, . . . , m.
Calculamos las varianzas entre las secuencias (B) y dentro de cada se-
cuencia (W) de la siguiente forma:
J J
n X 1X 2
B= (ψ̄.j − ψ̄.. )2 , W = sj ,
J −1 J
j=1 j=1
Pn
con s2j = i=1 (ψij − ψ̄.j )2 /(n − 1). Podemos estimar var(ψ|y) por un
promedio ponderado entre las varianzas W and B,
n−1 1
ˆ + (ψ|y) =
var W + B.
n n
Esta cantidad sobreestima la varianza marginal posterior suponiendo
que la distribución inicial está apropiadamente dispersa, pero es un es-
timador insesgado bajo condiciones de estacionaridad (en el sentido de
que la distribución inicial iguala a la distribución de interés) o cuando
n → ∞.
Para cualquier valor de n finito, W deberı́a subestimar el valor de
var(ψ|y) porque las secuencias individuales no han tenido tiempo de
recorrer todo el rango de valores de la distribución de interés, pero en el
lı́mite, cuando n → ∞, la esperanza de W tiende a var(ψ|y).
La convergencia en los algoritmos de simulación MCMC es monito-
reada mediante la estimación de un factor por el cual la escala de la
distribución actual del parámetro ψ puede ser reducida suponiendo que
se continuan las simulaciones en el lı́mite n → ∞. La reducción de la
escala potencial es estimada por:
r
ˆ + (ψ|y)
var
R̂ = ,
W
lo cual va a 1 si n → ∞. Si la escala de reducción potencial es al-
ta entonces un mayor número de simulaciones pueden mejorar nuestra
inferencia sobre la distribución de interés
Monitoreo de la convergencia para toda la distribución

En este caso se recomienda calcular la reducción de la escala potencial
para todos los estimandos escalares de interés. Si R̂ no está cercano a 1
para todas estas cantidades, se continua con la simulación (quizás haya
que modificar el algoritmo para hacerlo más eficiente). Una vez que esta
cantidad esté cerca de 1 para todos los estimandos escalares, se toman las
m × n muestras (después del burn-in) y se considera que estas muestras
son muestras de la distribución de interés. La condición R̂ “cerca”de 1
depende del problema que estamos considerando; para muchos ejemplos
valores por debajo de 1, 1 son aceptables.
La metodologı́a presentada anteriormente tiene la ventaja de que no
requiere la inspección visual de los gráficos de las series simuladas para
tomar una decisión sobre la convergencia. Basarse sólo en la inspección
visual puede no ser adecuado sobre todo cuando el número de parámetros
a evaluar es importante.
3.4.2. Construcción de algoritmos de simulación eficiente
El muestreador de Gibbs es más eficiente cuando es parametrizado en

función de componentes independientes. Si los componentes son muy de-
pendientes la convergencia del método puede ser lenta. Si hay Gaussia-
nidad se pueden utilizar transformaciones lineales de los parámetros,
pero distribuciones posteriores que no son normales pueden requerir
métodos especiales. En el caso del algoritmo de Metrópolis bajo condi-
ciones de Gaussianidad, la función de salto deberı́a tener la misma es-
tructura de covarianza que la distribución de interés la cuál puede ser
estimada mediante la aproximación normal en la moda. En el caso de
modas múltiples la función de salto debe permitir saltos entre las múlti-
ples modas. El muestreador de Gibbs también puede ser simplificado
o su velocidad de convergencia mejorada si se añaden variables auxil-
iares. Esto se conoce en la práctica como el método de “aumento de
datos”(data augmentation).
Ejemplo 3.4.1. El modelo normal jerárquico

Consideremos el modelo con datos yij , i = 1, . . . , nj , j = 1, . . . , J in-
dependientes y normalmente distribuidos dentro de cada grupo J, con
medias θj y varianza común σ 2 . El número total de observaciones es
n = ΣJj=1 nj . Las medias de cada grupo siguen una distribución normal
con media común µ desconocida y varianza τ 2 . Se asume una distribu-
ción uniforme para (µ, log σ, τ ) (σ > 0,τ > 0), lo cual es equivalente a
(µ, log σ, log τ ) ∝ τ . La densidad conjunta posterior viene dada por:
J
Y
p(θ, µ, log σ, log τ |y) ∝ τ N (θj |µ, τ 2 )
j=1
J Y nj
Y
× N (yij |θj , σ 2 ).
j=1 i=1
Se puede obtener aproximaciones a la distribución posterior conjunta

de dos maneras:
Con el muestreador de Gibbs.
Las distribuciones condicionales completas de las cuáles se obtienen
las muestras de la distribución posterior son:
(θj |µ, σ, τ, y) ∼ N (θ̂j , Vθj ). Dado que estas distribuciones condi-
cionales son independientes, es posible obtener simulaciones del
vector θ simultáneamente.
(µ|θ, σ, τ, y) ∼ N (µ̂, τ 2 /J)
(σ 2 |θ, µ, τ, y) ∼ Inv − χ2 (n, σ̂ 2 )
(τ 2 |θ, µ, σ, y) ∼ Inv − χ2 (J − 1, τ̂ 2 )
Con el algoritmo de Metrópolis.
Se obtienen muestras de (θj |µ, σ, τ, y) ∼ N (θ̂j , Vθj ).
El paso de Metrópolis para obtener simulaciones de la distribu-
ción marginal posterior de (µ, log σ, log τ ) utiliza una distribución
de salto con matriz de covarianza igual a la obtenida utilizan-
do una aproximación normal centrada en la moda y multiplica-
da por (2,4)2 /3 (entre las clases de funciones de salto de la for-
∗ |θ t−1 ) = N (θ ∗ |θ t−1 , c2 Σ), la regla más eficiente asume
ma Jt (θ√
c ≈ 2,4/ d). Esto es, sea φ = (µ, log σ, log τ ) and φ̂ la moda de la
distribución marginal posterior p(µ, log σ, log τ |y), entonces
papprox (φ) = N (φ̂, Vφ )
con Vφ = [−L00 (φ̂)]−1 donde −L00 (.) es la matriz de información
observada. Se usa la función de salto dada por
Jt (θ∗ |θt−1 ) = N (θ∗ |θt−1 , ((2,4)2 /3)Vφ ).
3.5. Breve introducción a WinBUGS

Una de las aplicaciones más importantes y comunes del muestreador
de Gibbs corresponde a los modelos jerárquicos, es decir, aquellos mode-
los que se construyen a partir de una secuencia de distribuciones condi-
cionales. El software BUGS, por las siglas en inglés correspondientes a
Bayes Using Gibbs Sampler, inicialmente desarrollado por Lund, Best y
Spiegelhalter [WB] se encuentra implementado para el sistema operativo
Windows en la versión WinBUGS que se puede obtener en la página
http://www.mrc-bsu.cam.ac.uk/bugs/.
El software cuenta con una ayuda en forma de manual y multiples ejem-

plos, bastante amigable de leer, de manera que se recomienda familiari-
zarse con el software con dicha ayuda. Lo que se presenta a continuación
sirve únicamente de referencia.
Para ajustar un modelo en WinBUGS es necesario crear un archivo de
instrucciones, bien a través un lenguaje de comandos, bastante parecido
al de R, o a través de un modelo gráfico (ver 3.5.2 más abajo), en la que
se especifica el modelo (esto es, la verosimilitud y la distribución previa)
ası́ como la lista o conjunto de datos a ser analizados. WinBUGS genera
una o varias cadenas de Markov correspondientes a la implementación
del muestreador de Gibbs implı́cito en el modelo. El código debe incluir
las siguientes secciones:
model, es decir, el modelo
data, la lista de datos
initial values, los valores de inicialización de las cadenas
La correctitud del modelo y la validación de datos se realiza en el

menú Model en el aparte de Specification tool, donde además se de-
fine el número de cadenas que se desea inicializar. Los parámetros y
funciones de los parámetros deben estar definidos en el modelo a fin de
hacerle seguimiento a los mismos a través de la ventana de monitoreo
de muestras, que se encuentra en el menú Inference bajo el nombre de
Samples.
Observaciones:
1. La distribución normal está parametrizada en términos de media y

precisión, no en términos de varianza como se ha venido trabajando
en este texto
2. WinBUGS no permite la especificación de distribuciones previas

impropias. El manual recomienda usar precisiones muy pequeñas
o distribuciones quasi planas cuando se quiere usar previas no in-
formativas
3. Si se desea estimar la distribución predictiva de nuevos datos, se

puede agregar en la lista de datos uno o más ”NA”s. Esta es la
notación de WinBUGS para un valor observable desconocido.
4. Se pueden usar distribuciones truncadas y datos censurados.
3.5.1. Distribuciones condicionales y grafos dirigidos

Un modelo bayesiano comienza con una distribución previa y una
verosimilitud, que tienen una prelación natural, puesto que uno puede
pensar que primero se escoge un valor del parámetro de acuerdo con
la previa y luego se obtiene un valor de la observación a partir de la
distribución de muestreo p(y|θ). Esto puede ser representado por medio
de un grafo dirigido acı́clico, donde por grafo entendemos una colección
de nodos conectados. Un grafo dirigido se refiere a un grafo donde la
conexión entre dos nodos tiene una dirección, mientras que acı́clico sig-
nifica que la dirección es en un sólo sentido. Ası́ la relación entre previa
y verosimilitud puede ser vista como:
p(θ) p(y|θ) (3.8)

θ −→ y
Un modelo jerárquico es usualmente especificado como una secuencia de

dos o mas distribuciones condicionales que definen la distribución previa,
por ejemplo:
p(θ2 ) p(θ1 |θ2 ) p(y|θ1 )

(3.9)
1er paso 2do paso
θ2 −→ θ1 −→ y
Esta estructura jerárquica, y su representación como un grafo dirigi-

do, inmediatamente sugiere un muestreador de Gibbs de dos fases para
simular de la distribución de (θ1 , θ2 ) dado y:
θ2 | θ1
θ1 | θ2 , y
A continuación se presentan los tipos de estructura más comunes:
Estructura lineal
θ1 −→ θ2 −→ θ3
que induce un muestreador de Gibbs de la forma:
θ1 | θ2
θ2 | θ1 , θ 3
θ3 | θ2
lo que quiere decir que θ1 y θ3 son independientes, condicional-

mente en θ2 .
Un padre, dos hijos

θ2
%
θ1
&
θ3
con lo que la distribución conjunta viene dada por:
p(θ1 , θ2 , θ3 ) = p(θ1 )p(θ2 |θ1 )p(θ3 |θ1 )
Dos padres, un hijo

θ1
&
θ3
%
θ2
En este caso no hay independiencia condicional y el muestreador

de Gibbs requiere de todas las distribuciones condicionales
θ1 | θ3 , θ 2
θ3 | θ1 , θ 2
θ2 | θ3 , θ 1
De estos ejemplos se derivan tres reglas para leer la estructura de

dependencia a partir de un grafo dirigido. Ası́ un nodo N depende de:
1. Todo nodo al cual apunta N ;
2. Todo nodo por el que N es apuntado;
3. Todo nodo que apunta a cualquier nodo apuntado por N
y a partir de esas dependencias se puede “leer”los pasos del muestreador
de Gibbs.
Ejemplo 3.5.1. Considerese el modelo de la sección 2.3.2, pero ahora con
yi = Xi βi + i , i ∼ iid N (0, σi Ini ), i = 1, . . . , m (3.10)
pero ahora la relación entre las ecuaciones viene dada en los parámetros
βi a través de:
βi = ∆T zi + νi , νi ∼ iid N (0, Vβ ). (3.11)
Aquı́ las variables zi , representan caracterı́sticas latentes que son com-

partidas en las m unidades, por ejemplo, si zi = 1 y ∆ = µT , la ecuación
3.11 implica que las βi tienen una media común. Suponiendo distribu-
ciones previas para Vβ y ∆, por ejemplo Vβ ∼ Inv − W ishart(ν, V ),
∆|Vβ ∼ N ormal(∆, ¯ Vβ ⊗ A−1 ), se puede escribir el modelo como una
sucesión distribuciones condicionales en forma de grafo dirigido:
ν, V→ Vβ
↓ &
βi
¯
A, ∆ → ∆ % & (3.12)
yi
%
σi2
3.5.2. Modelos gráficos en WinBUGS

La relación entre las distribuciones condicionales y los grafos dirigidos
está implementada en WINBUGS para definir el modelo propuesto para
un conjunto de datos. En la figura 3.5 se puede ver un ejemplo, extraido
del manual de WinBUGS, de un modelo gráfico. En este caso los nodos
están representados por un ovalo, mientras que las dependencias estan
clasificadas como estocásticas o lógicas, siendo estas últimas identificadas
con una flecha hueca. El ejemplo corresponde al modelo lineal normal
de efectos aleatorios:
yij ∼ N (µij , τc ) = N (αi + βi (xj − x̄), τc )
αi ∼ N (αc , τα )
βi ∼ N (βc , τβ )
con los τ representando la precisión.
La plataforma que rodea a los nodos µij y yij se refiere a que esta
especificación sirve para los datos desde i = 1 hasta N .
Figura 3.5: Ejemplo de un modelo gráfico de WinBUGs
Estos modelos gráficos se definen en WinBUGS usando las facilidades

del menú Doodle. Más información de como usarlas se puede obtener en
el menú de ayuda del programa.
3.5.3. Ejemplo del Bioensayo

En el ejemplo 2.6.1 se presentaron los resultados obtenidos usando el
lenguaje R. La implementación en WinUGS se presenta a continuación:
model bio;
var
dose[N], # dosis recibida en cada grupo
nanimals[N], # numero de animales en cada grupo
deaths[N], # numero de muertes por grupo
prob[N], # "verdadera" probabilidad de muerte
alpha, beta, # parametros de la regresion
ld50; # parametro que define la dosis a la
# cual hay un 50% de tasa de supervivencia
{
alpha ~ dnorm(0.0,1.0E-06); # intercepto
beta ~ dnorm(0.0,1.0E-06); # pendiente
for(i in 1:N) {
deaths[i] ~ dbin(prob[i],nanimals[i]);
logit(prob[i]) <- alpha + beta*dose[i];
}
ld50<-(-alpha/beta);
}
# Datos
list(dose = c(-0.863,-0.296,-0.053,0.727),
nanimals=c(5,5,5,5),deaths=c(0,1,3,5),N=4)
# Inicio una cadena
list(alpha=0.0,beta=0.0)
Nótese que la cantidad de interes ld50 está definida en el modelo. En

la figura 3.6 se muestra la densidad estimada y la serie de valores de
ld50 para una cadena. Compárese la densidad estimada con la obtenida
en el ejemplo 2.6.1.
Para implementar el modelo de sobredispersion, mencionado en la

sección 2.4.2, se puede proceder como sigue:
model biodisperse; #Relacion dosis
respuesta con errores (sobredispersion)
var
dose[N], # dosis recibida en cada grupo
nanimals[N], # numero de animales en cada grupo
deaths[N], # numero de muertes por grupo
prob[N], # "verdadera" probabilidad de muerte
alpha, beta, # parametros de la regresion
e[N], # random effects model...
Figura 3.6: Salida de WinBUGS, densidad estimada para LD50
tau, # precision del modelo

ld50; # parametro que define la dosis a la
# cual hay un 50% de tasa de supervivencia
alpha ~ dnorm(0.0,1.0E-06); # intercepto
beta ~ dnorm(0.0,1.0E-06); # pendiente
tau ~ dgamma(1.0E-1,1.0E-1);
for(i in 1:N) {
e[i] ~ dnorm(0.0,tau);
logit(prob[i]) <- alpha + beta* dose[i] + e[i];
deaths[i] ~ dbin(prob[i],nanimals[i]);
}
ld50<-(-alpha/beta);
}
# Datos
list(dose = c(-0.863,-0.296,-0.053,0.727),
nanimals=c(5,5,5,5),deaths=c(0,1,3,5),N=4)
# Inicio una cadena
list(alpha=-1.0,beta=20.9,tau=0.001)
3.5.4. Otros paquetes y software

En el presente material, al igual que en varios textos recientes, se
decidió trabajar principalmente con WinBUGS. Sin embargo, existen
muchos otros programas que permiten la aplicación de diversas técnicas
de análisis Bayesiano en una variedad de problemas, y que es imposible
describir aquı́ en su totalidad. Darren Wilson, profesor de la Universi-
dad de Newcastle en Inglaterra, mantiene una página web de vı́nculos a
algunos programas para estadı́stica Bayesiana en:
http://www.mas.ncl.ac.uk/~ndjw1/bookmarks/Stats/
Software-Statistical\_computing/Bayesian_software/index.html.
Otros paquetes se han desarrollado como bibliotecas de programas en

R, y pueden ser obtenidos de CRAN (Comprehensive R Archive Net-
work).
El lector interesado en el análisis Bayesiano puede comenzar su búsque-
da en los sitios antes mencionados, en la seguridad que encontrará una
gran variedad de métodos e implementaciones que pueden ser usados
para resolver su problema.
Capı́tulo 4
Diagnóstico y selección de
modelos
En el segundo y tercer capı́tulo de estas notas se han expuesto los dos

primeros pasos de la inferencia Bayesiana, esto es, construir un modelo de
probabilidad y calcular la distribución posterior de todas las cantidades
o estimandos de interés. En muchos casos, y especialmente para modelos
complejos, la estimación se realiza usando métodos computacionalmente
intensivos de simulación.
El siguiente paso, el cual no debe dejarse de lado, es la evaluación del
ajuste del modelo a los datos y al conocimiento existente sobre el pro-
blema. Dado que es muy difı́cil incluir en un modelo todos los aspectos
de un problema real, es muy importante investigar posibles aspectos que
no han sido incluı́dos en el model propuesto.
Un buen análisis Bayesiano debe incluir algún diagnóstico del ajuste
adecuado del modelo a los datos disponibles, y de la idoneidad del mo-
delo para el propósito para el cual fue construido. En este contexto se
considerará que el término modelo incluye la distribución de muestreo,
la distribución a priori y cualquier estructura jerárquica que se esté em-
pleando. Cualquiera de estos elementos puede causar que el modelo no
cumpla las expectativas para las cuales fue propuesto, y puede estar
sujeto a cambio. Por lo tanto, es necesario poder comparar y selec-
cionar entre diferentes modelos aquel (o aquellos) que mejor se ajustan
al problema estudiado (es importante destacar que no siempre existe un
“mejor” modelo, y se puede tener un conjunto de modelos que poseen
97
un desempeño similar).
En este capı́tulo se presentarán algunos de los métodos más usados
para diagnosticar y seleccionar modelos.
4.1. Principios y métodos para el diagnóstico

de un modelo
Al evaluar un modelo, la pregunta pertinente no es si el modelo es
verdadero o falso, ya que en la mayorı́a de los casos ningún modelo es
totalmente correcto, aún cuando sea útil en la práctica. La pregunta
relevante será, entonces, si las deficiencias del modelo tienen un impacto
importante en la inferencia.
La primera herramienta para el diagnóstico de un modelo es la propia
distribución posterior que produce. A continuación se consideran tres
formas de utilizar la posterior en el diagnóstico:
Comparar la distribución posterior de los parámetros con un cono-
cimiento importante del problema o con otros datos que no hayan
sido incluidos en la distribución a priori o en la verosimilitud. Por
ejemplo, comparar la probabilidad posterior de θj = Probabilidad
del jugador j de conectar un hit en un perı́odo de juego, con el
rendimiento de los jugadores en perı́odos anteriores.
Comparar la distribución predictiva posterior de observaciones fu-
turas con el conocimiento del problema. Por ejemplo, comparar
las predicciones por estado de una elección presidencial con un
conocimiento polı́tico importante sobre la preferencia de los can-
didatos en cada estado.
Comparar la distribución predictiva posterior de observaciones fu-
turas con los datos que ya han ocurrido. Esto implica que si el
modelo es adecuado, los datos observados deben ser factibles bajo
la distribución predictiva posterior. En este caso no se usa infor-
mación adicional.
Más formalmente, también puede hacerse una validación externa uti-
lizando el modelo para hacer predicciones sobre datos futuros. Esto
implica la recopilación de estos datos, para poder compararlos con las
predicciones ya hechas.
Diagnóstico de modelos 99
4.1.1. Comparación de los datos con la distribución pre-

dictiva posterior
El chequeo predictivo posterior trata de responder a la pregunta de
si el modelo es consistente con los datos. La técnica básica consiste en
simular muestras de la distribución predictiva posterior y comparar estas
muestras de datos replicados con los datos observados. Es muy útil hacer
comparaciones gráficas de resúmenes de los datos con resúmenes de las
simulaciones de la distribución predictiva posterior. Cualquier diferencia
sistemática entre las simulaciones y los datos indica que el modelo puede
tener fallas.
Notación para los datos replicados

Sean y los datos observados y θ el vector de parámetros incluyendo
todos los hiperparámetros si el modelo es jerárquico. Sea y rep una repli-
cación de y (un dato que ha podido ser observado) y ỹ una observación
futura observable. Es decir, ỹ es cualquier valor futuro observable o vec-
tor de cantidades observables, mientras que y rep es una replicación que
se parece a y.
Para aclarar las diferencias entre y rep y ỹ, obsérvese que si el modelo
contiene variables explicativas x, y (los datos) y y rep (las replicaciones)
tienen iguales valores de x pero ỹ tiene posibles valores futuros x̃ de x.
Se trabaja con la distribución de y rep dado los datos (conocimientos)
actuales. Esta es equivalente a la distribución predictiva posterior:
Z
p(y |y) = p(y rep |θ)p(θ|y)dθ
rep
Pasos para medir las discrepancias entre los datos y las simu-
laciones de la distribución predictiva
Primero se define una medida de discrepancia T (y, θ), la cual es
una cantidad escalar que depende de los parámetros y los datos
(equivalente a la estadı́stica de prueba desde el punto de vista
clásico). Se utiliza la notación T (y) para el estadı́stico de prueba
en el contexto clásico, es decir, que sólo depende de los datos. En el
contexto Bayesiano se generaliza este concepto para permitir la de-
pendencia de los parámetros del modelo mediante su distribución
predictiva posterior.
La falta de ajuste de los datos con respecto a la distribución pre-

dictiva posterior se mide con el p-valor o la probabilidad de la cola.
Desde un punto de vista clásico:
p-valorC = P r(T (y rep ) ≥ T (y)|θ) (4.1)
donde la probabilidad se calcula sobre la distribución de y rep con

θ fijo. En este caso la distribución de y rep dado y y θ es lo mismo
que la distribución de y rep dado θ solamente.
Desde un punto de vista Bayesiano las cantidades de prueba son
funciones tanto de las cantidades desconocidas como de los datos,
porque el estadı́stico de prueba es evaluado en las simulaciones de
la distribución posterior de los parámetros desconocidos:
El p-valor Bayesiano predictivo posterior se calcula como:
p-valorB = P r(T (y rep , θ) ≥ T (y, θ)|y) (4.2)
donde la probabilidad se toma sobre la distribución posterior de θ y

la distribución posterior predictiva de y rep . Esta es la distribución
conjunta p(θ, y rep |y).
El p-valor predictivo posterior puede también interpretarse como
la esperanza posterior del p-valor clásico.
Si se tienen L simulaciones de la densidad predictiva posterior
de θ, se puede simular un valor de y rep para cada valor de θ si-
mulado, obteniéndose entonces L simulaciones de la distribución
p(θ, y rep |y). El diagnóstico predictivo posterior consiste en com-
parar la cantidad T (y, θl ) con T (y rep l , θl ). El p-valor predictivo
posterior estimado es la proporción de las L simulaciones para las
cuáles T (y rep l , θl ) ≥ T (y, θl ) Esta es la probabilidad posterior de
que las réplicas sean más extremas que los datos.
Prueba χ2
Una medida general de discrepancia es la discrepancia χ2 o prueba de
bondad de ajuste, definida como
X (yi − E(yi |θ))2
discrepancia χ2 : T (y, θ) =
var(yi |θ)
i
donde la suma se hace sobre las observaciones.

Cuando θ es conocido, esta cantidad es similar a la prueba χ2 clásica de
Bondad de Ajuste. Otra opción que se relaciona con ésta es la devianza,
definida como:
T (y, θ) = −2log p(y|θ)

En una prueba χ2 clásica θ está fijo y puede tomar el valor de la
hipótesis nula de interés ó el estimador de máxima verosimilitud. En
este caso la distribución χ2 de referencia está basada en la aproximación
para muestras grandes de la distribución a posteriori. Para la prueba χ2
Bayesiana la distribución de referencia se calcula con las simulaciones
predictivas posterior.
Interpretación de los p-valores predictivos a posteriori

Se considerará dudoso un modelo cuando la probabilidad de la co-
la para alguna cantidad de prueba de interés esté cercana a 0 o a 1
(menor que 0, 01 o mayor 0, 99). Los p-valores no deben ser interpreta-
dos como P r(Modelo es verdadero|Datos). De igual forma los p-valores
no deben ser interpretados como evidencia numérica. Es decir, un p-valor
de 0, 00001 no es más fuerte en la práctica que 0, 001. En ambos casos el
aspecto de los datos medido para la cantidad de prueba es inconsistente
con el modelo. El objetivo más importante no es responder a la pregunta:
“¿provienen los datos del modelo propuesto?”, sino cuantificar las dis-
crepancias entre los datos y el modelo y determinar si estas discrepancias
provienen del azar bajo las suposiciones del mismo modelo.
Relación de las pruebas clásicas con las pruebas Bayesianas

Las pruebas Bayesianas predictivas a posteriori son generalizaciones
de las pruebas clásicas ya que se promedia sobre la distribución poste-
rior del vector de parámetros desconocido en lugar de usar algún valor
fijo θ̂. Estas pruebas no dependen de una cantidad pivotal predeter-
minada ni de resultados asintóticos y por lo tanto pueden aplicarse a
cualquier modelo de probabilidad. Pero, cuidado! Estas pruebas no son
automáticas: la selección de una cantidad de prueba y de una distribu-
ción predictiva apropiada necesita considerar el tipo de inferencia que
se requiere para el problema en cuestión.
4.1.2. Ejemplo de diagnóstico de modelos

Chequeo predictivo posterior del ejemplo educativo de la sec-
ción 5.5 del [GCSR]
Este ejemplo ya fue discutido en la sección 2.6, descrito en el ejemplo
2.6.2. La pregunta que uno se hace es si el modelo se ajusta al compor-
tamiento de los datos. Por ejemplo, ¿es el valor observado más alto, 28
puntos, consistente con la distribución predictiva posterior? Una mane-
ra de comprobarlo es llevar a cabo una simulación de 500 muestras de
la distribución predictiva posterior y calcular el máximo valor observa-
do para cada simulación (máxj yjrep ) donde j = 1, . . . , 8. Si la mayorı́a
de estas simulaciones está por debajo del valor de 28 puntos, entonces
se podrı́a decir que el modelo no está reproduciendo este importante
aspecto de los datos.
Es posible seleccionar distintos estadı́sticos de prueba, tal y cómo se
explicó en la sección 4.1.1. Para probar el ajuste del modelo a los datos
observados se puede examinar la distribución predictiva posterior del
máximo valor observado entre las ocho escuelas, máxj yjrep ; el valor mı́ni-
mo, mı́nj yjrep ; el promedio, media(yj ) y desviación estándard, dest(yj ).
La distribución predictiva posterior de cada estadı́stico de prueba se
puede aproximar por su histograma. Luego se ubica el cuantil corres-
pondiente al estadı́stico de prueba calculado sobre los datos observados
y se estima el p-valor correpondiente mediante la ecuación 4.2. Los re-
sultados de este análisis son presentados en la figura 4.1.
Dado que según la distribución del estadı́stico de prueba calculado
a partir de los datos simulados de la distribución predictiva posterior,
la probabilidad de exceder dicho estadı́stico para los datos observados
no es ni muy grande ni muy pequeña, se concluye que modelo genera
resultados predichos que resultan similares a los datos observados.
4.1.3. Análisis de sensibilidad y expansión de modelos

El análisis de sensibilidad toma en cuenta la incertidumbre en la infe-
rencia posterior debido a la existencia de modelos alternativos razona-
bles. Se pueden considerar otros modelos que difieran en la especificación
de la distribución a priori, la verosimilitud o ambos.
El método básico de análisis de sensibilidad es ajustar varios modelos
de probabilidad al mismo problema y entre las distintas estrategias para
Figura 4.1: Distribución predictiva posterior, resultados observados, y

p-valor Bayesiano para cada estadı́stico de prueba considerado en el
ejemplo educativo
llevar a cabo este análisis se pueden mencionar las siguientes:
Reemplazar distribuciones previas impropias con distribuciones

propias que provean un conocimiento a priori importante del pro-
blema.
Usar modelos robustos que aseguren poca influencia de obser-

vaciones inusuales, como por ejemplo, usar una distribución t-
Student en lugar de la distribución normal.
Todas estas estrategias van acompañadas de un proceso de diagnósti-

co de modelos, tomando ası́ en cuenta la incertidumbre asociada en la
inferencia posterior cuando se utilizan modelos alternativos. Un modelo
alternativo puede ser un modelo expandido para el cual se consideran
nuevos datos o nuevos parámetros. Esto implica que el viejo modelo
p(y, θ) es reemplazado por el nuevo modelo p(y, θ, φ) o de una forma

más general, por p(y, y ∗ , θ, φ).
4.2. Comparación de Modelos

En general la estrategia es comenzar el análisis de datos con un modelo
simple que sólo utiliza parte de la información disponible. Por ejemplo,
un modelo de regresión que sólo contempla algunos de los posibles pre-
dictores; un modelo que no incluya la evidencia de que las varianzas son
iguales; o un modelo que establezca una distribución normal para datos
discretos.
Un proceso de selección de modelos generalmente sigue estos dos es-
cenarios:
Se compara el modelo más simple con el modelo más complejo para
determinar la ganancia que se obtiene al expandir al modelo, o
viceversa, si el modelo es simplificado, se determina la pérdida por
usar un modelo más simple. Si los modelos están anidados, es decir,
si el conjunto de parámetros del modelo más simple está incluı́do
en el conjunto de parámetros de modelo más complejo, se trata
de analizar si la complejidad adicional se justifica pues se ajustan
mejor los datos. La teorı́a estadı́stica de pruebas de hipótesis tiene
que ver con los métodos para determinar si una mejorı́a en el ajuste
de un modelo es justificable estadı́sticamente. Si θ es el vector
de parámetros en un modelo más pequeño y ψ los parámetros
adicionales, se desea comparar las dos distribuciones a posteriori
p(θ|y) y p(θ, ψ|y), además de sus distribuciones predictivas para
nuevas réplicas yrep .
El segundo escenario tiene que ver con la comparación de dos o
más modelos que no están anidados, como por ejemplo, el caso de
modelos de regresión que tienen conjuntos de variables predictoras
completamente diferentes. En este caso ningún modelo generaliza
al otro y lo que se quiere es comparar el ajuste de los distintos
modelos para determinar cuán adecuados son los predictores de
cada modelo cuando se consideran por separado.
En ambos escenarios, el procedimiento Bayesiano formal es el uso de
factores de Bayes (ver sección 4.2.3) para hacer estas comparaciones. Sin
embargo, se han desarrollado enfoques alternativos basados en medidas

de discrepancia. Uno de ellos, basado en la devianza como medida de
discrepancia, fue introducido por Spiegelhalter et al [SBCV] y será pre-
sentado a continuación.
4.2.1. Devianza esperada como una medida de la pre-

cisión predictiva
Anteriormente en la sección 4.1 se introdujeron algunas medidas de
discrepancia que nos ayudan a decidir si el ajuste del modelo a los datos
es adecuado. En este caso se quiere comparar dos o más modelos distintos
para determinar cuál de ellos tiene la mayor precisión predictiva. Si
ningún modelo ajusta bien los datos, aún ası́ es útil comparar su ajuste
relativo.
El ajuste de un modelo puede ser resumido con el error cuadrático
medio:
1 X (yi − E(yi |θ))2
T (y, θ) =
n var(yi |θ)
i
Otra opción es calcular la devianza:
D(y, θ) = −2log p(y|θ) (4.3)
La devianza es proporcional al error cuadrático medio si el modelo es
normal con varianza constante. La discrepancia entre los datos y el mo-
delo depende en general de θ y y. Para obtener una medida de discrepacia
que sólo depende de y se calcula:
Dθ̂ (y) = D(y, θ̂(y)) (4.4)
En este caso se usa un estimado puntual θ̂(y), como por ejemplo la

media de las simulaciones a posterior.
Desde el punto de vista Bayesiano es más interesante calcular el pro-
medio sobre la distribución a posteriori (Devianza promedio a posteri-
ori):
Davg (y) = E(D(y, θ)|y). (4.5)
Esta cantidad puede ser estimada utilizando las simulaciones a poste-
riori θl :
L
1X
D̂avg (y) = D(y, θl ). (4.6)
L
l=1
La cantidad 4.6 es un mejor estimador del error del modelo que el esti-
mador puntual 4.4 porque esta última toma en cuenta todos los valores
posibles del vector de parámetros.
La diferencia entre la devianza promedio a posteriori 4.6 y la devianza
en 4.4 es pD , que es una medida del número efectivo de parámetros en
un modelo Bayesiano:
pD = D̂avg (y) − Dθ̂(y) . (4.7)
Esta medida de complejidad del modelo es útil especialmente en mo-

delos jerárquicos, en los cuales la introducción de información sobre la
estructura y sobre las relaciones entre los parámetros claramente reduce
la dimensionalidad real del problema, pero no es claro en general qué tan
grande es esta reducción. Cuando no existe estructura jerárquica, puede
verse que pD es aproximadamente igual al número de parámetro desco-
nocidos del modelo.
4.2.2. Devianza para datos replicados y criterio de infor-

mación de la devianza (DIC)
Si se desea estimar el error para los datos replicados se calcula la
devianza de la siguiente forma:
pred
Davg (y) = E[D(y rep , θ̂(y))] (4.8)
donde D(y rep , θ) = −2 log p(y rep |θ) y θ̂ es un estimador del parámetro
como por ejemplo la media posterior. En general esta devianza será ma-
yor que D̂avg (y) definida en 4.6, porque los datos replicados son com-
parados con un modelo estimado a partir de los datos y.
pred
Davg (y) definido en 4.8 ha sido sugerido como un criterio de ajuste
de modelos y puede ser aproximado por una expresión que se denomina
Criterio de Información de la Devianza (DIC):
pred
DIC = D̂avg (y) = 2D̂avg (y) − Dθ̂ (y) (4.9)
donde Dθ̂ (y) y D̂avg (y) fueron definidas en 4.4 y 4.6.

Nótese que usando la ecuación 4.7 también puede escribirse
pred
DIC = D̂avg (y) = D̂avg (y) + pD , (4.10)
es decir, el Criterio de Información de la Deviancia puede verse como la

suma de una medida de discrepancia (la deviancia promedio a posteriori)
y una medida de complejidad (el número efectivo de parámetros pD ).
Se espera, por lo tanto, que un buen modelo tenga un DIC bajo. Nótese
además que las cantidades involucradas en el cálculo del DIC se pueden
obtener fácilmente usando resultados de simulaciones. Este hecho ha
popularizado el uso del DIC como estrategia de selección de modelos.
En general, se dirá que un modelo es mejor que otro cuando su DIC es
“sustancialmente” menor. Aún cuando no es fácil determinar cuándo una
diferencia en el DIC entre dos modelos es grande, en el sitio web de Win-
BUGS ( http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml)
los autores recomiendan los siguientes criterios generales:
Diferencias de más de 10 en el DIC permiten descartar el modelo

con el DIC más alto.
Diferencias entre 5 y 10 pueden considerarse sustanciales.
Cuando la diferencia es menores que cinco y los modelos hacen
inferencias muy diferentes, reportar sólo el modelo con el menor
DIC puede llevar a conclusiones erróneas.
En el capı́tulo 5 se presentarán ejemplos del uso del Criterio de Infor-

mación de la Deviancia para la selección de modelos.
4.2.3. Factores de Bayes

Sean M1 , M2 , . . . , Mq un conjunto de modelos bajo consideración,
tales que para cada modelo la verosimilitud de los datos viene da-
da por pi (y|θi ). Los θi son desconocidos y tienen dimensión ki . Sean
P (Mi ), i = 1, . . . , k, las
P probabilidades previas de que cada modelo sea
cierto, y suponga que qi=1 P (Mi ) = 1. Dado un vector de observaciones
y, se desea determinar cuál de los modelos tiene una mayor probabilidad
posterior. Usando el Teorema de Bayes, se obtiene que
P (y|Mi )P (Mi )
P (Mi |y) = Pq
j=1 P (y|Mj )P (Mj )
m (y)P (Mi )
= Pq i (4.11)
j=1 mj (y)P (Mj )
R
donde mi (y) = pi (y|θi )p(θi )dθi es la distribución marginal o predictiva
del vector de datos y bajo el modelo i.
Para comparar dos modelos, se puede calcular el cociente de sus pro-
babilidades posteriores, el cual, usando la ecuación 4.11, se calcula como
P (Mi |y) mi (y)P (Mi ) mi (y) P (Mi )

= = × (4.12)
P (Mj |y) mj (y)P (Mj ) mj (y) P (Mj )
Es decir, el cociente de las probabilidades posteriores es el cociente de
las probabilidades previas multiplicado por un factor que representa la
actualización del conocimiento proporcionado por los datos. Este factor
se denomina factor de Bayes, y será denotado por Bij ,
R
mi (y) pi (y|θi )p(θi )dθi
Bij = = R (4.13)
mj (y) pj (y|θj )p(θj )dθj
Cuando no existen parámetros desconocidos en los modelos a com-
parar, el factor de Bayes se reduce a la razón de verosimilitudes, coinci-
diendo ası́ con la inferencia clásica. Por tanto, si se considera 2 log Bi j,
ésta cantidad estará en la misma escala que la deviancia convencional.
Sin embargo, la inferencia basada en factores de Bayes respecta el princi-
pio de parsimonia, a diferencia de los métodos frecuentistas que tienden a
seleccionar el model más complejo cuando el número de datos es grande.
Otra caracterı́stica importante del factor de Bayes es que no requiere la
selección de una hipótesis nula, ya que ambas hipótesis son tratadas de
manera simétrica en el procedimiento de selección.
Jeffreys [Jef] proporciona una escala de evidencia para interpretar los
valores de un factor de Bayes. La versión de la escala de evidencia que
se presenta en el cuadro 4.1 está tomada de [KR95]
Nótese que el cálculo del factor de Bayes requiere la asignación de
previas πi (θi ) para cada uno de los modelos. Esto puede no ser fácil, y
el resultado de la selección de modelos puede depender de las previas
elegidas, especialmente para tamaños de muestra pequeños. En proble-
mas de estimación, una posible estrategia era la asignación de previas
objetivas, tal y como se presentó en la sección 1.9. Sin embargo, muchas
previas objetivas comúnmente empleadas son impropias; en este caso, el
factor de Bayes estarı́a definido salvo una constante arbitraria, lo cual
no permite usarlo para inferencia. Si bien se han desarrollado diferentes
métodos para corregir este problema y calibrar el factor de Bayes basa-
do en previas objetivas impropias (ver un resumen de estos métodos
Cuadro 4.1: Escala de evidencia de Jeffreys para los factores de Bayes

B10 2 log B10 Interpretación
Por debajo de 1 Negativo Apoya al modelo 0
1-3 0-2 Evidencia débil a favor del
modelo 1
(No suficiente para decidir)
3-20 2-6 Evidencia positiva a favor del
modelo 1
20-150 6-10 Evidencia fuerte a favor del
modelo 1
Mayor de 150 Mayor de 10 Evidencia decisiva a favor del
modelo 1
en [BP01]), en este trabajo sólo se usarán factores de Bayes basados en

previas propias.
A continuación se presentan dos ejemplos sencillos de la aplicación de
los factores de Bayes.
Ejemplo 4.2.1. Ejemplo de genética ([GCSR], sección 1.4): Se con-
sidera el problema de determinar la probabilidad de que una mujer sea
portadora del gen de la hemofilia (θ = 1) o no (θ = 0).
Se obtiene una estimación de la probabilidad a priori para θ,
Pr(θ = 1) y P r(θ = 0) a partir de la condición de su madre, padre
y hermano. En este caso se considera P r(θ = 0) = P r(θ = 1) = 12
Se conocen el estado de sus dos hijos varones: y1 y y2 donde
yi = 1 si el hijo es afectado o yi = 0 si no. En este ejemplo se
supone y1 = y2 = 0, es decir, ninguno de los hijos está afecta-
do por la enfermedad. Se calcula la verosimilitud de estos datos:
p(y1 = 0, y2 = 0|θ). Si la mujer es portadora cada hijo tiene 50 %
de probabilidad de heredar el gen y por lo tanto de ser afectado
(p(y1 = 0, y2 = 0|θ = 1) = (0, 5)(0, 5) = 0, 25). Si no es portadora,
la probabilidad de que los hijos no estén afectados es casi 1 con-
siderando que una posible mutación tiene una probabilidad muy
baja (p(y1 = 0, y2 = 0|θ = 0) = (1)(1) = 1)
Se calcula la distribución a posteriori Pr(θ = 1|y) mediante el
teorema de Bayes, y se obtiene un valor de P r(θ = 1|y) = 0, 20
En este caso hay dos modelos que compiten: M1 : La mujer está afec-
tada; y M2 : La mujer no está afectada; esto es: θ = 1 y θ = 0. La
razón de probabilidades a priori es p(M2 )/p(M1 ) = 1. El factor de
Bayes de los datos en los que la mujer tiene dos hijos no afectados es
p(y|M2 ) 1,0
B21 = p(y|M 1)
= 0,25 = 4; de acuerdo a la escala de evidencia de Jeffreys,
este valor aporta evidencia positiva a favor del modelo 2, es decir, a fa-
vor de que la mujer no es portadora del gen de la hemofilia. El cociente
de las probabilidades posteriores es p(M2 |y)/p(M1 |y) = 4. En este caso
no hay modelos intermedios entre los dos modelos a comparar y cada
p(y|Mi ) es propia.
Ejemplo 4.2.2. Proporciones de machos y hembras en pobla-
ciones de venados ([McC07], pág. 112): Flueck [Fl01] determinó el
sexo de 28 venados con el objetivo de decidir si la distribución de sex-
os era equitativa. Sea Y la cantidad de machos, y p la proporción de
machos; de acuerdo con el objetivo, se desea comparar los siguientes
modelos:
M1 : p = 0, 5
M2 : p 6= 0, 5
Flueck observó 20 machos y 8 hembras en el grupo estudiado. Bajo el

modelo M1 , la probabilidad de observar estos datos se calculará como

28
m1 (20) = 0, 520 (1 − 0, 5)8 = 0,0116
20
Para el modelo M2 , se requiere una distribución previa para el pará-
metro p. Si se denota dicha previa por π(p), la predictiva de los datos
bajo el modelo M2 se calcula como
Z 1
28
m2 (20|M2 ) = p20 (1 − p)8 π(p)dp
0 20
Eligiendo una previa uniforme en el intervalo (0, 1) para p, esta pre-
dictiva será:
Z 1
28
m2 (20|M2 ) = p20 (1 − p)8 dp
20 0
Γ(29) Γ(21)Γ(9) 1
= = = 0,0345
Γ(21)Γ(9) Γ(30) 29
El factor de Bayes del modelo M1 vs el modelo M2 será, por tanto,
m1 (20) 0,0116
B12 = = = 0,336.
m2 (20) 0,0345
Es decir, el factor de Bayes apoya al modelo 2. Para ver qué tan fuerte
es ese apoyo, considere el factor de Bayes inverso:
m2 (20) 0,0345
B21 = = = 2,97
m1 (20) 0,0116
De acuerdo con la escala de evidencia de Jeffreys, el factor de Bayes
proporciona un apoyo débil al modelo M2 , es decir, al modelo para el
cual las proporciones de machos y hembras son diferentes.
Podrı́a alegarse que una previa uniforme no es adecuada en este caso,
ya que probabilidades de sexo masculino cercanas a cero o a uno son
igualmente posibles que probabilidades cercanas a 0, 5. Esto no parece
razonable desde el punto de vista biológico, ya que valores cercanos a
0, 5 deberı́an ser más probables, y no hay razón para preferir valores
superiores o inferiores a 0, 5. Si se elije una previa Beta(a,a):
Γ(2a) a−1
π(p) = p (1 − p)a−1 ,
(Γ(a))2
se obtienen las caracterı́sticas que se acaban de describir. Cuando a = 1,
se obtiene una previa uniforme, mientras que cuando a crece, la previa
se concentra cada vez más alrededor de 0,5, haciendo que los modelos
M1 y M2 sean muy parecidos.
Para esta nueva previa en el modelo M2 , la predictiva de y = 20 será
Z 1
Γ(29) Γ(2a) a−1
m2 (20) = p20 (1 − p)8 p (1 − p)a−1 dp
Γ(21)Γ(9) 0 (Γ(a))2
Z 1
Γ(29) Γ(2a)
= p20+a−1 (1 − p)8+a−1 dp
Γ(21)Γ(9) (Γ(a))2 0
Γ(29) Γ(2a) Γ(20 + a)Γ(8 + a)
=
Γ(21)Γ(9) (Γ(a))2 Γ(28 + 2a)
y por lo tanto
1 Γ(29) Γ(2a) Γ(20 + a)Γ(8 + a)

B21 =
0,0116 Γ(21)Γ(9) (Γ(a))2 Γ(28 + 2a)
Figura 4.2: Factor de Bayes B21 para comparar el modelo con propor-
ciones distintas vs proporciones iguales de machos y hembras con re-
specto al valor del parámetro de la previa, ejemplo de los venados.
Claramente, el factor de Bayes depende del valor de a. La figura 4.2

muestra los valores de B21 correspondientes a diferentes valores de a.
Nótese que B21 es siempre menor que 4; por lo tanto, para ningún valor
de a se obtiene evidencia fuerte a favor del modelo M2 , es decir, no hay
evidencia fuerte en contra de la suposición de que las proporciones entre
los sexos son iguales.
Capı́tulo 5
Casos de estudio
En los primeros cuatro capı́tulos de este material se han desarrollado

herramientas para el análisis de datos con técnicas Bayesianas. En este
capı́tulo se presentan casos de estudio que ilustran la utilidad de esta
manera de hacer inferencia en aplicaciones.
Cada caso presenta una descripción del problema, el modelo propues-
to, la implementación computacional para encontrar la distribución pos-
terior de las cantidades de interés y una breve discusión.
5.1. Confiabilidad y Mantenimiento Industrial

Descripción del problema:
Gilardoni y Colosimo (2007), [GC], presentan un análisis de datos prove-
nientes de la operación de mantenimiento de 30 transformadores de po-
tencia. Se supone que la operación de mantenimiento se realiza o bien
cuando un transformador falla y es reparado para llegar al mismo estado
en que se encontraba antes de la falla, lo que también se conoce como
mı́nima reparación (MR, as good as old) o cuando se decide hacer un
mantenimiento preventivo que restaura el transformador a su condición
original (MP, as good as new); también se asume que el costo CM R de
una operación de tipo MR es K veces mayor que el costo CM P , de la
operación MP. En el cuadro 5.1 se pueden ver los tiempos (en horas)
correspondientes a 20 transformadores que pasaron por alguna de las
operaciones de mantenimiento; once de estas operaciones fueron de MP,
con lo que se puede suponer que se tienen 41 tranformadores en prueba,
113
mientras 10 unidades no fallaron en el tiempo de observación que fue de

21.888 horas.
Cuadro 5.1: Datos de tiempos de falla y/o mantenimiento de 30 trans-

formadores eléctricos (Fuente: [GC])
Unidad Fallas y tiempos de mantenimiento preventivo

(horas)
1 8.839 17.057 (21.887)
2 9.280 16.442 (21.887)
3 10.445 (13,533)∗ (21.435)
4 (8,414)∗ (21.745)
5 17.156 (21.887)
6 16.305 (21.887)
7 16.802 (21.887)
8 (4,881)∗ (21.506)
9 7.396 7.541 (19,590)∗ (21.711)
10 15.821 19.746 (19,877)∗ (21.804)
11 15.813 (21.886)
12 15.524 (21.809)
13 (21,440)∗ (21.809)
14 11.664 17.031 (21.857)
15 (7,544) ∗ (13,583) ∗ 15.751 (20.281)
16 18.840 (21.879)
17 (2,288)∗ (4,787)∗
18 10.668 (16.838)
19 15.550 (21.887)
20 (1,616) ∗ 15.657 (21.620)
Datos censurados debido a un mantenimiento preventivo se indi-
can con un “*”
Diez unidades observadas por 21.888 horas no tuvieron fallas
El problema es encontrar un tiempo τ para la realización del MP que

minimice el costo esperado de la operación de mantenimiento por unidad
Casos 115
de tiempo, que viene dado por: (ver [GC])
C(0,T ] (τ )
H(τ ) = lı́m
T →∞ T
Z τ
1
= CP M + CM R ρ(u)du . (5.1)
τ 0
donde ρ corresponde a la función de intensidad del proceso de Poisson

no homogeneo (PPNH) con el que se modela el proceso de fallas de
un transformador en regimen de reparación mı́nima. En el campo de
confiabilidad es usual suponer que ρ(t) = β/α(t/α)β−1 , es decir, que se
modela como un procesos de ley de potencia (PLP), donde los tiempos
entre fallas tienen una distribución condicional Weibull.
Hay solución para el problema de minimización en el caso en que
Z ∞
CM P
sρ0 (s)ds > ;
0 CM R
para el PLP se tiene que el mı́nimo se obtiene en τ ∗ con

1/β
∗ CM P
τ =α
(β − 1)CM R
Modelo:
Siguiendo a [BT], la verosimilitud para los datos de falla de n equipos
con tiempo de observación T , puede escribirse como:
n1 Z n
" #
X Ti X Z timi Y
p(θ|t) = exp − ρ(s)ds − ρ(s)ds ρ(tij ) (5.2)
i=1 0 i=n1 +1 0 i,j
donde
1. θ, en el caso del PLP, corresponde al vector de parámetros (α, β),
2. tij se refiere al j-ésimo tiempo de falla para el i-ésimo sistema y

este sistema se observa hasta el tiempo T = Ti , para i = 1, . . . , n1
o se trunca en la mi -ésima falla, para i = n1 + 1, . . . , n.
Para completar el modelo, se requiere especificar una distribución pre-

via para θ = (α, β). Haciendo la transformación µ = log α, σ = 1/β que-
da un problema de localización y escala, lo que sugiere usar una previa
independiente de la forma:
1
p(µ, σ) ∝ (5.3)
σ
con la advertencia que esta es una previa impropia.
Implementación en WinNBUGS:
Como puede verse en la ecuación 5.2, hay dos dificultades con la verosi-
militud de los datos, la primera, que no es una densidad implementada
en WinBUGS y la segunda, que los datos son censurados.
Para el primer problema la solución es considerar el “truco del cero”,
que usa el hecho que la probabilidad de obtener una observación igual a
cero, de una distribución Poisson (φ), es igual a e−φ , de manera que si
se hace que todos los datos sean cero y φ = φi = − log(p(yi |θ)) + C (la
log verosimilitud), se obtiene la verosimilitud deseada. Aqui C es una
constante usada para garantizar que la tasa φ sea positiva.
Para el segundo problema se requiere separar los datos observados de
los datos censurados, separando ası́ la contribución de cada uno de ellos
en la verosimilitud. Para implementarlo en WinBUGS, en la estructura
de los datos de falla, se coloca un “NA” en el lugar del arreglo de datos
que le corresponderı́a a un dato censurado, mientras que en la estruc-
tura de datos censurados, se coloca un cero en el lugar que ocuparı́a un
dato completo. Finalmente, en lugar de usar la previa impropia de la
ecuación 5.3, se usará una distribución normal con precisión pequeña
para µ y una distribución uniforme en el intervalo (1, 100) para β, us-
ando información previa sobre otros transformadores para los que β es
mayor que uno. Con esto, el modelo queda:
model{ # Modelo para datos de falla

C <- 300 # Para asegurar phi > 0
for (i in 1:N) { # VEROSIMILITUD
ceros[i] <- 0
a[i]<- -(1-equals(t[i],0))*
(log(beta) +(beta)*(log(t[i]+0.01)-mu))
phi[i] <- C + exp(beta*(log(t.cen[i]+0.01)-mu))
+a[i]
ceros[i] ~ dpois(phi[i])
Casos 117
Figura 5.1: Resultados de la simulación de los parámetros para el pro-

blema de mantenimiento óptimo
}
alpha<- exp(mu)
mu ~ dnorm(0, 0.0001)
beta~ dunif(1,100)
tau <- alpha*pow(15*(beta-1),-1/beta)
}
Nótese que en la definición de τ se está considerando que CM R /CM P =

15
Discusión de resultados:
La solución clásica a este problema, presentada en [GC] es encontrar
los estimadores máximo verosimiles de α y β y estimar intervalos de
confianza para τ usando la aproximación normal. En [GC] se obtuvo
β̂ = 1, 988 y α̂ = 24,844. Considerando la relación CM R /CM P igual a
15, se calcula el estimador MLE de τ , τ̂ = 6,400 horas o 276 dı́as, con un
intervalo de confianza de 6,400 ± (1, 96)(1,724) = (3,021, 9,780) con los
lı́mites calculados usando el delta-método a partir de las estimaciones
Figura 5.2: Resultados de la simulación del tiempo óptimo para realizar

el mantenimiento perfecto
asintóticas de las desviaciones de α̂ y β̂. En la figura 5.1 se muestran el

histograma y una porción del gráfico de corridas para los valores simula-
dos de la distribución posterior de α (con promedio = 25.202, mediana
= 24.660) y β (promedio = 1.992, mediana=1.962). En la figura 5.2 se
presenta en histograma de τ (promedio = 7.173, mediana=6.630), para
4.000 realizaciones, para el que se obtiene como intervalo de probabili-
dad del 95 % a (5,283, 9,780). Nótese que el lı́mite inferior del intervalo
difiere en 94 dı́as.
5.2. Efectos del fenómeno de El Niño

en Venezuela
El Centro Internacional de Investigaciones para el fenómeno de El Niño
(CIIFEN) ubicado en Guayaquil, Ecuador, provee periódicamente mapas
Casos 119
de previsiones de la variables climáticas de temperatura y precipitación

para toda América Occidental en base a los pronósticos oceanográfi-
cos y atmosféricos a escala global. Un ejemplo de estas previsiones se
muestra en la figura 5.3, en donde se señalan las probabilidades de
precipitación para el trimestre Mayo-Julio 2008. Esta previsiones son
de carácter estadı́stico y se basan en las relaciones que existen entre
las variables océano-atmosféricas (que llamaremos de ahora en adelante
variables macroclimáticas) y las precipitaciones a nivel local. Los datos
Figura 5.3: Previsión de la precipitación al Oeste de Sudamérica en el

perı́odo Marzo-Julio 2008 (Fuente: CIIFEN)
de las variable macroclimáticas son provistos por los grandes centros de

investigación como la NOAA (National Oceanic Atmospheric Adminis-
tration) de los Estados Unidos o el ECMWF (European Center for Mid
Range Weather Forecast) a partir de imágenes satelitales y datos in situ,
que permiten estimar variables como la temperatura de la superficie del
mar (TSM) en los distintos océanos a escala global. La TSM en la re-
gión 5◦ N a 5◦ S, y 170◦ W a 120◦ W del océano Pacı́fico es un ı́ndice
oceánico que mide la severidad del fenómeno de El Niño. Temperaturas
más calientes de lo normal son un indicativo de la presencia del fenómeno

lo cuál tiene impactos en las precipitaciones a escala global. También se
dispone de conjunto de ı́ndices macroclimáticos que toman en cuenta la
presión atmosférica para medir a intensidad del fenómeno. Uno de estos
ı́ndices es el IOS (Índice de Oscilación Sur) que mide la diferencia de
presión entre Darwing y Tahitı́. Valores muy negativos del IOS indican
la presencia del fenómeno de El Niño. Las relaciones entre estos ı́ndices
y la precipitación (y temperatura del aire) pueden variar con la época
del año y la región.
Siguiendo la misma idea de las previsiones climáticas producidas por
el CIIFEN, se utilizó las series de tiempo históricas de precipitación
mensual de 97 estaciones meteorológicas a nivel nacional y las series
históricas de dos ı́ndices macroclimáticos: la temperatura de la super-
ficie del mar en el océano Pacı́fico (TSMP), promediada en la región
mencionada anteriormente (región Niño 3.4), y el ı́ndice de Oscilación
Sur. Tanto para la precipitación como los ı́ndices macroclimáticos se
calcularon las anomalı́as (valores mensuales menos el promedio a largo
plazo) y se categorizaron en terciles (percentiles correspondientes a pro-
babilidades menores que 0.33, entre 0.33 y 0.66 y mayores que 0.66).
Estas categorı́as se consideran respectivamente: valores por debajo de
lo normal (Bajo), valores entre los rangos normales (Medio) y valores
por encima de lo normal (Alto). Seguidamente se construyeron Tablas
de Contingencia 3 × 3 y se obtuvieron las frecuencias cruzadas para 38
años de datos. La primera tabla (Cuadro 5.2) corresponde a la relación
entre el ı́ndice IOS y la precipitación en la estación El Jabón (Estado
Lara) durante el perı́odo Julio-Agosto-Septiembre.
Cuadro 5.2: Tabla de Contingencia para la Precipitación y el IOS.

Estación El Jabón (Estado Lara)
Precipitación
Índice IOS Bajo Medio Alto
Bajo 10 2 1
Medio 2 5 5
Alto 1 5 7
Como se puede observar, ambas variables están altamente relacionadas

Casos 121
especialmente en los extremos de la diagonal, lo cual implica que valores

bajos de IOS corresponden a valores bajos de precipitación y valores al-
tos de IOS a valores altos de precipitación, además de que no hay especial
relación para los valores medios de ambas variables. La segunda tabla
(cuadro 5.3) corresponde a la relación entre el ı́ndice TSMP (Temperatu-
ra de la Superficie del Mar en el Océano Pacı́fico) y la precipitación en la
estación El Dorado (Estado Bolı́var) durante el perı́odo Enero-Febrero-
Marzo. Al igual que el primer caso, ambas variables están altamente
relacionadas sólo que a valores altos de TSMP se observan valores bajos
de precipitación y viceversa.
Cuadro 5.3: Tabla de Contingencia para la Precipitación y la TSMP.

Estación El Dorado (Estado Bolı́var)
Precipitación
Índice TSMP Bajo Medio Alto
Bajo 1 6 6
Medio 2 5 5
Alto 10 1 2
El interés del análisis consiste en describir la asociación entre las dos

variables categóricas, para lo cuál se utiliza la familia de modelos logli-
neales mencionados en la sección 2.4.
Modelo loglineal:
Sean y = {yij } las frecuencias observadas en la tabla de contingencia
3 × 3. En nuestro caso i = 1, . . . , 3 y Pj = 1,P . . . , 3. Como el total de todas
las frecuencias observadas está fijo ( 3i=1 3j=1 yij = n donde n es igual
a número de años de datos), la distribución aproximada de y condicional
en n y λ = {λij } es multinomial con λij igual a la probabilidad asociada
a la categoria ij. Sin embargo, es posible modelar las frecuencias yij
con una
P distribución Poisson con medias µij de tal manera que λij =
µij / ij µij .
Se supone entonces que yij ∼ Poisson(µij ) cuya verosimilitud puede
escribirse como
3 Y 3
Y 1 yij −µij
p(y|µ) = µ e
yij ! ij
i=1 j=1
Se consideran dos modelos: uno que incluye la interacción entre las

variables y otro que asume independencia entre ellas. En el caso inde-
pendiente:
log(µij ) = γ + αi + βj
donde αi representa el efecto de la variable i (efecto de fila) y βj re-
presenta el efecto de la variable j (efecto de columna) y γ es la media
general. Para el caso dependiente se incluye la interacción de los dos
factores en la forma:
log(µij ) = γ + αi + βj + (αβ)ij
Este último caso se define como el modelo saturado ya que incluye
todas la variables y sus interacciones. El número de parámetros a esti-
mar suponiendo que todos los efectos están fijos es 1 + I + J + IJ con
I = J = 3, por lo que el número de parámetros excede el número de ob-
servaciones (IJ). Es necesario entonces imponer restricciones para poder
identificar los parámetros. El caso extremo es el modelo que asigna igual
probabilidad a cada celda, lo cual es equivalente a ajustar el modelo
log(µij ) = γ.
Para los casos dependiente e independiente se utilizaron previas nor-
males no informativas para los efectos de las filas, columnas e interac-
ciones y para la media general, es decir:
αi ∼ N (0, 100)
βj ∼ N (0, 100)
(αβ)ij ∼ N (0, 100)
γ ∼ N (0, 100)
Para ambos modelos se utilizan las restricciones de esquina fijando
el primer efecto de fila y de columna a un valor constante (ver [C2]).
También se fijan la primera fila y la primera columna de los parámetros
de interacción de tal forma que:
α1 = 0
β1 = 0
(αβ)11 = (αβ)12 = (αβ)13 = (αβ)21 = (αβ)31 = 0
lo cual dejarı́a al modelo independiente con 5 parámetros libres y al
modelo dependiente con 9 parámetros.
Casos 123
Implementación en WinBUGS:
Para la implementación en WinBUGS se consideran los dos casos: Mo-
delo independiente y Modelo saturado. Se calculan los estadı́sticos χ2
y G2 . También es necesario asignar NA a los valores iniciales de los
parámetros que conforman las restricciones. A continuación se incluyen
los códigos utilizados para el caso independiente y el modelo saturado:
#CASO INDEPENDIENTE
model {# Distribuciones a Priori
# Efectos del IOS
u1[1] <- 0; for (i in 2:I) { u1[i] ~ dnorm(0,0.01)}
# Efectos de la precipitacion
u ~ dnorm(0,0.01);
# Verosimilitud de los datos

for (i in 1:I) {
for (j in 1:I) {
m[i,j] ~ dpois(mu[i,j]); log(mu[i,j]) <- u + u1[i]+u2[j];}}
# Estadisticos
for (i in 1:I)
{ for (j in 1:I)
{ devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j];} }
G2 <- 2 * sum( devG[,] );
X2 <- sum( devX[,] )}
Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)
Inits
list(u1=c(NA,1,1),u2=c(NA,1,1), u=1)
#MODELO SATURADO
model {
# Distribuciones a priori
# Efectos del IOS y la precipitacion
# Restricciones de las interacciones
for (j in 1:I){ u12[1,j] <- 0 }
for (i in 2:I) { u12[i,1] <- 0 }
# Interacciones
for (i in 2:I-1) {
for (j in i+1:I) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 3:I) {
for (j in 2:i-1) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 2:I) { u12[i,i] ~ dnorm(0,0.001);}
u ~ dnorm(0,0.001);
# VEROSIMILITUD
for (i in 2:I) {
for (j in 1:i-1) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I-1) {
for (j in i+1:I) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I) {
m[i,i] ~ dpois(mu[i,i]);
log(mu[i,i]) <- u + u1[i]+ u2[i]+u12[i,i];}
for (i in 1:I) {
for (j in 1:I) {
devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j]; } }
G2 <- 2 * sum( devG[,] );

X2 <- sum( devX[,] );
}
Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)
Inits for Saturated Model

list(u1=c(NA,1,1),u2=c(NA,1,1),u=0,
u12=structure(.Data=c(NA,NA,NA,NA,0,0,NA,0,0)
,.Dim=c(3,3)))
En el análisis clásico para comparar estos dos modelos usualmente se
hace la prueba chi-cuadrado que contrasta las hipótesis de independencia
entre las variables. En análisis Bayesiano, además de los estadı́sticos
Casos 125
clásicos se obtuvo el criterio de información de la devianza (DIC) descrito

en el capı́tulo 4 con el propósito de comparar ambos modelos.
El DIC para el caso independiente es de 55.179, mientras que para
el modelo saturado el DIC es igual a 46.045, que es menor que el del
modelo que asume independencia, por lo que se puede concluir que para
esta tabla conviene escribir el modelo con el efecto de interacción ya que
existe dependencia entre ambas variables.
Cuadro 5.4: Salida de WinBUGS con los estadı́sticos de las cadenas de

Markov simuladas para el modelo loglineal
node mean sd MC error 2.5 % median 97.5 %

u 2.255 0.3665 0.0274 1.507 2.292 2.839
u1[2] -1.793 0.9211 0.08605 -3.844 -1.73 -0.168
u1[3] -3.058 1.272 0.1427 -5.819 -2.959 -0.898
u2[2] -1.824 0.8269 0.06507 -3.472 -1.782 -0.290
u2[3] -2.725 1.241 0.1387 -5.824 -2.575 -0.7063
u12[2,2] 2.862 1.261 0.1099 0.4874 2.815 5.57
u12[2,3] 3.76 1.568 0.1673 1.055 3.579 7.4
u12[3,2] 4.132 1.497 0.1616 1.321 4.094 7.049
u12[3,3] 5.414 1.79 0.2065 2.323 5.225 9.292
En el cuadro 5.4 se presentan las salidas de WinBUGS para los parámet-

ros del modelo saturado con los datos de la tabla 5.2, donde se observa
que los componentes de interacción son todos significativamente posi-
tivos, mientras que los efectos principales correspondientes a la precip-
itación y al ı́ndice IOS son significativamente negativos.
5.3. Encuestas de Satisfacción

Contexto:
El exito de una empresa productora de bienes o servicios se debe en
buena parte a la satisfacción que dichos bienes o servicios causa en los
clientes de la empresa. Es por ello que uno de los estudios de merca-
do que más se realiza sea el de “Encuestas de satisfacción del cliente”.
Usualmente estas encuestas vienen en la forma de un cuestionario en el
que los encuestados deben escoger una calificación, en una escala dis-
creta de k categorias ordenadas, para un conjunto de preguntas. Una

de las preocupaciones de los analistas de estas encuestas es la posible
heterogeneidad de uso de la escala entre los encuestados. En la figura
5.4 se examinan los resultados de una encuesta de satisfacción realizada
a 315 clientes, donde las respuestas van del 1: (muy insatisfecho) al 10:
(muy satisfecho). Se compara la mediana de las respuestas de las pre-
guntas con el rango, esto es, la diferencia entre las evaluaciones máxima
y mı́nima otorgadas en un mismo cuestionario. Esta figura evidencia las
diferencias de uso de la escala entre los encuestados; algunos sólo usan la
parte superior de la escala, que está representada por la esquina inferior
derecha, mientras que otros usan casi toda la escala para responder las
preguntas.
Figura 5.4: Heterogeneidad de uso de la escala de valoración en una

encuesta de satisfacción del cliente
Para este ejemplo se emplearán los datos obtenidos de una encuesta

de satisfacción realizado a 650 entrevistados en varias agencias de un
Casos 127
banco. Las preguntas se formularon solicitando la calificación, de acuer-

do con un escala donde 7 es muy bueno (la mejor calificación) y 1 la
peor, de la satisfacción con respecto a once atributos. Estos atributos se
refieren a tiempos de permanencia y atención, al trato de los empleados
de la agencia y otros atributos propios de la agencia. También se pre-
guntó sobre la satisfacción del servicio prestado, siendo esta pregunta
dirigida a establecer un ı́ndice de satisfacción global.
Modelo:
El modelo que se presenta a continuación fue desarrollado por Rossi et
al.(2001) [RO]. El modelo está motivado por la idea que las calificaciones
son una versión discreta de un modelo continuo, que no se observa, es
latente. Para i = 1, . . . , N y j = 1, . . . , M , sea yij la calificación entre
1 y K que otorgó el individuo i a la pregunta j y sea uij la respuesta
latente del i-ésimo entrevistado a esta pregunta, con u0i = [ui1 , . . . , uiM ],
la respuesta latente del entrevistado i a todo el cuestionario. Se supone
la existencia de K + 1 puntos de corte {ck : ck−1 ≤ ck , k = 1, . . . , K},
donde para todo i, j y k,
yij = k si ck−1 ≤ uij ≤ ck (5.4)
y además
ui ∼ N (µ∗i , Σ∗i ). (5.5)
La interpretación de este modelo es que las respuestas observadas son
multinomiales, donde las probabilidades multinomiales provienen de una
distribución normal multivariada. Ahora bien, este modelo tal como
está descrito en las ecuaciones 5.4 y 5.5 está sobreparametrizado, pues
tenemos un vector de medias y una matriz de varianzas-covarianzas di-
ferente para cada uno de los entrevistados. Una manera de soslayar esto
es considerar:
u i = µ + τ i 1 + σ i zi , zi ∼ N (0, Σ); (5.6)
con este modelo se obtiene una localización y cambio de escala, especı́fico

para cada entrevistado, haciendo µ∗ = µ + τi 1 y Σ∗i = σi Σ, pero con un
menor número de parámetros. Nótese por ejemplo, que para una persona
que usa sólo la parte alta de la escala se tendrá un valor de τi grande
con σi pequeño.
Con esta simplificación hay todavı́a un problema por resolver, puesto

que el modelo, tal como está escrito, no es identificable, en el mismo
sentido que no son identificables los modelos ANOVA: un cambio de
localización en los τ puede ser compensado con un cambio de localización
en sentido contrario, de µ. Este problema se puede resolver imponiendo
restricciones sobre el modelo jerárquico: Suponga que τi , log σi siguen
una distribución normal bivariada:

τi
∼ N (φ, Λ) (5.7)
log σi
con restriciones: φ1 = 0 y φ2 = λ22 .
Los puntos de corte ck se pueden suponer fijos y aún ası́ el modelo
presentado es bastante flexible, pero si se quiere estimar dichos puntos
con los datos se tendrá que colocar algunas restricciones, de nuevo, para
no caer en la sobreparametrización. Rossi, et al. proponen considerar a
los ck como:
ck = a + bk + ek 2 , k = 1, . . . , K − 1 (5.8)
e imponer restricciones de la forma:
X X
ck = m1 , c2k = m2 . (5.9)
k k
por lo que el único parámetro libre en la ecuación 5.8 es e.

Finalmente hay que considerar la distribución previa conjunta de los
parámetros, p(µ, Σ, φ, Λ, e). Suponiendo independencia:
p(µ) ∝ constante, (5.10)

p(e) ∝ U (−0,2, 0,2)
Σ ∼ Inv − W ishart(νΣ , VΣ )
Λ ∼ Inv − W ishart(νΛ , VΛ )
Implementación de la simulación:
En este caso se usará la función rscaleUsage de la libreria de funciones
bayesm (ver [RAM]). Para lograr convergencia de las cadenas hace falta
generar un número considerable de pasos, tomando también en cuenta
que los resultados marginales son altamente correlacionados, por lo que
se recomienda usar la técnica de “thinning” para obtener resultados más
confiables.
Casos 129
En la figura 5.5 se presentan los diagramas de caja construidos con 1.000
muestras de la distribución posterior para µ, el parámetro de respuesta
central para cada pregunta.
En este gráfico puede verse como las preguntas 1, 5 y 11 reciben
calificaciones menores que las demás. Las preguntas 1 y 11 se refieren
a tiempos de estadı́a en la agencia; la pregunta 5 se refiere al ambiente
fı́sico y las comodidades de la agencia. En el cuadro 5.3 se presentan los
cuantiles estimados por pregunta.
Cuadro 5.5: Cuantiles estimados para µ
Pregunta cuantil
2.5 % 5% 50 % 95 % 97.5 %
1 6.7 6.7 6.9 7.0 7.1
2 7.5 7.6 7.7 7.9 7.9
3 7.7 7.8 7.9 8.1 8.1
4 7.9 7.9 8.1 8.2 8.3
5 7.3 7.4 7.5 7.7 7.7
6 7.5 7.5 7.7 7.8 7.9
7 7.5 7.5 7.7 7.9 7.9
8 7.5 7.5 7.7 7.9 7.9
9 7.3 7.3 7.5 7.6 7.7
10 8.0 8.0 8.2 8.4 8.4
11 7.0 7.1 7.2 7.4 7.5
12 7.4 7.4 7.6 7.7 7.8
Uno de los objetivos de este tipo de investigación es comprender si

hay o no relaciones entre la satisfacción global y los atributos que se
consideraron a la hora de diseñar el cuestionario, como atributos im-
portantes y fueron examinados en preguntas separadas. El problema de
heterogeneidad de uso de escala por los encuestados tiende a sesgar la
correlación entre las respuestas por lo que si se estima clásicamente la
matriz de correlación se obtendrán correlaciones altas que pueden ser
totalmente espurias. Ahora, con el modelo propuesto, los valores de la
correlación obtenida a partir de Σ se pueden pensar como resultados co-
rregidos por heterogeneidad. Para el conjunto de respuestas examinado,
Figura 5.5: Gráficos de caja de 1000 realizaciones de la distribución

posterior de µ (a partir de 10000 muestras).
el estimador de la correlación entre la satisfacción global y la satisfacción

con respecto al tiempo total empleado en la agencia es de 0.82, seguida
por la correlación con respecto al trato del personal, que fue de 0.72.
5.4. Modelación de la incidencia de malaria en

el Estado Sucre, Venezuela
Un ejemplo de datos areales:
Un problema de mucho interés en el área de bioestadı́stica y epidemi-

ologı́a es el problema de disease mapping ó mapeo de enfermedades. En
Casos 131
estos problemas tı́picamente se tendrán datos de conteo de la forma:
Yi = nro. de casos observados de la enfermedad en un estado

o municipio i, i = 1, . . . , I
Ei = nro. esperado de casos de la enfermedad en el estado
o municipio i, i = 1, . . . , I
Se observa entonces que se tienen datos para distintas unidades de área.

Se considera que los Yi son variables aleatorias, mientras que los Ei
son valores fijos que dependen del número ni de personas expuestas a
la enfermedad en el estado o municipio i. Una suposición estándar es
considerar que: P
yi
Ei = ni × r̄ = ni ( P i )
i ni
donde r̄ es la tasa global de incidencia de la enfermedad para la región de
estudio. En este caso Ei puede considerarse como una especie de hipótesis
nula que supone una tasa de incidencia constante de la enfermedad para
todas las unidades areales de interés. De esta forma se logra que algunas
unidades areales tengan tasas de incidencia con valores mayores que lo
esperado y otras menores que lo esperado. Este proceso se denomina de
estandarización interna ya que utiliza los datos observados para centrar
los datos ([BCG04]).
Se dispone para este ejemplo de datos de incidencia de malaria para
los 15 municipios del estado Sucre para el año 1991. La Figura 5.6 mues-
tra el número de casos de la enfermedad por cada 1000 habitantes en
cada municipio. El estado Sucre tiene una superficie de 11,800km2 y
conjuntamente con los estados Bolı́var y Delta Amacuro, es considera-
do una zona de alto riesgo malárico en Venezuela. Por ejemplo, para el
Municipio Cajigal en ese año hubo la mayor tasa de infectados (103, 46),
seguido de Andrés Mata con una tasa de 28, 83 y Mejı́a con 20, 08.
Modelo de regresión Poisson lognormal:
Si la enfermedad de estudio es rara, los valores de Ei no serán muy
grandes y el modelo usual para Yi es el modelo Poisson:
Y |ηi ∼ Poisson (Ei ηi )
donde ηi es el verdadero riesgo relativo de la enfermedad en la i-

ésima región. Desde un punto de vista frecuentista, se puede utilizar el
Figura 5.6: Tasa de infectados por malaria en el Estado Sucre, Venezuela
estimador de máxima verosimilitud de ηi el cual puede estimarse como:

Yi
ηˆi =
Ei
Esta cantidad se define como la tasa de morbilidad o mortalidad es-
tandarizada para el municipio i (SM Ri , por sus siglas en inglés), depen-
diendo de si se consideran los casos de personas afectadas o fallecidas. Es
posible entonces calcular los intervalos de confianza tradicionales para
ηi , ası́ como también hacer pruebas de hipótesis. Desde un punto de vista
Bayesiano, se pueden utilizar modelos jerárquicos en los que es posible
incorporar efectos aleatorios para los ηi , además de la asociación espa-
cial entre los diferentes municipios o unidades espaciales. Al considerar
el logaritmo del riesgo relativo ψi = log ηi , el modelo Poisson básico
descrito anteriormente puede ser reescrito en la forma:
Yi |ψi ∼ Poisson (Ei eψi )

ψi = xi 0 α + νi + bi
Casos 133
Los xi son variables explicativas espaciales con coefficients α que tratan

de explicar los patrones espaciales de Yi . Los valores de νi tratan de cap-
turar la variabilidad extra-Poisson sobre toda la región de estudio. Ge-
neralmente se establece una distribución normal para νi , ν ∼ N (0, 1/τν )
donde τν es la precisión. Los valores de bi son los parámetros que tratan
de capturar la posible asociación espacial entre las regiones (variabilidad
local) para los cuáles se considera un modelo CAR (Conditional Autore-
gressive) donde cada bi tiene distribución Normal con media igual al
promedio de los efectos de los vecinos contiguos a la unidad de área i
y precisión proporcional al número mi de vecinos contiguos a la unidad
de área i (bi ∼ N (b̄−i , 1/(τc mi )), donde el promedio b̄−i se calcula ex-
cluyendo el valor de bi .
Para la inferencia estadı́stica de los parámetros del modelo se utiliza un
análisis Bayesiano y se emplean estrategias de comparación de modelos
que permiten determinar las variables más influyentes en la incidencia
de la enfermedad. La validación de los modelos seleccionados se lleva a
cabo utilizando la inferencia predictiva a posteriori.
El código empleado en WinBUGS, se ejecutó utilizando dos cadenas
con distintos valores iniciales para τν y τc , y 80.000 simulaciones para
cada una. Se incluyen 5 variables explicativas, entre socioeconómicas y
climáticas (Xi ); donde X1 representa el porcentaje de viviendas corre-
pondientes a hogares pobres, X2 es el porcentaje de pobreza y haci-
namiento crı́tico, X3 es la variable de anomalı́as de precipitación, las
cuales son calculadas como el cociente entre la precipitación mensual ob-
servada y el promedio a largo plazo estimado para el perı́odo 1980-2000
en cada municipio; X4 representa el ı́ndice de disposición de cloacas y
desechos sólidos y finalmente, X5 es un ı́ndice de conexiones viales dentro
de los municipios. α1 , . . . , α5 son los coeficientes de regresión para cada
variable explicativa, y νi es la variable que captura la heterogeneidad
espacial del modelo Bayesiano. A este modelo se le incorpora también el
efecto CAR (autoregresivo condicional), denotado por bi .
model {
# Likelihood
for (i in 1 : N) {
Y[i] ~ dpois(mu[i])
log(mu[i]) <- log(E[i] )+ alpha1*X1[i]+alpha2*X2[i]
+alpha3*X3[i]+alpha4*X4[i]+alpha5*X5[i]+b[i]+v[i]
RR[i] <- exp(alpha1* X1[i]+alpha2 * X2[i]+alpha3*X3[i]

+alpha4*X4[i]+alpha5*X5[i]+b[i]+v[i])
v[i]~dnorm(0,tau.v) }
# CAR prior distribution for random effects:
b[1:N] ~ car.normal(adj[], weights[], num[], tau)
for(k in 1:sumNumNeigh) {
weights[k] <- 1 }
# Priors:
alpha1~ dnorm(0.0, 1.0E-5)
tau.v ~ dgamma(0.5,0.0005)
tau ~ dgamma(0.5,0.0005)
# prior on precision
sigma <- sqrt(1 / tau)
# standard deviation }
#DATOS
list(N = 15,
Y = c(80,543,654,269,41,329,2034,1,212,571,190,5,659,2664,115),
E=c(259.6391915,212.7144051,485.5219001,317.4622738,1243.89647,
185.0564503,222.0203074,306.3155194,143.1460093, 272.4235136,
183.0236076,574.0973755,580.8848115,3032.447976,348.3501898),
X1=c(1.71,-1.91,-0.472,-2.08,1.38,-0.89,-0.43,3.27,1.79, 2.35,
-3.81,-2.87,-0.82,1.15,1.61),
X2=c(0.23,0.23,1.0,0.3,1.6,-0.53,-0.45,-1.55,-2.7,0.18,
-1.18,-0.21,0.64,1.8,0.66),
X3=c(0.950143033,0.989025467,1.082096142,1.074199142,
1.016269108,1.089703808,1.044908575,1.041431925,
0.957762575,1.08398935,0.982545775,1.018346617,0.995152917,
0.950706425,0.971404408),
X4=c(-0.63432185,2.27973092,-0.03224411,2.27973092,-2.48246813,
-0.15036865,1.67765318,-1.14676903,-0.63432185,-1.26489357,
1.66928364,0.48857261,1.07557544,-2.96808549,-0.15707402),
X5=c(0.57422920,-0.47359070,0.06485833,-0.47359070,-0.54321893,
-1.00243748,0.03578017,1.56583657,0.57422920,0.49854075,
-0.47004866,-0.42092021,0.54515103,-1.45365201,0.97883345),
num =c(3,3,6,5,3,3,3,1,3,3,3,4,4,2,2),
adj = c( 13,2,4, 1,4,5,5,4,9,7,10,15,1,2,5,3,9,2,4,3,
14,12,11,9,3,10,13,4,3,7,15,3,7,6,12,13,14,6,11,13,8,
11,12,1,6,12,3,10),
sumNumNeigh = 48)
#Valores iniciales
list(alpha1=1,alpha2=1,alpha3=1,alpha4=1,alpha5=1,
tau=1,tau.v=1, b=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
Casos 135
v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))
list(alpha1=50,alpha2=50,alpha3=50,alpha4=50,alpha5=50,
tau=50,tau.v=50,
b=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))
En la tabla 5.6 se presenta la salida de WinBUGS para los estadı́sticos
que resumen los valores de la distribución posterior de los coeficientes
de regresión del modelo, y las precisiones del componente CAR y del
efecto espacial aleatorio a partir de la iteración número 78.000.
Cuadro 5.6: Salida de WinBUGS con los estadı́sticos de las cadenas de

Markov simuladas para el modelo de regresión Poisson lognormal. Se
usaron 4000 datos a partir de la iteración 78.000
node mean sd MC error 2.5 % median 97.5 %

alpha1 1.256 0.6434 0.06406 -0.2687 1.338 2.299
alpha2 0.004294 0.475 0.04101 -0.8246 -0.007 1.088
alpha3 -0.6285 0.4604 0.03601 -1.505 -0.6279 0.2853
alpha4 1.704 0.6855 0.06979 0.09168 1.766 2.889
alpha5 -2.547 1.167 0.1139 -4.349 -2.701 0.6172
tau 1013.0 1439.0 31.4 1.415 458.2 5049.0
tau.v 0.329 0.1516 0.006994 0.1099 0.3033 0.6868
Los resultados muestran un efecto positivo significativo de la variable

X4 sobre la variable de respuesta (Riesgo Relativo). Por el contrario, el
efecto es negativo para la variable X5 . Hay una diferencia importante
entre las precisiones del efecto CAR y el efecto espacial aleatorio, siendo
esta última mucho menor que la primera.
5.5. Análisis Bayesiano de una ensayo clı́nico

multicentro
(Este ejemplo es tomado de [Gou98], publicado originalmente en [SBIWM])
Se denomina ensayo clı́nico a un experimento que se realiza sobre

seres humanos con el fin de probar la eficacia de un nuevo medicamento
o de una nueva técnica de prevención y/o tratamiento. Claramente, los
ensayos clı́nicos involucran una gran cantidad de retos desde el punto de
vista ético, y existen estrictas regulaciones internacionales para proteger
los intereses de los individuos participantes (en particular, todos los su-
jetos que participan en un ensayo clı́nico deben ser voluntarios,y deben
haber sido ampliamente informados del objetivo del estudio, ası́ como de
las posibles ventajas y los riesgos que conlleva la participación en el mis-
mo). Demostrar la eficacia de un medicamento mediante ensayos clı́nicos
controlados es indispensable para la aprobación de dicho medicamento
por parte de las agencias reguladoras.
Desde el punto de vista estadı́stico, los ensayos clı́nicos presentan di-
ficultades tanto en el diseño (el cual debe tener buenas propiedades es-
tadı́sticas y respetar todas las restricciones éticas) como en la obtención
de datos (el reclutamiento puede ser muy largo y costoso) y su análisis
(alta variabilidad de las respuestas para diferentes individuos).
Para poder hacer estudios que involucren un número suficiente de
sujetos, es muchas veces necesario involucrar varios centros hospitalarios;
en este caso, se habla de una prueba clı́nica multicentro. Las pruebas
clı́nicas multicentro, si bien permiten el reclutamiento de un número alto
de pacientes, introducen nuevos problemas al nivel del análisis, ya que
los centros no son iguales. Es decir, es necesario incluir en los modelos
términos que representen el efecto de cada centro, ası́ como posibles
interacciones entre el centro y el tratamiento (o los tratamientos) en
estudio.
El estudio descrito por Gould, y publicado originalmente en [SBIWM],
fue diseñado para evaluar la eficacia y tolerabilidad de la droga finas-
teride en el tratamiento de hiperplasia benigna de la próstata (es decir,
agrandamiento de la próstata sin presencia de cáncer), e involucró 25
centros en los Estados Unidos y 5 en Canadá. Se reclutaron aproximada-
mente 900 pacientes, los cuales presentaban sı́ntomas de obstrucción uri-
naria, agrandamiento de la próstata detectable en un tacto rectal y un
flujo urinario máximo no mayor de 15 ml/seg. Al momento del ingreso al
estudio, cada paciente fue aleatorizado a uno de tres grupos experimen-
tales: 1 mg. diario de finasteride, 5 mg. diarios de finasteride o un placebo
(sustancia que carece de efecto, pero que permite la evaluación de los
Casos 137
grupos experimentales en condiciones sicológicas y de cuidados generales

equivalentes). La variable de respuesta se calculó como un score total de
sı́ntomas, obtenido sumando las respuestas a 9 preguntas sobre sı́ntomas
asociados a diferentes problemas en la función urinaria. Cada sı́ntoma se
evaluó en una escala del 0 (ausencia de sı́ntoma) al 4 (sı́ntoma severo), de
manera que el score puede tomar valores entre 0 y 36. Consideraciones
asociadas al teorema del lı́mite central sugieren que es adecuado suponer
que los scores siguen una distribución aproximadamente normal.
El cuadro 5.7 muestra el resumen de los datos correspondientes al
cambio con respecto a los valores iniciales del score total de sı́ntomas
para cada centro Ci incluido en el análisis (un centro con sólo 3 pacientes
fue eliminado del análisis por razones de estabilidad numérica).
Modelo:
El objetivo del estudio es comprobar si el medicamento funciona mejor
que el placebo, ası́ que el análisis se enfocará en las diferencias entre
los scores de los pacientes del grupo experimental (finasteride 1mg. o
finasteride 5mg) y el grupo control (placebo). No se dispone de los datos
crudos, ası́ que será necesario usar los estadı́sticos suficientes.
Sean Xf ij la respuesta del individuo j del grupo experimental y Xpik .
Como se mencionó anteriormente, se supondrá que los scores siguen
distribuciones normales, de la siguiente manera
2
X̄f i ∼ N (µf i , σW i)
2
X̄pi ∼ N (µpi , σW i)
donde µf i y µpi son las medias de los scores para el grupo tratamiento y
el grupo control respectivamente, y σW 2 es la varianza dentro del centro
i
i, la cual se supone igual para todos los tratamientos.
La diferencia entre estos promedios, di = X̄f i − X̄pi , es un estimador
del valor de la diferencia para el centro i, δi = µf i − µpi . Su distribución
será

2 2 1 1
di |σW i ∼ N (δi , σW i + ).
nf i nf i
La información que los datos dan sobre σW 2
i está contenida en las
2
desviaciones estándar. Un estimador para σW i será
Cuadro 5.7: Resumen de los resultados del ensayo clı́nico multicentro

para finasterida. Las respuestas son cambios del score total de sı́ntomas
con respecto al inicio del estudio
Ci Placebo Finasteride 1 mg Finasteride 5 mg
N Media Desv. St. N Media Desv. St. N Media Desv. St.
1 7 0.43 4.58 7 -5.43 5.53 8 -2.63 3.38
2 11 0.10 4.21 11 -2.59 3.95 12 -2.21 4.14
3 6 2.58 4.80 6 -3.94 4.25 7 1.29 7.39
4 10 -2.30 3.86 10 -1.23 5.17 10 -1.40 2.27
5 10 2.08 6.46 10 -6.70 7.45 10 -5.13 3.91
6 6 1.13 3.24 5 3.40 8.17 5 -1.59 3.19
7 5 1.20 7.85 6 -3.67 4.89 5 -1.40 2.61
8 12 -1.21 2.66 13 0.18 3.81 12 -4.08 6.32
9 8 1.13 5.28 8 -2.19 5.17 9 -1.96 5.84
10 9 -0.11 3.62 10 -2.00 5.35 10 0.60 3.53
11 15 -4.37 6.12 14 -2.68 5.34 15 -2.14 4.27
12 8 -1.06 5.27 9 0.44 4.39 9 -2.03 5.76
13 12 -0.08 3.32 12 -4.60 6.16 11 -6.22 5.33
14 9 0.00 5.20 9 -0.25 8.23 7 -3.29 5.12
15 6 1.83 5.85 7 -1.23 4.33 6 -1.00 2.61
16 14 -4.21 7.53 14 -2.10 5.78 12 -5.75 5.63
17 13 0.76 3.82 13 0.55 2.53 13 -0.63 5.41
18 15 -1.05 4.54 13 2.54 4.16 14 -2.80 2.89
19 15 2.07 4.88 15 -1.67 4.95 15 -3.43 4.71
20 11 -1.46 5.48 10 -1.99 5.63 10 -6.77 5.19
21 5 0.80 4.21 5 -3.35 4.73 5 -0.23 4.14
22 11 -2.92 5.42 10 -1.22 5.95 11 -4.45 6.65
23 9 -3.37 4.73 9 -1.38 4.17 7 0.57 2.70
24 12 -1.92 2.91 12 -0.66 3.55 12 -2.39 2.27
25 9 -3.89 4.76 9 -3.22 5.54 8 -1.23 4.91
26 15 -3.48 5.98 15 -2.13 3.25 14 -3.71 5.30
27 11 -1.91 6.49 12 -1.33 4.40 11 -1.52 4.68
28 10 -2.66 3.80 10 -1.29 3.18 10 -4.70 3.43
29 13 -0.77 4.73 13 -2.31 3.88 13 -0.47 4.95
Casos 139
mf i s2f i + mpi s2pi

s2i =
mi
donde mf i = nf i − 1, mpi = npi − 1 y mi = mf i + mpi . Se sabe además
mi s2i
que 2
σW
∼ χ2mi o, equivalentemente,
i
mi mi
s2i ∼ Gamma( , 2 ).
2 2σW i
Las ecuaciones anteriores describen los resultados para cada centro.
Para las variaciones entre los centros, se empleará un modelo jerárquico
para δi y τi = 1/σW 2 . La opción más sencilla es plantear un modelo
i
en el cual los δ y los τ son independientes, lo cual lleva a la siguiente
estructura
δi |Ψ ∼ N (∆, Ψ)
ω ωζ
ωζτi ∼ χ2ω (equivalentemente, τi ∼ Gamma( , )).
2 2
Finalmente, se asignan previas vagas para ∆, Ψ, ω y ζ de la siguiente
manera
∆ ∼ N (0, 10−5 )
r
1
σB = ∼ U (0, 100)
Ψ
ω ∼ Unif. Discreta(0, 1000)
r
1
sζ = ∼ U (0, 100)
ζ
El siguiente programa generaliza el modelo descrito en la sección an-
terior, pues incorpora las diferencias del score de sı́ntomas para las dos
dosis (1mg y 5mg diarios de finasteride), y supone que las varianzas son
iguales para los tres grupos. Se dan valores iniciales para tres cadenas
simultáneas; nótese que no se dan valores iniciales para todos los nodos;
el resto se generan aleatoriamente. Se generan además predicciones para
la varianza dentro de un grupo arbitrario, ası́ como predicciones para las

diferencias entre los scores de sı́ntomas para ambas dosis de finasteride
vs el placebo.
model
{
#Previas para las diferencias entre grupos
Delta1~dnorm(0.0, 1.0E-5)
Delta5~dnorm(0.0, 1.0E-5)
sigma.B ~ dunif(0,100)
#Previa para la variabilidad entre grupos
Psi<-1/pow(sigma.B,2)
# Previas para la variabilidad dentro de los grupos
for ( j in 1: nomega) {omcat[j]<-1/nomega}
om~dcat(omcat[])
szeta ~dunif(0,100)
zeta<-1/pow(szeta,2)
omega2<-5*om
omz<-omega2*zeta;
for (i in 1: ncenters)
{
# Previa jerarquica para las desviaciones estandard
# entre grupos
tau.w[i]~dgamma(omega2,omz)
beta.w[i]<-0.5*tau.w[i]
# Verosimilitud para las desviaciones estandard entre grupos
m.f1[i]<-n.f1[i]-1
ss.f1[i]<-m.f1[i]*pow(s.f1[i],2)
m.f5[i]<-n.f5[i]-1
ss.f5[i]<-m.f1[i]*pow(s.f5[i],2)
m.pbo[i]<-n.pbo[i]-1
ss.pbo[i]<-m.pbo[i]*pow(s.pbo[i],2)
mt[i]<-m.f1[i]+m.f5[i]+m.pbo[i]
alpha.w[i]<-0.5*mt[i]
ss.diff[i]<-ss.f1[i]+ss.f5[i]+ss.pbo[i]
ss.diff[i] ~ dgamma(alpha.w[i],beta.w[i])
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 1mg
ntilde.f1[i]<-1.0/ (1.0/n.f1[i]+1.0/n.pbo[i])
tau.d.f1[i]<-ntilde.f1[i]*tau.w[i]
delta.f1[i]~dnorm(Delta1,Psi)
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 5mg
ntilde.f5[i]<-1.0/ (1.0/n.f5[i]+1.0/n.pbo[i])
tau.d.f5[i]<-ntilde.f5[i]*tau.w[i]
delta.f5[i]~dnorm(Delta5,Psi)
Casos 141
# Verosimilitud para las diferencias entre los promedios

d.f1[i]<-mean.f1[i]-mean.pbo[i]
d.f1[i]~ dnorm(delta.f1[i], tau.d.f1[i])
d.f5[i]<-mean.f5[i]-mean.pbo[i]
d.f5[i]~ dnorm(delta.f5[i], tau.d.f5[i])
}
# Predicciones para la varianza dentro de los grupos y las
# diferencias entre tratamiento y placebo.
tau.study.W~dgamma(omega2,omz)
sigma.W<-sqrt(1/tau.study.W)
omega<-2*omega2
delta.pred.f1~dnorm (Delta1, Psi)
delta.pred.f5~dnorm(Delta5,Psi)
}
#Datos
list(n.pbo=c(7,11,6,10,10,6,5,12,8,9,15,8,12,9,6,14,13,15,15,11,5,
11,9,12,9,15,11,10,13),
mean.pbo=c(0.43,0.1,2.58,-2.30,2.08,1.13,1.20,-1.21,1.13,-0.11,
-4.37,-1.06,-0.08,0.00,1.83,-4.21,0.76,-1.05,2.07,-1.46,
0.8,-2.92,-3.37,-1.92,-3.89,-3.48,-1.91,-2.66,-0.77),
s.pbo=c(4.58,4.21,4.80,3.86,6.46,3.24,7.85,2.66,5.28,3.62,6.12,
5.27,3.32,5.20,5.85,7.53,3.82,4.54,4.88,5.48,4.21,5.42,4.73,2.91,
4.76,5.98,6.49,3.80,4.73), n.f1=c(7,11,6,10,10,5,6,13,8,10,14,9,12,
9,7,14,13,13,15,10,5,10,9,12,9,15,12,10,13),
mean.f1=c(-5.43,-2.59,-3.94,-1.23,-6.70,3.40,-3.67,0.18,-2.19,
-2.00,-2.68,0.44,-4.60,-0.25,-1.23,-2.10,0.55,2.54,-1.67,-1.99,
-3.35,-1.22,-1.38,-0.66,-3.22,-2.13,-1.33,-1.29,-2.31),
s.f1=c(5.53,3.95,4.25,5.17,7.45,8.17,4.89,3.81,5.17,5.35,5.34,4.39,
6.16,8.23,4.33,5.78,2.53,4.16,4.95,5.63,4.73,5.95,4.17,3.55,5.54,
3.25,4.40,3.18,3.88),
n.f5=c(8,12,7,10,10,5,5,12,9,10,15,9,11,7,6,12,13,14,15,10,5,11,7,
12,8,14,11,10,13),
mean.f5=c(-2.63,-2.21,1.29,-1.40,-5.13,-1.59,-1.40,-4.08,-1.96,
0.60,-2.14,-2.03,-6.22,-3.29,-1.00,-5.75,-0.63,-2.80,-3.43,-6.77,
-0.23,-4.45,0.57,-2.39,-1.23,-3.71,-1.52,-4.70,-0.47),
s.f5=c(3.38,4.14,7.39,2.27,3.91,3.19,2.61,6.32,5.84,3.53,4.27,5.76,
5.33,5.12,2.61,5.63,5.41,2.89,4.71,5.19,4.14,6.65,2.70,2.27,4.91,
5.30,4.68,3.43,4.95), ncenters=29,nomega=1000)
# Valores iniciales
list(Delta1=0,Delta5=0,,sigma.B=1,szeta=1,om=1)
list(Delta1=1,Delta5=1,sigma.B=5, szeta=5, om=10)
list(Delta1=-1,Delta5=-1,sigma.B=10, szeta=10, om=10)
Se corrieron 2000 iteraciones del muestreador de Gibbs y se analizaron

las correlaciones. Estas eran bastante altas, ası́ que se decidió tomar una
de cada 50 iteraciones. De esta manera, se generaron 5000 simulaciones
adicionales para cada cadena.
La tabla 5.8 presenta un resumen de varios estadı́sticos descriptivos cal-
culados a partir de la muestra simulada usando el muestreador de Gibbs.
Los valores ∆1 y ∆5 parecen indicar que existe una mejorı́a en los pa-
cientes tratados con finasteride, y que esta mejorı́a es más marcada en
los pacientes que tomas la dosis de 5mg. De hecho, el intervalo de credi-
bilidad del 95 % para ∆1 contiene al cero y valores positivos , mientras
el de ∆5 no contiene al cero (esto no es una prueba de hipótesis; sin em-
bargo, nos indica si la posterior para un parámetro descarta o no valores
positivos).
Cuadro 5.8: Resultados de WinBUGS para las simulaciones de canti-

dades posteriores obtenidas mediante muestreador de Gibbs, ejemplo
multicentro
Nodo media des.st 2.5 % 25.0 % mediana 75.0 % 97.5 %
Delta1 -0.755 0.537 -1.825 -1.113 -0.747 -0.394 0.288
Delta5 -1.628 0.536 -2.678 -1.985 -1.628 -1.273 -0.568
delta.pred.f1 -0.753 1.909 -4.582 -1.950 -0.748 0.413 3.092
delta.pred.f5 -1.618 1.912 -5.432 -2.810 -1.623 -0.433 2.212
sigma.B 1.754 0.479 0.751 1.459 1.766 2.064 2.663
sigma.W 4.92 0.317 4.247 4.794 4.917 5.039 5.631
Las variabilidades dentro de los grupos son bastante homogéneas, lo

cual se refleja en un intervalo corto para σW , el valor predicho para
la varianza dentro del grupo. Sin embargo, este valor es mayor que el
tamaño del efecto para cualquiera de las dosis, de modo que aún ex-
istiendo un efecto real, éste puede ser ocultado por la alta variabilidad
en alguno de los centros.
Esta última observación se refuerza al observar las diferencias predichas
entre scores de sı́ntomas para tratamiento y placebo en un centro arbi-
trario. Es claro que las predictivas no descartan la posibilidad de valores
positivos, especialmente para la dosis de 1mg diario de finasteride.
Bibliografı́a
[BCG04] S. Banerjee, B.P. Carlin and A.E. Gelfand, Hierarchical Mod-

eling and Analysis for Spatial Data, Chapman and Hall/CRC,
Boca Raton (2004).
[Ber] J. Berger, “The Case for Objective Bayesian Analysis”,

Bayesian Analysis Vol 1, No. 3, 385-402, (2006).
[BergBern] J.O. Berger y J. M. Bernardo. “On the development of refer-

ence priors”, Bayesian statistics 4. Proceedings of the Fourth
Valencia International Meeting, 3549 (1992).
[BP01] J. Berger y L.R. Pericchi. “Objective Bayesian Methods

for Model Selection: Introduction and Comparison (con dis-
cusión)”, Institute of Mathematical Statistics Lecture Notes -
Monograph Series (Lahiri, P., ed.), vol. 38, 135-207. (2001).
[BT] M. Berman y T.R. Turner. “Approximate Point Process Like-

lihood with GLIM”, Applied Statistics 41, pp-31–38 (1992).
[Bern] J.M. Bernardo, “Reference posterior distributions for

Bayesian inference”, Journal of the Royal Statistical Society,
Series B, Methodological 41, 113128 (1979).
[C1] P. Congdon, Applied Bayesian Modelling, Wiley (2003).
[C2] P. Congdon, Bayesian Models for Categorical Data, Wiley

(2006).
[DGS02] M.H. DeGroot y M.J. Schervish, Probability and Statistics,

3er Edition, Allison Wesley (2002).
143
144 Bibliografı́a
[Dev] L. Devroye. Non-Uniform Random Variates, Springer-Verlag,

New York (1986).
[DEL] P.W. Diaconis, M.L. Eaton, y B.J. Weeks. “Finite de Finetti

theorems in linear models and multivariate analysis”, Scan-
dinavian Journal of Statistics, vol. 19, 289–315(1992).
[DY] P. Diaconis and D. Ylvisaker, “Conjugate Priors for Exponen-

tial Families”, The Annals of Statistics, Vol. 7, No. 2, 269-281
(1979).
[Fl01] W.T. Flueck, “Offspring sex ratio of introduced red deer in

Patagonia, Argentina, after an intensive drought”, Journal of
Neotropical Mammalogy, 8, 139-147 (2001).
[GCSR] A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin, Bayesian
Data Analysis, Chapman & Hall (2001).
[GG] S. Geman and D. Geman, “Stochastic relaxation, Gibbs dis-

tributions, and the Bayesian restration of images”, IEEE
Transactions on Pattern Analysis and Machine Intelligence
6, 721-741, (1984).
[GC] Gilardoni, G.L., Colosimo, E.A. “Optimal maintenance time

for repairable systems”, Journal of Quality Technology,
39(1):48–53 (2007).
[Gou98] A.L. Gould, “Multi-center trial analysis revisited”, Statist.

Med. 17, 1779-1797 (1998)
[Gr] U. Grenander, Tutorial in Pattern Theory, Division of Ap-

plied Mathematics, Brown University, (1983).
[Jef] H. Jeffreys, Theory of Probability, Oxford University Press,

London (1961).
[KR95] R. Kass y A. Raftery, “Bayes Factors”, Journal of the Amer-

ican Statistical Association,41, pp. 773 -795 (1995).
[Kn] D. Knuth, The Art of Computer Programming, Volume 2:

Seminumerical Algorithms, Third Edition, Addison-Wesley,
Reding, Massachusetts (1997).
Bibliografı́a 145
[WB] Lunn, D.J., Thomas, A., Best, N., and , D. ‘WinBUGS – a

Bayesian modelling framework: concepts, structure, and ex-
tensibility”, Statistics and Computing, 10:325–337 (2000).
[McC07] M. McCarthy Bayesian Methods for Ecology, Cambridge Uni-

versity Press (2007).
[MU] N. Metropolis, S. Ulam. “The Monte Carlo Method”, Journal

of the American Statistical Association 44, 335-341, (1949).
[LRP] L.R. Pericchi, Teorı́a estadı́stica de decisión y análisis

bayesiano, II EVM, Ediciones del IVIC, (1989).
[RAM] P.E. Rossi, G.M. Allenby and R. McCulloch, Bayesian Statis-

tics and Marketing, Wiley (2005).
[RO] P.E. Rossi, Z. Gilula y G.M. Allenby. “Overcoming scale us-

age heterogeneity: A Bayesian hierarchical approach”, Jour-
nal of the American Statistical Association, 96, 20–31. (2001).
[SBCV] D. Spiegelhalter, N.G. Best, B.P. Carlin y A. van der Linde

“Bayesian measures of model complexity and fit (con dis-
cusión)”, J. Roy. Statist. Soc. B. 64, 583-640 (2002).
[SBIWM] G. J. Gormley, E. Stoner, R. C. Bruskewitz, J. Imperato-

McGinley, P. C. Walsh, J. D. McConnell,G. L. Andriole, J.
Geller, B. R. Bracker, J. S. Tenover, E. D. Vaughan, F. Pap-
pas, A. Taylor, B. Binkowitz y J. Ng, “The effect of finas-
teride in men with benign prostatic hyperplasia”, New Eng-
land Journal of Medicine, 327, 1185-1191 (1992).
[Z1] A. Zellner, “On assesing prior distributions and Bayesian re-

gression analysis with g-prior distribution”, En P. Goel and
A. Zeller (eds), Bayesian Inference and Decision Techniques:
Essays in Honour of Bruno de Finetti. Amsterdam (1986).
Consejo Directivo
Instituto Venezolano de Investigaciones Cientı́ficas
Director
Ángel L. Viloria
Subdirector
Rubén Machado
Representantes del Ministerio del Poder Popular
para la Ciencia y Tecnologı́a
Raúl Padrón
Oscar Noya
Representante del Ministerio del Poder Popular
para la Educación Superior
Prudencio Chacón
Representantes Laborales
Jesús Acosta
Luis Burguillos
Gerencia General
Lira Parra
Comisión Editorial
Coordinador
Ángel L. Viloria
Hebe Vessuri
Eloy Sira
Rafael Gasson
Horacio Biord
Érica Wagner
Lucı́a Antillano
Marı́a Teresa Curcio
Katherine Farı́as
Pamela Navarro

E-BOOK-2008-BRAVO, LLATAS &amp; PEREZ-Analisis de Datos Con Tecnicas Bayesianas

Caricato da

Informazioni sul documento

Descrizione originale:

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

E-BOOK-2008-BRAVO, LLATAS &amp; PEREZ-Analisis de Datos Con Tecnicas Bayesianas

Caricato da

Copyright:

Formati disponibili

XXI ESCUELA VENEZOLANA DE MATEMÁTICAS

ESCUELA MATEMÁTICA DE AMÉRICA LATINA Y EL CARIBE

Lelys Bravo de Guenni

MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008

Lelys Bravo de Guenni

Marı́a Eglée Pérez Hernández

MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008

XXI ESCUELA VENEZOLANA DE MATEMÁTICAS

2000 Mathematics Subject Classification: 62F15, 62-07, 62P99.

Si bien los métodos Bayesianos aparecen en el siglo XVIII con los

Desireé Villalta, Pedro Sequera, Jhan Rodrı́guez, Raúl Ramı́rez y Hen-

Finalmente, deseamos dedicar este trabajo a la memoria de nuestra

Caracas y San Juan

2. Modelos uniparamétricos y multiparamétricos 19

2.3. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . 39

4. Diagnóstico y selección de modelos 97

4.1.3. Análisis de sensibilidad y expansión de modelos . . 102

5. Casos de estudio 113

1.1. Consideraciones iniciales

los dos tratamientos es potencialmente observable, pero no es observado.

1.2. Análisis de datos Bayesiano

1. Establecer un modelo probabilı́stico completo para todas las can-

2. Condicionar la distribución de las cantidades no observadas, sobre

3. Evaluar el ajuste del modelo y las implicaciones de la distribución

Estos pasos se pueden iterar en la medida que se considera necesario

1.3. Definiciones y notación general

y las potencialmente observables como lo pueden ser el posible resulta-

θ: Cantidades vectoriales no observables o parámetros poblaciona-

y: Datos observados (i.e. Número de sobrevivientes y muertes en

ỹ: Cantidad desconocida pero potencialmente observable (i.e. Re-

Aquı́ es necesario detenerse a considerar que los valores observados y =

1.3.2. Notación de probabilidad

Para referirse a la probabilidad de un evento en particular, por ejemplo

1.3.3. Teorema de Bayes

Para un y fijo, frecuentemente se escribirá p(θ|y) ∝ p(θ)p(y|θ), donde

p(θ|y) ∝ θy (1 − θ)n−y (1.5)

o lo que es lo mismo, la distribución no normalizada tiene un kernel

1.4. Principio de verosimilitud

la verosimilitud está parametrizada por los datos. Esto contrasta con la

Razón de probabilidades (Odds Ratio)

En algunas aplicaciones es natural considerar el Odds Ratio o Razón de

p(θ1 |y) p(θ1 )p(y|θ1 )/p(y) p(θ1 ) p(y|θ1 )

Esta es la distribución marginal de y o distribución predictiva a priori

Después de que y ha sido observada, se puede predecir una cantidad

Aqui se supone que ỹ y y son independientes.

1.6. Resultados útiles de teorı́a de probabili-

Factorización de una densidad conjunta:

p(u, v, w) = p(u|v, w) p(v|w) p(w) (1.9)

Medias y varianzas de distribuciones condicionales:

E(u) = E(E(u|v)) (1.10)

var(u) = E(var(u|v)) + var(E(u|v)) (1.11)

Ambas identidades son válidas si u es un vector. En este caso E(u)

• Transformación logarı́tmica: (0, ∞) → (−∞, +∞), v = log(u)

Ejemplo 1.6.1. Sea X de dimensión 2 con X = (Y, Z)0 donde Y y Z son

1.7. Uso de la simulación para la inferencia

Paso Parámetros Cantidades Predictivas

Con los valores simulados se puede estimar:

La distribución posterior de funciones de los parámetros, por ejem-

Pr(ỹ1 + ỹ2 > exp(θ1 ));

El intervalo a posteriori del 95 % para el parámetro θj ;

1. Generar un valor aleatorio u de una distribución uniforme (0, 1),

2. Obtener v = F −1 (u) donde v es una muestra de una variable con

En general, el primer paso de este algoritmo se realiza usando procedi-

E-BOOK-2008-BRAVO, LLATAS & PEREZ-Analisis de Datos Con Tecnicas Bayesianas

E-BOOK-2008-BRAVO, LLATAS & PEREZ-Analisis de Datos Con Tecnicas Bayesianas