Sei sulla pagina 1di 156

XXI ESCUELA VENEZOLANA DE MATEMÁTICAS

ESCUELA MATEMÁTICA DE AMÉRICA LATINA Y EL CARIBE


EMALCA–VENEZUELA 2008

ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS

Lelys Bravo de Guenni


Isabel Llatas Salvador
Marı́a Eglée Pérez Hernández

MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008


XXI ESCUELA VENEZOLANA DE MATEMÁTICAS
ESCUELA MATEMÁTICA DE AMÉRICA LATINA Y EL CARIBE
EMALCA–VENEZUELA 2008

ANÁLISIS DE DATOS
CON TÉCNICAS BAYESIANAS

Lelys Bravo de Guenni


Isabel Llatas Salvador
Universidad Simón Bolı́var, Caracas
lbravo@usb.ve, llatas@usb.ve

Marı́a Eglée Pérez Hernández


Universidad de Puerto Rico - Recinto de Rı́o Piedras
meglee@uprrp.edu

MÉRIDA, VENEZUELA, 3 AL 9 DE SEPTIEMBRE DE 2008


ii

XXI ESCUELA VENEZOLANA DE MATEMÁTICAS


ESCUELA MATEMÁTICA DE AMÉRICA LATINA Y EL CARIBE
EMALCA–VENEZUELA 2008
La Escuela Venezolana de Matemáticas es una actividad de los postgra-
dos en matemáticas de las instituciones siguientes: Centro de Estudios
Avanzados del Instituto Venezolano de Investigaciones Cientı́ficas, Fa-
cultad de Ciencias de la Universidad Central de Venezuela, Facultad de
Ciencias de la Universidad de Los Andes, Universidad Simón Bolı́var,
Universidad Centroccidental Lisandro Alvarado y Universidad de Orien-
te, y se realiza bajo el auspicio de la Asociación Matemática Venezolana.
La XXI ESCUELA VENEZOLANA DE MATEMÁTICAS–EMALCA-Venezuela
2008 recibió financiamiento de la Academia de Ciencias Fı́sicas, Mate-
máticas y Naturales, el Fondo Nacional de Ciencia, Tecnologı́a e Inno-
vación (FONACIT), el Instituto Venezolano de Investigaciones Cientı́fi-
cas (Centro de Estudios Avanzados, Departamento de Matemáticas y
Ediciones IVIC), la Universidad de los Andes (CEP, CDCHT, Facul-
tad de Ciencias y Departamento de Matemáticas), Fundacite–Mérida,
la Universidad Simón Bolı́var y el CIMPA (Centre International de
Mathématiques Pures et Appliquées).

2000 Mathematics Subject Classification: 62F15, 62-07, 62P99.

Ediciones
c IVIC
Instituto Venezolano de Investigaciones Cientı́ficas
Análisis de Datos con Técnicas Bayesianas
Lelys Bravo de Guenni, Isabel Llatas Salvador y Marı́a Eglée Pérez Hernández
Diseño y edición: Escuela Venezolana de Matemáticas
Preprensa e impresión: Editorial Texto
Depósito legal If660200851022923
ISBN 978-980-261-099-0
Caracas, Venezuela
2008
iii

Prefacio

Si bien los métodos Bayesianos aparecen en el siglo XVIII con los


trabajos originales de Bayes y Laplace, no es sino hasta finales de la
década de 1980 y principios de la década de 1990 cuando la aparición de
métodos computacionalmente intensivos basados en simulación (Méto-
dos de Cadenas de Markov Montecarlo- MCMC) permite implementar el
paradigma Bayesiano. La variedad y complejidad de los problemas que
pueden ser analizados desde el punto de vista Bayesiano es amplia, in-
cluyendo situaciones en las cuales los metodos frecuentistas son difı́ciles
de aplicar e inútiles en la práctica. El desarrollo de software libre o de uso
gratuito (WinBUGS pertenece a esta última categorı́a) ha contribuido
también a la difusión y uso práctico de los métodos Bayesianos.
El presente material nace de la evolución del curso de Modelaje Es-
tadı́stico que se ha dictado en la Universidad Simón Bolı́var durante los
últimos 10 años para los programas de Especialización en Estadı́stica
Computacional y Maestrı́a en Estadı́stica. De esta manera, esperamos
poner a la disposición de los estudiantes de postgrado en Matemáticas
de todo el paı́s la experiencia adquirida durante este tiempo, y propor-
cionarles la oportunidad de conocer métodos modernos y cada vez más
extendidos de análisis estadı́stico.
Ahora bien, esta experiencia no serı́a posible sin el esfuerzo de nues-
tros colegas que contribuyeron en la creación de los programas de Es-
tadı́stica, a los que además queremos agradecer los buenos momentos
y las colaboraciones: Bruno Sansó, Raquel Prado, José Miguel Pérez,
Victor de Oliveira, y muy especialmente, Luis Raúl Pericchi, quien nos
inició en estas lides y, por allá, en 1989, dictó en la II EVM el curso
de Teorı́a estadı́stica de decisión y análisis Bayesiano, abriendo ası́ este
tópico en los estudios post-graduados en Venezuela. También queremos
agradecer a nuestros estudiantes de estos y otros años y en particular a
iv

Desireé Villalta, Pedro Sequera, Jhan Rodrı́guez, Raúl Ramı́rez y Hen-


ry Mendoza por el trabajo que realizaron en los ejemplos del capı́tulo
5 y por supuesto queremos agradecer al Comité Organizador y a todas
las instituciones que han hecho posible la realización de la XXI EVM-
EMALCA, y en particular a Carlos Di Prisco y a Stella Brassesco por
darnos esta oportunidad.

Finalmente, deseamos dedicar este trabajo a la memoria de nuestra


amiga Susana Hernández, quien nos enseñó generosidad, solidaridad y
mı́stica de trabajo aún en momentos en los cuales luchaba por su vida.

Caracas y San Juan


Junio 2008
Índice general

Prefacio III

1. Introducción 1
1.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . 1
1.2. Análisis de datos Bayesiano . . . . . . . . . . . . . . . . . 2
1.3. Definiciones y notación general . . . . . . . . . . . . . . . 3
1.3.1. Parámetros, datos y predicciones . . . . . . . . . . 3
1.3.2. Notación de probabilidad . . . . . . . . . . . . . . 5
1.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . 5
1.4. Principio de verosimilitud . . . . . . . . . . . . . . . . . . 6
1.5. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Resultados útiles de teorı́a de probabilidades . . . . . . . 8
1.7. Uso de la simulación para la inferencia . . . . . . . . . . . 10
1.8. Distribuciones previas conjugadas . . . . . . . . . . . . . . 11
1.9. Análisis Bayesiano objetivo . . . . . . . . . . . . . . . . . 13

2. Modelos uniparamétricos y multiparamétricos 19


2.1. Modelos uniparamétricos . . . . . . . . . . . . . . . . . . . 19
2.1.1. Modelo binomial . . . . . . . . . . . . . . . . . . . 19
2.1.2. Modelo Poisson . . . . . . . . . . . . . . . . . . . . 22
2.1.3. Modelo exponencial . . . . . . . . . . . . . . . . . 26
2.1.4. Modelo normal (localización) . . . . . . . . . . . . 27
2.1.5. Modelo normal (escala) . . . . . . . . . . . . . . . 29
2.2. Modelos multiparamétricos . . . . . . . . . . . . . . . . . 30
2.2.1. Modelo normal . . . . . . . . . . . . . . . . . . . . 31
2.2.2. Modelo normal multivariado . . . . . . . . . . . . 35
2.2.3. Modelo multinomial . . . . . . . . . . . . . . . . . 37

v
vi ÍNDICE GENERAL

2.3. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . 39


2.3.1. Modelo de regresión normal . . . . . . . . . . . . . 39
2.3.2. Regresiones multivariadas y aparentemente no rela-
cionadas . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4. Modelos lineales generalizados . . . . . . . . . . . . . . . . 45
2.4.1. Verosimilitud de los modelos lineales generalizados
estándar . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.2. Extensiones de los modelos lineales generalizados . 48
2.4.3. Modelos loglineales para datos multivariados dis-
cretos . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5. Modelos jerárquicos . . . . . . . . . . . . . . . . . . . . . 50
2.6. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . 53

3. Distribución Posterior 67
3.1. Integración y aproximaciones para muestras grandes . . . 68
3.1.1. Aproximación normal a la distribución posterior . 68
3.2. Métodos de simulación . . . . . . . . . . . . . . . . . . . . 71
3.2.1. Muestreo directo . . . . . . . . . . . . . . . . . . . 72
3.2.2. Muestreo de rechazo/aceptación . . . . . . . . . . 74
3.2.3. Muestreo de Importancia . . . . . . . . . . . . . . 75
3.3. Métodos Monte Carlo de Cadenas de Markov (MCMC) . 76
3.3.1. El algoritmo de Metrópolis-Hasting. . . . . . . . . 78
3.3.2. El muestreador de Gibbs . . . . . . . . . . . . . . 81
3.4. Inferencia y Evaluación de la convergencia de los métodos
MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1. Dificultades con las simulaciones obtenidas . . . . 85
3.4.2. Construcción de algoritmos de simulación eficiente 87
3.5. Breve introducción a WinBUGS . . . . . . . . . . . . . . 89
3.5.1. Distribuciones condicionales y grafos dirigidos . . . 90
3.5.2. Modelos gráficos en WinBUGS . . . . . . . . . . . 93
3.5.3. Ejemplo del Bioensayo . . . . . . . . . . . . . . . . 94
3.5.4. Otros paquetes y software . . . . . . . . . . . . . . 95

4. Diagnóstico y selección de modelos 97


4.1. Principios y métodos para el diagnóstico de un modelo . . 98
4.1.1. Comparación de los datos con la distribución pre-
dictiva posterior . . . . . . . . . . . . . . . . . . . 99
4.1.2. Ejemplo de diagnóstico de modelos . . . . . . . . . 102
ÍNDICE GENERAL vii

4.1.3. Análisis de sensibilidad y expansión de modelos . . 102


4.2. Comparación de Modelos . . . . . . . . . . . . . . . . . . 104
4.2.1. Devianza esperada como una medida de la pre-
cisión predictiva . . . . . . . . . . . . . . . . . . . 105
4.2.2. Devianza para datos replicados y criterio de infor-
mación de la devianza (DIC) . . . . . . . . . . . . 106
4.2.3. Factores de Bayes . . . . . . . . . . . . . . . . . . 107

5. Casos de estudio 113


5.1. Confiabilidad y Mantenimiento Industrial . . . . . . . . . 113
5.2. Efectos del fenómeno de El Niño
en Venezuela . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.3. Encuestas de Satisfacción . . . . . . . . . . . . . . . . . . 125
5.4. Modelación de la incidencia de malaria en el Estado Sucre,
Venezuela . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.5. Análisis Bayesiano de una ensayo clı́nico multicentro . . . 135

Bibliografı́a 143
viii
Capı́tulo 1

Introducción

1.1. Consideraciones iniciales


Vamos a empezar por el principio: ¿Por qué inclinarse por el análisis
Bayesiano de datos o en general por la inferencia Bayesiana?. Antes que
nada es importante aclarar que inferencia en este contexto se refiere
a obtener conclusiones, a partir de información en la forma de datos
numéricos observados, sobre cantidades no observadas. Considere estos
ejemplos:
Ejemplo 1.1.1. En el área de mercadeo uno de los problemas más intere-
santes se refiere a conocer cuales son los atributos de un producto que
cambian la probabilidad que un consumidor escoja dicho producto entre
una oferta de diferentes productos. La probabilidad de escogencia, para
cada consumidor, es una cantidad no observable; lo que se puede obser-
var es la selección realizada por una muestra de consumidores frente a los
productos con distintas caracterı́sticas y, a partir de esta muestra, inferir
cuales atributos o condiciones propician la escogencia del producto.
Ejemplo 1.1.2. En el área de medicina, para establecer la eficacia de un
tratamiento aplicado para una enfermedad, se puede comparar la pro-
babilidad de que un paciente sobreviva cinco años luego de recibir dicho
tratamiento, contra la probabilidad de sobrevivencia con el tratamien-
to convencional. De nuevo, aquı́ las probabilidades son cantidades de
interés que no pueden ser observadas; lo que se puede observar es el
resultado en una muestra de pacientes, entendiendo que cada paciente
recibirá uno de los dos tratamientos, por lo que el resultado de uno de

1
2 Bravo-Llatas-Pérez

los dos tratamientos es potencialmente observable, pero no es observado.


Como en todo modelo interpretativo, hay varias ventajas y desven-
tajas asociadas a la inferencia Bayesiana. Entre las ventajas se puede
destacar que, conceptualmente, los métodos Bayesianos son reconocidos
como una manera coherente de hacer inferencia; en contraste con los
métodos clásicos, donde los datos obtenidos de estudios observacionales
y/o experimentales son analizados con modelos que dependen del tipo
de datos con procedimientos de inferencia y decisión particulares para
cada caso. El análisis Bayesiano trata de una manera unificada la infer-
encia y la decisión, tomando en consideración la incertidumbre asociada
al modelo y a los parámetros, proporcionando de una vez las herramien-
tas para cuantificar esta incertidumbre. Por otra parte, el tratamiento
de las cantidades no observadas como variables aleatorias y el análi-
sis condicional, permiten naturalmente considerar modelos jerárquicos
o de variables latentes que son difı́ciles o imposibles de manejar con la
estadı́stica clásica. Entre las desventajas se pueden señalar que para re-
alizar la inferencia es necesario establecer una distribución previa sobre
las cantidades no observables, proponer una distribución de muestreo o
verosimilitud para las cantidades observables y soslayar la dificultad de
encontrar las varias integrales requeridas en el paradigma Bayesiano.
Ahora bien, las desventajas mencionadas han sido objeto de investi-
gaciones e intensos debates en los últimos 20 - 25 años que han resultado
en grandes avances; ası́, por ejemplo, los desarrollos tanto teóricos como
computacionales, de diversos métodos de simulación, potenciados por la
actual capacidad de cómputo de cualquier computadora personal, han
hecho posible estudiar distribuciones posteriores que eran prácticamente
imposibles de encontrar, lo que ha permitido su uso en diversas apli-
caciones en una variedad de campos como econometrı́a, epidemiologı́a
y ciencias ambientales. La inferencia Bayesiana basada en métodos de
simulación provee una descripción completa de todos los parámetros del
modelo propuesto y sus aplicaciones son cada vez más extendidas.

1.2. Análisis de datos Bayesiano


Siguiendo a [GCSR], el análisis de datos Bayesiano trata de encontrar
métodos prácticos para hacer inferencia usando modelos de probabili-
dad tanto de las cantidades que se observan como de las cantidades no
Introducción 3

observables que suelen ser las de interés. Para ello se consideran tres
pasos:

1. Establecer un modelo probabilı́stico completo para todas las can-


tidades observables y las no observables, esto es, establecer la dis-
tribución de probabilidad conjunta tanto de los que, de manera
clásica, se llaman parámetros del modelo, como para las cantidades
que pueden ser medidas y que se conocen como datos.

2. Condicionar la distribución de las cantidades no observadas, sobre


un conjunto de cantidades observables que han sido, valga la re-
dundancia, observadas. Esta distribución condicional se la conoce
como la distribución posterior. Encontrar e interpretar la informa-
ción que nos provee esta distribución es el objetivo fundamental
de este curso.

3. Evaluar el ajuste del modelo y las implicaciones de la distribución


posterior resultante.

Estos pasos se pueden iterar en la medida que se considera necesario


alterar o expandir el modelo. Esta manera algorı́tmica de obtener con-
clusiones sobre un fenómeno a partir de datos numéricos, puede parecer
una extrema simplificación de la inferencia estadı́stica; pero no hay que
engañarse, pues cada uno de los pasos requiere de una combinación de
conocimientos y decisiones. El modelaje estadı́stico es un arte que se
aprende con la práctica y como todo arte tiene su técnica y su lenguaje.
En la próxima sección se presenta parte del lenguaje, la notación y
algunos resultados de la teoria de probabilidad que se suponen conocidos
y pueden ser consultados en cualquier texto básico como el [DGS02].

1.3. Definiciones y notación general


1.3.1. Parámetros, datos y predicciones
Considérese el ejemplo 1.1.2. En este ejemplo hay dos tipos de canti-
dades no observables involucradas en una prueba clı́nica: no observables
(dependiente del modelo), como lo es la probabilidad de supervivencia
en cinco años de pacientes con cáncer tratados con una nueva droga,
4 Bravo-Llatas-Pérez

y las potencialmente observables como lo pueden ser el posible resulta-


do de un tratamiento no recibido o el resultado en un paciente que no
participa en la prueba clı́nica.
En lo que sigue se usará la siguiente notación:

θ: Cantidades vectoriales no observables o parámetros poblaciona-


les de interés (i.e. Probabilidad de sobrevivencia a cada tratamien-
to)

y: Datos observados (i.e. Número de sobrevivientes y muertes en


cada grupo)

ỹ: Cantidad desconocida pero potencialmente observable (i.e. Re-


sultados de los pacientes bajo el otro tratamiento o resultados de
un nuevo paciente bajo tratamientos similares)

Aquı́ es necesario detenerse a considerar que los valores observados y =


(y1 , . . . , yn ) representan la medición de una (o varias) caracterı́stica(s)
de n unidades experimentales y de allı́ que a y se le llame resultados. En
el ejemplo 1.1.1, se pueden observar n consumidores escogiendo entre
K distintas marcas de una misma categorı́a en un supermercado o a
través de una encuesta o situación experimental. En este caso, yi = k
si el i-ésimo consumidor escogió la marca k, para k = 1, . . . , K. Por
supuesto los resultados pueden considerarse como aleatorios antes de
ser observados.
Ası́ mismo, es posible que para cada unidad se disponga de observa-
ciones no aleatorias, por ejemplo la edad y condición previa de salud
de un paciente o los atributos de empaque o precio para cada marca
que puede ser escogida por un consumidor. Estas variables pueden ser
usadas para “explicar” los resultados y de allı́ el nombre de variables
explicativas, también conocidas como covariables. Usualmente se deno-
tará con X a la matriz de covariables, de dimensión n × p donde n es el
número de unidades observadas y p es el número de covariables.
Las conclusiones de un análisis de datos Bayesiano vienen expresadas
en términos de probabilidad, y más especı́ficamente, en términos de pro-
babilidad condicional en los datos observados, por lo cual es necesario
establecer la notación que será usada.
Introducción 5

1.3.2. Notación de probabilidad


En este texto, se usará p para denotar indistintamente una función
de probabilidad o una densidad de probabilidad, para variables discretas
o continuas. p(·|·) denota la densidad condicional de las variables del
primer argumento con respecto al segundo, mientras que p(·) denota la
distribución marginal del argumento, esto es:
p(w, z)
p(w|z) = (1.1)
p(z)
Z
p(z) = p(w, z)dw (1.2)

Para referirse a la probabilidad de un evento en particular, por ejemplo


el evento {θ ≤ 1}, se escribirá Pr(θ ≤ 1), mientras que si se supone que la
variable θ tiene una distribución estándar, como la distribución normal
con media µ y varianza σ 2 , se escribirá θ ∼ N (µ, σ 2 ), o p(θ|µ, σ 2 ) =
N (θ|µ, σ 2 ) si es necesario aclarar el contexto.
Una suposición tácita en la mayorı́a de los análisis de datos es que los
n valores observados son intercambiables, esto es que la distribución de
probabilidades conjunta p(y1 , y2 , . . . , yn ) es invariante a permutaciones
en los ı́ndices yi . En particular, esta propiedad se cumple cuando se
puede suponer independencia entre los resultados de las n unidades (el
recı́proco puede no ser cierto).

1.3.3. Teorema de Bayes


Sea p(θ, y) la distribución conjunta de θ y y. En general se puede
escribir p(θ, y) como p(θ) × p(y|θ), con p(θ) una distribución a la que se
llamará de aqui en adelante distribución previa o a priori de θ y p(y|θ),
la distribución condicional de y dado θ, o distribución de muestreo. La
regla o teorema de Bayes establece que la distribución posterior o a
posteriori de θ condicionada sobre los valores conocidos de los datos, y,
viene dada por:
p(θ, y) p(θ)p(y|θ)
p(θ|y) = = (1.3)
p(y) p(y)
donde:
P
p(y) = θ p(θ)p(y|θ) (suma sobre todos los posibles valores de θ)
(caso θ discreto).
6 Bravo-Llatas-Pérez

R
p(y) = p(θ)p(y|θ)dθ (caso θ contı́nuo).

Para un y fijo, frecuentemente se escribirá p(θ|y) ∝ p(θ)p(y|θ), donde


el simbolo “∝” se lee “proporcional a”. El lado derecho de la ecuación
anterior corresponde a la densidad posterior no normalizada.
En estas expresiones se evidencia la metodologı́a de las técnicas Baye-
sianas: la primera tarea es desarrollar un modelo para p(θ, y), escribiendo
un modelo muestral p(y|θ), y definiendo una distribución previa para θ,
p(θ). La segunda tarea es realizar los cálculos necesarios para resumir
p(θ|y) de forma apropiada.
Ejemplo 1.3.1. Modelo binomial simple: Se desea estimar la proba-
bilidad, θ, de un evento, a partir del resultado de una sucesión de n
ensayos Bernoulli, esto es, datos y1 , y2 , . . . , yn que son iguales a uno si
ocurre el evento (éxito) y cero si no ocurre. Sea y el número total de
exitos en la muestra de n ensayos. En este caso, el modelo muestral
establece que:
 
n
p(y|θ) = Bin(y|n, θ) = θy (1 − θ)n−y . (1.4)
y
Suponiendo que p(θ) es uniforme en el intervalo [0, 1] se tiene que:

p(θ|y) ∝ θy (1 − θ)n−y (1.5)

o lo que es lo mismo, la distribución no normalizada tiene un kernel


equivalente a la de una distribución Beta, es decir:

θ|y ∼ Beta(y + 1, n − y + 1)

1.4. Principio de verosimilitud


En el caso en que y se conozca o se considere fijo, p(y|θ), como función
de θ, se lo conoce como la función de verosimilitud .
La inferencia Bayesiana obedece el principio de verosimilitud, es decir,
para una muestra de datos, dos modelos p(y|θ) con la misma función
de verosimilitud producen la misma inferencia sobre θ, o dicho de otra
manera, que la función de verosimilitud contiene toda la información
relevante que aportan los datos. Usar el principio de verosimilitud es
aceptar que la inferencia está condicionada en los datos observados, pues
Introducción 7

la verosimilitud está parametrizada por los datos. Esto contrasta con la


inferencia basada en las distribuciones de muestreo, donde se considera
un estimador θ̂ = f (y), el cual, de acuerdo con el tipo de experimento
de muestreo, tiene una distribución muestral que resume las propiedades
del estimador previo a la observación de los datos y por tanto, irrelevante
para hacer inferencias luego que se han observado los datos.

Razón de probabilidades (Odds Ratio)

En algunas aplicaciones es natural considerar el Odds Ratio o Razón de


Probabilidades o Razón de Productos Cruzados definido como el cociente
de las densidades posteriores evaluadas en los puntos θ1 y θ2 bajo un
modelo dado. Usualmente el concepto se aplica a parámetros discretos
donde θ1 es el complemento de θ2 . Lo interesante es que la regla de
Bayes da como resultado que la razón de probabilidades posteriores es
equivalente al producto de la razón de distribuciones a priori y la razón
de verosimilitudes, esto es:

p(θ1 |y) p(θ1 )p(y|θ1 )/p(y) p(θ1 ) p(y|θ1 )


= = (1.6)
p(θ2 |y) p(θ2 )p(y|θ2 )/p(y) p(θ2 ) p(y|θ2 )

1.5. Predicción
Una de las ventajas de los métodos Bayesianos es que todas las can-
tidades desconocidas son tratadas igual:como variables aleatorias con
distribución de probabilidad. Ası́, el problema de predecir una nueva ob-
servación se puede pensar como el hacer inferencia sobre una cantidad
observable pero desconocida, por lo que predecir una nueva observación
puede pensarse como realizar una inferencia predictiva. Si y es descono-
cida pero observable:
Z Z
p(y) = p(y, θ)dθ = p(θ)p(y|θ)dθ (1.7)

Esta es la distribución marginal de y o distribución predictiva a priori


(pues es una distribución a priori porque no está condicionada a una
observación previa del proceso; es una distribución predictiva porque es
la distribución de una cantidad observable).
8 Bravo-Llatas-Pérez

Después de que y ha sido observada, se puede predecir una cantidad


desconocida ỹ observable, considerando la distribución predictiva poste-
rior, que se encuentra sustituyendo en la ecuación 1.7 a p(θ) por p(θ|y).
Ejemplo 1.5.1. Sea y = (y1 , y2 , . . . , yn ) los registros del peso de un objeto
medido n veces. Sea θ = (µ, σ 2 ) el peso verdadero y la varianza de
medición del peso respectivamente. Sea ỹ el peso del objeto para una
nueva pesada
La distribución predictiva a posteriori es:
Z
p(ỹ|y) = p(ỹ, θ|y)dθ (1.8)
Z
= p(ỹ|θ, y)p(θ|y)dθ
Z
= p(ỹ|θ)p(θ|y)dθ

Aqui se supone que ỹ y y son independientes.

1.6. Resultados útiles de teorı́a de probabili-


dades
A continuación se presentan, sin prueba, algunos resultados que serán
usados en el resto del texto.

Factorización de una densidad conjunta:

p(u, v, w) = p(u|v, w) p(v|w) p(w) (1.9)

Medias y varianzas de distribuciones condicionales:

E(u) = E(E(u|v)) (1.10)

var(u) = E(var(u|v)) + var(E(u|v)) (1.11)

Ambas identidades son válidas si u es un vector. En este caso E(u)


es un vector y var(u) es una matriz.
Introducción 9

Transformación de variables:
Si pu (u) es una distribución continua del vector u y v = f (u) es
una transformación uno a uno, entonces la densidad conjunta del
vector transformado es:
pv (v) = |J|pu (f −1 (v))
donde |J| es el determinante del Jacobiano de la transformación
u = f −1 (v) como una función de v. (El elemento (i, j)-ésimo de J
∂vi
viene dado por ∂u j
)
Algunas transformaciones usuales en una dimensión son las si-
guientes:

• Transformación logarı́tmica: (0, ∞) → (−∞, +∞), v = log(u)


• Transformación
  logı́stica: (0, 1) → (−∞, +∞), v = logit(u) =
u
log 1−u
• Transformación probit: (0, 1) → (−∞, +∞), v = Φ−1 (u)
donde Φ es la función de distribución para una variable aleato-
ria normal estándar.

Ejemplo 1.6.1. Sea X de dimensión 2 con X = (Y, Z)0 donde Y y Z son


escalares.
La función de densidad de X viene dada por:
1 1
f (x) = f (y, z) = 2
exp{− 2 [(y − θy )2 + (z − θz )2 ]}
2πσ 2σ
−∞ < y < ∞, −∞ < z < ∞
⇒ X ∼ N ((θy , θz ), σ 2 I)
Considerese la transformación:
Y = log U
Z = log V
Por teorema de la transformación, la densidad g(u, v) vienen dada por
la ecuación:
g(u, v) = f (y(u, v), z(u, v)) |J((y, z) → (u, v))|
1 1
= 2
exp{− 2 [(log u − θy )2 + (log v − θz )2 ]}
2πσ 2σ
× |J((y, z) → (u, v))|
10 Bravo-Llatas-Pérez
∂y ∂y

J(u, v) = ∂u
∂z
∂v
∂z
∂u ∂v
1 0

= u = 1
0 v1 u.v

1 1
⇒ g(u, v) = 2
exp{− 2 [(log u − θy )2 + (log v − θz )2 ]}
2πσ uv 2σ

0<u<∞ 0<v<∞

1.7. Uso de la simulación para la inferencia


La simulación es fundamental en el análisis Bayesiano. A partir de
la década de los años 1990, se ha popularizado el uso de métodos de
simulación que permiten obtener muestras de la distribución posterior
conjunta para los parámetros sin conocer su forma exacta, evitando ası́ la
necesidad de resolver las integrales múltiples en dimensiones altas que
pueden aparecer en problemas complejos de modelización.
Las técnicas de simulación permiten estimar caracterı́sticas de las dis-
tribuciones posteriores con una muestra obtenida a través de la genera-
ción de números pseudo-aleatorios en un computador. Estas caracterı́s-
ticas, como por ejemplo, la media, percentiles y varianza, covariazas y
otras, sirven para interpretar muchos aspectos de la distribución.
El procedimiento se puede resumir en la realización la simulación de n
muestras de las cantidades desconocidas, usando para ello las distribu-
ciones a posteriori y predictivas a posteriori; en el paso i se generan
muestras de los parámetros y cantidades predictivas, obteniéndose un
arreglo de la forma:

Paso Parámetros Cantidades Predictivas


simulación θ1 , . . . , θ k ỹ1 , . . . , ỹn
1 θ11 , . . . , θk1 ỹ11 , . . . , ỹn1
.. .. ..
. . .
L θ1L , . . . , θkL ỹ1L , . . . , ỹnL

Con los valores simulados se puede estimar:


Introducción 11

La distribución posterior de funciones de los parámetros, por ejem-


plo, de θ1 /θ3 ;

Pr(ỹ1 + ỹ2 > exp(θ1 ));

El intervalo a posteriori del 95 % para el parámetro θj ;

etc.
Existen diversos procedimientos para obtener muestras a partir de
una distribución de probabilidad. Una referencia muy completa es el
libro de J. Devroye [Dev], el cual puede obtenerse en la página web
http://cg.scs.carleton.ca/ luc/rnbookindex.html
Uno de los métodos más sencillos y fundamentales para obtener mues-
tras a partir de una distribución de probabilidad dada es el siguiente:
Suponga que V es una variable aleatoria con función de distribución
acumulada (cdf) F que se supone continua y sea W = F (V ). Esta
transformación de V a W es conocida como transformación acumulada
de probabilidad, y es fácil ver que la distribución de W es uniforme en el
intervalo (0, 1).
De este resultado se deriva que un procedimiento para obtener una
muestra aleatoria con distribución de probabilidad F es el siguiente:

1. Generar un valor aleatorio u de una distribución uniforme (0, 1),

2. Obtener v = F −1 (u) donde v es una muestra de una variable con


distribución F .

En general, el primer paso de este algoritmo se realiza usando procedi-


mientos ya incorporados en diferentes programas o sistemas operativos.
Para mayor información sobre el problema de generación de variables
pseudoaleatorias con distribución uniforme, puede consultar el segundo
volumen de [Kn].
En el capı́tulo 3 se presentarán otros métodos para obtener muestras
simuladas de distribuciones posteriores.

1.8. Distribuciones previas conjugadas


Antes del boom de los métodos de simulación, la mayorı́a de las apli-
caciones se apoyaban fuertemente en modelos en los que fuera posible
12 Bravo-Llatas-Pérez

encontrar expresiones analı́ticas cerradas para cantidades de interés, co-


mo los momentos de primer y segundo orden de la distribución pos-
terior. Este requerimiento impone restricciones tanto a las familias de
verosimilitudes que se pueden proponer como a las familias de distribu-
ciones previas.
Una manera de cumplir con estos requerimientos es considerar, para
una verosimilitud dada, distribuciones previas conjugadas, esto es, una
previa tal que al combinarla (conjugarla) con la verosimilitud, la pos-
terior resultante pertenece a la misma familia de distribuciones que la
previa, y de alli el rol fundamental que juega la forma de la verosimilitud
en la existencia o no de previas conjugadas.
Un poco más formalmente, si F es una clase de distribuciones mues-
trales p(y|θ) y P es una clase de distribuciones previas para θ, entonces
la clase P es conjugada para F si p(θ|y) ∈ P para todo p(·|θ) ∈ F y
p(·) ∈ P. Si P se define como el conjunto de todas las densidades que
tienen la misma forma funcional que la verosimitud, entonces se habla
de familias previas conjugadas naturales.
Un resultado importante es que para las verosimilitudes en la familia
exponencial siempre es posible encontrar previas conjugadas, (ver [DY]);
esto es para verosimitudes de la forma:
 
X k  n
X
n
p(y|θ) ∝ g(θ) exp cj φj (θ)h̄j (y) , h̄j = hj (yi ). (1.12)
 
j=1 i=1

La familia exponencial posee la propiedad de existencia de un es-


tadı́stico suficiente, de la misma dimensión que el espacio de parámetros,
de hecho, {h̄1 , . . . , h̄n } es un conjunto de estadı́sticos suficientes. Esto
hace que una distribución previa de la forma
 
X k 
p(θ|τ ) ∝ g(θ)τ0 exp cj φj (θ)τj
 
j=1

donde τ0 , τ1 , . . . , τk son los hiperparámetros previos, produzca una dis-


tribución posterior de la misma forma con parámetros τ0∗ = n + τ0 ,
τ1∗ = τ1 + h̄1 , . . . , τk + h̄k
Como las formas de la verosimilitud y de la previa son iguales, esta
última puede interpretarse como la distribución posterior de otro con-
junto de datos con τ0 observaciones. Por esta razón, algunos autores
Introducción 13

llaman a τ0 el tamaño de muestra equivalente. Este razonamiento puede


ser útil al momento de elicitar una previa conjugada, pues determina con
cuanta precisión se conoce la información que se suministra mediante la
previa.
Ejemplo 1.8.1. Considere el modelo de probabilidad Poisson p(y|θ), esto
es una variable discreta, y que toma valores {0, 1, . . . }, con probabilidad
de que y = k, igual a exp(−θ)θk /k!.
Si se obtienen n observaciones, y1 , . . . , yn , y se asume independencia,
la verosimilitud estará dada por
( n )
X
p(y|θ) ∝ exp{−nθ} exp ( yi log(θ)
i=1

Examinando la forma de esta función es fácil ver que una distribución


con función de densidad proporcional a exp{−θτ0 } exp{τ1 log(θ)} es una
distribución conjugada, y en particular, haciendo τ0 = β, τ1 = α − 1
se puede reconocer como distribución previa a una distribución Gam-
ma, con parámetros α, β. Consecuentemente, la distribución posterior
es también una Gamma con parámetros α∗ = α + yi y β ∗ = β + n.
P

1.9. Análisis Bayesiano objetivo


Una de las principales crı́ticas que muchos estadı́sticos hacen al paradig-
ma Bayesiano es la subjetividad intrı́nseca asociada a la selección de la
previa. Los defensores del enfoque Bayesiano afirman que, en realidad, la
objetividad de cualquier análisis estadı́stico puede estar en entredicho,
ya que cualquier análisis estadı́stico involucra decisiones subjetivas en la
selección del modelo y en el análisis de los resultados. Sin embargo, es
claro que, usando el enfoque Bayesiano, dos investigadores que tengan
los mismos datos pueden obtener resultados diferentes a partir de previas
distintas (de la misma manera que un médico general y un especialista
pueden llegar a diferentes diagnósticos a partir del mismo conjunto de
sı́ntomas).
Existen, sin embargo, situaciones en las cuales no se dispone de infor-
mación previa, o no se desea usar con el fin de garantizar la reproducibi-
lidad de los resultados. Para que ésto sea posible, serı́a necesario llegar
a acuerdos sobre mecanismos “automáticos”para elegir previas, en los
14 Bravo-Llatas-Pérez

cuales no se incorpore conocimiento a priori sobre los parámetros. Esta


es una estrategia cuya historia se remonta a Bayes y Laplace, como se
verá más adelante, y que (pese a las crı́ticas de muchos Bayesianos), es
la estrategia más empleada (con algunas variaciones) en la mayor parte
de las aplicaciones.
Históricamente, estas previas se han denominado previas no informa-
tivas. Hoy en dı́a, existe un amplio acuerdo en que esta denominación no
es conveniente, ya que una única previa siempre contendrá información
de algún tipo sobre los parámetros. Por lo tanto, recientemente muchos
autores han denominado a este tipo de previas “objetivas” (término que
será usado en este trabajo) o “automáticas”.
En cualquier caso, la caracterı́stica común a todos los procedimien-
tos que serán usados a continuación es que el cálculo o la selección
de la distribución previa no requiere de conocimiento previo sobre los
parámetros, evitando el paso (frecuentemente difı́cil) de traducir dicho
conocimiento en una distribución de probabilidad.
Para entender un poco mejor el contexto en el cual se trabajará en
esta sección, hay que revisar dos interpretaciones de la distribución a
priori:

Interpretación poblacional: En este caso se supone que la distribu-


ción representa a una población de posibles valores del parámetro
θ de la cual se ha muestreado el valor de interés para θ.

Interpretación subjetiva: Aquı́ se supone que la distribución expre-


sa el conocimiento e incertidumbre que sobre θ se tiene, como si
fuera una realización aleatoria de la distribución previa.

Las ecuaciónes 1.10 y 1.11 se pueden en este contexto escribir como:

E(θ) = E(E(θ|y))
var(θ) = E(var(θ|y)) + var(E(θ|y))

lo que implica, por una parte, que la distribución posterior está centrada,
en promedio, en la media de la distribución previa y por otra parte, que
la varianza posterior es, en promedio, menor que la varianza previa. En
algunos casos, como en el estudio de un proceso industrial en el que
se repiten las actividades de manera controlada, hay mucha información
Introducción 15

previa lo que permite establecer una distribución previa informativa pero


no subjetiva.
Históricamente, se han desarrollado diferentes enfoques para la selec-
ción de previas objetivas. En [LRP] se señala que Bayes y Laplace, los
primeros autores en realizar un análisis Bayesiano, sugirieron usar una
distribución imparcial sobre los valores de los parámetros. De allı́ que
el postulado original, conocido como Principio de la razón insuficiente
de Laplace, fuera tomar como medida a priori la distribución uniforme.
Este postulado presenta al menos estos inconvenientes ([LRP], p. 80):

Si un investigador supone que p(θ) = 1 y otro pa-


rametriza su problema en términos del parámetro ν =
exp(θ) y supone que p∗ (ν) = 1, los resultados a que
llegan ambos con los mismos datos y verosimilitud son
inconsistentes a pesar de que la transformación es uno-
uno. La razón es que por la fórmula del cambio de va-
riables, si p(θ) = 1,

p∗ (ν) = p(log ν)/ν = 1/ν

Entonces, según el postulado de Bayes-Laplace, el primer


investigador es “no informativo” respecto de θ pero no
respecto de ν = exp(θ).
Si el espacio de parámetros es no acotado, entonces
p(θ) = 1 no integra uno, es decir, es impropia.

Para soslayar el primer inconveniente Jeffreys (ver [Jef]) propone lo


que se conoce como el principio de invariancia de Jeffreys que se basa
en considerar transformaciones 1-1 del parámetro: φ = h(θ). En tal caso,
una densidad previa sobre θ induce una densidad previa sobre φ


p(φ) = p(θ) = p(θ)|h0 (θ)|−1

El principio general de Jeffreys establece que cada regla para determi-
nar una previa p(θ) debe generar un resultado equivalente si es aplicada
al parámetro transformado φ. Esto quiere decir que si se calcula p(φ) con
la ecuación anterior a partir de p(θ), este resultado debe ser equivalente
al que se obtendrı́a determinando p(φ) directamente a partir del modelo
transformado p(y, φ) = p(φ)p(y|φ).
16 Bravo-Llatas-Pérez

La elección de Jeffreys para una densidad previa objetiva es p(θ) ∝


[J(θ)]1/2 , donde J(θ) es la información de Fisher para θ:

" 2 #  2 
d log p(y|θ) d log p(y|θ)
J(θ) = E θ = −E θ . (1.13)

dθ dθ2

Esta elección es invariante bajo parametrizaciones: Para ver esto, eva-


luando J(φ) en θ = h−1 (φ) se obtiene:
 2 
d log p(y|φ)
J(φ) = −E
dφ2
" #
d2 log p(y|θ = h−1 (φ)) dθ 2
= −E
dθ2 dφ
2

= J(θ)



y por tanto J(φ)1/2 = J(θ)1/2 dφ .
El principio de Jeffreys puede extenderse a modelos multiparamétri-
cos, pero los resultados son más controversiales, ya que estos dependen,
en general, de las suposiciones de independencia que se hagan sobre los
distintos parámetros. Las previas de referencia (ver, por ejemplo, [Bern],
[BergBern]) han sido desarrolladas para resolver este tipo de problemas.
Para algunos modelos uniparamétricos, como por ejemplo el modelo
binomial (ver ejemplo 1.3.1), diferentes principios proporcionan diferen-
tes previas objetivas (ver ejemplo 1.9.1). Sin embargo, para modelos
donde los parámetros son de localización y escala todos los enfoques
coinciden:

1. Parámetros de localización: Si p(y − θ|θ) = f (u), donde u = y − θ


diremos que u = y − θ es un pivote y que θ es un parámetro de lo-
calización. En este caso, es razonable que una previa objetiva diera
como resultado f (u) para la posterior p(y − θ|y). Esto implica que
para la distribución a posteriori, u = y −θ también es una cantidad
pivotal. Por lo tanto, p(y − θ|y) ∝ p(θ)p(y − θ|θ) ⇒ p(θ) ∝ cte en
el intervalo (−∞, ∞). Esto implica que la densidad a priori no-
informativa es uniforme en θ.
Introducción 17

2. Parámetros de escala: Si la densidad de y es tal que p(y/θ|θ) =


g(u), donde u = y/θ, entonces u = y/θ es un pivote y θ es un
parámetro de escala. En tal caso, es razonable que una previa no
informativa diera como resultado de la posterior p(y/θ|y) una fun-
ción g(u) con u = y/θ. Transformando variables,

du
p(y|θ) = p(u|θ) (1.14)
dy
1
= p(u|θ)
θ
y en forma similar,

du
p(θ|y) = p(u|y) (1.15)

y
= p(u|y)
θ2
Haciendo p(u|θ) = p(u|y) = g(u), llegamos a que la previa de
referencia debe ser p(θ) ∝ 1/θ ó, en forma equivalente: p(log θ) ∝ 1,
ó p(θ2 ) ∝ 1/θ2 .

Este enfoque basado en pivotes puede ser usado en casos más comple-
jos aplicado a estadı́sticos suficientes.
Ejemplo 1.9.1. Previas objetivas para la distribución binomial
Si y ∼ Bin(n, θ), su log-verosimilitud es

log p(y|θ) = cte. + y log θ + (n − y) log(1 − θ)

La información de Fisher en este caso es


n
J(θ) =
θ(1 − θ)
−1/2 (1 − θ)−1/2 , que corres-
 por tanto, p(θ) ∝ θ
y la previa de Jeffreys es,
1 1
ponde a una Beta 2 , 2 .
Otra posibilidad es tomar la previa de Bayes-Laplace p(θ) ∝ 1 (uni-
forme, ó θ ∼ Beta(1, 1)).
Por otro lado, puede tomarse la densidad que es uniforme en el pa-
rámetro natural de la familia exponencial, es decir p(logit(θ)) ∝ cte., la
cual corresponde a la previa impropia Beta(0, 0).
18 Bravo-Llatas-Pérez

En la práctica, la diferencia entre estas alternativas es, en general,


pequeña, pero se debe ser cuidadoso con la previa impropia Beta(0, 0),
ya que lleva a posteriores impropias cuando y = 0 ó n.
Los casos aquı́ mencionados son sólo una pequeña parte de las varie-
dades de previas objetivas desarrolladas, y la discusión se ha limitado
al problema de estimación de parámetros. Es necesario, sin embargo,
destacar que el análisis Bayesiano objetivo no está exento de contro-
versias, aún dentro de la comunidad Bayesiana. Para una presentación
reciente sobre la filosofı́a, historia y utilidad del análisis Bayesiano ob-
jetivo, ası́ como argumentos a favor y en contra de su uso, puede verse
[Ber] y su discusión.
Capı́tulo 2

Modelos uniparamétricos y
multiparamétricos

En este capı́tulo se presenta una discusión un poco mas detallada del


análisis de datos e inferencia en la estadı́stica Bayesiana que, como se
ha comentado, se realiza a través de la propuesta de un modelo que
considera la verosimilitud de las cantidades observadas y la distribución
previa de los parámetros.
La sección 2.1 está dedicada a los modelos estadı́sticos que están de-
terminados únicamente por un parámetro. La sección 2.2 contiene resul-
tados para los modelos multiparamétricos mas relevantes en la literatura
aplicada, separados de los modelos que usan información contenida en
covariables o variables explicativas, que se presentan en la sección 2.3 y
en la sección 2.4. La sección 2.5 se dedicará completamente a estudiar
los modelos jerárquicos. En la sección 2.6 se presentan algunos ejemplos.

2.1. Modelos uniparamétricos


2.1.1. Modelo binomial
El objetivo es estimar la proporción desconocida de un conjunto de
pruebas Bernoulli, donde los datos y1 , . . . , yn son una secuencia de 0’s y
1’s. Esta es una secuencia de n ocurrencias intercambiables, donde cada
ocurrencia tiene dos posibilidades: éxito o fracaso.

19
20 Bravo-Llatas-Pérez

Ejemplo 2.1.1. Se desea estimar la probabilidad que nazca una niña, en


una población de madres sanas. Sea θ = Proporción de éxitos en una
población o la probabilidad de éxito en cada ocurrencia. Entonces

 
n
p(y/θ) = θy (1 − θ)n−y ,
y

donde y es la cantidad de éxitos. Si θ es la proporción de nacimientos fe-


meninos, φ = (1−θ)/(θ) es el cociente entre la proporción de nacimientos
masculinos y femeninos.

De acuerdo con los pasos de la inferencia Bayesiana, es necesario es-


pecificar una distribución previa para θ y encontrar la densidad posterior
de θ. Si por ejemplo se especifica θ ∼ U (0, 1), se obtiene, como densidad
posterior no normalizada:

p(θ|y) ∝ θy (1 − θ)n−y

De esta ecuación es fácil ver que θ|y ∼ Beta(y + 1, n − y + 1). También es


fácil ver que la familia de distribuciones Beta, es conjugada con respecto
a la verosimilitud; partiendo de una previa p(θ) ∼ Beta(α, β), se obtiene
como distribución posterior p(θ|y) ∼ Beta(α + y, β + n − y).1
Con estos resultados se pueden obtener los momentos de la distribu-
ción posterior, como:

α+y
E(θ|y) = (2.1)
α+β+n

(α + y)(β + n − y)
var(θ)|y) = (2.2)
α + β + n)2 (α + β + n + 1)
E(θ|y)[1 − E(θ|y)]
=
α+β+n+1

1
La U (0, 1) es equivalente a una Beta(1, 1).
Modelos 21

Predicción
Sea ỹ el resultado de una nueva ocurrencia, intercambiable con las
primeras n,
Z 1
p(ỹ = 1|y) = p(ỹ = 1|θ, y)p(θ|y)dθ
0
Z 1
= θp(θ|y)dθ
0
= E(θ|y) (2.3)

De esta manera si la distribución previa es una Beta(α, β),


α+y
E(θ|y) = ,
β+α+n
por lo que la probabilidad de obtener un exito en el próximo ensayo
Bernoull es un promedio ponderado entre la media muestral y el valor
esperado de la previa.
Ejemplo 2.1.2. En este ejemplo se considera la estimación de la proba-
bilidad de que nazca una hembra dada la condición de placenta previa
(Ejemplo 2.5 del [GCSR])
En un estudio inicial llevado a cabo en Alemania, se encontró que de
un total de 980 nacimientos con la condición de placenta previa, 437
eran niñas.
¿Cuánta evidencia proporcionan estos datos sobre la hipótesis de que
la proporción de nacimientos hembras en la población de placenta previa
es menor que la proporción 0.485 de hembras en la población general?.
En este caso el modelo natural para y, el número de nacimientos niña
con la condición de placenta previa, de una muestra de nacimientos con
esa condición, es el modelo Binomial,

p(y|θ) ∝ θy (1 − θ)n−y

y al igual que en el ejemplo 1.3.1, si se usa una distribución inicial U(0,1)


la distribución posterior de θ, la proporción de nacimientos hembras con
la condición de placenta previa, es Beta(θ|y+1, n−y) = Beta(θ|438, 544).
Haciendo uso del programa estadı́stico R, se puede fácilmente calcular
la media a posteriori, desviación estándar, mediana y cuantiles del 2.5 %
y 97.5 % de probabilidad:
22 Bravo-Llatas-Pérez

> 438/(438+544)
[1] 0.4460285
> sqrt(438*544/((438+544)^2*(438+544+1)))
[1] 0.01585434
> qbeta(0.5,438,544)
[1] 0.4459919
> qbeta(0.025,438,544)
[1] 0.4150655
> qbeta(0.975,438,544)
[1] 0.4771998

Con esto, nos queda que el intervalo central del 95 % de probabilidad


a posteriori es: [0,415, 0,477]. Nótese que este intervalo no contiene a la
proporción de niñas en la población, con lo que se puede inferir que la
proporción de placenta previa en nacimientos hembras es menor que la
proporción poblacional.

2.1.2. Modelo Poisson


Este es el modelo natural cuando los datos se refieren a conteos, siendo
uno de los modelos más usados en el área de epidemiologı́a. El parámetro
θ representa la tasa de ocurrencia del evento, que es un parámetro dimen-
sional, en el sentido que representa ocurrencias por unidad de medida,
por ejemplo, número de enfermos por cada 100 habitantes, o número
de árboles por kilómetro cuadrado. Para un vector de n observaciones,
y = (y1 , . . . , yn ), independientes, la verosimilitud es
n
Y 1 yi −θ
p(y|θ) = θ e (2.4)
yi !
i=1
t(y) −nθ
∝ θ e

con t(y) = ni=1 yi , el estadı́stico suficiente.


P

De acuerdo con lo planteado en el ejemplo 1.8.1, usando una distribu-


ción Gamma(α, β) como distribución previa se puede realizar un análisis
conjugado, resultando como distribución posterior Gamma(α + t(y), β +
n).
Un resultado interesante es cuando se usa la ecuación 1.7 para encon-
trar la distribución predictiva en el modelo con una sola observación,
Modelos 23

puesto que en este caso:

Γ(α + y)β α
p(y) =
Γ(α)y!(1 + β)α+y

que también puede escribirse como:


  α  y
α+y−1 β 1
p(y) = ,
y β+1 β+1

que corresponde a la distribución binomial negativa Bin-neg(y|α, β).


La derivación anterior demuestra que la distribución binomial negativa
es la distribución marginal de una variable aleatoria Poisson cuando el
parámetro θ (la tasa) tiene una distribución a priori Gamma(α, β). Esto
puede expresarse de la siguiente forma:
Z
Bin-neg(y|α, β) ∼ Poisson(y|θ) Gamma(θ|α, β)dθ

Esto también implica que la distribución Binomial Negativa es una


distribución de mezcla continua de una distribución Poisson con dis-
tribución Gamma para el parámetro de tasa de mezcla.

Modelos Poisson en función de la tasa y la exposición


En aplicaciones puede no ser razonable suponer una tasa común para
todas las observaciones, por ejemplo, en epidemiologı́a es frecuente que
el número de casos esperados sea el producto de la tasa θ y un valor Ei
que equivale a la exposición, lo que se puede modelar como:

yi ∼ Poisson(µi )
µi = Ei θi

de manera que, cuando se supone Ei conocido, θi es la proporción de


personas afectadas, que es el parámetro de interés. Usando una previa
Gamma θi ∼ Gamma(α, β), la distribución posterior de θ = (θ1 , . . . , θn ),
será proporcional a
" n #
yi
Y
exp(−Ei θi )θi θiα−1 exp(−βθi )
i=1
24 Bravo-Llatas-Pérez

con lo que la densidad posterior para cada θi es Gamma(α + yi , β + Ei ).


Si se considera en el modelo una única tasa, es decir que θi = θ, para
todo i, queda que la distribución posterior corresponde a
n
X n
X
θ|y ∼ Gamma(α + yi , β + xi )
i=1 i=1

Ejemplo 2.1.3. Ejemplo hipotético: Tasa de incidencia de malaria en el


municipio Cajigal del Estado Sucre.
Se desea estudiar la tasa de incidencia de malaria en el municipio
Cajigal del estado Sucre. Se observa por ejemplo que en el año 2001
se registraron 500 casos de la enfermedad en este municipio de 20.000
personas (250 casos por cada 10.000 personas en promedio por año).
Si se usa una distribución de muestreo Poisson para y, el número de
casos en un municipio de 20.000 habitantes en un año, la distribución de
muestreo puede expresarse como una Poisson (2,0θ), donde θ es la ver-
dadera tasa de incidencia de la enfermedad a largo plazo en el municipio
por cada 10.000 habitantes.
Considerando opinión de expertos, se tiene un conocimiento a priori
que se espera una valor de θ de alrededor de 10, se usa una distribución
previa para θ= Gamma(5.0,0.5) la cual tiene media igual a 10. La dis-
tribución posteriori resultante es una Gamma(505.0,2.5) con una media
de 204.
Esta distribución se actualiza luego de que se dispone de observaciones
adicionales. Suponiendo que la población no cambia en 5 años (20.000
habitantes), se observan 1.500 casos en 5 años. En este caso la distribu-
ción de muestreo es una Poisson(10.0θ), y la distribución posterior para
θ es Gamma(1505.0,10.5) con media 143.
En la figura 2.1 se presentan los histograma de muestras de la dis-
tribución previa, y distribuciones posteriores, producidos con el siguiente
programa en el lenguaje R2 :
> # Ejemplo sobre incidencia de malaria en el estado Sucre
> # Ejemplo Modelo Poisson
> ##############################
> # Previa \theta ~ Gamma(5,0.5)
> theta.prior=rgamma(1000,5,scale=2)
2
Observación: La parametrización de la distribución Gamma en R y la usada en
este texto difieren en el parámetro de escala
Modelos 25

Figura 2.1: Histograma de la distribución previa para θ; histograma de


la distribución posterior para θ dadas y = 500 casos en 20.000 personas;
histograma de la distribución a posteriori para θ dadas y = 1,500 en 5
años con una población constante de 20.000 habitantes

> summary(theta.prior)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.9695 6.6940 9.3570 9.9680 12.3700 32.9500
> # D. a posteriori \theta ~ Gamma(505,2.5)
> theta.posterior=rgamma(1000,510,scale=2/5)
> summary(theta.posterior)
Min. 1st Qu. Median Mean 3rd Qu. Max.
180.5 198.4 203.7 203.9 209.8 230.1
> length(theta.posterior[(theta.posterior>150)])/1000
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> [1] 1
> # D. a posterior con mas datos \theta ~Gamma(1505,10.5)
26 Bravo-Llatas-Pérez

> theta.posterior.2=rgamma(1000,1505,scale=2/21)
> summary(theta.posterior.2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
132.5 141.2 143.6 143.6 146.1 157.6
> #Probabilidad de exceder 150 casos or cada 10.000 habitantes
> length(theta.posterior.2[(theta.posterior.2>150)])/1000
> [1] 0.034
> par(mfrow=c(3,1),bty=’n’)
> hist(theta.prior,xlab="theta",ylab="",main="Previa",
+ xlim=c(0.0,250.0))
> hist(theta.posterior,xlab="theta",ylab="",main="Distribucion
+ posterior I", xlim=c(0.0,250.0))
> hist(theta.posterior.2,xlab="theta",ylab="",main="Distribucion
+ posterior II", xlim=c(0.0,250.0))

2.1.3. Modelo exponencial


Este es el modelo mas sencillo para los tiempos de espera de la ocurren-
cia de algún evento, como por ejemplo, el tiempo para que se presente
una falla de un equipo, en sistemas que pueden pensarse “sin memoria”.
La verosimilitud para una observación es:

p(y|θ) = θ exp(−yθ) y > 0

donde θ es igual a 1/E(y|θ). Nótese que la distribución exponencial de


parámetro θ es igual a la distribución Gamma(1,θ).
La propiedad que describe la falta de memoria es que

Pr(y > t + s|y > s, θ) = Pr(y > t|θ),

para todo t, o lo que es lo mismo, la tasa de peligro instantánea, h(y)


(en inglés hazard rate), es constante e igual a θ). 3
En este caso la distribución conjugada natural previa corresponde a
una Gamma(θ|α, β), con lo que la distribución posterior es una
Gamma(θ|α + 1, β + y).
Cuando se cuenta con n observaciones, cuyo promedio es ȳ, la verosi-
militud es
3 f (y)
(h(y) = 1−F (y)
para una función de distribución de probabilidad F , con densidad
f ).
Modelos 27

p(y|θ) = θn exp(−nȳθ)
y la distribución posterior queda como Gamma(n + α, nȳ + β).

2.1.4. Modelo normal (localización)


Este es el caso en que se desea encontrar la distribución posterior de
la media de una distribución de muestreo normal con varianza conocida.
Considere la verosimilitud para un solo dato y
2
1 1 (y−θ)
p(y|θ) = √ e− 2 σ2
2πσ
esto es, y ∼ N (θ, σ 2 ), σ 2 conocida.
Para la distribución previa considerese el tipo de distribuciones con-
2
jugadas a priori de la forma p(θ) = eAθ +Bθ+C , la cual puede parame-
trizarse como
 
1 2
p(θ) ∝ exp − 2 (θ − µo )
2τo
o dicho de otro manera,θ ∼ N (µo , τo2 ) con hiperparámetros µo y τo2 ,
ambos conocidos, con lo que se obtiene como distribución posterior:
 
1 2
p(θ|y) ∝ exp − 2 (θ − µ1 )
2τ1

donde
1
µ + σ12 y
τo2 o 1 1 1
µ1 = 1 ; = 2+ 2
τo2
+ σ12 τ12 τo σ

lo que implica que θ|y ∼ N (µ1 , τ12 ).


Como ya se ha visto en otros casos, la esperanza posterior µ1 , es un
promedio ponderado entre la media a priori y la observación y con pesos
proporcionales a las precisiones, es decir, al inverso de la varianza. Nótese
que si τo2 = 0 la distribución previa es más precisa que los datos y las
distribuciones a priori y a posteriori están concentradas en µo . Si σ 2 = 0
los datos son precisos y la distribución a posteriori está concentrada en
y.
28 Bravo-Llatas-Pérez

Para encontrar la distribución predictiva a posteriori se procede por


definición a realizar los siguientes cálculos:
Z
p(ỹ|y) = p(ỹ|θ, y) p(θ|y) dθ
Z
= p(ỹ|θ) p(θ|y) dθ
Z    
1 2 1 2
∝ exp − 2 (ỹ − θ) exp − 2 (θ − µ1 ) dθ
2σ 2τ1
El producto en el integrando es la exponencial de una función cuadrática
de (ỹ, θ), por lo que ỹ y θ tienen una distribución conjunta normal y la
distribución marginal a posteriori de (ỹ, θ) es normal, con E(ỹ|θ) = θ y
V ar(ỹ|θ) = σ 2 , con esto:

E(ỹ|y) = E(E(ỹ|θ, y)|y) = E(θ|y) = µ1


V (ỹ|y) = E(V ar(ỹ|θ, y)|y) + V ar(E(ỹ|θ, y)|y)
= E(σ 2 |y) + V ar(θ|y)
= σ 2 + τ12

Ası́, la distribución predictiva tiene media igual a la media a posteriori


de θ y varianza igual a la varianza predictiva σ 2 + varianza a posteriori
τ12 , debido a la incertidumbre en θ.
Los cálculos anteriores pueden generalizarse fácilmente para el modelo
normal con observaciones múltiples: sea y = (y1 , . . . , yn ) un vector de
observaciones independientes, con lo que se obtiene como distribución
posterior:

p(θ|y) ∝ p(θ) p(y|θ)


Yn
= p(θ) p(yi |θ)
i=1
n
" #!
1 1 2 1 X 2
∝ exp − (θ − µ0 ) + 2 (yi − θ) .
2 τ02 σ
i=1

Se puede probar que p(θ|y1 , . . . , yn ) = p(θ|ȳ) = N (θ|µn , τn2 ) donde


1
µ + σn2 ȳ
τo2 o 1 1 n
µn = 1 ; = 2+ 2
τo2
+ σn2 τn2 τo σ
Modelos 29

y ȳ es un estadı́stico suficiente.
Nótese que la distribución a posteriori depende de las observaciones
a través de la media muestral ȳ. Esto trae como consecuencia que si n
es grande σ 2 y ȳ tienen gran influencia sobre la distribución posterior;
ası́ mismo, si τo → ∞ (n fijo) ó n → ∞ (τo2 fijo) entonces: p(θ|y) ∼
N (ȳ, σ 2 /n).
Esta distribución posterior es aproximadamente la que resultarı́a de
tomar la distribución previa objetiva p(θ) ∝ c para θ ∈ (−∞, ∞), aun
cuando estrictamente no es posible, ya que dicha previa no tendrı́a inte-
gral finita.

2.1.5. Modelo normal (escala)


En este caso se establece que la distribución de muestreo es una dis-
tribución Normal con media conocida y varianza desconocida, esto es:

n
!
1 X
p(y|σ 2 ) ∝ σ −n exp − 2 (yi − θ)2

i=1
2 −n/2 n
= (σ ) exp(− 2 v)

Se conoce que v = n1 ni=1 (yi − θ)2 es un estadı́stico suficiente, y en


P
este caso la familia de densidades conjugadas previas corresponde a la
familia Inversa Gamma, con hiperparámetros α y β:
2
p(σ 2 ) ∝ (σ 2 )−(α+1) e−β/σ
que es equivalente, con otra parametrización, a una Inv-χ2 (νo , σo2 ) (Chi
cuadrado inversa con escalamiento) o dicho de otra manera σ 2 ∼ σo2 νo /X
donde X se distribuye como una χ2νo .
Con esto, la distribución posterior queda:

p(σ 2 |y) ∝ p(σ 2 )p(y|σ 2 )


 2 (νo /2+1)
νo σo2
 
σo 2 −n/2
 n v 
∝ exp − (σ ) exp −
σ2 2σ 2 2 σ2
 
1
∝ (σ 2 )−((n+νo )/2+1) exp − 2 (νo σo2 + nv)

30 Bravo-Llatas-Pérez

o
νo σo2 + nv
 
2 2
σ |y ∼ Inv − χ νo + n, ,
νo + n
es decir, que la posterior corresponde a una distribución Chi-Cuadrado
inversa con escalamiento, cuya escala es igual al promedio ponderado
por los grados de libertad, entre la escala a priori y la escala de los
datos; mientras que los grados de libertad son la suma de los grados de
libertad a priori y el número de datos.
Ahora bien, si los grados de libertad de la previa, ν0 , son pequeños
relativos a los grados de libertad muestrales n, la posterior es aproxi-
madamente la que corresponderı́a a tomar ν0 = 0.

p(σ 2 |y) ≈ Inv-χ2 (n, v)

Esta forma lı́mite de la posterior puede obtenerse definiendo la previa


para σ 2 como p(σ 2 ) ∝ 1/σ 2 , la cual nuevamente es impropia.

2.2. Modelos multiparamétricos


Los modelos presentados en la sección anterior, con su simplicidad,
son útiles para entender propiedades y caracterı́sticas de la inferencia
Bayesiana pero, en la práctica, es cuando se consideran los modelos
multiparamétricos y jerárquicos que la manera Bayesiana de realizar la
inferencia cobra mayor valor.
Frecuentemente se plantean modelos en los que el vector de paráme-
tros, θ, tiene dos partes, cada una de las cuales puede ser, a su vez, un
vector: (θ1 , θ2 ). Si el interés de la inferencia se centra sobre θ1 solamente,
entonces θ2 es considerado un parámetro de “estorbo”(o en ingles “nui-
sance”). El como deshacerse de dicho “estorbo” es sencillo considerando
la distribución marginal, esto es, con la distribución conjunta posterior:

p(θ1 , θ2 |y) ∝ p(y|θ1 , θ2 )p(θ1 , θ2 )

se puede promediar sobre θ2 , obteniéndose:


Z
p(θ1 |y) = p(θ1 , θ2 |y) dθ2

También se puede escribir:


Modelos 31

Z
p(θ1 |y) = p(θ1 |θ2 , y) p(θ2 |y) d(θ2 )

Esta integral generalmente no se evalua explı́citamente, pero sugiere


una estrategia de evaluación: Se genera θ2 de la distribución marginal
a posteriori; luego se genera θ1 de su distribución condicional a poste-
riori dado el valor de θ2 y de esta forma la integración se lleva a cabo
indirectamente.

2.2.1. Modelo normal


El ejemplo más sencillo de un modelo multiparamétrico, es el modelo
normal, con media y varianza desconocida.
Sea y un vector de n observaciones iid N (µ, σ 2 ), para realizar la in-
ferencia hace falta considerar una distribución previa. A continuación se
presentan dos propuestas.

Previa “objetiva”

Con los resultados en las secciones 2.1.4 y 2.1.5, se puede usar como
distribución objetiva, suponiendo independencia a priori de los parámet-
ros de localización y escala, una distribución uniforme para (µ, log σ):

p(µ, σ 2 ) ∝ (σ 2 )−1

Con esto, la distribución posterior corresponde a


n
!
2 −n−2 1 X 2
p(µ, σ |y) ∝ σ exp − 2 (yi − µ) (2.5)

i=1
" n #!
1 X
= σ −n−2 exp − 2 (yi − ȳ)2 + n(ȳ − µ)2

i=1
 
−n−2 1 2 2
= σ exp − 2 [(n − 1)s + n(ȳ − µ) ]

1 Pn 0
donde s2 = n−1 2
i=1 (yi − ȳ) es la varianza muestral de los yi s. ȳ y s
2

son los estadı́sticos suficientes.


32 Bravo-Llatas-Pérez

A partir de la ecuación 2.5 se puede ver que encontrar la distribución


condicional posterior, p(µ|σ 2 , y), es equivalente al problema de una dis-
tribución normal con varianza conocida y distribución previa uniforme,
esto es,
µ|σ 2 , y ∼ N (ȳ, σ 2 /n)

Igualmente, la distribución marginal a posterior p(σ 2 |y) se obtiene inte-


grando p(µ, σ 2 |y) con respecto a µ:
Z  
2 −n−2 1 2 2
p(σ |y) ∝ σ exp − 2 [(n − 1)s + n(ȳ − µ) ] dµ

La integración con respecto a µ equivale a la evaluación de una integral


normal del factor exp(− 2σn2 (ȳ − µ)2 ), por lo que:
 
2 −n−2 1 2
p
p(σ |y) ∝ σ exp − 2 (n − 1)s 2πσ 2 /n

(n − 1)s2
 
2 −(n+1)/2
= (σ ) exp −
2σ 2

Esto implica que σ 2 |y ∼ Inv-χ2 (n − 1, s2 ),


Observación: Contraste el resultado anterior con el resultado de 2 es-
tad̄ı́stica clásica para la distribución de muestreo de σ 2 , esto es, (n−1)s
σ2

χ2n−1 .
Los resultados anteriores proveen una factorización de la densidad
p(µ, σ 2 |y) = p(µ|σ 2 , y)p(σ 2 |y), con lo que, para muestrear de la distribu-
ción posterior conjunta p(µ, σ 2 |y), se puede muestrear de la distribución
p(σ 2 |y) y luego de la distribución p(µ|σ 2 , y).
Ahora si se desea encontrar p(µ|y), la distribución marginal a posteri-
ori para µ, se puede calcular integrando la densidad a posteriori conjunta
con respecto a σ 2 :
Z ∞
p(µ|y) = p(µ, σ 2 |y)dσ 2
0

A
Haciendo la sustitución z = 2σ 2
con A = (n − 1)s2 + n(µ − ȳ)2 , se
Modelos 33

obtiene la integral gamma no-normalizada:


Z ∞
−n/2
p(µ|y) ∝ A z (n−2)/2 exp(−z)dz
0
∝ [(n − 1)s2 + n(µ − ȳ)2 ]−n/2
−n/2
n(µ − ȳ)2

∝ 1+
(n − 1)s2
la cual es una densidad tn−1 (ȳ, s2 /n).
Observación: Contraste el resultado anterior con el resultado de la
distribución de muestreo de la cantidad pivotal:
ȳ − µ
T = √ ,
s/ n
que es
ȳ − µ
√ |µ, σ 2 ∼ tn−1 .
s/ n
Finalmente, para encontrar la distribución predictiva a posteriori para
observaciones futuras, esta se puede escribir como la mezcla:
Z
p(ỹ|y) = p(ỹ|µ, σ 2 , y)p(µ, σ 2 |y)dµdσ 2 (2.6)

que resulta en una distribución t de Student con localización ȳ, parámet-


ro de escala (1 + n1 )1/2 y n − 1 grados de libertad. Nótese que el primer
término en la integral de la ecuación 2.6 no depende de y, de manera que
para simular de la distribución predictiva se toma una muestra de µ, σ 2
de su distribución conjunta a posteriori y luego se simula ỹ ∼ N (µ, σ 2 ).

Previa conjugada
Para considerar una distribución previa conjugada, esta debe tener la
forma del producto p(σ 2 )p(µ|σ 2 ). Una parametrización adecuada es:
µ|σ 2 ∼ N (µ0 , σ 2 /κ0 ) (2.7)
σ 2 ∼ Inv − χ2 (ν0 , σ02 ) (2.8)
La densidad conjunta a priori toma la forma:
 
2 −1 2 −(ν0 /2+1) 1 2 2
p(µ, σ ) ∝ σ (σ ) exp − 2 [ν0 σo + κo (µ0 − µ) ]

34 Bravo-Llatas-Pérez

que se conoce como la distribución Normal-Inversa Chi-cuadrado con


parámetros (µ0 , σ02 /κo ; ν0 , σ02 ).
Esta previa produce, al multiplicala por la verosimilitud normal, la
densidad posterior Normal-Inv − χ2 (µn , σn2 /κn ; νn , σn2 ) donde:
κ0 n
µn = µ0 + ȳ
κ0 + n κ0 + n
κn = κ0 + n
νn = ν0 + n
κ0 n
νn σn2 = ν0 σ02 + (n − 1)s2 + (ȳ − µ0 )2 .
κ0 + n
Los parámetros de la distribución a posteriori combinan la información
a priori con la información contenida en los datos. Con esto se pueden
encontrar los siguientes resultados:
Distribución condicional a posteriori p(µ|σ 2 , y):
µ|σ 2 , y ∼ N (µn , σ 2 /κn )

Distribución marginal a posteriori p(σ 2 |y)


σ 2 |y ∼ Inv − χ2 (νn , σn2 )

Forma analı́tica de la distribución marginal a posteriori de µ


−(νn +1)/2
κn (µ − µn )2

p(µ|y) ∝ 1 +
νn σn2
= tνn (µ|µn , σ 2 /κn )

Otra variante para escogencia de la previa


Otra forma de especificar una distribución previa para µ y σ 2 es asumir
independencia de µ y σ 2 a priori. Esto implica que µ no depende de σ 2
a priori de tal forma que:
µ ∼ N (µ0 , τ02 )
σ 2 ∼ Inv − χ2 (ν0 , σ02 )
A esta distribución se le conoce como distribución a priori semi-conju-
gada, no conjugada, puesto que en la distribución posterior resultante
µ y σ 2 son dependientes y la densidad a posteriori no pertenece a una
familia paramétrica estándar.
Modelos 35

2.2.2. Modelo normal multivariado


Sea y un vector observable de d componentes tal que: y|µ, Σ ∼ N (µ, Σ).
µ es un vector columna de tamaño d y Σ es la matriz de varianza-
covarianza la cual es simétrica y positiva definida.
Lo anterior significa que la verosimilitud para una observación es:
 
−1/2 1 T −1
p(y|µ, Σ) ∝ |Σ| exp − (y − µ) Σ (y − µ)
2

mientras que para una muestra de observaciones y1 , . . . , yn :


n
!
−n/2 1X T −1
p(y1 , . . . , yn |µ, Σ) ∝ |Σ| exp − (yi − µ) Σ (yi − µ)
2
i=1
 
−n/2 1 −1
= |Σ| exp − tr(Σ S0 )
2

donde S0 = ni=1 (yi − µ)(yi − µ)T , esto es, S0 es la matriz de suma de


P
cuadrados y tr denota el operador “traza”.
Al igual que en el caso univariado, se puede considerar el problema de
localización únicamente, esto es, suponer que la distribución es normal
multivariada con varianza conocida Σ. Si se desea usar una distribución
conjugada a priori para µ, nótese que la log-verosimilitud es una forma
cuadrática en µ, por lo que una distribución a priori conjugada para
µ puede parametrizarse como N (µ0 , Λ0 ). En este caso, la distribución
posterior queda:

p(µ|y, Σ) ∝
n
!  
1X T −1 1 T −1
exp − (yi − µ) Σ (yi − µ) × exp − (µ − µ0 ) Λ0 (µ − µ0 )
2 i=1 2

Esta expresión es una exponencial de una forma cuadrática en µ; ex-


pandiendo los exponentes y completando la forma cuadrática para µ se
obtiene:
 
1 T −1
p(µ|y, Σ) ∝ exp − (µ − µn ) Λn (µ − µn )
2
= N (µ|µn , Λn )
36 Bravo-Llatas-Pérez

donde
µn = (Λ−1 −1 −1 −1 −1
0 + nΣ ) (Λ0 µ0 + nΣ ȳ)
Λ−1
n = Λ−1
0 + nΣ
−1

Nótese que los resultados son similares al caso univariado y la media a


posteriori es un promedio ponderado de la media de los datos y la media
a priori, con pesos equivalentes a sus precisiones a priori nΣ−1 y Λ−1 0
respectivamente.
Para encontrar la distribución predictiva posterior, sea ỹ una nueva
observación tal que ỹ ∼ N (µ, Σ). La distribución conjunta p(ỹ, µ|y) =
N (ỹ|µ, Σ)N (µ|µn , Λn ) es la exponencial de una forma cuadrática en
(ỹ, µ) por lo que (ỹ, µ) tiene una distribución normal multivariada con-
junta y la distribución marginal posterior de ỹ es una normal multiva-
riada con media y varianza posterior:
E(ỹ|y) = E(E(ỹ|µ, y))
= E(µ|y) = µn

var(ỹ|y) = E(var((ỹ|µ, y)|y)var(E(ỹ|µ, y)|y)


= E(Σ|y) + var(µ|y) = Σ + Λn .
En caso de usar una densidad a priori no-informativa para µ, se supone
p(µ) ∝ constante. Esto es equivalente a suponer una varianza a priori
infinita o una precisión cero. En este caso la distribución posterior es
proporcional a la verosimilitud, pero esta será una distribución propia
solo si n ≥ d. En este caso la distribución a posteriori es:
µ|Σ, y ∼ N (ȳ, Σ/n).
Ahora, en el caso de la distribución normal multivariada con media y
varianza desconocida, encontrar la familia de distribuciones conjugadas
requiere usar la distribución inversa Wishart como la generalización mul-
tivariada de la inversa escalada χ2 para describir la distribución previa
de la matriz Σ.
La distribución conjugada a priori para (µ, Σ) es la normal-inversa-
Wishart con hiperparámetros (µ0 , Λ0 /κ0 ; ν0 , Λ0 ):
Σ ∼ Inv-Wishartνo (Λ−1
0 )
µ|Σ ∼ N (µ0 , Σ/κ0 ).
Modelos 37

En este caso p(Σ) ∝ |Σ|(ν0 +d+1)/2 × exp(− 21 tr(Λ0 Σ−1 ) con lo que la
distribución conjunta previa tiene la forma:
 
1 κ0
p(µ, Σ) ∝ |Σ|−((ν0 +d)/2+1) exp − tr(Λo Σ−1 ) − (µ − µ0 )T Σ−1 (µ − µ0 )
2 2
y la densidad posterior es también una normal-inversa-Wishart con
parámetros:
κ0 n
µn = µo + ȳ
κ0 + n κ0 + n
κn = κ0 + n
νn = ν0 + n
κ0 n
Λn = Λ0 + S + (ȳ − µ0 )(ȳ − µ0 )T
κ0 + n
donde S = ni=1 (yi − ȳ)(yi − ȳ)T .
P
Para obtener muestras de la distribución posterior de (µ, Σ) se puede
usar el siguiente procedimiento:
Muestrear de Σ|y ∼ Inv-Wishartνn (Λ−1
n )

Muestrear de µ|Σ, y ∼ N (µn , Σ/κn )

2.2.3. Modelo multinomial


La distribución multinomial es una extensión del modelo binomial
para k grupos distintos en lugar de dos grupos. Esta distribución des-
cribe datos donde cada observación corresponde a uno de los k valo-
res posibles. Sea y = (y1 , . . . , yk ) el vector que
P cuenta el número de
observaciones para cada valor de k, con lo que yi = n. Los parámetros
se pueden pensar como las proporciones de los k grupos en la población
total. La verosimilitud es:
k
y
Y
p(y|θ) ∝ θj j
j=1
Pk Pk
donde j=1 θj = 1 y j=1 yj = n.
La distribución previa conjugada es una generalización multivaria-
da de la distribución beta conocida como la distribución de Dirichlet:
Qk αj −1
p(θ|α) ∝ j=1 θj . La distribución posterior resultante para los θj ’s
es una distribución Dirichlet con parámetros αj + yj .
38 Bravo-Llatas-Pérez

Figura 2.2: Histograma de los valores de (θ1 −θ2 ) para 1000 simulaciones
de la distribución posterior del ejemplo sobre la encuesta presidencial
(ver ejemplo 2.2.1).

Ejemplo 2.2.1. Modelo Multinomial (Ej. 3.5 [GCSR], pg 83)


En 1988 se hizo una encuesta pre-electoral en la elección presidencial
de USA. De 1447 personas encuestadas, y1 = 727 apoyaron a Bush;
y2 = 583 apoyaron a Michael Dukakis y y3 = 137 apoyaron a otros can-
didatos. Suponiendo un muestreo aleatorio simple, los datos (y1 , y2 , y3 )
siguen una distribución multinomial con parámetros (θ1 , θ2 , θ3 ). Estos
parámetros representan las proporciones de los que apoyan a Bush,
Dukakis y otros candidatos respectivamente. Un estimando de interés
es θ1 − θ2 , la diferencia poblacional en el apoyo a los dos candidatos más
importantes. Suponiendo una distribución a priori uniforme para θ, tal
que α1 = α2 = α3 = 1, la distribución a posteriori para (θ1 , θ2 , θ3 ) es
Dirichlet(728,584,138). Desde R se ejecuta el siguiente programa, que
Modelos 39

produce la figura 2.2.

> # Modelo multinomial (pag 83, GCSR).


> nsample=1000
> dimension=3
> alphas=c(728,584,138) theta=matrix(0,nsample,dimension)
> theta[,1]=rbeta(nsample,alphas[1],sum(alphas[2:dimension]))
> aux=rbeta(nsample,alphas[2], sum(alphas[(2+1):dimension]))
> theta[,2]=(1-theta[,1])*aux
> theta[,dimension]=1-apply(theta[,1:2],1,sum)
> hist(theta[,1]-theta[,2],nclass=20,
+ xlab="theta1-theta2",main="")
> # Probabilidad estimada de que Bush
> # tuvo mayor apoyo que Dukakis.
> pB=length(seq(1,1000)[theta[,1]>theta[,2]])/1000
[1] 1.0

En este ejemplo se utiliza el resultado de queP


la distribución marginal
de un sólo θj es Beta(αj , α0 − αj ) con α0 = kj=1 αj ; la distribución
marginal de un subvector de θ es Dirichlet y la distribución condicional
de
Pkun subvector dados los demás elementos es Dirichlet bajo la condición
j=1 θj = 1.

2.3. Modelo de regresión


2.3.1. Modelo de regresión normal
El modelo de regresión lineal normal

yi = xTi β + εi , εi ∼ iidN (0, σ 2 ) (2.9)

es el primer ejemplo en todo curso de estadı́stica de un modelo de relación


entre una variable de respuesta continua, y, y un conjunto de k predic-
tores, con valores denotados, xi = (xi1 , . . . , xik ). Este modelo, supone
que la relación entre la y y las x’s es una relación de primer orden o de
proporcionalidad. Usualmente xi1 = 1, para todo i. De esta forma:

y ∼ N (Xβ, σ 2 In ),

donde In corresponde a la matriz identidad n × n.


40 Bravo-Llatas-Pérez

Considerando los estimadores de mı́nimos cuadrados (y máximo ve-


rosimiles) para β y σ 2 ,

β̂ = (X T X)−1 X T y; νs2 = (y − X β̂)T (y − X β̂); ν = n − k,

la verosimilitud se puede escribir como:

νs2
 
2 −ν/2
2
p(y|X, β, σ ) ∝ (σ ) exp (σ 2 )−(n−ν)/2
2σ 2
 
1 T
× exp − 2 (β − β̂) (β − β̂) .

De esta forma se puede proponer una distribución previa conjugada,
especificada como:
p(β, σ 2 ) = p(σ 2 )p(β|σ 2 ).
La distribución conjugada natural para σ 2 es la propuesta en la ecuación
2.8, mientras que para β esta distribución esta dada por:
 
2 2 −k 1 T
p(β|σ ) ∝ (σ ) exp − 2 (β − β̄) A(β − β̄) (2.10)

donde A es la inversa de una matriz definida positiva, esto es β|σ 2 es una


N (β̄, σ 2 A−1 ). Con esto, naturalmente, la distribución posterior queda de
la misma forma:
p(β, σ 2 |y, X, ν0 , σ0 , β̄, A) ∝ p(y|X, β, σ 2 )p(β|σ 2 )p(σ 2 ) (2.11)
 
2 −n/2 1 T
∝ (σ ) exp − 2 (y − Xβ) (y − Xβ)

 
2 −k/2 1 T
× (σ ) exp − 2 (β − β̄) A(β − β̄)

ν0 σ02
 
2 −ν0 /2+1
× (σ ) exp − 2 .

Las formas cuadráticas se pueden combinar para obtener

p(β, σ 2 |y, X, ν0 , σ0 , β̄, A) ∝


 
2 −k/2 1 T T
(σ ) exp − 2 (β − β̃) (X X + A)(β − β̃)

(ν0 σ02 + ns2 )
 
2 −((n+ν0 )/2+1)
× (σ ) exp −
2σ 2
Modelos 41

donde
β̃ = (X T X + A)−1 (X T X β̂ + Aβ̄)
o lo que es igual,

β|σ 2 , y ∼ N (β̃, σ 2 (X T X + A)−1 )


ν1 σ12 ν0 σ0 + ns2
σ 2 |y ∼ , con ν1 = ν0 + n; σ 2
1 = .
χ2ν1 ν0 + n
Si se considera el estimador Bayesiano de β, correspondiente a la media
posterior
E(β|y) = E(E(β|σ 2 , y)|y) = β̃
este es un promedio ponderado de la media de la previa y el estimador
de mı́nimos cuadrados β̂, con pesos que dependen de la precisión de la
previa y de la información muestral.
Nótese que para establecer la distribución previa hacen falta elicitar 2
hiperparámetros para la previa de σ y k + (k(k + 1)/2) parámetros para
la previa de β. Una manera para soslayar este problema es considerar
valores grandes de σ0 y valores pequeños tanto de ν0 como de A, la
precisión previa, lo que lleva, en el lı́mite, a la distribución impropia no
informativa

p(β, σ 2 |X) ∝ σ −2 , (2.12)


esto es, una distribución previa uniforme en (β, log σ). Si hay muchos
datos y pocos parámetros, esta distribución a priori es útil, pues pro-
duce resultados razonables y necesita menor esfuerzo que especificar el
conocimiento a priori.
Usando la distribución previa de la ecuación 2.12, se obtienen los
siguientes resultados:
Distribución condicional a posteriori para β:

β|σ 2 , y ∼ N (β̂, Vβ σ 2 )

donde en este caso Vβ = (X T X)−1 ,


Distribución Marginal a posteriori de σ 2 :

p(β, σ 2 |y)
p(σ 2 |y) =
p(β|σ 2 , y)
42 Bravo-Llatas-Pérez

σ 2 |y ∼ Inv − χ2 (n − k, s2 ),

Con estos se pueden obtener muestras de la distribución conjunta de β


y σ 2 , con el siguiente algoritmo4 :

1. Calcule β̂ y Vβ . Estas cantidades pueden ser obtenidas con cualquier


software estándar para regresión lineal.

2. Calcule s2

3. Muestree σ 2 de p(σ 2 |y)

4. Muestree β de N (β̂, σ 2 Vβ )

Si la eficiencia computacional es importante, por ejemplo si se usan


grandes conjuntos de datos o métodos iterativos, entonces
1. Calcule la factorización QR de X = QR, where Q es una matriz
n × k de columnas ortonormales y R es una matriz triangular
superior k × k.

2. Calcule R−1 (esto es fácil). R−1 es un factor de Cholesky (raı́z


cuadrada de la matriz de covarianza Vβ , ya que R−1 (R−1 )T = Vβ .

3. Calcule β̂ resolviendo el sistema lineal Rβ̂ = QT y, y utilizando el


hecho de que R es triangular superior.
Una de las aplicaciones más importantes de los modelos de regresión
es la predicción de valores ỹ a partir de la observación de un nuevo
conjunto de variables explicativas X̃, la inferencia Bayesiana permite
descomponer la incertidumbre de p(ỹ|y) en dos partes:
La variabilidad del modelo, representada por σ 2 y no tomada en
cuenta por Xβ.

La incertidumbre a posteriori en β y σ 2 debido a un tamaño mues-


tral finito de y. Cuando n → ∞ esta incertidumbre decrece a cero.
La obtención de muestras de ỹ a partir de su distribución predictiva
a posteriori, procede como de costumbre:
4
La condición para que esta distribución sea propia es que el rango de X sea igual
a k, i.e. las columnas de X son linealmente independiente
Modelos 43

1. Muestrear (β, σ 2 ) de p(β, σ 2 |y)

2. Muestrear ỹ ∼ N (Xβ, σ 2 I)
La forma analı́tica de la distribución predictiva posterior, en el caso
en que se use la previa en 2.12 se puede obtener, considerando que dado
σ 2 , la observación futura ỹ tiene una distribución normal con media y
varianza de la forma:

E(ỹ|y, σ 2 ) = E(E(ỹ|β, σ 2 , y)|σ 2 , y)


= E(X̃β|σ 2 , y)
= X̃ β̂

V (ỹ|σ 2 , y) = E[V (ỹ|β, σ 2 , y)|σ 2 , y]


+V [E(ỹ|β, σ 2 , y)|σ 2 , y]
= E[σ 2 I|σ 2 , y] + V [X̃β|σ 2 , y]
= (I + X̃Vβ X̃ T )σ 2

Para determinar p(ỹ|y) se debe promediar sobre la distribución marginal


a posteriori de σ 2 , entonces, p(ỹ|y) es una t multivariada con centro β̂,
matriz de escala cuadrada s2 (I + X̃Vβ X̃ T ) y n − k grados de libertad.
Comentario:
La previa impropia de la ecuación 2.12 puede sustituirse por una previa
difusa, donde este término debe relativizarse con respecto a cuan difusa
es la verosimilitud, pues lo que se desea es que la previa tenga poca
influencia sobre el resultado final. Esto se puede lograr haciendo a ν0
una fracción pequeña de n, y

A = ν0 SX donde SX = diag(s21 , . . . , s2k )


con
1 X
s2j = (xij − x¯j )2 .
n−1
i

Esto hace que la precisión de la previa dependa de la escala (unidades


de médida) de las x. Zeller (1986) [Z1] propone usar A = gX T X, con-
siderando ası́ no sólo la escala de las variables explicativas sino también
la estructura de correlación entre ellas.
44 Bravo-Llatas-Pérez

2.3.2. Regresiones multivariadas y aparentemente no rela-


cionadas
En ocasiones es posible que se observen m variables de respuesta para
cada condición de las variables explicativas, lo que equivale, usando el
argot de diseño de experimentos, a decir que se miden m caracterı́sti-
cas sobre las mismas unidades experimentales, sometidas a los mismos
tratamientos. En este caso se tiene:

y1 = Xβ1 + ε1
..
.
yc = Xβc + εc (2.13)
..
.
ym = Xβm + εm ,

donde, los yc son vectores de observaciones de tamaño n. Aquı́ se supone


que los errores entre las ecuaciones están correlacionados y el modelo
estándar considera que estos siguen una distribución normal. De esta
forma se pueden escribir las mediciones sobre la r-ésima unidad ex-
perimental como un vector fila yr que tendrá una distribución normal
multivariada:
yr = B T xr + εr , εr ∼ iid N (0, Σ) (2.14)
donde B es la matriz k × m cuya c-ésima columna corresponde a los
coeficientes de regresión de la ecuación 2.13. Apilando las filas, también
se puede escribir el modelo como:

Y = XB + E

donde Y y E son ahora matrices n×m cuyo elemento (i, j) corresponde a


la i-ésima observación de la j-ésima ecuación. Las distribuciones previas
conjugadas naturales para este caso, son de la forma “inversa Wishart,
normal condicional”:

p(Σ, B) = p(Σ)p(B|Σ)
Σ ∼ Inv-Wishart(ν0 , V0 ) (2.15)
−1
β|Σ ∼ N (β̄, Σ ⊗ A )
Modelos 45

con posteriores en la misma familia:

Σ|Y, X ∼ Inv-Wishart(ν0 + n, , V0 + S),


β|Y, X, Σ ∼ N (β̃, Σ ⊗ (X T X + A)−1 ), (2.16)
T −1 T
β̃ = vec(B̃), B̃ − (X X + A) (X X B̂ + AB̄),
S = (Y − X B̃) (Y − X B̃) + (B̃ − B̄)T A(B̃ − B̄)
T

Ahora bien, considerese el modelo multivariado de la ecuación 2.13


con diferentes regresores en cada ecuación, conocido como el modelo de
regresiones aparentemente no relacionadas de Zellner o modelo SUR,
por sus siglas en ingles. Este cambio aparentemente pequeño impide el
uso de las ecuaciones matriciales anteriores y no hay una distribución
conjugada sencilla. Apilando las ecuaciones de regresión:

y = Xβ + ε (2.17)
     
y1 X1 0 0 0 ε1
 y2   0 X2 0 0   ε2 
y =  . , X =  , ε = 
     
.. ..
 .. 

 0 0 . 0   . 
ym 0 0 0 Xm εm
con
var(ε) = Σ ⊗ In ,
se puede ver que, condicional en Σ, se puede usar una previa normal,
y producir una posterior usando las observaciones estandarizadas para
eliminar la correlación, pero no hay una forma cerrada para considerar
a Σ como un parámetro de estorbo.

2.4. Modelos lineales generalizados


Cuando la suposición de normalidad no es adecuada o la relación lineal
que se asume entre X y E(y|X) no es directa, se utiliza una extensión
del modelo lineal mediante el uso de Modelos Lineales Generalizados. Si
la variable de respuesta es por ejemplo una variable dicotómica que toma
los valores 0 ó 1, el modelo lineal estándar no tienen ningún sentido. Si
se desea modelar una proporción o probabilidad en función de un con-
junto de variables explicativas, es conveniente hacer una transformación
logit a la variable de respuesta. La transformación logit hace que una
46 Bravo-Llatas-Pérez

variable entre 0 y 1 tome valores en el intervalo (−∞, +∞). Si la relación


entre y y X es multiplicativa, una transformación logarı́tmica serı́a tam-
bién adecuada; pero no siempre la relación entre X y E(y|X) puede ser
modelada mediante un modelo lineal con suposición de normalidad, aún
después de aplicar una transformación. En este caso la clase general de
modelos lineales generalizados proveen la estructura necesaria para el
análisis.
Los modelos lineales generalizados que extienden la suposición de nor-
malidad y linealidad entre x y y tienen los siguientes componentes:

Un predictor lineal η = Xβ,

Una función de enlace que relaciona la media de la variable de


respuesta µ = E(y|X) con el predictor lineal η de manera que
η = g(µ) = Xβ,

Un componente aleatorio con parámetro φ.

Se tiene entonces que E(y|X) = g −1 (Xβ) donde X es la matriz de


variables explicativas n × p. Es decir, una función de la media de la
variable de muestreo tiene estructura lineal en las covariables del modelo.

2.4.1. Verosimilitud de los modelos lineales generalizados


estándar
Modelo normal
Es un caso especial de los modelos lineales generalizados para datos
contı́nuos cuando y tiene distribución normal con media µ y la función
de enlace es la identidad (g(µ) = µ). Si los datos son positivos se trabaja
en escala logarı́tmica. También pueden considerarse otras distribuciones
como la Gamma o Weibull cuando la suposición de normalidad no es
posible.

Modelo Poisson
Para datos de conteo el modelo Poisson lineal generalizado se conoce
como el modelo de regresión Poisson. Se supone que la variable de res-
puesta y tiene una distribución Poisson con media µ y varianza µ (por
ser Poisson). En este caso la función de enlace es la función logarı́tmica
Modelos 47

y log µ = Xβ. La verosimilitud para los datos y = (y1 , . . . , yn ) se escribe


como:
n
Y 1 − exp(Xβi )
p(y|β) = e (exp(Xβi ))yi .
yi !
i=1

Modelo binomial
Cuando los datos tienen una distribución binomial o Bernoulli, usual-
mente es de interés la proporción. Si yi ∼ Bin(ni , µi ) con ni conocido,
se considera como variable de respuesta a yi /ni cuya media es µi . En
este caso se utiliza la transformación logit como función de enlace, de
manera que g(µi ) = log(µi /(1 − µi )). La distribución de los datos viene
dada por:
n    Xβ yi  ni −yi
Y ni e 1
p(y|β) = .
yi 1 + eXβ 1 + eXβ
i=1

Un ejemplo sobre este modelo llamado el modelo de regresión logı́stica


será presentado en la sección 2.6 con el ejemplo del Bioensayo. En otras
áreas como la econometrı́a se utilizan otras funciones de enlace tales
como la función probit definida como g(µ) = Φ−1 (µ) donde Φ es la dis-
tribución normal estándar. Los modelos logit y probit son muy similares
y difieren mayormente en los extremos. Otra función de enlace estándar
es la función log-log: g(µ) = log(− log(µ)). Esta función difiere de las
anteriores en que no es simétrica con respecto a µ.

Modelo multinomial logı́stico


Este modelo es uno de los más usados en la literatura de mercadeo,
la variable dependiente es el resultado de una variable multinomial, por
ejemplo, cuando se hace una escogencia de productos como en el ejem-
plo 1.1.1; las probabilidades de escogencia están asociadas a variables
independientes que son especı́ficas de las alternativas, y el modelo, para
la probabilidad pij , de que la escogencia yi , del sujeto i, sea j donde yi
puede ser igual a {1, . . . , J}, es igual a:
 
exp xTij β
pij = P  .
J T
j=1 exp xij β
48 Bravo-Llatas-Pérez

Este modelo se encuentra en la familia exponencial, por lo que debe


haber una distribución previa conjugada, pero esto lo que significa es
que la posterior tiene la misma forma, no que se pueden obtener de
manera analı́tica funciones interesantes de los parámetros.

2.4.2. Extensiones de los modelos lineales generalizados

Modelos con sobredispersión

Cuando se desea incluir una variabilidad adicional a la que se asume


con la distribución de muestreo se habla de modelos con sobredispersión.
Por ejemplo, en un modelo de regresión logı́stica como el ejemplo del
Bioensayo discutido en la sección 2.6, la proporción de interés depende de
la dosis. Sin embargo puede existir más variación de la esperada debido
a las diferencias entre los animales utilizados para el experimento. Esta
variación puede ser incluida en la estructura del modelo como un término
de error adicional con distribución normal. Otro ejemplo de modelos con
sobredispersión es también presentado en el capı́tulo 5.

Modelos de datos discretos en función de datos latentes contı́-


nuos

Una forma de interpretar correctamente los modelos de regresión con


datos discretos es expresarlos en términos de datos contı́nuos no obser-
vados que se llamarán datos latentes. Por ejemplo, el modelo probit para
datos binarios definido como Φ−1 (Pr(yi = 1)) = (Xβ)i viene dado por
el siguiente modelo para datos latentes:

ui ∼ N ((Xβ)i , 1)

1 si ui > 0
yi = .
0 si ui < 0

Al condicionar en los datos latentes el modelo resultante es una re-


gresión lineal simple. Un ejemplo con datos latentes es discutido en el
capı́tulo 5.
Modelos 49

Modelos lineales generalizados Bayesianos: jerárquicos y no-


jerárquicos

Se pueden considerar modelos lineales generalizados con distribuciones


previas para β informativas y no-informativas. También se pueden con-
siderar modelos jerárquicos, como los que se presentan en la sección 2.5,
para los cuales la distribución previa de β depende de hiperparáme-
tros desconocidos. En el caso no informativo se asume una distribución
plana para β, ası́ que la moda posterior coincide con el estimador de
máxima verosimilitud para el parámetro β y una inferencia predictiva
a posterior aproximada puede ser obtenida con la aproximación normal
a la verosimilitud (Ver sección 3.2.1). Para modelos jerárquicos es usual
suponer una distribución previa normal para β.

2.4.3. Modelos loglineales para datos multivariados dis-


cretos
En este caso se consideran datos de conteo que provienen de tablas
de contingencia crostabuladas de acuerdo a varias variables categóricas.
Los conteos se modelan según una distribución Poisson y los logaritmos
de las medias Poisson se modelan mediante un modelo lineal que incluye
variables indicadoras para los distintos niveles de las variables categóri-
cas consideradas. Si el tamaño muestral total de la tabla ó los totales
de algunos de los márgenes está fijo, los conteos pueden ser modelados
con una distribución multinomial. Los modelos loglineales pueden ser
ajustados como un caso especial de los modelos lineales generalizados.
Considere una tabla de contingencia probablemente clasificada según
múltiples variables categóricas con conteos y = (y1 , . . . , yn ), sea µ =
(µ1 , . . . , µn ) el vector de conteos esperados. El modelo Poisson para y
tiene distribución:
n
Y 1 yi −µi
p(y|µ) = µ e
yi ! i
i=1

. Para el caso en que el conteo total está fijo por las caraterı́sticas del
estudio, se utiliza la distribución multinomial. Si los totales de fila o
columna están fijos, entonces la verosimilitud será igual al producto de
varias distribuciones multinomiales independientes. En este caso el lo-
garitmo de los conteos esperados cae en la superficie de regresión Xβ de
50 Bravo-Llatas-Pérez

tal forma que log(µ) = Xβ. La matriz X se supone conocida y está con-
fomada por ceros y unos, es decir que todas sus variables son variables
indicadoras. Se supone también que las celdas de la tabla de contin-
gencia no admiten “ceros estructurales”, lo cual significa que no hay
categorias cruzadas con valores imposibles, por ejemplo, hombres con
placenta previa. La variables indicadoras que se eligen dependen de las
relaciones entre las variables categóricas consideradas en el estudio. Las
interacciones de dos o más efectos son utilizadas para modelar la falta
de independencia entre los efectos principales, siendo el caso del modelo
saturado, el modelo que incluye todas las interacciones. Un ejemplo de
este tipo de modelos es discutido en el capı́tulo 5.

2.5. Modelos jerárquicos


Estos son modelos de múltiples parámetros que están relacionados o
conectados por la estructura del problema que se está estudiando; como
su nombre lo indica, se supone un modelo de probabilidad conjunto para
los parámetros formando una jerarquı́a que refleja la dependencia entre
ellos.

Ejemplo 2.5.1. En un estudio de efectividad de tratamientos cardı́acos en


varios hospitales, se considera que los pacientes del hospital j tienen una
tasa de sobrevivencia θj , y que los estimadores de los θj provenientes de
una muestra de hospitales deben relacionarse entre sı́. Se podrı́a utilizar
una distribución a priori que considere a los θi0 s como una muestra de
una población común.

Intercambiabilidad y estructura de los modelos jerárquicos

La idea de intercambiabilidad es crucial para establecer la probabili-


dad conjunta de todos los parámetros θ de un modelo jerárquico, esto
es, suponer que dicha probabilidad conjunta p(θ1 , . . . , θJ ) es invariante a
permutaciones en los ı́ndices (1, . . . , J). Esta suposición, en la práctica,
refleja un nivel de ignorancia sobre el problema. La forma más simple
de un modelo intercambiable es suponer que los θj0 s son una muestra
independiente de una distribución poblacional gobernada por un vector
Modelos 51

de parámetros desconocido φ:
 
Z J
Y
p(θ) =  p(θj |φ) p(φ)dφ. (2.18)
j=1

En general, los hiperparámetros φ son desconocidos, por lo que la dis-


tribución para θ debe ser promediada sobre la incertidumbre en φ. Esta
es la llamada mezcla de distribuciones iid. Esta mezcla caracteriza a
los parámetros θ como una muestra de una superpoblación común que
está determinada por los hiperparámetros.
Un resultado teórico asociado es el teorema de Finetti (ver, por ejem-
plo, [DEL]) que establece que cuando J → ∞ cualquier distribución
intercambiable de (θ1 , . . . , θJ ) puede ser escrita de la forma presentada
en la ecuación 2.18.
Cuando hay información adicional disponible, en la forma de covari-
ables, x1 , . . . , xJ , la manera usual de modelar intercambiabilidad es a
través de la independencia condicional
Z Y J
p(θ1 , . . . , θJ |x1 , . . . , xJ ) = [ p(θj |φ, xj )]p(φ|x)dφ
j=1

con x = (x1 , . . . , xJ ). De esta forma los modelos intercambiables son


ampliamente aplicables ya que cualquier información disponible para
distinguir distintas unidades estará codificada en x e y.
Por supuesto, la suposición de intercambiabilidad siempre puede obje-
tarse ya que las unidades experimentales son siempre distintas, por ejem-
plo, por considerar tiempos experimentales distintos, ratas distintas, la-
boratorios distintos, etc., pero la intercambiabilidad no debe ser por ello
invalidada. Como en regresión, lo importante es codificar conocimiento
relevante a través de variables explicativas o covariables.

Tratamiento Bayesiano completo para modelos jerárquicos


Se considera la distribución a priori conjunta: p(φ, θ) = p(φ)p(θ|φ).
La distribución a posteriori conjunta viene dada por:

p(φ, θ|y) ∝ p(φ, θ)p(y|φ, θ)


= p(φ, θ)p(y|θ)
52 Bravo-Llatas-Pérez

porque la distribución de los datos sólo depende de θ. Los hiperparámet-


ros φ afectan a y a través de θ.
En las secciones anteriores los hiperparámetros fueron considerados
como conocidos, pero esta consideración en una buena parte de las apli-
caciones no es realista; los modelos jerárquicos lo que hacen es incluir la
incertidumbre asociada a φ.
Ahora bien, con respecto a las distribuciones predictivas se puede tener
interés en:

La distribución de observaciones futuras ỹ dados los θj0 s existentes.


En este caso, se puede simular ỹ basada en la distribución a pos-
teriori de θj .

La distribución de observaciones ỹ correspondiente a futuros val-


ores de θj (θ̃). En este caso se puede simular θ̃ condicional en la
simulación a posteriori de φ y luego se simula ỹ dados los valores
simulados de θ̃.

En el caso de la inferencia el interés es obtener simulaciones de p(θ, φ|y)


aunque es usual considerar a φ como un parámetro de molestia, y por
ello es natural asumir que la distribución previa p(θ|φ) es conjugada de
la verosimilitud p(y|θ). Para la derivación analı́tica de las distribuciones
marginales y condicionales se puede proceder de la siguiente forma:

1. Escribir p(θ, φ|y) en forma no-normalizada. Esto implica calcular:

p(θ, φ|y) ∝ p(φ)p(θ|φ)p(y|θ)

2. Determinar analı́ticamente p(θ|φ, y) dados los hiperparámetros φ.

3. Determinar φ marginalizando la distribución a posteriori (paradig-


ma Bayesiano). Esto implica hallar la integral
Z
p(φ|y) = p(θ, φ|y)dθ.

Para algunos modelos se puede usar la fórmula:


p(θ, φ|y)
p(φ|y) = ,
p(θ|φ, y)
Modelos 53

4. Simular el vector de hiperparámetros φ de la marginal p(φ|y).


5. Simular
Q θ a partir de p(θ|φ, y). Se puede considerar que p(θ|φ, y) =
j p(θ j |φ, y). Los componentes de θj se pueden simular indepen-
dientemente, uno a la vez.
6. Simular si se desea valores predictivos ỹ de la distribución predic-
tiva a posteriori dados los valores de θ. Dependiendo del problema
puede ser necesario simular un nuevo valor de θ̃ dado φ como se
discutió anteriormente.

Los pasos anteriores se llevan a cabo L veces para obtener L muestras


de todos los parámetros.

2.6. Algunos ejemplos


Ejemplo 2.6.1. Ejemplo del Bio-Ensayo o experimento de toxici-
dad. Pag. 88 [GCSR]
Un experimento de esta clase tiene datos de la forma (xi , ni , yi ), i =
1, . . . , k donde xi =representa la i-ésima de los k niveles de dosis (medida
en escala logarı́tmica) dada a los ni animales, de los cuales yi presentan
un resultado satisfactorio, e.g. vivo o muerto; con tumor a sin tumor,
etc.
En el cuadro 2.1 se presentan los datos de un experimento de toxicidad
realizado con cinco animales inyectados con diferentes dosis.

Cuadro 2.1: Datos de Racine et al., 1986


Dosis, xi Número de Número de
(log g/ml) animales, ni muertes, yi
-0.863 5 0
-0.296 5 1
-0.053 5 3
0.727 5 5

Suponiendo que los 5 animales dentro del i- esimo grupo son inter-
cambiables e independientes se puede considerar que yi |θi ∼ Bin(ni , θi )
54 Bravo-Llatas-Pérez

donde θi es la probabilidad de muerte para animales con dosis xi . (Si


las muertes son causadas por una enfermedad contagiosa el modelo no
serı́a correcto!)
Para considerar el efecto de la dosis, se incluye un modelo de dosis
respuesta con una transformación logı́stica para θi :

logit(θi ) = α + βxi

donde logit(θi ) = log(θi /(1 − θi ))


Este modelo es llamado el modelo de regresión logı́stica, con esto,
la verosimilitud para cada experimento i, se puede escribir como:

p(yi |α, β, ni , xi ) ∝ [logit−1 (α + βxi )]yi [1 − logit−1 (α + βxi )]ni −yi

El modelo está caracterizado por los parámetros α y β cuya distribu-


ción posterior es:

p(α, β|y, n, x) ∝ p(α, β|n, x)p(y|α, β, n, x)


k
Y
∝ p(α, β) p(yi |α, β, ni , xi ).
i=1

El condicionamiento sobre (n, x) no es necesario si estos valores son


fijos.
Distribución a priori:
Para considerar una distribución previa no informativa para (α, β), se
puede usar una distribución Uniforme localmente en los dos parámetros,
esto es, p(α, β) ∝ 1. Una estimación inicial de los parámetros α y β puede
obtenerse haciendo una regresión lineal de logit(yi /ni ) con respecto a xi
teniendo en cuenta que logit de 0 y 1 no están definidos.
El siguiente programa en R sirve para obtener un gráfico de contorno
de la distribución posterior y una muestra de la distribución posterior,
que se presentan en la figura 2.3.

> # Ejemplo del Bioensayo Pag 88 (GCSR)


> # Distribucion conjunta
> posterior=function(gridalpha,gridbeta){
+ gridposterior=
+ matrix(1,nrow=length(gridalpha),ncol=length(gridbeta))
+ for (i in 1:100){
Modelos 55

Figura 2.3: Gráfico de contornos de la distribución posterior para los


parámetros del ejemplo del Bio-Ensayo y gráfico de puntos de 200 mues-
tras de la distribución posterior.

+ for (j in 1:100){
+ for (k in 1:4){
+ a=exp(gridalpha[i] + gridbeta[j]*dose[k])/
+ (1+exp(gridalpha[i]+gridbeta[j]*dose[k]))
+ gridposterior[i,j]=a^deaths[k]*
+ (1-a)^(n[k]-deaths[k])*gridposterior[i,j]
+ } } }
+ gridposterior
}
#Obtencion de muestras de la distribucion a posteriori.
> randomposterior=function(nsample){
+ i==sample(1:length(post.vector),
+ size=nsample,replace=T,prob=post.vector)
+ ialpha=c(row(post))[i] ; ibeta=c(col(post))[i]
+ alpha=alphagrid[ialpha] ; beta=betagrid[ibeta]
+ return(cbind(alpha,beta)) }
56 Bravo-Llatas-Pérez

# DATOS
> dose=c(-0.863,-0.296,-0.053,0.727); n=c(5,5,5,5);
> deaths=c(0,1,3,5) alphagrid=seq(-5,10,length=100);
> betagrid=seq(-10,40,length=100)
> post=posterior(alphagrid,betagrid)
# Plot de contornos de la distribucion posterior
> par(mfrow=c(1,2));
> contour(alphagrid,betagrid,post,drawlabels=FALSE,
+ lwd=0.8,ylab="beta",xlab="alpha")
> post.vector=c(post)
# Marginales sin normalizar
> post.alpha=apply(post,1,sum)
> post.beta=apply(post,2,sum)
#Generar 200 muestras de la distribucion a posteriori
> theta=randomposterior(200)
#Grfico de las 200 muestras
> plot(theta[,1],theta[,2],
+ xlab="alpha",ylab="beta",xlim=c(-5,10),ylim=c(-10,40), pch="o")
> par(mfrow=c(1,1));
> ld50=-theta[,1]/theta[,2];
> hist(ld50)

Un estadı́stico muy usado para establecer la toxicidad es la llamada


dosis letal del 50 % (LD50), esta es la dosis a la cual la probabilidad de
muerte es 50 %:
yi
LD50 : E( ) = logit−1 (α + βxi ) = 0,5
ni
entonces α + βxi = logit(0,5) = 0, por lo tanto LD50 es xi = −α/β
Un histograma de la distribución posterior de LD50 suponiendo que
β > 0 se muestra en la figura 2.4.

Estimación de un conjunto de parámetros intercambiables de


un modelo normal
Se presenta el caso de datos observados con distribución normal con
una media diferente para cada grupo o experimento; con varianza ob-
servacional conocida y una distribución normal para las medias de los
grupos. Este modelo se conoce como el modelo normal de una via con
efectos aleatorios.
Modelos 57

Figura 2.4: Histograma de la distribución posterior de LD50 suponiendo


β > 0.

Ejemplo 2.6.2. Ejemplo 5.5 ([GCSR])


Se lleva a cabo un estudio para analizar el efecto de un programa espe-
cial de preparación (propedéutico) sobre pruebas de aptitud académica
en 8 escuelas. Se desea comparar el efecto de estos programas en las 8
escuelas, los cuales se aplican a más de 30 estudiantes en cada caso. La
variable de respuesta es el resultado de la prueba.
Estructura de los datos: Se consideran J experimentos independien-
tes, con el experimento j estimando el parámetro θj (el efecto del curso
preparatorio en la escuela j) a partir de nj observaciones yij , indepen-
dientes y normalmente distribuidas con varianza del error σ 2 conocida;
esto es:

yij |θj ∼ N (θj , σ 2 ), para i = 1, . . . , nj ; j = 1, . . . , J


Pnj 2
Sea ȳ.j = n1j i=1 yij la media muestral de cada grupo y σj2 = σnj
la varianza muestral del grupo j. Se puede escribir la verosimilitud en
términos de ȳ.j tal que ȳ.j ∼ N (θj , σj2 ).
Se podrı́a estimar θj por ȳ.j que es el resultado promedio para el
58 Bravo-Llatas-Pérez

Cuadro 2.2: Tabla ANOVA clásica, para el modelo de una vı́a


df P P SS MS E(M S|σ 2 , τ )
2
Entre J −1 i j (ȳ.j − ȳ.. ) SS/(J − 1) nτ 2 + σ 2
Grupos
− ȳ.j )2 σ2
P P
Dentro de J(n − 1) i j (yij SS/((J(n − 1))
Grupos
− ȳ.. )2
P P
Total Jn − 1 i j (yij SS/(nJ − 1)

grupo j o también se podrı́a utilizar una media ponderada común:


PJ 1
j=1 σ 2 ȳ.j
ȳ.. = PJ j 1
j=1 σj2

¿Cuál es el mejor estimador para los parámetros θ1 , . . . , θJ ? El


método tradicional es usar un análisis de varianza con una prueba F
para probar si existen diferencias entre las medias. Si nj = n y σj2 = σ 2
para todo j se tiene la tabla ANOVA (tabla 2.2). Si el cociente de MS
entre grupos y MS dentro de grupos es significativamente mayor que
uno, entonces θ̂j = ȳ.j . De lo contrario se usa θ̂j = ȳ.. .
Otra alternativa: Se puede utilizar la combinación ponderada:
θ̂j = λj ȳ.j + (1 − λj )ȳ..
donde λj está entre 0 y 1. En esta forma no se obliga la estimación de
la media de los grupos combinando todos los datos o no combinándolos
del todo.
Modelo Jerárquico: Aquı́ se puede suponer que los parámetros θi son
muestras de una distribución normal con hiperparámetros (µ, τ ),
J
Y
p(θ1 , . . . , θJ |µ, τ ) = N (θj |µ, τ 2 )
j=1
J
Z Y
p(θ1 , . . . , θJ ) = [N (θj |µ, τ 2 )]p(µ, τ )d(µ, τ )
j=1

con distribución no informativa para los hiperparámetros definida como:


p(µ, τ ) = p(µ|τ )p(τ ) ∝ p(τ )
Modelos 59

(esto es, la densidad a priori para µ es uniforme).


Con esto la distribución conjunta posterior, obtenida combinando la
distribución muestral de los yij y la distribución a priori, queda como:

p(θ, µ, τ |y) ∝ p(µ, τ )p(θ|µ, τ )p(y|θ)


J
Y J
Y
∝ p(µ, τ ) N (θj |µ, τ 2 ) N (ȳ.j |θj , σj2 )
j=1 j=1

Los θj0 s son condicionalmente independientes dados (µ, τ ) y se pueden


ignorar todos los factores que dependen de y y σj ya que son conocidos.
Para encontrar las distribuciones condicionales a posteriori de las me-
dias normales dados los hiperparámetros, nótese que se tienen J medias
normales independientes y desconocidas, por lo tanto se cumple que:

θj |µ, τ, y ∼ N (θ̂j , Vj )

donde
1 1

σj2 .j
+ τ2
µ 1
θ̂j = 1 1 y Vj = 1 1
σj2
+ τ2 σj2
+ τ2
.
Nótese también que θ̂j y Vj son funciones de µ y τ y de los datos.
Por otra parte, para encontrar la distribución marginal posterior de
los hiperparámetros, se puede escribir:

p(µ, τ |y) ∝ p(µ, τ )p(y|µ, τ )

Las distribuciones marginales de ȳ.j (medias de los grupos) promedia-


das sobre θ son normales e independientes:

ȳ.j |µ, τ ∼ N (µ, σj2 + τ 2 ).

(Nota: Este resultado se puede obtener al aplicar las fórmulas 1.10 y


1.11 del capı́tulo 1).
Entonces se puede escribir la marginal posterior como:
J
Y
p(µ, τ |y) ∝ p(µ, τ ) N (ȳ.j |µ, σj2 + τ 2 ),
j=1

y de esta ecuación se pueden encontrar:


60 Bravo-Llatas-Pérez

La distribución posterior de µ condicional en τ , factorizando

p(µ, τ |y) = p(µ|τ, y)p(τ |y)

donde p(µ|τ, y) es la distribución a posteriori de µ cuando τ es


conocida. De la ecuación de la distribución a posteriori de p(µ, τ |y)
se deduce que el logaritmo de esta distribución es una función
cuadrática en µ, por lo que p(µ|τ, y) tiene una distribución normal.
Si se usa una distribución a priori uniforme para p(µ|τ ) se obtiene
que:
µ|τ, y ∼ N (µ̂, Vµ )
P J 1
j=1 σ 2 +τ 2 ȳ.j
donde µ̂ = P
PJ
J
j
1 y Vµ−1 = 1
j=1 σj2 +τ 2
j=1 σ 2 +τ 2
j

La distribución posterior de τ , analı́ticamente, quedarı́a:

p(µ, τ |y)
p(τ |y) =
p(µ|τ, y)
p(τ ) Jj=1 N (ȳ.j |µ, σj2 + τ 2 )
Q
∝ ,
N (µ|µ̂, Vµ )

que es una función complicada de τ .

Escogencia de una distribución a priori para τ : Si se usa una


distribución a priori difusa no-informativa para τ debe chequearse que
la densidad posterior resultante tienen una integral finita.

La distribución a priori uniforme p(τ ) ∝ 1 produce una distribu-


ción posterior propia.

La distribución a priori p(log τ ) ∝ 1 produce una distribución


impropia.

Si se tiene algun estimado de la varianza τ y de una cota superior


para τ se puede construir una distribución a priori a partir de una
inversa-χ2 tratando de “pegar el mejor estimado con la media de
la distribución y la cota superior con el cuantil del 99 %.
Modelos 61

En vista a los resultados anteriores es natural que para encontrar las


distribuciones posteriores se recurra a la simulación de la posterior, a
partir de la factorización:

p(θ, µ, τ |y) ∝ p(τ |y)p(µ|τ, y)p(θ|µ, τ, y)

Figura 2.5: Densidad e histograma de la densidad marginal posterior de


p(τ |y).

La simulación de τ se hace a partir del muestreo de la función p(τ |y)


en una grilla uniforme en los valores de τ ; luego se simula µ y θ a partir
de las distribuciones normales correspondientes. En las figuras 2.5 y 2.6
se presentan los resultados para una simulación de tamaño 5.000, de
la densidad e histograma de la marginal posterior de τ , y los valores
esperados de los efectos dado τ .
La implementación en R del procedimiento anterior se presenta a con-
tinuación:

> # Obtener una muestra de p(theta | mu, tau, y).


62 Bravo-Llatas-Pérez

> conditional.theta=function(ybar,mu,tau,sigma){
+ theta=rep(0,nschools)
+ theta.hat=rep(0,nschools) V.hat=rep(0,nschools)
+ for(j in 1:nschools){
+ V.hat[j]=1/(1/sigma[j]^2+1/(tau^2)) +
+ theta.hat[j]=(ybar[j]/sigma[j]^2+mu/tau^2)*V.hat[j]
+ theta[j]=rnorm(1,theta.hat[j],sqrt(V.hat[j])) }
+ theta }
> # Obtener muestras de p(mu | tau, y) de tama~no nsample
> sample.mar.mu=function(ybar, tau, sigma,nsample) {
+ V.mu.inv=sum(1/(sigma^2+tau^2))
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ mu.sample=rnorm(nsample,mu.hat,sqrt(1/V.mu.inv))
+ mu.sample }
# Evaluar p(tau | y)
> marginal.tau=function(ybar,tau,sigma) {
+ V.mu.inv=sum(1/(sigma^2+tau^2)) +
+ mu.hat=sum((1/(sigma^2+tau^2))*ybar)/V.mu.inv
+ eval=exp(-(ybar-mu.hat)^2/(2*(sigma^2+tau^2)))
+ eval=eval/sqrt(sigma^2+tau^2)
+ eval=sqrt(1/V.mu.inv)*prod(eval)
+ eval
}
>########### Programa Principal ########################
> # Lectura de los datos del archivo sa.scores
> # School Treat.effect sd.effect
> # A 28.39 14.9 # B 7.94 10.2 ...
> sat.scores=read.table(’sat.scores’,header=TRUE)
> ybar=sat.scores$Treat.effect nschools=length(ybar)
> sigma=sat.scores$sd.effect # Grid para evaluar p(tau |y)
> x.tau=seq(0.00001,40,length=1000)
> # Evaluar p(tau |y) en 1000 puntos en el
> # intervalo [0.00001,40]
> post.tau=apply(t(x.tau),2,marginal.tau,
> ybar=ybar, sigma=sigma)
> #simular 200 muestras de p(tau |y)
> sample.tau=sample(x.tau,200,replace=TRUE, prob=post.tau)
> # simular 200 muestras de p(mu | tau, y)
> sample.mu=apply(t(sample.tau),2,sample.mar.mu, ybar=ybar,
> sigma=sigma,nsample=1)
> # simular 200 muestras de p(theta | mu, tau,y)
> sample.theta=matrix(0,ncol=nschools,nrow=200)
Modelos 63

> for (i in 1:200){


> sample.theta[i,]=conditional.theta(ybar, sample.mu[i],
> sample.tau[i],sigma) }
> # Medias esperadas a posteriori E(theta_j |tau, y)
> # promediadas sobre mu
> expected.theta=matrix(0,ncol=nschools,nrow=30)
> x.tau.2=seq(0.00001,30,length=30)
> for (i in 1:30){
+ sample.mu=sample.mar.mu(ybar,x.tau.2[i],sigma, nsample=5000)
+ sample.theta.2=matrix(0,ncol=nschools,nrow=5000)
+ for (j in 1:5000){
+ sample.theta.2[j,]=
+ conditional.theta(ybar,sample.mu[j],x.tau.2[i],sigma) }
+ expected.theta[i,]=apply(sample.theta.2,2,mean)}
> #Graficar la distribucion marginal posterior de tau|y
> par(mfrow=c(1,2))
> plot(x.tau,post.tau,type=’l’,ylab="",xlab="tau");
> title(’p(tau|y)’)
> hist(sample.tau,ylab="",xlab="tau",main="p(tau|y)")
> #Graficar E(theta_i|tau,y) par(mfrow=c(1,1)) # 95\% P.I.
> for tau
+ sort(sample.tau)[5]; sort(sample.tau)[195];
+ for (i in 1:8){
+ a=sort(sample.theta[,i])[5]
+ b=sort(sample.theta[,i])[195]
+ c=mean(sample.theta[,i])
+ print(c(a,b,c))}
> plot(x.tau.2,expected.theta[,1],ylim=c(-5,30),
+ ylab="Estimated treatment effects",xlab="tau",type=’l’)
> text(x=11.64725,y=16.86634,"A",col=1)
> lines(x.tau.2,expected.theta[,2],col=2)
> text(x=11.89128,y=8.757426,"B",col=2)
> lines(x.tau.2,expected.theta[,3],col=4)
> text(x=12.98943,y=4.54703,"C",col=4)
> lines(x.tau.2,expected.theta[,4],col=5)
> text(x=10.30,y=7.0,"D",col=5)
> lines(x.tau.2,expected.theta[,5],col=6)
> text(x=9.93,y=3.37,"E",col=6)
> lines(x.tau.2,expected.theta[,6],col="purple")
> text(x=23,y=2.7,"F",col="purple")
> lines(x.tau.2,expected.theta[,7],col="lightblue")
> text(x=22,y=17.17,"G",col="lightblue")
64 Bravo-Llatas-Pérez

> lines(x.tau.2,expected.theta[,8],col="green")
> text(x=22,y=12.17,"H",col="green")

De la figura 2.5 se desprende que valores de τ cercanos a cero son más


pausibles, por lo que se puede decir que los efectos entre las escuelas
son bastante similares. Sólo cuando τ es grande, (cuando hay mayor
variabilidad entre las escuelas) es que los estimados de los efectos se
distancian.

Figura 2.6: Esperanzas posteriores condicionales de los efectos de


tratamiento E(θj |τ, y) como funciones de τ .

Simulación de las distribuciones predictivas posteriores:


Dadas muestras de la distribución posterior se pueden considerar dos
posibilidades:

Observaciones futuras ỹ con medias θ = (θ1 , . . . , θJ ). En este caso


para obtener muestras de la distribución predictiva de nuevos datos
ỹ, primero se obtienen muestras de p(θ, µ, τ |y) y luego se obtienen
muestras de yij ∼ N (θj , σ 2 ).
Modelos 65

Observaciones futuras ỹ de J˜ valores futuros con medias θ̃ =


(θ̃1 , . . . , θ̃J˜). En este caso se debe especificar los J˜ futuros tamaños
muestrales individuales ñj .
Los pasos a seguir para esta simulación son los siguientes:

• Simular (µ, τ ) de su distribución posterior.


• Simular J˜ valores de nuevos parámetros θ̃ = (θ̃1 , . . . , θ̃J˜) de
la distribución poblacional p(θ̃j |µ, τ ) que es la distribución a
priori de θ dados los hiperparámetros.
• Simular ỹ dados θ̃ de la distribución de los datos

yij ∼ N (θj , σ 2 ).
66 Bravo-Llatas-Pérez
Capı́tulo 3

Distribución Posterior

Como se ha descrito en los capı́tulos anteriores, la inferencia Baye-


siana requiere encontrar la distribución posterior de los parámetros o
cantidades desconocidas de los modelos. De los ejemplos y los resultados
de la sección 1.8 y del capı́tulo 2, se evidencia que obtener expresiones
analı́ticas de la distribución posterior sólo es posible en casos particulares
que usualmente representan modelos sencillos. Por esto, hace algunos
años, la aplicación de los métodos Bayesianos a problemas prácticos no
era tan extendida como ahora, pues encontrar la distribución posterior o
funciones de esta, como por ejemplo, el valor esperado posterior, requerı́a
de métodos numéricos complicados o resultados asintóticos para resolver
problemas de integración asociados a esos cálculos. Actualmente, el uso
de estas herramientas de aproximación no son necesarias para llevar
a cabo un análisis de datos Bayesiano, pero siguen siendo útiles pues
proveen un marco de referencia conceptual para la interpretación. En la
próxima parte se presentarán algunos resultados de la teorı́a asintótica,
para luego dedicar el resto del capı́tulo al tema de la obtención de la
distribución posterior a través de métodos de simulación.

67
68 Bravo-Llatas-Pérez

3.1. Integración y aproximaciones para mues-


tras grandes
Para realizar la inferencia hay que resolver problemas de integración
de la forma: Z
I = h(θ)p(θ)p(y|θ)dθ,

por ejemplo, para encontrar las constantes de normalización, los momen-


tos, marginales, intervalos de credibilidad y utilidades esperadas. Hay
tres clases de métodos para resolver estos problemas de integración: o
bien aproximar el integrando por otro más fácil de integrar (numerica-
mente), o bien aproximar por sumas finitas a la integral (tal como se
hace con los métodos de cuadratura), o bien considerar la integral co-
mo el valor esperado de una variable aleatoria y aproximar este valor
esperado con el promedio de una muestra obtenida por simulación.
El primer método es usualmente implementado a través de la aproxi-
mación asintótica de la verosimilitud, para muestras grandes, por ejem-
plo, expandiendo la log-verosimilitud L(θ) = log p(y|θ), como una se-
rie de Taylor de segundo orden, centrada en el estimador de máxima
verosimilitud θ̂,
Z
1
I ≈ h(θ)p(θ) exp{L(θ) θ=θ̂ − (θ − θ̂)T H(θ − θ̂)}dθ

(3.1)
2

donde H = −[∂ 2 L/∂θ∂θT ]. Esta es la aproximación de Laplace.


Con la ecuación 3.1 se puede considerar como una previa “asintótica”
natural, a una distribución normal con media θ̄ y (matriz de) precisión
A, y encontrar valores aproximados para la constante de normalización
y los momentos, obteniéndose, por ejemplo:

E[θ|y] ≈ θ̃ = (A + H)−1 (Aθ̄ + H θ̂)

var(θ|y) ≈ (A + H)−1 .

3.1.1. Aproximación normal a la distribución posterior


En los ejemplos del capı́tulo 2 se examinó el hecho que cuando el
tamaño muestral aumenta, la influencia de la distribución a priori sobre
Distribución Posterior 69

la inferencia a posteriori disminuye. Esto se puede generalizar usando


resultados para muestras grandes.
Si la distribución posterior p(θ|y) is unimodal y aproximadamente
simétrica es conveniente aproximarla mediante una distribución normal
centrada en la moda. Para ello se usa la expansión de Taylor de log p(θ|y)
centrada en la moda a posteriori θ̂:
 2 
1 d
log p(θ|y) = log p(θ̂|y) + (θ − θ̂)T log p(θ|y) (θ − θ̂) + . . .
2 dθ2 θ=θ̂

Nótese que el término lineal es cero porque la primera derivada es cero


en la moda mientras que los términos de orden alto decaen a cero cuando
n es grande y θ ≈ θ̂.
La expresión anterior implica que:

p(θ|y) ≈ N (θ̂, [I(θ̂)]−1 )

donde I(θ) es la información observada:

d2
I(θ) = − log p(θ|y)
dθ2

Si θ̂ está en el espacio de parámetros, I(θ) es positiva; si θ es un vector


I(θ) es una matriz.
Ejemplo 3.1.1. Caso de la distribución normal con media y varianza
desconocida.
Suponga que se establece una densidad a priori uniforme para (µ, log σ),
utilizando la aproximación normal a posteriori para (µ, log(σ)) se ob-
tiene:
   2 
ȳ σ̂ /n 0
p(µ, log σ|y) ≈ N ,
log σ̂ 0 1/(2n)

Como consecuencias de esta aproximación se puede ver que:

En un gráfico de contornos en dos dimensiones, la lı́nea del con-


torno del 0.05 incluye aproximadamente el 95 % de la masa de
probabilidad.
70 Bravo-Llatas-Pérez

La distribución a posteriori puede ser resumida por una simple


aproximación basada en la distribución normal, utilizando el es-
timador puntual máximo verosimil θ̂ (moda a posteriori con dis-
tribución a priori uniforme) sumando y restando 2 veces el error
estándar para construir el intervalo del 95 %. El error estándar
puede ser estimado a partir de la información I(θ̂).

Asintóticamente, la moda θ̂ y la curvatura de la densidad a poste-


riori I(θ̂) son los estadı́sticos suficientes.

En muchos casos la convergencia a la normalidad de la distribu-


ción a posteriori de θ puede ser mejorada con una transfomación
adecuada φ de θ. Si φ es una transformación contı́nua de θ, tanto
p(φ|y) como p(θ|y) se aproximan a la normal para n grande.

Teorı́a para muestras grandes


Suponga que f (y) es la distribución de los datos, pero estos son mod-
elados por una familia parámetrica p(y|θ). Si f (y) está incluida en la
familia paramétrica, es decir, f (y) = p(y|θo ) para algún θo , además de
la normalidad de la posteriori, se cumple la propiedad de consistencia:
esto es, la distribución posterior converge a un punto de masa en el
verdadero valor del parámetro θo cuando n → ∞.
Además, bajo algunas condiciones de regularidad como por ejemplo,
que la verosimilitud es contı́nua en θ y θo no cae en la frontera del
espacio de parámetros, la distribución a posteriori para θ tiende a una
normal con media θo y varianza (nJ(θo ))−1 , donde J fue definida en la
ecuación 1.13.
Estos resultados formalizan la idea de que la importancia de la dis-
tribución a priori disminuye cuando el tamaño muestral aumenta. Cuan-
do el tamaño muestral es pequeño, la distribución a priori es una parte
crı́tica de la especificación del modelo.

Limitaciones de los resultados para muestras grandes


Hay varias situaciones en las que pueden fallar los teoremas asintóticos
para muestras grandes, entre ellas, cuando:

Se usan modelos sub-identificados (igual verosimilitud para un ran-


go de parámetros) o parámetros no identificados (no existe un pun-
to único de convergencia de la distribución a posteriori).
Distribución Posterior 71

El número de parámetros que aumentan con el tamaño de la mues-


tra.

Las verosimilitudes son no acotadas.

Se obtienen distribuciones posteriores impropias.

La convergencia ocurre en los lı́mites del espacio de parámetros.

Falta de convergencia en las colas de la distribución.

De esta lista no exhaustiva se desprende la necesidad de revisar si


el modelo empleado se encuentra en alguna de estas situaciones, antes
obtener conclusiones del mismo.

3.2. Métodos de simulación


Los métodos de simulación se refieren a la obtención de pseudo-mues-
tras provenientes de una distribución de probabilidad, en un computa-
dor. Estas muestras pueden cumplir con ciertas condiciones que permiten
estimar propiedades probabilı́sticas que no pueden ser obtenidas por
métodos analı́ticos. Como estos métodos introducen un nivel de aleato-
riedad en el análisis, también se los conoce como métodos de Monte
Carlo, en honor al famoso casino del principado de Mónaco. R
b
La aplicacion más simple de estos métodos es la de calcular a g(x)dx
para alguna función g, con a y b finitos. Esta integral se puede escribir
como:
Z b Z b
1
g(x)dx = (b − a)g(x) dx = (b − a)E[g(U )] (3.2)
a a b − a

donde U ∼ U (a, b), con lo que si se evalúa g en una muestra de tamaño


K proveniente de una distribución uniforme, la integral se puede estimar
b−a PK
con K k=1 g(uk ), haciendo uso de los resultados asintóticos tipo leyes
de grandes números.
En el caso de la inferencia Bayesiana, dado un modelo (verosimilitud
y previa), la distribución posterior frecuentemente está representada por
una densidad no normalizada y el problema es construir estimados, basa-
dos en simulación, de diversas caracterı́sticas o cantidades resumen de
esta distribución. Si el modelo no presenta jerarquı́a, frecuentemente se
72 Bravo-Llatas-Pérez

pueden obtener directamente muestras de la distribución posterior, espe-


cialmente en el caso de conjugacidad. Para problemas más complicados,
se puede intentar simular por etapas, por ejemplo, en el caso jerárquico,
primero simular de la distribución posterior de los hiperparámetros y
luego simular los otros parámetros condicionados en los datos y los va-
lores simulados de los hiperparámetros. Con estos valores simulados de
p(θ|y) se puede entonces simular muestras de la distribución predictiva,
a partir de p(ỹ|θ).
Algunos métodos de simulación serán presentados a continuación, con-
centrando la discusión principalmente en los métodos de cadenas de
Markov (ver sección 3.3).

3.2.1. Muestreo directo


Aproximación discreta
En el caso en que el espacio de parámetros es continuo se puede
aproximar la distribución posterior a través de la evaluación de la den-
sidad p(θ|y), que puede ser no normalizada, en una grilla equiespacia-
da θ0 < θ1 < . . . < θN , que cubra el rango de interés. La muestra
se obtendrı́a
P a través del muestreo sobre la grilla con probabilidades
p(θi |y)/ N
i=1 p(θj |y).
Ejemplo 3.2.1. En el ejemplo 2.1.2, sobre los nacimientos de hembras
dada la condición de placenta previa, se vió que en el caso que se
use una distribución uniforme como distribución previa para la pro-
porción de nacimientos de hembras, θ, la distribución posterior es una
Beta(438, 544), y se pueden hallar por métodos análiticos los valores
de los momentos posteriores, o se pueden simular realizaciones de una
distribución beta. Ahora, suponga que se usa una distribución no con-
jugada, por ejemplo, una distribución centrada alrededor de 0.485 y
plana fuera del intervalo [0,385, 0,585], de manera que el 40 % de la masa
de probabilidad está fuera de dicho intervalo, como la que se presenta
la figura 3.1. Para esta distribución la media es 0.493 y la desviación
estándar 0.21. En este caso no hay una manera cerrada de obtener la
distribución posterior y es necesario recurrir a algún método de apro-
ximación. A continuación se transcriben las funciones de R en las que
se implementa el método de muestreo directo para la simulación, con-
siderando la forma de la distribución posterior no normalizada, evaluada
Distribución Posterior 73

Figura 3.1: Previa no conjugada, ejemplo 3.2.1

sobre una grilla. En la figura 3.2 se presentan los resultados de la simu-


lación de la distribución posterior.

#Distribucion previa
> previa=function(theta) {
+ if ((theta>=0)&(theta<=0.385)) {a=0.5}
+ if((theta>=0.585)&(theta<=1.0)) {a=0.5}
+ if((theta>=0.385)&(theta<=0.485)){a=50*theta-18.75}
+ if((theta>=0.485)&(theta<=0.585)){a=-50*theta+29.75}
+ return(a) }
# Verosimilitud
> likelihood=function(theta,n=980,y=437){
+ (theta^y)*(1-theta)^(n-y) }
# Distribucion posterior no normalizada
> postprop=function(theta) {
+ a= previa(theta)*verosimilitud(theta)
+ return(a) }
# Calculo de la constante de normalizacion
> k=sum(apply(t(seq(0,1,length=1000)),2,postprop))/1000
# Graficos de la distribucion previa y posterior
74 Bravo-Llatas-Pérez

Figura 3.2: Ejemplo de la simulación de una posterior, ejemplo 3.2.1

> par(mfrow=c(2,2),bty=’n’)
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,previa),xlim=c(0,1),
+ ylab="",xlab="theta",type=’l’)
# Grafico de la distribucion posterior:
> plot(seq(0,1,length=1000),
+ apply(t(seq(0,1,length=1000)),2,postprop/k),type=’l’,
+ xlim=c(0.35,0.585),ylab="",xlab="theta")
# Funcion de muestreo de la posterior
> sampost=function(grid){
> sample(grid,size=length(grid),replace=T,
> prob=apply(t(seq(0,1,length=1000)),2,postprop)/k) }
> theta=sampost(seq(0,1,length=1000))
> hist(theta,ylab="",xlab="theta",xlim=c(0.35,0.55))

3.2.2. Muestreo de rechazo/aceptación


Esta es una técnica ampliamente usada, gracias a la rapidez de las
computadoras actuales. Para la densidad p(θ|y), suponga que existe una
densidad de probabilidad g, tal que:
Distribución Posterior 75

Se sabe como simular variables con densidad g.


Existe una constante k tal que kg(θ) ≥ p(θ|y) para todo θ.
En este caso, para encontrar un valor θ∗ simulado, se procede de la
siguiente manera:
1. Simule un valor X a partir de g y un valor U ∼ U (0, 1)
2. Si
p(X|y)
≥ kU
g(X|y)
entonces θ∗ = X; si no, repita el proceso anterior, tantas veces
como se requiera para obtener un valor válido.
Nótese que este procedimiento no requiere que θ sea univariado.

3.2.3. Muestreo de Importancia


Los métodos de Monte Carlo para estimación de integrales, como la
presentada en la ecuación 3.2 presentan el problema de no ser factibles
en regiones no acotadas y aún en el caso de que las regiones sean aco-
tadas, pueden ser muy ineficiente si g es mucho mayor en una región del
intervalo que en otra, puesto que entonces la varianza de g(U ) es grande
y se necesitarán de muchas muestras para obtener un buen estimado de
la integral.
En el muestreo de importancia se plantea, al igual que en la ecuación
3.2, reescribir la integral como el valor esperado de una función de una
variable aleatoria X, de la que si se puede simular facilmente, esto es,
si f es una densidad de probabilidad que cumple que f (x) > 0 donde
g(x) > 0, entonces se puede escribir
Z Z  
g(x) g(X)
g(x)dx = f (x)dx = E .
f (x) f (X)
En este caso, f se la conoce como la función de importancia.
Supongamos que se desea estimar h̄ = E(h(θ)|y)), con h una fun-
ción regular. En muchos casos es facil escribir la densidad posterior no
normalizada, pero para estimar h̄ se requiere estimar
R
h(θ)p(θ)p(y|θ)dθ
E(h(θ)) = R .
p(θ)p(y|θ)dθ
76 Bravo-Llatas-Pérez

Si se tiene una función de importancia, f , la integral se puede aproximar,


con una muestra θ1 , . . . , θR proveniente de la distribución f , con:

R−1 r h(θr )wr


P P
h(θr )wr
h̄R = = rP
R−1 r wr
P
r wr

con wr = p(θr )p(y|θr )/f (θr ). Nótese que en este caso no hace falta que
f sea una densidad normalizada, pues las constantes de normalización
aparecen tanto en el numerador como en el denominador y se cancelan.
El error numérico estándar (ENE) se calcula como:
sP
− R−1 r h(θr ))2 wr2
P
r (h(θr )
ENE(h̄R ) = .
( r wr )2
P

3.3. Métodos Monte Carlo de Cadenas de Markov


(MCMC)
Los métodos MCMC tuvieron su origen en la estadı́stica fı́sica, cuando
fueron utilizados para estudiar las propiedades de sistemas de partı́culas
interactuando. Su uso en la inferencia Bayesiana, data de los años 80
([Gr] y [GG]) en el contexto de análisis de imágenes.
Estos métodos han sido altamente exitosos y son la base de paquetes
computacionales como WinBUGS [WB] , por su capacidad para encon-
trar aproximaciones de modelos complicados y de alta dimensionalidad;
para tener una idea del tipo de complejidad de la que se está hablando
considere un ejemplo en el área de mercadeo, donde se plantean modelos
con regresiones con 5 a 10 variables independientes, para cada uno de
100 - 200 consumidores de una muestra, con la finalidad de encontrar
las preferencias de consumo ante cambios en variables de mercado. Para
estos modelos, la inferencia requiere aproximar la distribución posterior
en un espacio de parámetros de dimensión entre 500 y 2000. Los proble-
mas de esta dimensión difı́cilmente pueden atacarse con las técnicas de
muestreo directo.
El objetivo de los métodos Monte Carlo de cadenas de Markov es
encontrar una cadena de Markov en el espacio de parámetros, de manera
tal que la distribución de equilibrio o estacionaria de la cadena coincida
con la distribución posterior.
Distribución Posterior 77

Para entender este objetivo hay que definir algunos términos: (ver por
ejemplo [GCSR] para más detalles).

1. Una cadena de Markov es un proceso estocástico a tiempo discre-


to, tal que si se conoce el estado en el tiempo n, θn , ası́ como los
estados previos θ1 , . . . , θn−1 , la distribución de probabilidad de to-
dos los estados futuros θj ,j > n solo depende del estado θn . Dicho
de otra manera, una cadena de Markov especifica un método para
generar una secuencia de variables aleatorias θ1 , θ2 , . . . , θr , . . . , a
partir de un valor inicial θ0 , requiriendo únicamente una regla de
transición para pasar de θr a θr+1 , definida a través de la distribu-
ción condicional θr+1 |θr ∼ Fr (θr ). Si Fr no depende de r, se habla
de una cadena homogenea.

2. Bajo ciertas condiciones sobre la distribución condicional F , se


puede demostrar que la distribución de θr |θ0 converge a una única
distribución, π()˙ a la que se la llama distribución estacionaria, o
invariante.

3. Bajo ciertas condiciones sobre la distribución condicional, se puede


demostrar que una cadena de Markov con distribución estacionaria
π es ergódica, esto es
1 X
lı́m h(θr ) = Eπ [h(θ)].1
R→∞ R

Esto permite estimar valores esperados a partir de los resultados


de una realización de la cadena.

4. Excepto en casos triviales, si definimos la cadena de Markov en


términos de una caminata al azar de alguna distribución propia,
entonces es aperiódica y estacionaria. La irreducibilidad se cumple
siempre que la caminata al azar tenga una probabilidad positiva de
alcanzar eventualmente cualquier estado desde algún otro estado.

De esta manera, construyendo una cadena de Markov cuya distribu-


ción estacionaria corresponda a la distribución posterior, se puede en-
contrar la esperanza posterior de cualquier función simulando la cadena
1
Suponiendo por supuesto que el valor esperado de h existe.
78 Bravo-Llatas-Pérez

y tomando el promedio de la función sobre los valores simulados. Por


supuesto, este procedimiento descansa en los resultados asintóticos, por
lo que se hace necesario realizar un número grande de simulaciones y
estudiar la convergencia de los valores obtenidos. Aunque la teorı́a no
lo requiere, en la práctica se considerarán los estimados basados en las
últimas R − B muestras, donde B, se supone lo suficientemente grande
como para que la cadena se encuentre en estado de equilibro.

3.3.1. El algoritmo de Metrópolis-Hasting.


En simulaciones de cadenas de Markov, se crean muchas secuencias de
muestras simuladas. Cada secuencia, θr , r = 1, 2, . . ., se produce comen-
zando de algún punto inicial θ0 y entonces, para cada r, se simula de
una distribución de probabilidades de transición Fr (θr |θr−1 ). Estas dis-
tribuciones deben ser construidas de tal forma que la cadena de Markov
converja a p(θ|y).
La referencia al algoritmo de Metropolis-Hasting corresponde a un
término general que se utiliza para una familia de métodos de simulación
de cadenas de Markov que se derivan del siguiente algoritmo propuesto
por [MU].

Algoritmo de Metrópolis
El algoritmo de Metrópolis es una modificación de un paseo al azar
que utiliza una regla de aceptación rechazo para obtener convergencia
de la cadena a una distribución especı́fica. El algoritmo consiste de los
siguientes pasos:

1. Simular un punto inicial para el cual p(θ0 |y) > 0 a partir de de


una distribución inicial p0 (θ).

2. Para r = 1, 2, . . .

Obtener una realización candidata θ∗ a partir de una dis-


tribución de salto en el tiempo r, Jr (θ∗ |θr−1 ). Esta dis-
tribución debe ser simétrica en el sentido de que Jr (θa |θb ) =
Jr (θb |θa ) para todo θa , θb , r.

3. Calcular R = p(θ∗ |y)/p(θr−1 |y).


Distribución Posterior 79

4. Definir
θ∗

r con probabilidad mı́n(R, 1)
θ = (3.3)
θr−1 si no

Estas ecuaciones implican que, dado θr−1 , Fr (θr |θr−1 ) es una mezcla de
la distribución de salto, Jr (θr |θr−1 ) y un punto de masa en θr = θr−1
La regla de aceptación y rechazo del algoritmo anterior se puede inter-
pretar como sigue: si el “salto”produce un valor para el que se aumenta
la densidad posterior, hacer θr = θ∗ ; si el “salto”no aumenta la densi-
dad a posteriori, hacer θt = θ∗ con probabilidad R y θt = θt−1 si no.
Esto puede ser visto como una versión estocástica de un algoritmo de
búsqueda de moda por pasos.

Algoritmo de Metrópolis-Hastings
La generalización conocida como el algoritmo de Metrópolis-Hasting,
consiste esencialmente en que en este caso las reglas de salto, dadas por
Jr no necesitan ser simétricas y el radio R es reemplazado por,

p(θ∗ |y)/Jt (θ∗ |θt−1 )


R= .
p(θt−1 |y)/Jt (θt−1 |θ∗ )

Al ser este algoritmo uno de aceptación-rechazo, la eficiencia en la


generación de la cadena dependerá de las propiedades de la distribu-
ción de salto; una buena distribución de salto deberı́a cumplir con las
siguientes propiedades:

Para cualquier θ, es fácil muestrear de J(θ∗ |θ).

Es fácil calcular los cocientes de importancia R.

Cada salto produce resultados a una distancia razonable en el es-


pacio de parámetros .

Los saltos no son rechazados muy frecuentemente.

Ejemplo 3.3.1. Suponga que se desea obtener una aproximación a la


densidad p(θ|y) = N2 (θ|0, I). En este caso, se puede usar como dis-
tribución de salto: Jr (θ∗ |θr−1 ) = N2 (θ∗ |θr−1 , 0,22 I), con lo que R =
N (θ∗ |0, I)/N (θr−1 |0, I). En el lenguaje R la simulación queda ası́:
80 Bravo-Llatas-Pérez

Figura 3.3: Ejemplo del algoritmo de Metropolis

> theta.old = rep(0,2)


> theta.new = rep(0,2)
> all.theta=matrix(0,ncol=2,nrow=1000)
> for (r in 1: 1000){
+ increment=rnorm(2,sd=0.2)
+ theta.new=theta.old+increment
+ R = exp(-0.5*sum((theta.new-c(0,0))^2))/
+ exp(-0.5*sum((theta.old-c(0,0))^2))
+ u=runif(1)
+ if(R <=u){theta.new=theta.old}
+ all.theta[r,]=theta.new
+ theta.old=theta.new
+ }
> par(mfrow=c(2,1))
> plot(all.theta[,1],xlab="Iteracion",ylab="theta.1",type=’l’)
> plot(all.theta[,2],xlab="Iteracion",ylab="theta.2",type=’l’)

La figura 3.3 presenta los valores de la caminata obtenida en una


realización de 1000 pasos.
Distribución Posterior 81

3.3.2. El muestreador de Gibbs


Este algoritmo, también llamado de muestreo condicional alternante,
es sumamente útil cuando el espacio de parámetros es altamente multidi-
mensional. Se supone que θ tiene d componentes, es decir θ = (θ1 , . . . , θd ).
En cada iteración r, se escoje un ordenamiento de los d subvectores, y
cada θjr es muestreado de la distribución condicional dados todos los
demás componentes,
r−1
p(θj |θ−j , y),
r−1
donde θ−j representa todos los componentes de θ excepto por θj en sus
valores actuales,
r−1 r−1
θ−j = (θ1r , . . . , θj−1
r
, θj+1 , . . . , θdr−1 ).

En la práctica es necesario establer un valor inicial θ0 = (θ10 , . . . , θd0 ).


Cada paso del algoritmo puede describirse como:
Muestree de:

θ1r ∼ p(θ1 |θ2r−1 , . . . , θdr−1 )


θ2r ∼ p(θ2 |θ1r , θ3r−1 , . . . , θdr−1 )
θ3r ∼ p(θ3 |θ1r , θ2r , θ4r−1 , . . . , θdr−1 )
..
.
θdr ∼ p(θd |θ1r , θ2r , . . . , θd−1
r
)

El muestreador de Gibbs es un caso especial de Metropolis-Hasting


con distribución de salto dada por
r−1 ∗ = θ r−1
p(θj∗ |θ−j

Gibbs ∗ r−1 , y) si θ−j −j
Jj,r (θ |θ ) =
0 si no.
En este caso R = 1 de manera que todos los saltos son aceptados.
Cuando no es posible muestrear de alguna, o de todas las distribu-
tiones condicionales p(θj |θ−j , y) pero sı́ de aproximaciones, g(θj |θ−j ), se
puede usar la misma estrategia de muestreo condicional alternante, com-
pensando por la aproximación, con la siguiente función de salto para el
j-ésimo paso de Metropolis en la iteración r:
r−1 ∗ = θ r−1
g(θr∗ |θ−j

∗ r−1 ) si θ−j −j
Jj,r (θ |θ ) =
0 si no
82 Bravo-Llatas-Pérez

En este caso se calculan los cocientes R y se usa la regla de asignación


en la ecuación 3.3 para este paso.
Ejemplo 3.3.2. En este caso se desea aproximar la distribución posterior:
p(θ|y), dada por
     
θ1 y1 1 ρ
|y ∼ N , .
θ2 y2 ρ 1
De esta distribución se puede ver que
θ1 |θ2 , y ∼ N (y1 + ρ(θ2 − y2 ), 1 − ρ2 )
θ2 |θ1 , y ∼ N (y2 + ρ(θ1 − y1 ), 1 − ρ2 )

Es posible por supuesto simular directamente de la distribución posterior


conjunta de (θ1 , θ2 ), pero consideramos el muestreador de Gibbs como
alternativa, con lo que, para ρ = 0,8, el algoritmo programado en R
queda:
> y=c(0,0);theta=c(0,0);rho=0.8
> all.theta=matrix(0,nrow=1000,ncol=2)
> for (i in 1:1000){
+ theta[1]=rnorm(1,mean=y[1]+rho*(theta[2]-y[2]),
+ sd=sqrt(1-rho^2))
+ theta[2]=rnorm(1,mean=y[2]+rho*(theta[1]-y[1]),
+ sd=sqrt(1-rho^2))
+ all.theta[i,]=theta
+ }
> # Simulacion directa
> # V=Matriz de Varianza-Covarianza
> V=matrix(c(1,rho,rho,1),ncol=2,byrow=T)
> LV=chol(V) # Descomposicion de Cholesky
> # t(LV)%*%LV = V
> z=matrix(rnorm(2000,sd=1),byrow=T,ncol=1000)
> theta.sim=t(LV)%*%z
> par(mfrow=c(2,2))
> plot(all.theta[,1],xlab="Iteracion",ylab="theta.1",type=’l’)
> plot(all.theta[,2],xlab="Iteracion",ylab="theta.2",type=’l’)
> plot(theta.sim[2,],theta.sim[1,],xlab="theta.2",
+ ylab="theta.1", main="Muestreo Directo")
> plot(all.theta[,2],all.theta[,1],xlab="theta.2",
+ ylab="theta.1",main="Gibbs Sampling")

En el programa anterior también se encuentran los comandos para


obtener los gráficos de la figura 3.4.
Distribución Posterior 83

Figura 3.4: Ejemplo del algoritmo de Gibbs Sampling

Ejemplo 3.3.3. En el modelo de regresiones aparentemente no relacio-


nadas, (ver 2.3.2), se presenta un sistema de m ecuaciones de regresión,
que se puede escribir, “apilando”las m ecuaciones, (ver ecuación 2.17),
como
y = Xβ + ε, ε ∼ N (0, Σ ⊗ In ) (3.4)
No existe en este caso una previa conjunta natural para β y Σ, como en
el modelo de regresión multivariada, donde la previa sobre β depende de
Σ, pues es natural que la información sobre β no puede ser independiente
de la escala. Sin embargo, una previa conveniente puede ser:

p(β, Σ) = p(β)p(Σ)
β ∼ N (β̄, A−1 ) (3.5)
Σ ∼ Inv-Wishart(ν0 , V0 )

que es condicionalmente conjugada en el sentido que dado Σ, la posterior


de β es normal, y dado β la distribución posterior tiene la forma de
una inversa Wishart. Más aún, usando la descomposición Σ = U 0 U tal
84 Bravo-Llatas-Pérez

que (U −1 )0 ΣU −1 = Im , se puede transformar la ecuación 3.4 en un


sistema con errores no correlacionados premultiplicando dicha ecuación
por (U −1 )0 ⊗In , de manera que se pueden usar los resultados de la sección
2.3.2 para obtener:
 
β|Σ, y, X ∼ N β̃, (X̃ 0 X̃ + A)−1 , β̃ = (X̃ 0 X̃ + A)−1 (X̃ 0 ỹ + Aβ̄) (3.6)

donde ỹ = ((U −1 )T ⊗ In )y, y X̃ = ((U −1 )T ⊗ In )X, mientras

Σ|β, y, X ∼ IW (ν0 + n, S + V0 ) donde S = E 0 E, (3.7)

con E = [ε1 , . . . , εm ]. Con estas ecuaciones se puede implementar el


muestreador de Gibbs haciendo:

1. Inicialice los valores de β0 y Σ0

2. Obtenga un valor β1 |Σ0 de la ecuación 3.6

3. Obtenga un valor Σ1 |β1 de la ecuación 3.7

4. Repita.

3.4. Inferencia y Evaluación de la convergencia


de los métodos MCMC
Para hacer inferencia Bayesiana a partir de las simulaciones obtenidas
con los métodos descritos anteriormente es necesario utilizar las mues-
tras de la distribución posterior p(θ|y) para calcular cuantiles, prome-
dios, momentos y otros estadı́sticos que resumen el comportamiento de
la distribución de probabilidad. De igual forma, para la inferencia pre-
dictiva posterior de valores no observados ỹ se toman muestras de la
distribución de los datos condicional a los valores simulados de p(θ|y) y
se obtienen los estadı́sticos de interés que resumen el comportamiento
de p(ỹ|y).
Sin embargo hay que tomar algunas previsiones con las simulaciones
obtenidas para asegurar que la inferencia se haga sobre simulaciones que
son representativas de la distribución de interés.
Distribución Posterior 85

3.4.1. Dificultades con las simulaciones obtenidas


Si las simulaciones no son lo suficientemente largas, pueden no ser
representativas de la distribución de interés. El segundo problema es que
si se presenta una alta autocorrelación dentro de la secuencia simulada, el
número efectivo de muestras representativas de la distribución de interés
es menor que el número de valores simulados. Las posibles formas de
manejar estos problemas son enumeradas a continuación:
Simular múltiples secuencias con valores iniciales dispersos a través
del espacio de parámetros.
Monitorear todas las cantidades de interés comparando las varia-
ciones dentro y entre cada secuencia.
Si la eficiencia en la simulación es muy baja, el algoritmo puede
ser alterado mediante reparametrizaciones o la construcción de
mejores funciones de salto.
Descartar un número adecuado de iteraciones iniciales para elimi-
nar la influencia del iterado inicial. Esta práctica se llama burn-in.
Tomar una muestra cada k-ésima iteración para algún k, de tal
forma que se puedan obtener muestras aproximadamente indepen-
dientes de la distribución de interés (thinning).

Monitoreo de la convergencia de los estimandos escalares


La metodologı́a consiste en monitorear cada estimando escalar u otra
cantidad escalar de interés separadamente. Los estimados son los pará-
metros de interés en el modelo o cualquier otra cantidad como por ejem-
plo, el cociente de dos parámetros o el valor de una observación futura
que se desea predecir. Dado que el método que se propone está basado en
calcular medias y varianzas, es conveniente transformar los estimandos
escalares para que sean aproximadamente normales (por ejemplo, tomar
logaritmos de todas las cantidades positivas o aplicar la transformación
logit a las cantidades entre 0 y 1).
Supongamos que se han simulado m secuencias paralelas, de longi-
tud n, después de haber descartado un número adecuado de iteraciones
iniciales. Para cada estimando escalar ψ, tenemos simulaciones de J se-
cuencias paralelas de longitud n, ψij con i = 1, . . . , n; j = 1, . . . , m.
86 Bravo-Llatas-Pérez

Calculamos las varianzas entre las secuencias (B) y dentro de cada se-
cuencia (W) de la siguiente forma:
J J
n X 1X 2
B= (ψ̄.j − ψ̄.. )2 , W = sj ,
J −1 J
j=1 j=1
Pn
con s2j = i=1 (ψij − ψ̄.j )2 /(n − 1). Podemos estimar var(ψ|y) por un
promedio ponderado entre las varianzas W and B,
n−1 1
ˆ + (ψ|y) =
var W + B.
n n
Esta cantidad sobreestima la varianza marginal posterior suponiendo
que la distribución inicial está apropiadamente dispersa, pero es un es-
timador insesgado bajo condiciones de estacionaridad (en el sentido de
que la distribución inicial iguala a la distribución de interés) o cuando
n → ∞.
Para cualquier valor de n finito, W deberı́a subestimar el valor de
var(ψ|y) porque las secuencias individuales no han tenido tiempo de
recorrer todo el rango de valores de la distribución de interés, pero en el
lı́mite, cuando n → ∞, la esperanza de W tiende a var(ψ|y).
La convergencia en los algoritmos de simulación MCMC es monito-
reada mediante la estimación de un factor por el cual la escala de la
distribución actual del parámetro ψ puede ser reducida suponiendo que
se continuan las simulaciones en el lı́mite n → ∞. La reducción de la
escala potencial es estimada por:
r
ˆ + (ψ|y)
var
R̂ = ,
W
lo cual va a 1 si n → ∞. Si la escala de reducción potencial es al-
ta entonces un mayor número de simulaciones pueden mejorar nuestra
inferencia sobre la distribución de interés

Monitoreo de la convergencia para toda la distribución


En este caso se recomienda calcular la reducción de la escala potencial
para todos los estimandos escalares de interés. Si R̂ no está cercano a 1
para todas estas cantidades, se continua con la simulación (quizás haya
que modificar el algoritmo para hacerlo más eficiente). Una vez que esta
Distribución Posterior 87

cantidad esté cerca de 1 para todos los estimandos escalares, se toman las
m × n muestras (después del burn-in) y se considera que estas muestras
son muestras de la distribución de interés. La condición R̂ “cerca”de 1
depende del problema que estamos considerando; para muchos ejemplos
valores por debajo de 1, 1 son aceptables.
La metodologı́a presentada anteriormente tiene la ventaja de que no
requiere la inspección visual de los gráficos de las series simuladas para
tomar una decisión sobre la convergencia. Basarse sólo en la inspección
visual puede no ser adecuado sobre todo cuando el número de parámetros
a evaluar es importante.

3.4.2. Construcción de algoritmos de simulación eficiente

El muestreador de Gibbs es más eficiente cuando es parametrizado en


función de componentes independientes. Si los componentes son muy de-
pendientes la convergencia del método puede ser lenta. Si hay Gaussia-
nidad se pueden utilizar transformaciones lineales de los parámetros,
pero distribuciones posteriores que no son normales pueden requerir
métodos especiales. En el caso del algoritmo de Metrópolis bajo condi-
ciones de Gaussianidad, la función de salto deberı́a tener la misma es-
tructura de covarianza que la distribución de interés la cuál puede ser
estimada mediante la aproximación normal en la moda. En el caso de
modas múltiples la función de salto debe permitir saltos entre las múlti-
ples modas. El muestreador de Gibbs también puede ser simplificado
o su velocidad de convergencia mejorada si se añaden variables auxil-
iares. Esto se conoce en la práctica como el método de “aumento de
datos”(data augmentation).

Ejemplo 3.4.1. El modelo normal jerárquico


Consideremos el modelo con datos yij , i = 1, . . . , nj , j = 1, . . . , J in-
dependientes y normalmente distribuidos dentro de cada grupo J, con
medias θj y varianza común σ 2 . El número total de observaciones es
n = ΣJj=1 nj . Las medias de cada grupo siguen una distribución normal
con media común µ desconocida y varianza τ 2 . Se asume una distribu-
ción uniforme para (µ, log σ, τ ) (σ > 0,τ > 0), lo cual es equivalente a
(µ, log σ, log τ ) ∝ τ . La densidad conjunta posterior viene dada por:
88 Bravo-Llatas-Pérez

J
Y
p(θ, µ, log σ, log τ |y) ∝ τ N (θj |µ, τ 2 )
j=1
J Y nj
Y
× N (yij |θj , σ 2 ).
j=1 i=1

Se puede obtener aproximaciones a la distribución posterior conjunta


de dos maneras:
Con el muestreador de Gibbs.
Las distribuciones condicionales completas de las cuáles se obtienen
las muestras de la distribución posterior son:
(θj |µ, σ, τ, y) ∼ N (θ̂j , Vθj ). Dado que estas distribuciones condi-
cionales son independientes, es posible obtener simulaciones del
vector θ simultáneamente.
(µ|θ, σ, τ, y) ∼ N (µ̂, τ 2 /J)
(σ 2 |θ, µ, τ, y) ∼ Inv − χ2 (n, σ̂ 2 )
(τ 2 |θ, µ, σ, y) ∼ Inv − χ2 (J − 1, τ̂ 2 )
Con el algoritmo de Metrópolis.
Se obtienen muestras de (θj |µ, σ, τ, y) ∼ N (θ̂j , Vθj ).
El paso de Metrópolis para obtener simulaciones de la distribu-
ción marginal posterior de (µ, log σ, log τ ) utiliza una distribución
de salto con matriz de covarianza igual a la obtenida utilizan-
do una aproximación normal centrada en la moda y multiplica-
da por (2,4)2 /3 (entre las clases de funciones de salto de la for-
∗ |θ t−1 ) = N (θ ∗ |θ t−1 , c2 Σ), la regla más eficiente asume
ma Jt (θ√
c ≈ 2,4/ d). Esto es, sea φ = (µ, log σ, log τ ) and φ̂ la moda de la
distribución marginal posterior p(µ, log σ, log τ |y), entonces
papprox (φ) = N (φ̂, Vφ )
con Vφ = [−L00 (φ̂)]−1 donde −L00 (.) es la matriz de información
observada. Se usa la función de salto dada por
Jt (θ∗ |θt−1 ) = N (θ∗ |θt−1 , ((2,4)2 /3)Vφ ).
Distribución Posterior 89

3.5. Breve introducción a WinBUGS


Una de las aplicaciones más importantes y comunes del muestreador
de Gibbs corresponde a los modelos jerárquicos, es decir, aquellos mode-
los que se construyen a partir de una secuencia de distribuciones condi-
cionales. El software BUGS, por las siglas en inglés correspondientes a
Bayes Using Gibbs Sampler, inicialmente desarrollado por Lund, Best y
Spiegelhalter [WB] se encuentra implementado para el sistema operativo
Windows en la versión WinBUGS que se puede obtener en la página

http://www.mrc-bsu.cam.ac.uk/bugs/.

El software cuenta con una ayuda en forma de manual y multiples ejem-


plos, bastante amigable de leer, de manera que se recomienda familiari-
zarse con el software con dicha ayuda. Lo que se presenta a continuación
sirve únicamente de referencia.
Para ajustar un modelo en WinBUGS es necesario crear un archivo de
instrucciones, bien a través un lenguaje de comandos, bastante parecido
al de R, o a través de un modelo gráfico (ver 3.5.2 más abajo), en la que
se especifica el modelo (esto es, la verosimilitud y la distribución previa)
ası́ como la lista o conjunto de datos a ser analizados. WinBUGS genera
una o varias cadenas de Markov correspondientes a la implementación
del muestreador de Gibbs implı́cito en el modelo. El código debe incluir
las siguientes secciones:

model, es decir, el modelo

data, la lista de datos

initial values, los valores de inicialización de las cadenas

La correctitud del modelo y la validación de datos se realiza en el


menú Model en el aparte de Specification tool, donde además se de-
fine el número de cadenas que se desea inicializar. Los parámetros y
funciones de los parámetros deben estar definidos en el modelo a fin de
hacerle seguimiento a los mismos a través de la ventana de monitoreo
de muestras, que se encuentra en el menú Inference bajo el nombre de
Samples.
Observaciones:
90 Bravo-Llatas-Pérez

1. La distribución normal está parametrizada en términos de media y


precisión, no en términos de varianza como se ha venido trabajando
en este texto

2. WinBUGS no permite la especificación de distribuciones previas


impropias. El manual recomienda usar precisiones muy pequeñas
o distribuciones quasi planas cuando se quiere usar previas no in-
formativas

3. Si se desea estimar la distribución predictiva de nuevos datos, se


puede agregar en la lista de datos uno o más ”NA”s. Esta es la
notación de WinBUGS para un valor observable desconocido.

4. Se pueden usar distribuciones truncadas y datos censurados.

3.5.1. Distribuciones condicionales y grafos dirigidos


Un modelo bayesiano comienza con una distribución previa y una
verosimilitud, que tienen una prelación natural, puesto que uno puede
pensar que primero se escoge un valor del parámetro de acuerdo con
la previa y luego se obtiene un valor de la observación a partir de la
distribución de muestreo p(y|θ). Esto puede ser representado por medio
de un grafo dirigido acı́clico, donde por grafo entendemos una colección
de nodos conectados. Un grafo dirigido se refiere a un grafo donde la
conexión entre dos nodos tiene una dirección, mientras que acı́clico sig-
nifica que la dirección es en un sólo sentido. Ası́ la relación entre previa
y verosimilitud puede ser vista como:

p(θ) p(y|θ) (3.8)


θ −→ y

Un modelo jerárquico es usualmente especificado como una secuencia de


dos o mas distribuciones condicionales que definen la distribución previa,
por ejemplo:

p(θ2 ) p(θ1 |θ2 ) p(y|θ1 )


(3.9)
1er paso 2do paso
θ2 −→ θ1 −→ y
Distribución Posterior 91

Esta estructura jerárquica, y su representación como un grafo dirigi-


do, inmediatamente sugiere un muestreador de Gibbs de dos fases para
simular de la distribución de (θ1 , θ2 ) dado y:

θ2 | θ1
θ1 | θ2 , y

A continuación se presentan los tipos de estructura más comunes:

Estructura lineal
θ1 −→ θ2 −→ θ3

que induce un muestreador de Gibbs de la forma:

θ1 | θ2
θ2 | θ1 , θ 3
θ3 | θ2

lo que quiere decir que θ1 y θ3 son independientes, condicional-


mente en θ2 .

Un padre, dos hijos


θ2
%
θ1
&
θ3
con lo que la distribución conjunta viene dada por:

p(θ1 , θ2 , θ3 ) = p(θ1 )p(θ2 |θ1 )p(θ3 |θ1 )

Dos padres, un hijo


θ1
&
θ3
%
θ2
92 Bravo-Llatas-Pérez

En este caso no hay independiencia condicional y el muestreador


de Gibbs requiere de todas las distribuciones condicionales

θ1 | θ3 , θ 2
θ3 | θ1 , θ 2
θ2 | θ3 , θ 1

De estos ejemplos se derivan tres reglas para leer la estructura de


dependencia a partir de un grafo dirigido. Ası́ un nodo N depende de:
1. Todo nodo al cual apunta N ;
2. Todo nodo por el que N es apuntado;
3. Todo nodo que apunta a cualquier nodo apuntado por N
y a partir de esas dependencias se puede “leer”los pasos del muestreador
de Gibbs.
Ejemplo 3.5.1. Considerese el modelo de la sección 2.3.2, pero ahora con

yi = Xi βi + i , i ∼ iid N (0, σi Ini ), i = 1, . . . , m (3.10)

pero ahora la relación entre las ecuaciones viene dada en los parámetros
βi a través de:

βi = ∆T zi + νi , νi ∼ iid N (0, Vβ ). (3.11)

Aquı́ las variables zi , representan caracterı́sticas latentes que son com-


partidas en las m unidades, por ejemplo, si zi = 1 y ∆ = µT , la ecuación
3.11 implica que las βi tienen una media común. Suponiendo distribu-
ciones previas para Vβ y ∆, por ejemplo Vβ ∼ Inv − W ishart(ν, V ),
∆|Vβ ∼ N ormal(∆, ¯ Vβ ⊗ A−1 ), se puede escribir el modelo como una
sucesión distribuciones condicionales en forma de grafo dirigido:
ν, V→ Vβ
↓ &
βi
¯
A, ∆ → ∆ % & (3.12)
yi
%
σi2
Distribución Posterior 93

3.5.2. Modelos gráficos en WinBUGS


La relación entre las distribuciones condicionales y los grafos dirigidos
está implementada en WINBUGS para definir el modelo propuesto para
un conjunto de datos. En la figura 3.5 se puede ver un ejemplo, extraido
del manual de WinBUGS, de un modelo gráfico. En este caso los nodos
están representados por un ovalo, mientras que las dependencias estan
clasificadas como estocásticas o lógicas, siendo estas últimas identificadas
con una flecha hueca. El ejemplo corresponde al modelo lineal normal
de efectos aleatorios:
yij ∼ N (µij , τc ) = N (αi + βi (xj − x̄), τc )
αi ∼ N (αc , τα )
βi ∼ N (βc , τβ )
con los τ representando la precisión.
La plataforma que rodea a los nodos µij y yij se refiere a que esta
especificación sirve para los datos desde i = 1 hasta N .

Figura 3.5: Ejemplo de un modelo gráfico de WinBUGs

Estos modelos gráficos se definen en WinBUGS usando las facilidades


del menú Doodle. Más información de como usarlas se puede obtener en
el menú de ayuda del programa.
94 Bravo-Llatas-Pérez

3.5.3. Ejemplo del Bioensayo


En el ejemplo 2.6.1 se presentaron los resultados obtenidos usando el
lenguaje R. La implementación en WinUGS se presenta a continuación:
model bio;
var
dose[N], # dosis recibida en cada grupo
nanimals[N], # numero de animales en cada grupo
deaths[N], # numero de muertes por grupo
prob[N], # "verdadera" probabilidad de muerte
alpha, beta, # parametros de la regresion
ld50; # parametro que define la dosis a la
# cual hay un 50% de tasa de supervivencia
{
alpha ~ dnorm(0.0,1.0E-06); # intercepto
beta ~ dnorm(0.0,1.0E-06); # pendiente
for(i in 1:N) {
deaths[i] ~ dbin(prob[i],nanimals[i]);
logit(prob[i]) <- alpha + beta*dose[i];
}
ld50<-(-alpha/beta);
}
# Datos
list(dose = c(-0.863,-0.296,-0.053,0.727),
nanimals=c(5,5,5,5),deaths=c(0,1,3,5),N=4)
# Inicio una cadena
list(alpha=0.0,beta=0.0)

Nótese que la cantidad de interes ld50 está definida en el modelo. En


la figura 3.6 se muestra la densidad estimada y la serie de valores de
ld50 para una cadena. Compárese la densidad estimada con la obtenida
en el ejemplo 2.6.1.

Para implementar el modelo de sobredispersion, mencionado en la


sección 2.4.2, se puede proceder como sigue:
model biodisperse; #Relacion dosis
respuesta con errores (sobredispersion)
var
dose[N], # dosis recibida en cada grupo
nanimals[N], # numero de animales en cada grupo
deaths[N], # numero de muertes por grupo
prob[N], # "verdadera" probabilidad de muerte
alpha, beta, # parametros de la regresion
e[N], # random effects model...
Distribución Posterior 95

Figura 3.6: Salida de WinBUGS, densidad estimada para LD50

tau, # precision del modelo


ld50; # parametro que define la dosis a la
# cual hay un 50% de tasa de supervivencia
alpha ~ dnorm(0.0,1.0E-06); # intercepto
beta ~ dnorm(0.0,1.0E-06); # pendiente
tau ~ dgamma(1.0E-1,1.0E-1);
for(i in 1:N) {
e[i] ~ dnorm(0.0,tau);
logit(prob[i]) <- alpha + beta* dose[i] + e[i];
deaths[i] ~ dbin(prob[i],nanimals[i]);
}
ld50<-(-alpha/beta);
}
# Datos
list(dose = c(-0.863,-0.296,-0.053,0.727),
nanimals=c(5,5,5,5),deaths=c(0,1,3,5),N=4)
# Inicio una cadena
list(alpha=-1.0,beta=20.9,tau=0.001)

3.5.4. Otros paquetes y software


En el presente material, al igual que en varios textos recientes, se
decidió trabajar principalmente con WinBUGS. Sin embargo, existen
muchos otros programas que permiten la aplicación de diversas técnicas
de análisis Bayesiano en una variedad de problemas, y que es imposible
describir aquı́ en su totalidad. Darren Wilson, profesor de la Universi-
dad de Newcastle en Inglaterra, mantiene una página web de vı́nculos a
algunos programas para estadı́stica Bayesiana en:
96 Bravo-Llatas-Pérez

http://www.mas.ncl.ac.uk/~ndjw1/bookmarks/Stats/
Software-Statistical\_computing/Bayesian_software/index.html.

Otros paquetes se han desarrollado como bibliotecas de programas en


R, y pueden ser obtenidos de CRAN (Comprehensive R Archive Net-
work).
El lector interesado en el análisis Bayesiano puede comenzar su búsque-
da en los sitios antes mencionados, en la seguridad que encontrará una
gran variedad de métodos e implementaciones que pueden ser usados
para resolver su problema.
Capı́tulo 4

Diagnóstico y selección de
modelos

En el segundo y tercer capı́tulo de estas notas se han expuesto los dos


primeros pasos de la inferencia Bayesiana, esto es, construir un modelo de
probabilidad y calcular la distribución posterior de todas las cantidades
o estimandos de interés. En muchos casos, y especialmente para modelos
complejos, la estimación se realiza usando métodos computacionalmente
intensivos de simulación.
El siguiente paso, el cual no debe dejarse de lado, es la evaluación del
ajuste del modelo a los datos y al conocimiento existente sobre el pro-
blema. Dado que es muy difı́cil incluir en un modelo todos los aspectos
de un problema real, es muy importante investigar posibles aspectos que
no han sido incluı́dos en el model propuesto.
Un buen análisis Bayesiano debe incluir algún diagnóstico del ajuste
adecuado del modelo a los datos disponibles, y de la idoneidad del mo-
delo para el propósito para el cual fue construido. En este contexto se
considerará que el término modelo incluye la distribución de muestreo,
la distribución a priori y cualquier estructura jerárquica que se esté em-
pleando. Cualquiera de estos elementos puede causar que el modelo no
cumpla las expectativas para las cuales fue propuesto, y puede estar
sujeto a cambio. Por lo tanto, es necesario poder comparar y selec-
cionar entre diferentes modelos aquel (o aquellos) que mejor se ajustan
al problema estudiado (es importante destacar que no siempre existe un
“mejor” modelo, y se puede tener un conjunto de modelos que poseen

97
98 Bravo-Llatas-Pérez

un desempeño similar).
En este capı́tulo se presentarán algunos de los métodos más usados
para diagnosticar y seleccionar modelos.

4.1. Principios y métodos para el diagnóstico


de un modelo
Al evaluar un modelo, la pregunta pertinente no es si el modelo es
verdadero o falso, ya que en la mayorı́a de los casos ningún modelo es
totalmente correcto, aún cuando sea útil en la práctica. La pregunta
relevante será, entonces, si las deficiencias del modelo tienen un impacto
importante en la inferencia.
La primera herramienta para el diagnóstico de un modelo es la propia
distribución posterior que produce. A continuación se consideran tres
formas de utilizar la posterior en el diagnóstico:
Comparar la distribución posterior de los parámetros con un cono-
cimiento importante del problema o con otros datos que no hayan
sido incluidos en la distribución a priori o en la verosimilitud. Por
ejemplo, comparar la probabilidad posterior de θj = Probabilidad
del jugador j de conectar un hit en un perı́odo de juego, con el
rendimiento de los jugadores en perı́odos anteriores.
Comparar la distribución predictiva posterior de observaciones fu-
turas con el conocimiento del problema. Por ejemplo, comparar
las predicciones por estado de una elección presidencial con un
conocimiento polı́tico importante sobre la preferencia de los can-
didatos en cada estado.
Comparar la distribución predictiva posterior de observaciones fu-
turas con los datos que ya han ocurrido. Esto implica que si el
modelo es adecuado, los datos observados deben ser factibles bajo
la distribución predictiva posterior. En este caso no se usa infor-
mación adicional.
Más formalmente, también puede hacerse una validación externa uti-
lizando el modelo para hacer predicciones sobre datos futuros. Esto
implica la recopilación de estos datos, para poder compararlos con las
predicciones ya hechas.
Diagnóstico de modelos 99

4.1.1. Comparación de los datos con la distribución pre-


dictiva posterior
El chequeo predictivo posterior trata de responder a la pregunta de
si el modelo es consistente con los datos. La técnica básica consiste en
simular muestras de la distribución predictiva posterior y comparar estas
muestras de datos replicados con los datos observados. Es muy útil hacer
comparaciones gráficas de resúmenes de los datos con resúmenes de las
simulaciones de la distribución predictiva posterior. Cualquier diferencia
sistemática entre las simulaciones y los datos indica que el modelo puede
tener fallas.

Notación para los datos replicados


Sean y los datos observados y θ el vector de parámetros incluyendo
todos los hiperparámetros si el modelo es jerárquico. Sea y rep una repli-
cación de y (un dato que ha podido ser observado) y ỹ una observación
futura observable. Es decir, ỹ es cualquier valor futuro observable o vec-
tor de cantidades observables, mientras que y rep es una replicación que
se parece a y.
Para aclarar las diferencias entre y rep y ỹ, obsérvese que si el modelo
contiene variables explicativas x, y (los datos) y y rep (las replicaciones)
tienen iguales valores de x pero ỹ tiene posibles valores futuros x̃ de x.
Se trabaja con la distribución de y rep dado los datos (conocimientos)
actuales. Esta es equivalente a la distribución predictiva posterior:
Z
p(y |y) = p(y rep |θ)p(θ|y)dθ
rep

Pasos para medir las discrepancias entre los datos y las simu-
laciones de la distribución predictiva
Primero se define una medida de discrepancia T (y, θ), la cual es
una cantidad escalar que depende de los parámetros y los datos
(equivalente a la estadı́stica de prueba desde el punto de vista
clásico). Se utiliza la notación T (y) para el estadı́stico de prueba
en el contexto clásico, es decir, que sólo depende de los datos. En el
contexto Bayesiano se generaliza este concepto para permitir la de-
pendencia de los parámetros del modelo mediante su distribución
predictiva posterior.
100 Bravo-Llatas-Pérez

La falta de ajuste de los datos con respecto a la distribución pre-


dictiva posterior se mide con el p-valor o la probabilidad de la cola.
Desde un punto de vista clásico:

p-valorC = P r(T (y rep ) ≥ T (y)|θ) (4.1)

donde la probabilidad se calcula sobre la distribución de y rep con


θ fijo. En este caso la distribución de y rep dado y y θ es lo mismo
que la distribución de y rep dado θ solamente.
Desde un punto de vista Bayesiano las cantidades de prueba son
funciones tanto de las cantidades desconocidas como de los datos,
porque el estadı́stico de prueba es evaluado en las simulaciones de
la distribución posterior de los parámetros desconocidos:
El p-valor Bayesiano predictivo posterior se calcula como:
p-valorB = P r(T (y rep , θ) ≥ T (y, θ)|y) (4.2)

donde la probabilidad se toma sobre la distribución posterior de θ y


la distribución posterior predictiva de y rep . Esta es la distribución
conjunta p(θ, y rep |y).
El p-valor predictivo posterior puede también interpretarse como
la esperanza posterior del p-valor clásico.
Si se tienen L simulaciones de la densidad predictiva posterior
de θ, se puede simular un valor de y rep para cada valor de θ si-
mulado, obteniéndose entonces L simulaciones de la distribución
p(θ, y rep |y). El diagnóstico predictivo posterior consiste en com-
parar la cantidad T (y, θl ) con T (y rep l , θl ). El p-valor predictivo
posterior estimado es la proporción de las L simulaciones para las
cuáles T (y rep l , θl ) ≥ T (y, θl ) Esta es la probabilidad posterior de
que las réplicas sean más extremas que los datos.

Prueba χ2
Una medida general de discrepancia es la discrepancia χ2 o prueba de
bondad de ajuste, definida como
X (yi − E(yi |θ))2
discrepancia χ2 : T (y, θ) =
var(yi |θ)
i
Diagnóstico de modelos 101

donde la suma se hace sobre las observaciones.


Cuando θ es conocido, esta cantidad es similar a la prueba χ2 clásica de
Bondad de Ajuste. Otra opción que se relaciona con ésta es la devianza,
definida como:

T (y, θ) = −2log p(y|θ)


En una prueba χ2 clásica θ está fijo y puede tomar el valor de la
hipótesis nula de interés ó el estimador de máxima verosimilitud. En
este caso la distribución χ2 de referencia está basada en la aproximación
para muestras grandes de la distribución a posteriori. Para la prueba χ2
Bayesiana la distribución de referencia se calcula con las simulaciones
predictivas posterior.

Interpretación de los p-valores predictivos a posteriori


Se considerará dudoso un modelo cuando la probabilidad de la co-
la para alguna cantidad de prueba de interés esté cercana a 0 o a 1
(menor que 0, 01 o mayor 0, 99). Los p-valores no deben ser interpreta-
dos como P r(Modelo es verdadero|Datos). De igual forma los p-valores
no deben ser interpretados como evidencia numérica. Es decir, un p-valor
de 0, 00001 no es más fuerte en la práctica que 0, 001. En ambos casos el
aspecto de los datos medido para la cantidad de prueba es inconsistente
con el modelo. El objetivo más importante no es responder a la pregunta:
“¿provienen los datos del modelo propuesto?”, sino cuantificar las dis-
crepancias entre los datos y el modelo y determinar si estas discrepancias
provienen del azar bajo las suposiciones del mismo modelo.

Relación de las pruebas clásicas con las pruebas Bayesianas


Las pruebas Bayesianas predictivas a posteriori son generalizaciones
de las pruebas clásicas ya que se promedia sobre la distribución poste-
rior del vector de parámetros desconocido en lugar de usar algún valor
fijo θ̂. Estas pruebas no dependen de una cantidad pivotal predeter-
minada ni de resultados asintóticos y por lo tanto pueden aplicarse a
cualquier modelo de probabilidad. Pero, cuidado! Estas pruebas no son
automáticas: la selección de una cantidad de prueba y de una distribu-
ción predictiva apropiada necesita considerar el tipo de inferencia que
se requiere para el problema en cuestión.
102 Bravo-Llatas-Pérez

4.1.2. Ejemplo de diagnóstico de modelos


Chequeo predictivo posterior del ejemplo educativo de la sec-
ción 5.5 del [GCSR]
Este ejemplo ya fue discutido en la sección 2.6, descrito en el ejemplo
2.6.2. La pregunta que uno se hace es si el modelo se ajusta al compor-
tamiento de los datos. Por ejemplo, ¿es el valor observado más alto, 28
puntos, consistente con la distribución predictiva posterior? Una mane-
ra de comprobarlo es llevar a cabo una simulación de 500 muestras de
la distribución predictiva posterior y calcular el máximo valor observa-
do para cada simulación (máxj yjrep ) donde j = 1, . . . , 8. Si la mayorı́a
de estas simulaciones está por debajo del valor de 28 puntos, entonces
se podrı́a decir que el modelo no está reproduciendo este importante
aspecto de los datos.
Es posible seleccionar distintos estadı́sticos de prueba, tal y cómo se
explicó en la sección 4.1.1. Para probar el ajuste del modelo a los datos
observados se puede examinar la distribución predictiva posterior del
máximo valor observado entre las ocho escuelas, máxj yjrep ; el valor mı́ni-
mo, mı́nj yjrep ; el promedio, media(yj ) y desviación estándard, dest(yj ).
La distribución predictiva posterior de cada estadı́stico de prueba se
puede aproximar por su histograma. Luego se ubica el cuantil corres-
pondiente al estadı́stico de prueba calculado sobre los datos observados
y se estima el p-valor correpondiente mediante la ecuación 4.2. Los re-
sultados de este análisis son presentados en la figura 4.1.
Dado que según la distribución del estadı́stico de prueba calculado
a partir de los datos simulados de la distribución predictiva posterior,
la probabilidad de exceder dicho estadı́stico para los datos observados
no es ni muy grande ni muy pequeña, se concluye que modelo genera
resultados predichos que resultan similares a los datos observados.

4.1.3. Análisis de sensibilidad y expansión de modelos


El análisis de sensibilidad toma en cuenta la incertidumbre en la infe-
rencia posterior debido a la existencia de modelos alternativos razona-
bles. Se pueden considerar otros modelos que difieran en la especificación
de la distribución a priori, la verosimilitud o ambos.
El método básico de análisis de sensibilidad es ajustar varios modelos
de probabilidad al mismo problema y entre las distintas estrategias para
Diagnóstico de modelos 103

Figura 4.1: Distribución predictiva posterior, resultados observados, y


p-valor Bayesiano para cada estadı́stico de prueba considerado en el
ejemplo educativo

llevar a cabo este análisis se pueden mencionar las siguientes:

Reemplazar distribuciones previas impropias con distribuciones


propias que provean un conocimiento a priori importante del pro-
blema.

Usar modelos robustos que aseguren poca influencia de obser-


vaciones inusuales, como por ejemplo, usar una distribución t-
Student en lugar de la distribución normal.

Todas estas estrategias van acompañadas de un proceso de diagnósti-


co de modelos, tomando ası́ en cuenta la incertidumbre asociada en la
inferencia posterior cuando se utilizan modelos alternativos. Un modelo
alternativo puede ser un modelo expandido para el cual se consideran
nuevos datos o nuevos parámetros. Esto implica que el viejo modelo
104 Bravo-Llatas-Pérez

p(y, θ) es reemplazado por el nuevo modelo p(y, θ, φ) o de una forma


más general, por p(y, y ∗ , θ, φ).

4.2. Comparación de Modelos


En general la estrategia es comenzar el análisis de datos con un modelo
simple que sólo utiliza parte de la información disponible. Por ejemplo,
un modelo de regresión que sólo contempla algunos de los posibles pre-
dictores; un modelo que no incluya la evidencia de que las varianzas son
iguales; o un modelo que establezca una distribución normal para datos
discretos.
Un proceso de selección de modelos generalmente sigue estos dos es-
cenarios:
Se compara el modelo más simple con el modelo más complejo para
determinar la ganancia que se obtiene al expandir al modelo, o
viceversa, si el modelo es simplificado, se determina la pérdida por
usar un modelo más simple. Si los modelos están anidados, es decir,
si el conjunto de parámetros del modelo más simple está incluı́do
en el conjunto de parámetros de modelo más complejo, se trata
de analizar si la complejidad adicional se justifica pues se ajustan
mejor los datos. La teorı́a estadı́stica de pruebas de hipótesis tiene
que ver con los métodos para determinar si una mejorı́a en el ajuste
de un modelo es justificable estadı́sticamente. Si θ es el vector
de parámetros en un modelo más pequeño y ψ los parámetros
adicionales, se desea comparar las dos distribuciones a posteriori
p(θ|y) y p(θ, ψ|y), además de sus distribuciones predictivas para
nuevas réplicas yrep .
El segundo escenario tiene que ver con la comparación de dos o
más modelos que no están anidados, como por ejemplo, el caso de
modelos de regresión que tienen conjuntos de variables predictoras
completamente diferentes. En este caso ningún modelo generaliza
al otro y lo que se quiere es comparar el ajuste de los distintos
modelos para determinar cuán adecuados son los predictores de
cada modelo cuando se consideran por separado.
En ambos escenarios, el procedimiento Bayesiano formal es el uso de
factores de Bayes (ver sección 4.2.3) para hacer estas comparaciones. Sin
Diagnóstico de modelos 105

embargo, se han desarrollado enfoques alternativos basados en medidas


de discrepancia. Uno de ellos, basado en la devianza como medida de
discrepancia, fue introducido por Spiegelhalter et al [SBCV] y será pre-
sentado a continuación.

4.2.1. Devianza esperada como una medida de la pre-


cisión predictiva
Anteriormente en la sección 4.1 se introdujeron algunas medidas de
discrepancia que nos ayudan a decidir si el ajuste del modelo a los datos
es adecuado. En este caso se quiere comparar dos o más modelos distintos
para determinar cuál de ellos tiene la mayor precisión predictiva. Si
ningún modelo ajusta bien los datos, aún ası́ es útil comparar su ajuste
relativo.
El ajuste de un modelo puede ser resumido con el error cuadrático
medio:
1 X (yi − E(yi |θ))2
T (y, θ) =
n var(yi |θ)
i
Otra opción es calcular la devianza:
D(y, θ) = −2log p(y|θ) (4.3)
La devianza es proporcional al error cuadrático medio si el modelo es
normal con varianza constante. La discrepancia entre los datos y el mo-
delo depende en general de θ y y. Para obtener una medida de discrepacia
que sólo depende de y se calcula:
Dθ̂ (y) = D(y, θ̂(y)) (4.4)

En este caso se usa un estimado puntual θ̂(y), como por ejemplo la


media de las simulaciones a posterior.
Desde el punto de vista Bayesiano es más interesante calcular el pro-
medio sobre la distribución a posteriori (Devianza promedio a posteri-
ori):
Davg (y) = E(D(y, θ)|y). (4.5)
Esta cantidad puede ser estimada utilizando las simulaciones a poste-
riori θl :
L
1X
D̂avg (y) = D(y, θl ). (4.6)
L
l=1
106 Bravo-Llatas-Pérez

La cantidad 4.6 es un mejor estimador del error del modelo que el esti-
mador puntual 4.4 porque esta última toma en cuenta todos los valores
posibles del vector de parámetros.
La diferencia entre la devianza promedio a posteriori 4.6 y la devianza
en 4.4 es pD , que es una medida del número efectivo de parámetros en
un modelo Bayesiano:

pD = D̂avg (y) − Dθ̂(y) . (4.7)

Esta medida de complejidad del modelo es útil especialmente en mo-


delos jerárquicos, en los cuales la introducción de información sobre la
estructura y sobre las relaciones entre los parámetros claramente reduce
la dimensionalidad real del problema, pero no es claro en general qué tan
grande es esta reducción. Cuando no existe estructura jerárquica, puede
verse que pD es aproximadamente igual al número de parámetro desco-
nocidos del modelo.

4.2.2. Devianza para datos replicados y criterio de infor-


mación de la devianza (DIC)
Si se desea estimar el error para los datos replicados se calcula la
devianza de la siguiente forma:
pred
Davg (y) = E[D(y rep , θ̂(y))] (4.8)

donde D(y rep , θ) = −2 log p(y rep |θ) y θ̂ es un estimador del parámetro
como por ejemplo la media posterior. En general esta devianza será ma-
yor que D̂avg (y) definida en 4.6, porque los datos replicados son com-
parados con un modelo estimado a partir de los datos y.
pred
Davg (y) definido en 4.8 ha sido sugerido como un criterio de ajuste
de modelos y puede ser aproximado por una expresión que se denomina
Criterio de Información de la Devianza (DIC):
pred
DIC = D̂avg (y) = 2D̂avg (y) − Dθ̂ (y) (4.9)

donde Dθ̂ (y) y D̂avg (y) fueron definidas en 4.4 y 4.6.


Nótese que usando la ecuación 4.7 también puede escribirse

pred
DIC = D̂avg (y) = D̂avg (y) + pD , (4.10)
Diagnóstico de modelos 107

es decir, el Criterio de Información de la Deviancia puede verse como la


suma de una medida de discrepancia (la deviancia promedio a posteriori)
y una medida de complejidad (el número efectivo de parámetros pD ).
Se espera, por lo tanto, que un buen modelo tenga un DIC bajo. Nótese
además que las cantidades involucradas en el cálculo del DIC se pueden
obtener fácilmente usando resultados de simulaciones. Este hecho ha
popularizado el uso del DIC como estrategia de selección de modelos.
En general, se dirá que un modelo es mejor que otro cuando su DIC es
“sustancialmente” menor. Aún cuando no es fácil determinar cuándo una
diferencia en el DIC entre dos modelos es grande, en el sitio web de Win-
BUGS ( http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml)
los autores recomiendan los siguientes criterios generales:

Diferencias de más de 10 en el DIC permiten descartar el modelo


con el DIC más alto.
Diferencias entre 5 y 10 pueden considerarse sustanciales.
Cuando la diferencia es menores que cinco y los modelos hacen
inferencias muy diferentes, reportar sólo el modelo con el menor
DIC puede llevar a conclusiones erróneas.

En el capı́tulo 5 se presentarán ejemplos del uso del Criterio de Infor-


mación de la Deviancia para la selección de modelos.

4.2.3. Factores de Bayes


Sean M1 , M2 , . . . , Mq un conjunto de modelos bajo consideración,
tales que para cada modelo la verosimilitud de los datos viene da-
da por pi (y|θi ). Los θi son desconocidos y tienen dimensión ki . Sean
P (Mi ), i = 1, . . . , k, las
P probabilidades previas de que cada modelo sea
cierto, y suponga que qi=1 P (Mi ) = 1. Dado un vector de observaciones
y, se desea determinar cuál de los modelos tiene una mayor probabilidad
posterior. Usando el Teorema de Bayes, se obtiene que

P (y|Mi )P (Mi )
P (Mi |y) = Pq
j=1 P (y|Mj )P (Mj )
m (y)P (Mi )
= Pq i (4.11)
j=1 mj (y)P (Mj )
108 Bravo-Llatas-Pérez

R
donde mi (y) = pi (y|θi )p(θi )dθi es la distribución marginal o predictiva
del vector de datos y bajo el modelo i.
Para comparar dos modelos, se puede calcular el cociente de sus pro-
babilidades posteriores, el cual, usando la ecuación 4.11, se calcula como

P (Mi |y) mi (y)P (Mi ) mi (y) P (Mi )


= = × (4.12)
P (Mj |y) mj (y)P (Mj ) mj (y) P (Mj )
Es decir, el cociente de las probabilidades posteriores es el cociente de
las probabilidades previas multiplicado por un factor que representa la
actualización del conocimiento proporcionado por los datos. Este factor
se denomina factor de Bayes, y será denotado por Bij ,
R
mi (y) pi (y|θi )p(θi )dθi
Bij = = R (4.13)
mj (y) pj (y|θj )p(θj )dθj
Cuando no existen parámetros desconocidos en los modelos a com-
parar, el factor de Bayes se reduce a la razón de verosimilitudes, coinci-
diendo ası́ con la inferencia clásica. Por tanto, si se considera 2 log Bi j,
ésta cantidad estará en la misma escala que la deviancia convencional.
Sin embargo, la inferencia basada en factores de Bayes respecta el princi-
pio de parsimonia, a diferencia de los métodos frecuentistas que tienden a
seleccionar el model más complejo cuando el número de datos es grande.
Otra caracterı́stica importante del factor de Bayes es que no requiere la
selección de una hipótesis nula, ya que ambas hipótesis son tratadas de
manera simétrica en el procedimiento de selección.
Jeffreys [Jef] proporciona una escala de evidencia para interpretar los
valores de un factor de Bayes. La versión de la escala de evidencia que
se presenta en el cuadro 4.1 está tomada de [KR95]
Nótese que el cálculo del factor de Bayes requiere la asignación de
previas πi (θi ) para cada uno de los modelos. Esto puede no ser fácil, y
el resultado de la selección de modelos puede depender de las previas
elegidas, especialmente para tamaños de muestra pequeños. En proble-
mas de estimación, una posible estrategia era la asignación de previas
objetivas, tal y como se presentó en la sección 1.9. Sin embargo, muchas
previas objetivas comúnmente empleadas son impropias; en este caso, el
factor de Bayes estarı́a definido salvo una constante arbitraria, lo cual
no permite usarlo para inferencia. Si bien se han desarrollado diferentes
métodos para corregir este problema y calibrar el factor de Bayes basa-
do en previas objetivas impropias (ver un resumen de estos métodos
Diagnóstico de modelos 109

Cuadro 4.1: Escala de evidencia de Jeffreys para los factores de Bayes


B10 2 log B10 Interpretación
Por debajo de 1 Negativo Apoya al modelo 0
1-3 0-2 Evidencia débil a favor del
modelo 1
(No suficiente para decidir)
3-20 2-6 Evidencia positiva a favor del
modelo 1
20-150 6-10 Evidencia fuerte a favor del
modelo 1
Mayor de 150 Mayor de 10 Evidencia decisiva a favor del
modelo 1

en [BP01]), en este trabajo sólo se usarán factores de Bayes basados en


previas propias.
A continuación se presentan dos ejemplos sencillos de la aplicación de
los factores de Bayes.
Ejemplo 4.2.1. Ejemplo de genética ([GCSR], sección 1.4): Se con-
sidera el problema de determinar la probabilidad de que una mujer sea
portadora del gen de la hemofilia (θ = 1) o no (θ = 0).
Se obtiene una estimación de la probabilidad a priori para θ,
Pr(θ = 1) y P r(θ = 0) a partir de la condición de su madre, padre
y hermano. En este caso se considera P r(θ = 0) = P r(θ = 1) = 12
Se conocen el estado de sus dos hijos varones: y1 y y2 donde
yi = 1 si el hijo es afectado o yi = 0 si no. En este ejemplo se
supone y1 = y2 = 0, es decir, ninguno de los hijos está afecta-
do por la enfermedad. Se calcula la verosimilitud de estos datos:
p(y1 = 0, y2 = 0|θ). Si la mujer es portadora cada hijo tiene 50 %
de probabilidad de heredar el gen y por lo tanto de ser afectado
(p(y1 = 0, y2 = 0|θ = 1) = (0, 5)(0, 5) = 0, 25). Si no es portadora,
la probabilidad de que los hijos no estén afectados es casi 1 con-
siderando que una posible mutación tiene una probabilidad muy
baja (p(y1 = 0, y2 = 0|θ = 0) = (1)(1) = 1)
Se calcula la distribución a posteriori Pr(θ = 1|y) mediante el
teorema de Bayes, y se obtiene un valor de P r(θ = 1|y) = 0, 20
110 Bravo-Llatas-Pérez

En este caso hay dos modelos que compiten: M1 : La mujer está afec-
tada; y M2 : La mujer no está afectada; esto es: θ = 1 y θ = 0. La
razón de probabilidades a priori es p(M2 )/p(M1 ) = 1. El factor de
Bayes de los datos en los que la mujer tiene dos hijos no afectados es
p(y|M2 ) 1,0
B21 = p(y|M 1)
= 0,25 = 4; de acuerdo a la escala de evidencia de Jeffreys,
este valor aporta evidencia positiva a favor del modelo 2, es decir, a fa-
vor de que la mujer no es portadora del gen de la hemofilia. El cociente
de las probabilidades posteriores es p(M2 |y)/p(M1 |y) = 4. En este caso
no hay modelos intermedios entre los dos modelos a comparar y cada
p(y|Mi ) es propia.
Ejemplo 4.2.2. Proporciones de machos y hembras en pobla-
ciones de venados ([McC07], pág. 112): Flueck [Fl01] determinó el
sexo de 28 venados con el objetivo de decidir si la distribución de sex-
os era equitativa. Sea Y la cantidad de machos, y p la proporción de
machos; de acuerdo con el objetivo, se desea comparar los siguientes
modelos:

M1 : p = 0, 5
M2 : p 6= 0, 5

Flueck observó 20 machos y 8 hembras en el grupo estudiado. Bajo el


modelo M1 , la probabilidad de observar estos datos se calculará como
 
28
m1 (20) = 0, 520 (1 − 0, 5)8 = 0,0116
20
Para el modelo M2 , se requiere una distribución previa para el pará-
metro p. Si se denota dicha previa por π(p), la predictiva de los datos
bajo el modelo M2 se calcula como
Z 1 
28
m2 (20|M2 ) = p20 (1 − p)8 π(p)dp
0 20
Eligiendo una previa uniforme en el intervalo (0, 1) para p, esta pre-
dictiva será:
 Z 1
28
m2 (20|M2 ) = p20 (1 − p)8 dp
20 0
Γ(29) Γ(21)Γ(9) 1
= = = 0,0345
Γ(21)Γ(9) Γ(30) 29
Diagnóstico de modelos 111

El factor de Bayes del modelo M1 vs el modelo M2 será, por tanto,

m1 (20) 0,0116
B12 = = = 0,336.
m2 (20) 0,0345

Es decir, el factor de Bayes apoya al modelo 2. Para ver qué tan fuerte
es ese apoyo, considere el factor de Bayes inverso:

m2 (20) 0,0345
B21 = = = 2,97
m1 (20) 0,0116
De acuerdo con la escala de evidencia de Jeffreys, el factor de Bayes
proporciona un apoyo débil al modelo M2 , es decir, al modelo para el
cual las proporciones de machos y hembras son diferentes.
Podrı́a alegarse que una previa uniforme no es adecuada en este caso,
ya que probabilidades de sexo masculino cercanas a cero o a uno son
igualmente posibles que probabilidades cercanas a 0, 5. Esto no parece
razonable desde el punto de vista biológico, ya que valores cercanos a
0, 5 deberı́an ser más probables, y no hay razón para preferir valores
superiores o inferiores a 0, 5. Si se elije una previa Beta(a,a):

Γ(2a) a−1
π(p) = p (1 − p)a−1 ,
(Γ(a))2
se obtienen las caracterı́sticas que se acaban de describir. Cuando a = 1,
se obtiene una previa uniforme, mientras que cuando a crece, la previa
se concentra cada vez más alrededor de 0,5, haciendo que los modelos
M1 y M2 sean muy parecidos.
Para esta nueva previa en el modelo M2 , la predictiva de y = 20 será

Z 1
Γ(29) Γ(2a) a−1
m2 (20) = p20 (1 − p)8 p (1 − p)a−1 dp
Γ(21)Γ(9) 0 (Γ(a))2
Z 1
Γ(29) Γ(2a)
= p20+a−1 (1 − p)8+a−1 dp
Γ(21)Γ(9) (Γ(a))2 0
Γ(29) Γ(2a) Γ(20 + a)Γ(8 + a)
=
Γ(21)Γ(9) (Γ(a))2 Γ(28 + 2a)

y por lo tanto
112 Bravo-Llatas-Pérez

1 Γ(29) Γ(2a) Γ(20 + a)Γ(8 + a)


B21 =
0,0116 Γ(21)Γ(9) (Γ(a))2 Γ(28 + 2a)

Figura 4.2: Factor de Bayes B21 para comparar el modelo con propor-
ciones distintas vs proporciones iguales de machos y hembras con re-
specto al valor del parámetro de la previa, ejemplo de los venados.

Claramente, el factor de Bayes depende del valor de a. La figura 4.2


muestra los valores de B21 correspondientes a diferentes valores de a.
Nótese que B21 es siempre menor que 4; por lo tanto, para ningún valor
de a se obtiene evidencia fuerte a favor del modelo M2 , es decir, no hay
evidencia fuerte en contra de la suposición de que las proporciones entre
los sexos son iguales.
Capı́tulo 5

Casos de estudio

En los primeros cuatro capı́tulos de este material se han desarrollado


herramientas para el análisis de datos con técnicas Bayesianas. En este
capı́tulo se presentan casos de estudio que ilustran la utilidad de esta
manera de hacer inferencia en aplicaciones.
Cada caso presenta una descripción del problema, el modelo propues-
to, la implementación computacional para encontrar la distribución pos-
terior de las cantidades de interés y una breve discusión.

5.1. Confiabilidad y Mantenimiento Industrial


Descripción del problema:
Gilardoni y Colosimo (2007), [GC], presentan un análisis de datos prove-
nientes de la operación de mantenimiento de 30 transformadores de po-
tencia. Se supone que la operación de mantenimiento se realiza o bien
cuando un transformador falla y es reparado para llegar al mismo estado
en que se encontraba antes de la falla, lo que también se conoce como
mı́nima reparación (MR, as good as old) o cuando se decide hacer un
mantenimiento preventivo que restaura el transformador a su condición
original (MP, as good as new); también se asume que el costo CM R de
una operación de tipo MR es K veces mayor que el costo CM P , de la
operación MP. En el cuadro 5.1 se pueden ver los tiempos (en horas)
correspondientes a 20 transformadores que pasaron por alguna de las
operaciones de mantenimiento; once de estas operaciones fueron de MP,
con lo que se puede suponer que se tienen 41 tranformadores en prueba,

113
114 Bravo-Llatas-Pérez

mientras 10 unidades no fallaron en el tiempo de observación que fue de


21.888 horas.

Cuadro 5.1: Datos de tiempos de falla y/o mantenimiento de 30 trans-


formadores eléctricos (Fuente: [GC])

Unidad Fallas y tiempos de mantenimiento preventivo


(horas)
1 8.839 17.057 (21.887)
2 9.280 16.442 (21.887)
3 10.445 (13,533)∗ (21.435)
4 (8,414)∗ (21.745)
5 17.156 (21.887)
6 16.305 (21.887)
7 16.802 (21.887)
8 (4,881)∗ (21.506)
9 7.396 7.541 (19,590)∗ (21.711)
10 15.821 19.746 (19,877)∗ (21.804)
11 15.813 (21.886)
12 15.524 (21.809)
13 (21,440)∗ (21.809)
14 11.664 17.031 (21.857)
15 (7,544) ∗ (13,583) ∗ 15.751 (20.281)
16 18.840 (21.879)
17 (2,288)∗ (4,787)∗
18 10.668 (16.838)
19 15.550 (21.887)
20 (1,616) ∗ 15.657 (21.620)
Datos censurados debido a un mantenimiento preventivo se indi-
can con un “*”
Diez unidades observadas por 21.888 horas no tuvieron fallas

El problema es encontrar un tiempo τ para la realización del MP que


minimice el costo esperado de la operación de mantenimiento por unidad
Casos 115

de tiempo, que viene dado por: (ver [GC])

C(0,T ] (τ )
H(τ ) = lı́m
T →∞ T
 Z τ 
1
= CP M + CM R ρ(u)du . (5.1)
τ 0

donde ρ corresponde a la función de intensidad del proceso de Poisson


no homogeneo (PPNH) con el que se modela el proceso de fallas de
un transformador en regimen de reparación mı́nima. En el campo de
confiabilidad es usual suponer que ρ(t) = β/α(t/α)β−1 , es decir, que se
modela como un procesos de ley de potencia (PLP), donde los tiempos
entre fallas tienen una distribución condicional Weibull.
Hay solución para el problema de minimización en el caso en que
Z ∞
CM P
sρ0 (s)ds > ;
0 CM R

para el PLP se tiene que el mı́nimo se obtiene en τ ∗ con


 1/β
∗ CM P
τ =α
(β − 1)CM R

Modelo:
Siguiendo a [BT], la verosimilitud para los datos de falla de n equipos
con tiempo de observación T , puede escribirse como:

n1 Z n
" #
X Ti X Z timi Y
p(θ|t) = exp − ρ(s)ds − ρ(s)ds ρ(tij ) (5.2)
i=1 0 i=n1 +1 0 i,j

donde

1. θ, en el caso del PLP, corresponde al vector de parámetros (α, β),

2. tij se refiere al j-ésimo tiempo de falla para el i-ésimo sistema y


este sistema se observa hasta el tiempo T = Ti , para i = 1, . . . , n1
o se trunca en la mi -ésima falla, para i = n1 + 1, . . . , n.
116 Bravo-Llatas-Pérez

Para completar el modelo, se requiere especificar una distribución pre-


via para θ = (α, β). Haciendo la transformación µ = log α, σ = 1/β que-
da un problema de localización y escala, lo que sugiere usar una previa
independiente de la forma:
1
p(µ, σ) ∝ (5.3)
σ
con la advertencia que esta es una previa impropia.
Implementación en WinNBUGS:
Como puede verse en la ecuación 5.2, hay dos dificultades con la verosi-
militud de los datos, la primera, que no es una densidad implementada
en WinBUGS y la segunda, que los datos son censurados.
Para el primer problema la solución es considerar el “truco del cero”,
que usa el hecho que la probabilidad de obtener una observación igual a
cero, de una distribución Poisson (φ), es igual a e−φ , de manera que si
se hace que todos los datos sean cero y φ = φi = − log(p(yi |θ)) + C (la
log verosimilitud), se obtiene la verosimilitud deseada. Aqui C es una
constante usada para garantizar que la tasa φ sea positiva.
Para el segundo problema se requiere separar los datos observados de
los datos censurados, separando ası́ la contribución de cada uno de ellos
en la verosimilitud. Para implementarlo en WinBUGS, en la estructura
de los datos de falla, se coloca un “NA” en el lugar del arreglo de datos
que le corresponderı́a a un dato censurado, mientras que en la estruc-
tura de datos censurados, se coloca un cero en el lugar que ocuparı́a un
dato completo. Finalmente, en lugar de usar la previa impropia de la
ecuación 5.3, se usará una distribución normal con precisión pequeña
para µ y una distribución uniforme en el intervalo (1, 100) para β, us-
ando información previa sobre otros transformadores para los que β es
mayor que uno. Con esto, el modelo queda:

model{ # Modelo para datos de falla


C <- 300 # Para asegurar phi > 0
for (i in 1:N) { # VEROSIMILITUD
ceros[i] <- 0
a[i]<- -(1-equals(t[i],0))*
(log(beta) +(beta)*(log(t[i]+0.01)-mu))
phi[i] <- C + exp(beta*(log(t.cen[i]+0.01)-mu))
+a[i]
ceros[i] ~ dpois(phi[i])
Casos 117

Figura 5.1: Resultados de la simulación de los parámetros para el pro-


blema de mantenimiento óptimo

}
alpha<- exp(mu)
mu ~ dnorm(0, 0.0001)
beta~ dunif(1,100)
tau <- alpha*pow(15*(beta-1),-1/beta)
}

Nótese que en la definición de τ se está considerando que CM R /CM P =


15
Discusión de resultados:
La solución clásica a este problema, presentada en [GC] es encontrar
los estimadores máximo verosimiles de α y β y estimar intervalos de
confianza para τ usando la aproximación normal. En [GC] se obtuvo
β̂ = 1, 988 y α̂ = 24,844. Considerando la relación CM R /CM P igual a
15, se calcula el estimador MLE de τ , τ̂ = 6,400 horas o 276 dı́as, con un
intervalo de confianza de 6,400 ± (1, 96)(1,724) = (3,021, 9,780) con los
lı́mites calculados usando el delta-método a partir de las estimaciones
118 Bravo-Llatas-Pérez

Figura 5.2: Resultados de la simulación del tiempo óptimo para realizar


el mantenimiento perfecto

asintóticas de las desviaciones de α̂ y β̂. En la figura 5.1 se muestran el


histograma y una porción del gráfico de corridas para los valores simula-
dos de la distribución posterior de α (con promedio = 25.202, mediana
= 24.660) y β (promedio = 1.992, mediana=1.962). En la figura 5.2 se
presenta en histograma de τ (promedio = 7.173, mediana=6.630), para
4.000 realizaciones, para el que se obtiene como intervalo de probabili-
dad del 95 % a (5,283, 9,780). Nótese que el lı́mite inferior del intervalo
difiere en 94 dı́as.

5.2. Efectos del fenómeno de El Niño


en Venezuela
Descripción del problema:
El Centro Internacional de Investigaciones para el fenómeno de El Niño
(CIIFEN) ubicado en Guayaquil, Ecuador, provee periódicamente mapas
Casos 119

de previsiones de la variables climáticas de temperatura y precipitación


para toda América Occidental en base a los pronósticos oceanográfi-
cos y atmosféricos a escala global. Un ejemplo de estas previsiones se
muestra en la figura 5.3, en donde se señalan las probabilidades de
precipitación para el trimestre Mayo-Julio 2008. Esta previsiones son
de carácter estadı́stico y se basan en las relaciones que existen entre
las variables océano-atmosféricas (que llamaremos de ahora en adelante
variables macroclimáticas) y las precipitaciones a nivel local. Los datos

Figura 5.3: Previsión de la precipitación al Oeste de Sudamérica en el


perı́odo Marzo-Julio 2008 (Fuente: CIIFEN)

de las variable macroclimáticas son provistos por los grandes centros de


investigación como la NOAA (National Oceanic Atmospheric Adminis-
tration) de los Estados Unidos o el ECMWF (European Center for Mid
Range Weather Forecast) a partir de imágenes satelitales y datos in situ,
que permiten estimar variables como la temperatura de la superficie del
mar (TSM) en los distintos océanos a escala global. La TSM en la re-
gión 5◦ N a 5◦ S, y 170◦ W a 120◦ W del océano Pacı́fico es un ı́ndice
oceánico que mide la severidad del fenómeno de El Niño. Temperaturas
120 Bravo-Llatas-Pérez

más calientes de lo normal son un indicativo de la presencia del fenómeno


lo cuál tiene impactos en las precipitaciones a escala global. También se
dispone de conjunto de ı́ndices macroclimáticos que toman en cuenta la
presión atmosférica para medir a intensidad del fenómeno. Uno de estos
ı́ndices es el IOS (Índice de Oscilación Sur) que mide la diferencia de
presión entre Darwing y Tahitı́. Valores muy negativos del IOS indican
la presencia del fenómeno de El Niño. Las relaciones entre estos ı́ndices
y la precipitación (y temperatura del aire) pueden variar con la época
del año y la región.
Siguiendo la misma idea de las previsiones climáticas producidas por
el CIIFEN, se utilizó las series de tiempo históricas de precipitación
mensual de 97 estaciones meteorológicas a nivel nacional y las series
históricas de dos ı́ndices macroclimáticos: la temperatura de la super-
ficie del mar en el océano Pacı́fico (TSMP), promediada en la región
mencionada anteriormente (región Niño 3.4), y el ı́ndice de Oscilación
Sur. Tanto para la precipitación como los ı́ndices macroclimáticos se
calcularon las anomalı́as (valores mensuales menos el promedio a largo
plazo) y se categorizaron en terciles (percentiles correspondientes a pro-
babilidades menores que 0.33, entre 0.33 y 0.66 y mayores que 0.66).
Estas categorı́as se consideran respectivamente: valores por debajo de
lo normal (Bajo), valores entre los rangos normales (Medio) y valores
por encima de lo normal (Alto). Seguidamente se construyeron Tablas
de Contingencia 3 × 3 y se obtuvieron las frecuencias cruzadas para 38
años de datos. La primera tabla (Cuadro 5.2) corresponde a la relación
entre el ı́ndice IOS y la precipitación en la estación El Jabón (Estado
Lara) durante el perı́odo Julio-Agosto-Septiembre.

Cuadro 5.2: Tabla de Contingencia para la Precipitación y el IOS.


Estación El Jabón (Estado Lara)
Precipitación
Índice IOS Bajo Medio Alto
Bajo 10 2 1
Medio 2 5 5
Alto 1 5 7

Como se puede observar, ambas variables están altamente relacionadas


Casos 121

especialmente en los extremos de la diagonal, lo cual implica que valores


bajos de IOS corresponden a valores bajos de precipitación y valores al-
tos de IOS a valores altos de precipitación, además de que no hay especial
relación para los valores medios de ambas variables. La segunda tabla
(cuadro 5.3) corresponde a la relación entre el ı́ndice TSMP (Temperatu-
ra de la Superficie del Mar en el Océano Pacı́fico) y la precipitación en la
estación El Dorado (Estado Bolı́var) durante el perı́odo Enero-Febrero-
Marzo. Al igual que el primer caso, ambas variables están altamente
relacionadas sólo que a valores altos de TSMP se observan valores bajos
de precipitación y viceversa.

Cuadro 5.3: Tabla de Contingencia para la Precipitación y la TSMP.


Estación El Dorado (Estado Bolı́var)
Precipitación
Índice TSMP Bajo Medio Alto
Bajo 1 6 6
Medio 2 5 5
Alto 10 1 2

El interés del análisis consiste en describir la asociación entre las dos


variables categóricas, para lo cuál se utiliza la familia de modelos logli-
neales mencionados en la sección 2.4.
Modelo loglineal:
Sean y = {yij } las frecuencias observadas en la tabla de contingencia
3 × 3. En nuestro caso i = 1, . . . , 3 y Pj = 1,P . . . , 3. Como el total de todas
las frecuencias observadas está fijo ( 3i=1 3j=1 yij = n donde n es igual
a número de años de datos), la distribución aproximada de y condicional
en n y λ = {λij } es multinomial con λij igual a la probabilidad asociada
a la categoria ij. Sin embargo, es posible modelar las frecuencias yij
con una
P distribución Poisson con medias µij de tal manera que λij =
µij / ij µij .
Se supone entonces que yij ∼ Poisson(µij ) cuya verosimilitud puede
escribirse como
3 Y 3
Y 1 yij −µij
p(y|µ) = µ e
yij ! ij
i=1 j=1
122 Bravo-Llatas-Pérez

Se consideran dos modelos: uno que incluye la interacción entre las


variables y otro que asume independencia entre ellas. En el caso inde-
pendiente:
log(µij ) = γ + αi + βj
donde αi representa el efecto de la variable i (efecto de fila) y βj re-
presenta el efecto de la variable j (efecto de columna) y γ es la media
general. Para el caso dependiente se incluye la interacción de los dos
factores en la forma:
log(µij ) = γ + αi + βj + (αβ)ij
Este último caso se define como el modelo saturado ya que incluye
todas la variables y sus interacciones. El número de parámetros a esti-
mar suponiendo que todos los efectos están fijos es 1 + I + J + IJ con
I = J = 3, por lo que el número de parámetros excede el número de ob-
servaciones (IJ). Es necesario entonces imponer restricciones para poder
identificar los parámetros. El caso extremo es el modelo que asigna igual
probabilidad a cada celda, lo cual es equivalente a ajustar el modelo
log(µij ) = γ.
Para los casos dependiente e independiente se utilizaron previas nor-
males no informativas para los efectos de las filas, columnas e interac-
ciones y para la media general, es decir:
αi ∼ N (0, 100)
βj ∼ N (0, 100)
(αβ)ij ∼ N (0, 100)
γ ∼ N (0, 100)
Para ambos modelos se utilizan las restricciones de esquina fijando
el primer efecto de fila y de columna a un valor constante (ver [C2]).
También se fijan la primera fila y la primera columna de los parámetros
de interacción de tal forma que:
α1 = 0
β1 = 0
(αβ)11 = (αβ)12 = (αβ)13 = (αβ)21 = (αβ)31 = 0
lo cual dejarı́a al modelo independiente con 5 parámetros libres y al
modelo dependiente con 9 parámetros.
Casos 123

Implementación en WinBUGS:
Para la implementación en WinBUGS se consideran los dos casos: Mo-
delo independiente y Modelo saturado. Se calculan los estadı́sticos χ2
y G2 . También es necesario asignar NA a los valores iniciales de los
parámetros que conforman las restricciones. A continuación se incluyen
los códigos utilizados para el caso independiente y el modelo saturado:

#CASO INDEPENDIENTE
model {# Distribuciones a Priori
# Efectos del IOS
u1[1] <- 0; for (i in 2:I) { u1[i] ~ dnorm(0,0.01)}
# Efectos de la precipitacion
u2[1] <- 0; for (i in 2:I) { u2[i] ~ dnorm(0,0.01)}
u ~ dnorm(0,0.01);

# Verosimilitud de los datos


for (i in 1:I) {
for (j in 1:I) {
m[i,j] ~ dpois(mu[i,j]); log(mu[i,j]) <- u + u1[i]+u2[j];}}

# Estadisticos
for (i in 1:I)
{ for (j in 1:I)
{ devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j];} }
G2 <- 2 * sum( devG[,] );
X2 <- sum( devX[,] )}

Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)

Inits
list(u1=c(NA,1,1),u2=c(NA,1,1), u=1)

#MODELO SATURADO
model {
# Distribuciones a priori
# Efectos del IOS y la precipitacion
u1[1] <- 0; for (i in 2:I) { u1[i] ~ dnorm(0,0.001)}
u2[1] <- 0; for (i in 2:I) { u2[i] ~ dnorm(0,0.001)}
# Restricciones de las interacciones
for (j in 1:I){ u12[1,j] <- 0 }
for (i in 2:I) { u12[i,1] <- 0 }
124 Bravo-Llatas-Pérez

# Interacciones
for (i in 2:I-1) {
for (j in i+1:I) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 3:I) {
for (j in 2:i-1) { u12[i,j] ~ dnorm(0,0.001); }}
for (i in 2:I) { u12[i,i] ~ dnorm(0,0.001);}
u ~ dnorm(0,0.001);
# VEROSIMILITUD
for (i in 2:I) {
for (j in 1:i-1) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I-1) {
for (j in i+1:I) {
m[i,j] ~ dpois(mu[i,j]);
log(mu[i,j]) <- u+ u1[i]+u2[j]+u12[i,j] }}
for (i in 1:I) {
m[i,i] ~ dpois(mu[i,i]);
log(mu[i,i]) <- u + u1[i]+ u2[i]+u12[i,i];}

for (i in 1:I) {
for (j in 1:I) {
devG[i,j] <- m[i,j] * log((m[i,j]+0.5)/(mu[i,j]+0.5))
-(m[i,j]-mu[i,j]);
devX[i,j] <- (m[i,j]-mu[i,j])*(m[i,j]-mu[i,j])/mu[i,j]; } }

G2 <- 2 * sum( devG[,] );


X2 <- sum( devX[,] );
}

Data
list(m=structure(.Data=c(10,2,1,2,5,5,1,5,7),.Dim=c(3,3)),I=3)

Inits for Saturated Model


list(u1=c(NA,1,1),u2=c(NA,1,1),u=0,
u12=structure(.Data=c(NA,NA,NA,NA,0,0,NA,0,0)
,.Dim=c(3,3)))

Discusión de resultados:
En el análisis clásico para comparar estos dos modelos usualmente se
hace la prueba chi-cuadrado que contrasta las hipótesis de independencia
entre las variables. En análisis Bayesiano, además de los estadı́sticos
Casos 125

clásicos se obtuvo el criterio de información de la devianza (DIC) descrito


en el capı́tulo 4 con el propósito de comparar ambos modelos.
El DIC para el caso independiente es de 55.179, mientras que para
el modelo saturado el DIC es igual a 46.045, que es menor que el del
modelo que asume independencia, por lo que se puede concluir que para
esta tabla conviene escribir el modelo con el efecto de interacción ya que
existe dependencia entre ambas variables.

Cuadro 5.4: Salida de WinBUGS con los estadı́sticos de las cadenas de


Markov simuladas para el modelo loglineal

node mean sd MC error 2.5 % median 97.5 %


u 2.255 0.3665 0.0274 1.507 2.292 2.839
u1[2] -1.793 0.9211 0.08605 -3.844 -1.73 -0.168
u1[3] -3.058 1.272 0.1427 -5.819 -2.959 -0.898
u2[2] -1.824 0.8269 0.06507 -3.472 -1.782 -0.290
u2[3] -2.725 1.241 0.1387 -5.824 -2.575 -0.7063
u12[2,2] 2.862 1.261 0.1099 0.4874 2.815 5.57
u12[2,3] 3.76 1.568 0.1673 1.055 3.579 7.4
u12[3,2] 4.132 1.497 0.1616 1.321 4.094 7.049
u12[3,3] 5.414 1.79 0.2065 2.323 5.225 9.292

En el cuadro 5.4 se presentan las salidas de WinBUGS para los parámet-


ros del modelo saturado con los datos de la tabla 5.2, donde se observa
que los componentes de interacción son todos significativamente posi-
tivos, mientras que los efectos principales correspondientes a la precip-
itación y al ı́ndice IOS son significativamente negativos.

5.3. Encuestas de Satisfacción


Contexto:
El exito de una empresa productora de bienes o servicios se debe en
buena parte a la satisfacción que dichos bienes o servicios causa en los
clientes de la empresa. Es por ello que uno de los estudios de merca-
do que más se realiza sea el de “Encuestas de satisfacción del cliente”.
Usualmente estas encuestas vienen en la forma de un cuestionario en el
que los encuestados deben escoger una calificación, en una escala dis-
126 Bravo-Llatas-Pérez

creta de k categorias ordenadas, para un conjunto de preguntas. Una


de las preocupaciones de los analistas de estas encuestas es la posible
heterogeneidad de uso de la escala entre los encuestados. En la figura
5.4 se examinan los resultados de una encuesta de satisfacción realizada
a 315 clientes, donde las respuestas van del 1: (muy insatisfecho) al 10:
(muy satisfecho). Se compara la mediana de las respuestas de las pre-
guntas con el rango, esto es, la diferencia entre las evaluaciones máxima
y mı́nima otorgadas en un mismo cuestionario. Esta figura evidencia las
diferencias de uso de la escala entre los encuestados; algunos sólo usan la
parte superior de la escala, que está representada por la esquina inferior
derecha, mientras que otros usan casi toda la escala para responder las
preguntas.

Figura 5.4: Heterogeneidad de uso de la escala de valoración en una


encuesta de satisfacción del cliente

Para este ejemplo se emplearán los datos obtenidos de una encuesta


de satisfacción realizado a 650 entrevistados en varias agencias de un
Casos 127

banco. Las preguntas se formularon solicitando la calificación, de acuer-


do con un escala donde 7 es muy bueno (la mejor calificación) y 1 la
peor, de la satisfacción con respecto a once atributos. Estos atributos se
refieren a tiempos de permanencia y atención, al trato de los empleados
de la agencia y otros atributos propios de la agencia. También se pre-
guntó sobre la satisfacción del servicio prestado, siendo esta pregunta
dirigida a establecer un ı́ndice de satisfacción global.
Modelo:
El modelo que se presenta a continuación fue desarrollado por Rossi et
al.(2001) [RO]. El modelo está motivado por la idea que las calificaciones
son una versión discreta de un modelo continuo, que no se observa, es
latente. Para i = 1, . . . , N y j = 1, . . . , M , sea yij la calificación entre
1 y K que otorgó el individuo i a la pregunta j y sea uij la respuesta
latente del i-ésimo entrevistado a esta pregunta, con u0i = [ui1 , . . . , uiM ],
la respuesta latente del entrevistado i a todo el cuestionario. Se supone
la existencia de K + 1 puntos de corte {ck : ck−1 ≤ ck , k = 1, . . . , K},
donde para todo i, j y k,

yij = k si ck−1 ≤ uij ≤ ck (5.4)

y además
ui ∼ N (µ∗i , Σ∗i ). (5.5)
La interpretación de este modelo es que las respuestas observadas son
multinomiales, donde las probabilidades multinomiales provienen de una
distribución normal multivariada. Ahora bien, este modelo tal como
está descrito en las ecuaciones 5.4 y 5.5 está sobreparametrizado, pues
tenemos un vector de medias y una matriz de varianzas-covarianzas di-
ferente para cada uno de los entrevistados. Una manera de soslayar esto
es considerar:

u i = µ + τ i 1 + σ i zi , zi ∼ N (0, Σ); (5.6)

con este modelo se obtiene una localización y cambio de escala, especı́fico


para cada entrevistado, haciendo µ∗ = µ + τi 1 y Σ∗i = σi Σ, pero con un
menor número de parámetros. Nótese por ejemplo, que para una persona
que usa sólo la parte alta de la escala se tendrá un valor de τi grande
con σi pequeño.
128 Bravo-Llatas-Pérez

Con esta simplificación hay todavı́a un problema por resolver, puesto


que el modelo, tal como está escrito, no es identificable, en el mismo
sentido que no son identificables los modelos ANOVA: un cambio de
localización en los τ puede ser compensado con un cambio de localización
en sentido contrario, de µ. Este problema se puede resolver imponiendo
restricciones sobre el modelo jerárquico: Suponga que τi , log σi siguen
una distribución normal bivariada:
 
τi
∼ N (φ, Λ) (5.7)
log σi
con restriciones: φ1 = 0 y φ2 = λ22 .
Los puntos de corte ck se pueden suponer fijos y aún ası́ el modelo
presentado es bastante flexible, pero si se quiere estimar dichos puntos
con los datos se tendrá que colocar algunas restricciones, de nuevo, para
no caer en la sobreparametrización. Rossi, et al. proponen considerar a
los ck como:
ck = a + bk + ek 2 , k = 1, . . . , K − 1 (5.8)
e imponer restricciones de la forma:
X X
ck = m1 , c2k = m2 . (5.9)
k k

por lo que el único parámetro libre en la ecuación 5.8 es e.


Finalmente hay que considerar la distribución previa conjunta de los
parámetros, p(µ, Σ, φ, Λ, e). Suponiendo independencia:

p(µ) ∝ constante, (5.10)


p(e) ∝ U (−0,2, 0,2)
Σ ∼ Inv − W ishart(νΣ , VΣ )
Λ ∼ Inv − W ishart(νΛ , VΛ )

Implementación de la simulación:
En este caso se usará la función rscaleUsage de la libreria de funciones
bayesm (ver [RAM]). Para lograr convergencia de las cadenas hace falta
generar un número considerable de pasos, tomando también en cuenta
que los resultados marginales son altamente correlacionados, por lo que
se recomienda usar la técnica de “thinning” para obtener resultados más
confiables.
Casos 129

Discusión de resultados:
En la figura 5.5 se presentan los diagramas de caja construidos con 1.000
muestras de la distribución posterior para µ, el parámetro de respuesta
central para cada pregunta.
En este gráfico puede verse como las preguntas 1, 5 y 11 reciben
calificaciones menores que las demás. Las preguntas 1 y 11 se refieren
a tiempos de estadı́a en la agencia; la pregunta 5 se refiere al ambiente
fı́sico y las comodidades de la agencia. En el cuadro 5.3 se presentan los
cuantiles estimados por pregunta.

Cuadro 5.5: Cuantiles estimados para µ

Pregunta cuantil
2.5 % 5% 50 % 95 % 97.5 %
1 6.7 6.7 6.9 7.0 7.1
2 7.5 7.6 7.7 7.9 7.9
3 7.7 7.8 7.9 8.1 8.1
4 7.9 7.9 8.1 8.2 8.3
5 7.3 7.4 7.5 7.7 7.7
6 7.5 7.5 7.7 7.8 7.9
7 7.5 7.5 7.7 7.9 7.9
8 7.5 7.5 7.7 7.9 7.9
9 7.3 7.3 7.5 7.6 7.7
10 8.0 8.0 8.2 8.4 8.4
11 7.0 7.1 7.2 7.4 7.5
12 7.4 7.4 7.6 7.7 7.8

Uno de los objetivos de este tipo de investigación es comprender si


hay o no relaciones entre la satisfacción global y los atributos que se
consideraron a la hora de diseñar el cuestionario, como atributos im-
portantes y fueron examinados en preguntas separadas. El problema de
heterogeneidad de uso de escala por los encuestados tiende a sesgar la
correlación entre las respuestas por lo que si se estima clásicamente la
matriz de correlación se obtendrán correlaciones altas que pueden ser
totalmente espurias. Ahora, con el modelo propuesto, los valores de la
correlación obtenida a partir de Σ se pueden pensar como resultados co-
rregidos por heterogeneidad. Para el conjunto de respuestas examinado,
130 Bravo-Llatas-Pérez

Figura 5.5: Gráficos de caja de 1000 realizaciones de la distribución


posterior de µ (a partir de 10000 muestras).

el estimador de la correlación entre la satisfacción global y la satisfacción


con respecto al tiempo total empleado en la agencia es de 0.82, seguida
por la correlación con respecto al trato del personal, que fue de 0.72.

5.4. Modelación de la incidencia de malaria en


el Estado Sucre, Venezuela

Un ejemplo de datos areales:

Un problema de mucho interés en el área de bioestadı́stica y epidemi-


ologı́a es el problema de disease mapping ó mapeo de enfermedades. En
Casos 131

estos problemas tı́picamente se tendrán datos de conteo de la forma:

Yi = nro. de casos observados de la enfermedad en un estado


o municipio i, i = 1, . . . , I
Ei = nro. esperado de casos de la enfermedad en el estado
o municipio i, i = 1, . . . , I

Se observa entonces que se tienen datos para distintas unidades de área.


Se considera que los Yi son variables aleatorias, mientras que los Ei
son valores fijos que dependen del número ni de personas expuestas a
la enfermedad en el estado o municipio i. Una suposición estándar es
considerar que: P
yi
Ei = ni × r̄ = ni ( P i )
i ni
donde r̄ es la tasa global de incidencia de la enfermedad para la región de
estudio. En este caso Ei puede considerarse como una especie de hipótesis
nula que supone una tasa de incidencia constante de la enfermedad para
todas las unidades areales de interés. De esta forma se logra que algunas
unidades areales tengan tasas de incidencia con valores mayores que lo
esperado y otras menores que lo esperado. Este proceso se denomina de
estandarización interna ya que utiliza los datos observados para centrar
los datos ([BCG04]).
Se dispone para este ejemplo de datos de incidencia de malaria para
los 15 municipios del estado Sucre para el año 1991. La Figura 5.6 mues-
tra el número de casos de la enfermedad por cada 1000 habitantes en
cada municipio. El estado Sucre tiene una superficie de 11,800km2 y
conjuntamente con los estados Bolı́var y Delta Amacuro, es considera-
do una zona de alto riesgo malárico en Venezuela. Por ejemplo, para el
Municipio Cajigal en ese año hubo la mayor tasa de infectados (103, 46),
seguido de Andrés Mata con una tasa de 28, 83 y Mejı́a con 20, 08.
Modelo de regresión Poisson lognormal:
Si la enfermedad de estudio es rara, los valores de Ei no serán muy
grandes y el modelo usual para Yi es el modelo Poisson:

Y |ηi ∼ Poisson (Ei ηi )

donde ηi es el verdadero riesgo relativo de la enfermedad en la i-


ésima región. Desde un punto de vista frecuentista, se puede utilizar el
132 Bravo-Llatas-Pérez

Figura 5.6: Tasa de infectados por malaria en el Estado Sucre, Venezuela

estimador de máxima verosimilitud de ηi el cual puede estimarse como:


Yi
ηˆi =
Ei
Esta cantidad se define como la tasa de morbilidad o mortalidad es-
tandarizada para el municipio i (SM Ri , por sus siglas en inglés), depen-
diendo de si se consideran los casos de personas afectadas o fallecidas. Es
posible entonces calcular los intervalos de confianza tradicionales para
ηi , ası́ como también hacer pruebas de hipótesis. Desde un punto de vista
Bayesiano, se pueden utilizar modelos jerárquicos en los que es posible
incorporar efectos aleatorios para los ηi , además de la asociación espa-
cial entre los diferentes municipios o unidades espaciales. Al considerar
el logaritmo del riesgo relativo ψi = log ηi , el modelo Poisson básico
descrito anteriormente puede ser reescrito en la forma:

Yi |ψi ∼ Poisson (Ei eψi )


ψi = xi 0 α + νi + bi
Casos 133

Los xi son variables explicativas espaciales con coefficients α que tratan


de explicar los patrones espaciales de Yi . Los valores de νi tratan de cap-
turar la variabilidad extra-Poisson sobre toda la región de estudio. Ge-
neralmente se establece una distribución normal para νi , ν ∼ N (0, 1/τν )
donde τν es la precisión. Los valores de bi son los parámetros que tratan
de capturar la posible asociación espacial entre las regiones (variabilidad
local) para los cuáles se considera un modelo CAR (Conditional Autore-
gressive) donde cada bi tiene distribución Normal con media igual al
promedio de los efectos de los vecinos contiguos a la unidad de área i
y precisión proporcional al número mi de vecinos contiguos a la unidad
de área i (bi ∼ N (b̄−i , 1/(τc mi )), donde el promedio b̄−i se calcula ex-
cluyendo el valor de bi .
Implementación en WinBUGS:
Para la inferencia estadı́stica de los parámetros del modelo se utiliza un
análisis Bayesiano y se emplean estrategias de comparación de modelos
que permiten determinar las variables más influyentes en la incidencia
de la enfermedad. La validación de los modelos seleccionados se lleva a
cabo utilizando la inferencia predictiva a posteriori.
El código empleado en WinBUGS, se ejecutó utilizando dos cadenas
con distintos valores iniciales para τν y τc , y 80.000 simulaciones para
cada una. Se incluyen 5 variables explicativas, entre socioeconómicas y
climáticas (Xi ); donde X1 representa el porcentaje de viviendas corre-
pondientes a hogares pobres, X2 es el porcentaje de pobreza y haci-
namiento crı́tico, X3 es la variable de anomalı́as de precipitación, las
cuales son calculadas como el cociente entre la precipitación mensual ob-
servada y el promedio a largo plazo estimado para el perı́odo 1980-2000
en cada municipio; X4 representa el ı́ndice de disposición de cloacas y
desechos sólidos y finalmente, X5 es un ı́ndice de conexiones viales dentro
de los municipios. α1 , . . . , α5 son los coeficientes de regresión para cada
variable explicativa, y νi es la variable que captura la heterogeneidad
espacial del modelo Bayesiano. A este modelo se le incorpora también el
efecto CAR (autoregresivo condicional), denotado por bi .
model {
# Likelihood
for (i in 1 : N) {
Y[i] ~ dpois(mu[i])
log(mu[i]) <- log(E[i] )+ alpha1*X1[i]+alpha2*X2[i]
+alpha3*X3[i]+alpha4*X4[i]+alpha5*X5[i]+b[i]+v[i]
134 Bravo-Llatas-Pérez

RR[i] <- exp(alpha1* X1[i]+alpha2 * X2[i]+alpha3*X3[i]


+alpha4*X4[i]+alpha5*X5[i]+b[i]+v[i])
v[i]~dnorm(0,tau.v) }
# CAR prior distribution for random effects:
b[1:N] ~ car.normal(adj[], weights[], num[], tau)
for(k in 1:sumNumNeigh) {
weights[k] <- 1 }
# Priors:
alpha1~ dnorm(0.0, 1.0E-5)
alpha2~ dnorm(0.0, 1.0E-5)
alpha3~ dnorm(0.0, 1.0E-5)
alpha4~ dnorm(0.0, 1.0E-5)
alpha5~ dnorm(0.0, 1.0E-5)
tau.v ~ dgamma(0.5,0.0005)
tau ~ dgamma(0.5,0.0005)
# prior on precision
sigma <- sqrt(1 / tau)
# standard deviation }
#DATOS
list(N = 15,
Y = c(80,543,654,269,41,329,2034,1,212,571,190,5,659,2664,115),
E=c(259.6391915,212.7144051,485.5219001,317.4622738,1243.89647,
185.0564503,222.0203074,306.3155194,143.1460093, 272.4235136,
183.0236076,574.0973755,580.8848115,3032.447976,348.3501898),
X1=c(1.71,-1.91,-0.472,-2.08,1.38,-0.89,-0.43,3.27,1.79, 2.35,
-3.81,-2.87,-0.82,1.15,1.61),
X2=c(0.23,0.23,1.0,0.3,1.6,-0.53,-0.45,-1.55,-2.7,0.18,
-1.18,-0.21,0.64,1.8,0.66),
X3=c(0.950143033,0.989025467,1.082096142,1.074199142,
1.016269108,1.089703808,1.044908575,1.041431925,
0.957762575,1.08398935,0.982545775,1.018346617,0.995152917,
0.950706425,0.971404408),
X4=c(-0.63432185,2.27973092,-0.03224411,2.27973092,-2.48246813,
-0.15036865,1.67765318,-1.14676903,-0.63432185,-1.26489357,
1.66928364,0.48857261,1.07557544,-2.96808549,-0.15707402),
X5=c(0.57422920,-0.47359070,0.06485833,-0.47359070,-0.54321893,
-1.00243748,0.03578017,1.56583657,0.57422920,0.49854075,
-0.47004866,-0.42092021,0.54515103,-1.45365201,0.97883345),
num =c(3,3,6,5,3,3,3,1,3,3,3,4,4,2,2),
adj = c( 13,2,4, 1,4,5,5,4,9,7,10,15,1,2,5,3,9,2,4,3,
14,12,11,9,3,10,13,4,3,7,15,3,7,6,12,13,14,6,11,13,8,
11,12,1,6,12,3,10),
sumNumNeigh = 48)
#Valores iniciales
list(alpha1=1,alpha2=1,alpha3=1,alpha4=1,alpha5=1,
tau=1,tau.v=1, b=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
Casos 135

v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))
list(alpha1=50,alpha2=50,alpha3=50,alpha4=50,alpha5=50,
tau=50,tau.v=50,
b=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
v=c(1,0,0,0,0,0,0,0,1,1,1,1,0,0,1))

Discusión de resultados:
En la tabla 5.6 se presenta la salida de WinBUGS para los estadı́sticos
que resumen los valores de la distribución posterior de los coeficientes
de regresión del modelo, y las precisiones del componente CAR y del
efecto espacial aleatorio a partir de la iteración número 78.000.

Cuadro 5.6: Salida de WinBUGS con los estadı́sticos de las cadenas de


Markov simuladas para el modelo de regresión Poisson lognormal. Se
usaron 4000 datos a partir de la iteración 78.000

node mean sd MC error 2.5 % median 97.5 %


alpha1 1.256 0.6434 0.06406 -0.2687 1.338 2.299
alpha2 0.004294 0.475 0.04101 -0.8246 -0.007 1.088
alpha3 -0.6285 0.4604 0.03601 -1.505 -0.6279 0.2853
alpha4 1.704 0.6855 0.06979 0.09168 1.766 2.889
alpha5 -2.547 1.167 0.1139 -4.349 -2.701 0.6172
tau 1013.0 1439.0 31.4 1.415 458.2 5049.0
tau.v 0.329 0.1516 0.006994 0.1099 0.3033 0.6868

Los resultados muestran un efecto positivo significativo de la variable


X4 sobre la variable de respuesta (Riesgo Relativo). Por el contrario, el
efecto es negativo para la variable X5 . Hay una diferencia importante
entre las precisiones del efecto CAR y el efecto espacial aleatorio, siendo
esta última mucho menor que la primera.

5.5. Análisis Bayesiano de una ensayo clı́nico


multicentro
Descripción del problema:
(Este ejemplo es tomado de [Gou98], publicado originalmente en [SBIWM])
136 Bravo-Llatas-Pérez

Se denomina ensayo clı́nico a un experimento que se realiza sobre


seres humanos con el fin de probar la eficacia de un nuevo medicamento
o de una nueva técnica de prevención y/o tratamiento. Claramente, los
ensayos clı́nicos involucran una gran cantidad de retos desde el punto de
vista ético, y existen estrictas regulaciones internacionales para proteger
los intereses de los individuos participantes (en particular, todos los su-
jetos que participan en un ensayo clı́nico deben ser voluntarios,y deben
haber sido ampliamente informados del objetivo del estudio, ası́ como de
las posibles ventajas y los riesgos que conlleva la participación en el mis-
mo). Demostrar la eficacia de un medicamento mediante ensayos clı́nicos
controlados es indispensable para la aprobación de dicho medicamento
por parte de las agencias reguladoras.
Desde el punto de vista estadı́stico, los ensayos clı́nicos presentan di-
ficultades tanto en el diseño (el cual debe tener buenas propiedades es-
tadı́sticas y respetar todas las restricciones éticas) como en la obtención
de datos (el reclutamiento puede ser muy largo y costoso) y su análisis
(alta variabilidad de las respuestas para diferentes individuos).
Para poder hacer estudios que involucren un número suficiente de
sujetos, es muchas veces necesario involucrar varios centros hospitalarios;
en este caso, se habla de una prueba clı́nica multicentro. Las pruebas
clı́nicas multicentro, si bien permiten el reclutamiento de un número alto
de pacientes, introducen nuevos problemas al nivel del análisis, ya que
los centros no son iguales. Es decir, es necesario incluir en los modelos
términos que representen el efecto de cada centro, ası́ como posibles
interacciones entre el centro y el tratamiento (o los tratamientos) en
estudio.
El estudio descrito por Gould, y publicado originalmente en [SBIWM],
fue diseñado para evaluar la eficacia y tolerabilidad de la droga finas-
teride en el tratamiento de hiperplasia benigna de la próstata (es decir,
agrandamiento de la próstata sin presencia de cáncer), e involucró 25
centros en los Estados Unidos y 5 en Canadá. Se reclutaron aproximada-
mente 900 pacientes, los cuales presentaban sı́ntomas de obstrucción uri-
naria, agrandamiento de la próstata detectable en un tacto rectal y un
flujo urinario máximo no mayor de 15 ml/seg. Al momento del ingreso al
estudio, cada paciente fue aleatorizado a uno de tres grupos experimen-
tales: 1 mg. diario de finasteride, 5 mg. diarios de finasteride o un placebo
(sustancia que carece de efecto, pero que permite la evaluación de los
Casos 137

grupos experimentales en condiciones sicológicas y de cuidados generales


equivalentes). La variable de respuesta se calculó como un score total de
sı́ntomas, obtenido sumando las respuestas a 9 preguntas sobre sı́ntomas
asociados a diferentes problemas en la función urinaria. Cada sı́ntoma se
evaluó en una escala del 0 (ausencia de sı́ntoma) al 4 (sı́ntoma severo), de
manera que el score puede tomar valores entre 0 y 36. Consideraciones
asociadas al teorema del lı́mite central sugieren que es adecuado suponer
que los scores siguen una distribución aproximadamente normal.
El cuadro 5.7 muestra el resumen de los datos correspondientes al
cambio con respecto a los valores iniciales del score total de sı́ntomas
para cada centro Ci incluido en el análisis (un centro con sólo 3 pacientes
fue eliminado del análisis por razones de estabilidad numérica).

Modelo:
El objetivo del estudio es comprobar si el medicamento funciona mejor
que el placebo, ası́ que el análisis se enfocará en las diferencias entre
los scores de los pacientes del grupo experimental (finasteride 1mg. o
finasteride 5mg) y el grupo control (placebo). No se dispone de los datos
crudos, ası́ que será necesario usar los estadı́sticos suficientes.
Sean Xf ij la respuesta del individuo j del grupo experimental y Xpik .
Como se mencionó anteriormente, se supondrá que los scores siguen
distribuciones normales, de la siguiente manera

2
X̄f i ∼ N (µf i , σW i)
2
X̄pi ∼ N (µpi , σW i)

donde µf i y µpi son las medias de los scores para el grupo tratamiento y
el grupo control respectivamente, y σW 2 es la varianza dentro del centro
i
i, la cual se supone igual para todos los tratamientos.
La diferencia entre estos promedios, di = X̄f i − X̄pi , es un estimador
del valor de la diferencia para el centro i, δi = µf i − µpi . Su distribución
será
 
2 2 1 1
di |σW i ∼ N (δi , σW i + ).
nf i nf i
La información que los datos dan sobre σW 2
i está contenida en las
2
desviaciones estándar. Un estimador para σW i será
138 Bravo-Llatas-Pérez

Cuadro 5.7: Resumen de los resultados del ensayo clı́nico multicentro


para finasterida. Las respuestas son cambios del score total de sı́ntomas
con respecto al inicio del estudio
Ci Placebo Finasteride 1 mg Finasteride 5 mg
N Media Desv. St. N Media Desv. St. N Media Desv. St.
1 7 0.43 4.58 7 -5.43 5.53 8 -2.63 3.38
2 11 0.10 4.21 11 -2.59 3.95 12 -2.21 4.14
3 6 2.58 4.80 6 -3.94 4.25 7 1.29 7.39
4 10 -2.30 3.86 10 -1.23 5.17 10 -1.40 2.27
5 10 2.08 6.46 10 -6.70 7.45 10 -5.13 3.91
6 6 1.13 3.24 5 3.40 8.17 5 -1.59 3.19
7 5 1.20 7.85 6 -3.67 4.89 5 -1.40 2.61
8 12 -1.21 2.66 13 0.18 3.81 12 -4.08 6.32
9 8 1.13 5.28 8 -2.19 5.17 9 -1.96 5.84
10 9 -0.11 3.62 10 -2.00 5.35 10 0.60 3.53
11 15 -4.37 6.12 14 -2.68 5.34 15 -2.14 4.27
12 8 -1.06 5.27 9 0.44 4.39 9 -2.03 5.76
13 12 -0.08 3.32 12 -4.60 6.16 11 -6.22 5.33
14 9 0.00 5.20 9 -0.25 8.23 7 -3.29 5.12
15 6 1.83 5.85 7 -1.23 4.33 6 -1.00 2.61
16 14 -4.21 7.53 14 -2.10 5.78 12 -5.75 5.63
17 13 0.76 3.82 13 0.55 2.53 13 -0.63 5.41
18 15 -1.05 4.54 13 2.54 4.16 14 -2.80 2.89
19 15 2.07 4.88 15 -1.67 4.95 15 -3.43 4.71
20 11 -1.46 5.48 10 -1.99 5.63 10 -6.77 5.19
21 5 0.80 4.21 5 -3.35 4.73 5 -0.23 4.14
22 11 -2.92 5.42 10 -1.22 5.95 11 -4.45 6.65
23 9 -3.37 4.73 9 -1.38 4.17 7 0.57 2.70
24 12 -1.92 2.91 12 -0.66 3.55 12 -2.39 2.27
25 9 -3.89 4.76 9 -3.22 5.54 8 -1.23 4.91
26 15 -3.48 5.98 15 -2.13 3.25 14 -3.71 5.30
27 11 -1.91 6.49 12 -1.33 4.40 11 -1.52 4.68
28 10 -2.66 3.80 10 -1.29 3.18 10 -4.70 3.43
29 13 -0.77 4.73 13 -2.31 3.88 13 -0.47 4.95
Casos 139

mf i s2f i + mpi s2pi


s2i =
mi
donde mf i = nf i − 1, mpi = npi − 1 y mi = mf i + mpi . Se sabe además
mi s2i
que 2
σW
∼ χ2mi o, equivalentemente,
i

mi mi
s2i ∼ Gamma( , 2 ).
2 2σW i
Las ecuaciones anteriores describen los resultados para cada centro.
Para las variaciones entre los centros, se empleará un modelo jerárquico
para δi y τi = 1/σW 2 . La opción más sencilla es plantear un modelo
i
en el cual los δ y los τ son independientes, lo cual lleva a la siguiente
estructura

δi |Ψ ∼ N (∆, Ψ)
ω ωζ
ωζτi ∼ χ2ω (equivalentemente, τi ∼ Gamma( , )).
2 2
Finalmente, se asignan previas vagas para ∆, Ψ, ω y ζ de la siguiente
manera

∆ ∼ N (0, 10−5 )
r
1
σB = ∼ U (0, 100)
Ψ
ω ∼ Unif. Discreta(0, 1000)
r
1
sζ = ∼ U (0, 100)
ζ

Implementación en WinBUGS:
El siguiente programa generaliza el modelo descrito en la sección an-
terior, pues incorpora las diferencias del score de sı́ntomas para las dos
dosis (1mg y 5mg diarios de finasteride), y supone que las varianzas son
iguales para los tres grupos. Se dan valores iniciales para tres cadenas
simultáneas; nótese que no se dan valores iniciales para todos los nodos;
el resto se generan aleatoriamente. Se generan además predicciones para
140 Bravo-Llatas-Pérez

la varianza dentro de un grupo arbitrario, ası́ como predicciones para las


diferencias entre los scores de sı́ntomas para ambas dosis de finasteride
vs el placebo.

model
{
#Previas para las diferencias entre grupos
Delta1~dnorm(0.0, 1.0E-5)
Delta5~dnorm(0.0, 1.0E-5)
sigma.B ~ dunif(0,100)
#Previa para la variabilidad entre grupos
Psi<-1/pow(sigma.B,2)
# Previas para la variabilidad dentro de los grupos
for ( j in 1: nomega) {omcat[j]<-1/nomega}
om~dcat(omcat[])
szeta ~dunif(0,100)
zeta<-1/pow(szeta,2)
omega2<-5*om
omz<-omega2*zeta;
for (i in 1: ncenters)
{
# Previa jerarquica para las desviaciones estandard
# entre grupos
tau.w[i]~dgamma(omega2,omz)
beta.w[i]<-0.5*tau.w[i]
# Verosimilitud para las desviaciones estandard entre grupos
m.f1[i]<-n.f1[i]-1
ss.f1[i]<-m.f1[i]*pow(s.f1[i],2)
m.f5[i]<-n.f5[i]-1
ss.f5[i]<-m.f1[i]*pow(s.f5[i],2)
m.pbo[i]<-n.pbo[i]-1
ss.pbo[i]<-m.pbo[i]*pow(s.pbo[i],2)
mt[i]<-m.f1[i]+m.f5[i]+m.pbo[i]
alpha.w[i]<-0.5*mt[i]
ss.diff[i]<-ss.f1[i]+ss.f5[i]+ss.pbo[i]
ss.diff[i] ~ dgamma(alpha.w[i],beta.w[i])
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 1mg
ntilde.f1[i]<-1.0/ (1.0/n.f1[i]+1.0/n.pbo[i])
tau.d.f1[i]<-ntilde.f1[i]*tau.w[i]
delta.f1[i]~dnorm(Delta1,Psi)
# Previa jerarquica para las diferencias entre el placebo y el
# tratamiento Finasteride 5mg
ntilde.f5[i]<-1.0/ (1.0/n.f5[i]+1.0/n.pbo[i])
tau.d.f5[i]<-ntilde.f5[i]*tau.w[i]
delta.f5[i]~dnorm(Delta5,Psi)
Casos 141

# Verosimilitud para las diferencias entre los promedios


d.f1[i]<-mean.f1[i]-mean.pbo[i]
d.f1[i]~ dnorm(delta.f1[i], tau.d.f1[i])
d.f5[i]<-mean.f5[i]-mean.pbo[i]
d.f5[i]~ dnorm(delta.f5[i], tau.d.f5[i])
}
# Predicciones para la varianza dentro de los grupos y las
# diferencias entre tratamiento y placebo.
tau.study.W~dgamma(omega2,omz)
sigma.W<-sqrt(1/tau.study.W)
omega<-2*omega2
delta.pred.f1~dnorm (Delta1, Psi)
delta.pred.f5~dnorm(Delta5,Psi)
}

#Datos
list(n.pbo=c(7,11,6,10,10,6,5,12,8,9,15,8,12,9,6,14,13,15,15,11,5,
11,9,12,9,15,11,10,13),
mean.pbo=c(0.43,0.1,2.58,-2.30,2.08,1.13,1.20,-1.21,1.13,-0.11,
-4.37,-1.06,-0.08,0.00,1.83,-4.21,0.76,-1.05,2.07,-1.46,
0.8,-2.92,-3.37,-1.92,-3.89,-3.48,-1.91,-2.66,-0.77),
s.pbo=c(4.58,4.21,4.80,3.86,6.46,3.24,7.85,2.66,5.28,3.62,6.12,
5.27,3.32,5.20,5.85,7.53,3.82,4.54,4.88,5.48,4.21,5.42,4.73,2.91,
4.76,5.98,6.49,3.80,4.73), n.f1=c(7,11,6,10,10,5,6,13,8,10,14,9,12,
9,7,14,13,13,15,10,5,10,9,12,9,15,12,10,13),
mean.f1=c(-5.43,-2.59,-3.94,-1.23,-6.70,3.40,-3.67,0.18,-2.19,
-2.00,-2.68,0.44,-4.60,-0.25,-1.23,-2.10,0.55,2.54,-1.67,-1.99,
-3.35,-1.22,-1.38,-0.66,-3.22,-2.13,-1.33,-1.29,-2.31),
s.f1=c(5.53,3.95,4.25,5.17,7.45,8.17,4.89,3.81,5.17,5.35,5.34,4.39,
6.16,8.23,4.33,5.78,2.53,4.16,4.95,5.63,4.73,5.95,4.17,3.55,5.54,
3.25,4.40,3.18,3.88),
n.f5=c(8,12,7,10,10,5,5,12,9,10,15,9,11,7,6,12,13,14,15,10,5,11,7,
12,8,14,11,10,13),
mean.f5=c(-2.63,-2.21,1.29,-1.40,-5.13,-1.59,-1.40,-4.08,-1.96,
0.60,-2.14,-2.03,-6.22,-3.29,-1.00,-5.75,-0.63,-2.80,-3.43,-6.77,
-0.23,-4.45,0.57,-2.39,-1.23,-3.71,-1.52,-4.70,-0.47),
s.f5=c(3.38,4.14,7.39,2.27,3.91,3.19,2.61,6.32,5.84,3.53,4.27,5.76,
5.33,5.12,2.61,5.63,5.41,2.89,4.71,5.19,4.14,6.65,2.70,2.27,4.91,
5.30,4.68,3.43,4.95), ncenters=29,nomega=1000)

# Valores iniciales
list(Delta1=0,Delta5=0,,sigma.B=1,szeta=1,om=1)
list(Delta1=1,Delta5=1,sigma.B=5, szeta=5, om=10)
list(Delta1=-1,Delta5=-1,sigma.B=10, szeta=10, om=10)

Se corrieron 2000 iteraciones del muestreador de Gibbs y se analizaron


142 Bravo-Llatas-Pérez

las correlaciones. Estas eran bastante altas, ası́ que se decidió tomar una
de cada 50 iteraciones. De esta manera, se generaron 5000 simulaciones
adicionales para cada cadena.

Discusión de resultados:
La tabla 5.8 presenta un resumen de varios estadı́sticos descriptivos cal-
culados a partir de la muestra simulada usando el muestreador de Gibbs.
Los valores ∆1 y ∆5 parecen indicar que existe una mejorı́a en los pa-
cientes tratados con finasteride, y que esta mejorı́a es más marcada en
los pacientes que tomas la dosis de 5mg. De hecho, el intervalo de credi-
bilidad del 95 % para ∆1 contiene al cero y valores positivos , mientras
el de ∆5 no contiene al cero (esto no es una prueba de hipótesis; sin em-
bargo, nos indica si la posterior para un parámetro descarta o no valores
positivos).

Cuadro 5.8: Resultados de WinBUGS para las simulaciones de canti-


dades posteriores obtenidas mediante muestreador de Gibbs, ejemplo
multicentro
Nodo media des.st 2.5 % 25.0 % mediana 75.0 % 97.5 %
Delta1 -0.755 0.537 -1.825 -1.113 -0.747 -0.394 0.288
Delta5 -1.628 0.536 -2.678 -1.985 -1.628 -1.273 -0.568
delta.pred.f1 -0.753 1.909 -4.582 -1.950 -0.748 0.413 3.092
delta.pred.f5 -1.618 1.912 -5.432 -2.810 -1.623 -0.433 2.212
sigma.B 1.754 0.479 0.751 1.459 1.766 2.064 2.663
sigma.W 4.92 0.317 4.247 4.794 4.917 5.039 5.631

Las variabilidades dentro de los grupos son bastante homogéneas, lo


cual se refleja en un intervalo corto para σW , el valor predicho para
la varianza dentro del grupo. Sin embargo, este valor es mayor que el
tamaño del efecto para cualquiera de las dosis, de modo que aún ex-
istiendo un efecto real, éste puede ser ocultado por la alta variabilidad
en alguno de los centros.
Esta última observación se refuerza al observar las diferencias predichas
entre scores de sı́ntomas para tratamiento y placebo en un centro arbi-
trario. Es claro que las predictivas no descartan la posibilidad de valores
positivos, especialmente para la dosis de 1mg diario de finasteride.
Bibliografı́a

[BCG04] S. Banerjee, B.P. Carlin and A.E. Gelfand, Hierarchical Mod-


eling and Analysis for Spatial Data, Chapman and Hall/CRC,
Boca Raton (2004).

[Ber] J. Berger, “The Case for Objective Bayesian Analysis”,


Bayesian Analysis Vol 1, No. 3, 385-402, (2006).

[BergBern] J.O. Berger y J. M. Bernardo. “On the development of refer-


ence priors”, Bayesian statistics 4. Proceedings of the Fourth
Valencia International Meeting, 3549 (1992).

[BP01] J. Berger y L.R. Pericchi. “Objective Bayesian Methods


for Model Selection: Introduction and Comparison (con dis-
cusión)”, Institute of Mathematical Statistics Lecture Notes -
Monograph Series (Lahiri, P., ed.), vol. 38, 135-207. (2001).

[BT] M. Berman y T.R. Turner. “Approximate Point Process Like-


lihood with GLIM”, Applied Statistics 41, pp-31–38 (1992).

[Bern] J.M. Bernardo, “Reference posterior distributions for


Bayesian inference”, Journal of the Royal Statistical Society,
Series B, Methodological 41, 113128 (1979).

[C1] P. Congdon, Applied Bayesian Modelling, Wiley (2003).

[C2] P. Congdon, Bayesian Models for Categorical Data, Wiley


(2006).

[DGS02] M.H. DeGroot y M.J. Schervish, Probability and Statistics,


3er Edition, Allison Wesley (2002).

143
144 Bibliografı́a

[Dev] L. Devroye. Non-Uniform Random Variates, Springer-Verlag,


New York (1986).

[DEL] P.W. Diaconis, M.L. Eaton, y B.J. Weeks. “Finite de Finetti


theorems in linear models and multivariate analysis”, Scan-
dinavian Journal of Statistics, vol. 19, 289–315(1992).

[DY] P. Diaconis and D. Ylvisaker, “Conjugate Priors for Exponen-


tial Families”, The Annals of Statistics, Vol. 7, No. 2, 269-281
(1979).

[Fl01] W.T. Flueck, “Offspring sex ratio of introduced red deer in


Patagonia, Argentina, after an intensive drought”, Journal of
Neotropical Mammalogy, 8, 139-147 (2001).

[GCSR] A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin, Bayesian
Data Analysis, Chapman & Hall (2001).

[GG] S. Geman and D. Geman, “Stochastic relaxation, Gibbs dis-


tributions, and the Bayesian restration of images”, IEEE
Transactions on Pattern Analysis and Machine Intelligence
6, 721-741, (1984).

[GC] Gilardoni, G.L., Colosimo, E.A. “Optimal maintenance time


for repairable systems”, Journal of Quality Technology,
39(1):48–53 (2007).

[Gou98] A.L. Gould, “Multi-center trial analysis revisited”, Statist.


Med. 17, 1779-1797 (1998)

[Gr] U. Grenander, Tutorial in Pattern Theory, Division of Ap-


plied Mathematics, Brown University, (1983).

[Jef] H. Jeffreys, Theory of Probability, Oxford University Press,


London (1961).

[KR95] R. Kass y A. Raftery, “Bayes Factors”, Journal of the Amer-


ican Statistical Association,41, pp. 773 -795 (1995).

[Kn] D. Knuth, The Art of Computer Programming, Volume 2:


Seminumerical Algorithms, Third Edition, Addison-Wesley,
Reding, Massachusetts (1997).
Bibliografı́a 145

[WB] Lunn, D.J., Thomas, A., Best, N., and , D. ‘WinBUGS – a


Bayesian modelling framework: concepts, structure, and ex-
tensibility”, Statistics and Computing, 10:325–337 (2000).

[McC07] M. McCarthy Bayesian Methods for Ecology, Cambridge Uni-


versity Press (2007).

[MU] N. Metropolis, S. Ulam. “The Monte Carlo Method”, Journal


of the American Statistical Association 44, 335-341, (1949).

[LRP] L.R. Pericchi, Teorı́a estadı́stica de decisión y análisis


bayesiano, II EVM, Ediciones del IVIC, (1989).

[RAM] P.E. Rossi, G.M. Allenby and R. McCulloch, Bayesian Statis-


tics and Marketing, Wiley (2005).

[RO] P.E. Rossi, Z. Gilula y G.M. Allenby. “Overcoming scale us-


age heterogeneity: A Bayesian hierarchical approach”, Jour-
nal of the American Statistical Association, 96, 20–31. (2001).

[SBCV] D. Spiegelhalter, N.G. Best, B.P. Carlin y A. van der Linde


“Bayesian measures of model complexity and fit (con dis-
cusión)”, J. Roy. Statist. Soc. B. 64, 583-640 (2002).

[SBIWM] G. J. Gormley, E. Stoner, R. C. Bruskewitz, J. Imperato-


McGinley, P. C. Walsh, J. D. McConnell,G. L. Andriole, J.
Geller, B. R. Bracker, J. S. Tenover, E. D. Vaughan, F. Pap-
pas, A. Taylor, B. Binkowitz y J. Ng, “The effect of finas-
teride in men with benign prostatic hyperplasia”, New Eng-
land Journal of Medicine, 327, 1185-1191 (1992).

[Z1] A. Zellner, “On assesing prior distributions and Bayesian re-


gression analysis with g-prior distribution”, En P. Goel and
A. Zeller (eds), Bayesian Inference and Decision Techniques:
Essays in Honour of Bruno de Finetti. Amsterdam (1986).
Consejo Directivo
Instituto Venezolano de Investigaciones Cientı́ficas

Director
Ángel L. Viloria
Subdirector
Rubén Machado
Representantes del Ministerio del Poder Popular
para la Ciencia y Tecnologı́a
Raúl Padrón
Oscar Noya
Representante del Ministerio del Poder Popular
para la Educación Superior
Prudencio Chacón
Representantes Laborales
Jesús Acosta
Luis Burguillos
Gerencia General
Lira Parra
Comisión Editorial
Coordinador
Ángel L. Viloria
Hebe Vessuri
Eloy Sira
Rafael Gasson
Horacio Biord
Érica Wagner
Lucı́a Antillano
Marı́a Teresa Curcio
Katherine Farı́as
Pamela Navarro

Potrebbero piacerti anche