Sei sulla pagina 1di 41

Análisis Bayesiano de Tablas de

Contingencia Bidimensionales

Ing. Juan Manuel Casanova González

Trabajo de Investigación
09 de Septiembre del 2009

CONGRESO NACIONAL DE ESTUDIANTES DE ESTADÍSTICA


Introducción (1/5)
Tablas de Contingencia

Analizan la relación o dependencia de dos o más variables


cualitativas o “discretizadas”.
Cuando describen la relación entre dos variables son
llamadas tablas de contingencia IxJ o bidimensionales.
Determinar si las variables están relacionadas de alguna
manera (pruebas de independencia y homogeneidad)
Técnicas que usualmente se aplican:
Prueba Chi – Cuadrado
Medidas de asociación (Coef. Contingencia, V de Cràmer)
Análisis de Correspondencias (Simple, Múltiple)
Modelos Log-lineales
CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 2 / 29
Introducción (2/5)
Estudio sobre Contaminación Ambiental
Con el fin de estudiar la relación entre el grado de contaminación
ambiental y la climatología se han recogido datos durante 200 días y
se han clasificado según el grado de contaminación (1=alta, 2=media,
3=baja) y según la nubosidad (1=intensa, 2=débil, 3=inexistente).

Grado de Nivel de Nubosidad


Total
Contaminación Intensa Débil Inexistente

Alta 28 16 12 56

Media 23 52 21 96

Baja 12 21 15 48

Total 63 89 48 200

Estructura probabilística de la tabla se ajusta a un modelo Producto


de Multinomiales. La hipótesis adecuada es la de homogeneidad.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 3 / 29


Introducción (3/5)
Estadística Bayesiana

Enfoque alternativo para el análisis estadístico convencional


de datos.
Se basa en el Teorema de Bayes:
P  B A
P  A B   P  A
P B 
P(A/B): Probabilidad del evento A dado el evento B o
probabilidad a posteriori
P(A): Probabilidad a priori del evento A
P(B/A)/P(B): Evidencia
P(B/A): Probabilidad del evento B dado el evento A
P(B): Probabilidad a priori del evento A

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 4 / 29


Introducción (4/5)
Teorema de Bayes Probabilidad de los datos, dado 
Verosimilitud
Probabilidad a priori de 
(Distribución a priori)

P( ) P(datos |  )
P( | datos) 
P(datos)
Probabilidad de , dado los datos
Probabilidad de los datos
(Distribución a Posteriori)
(Constante Normalizadora)

Manejo subjetivo del concepto de probabilidad.


Permite incorporar las evidencias aportadas por experiencias
previas dentro del proceso analítico y las contempla, por ende,
en las conclusiones.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 5 / 29


Introducción (5/5)
Estadística Bayesiana

Es un proceso comparativo. Compara la probabilidad del


suceso observado bajo la hipótesis nula y bajo diferentes
hipótesis alternativas.
Factor de Bayes: Probabilidad de los datos, dado H0

P D  d 0 H 0  P H 0 
B  Probabilidades a priori de

P D  d 0 H 1  P H 1 
ambas hipótesis

Probabilidad de los datos, dado H1


Los métodos Bayesianos han abierto nuevas expectativas en
el análisis de tablas de contingencia.
CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 6 / 29
Identificación del Problema (1/3)
Tablas de Contingencia: Análisis Clásico

Sea observa D = d0 medida usando el estadístico Chi-


cuadrado.
Se calcula la probabilidad de haber obtenido dicha
diferencia u otra mayor, suponiendo válida la hipótesis nula
H 0.
Esta probabilidad se emplea como base para la decisión
(valor de probabilidad o p-valor).
Es decir, lo que se calcula es:

p  P D  d 0 H 0 
CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 7 / 29
Identificación del Problema (2/3)
Tablas de Contingencia: Análisis Bayesiano

La probabilidad a posteriori de que sea válida H0


suponiendo que se observaron los datos que dan lugar a la
diferencia observada d0.
Es decir, lo que se calcula es:

P H 0 D  d 0 
La interpretación de los resultados es más sencilla. Expresa
el grado de creencia.
Más adecuado a la realidad.
CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 8 / 29
Identificación del Problema (3/3)
Entonces….

¿ P D  d 0 H 0  ó PH 0 D  d 0  ?

Por lo general el p-valor puede llegar a ser sustantivame


nte menor que la probabilidad PH 0 D  d 0  …..Paradoja de
Lindley!

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 9 / 29


Objetivos (1/1)
Presentar la metodología del modelamiento
Bayesiano aplicado a las tablas de contingencia IxJ

Generales
Ilustrar la metodología Bayesiana aplicada a tablas
de contingencia IxJ con datos experimentales y
comparar sus resultados con el análisis Clásico.

Objetivos Específicos
Estimar las probabilidades posteriores en las celdas y sus intervalos de
densidad posterior más grande.
Determinar la probabilidad de que exista asociación entre dos variables
categóricas usando el concepto del factor de Bayes.
Aplicar modelos log-lineales Bayesianos a las tablas de contingencia IxJ,
para determinar si las variables están relacionadas de alguna manera.
Desarrollar algoritmos con el programa Winbugs como herramienta para
hacer las estimaciones de los parámetros y las regiones de credibilidad en
los modelos presentados.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 10 / 29


Metodología (1/10)
Una tabla de contingencia tiene la siguiente
estructura:
Fila Columna Total
1 2
1  11  12  1.

2  21  22  2.

Total  .1  .2 1.0

Modelo multinomial
Modelo producto de multinomiales

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 11 / 29


Metodología (2/10)
Modelo 1: Multinomial- Modelo 2: Producto de
Dirichlet Multinomiales - Dirichlet
Una tabla de contingencia Los totales marginales son
tiene muestreo multinomial fijos.
cuando el total de Se tienen I subpoblaciones,
observaciones n es fijo. es de interés conocer el
Hipótesis planteada es la de comportamiento de la
independencia. variable columna en cada
Distribución posterior: una de ellas – Homogeneidad.
Distribución posterior de la
Dir  i  yi   M n,  i  Dir  i  primera fila:
Di  i1  yi1   M n1 ,  i1  Di  i1 
Distribución Verosimilitud Distribución a Priori
Posterior Distribución Verosimilitud Distribución
Posterior a Priori
CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 12 / 29
Metodología (3/10)
¿Qué distribución a priori se les puede asignar?
Dificultad de obtener información a priori sobre los valores de
los parámetros de las tablas.
Generalmente se recurre a distribuciones a priori no
informativas.
La manera más usual (pero no la única) es haciendo αi=1 para
los parámetros Dirichlet, así se obtiene una distribución
Uniforme (esta otorga igual densidad a todo vector π – La
información previa que se tiene es la misma para todos los
parámetros).
Es posible utilizar esta distribución a priori tanto en el caso de
muestreo multinomial como en el caso de muestreo producto
de multinomiales.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 13 / 29


Metodología (4/10)
Pruebas y Modelos Utilizados
Valoración Bayesiana de la prueba Chi-cuadrado
(Matthews, 1999).

Prueba Bayesiana de Independencia – Homogeneidad


(Albert 2007).

Modelos Log-Lineales Bayesianos

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 14 / 29


Metodología (5/10)
Valoración Bayesiana de la Prueba Chi-
Cuadrado (Matthews, 1999)
En condiciones bastante generales, se puede hallar una cota
inferior para el factor de Bayes, en función del valor observado Χ2:
 1   2

 exp 
2
  FB
 2 
Probabilidad mínima
Esto da lugar a la siguiente desigualdad: de que la hipótesis
de independencia (u
1
  homogeneidad) sea
cierta dado los datos.
Probabilidad a  
priori de H0
1  1  P H 0    P H D  d 
  1  2 

0 0

 P  H 0   2
exp 
 2  
  

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 15 / 29


Metodología (6/10)
Prueba Bayesiana de Independencia
(Homogeneidad)
La función ctable de la biblioteca LearnBayes del paquete
estadístico R, diseñada por Albert (2007), calcula esta prueba.
Reporta el factor de Bayes contra de la hipótesis de
independencia.
Luego:

PH 0 FB
P Asociación Datos  
Probabilidad de que

PH 0 FB  1  PH 0 


exista asociación
dado los datos.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 16 / 29


Metodología (7/10)
Análisis Bayesiano de los Modelos Log-lineales
En una tabla de contingencia IxJ, se tiene que yij ~ Poij 
Modelo de Independencia:

log  ij   0  1i    2 j 

Modelo Saturado o de asociación:

log  ij   0  1i    2 j   12ij 

Para asegurar la identificabilidad del modelo (número de


parámetros igual o menor al número de celdas en la tabla), se
igualan a cero todos los efectos donde participen las primeras
categorías de cada variable.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 17 / 29


Metodología (8/10)
Análisis Bayesiano de los Modelos Log-lineales
Congdon (2005) propone que los parámetros restantes sean
tomados como efectos fijos independientemente distribuidos, con
media cero y varianza muy grande:
1er Nivel
Precisión =1/1000

ui N(0,1000)

Una alternativa (Agresti y Hitchcock (2005)), es usar un modelo


2do Nivel
jerárquico Bayesiano:
1er Nivel
δ U(0,1)

ui N(δ, σ2)

1/σ2 Ga(0.1,0.1)

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 18 / 29


Metodología (9/10)
Medidas de selección del mejor modelo
Criterio más usado es el DIC (Deviance Information Criteria),
Spiegelhalter (2006).
Análogo del AIC (Akaike Information Criteria) del análisis clásico.
Es muy útil en la comparación de modelos (ej. Modelo de
Independencia con el Modelo Saturado).
Modelos con un menor valor del DIC ajustan mejor los datos.
Otros criterios:
BIC (Bayesian Information Criteria)
Factor de Bayes
A partir del BIC es posible aproximar el valor del factor de Bayes de un
modelo frente al otro.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 19 / 29


Metodología (10/10)
Cadenas de Markov vía Monte Carlo (MCMC)
Uno de los más grandes problemas con el uso de las
aproximaciones Bayesianas es la obtención de la distribución
posterior.
Los métodos MCMC (Smith & Roberts (1993)) simulan la gráfica de
una distribución compleja de interés, a través del muestreo de
largas y posiblemente múltiples cadenas de valores de un
determinado parámetro, también de interés.
Muestrear un punto θ* de una distribución llamada “de salto”, el
cual es comparado con el valor anterior de la cadena θt-1 a través
de una razón de verosimilitudes denotada por α, se acepta el
punto si con p=min(α,1), si no, se descarta y se muestrea otro.
WinBUGS 1.4.2
Programa para el análisis Bayesiano de modelos estadísticos
complejos utilizando técnicas MCMC (como el muestreo de Gibbs).

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 20 / 29


Resultados y Discusión (1/10)
Estudio sobre Contaminación Ambiental
Con el fin de estudiar la relación entre el grado de contaminación
ambiental y la climatología se han recogido datos durante 200 días y
se han clasificado según el grado de contaminación (1=alta, 2=media,
3=baja) y según la nubosidad (1=intensa, 2=débil, 3=inexistente).

Grado de Nivel de Nubosidad


Total
Contaminación Intensa Débil Inexistente

Alta 28 16 12 56

Media 23 52 21 96

Baja 12 21 15 48

Total 63 89 48 200

Estructura probabilística de la tabla se ajusta a un modelo


multinomial. La hipótesis adecuada es la de independencia.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 21 / 29


Resultados y Discusión (1/10)
Programa en Winbugs

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 22 / 29


Resultados y Discusión (1/10)
Modelo Multinomial - Dirichlet
Reporte obtenidos usando 30000 iteraciones (5000 descartadas).

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 23 / 29


Resultados y Discusión (2/10)
Modelo Multinomial - Dirichlet

Grado de Nivel de Nubosidad


Total
Contaminación Intensa Débil Inexistente
0.140 0.080 0.059
Alta 1.000
(0.140) (0.080) (0.060)

0.115 0.260 0.105


Media 1.000
(0.115) (0.260) (0.105)
0.060 0.105 0.075
Baja 1.000
(0.060) (0.105) (0.075)

En azul, resultados del análisis Bayesiano.


Los resultados son iguales a los obtenidos al análisis clásico.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 24 / 29


Resultados y Discusión (8/10)
Pruebas de Homogeneidad
Análisis Clásico: Chi-cuadrado
chisq.test(contami)
Pearson's Chi-squared test
data: contami
X-squared = 15.0626, df = 4, p-value = 0.004573

Valoración Bayesiana de la Prueba de Independencia

Probabilidad a priori de H0 0.5


Valor mínimo del FB 0. 0034
Valor mínimo de P(H0/Datos) 0.0034

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 25 / 29


Resultados y Discusión (8/10)
Pruebas de Homogeneidad
¿Qué pasa si cambia la probabilidad a priori P(Ho) de que sea
cierta la hipótesis planteada que habla de la homogeneidad entre
las respuestas de las poblaciones?
> tabla
PHo PMinimaHo
1 0.1 0.000
2 0.2 0.001
3 0.3 0.001
4 0.4 0.002
5 0.5 0.003
6 0.6 0.005
7 0.7 0.008
8 0.8 0.014
9 0.9 0.030

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 26 / 29


Resultados y Discusión (8/10)
Pruebas de Homogeneidad

Prueba Bayesiana de Independencia

FB en contra de la homogeneidad 12.56

Probabilidad a priori de H0 0.50

P Asociación Datos 0.93

La probabilidad de que exista asociación entre el grado de


contaminación y el nivel de nubosidad es de 0.93.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 27 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal
A través de los Modelos Log-lineales podemos investigar la
existencia de asociación entre ambas variables.
Para ellos se obtienen los resultados del modelo saturado y el de
independencia, y se evalúa cual se ajusta mejor a los datos.
Se comparan los resultados obtenidos del modelo clásico con el
modelo bayesiano.
Se utilizan medidas de adecuación del mejor modelo: AIC por el
lado clásico, y DIC por el lado bayesiano.
El modelo clásico y bayesiano pueden obtenerse de los paquetes
de R glm() y zelig().

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 28 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Clásico de Independencia

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 29 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Clásico Saturado

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 30 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Bayesiano de Independencia

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 31 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Bayesiano de Independencia

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 32 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Clásico Saturado

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 33 / 29


Resultados y Discusión (8/10)
Modelo Log-lineal Clásico Saturado

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 34 / 29


Resultados y Discusión (9/10)
Modelos Log-lineal de Independencia (30000 iteraciones – 5000
descartadas)

Estimado Media
Coeficiente Notación
(Clásico) (Bayesiano)

Intercepto 0 2.8702 2.8550

Media 1( 2 ) 0.5390 0.5434

Baja  1( 3 ) -0.1542 -0.1554

Débil  2( 2) 0.3455 0.3477

Inexistente  2 ( 3) -0.2719 -0-2740

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 35 / 29


Resultados y Discusión (9/10)
Modelos Log-lineal Saturado (30000 iteraciones – 5000 descartadas)
Si se hace e
1.1470
 3.149 , se puede decir
Coeficiente que
Notación
Estimado Media
(Clásico) (Bayesiano)
, comparado con el nivel de nubosidad
intenso, es 3 veces más probable que en
Intercepto  0 un 3.3322 3.3150
día de nivel de nubosidad débil se obtenga
una medición de grado de contaminación
Media 1( 2 ) -0.1967 -0.1996
baja contra que la medición sea un grado  1( 3 )
Baja -0.8473 -0.8729
de contaminación alto.
Débil  2( 2) -0.5596 -0.5703

Inexistente  2 ( 3) -0.8473 -0.8735

Media-Débil 12( 22) 1.3754 1.3960

Baja-Débil 12(32) 1.1192 1.1470

Media-Inexistente 12( 23) 0.7563 0.7772

Baja-Inexistente 12(33) 1.0704 1.1050

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 36 / 29


Resultados y Discusión (10/10)
Selección del mejor modelo
Análisis Clásico
AIC del modelo Saturado: 61.581
AIC del modelo de Independencia: 68.176
Análisis Bayesiano
DIC del modelo Saturado:

DIC del modelo de Independencia:

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 37 / 29


Conclusiones (1/2)
Las inferencias generadas a partir de la metodología
Bayesiana son más informativas y fáciles de interpretar
desde el punto de vista probabilístico que las realizadas a
partir de la metodología clásica.
El uso del WinBUGS en el presente estudio permitió realizar
inferencia Bayesiana de manera más sencilla y rápida,
además de demostrar la utilidad e importancia de los
métodos de simulación de Cadenas de Markov vía Monte
Carlo.
El análisis Bayesiano de la tabla Contaminación Ambiental
permite concluir que es muy probable que exista
asociación entre la nubosidad y el nivel de contaminación,
pues la probabilidad calculada es 0.93.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 38 / 29


Conclusiones (2/2)
Los valores de los parámetros log-lineales obtenidos en ambas
tablas de contingencia desde el punto de vista Bayesiano,
fueron muy similares a los obtenidos a través del punto de
vista clásico, esto por el uso de distribuciones a priori no
informativas.
La aplicación de criterios para la selección del mejor modelo,
como el DIC, permitió tomar una decisión respecto a si el
modelo saturado ajustaba mejor a los datos que el de
independencia.
La simulación MCMC puede ser peligrosa, y de haber algún
fallo en el modelo, WinBUGS podría obtener resultados
erróneos. Por ello se recomienda analizar cuidadosamente los
resultados, después de un número convincente de
simulaciones.

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 39 / 29


Bibliografía (1/1)
MATTHEWS, Robert. Significance Levels for the assessment of
anomalous phenomena. Journal of Scientific Exploration. USA,
1999. Vol. 13, Nº 1. Pág 1-7.
ALBERT, James H. Bayesian Computation with R. Ohio. Spring
er Ed. 2007. 280 p.
BERGER, J, SELLKE, T. Testing a point null hypothesis: the irre
concilability of P-values and evidence. Journal of American Sta
tistical Association. USA, 1987. Número 82, página 112.
CONGDON, Peter. Bayesian Models for Categorical Data. Londr
es, John Wiley & Sons Ltd. 2005. 425 p.
Winbugs 1.4
Epidat 3.1

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 40 / 29


Fin

Muchas Gracias!

CONEEST Análisis Bayesiano de Tablas de Contingencia Bidimensionales 41 / 29

Potrebbero piacerti anche