Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
) e implementacin() de un
mMdulo bioinformtico para el anlisis estadstico de
asociacin genotipo fenotipo para estudios de
asociacin aplicados al cncer cervical
Memoria del trabajo de investigacin correspondiente al Mster en Gentica presentada por Emilio
Centeno Ortiz
El presente trabajo ha sido realizado en el Grupo de Gentica, Bioinformtica y Evolucin del
Departamento de Gentica y Microbiologa de la Universidad Autnoma de Barcelona, bajo la
direccin del profesor Antonio Barbadilla Prados
V B
El director del trabajo
Agradecimientos
A mi familia por el apoyo incondicional que recibo en todo lo que hago. En especial, a mi madre por
haber luchado por traerme hasta aqu y darme una buena educacin, y a mi hermano Antonio por estar
siempre a mi lado y ser una luz que siempre me muestra buenos caminos.
Tambin quiero dar las gracias a Antonio Barbadilla por todo su apoyo y por abrirme las puertas de la
bioinformtica. Y, por ltimo y no por ello menos importante, quiero agradecer a Snia Casillas su
apoyo y ayuda.
1 INTRODUCCIN..................................................................................................................................................................5
1.1 EL PROYECTO ASSIST......................................................................................................................................................5
1.2 ORGANIZACIN DEL SISTEMA ASSIST.............................................................................................................................7
2 OBJETIVOS...........................................................................................................................................................................9
3 MATERIALES Y MTODOS..............................................................................................................................................9
3.1 FACTORES DE ESTUDIO.....................................................................................................................................................9
3.2 ESTADSTICAS.................................................................................................................................................................10
3.2.1 Asociacin de variables cualitativas......................................................................................................................10
3.2.2. Riesgo relativo y odds ratio...................................................................................................................................11
3.2.3 Tamao del efecto...................................................................................................................................................12
3.2.4 Potencia estadstica...............................................................................................................................................13
3.3 TECNOLOGAS DE LA INFORMACIN...............................................................................................................................14
4 RESULTADOS.....................................................................................................................................................................14
4.1 RECOMENDACIN DEL TAMAO DE LA MUESTRA...........................................................................................................16
4.2 DESCRIPCIN ESTADSTICA DE LA MUESTRA..................................................................................................................16
4.2.1 Descripcin de datos fenotpicos...........................................................................................................................17
4.2.2 Descripcin de datos genticos..............................................................................................................................17
4.2.3 Representacin grfica de cantidades y frecuencias.............................................................................................19
4.3 TESTS DE ASOCIACIN CASO-CONTROL..........................................................................................................................20
4.3.1 Estudios de asociacin para datos fenotpicos......................................................................................................21
4.3.2 Estudios de asociacin para datos genticos.........................................................................................................21
4.4 TESTS DE HIPTESIS MULTIVARIABLE.............................................................................................................................23
4.5 ONTOLOGA ESTADSTICA...............................................................................................................................................24
5. DISCUSIN.........................................................................................................................................................................35
5.1 ARCHIVOS MDICOS........................................................................................................................................................35
5.2 GENTICA, ESTADSTICA Y SISTEMAS DE INFORMACIN................................................................................................36
6 CONCLUSIONES................................................................................................................................................................37
BIBLIOGRAFA.....................................................................................................................................................................38
Documentos de ASSIST...................................................................................................................................................38
APNDICE A: DELIVERABLE 6.3.....................................................................................................................................39
APNDICE B: R IN ASSIST.................................................................................................................................................40
1 INTRODUCCIN
En esta memoria se l presente trabajo pretende explicar la solucin adoptada en
para realizar estudios de asociacin dentro del proyecto ASSIST , un proyecto de
mbito europeodel VI programa marco de la Comunidad Europea para llevar a
cabo estudios de asociacin entre caractersticas individuales, tanto genticas
como fenotpicas, y una enfermedad, en este caso el cncer cervical. Los datos
para efectuar los anlisis se han recogido destinado a recoger datos de distintos
hospitales y realizar estudios de asociacin para encontrar vnculos entre
caractersticas individuales, tanto genticas como fenotpicas, con una
enfermedad. En este caso, el cncer cervical.
Adicionalmente se adjuntan dos documentos que he redactado personalmente
escritos por m para el proyecto ASSIST. El primero de ellos es un entregable
dirigido al comit de seguimiento del proyecto. El segundo es un pequeo
documento de carcter tcnico dirigido al grupo encargado de realizar la
integracin e instalacin del sistema.
2 OBJETIVOS
Dentro del objetivo principal de desarrollar e implementar un mdulo de anlisis
de asociacin dentro del sistema ASSIST, Eel presente trabajo tiene los siguientes
objetivos especficos:
1. . Creacin de una ontologa estadstica para resolver la comunicacin entre el
mdulo estadstico y el resto del sistema.
2. I mplementar un mdulo estadstico que permita realizar:
a) Una estimacin del tamao necesario de la muestra para obtener una
potencia estadstica deseada.
b) Una descripcin estadstica de los datos, tanto genticos como
fenotpicos, incluidos en un estudio de asociacin.
c) EstudiosTest de asociacin paraentre variables tanto genticas comoy
fenotpicas.
d) Validacin de hiptesis.
3. Crear pruebas unitarias para cada una de las funcionalidades.
3 MATERIALES Y MTODOS
3.1 Factores de estudio
Se entiende por factor de estudio a cualquiera de las variables que pueden
participar en un estudio de asociacin. En ASSIST todos los factores de estudio
son genticos o fenotpicos. En este caso, por fenotpico se incluye todo lo no
gentico, es decir, variables realmente fenotpicas as como informacin sobre
hbitos y tambin de estilo de vida y variables ambientales. Los datos genticos
con los que se cuenta son los genotipos de cada individuo para los loci
estudiados. y nada ms, es decir, niNo se dispone de la genealoga, ni de
filogenia, la fase haplotpica.
o cualquier otra caracterstica utilizable para analizar los datos.
Los factores de estudio genticos disponibles son:
- SNP (Single Nucleotide Polymorphism): Todos los polimorfismos estudiados
en ASSIST son no-sinnimos. De hecho, cada dato almacenado en los
archivos mdicos acerca de un SNP se corresponde al aminocido
correspondiente al cambio nucleotdico. Buscando en la literatura se han
encontrado las referencias en la base de datos dbSNP (NCBI), de manera
que se puedan comparar los datos provenientes de los archivos mdicos
con lunos datos de referencia.
GSTM1
GSTT1
Adems de los datos genticos, los diferentes hospitales cuentan con otros
datos no genticos a los cuales se les ha puesto la etiqueta de fenotpicos.
3.2 Estadsticas
3.2.1 Asociacin de variables cualitativas
Los tests utilizados son el chi-cuadrado y el G, tambin llamado loglinear. La
diferencia entre ambos se encuentra en el modo de estimar llegar al el estadstico
de la prueba.
En el test chi-cuadrado es:
En el test G:
Casos
a
c
a+c
Controles
b
d
B+d
Total
a+b
c+d
N
y Rclient).
En un principio se utiliz aba RDF, pero la complejidad que generaba en el cdigo
era enorme y el beneficio nulo, de manera que se sustituy por XML para
transmitir la informacin en el formato definido por la ontologa estadstica (XSD).
Esta informacin contenida en un documento XML se transforma de manera
automtica, mediante JAXB, en objetos Java para as poder trabajar con ellos de
una manera rpida, limpia e intuitiva.
R es un lenguaje y entorno de cdigo abierto para el clculo estadstico y
generacin de grficos. Ofrece una amplia variedad de clculos estadsticos y
tcnicas grficas. Una utilidad importante es Rserve. Rserve es un servidor TCP/IP
que permite a otros programas usar la potencia de R sin la necesidad de
inicializar el entorno R o enlazar una librera de R. Para que los programas puedan
comunicarse con Rserve utilizan una librera (Rclient) que contiene las funciones
necesarias ejecutar cdigo R desde otros programas. Esta librera cliente se
encuentra disponible para varios lenguajes de programacin, entre ellos Java.
4 RESULTADOS
As como una gran parte del proyecto ASSIST tiene que ver con la unificacin de
conceptos y recuperacin de datos, el mdulo estadstico provee al sistema con
las funciones necesarias para analizar esos datos recuperados, realizar estudios
de asociacin y validar hiptesis de asociacin (esta ltima funcin est en
construccin).
La comunicacin con el resto del sistema se realiza a travs de XML, y consiste en
todos los casos en la recepcin de una peticin y el envo de una respuesta. Las
preguntas y respuestas posibles, as como sus correspondientes formatos, vienen
definidos por una ontologa estadstica orientada que regula la comunicacin del
mdulo estadstico con el exterior, sea el exterior como sea..
La mayor parte de clculos estadsticos se obtienen mediante peticiones a Rserver, una aplicacin servidor del entorno estadstico R que es capaz de
comunicarse mediante TCP/IP con un programa Java a travs de una librera
cliente.
Figura 2. Diseo funcional del mdulo estadstico. Se observan los paquetes que
conforman el mdulo estadstico, as como los elementos externos con los que
interactan.
El uso del mdulo estadstico durante una sesin de ASSIST podra seguir estos
pasos:
1. Recomendacin del tamao de la muestra en base a la potencia estadstica
deseada para una variable.
2. Descripcin de la muestra para cada una de sus variables genticas y/o
fenotpicas (cantidad y frecuencia), as como sus respectivas grficas.
Tambin se describe las variables genticas en funcin de todos los posibles
valores de todas las variables fenotpicas seleccionadas para el estudio.
3. En el caso de las variables de tipo SNP comprobar que la distribucin de los
valores de la muestra cumplen el equilibrio de Hardy-Weinberg.
4. Realizar estudios de asociacin caso-control tanto para las variables
genticas como para las fenotpicas. De nuevo, se realizan los estudios de
asociacin para las variables genticas en funcin de todos los posibles
valores de todas las variables fenotpicas seleccionadas para el estudio.
Debido a que los criterios de cada mdico o investigador pueden ser diferentes,
en ASSIST es el propio usuario quien decide las categoras que quiere crear.
Tanto para las variables cuantitativas como cualitativas, el mdulo estadstico
genera las cantidades y frecuencias para las categoras de dicha variable. En el
caso de las cuantitativas el mdulo estadstico debe clasificar previamente los
valores en las categoras correspondientes y, tras obtener las cantidades y
frecuencias de cada categora, calcula la media aritmtica y la desviacin tpica.
muchos otros datos, las frecuencias genotpicas y allicas para dicho SNP en
varias poblaciones, as como las frecuencias medias ponderadas de todas las
poblaciones incluidas en el documento. De este documento tambin se extraen
algunos datos descriptivos del SNP:
-
Alelos observados
Cromosoma
Posicin
Gen en el que se encuentra (identificador y smbolo)
Los datos de cromosoma, posicin y gen dependen del ensamblaje que se utilice.
En ASSIST se usan los datos del ensamblaje de referencia y se descartan los
datos de otros ensamblajes (Celera, HuRef, etc.). Los distintos ensamblajes
normalmente coinciden en el cromosoma y el gen, pero difieren en la posicin
dentro del cromosoma.
Para cada muestra y cada SNP se realiza un test de Chi-cuadrado y un test G
entre las frecuencias genotpicas observadas y las esperadas segn la Ley del
equilibrio de Hardy-Weinberg. Como en todo test de Chi-cuadrado, tambin se
calcula la potencia estadstica asociada a dicho test.
Dependiendo del tipo de factor de estudio gentico los tests realizados variarn
ya que en el caso de los SNPs se tiene el genotipo y para los Indel se tiene si el
gen est presente o no.
Tanto los SNPs, En el caso de un el polimorfismo electrofortico, de tipo Indel se
analizan del mismo modo, hace exactamente lo mismo que para los datos no
genticos, es decires decir, se efecta , un test chi-cuadrado, un test G, el clculo
de la potencia estadstica del test chi-cuadrado, el clculo del OR con su intervalo
de confianza y el RR.
En los SNPs hayHay 2 informaciones genticas distintas que deben ser
analizadas: alelos y genotipos. Para los alelos, al igual que para los datos no
genticos, se realiza un test chi-cuadrado, un test G, se calcula el RR y el OR.
Para los genotipos, se contemplan 3 modelos de accin gnicaescenarios, basados
en una relacin especfica entre los efectos y los diferentes alelos de un
polimorfismo. Si las 2 copias no son idnticas (heterocigotoalelo distinto), su
efecto combinado podra ser diferente al efecto de tener 2 copias idnticas de uno
de los alelos. Si el efecto combinado es el mismo que el efecto de tener 2 copias
de uno de los alelos, entonces se dice que el efecto del alelo es dominante sobre
el otro.
Alleles
Control
Subjects
Case
subjects
48 (41.7%)
53 (44.1%)
1.00
XX.XX
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
Model
Codominant
Dominant
Recessive
Control
Genotypes Subjects
Case
subjects
X^2
P-value
1.75
Power
Log Linear
56%
1.72
0.70
C/C
48 (41.7%)
53 (44.1%)
1.00
XX.XX
C/T
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
T/T
14 (12.2%)
13 (10.8%)
0.88 (0.09-8.23)
XX.XX
C/C
48 (41.7%)
53 (41.7%)
1.00
XX.XX
C/T-T/T
67 (58.3%)
67 (55.8%)
0.87 (0.22-3.45)
XX.XX
C/C-C/T
101 (87.8%)
107 (89.1%)
1.00
XX.XX
T/T
14 (12.2%)
13 (10.8%)
0.90 (0.11-7.80)
XX.XX
X^2
P-value
P-value
0.72
P-value
1.75
0.70
56%
1.72
0.72
1.50
0.80
61%
1.45
0.85
2.2
0.45
61%
2.1
0.47
TIPOS
Los tipos definen el significado de los conceptos que se utilizan durante la
comunicacin con el mdulo estadstico. A continuacin se presentan en secciones
para facilitar situar el concepto en un contexto e intentar hacer ms fcil su
comprensin.
DESCRIPCIN
El tipo range_type define una categora. El nombre de la categora viene dado por
study_factor_value y, en caso de ser una categora perteneciente a una variable
cuantitativa, el rango de valores que clasifica.
ASOCIACIN
En test de asociacin se incluyen los parmetros de entrada (grados de libertad y
el estadstico) y la probabilidad. Tambin puede haber un anlisis de la potencia
estadstica si el test de asociacin utiliza el estadstico chi-cuadrado.
GRFICOS
El tipo graphic_value_type es utlizado para las representaciones grficas, y
contiene el valor real (xy_value) para una categora (x) que podra estar siendo
representada para varias muestras (y).
SERVICIOS
Los servicios definen las preguntas que el mdulo estadstico sabe responder y
cmo va a ser la respuesta.
Estudio de asociacin:
Peticin
Se espera la respuesta dada anteriormente en la descripcin de datos, excepto
los histogramas y la informacin del NCBI.
Respuesta
La respuesta consiste en un conjunto de tablas de asociacin, tanto para
fenotipos como para polimorfismos.
5. Discusin
5.1 Archivos mdicos
En la actualidad los esfuerzos para llevar acabo estudios de asociacin obliga a
organizar los datos de una manera uniforme y siguiendo un vocabulario estndar.
En ASSIST se ha conseguido mediante la implementacin de una ontologa ncleo
(core ontology), mediante la cual se expresan los datos provenientes de varios
hospitales. La transformacin de los datos brutos provenientes de los hospitales
en datos entendibles por el sistema tiene un coste y, segn el tipo de estudios
que se quieran llevar a cabo, la estimacin de ese coste resulta imprescindible
para el xito o fracaso del sistema.
En ASSIST se ha optadoopt inicialmente por utilizar tcnicas de inferencia
semntica para traducir los datos brutos a datos expresados en trminos de la
ontologa ncleo.
Esta solucin est demostrando ser ineficiente para recuperar grandes volmenes
de datos. Actualmente el sistema de recuperacin de datos puede tardar horas en
recuperar los datos de unos cuantos cientos de pacientes para los cuales se
quieran realizar estudios de asociacin utilizando 6 factores de estudio genticos.
Sin realizar un modelo de la complejidad es difcil expresar como crece el tiempo
de bsqueda de los datos en funcin del volumen de datos deseados y el nmero
de factores de estudio, sin embargo, es fcil notar empricamente que el
crecimiento no es de orden lineal, sino mucho mayor, lo cual invalida en gran
medida la aproximacin adoptada.
Tal vez sea por una desacertada implementacin de las reglas semnticas de
inferencia o, como es muy posible, la estimacin de la complejidad y coste de
esta solucin ha sido incorrecta, y por tanto la solucin inviable.
A favor de la utilizacin de reglas de inferencia semnticas hay que decir que:
1. Permite recuperar en todo momento los datos disponibles para hacer un
estudio de asociacin, porque no se realiza una traduccin masiva cada cierto
tiempo, sino que se traducen bajo demanda todos aquellos datos almacenados en
las bases de datos de los hospitales.
2. Tecnolgicamente innovadora, pues son pioneros en la utilizacin de estas
tcnicas aplicadas a las ciencias de la vida.
Otro punto interesante es el intercambio de informacin con otros orgenes de
datos, como podran ser hospitales u otros proyectos similares. ASSIST
actualmente no contempla intercambiar datos y, teniendo en cuenta el gran
crecimiento que experimentan tanto las bases de datos pblicas de polimorfismos
como los proyectos de asociacin a gran escala, de esta manera se limita en gran
medida la capacidad de realizar estudios de asociacin con suficiente potencia
estadstica para ser interesantes. Este problema queda reforzado por el hecho de
disponer de pocos datos genticos relativos al cncer cervical en los hospitales.
Esto en gran parte es debido a
Esta incomunicacin podra resolverse utilizando realizando una traduccin a un
formato estndar, como podra ser PML (Polymorphism Markup Language). Esta
traduccin no debera ser excesivamente complicada, pues es un estndar creado
por un comit de expertos y los datos que se manejan son del mismo tipo. S, sin
embargo este planteamiento solo hubiera sido vlido al inicio del proyecto,
cuando se ha de realizar la planificacin de tareas.
6 Consideraciones Conclusiones
1. Se ha implementado un mdulo estadstico que permite realizar:
a) Estimacin de la cantidad de datos necesaria en un estudio de asociacin.
b) Descripcin estadstica de datos genticos y estadsticos.
c) Estudios de asociacin caso-control entre factores genticos y fenotpicos.
d) Validacin de hiptesis respecto a la enfermedad que involucren a ms de una variable
(en construccin)
2. La inferencia de datos a travs de los mecanismos proporcionados por la ontologa del
ncleo proporciona una gran cantidad de datos expresados en un vocabulario comn
(ontologa), sin embargo esa inferencia tiene un alto precio en cuanto a recursos utilizados y
tiempo de recuperacin de los datos.
3. El sistema ha sido probado por los usuarios con xito, teniendo en cuenta que an no est
finalizado y falta trabajo por hacer, especialmente en la interfaz de usuario y en la
recuperacin de datos.
4. Se baraja la posibilidad de incluir a nuevos hospitales en el proyecto, intentando de esta
manera incrementar el volumen de datos.
5. Los hospitales disponen de muy pocos datos genticos de sus pacientes. En parte se debe a
que los polimorfismos de inters varan segn la enfermedad sobre la que se quiera
investigar, de manera que un hospital difcilmente guardar informacin acerca de los
polimorfismos de inters para, en este caso, el cncer cervical.
6. Este tipo de proyectos requieren de varias disciplinas muy alejadas hasta ahora, como son la
gentica, la estadstica y las tecnologas de la informacin. Todos los flancos son
importantes, por lo que el control, o al menos el seguimiento, de un proyecto como este
debera estar en manos de un grupo de personas pertenecientes a estas disciplinas.
7. Al ser un proyecto europeo perteneciente a la categora de las tecnologas de la informacin
se ha puesto ms inters en investigar y solucionar temas de ingeniera informtica que en
los estudios de asociacin propiamente.
Bibliografa
Rosner B., Fundamentals of Biostatistics. Duxbury Press; 6th edition (Febrero de
2005)
The Wellcome Trust Case Control Consortium, Genome-wide association study of
14,000 cases of seven common diseases and 3,000 shared controls. Nature
Publishing Group (2007)
Venables W. N., Smith D. M. and the R Development Core Team An Introduction
to R (Julio de 2008, en lnea) http://cran.r-project.org/doc/manuals/R-intro.pdf
Sokal R. R., Rohlf F. J., Introduction to Biostatistics. W.H. Freeman & Company;
2nd edition (Marzo de 1987)
Gordon D., Finch S. J., Factors affecting statistical power in the detection of
genetic association. The Journal of Clinical Investigation, Volume 115, Number 6
(Junio de 2005)
Lloyd D. Fisher, Gerald Van Belle, Biostatistics, a Methodology for the Health
Sciences. Wiley-Interscience publication (1993)
Documentos de ASSIST
ASSIST D.4.2
Deliverable 6.3
User interface specification, version 3.0
R in ASSIST
APNDICE B: R IN ASSIST