Cancer Cervical

Desarrolloiseo (creacin?
) e implementacin() de un
mMdulo bioinformtico para el anlisis estadstico de
asociacin genotipo fenotipo para estudios de
asociacin aplicados al cncer cervical
Emilio Centeno Ortiz

Septiembre 2008
Mdulo estadstico para estudios de asociacin aplicados al cncer cervical
Memoria del trabajo de investigacin correspondiente al Mster en Gentica presentada por Emilio
Centeno Ortiz
El presente trabajo ha sido realizado en el Grupo de Gentica, Bioinformtica y Evolucin del
Departamento de Gentica y Microbiologa de la Universidad Autnoma de Barcelona, bajo la
direccin del profesor Antonio Barbadilla Prados
V B
El director del trabajo
Antonio Barbadilla Prados

Profesor Titular de Gentica
UAB
Agradecimientos
A mi familia por el apoyo incondicional que recibo en todo lo que hago. En especial, a mi madre por
haber luchado por traerme hasta aqu y darme una buena educacin, y a mi hermano Antonio por estar
siempre a mi lado y ser una luz que siempre me muestra buenos caminos.
Tambin quiero dar las gracias a Antonio Barbadilla por todo su apoyo y por abrirme las puertas de la
bioinformtica. Y, por ltimo y no por ello menos importante, quiero agradecer a Snia Casillas su
apoyo y ayuda.
1 INTRODUCCIN..................................................................................................................................................................5
1.1 EL PROYECTO ASSIST......................................................................................................................................................5
1.2 ORGANIZACIN DEL SISTEMA ASSIST.............................................................................................................................7
2 OBJETIVOS...........................................................................................................................................................................9
3 MATERIALES Y MTODOS..............................................................................................................................................9
3.1 FACTORES DE ESTUDIO.....................................................................................................................................................9
3.2 ESTADSTICAS.................................................................................................................................................................10
3.2.1 Asociacin de variables cualitativas......................................................................................................................10
3.2.2. Riesgo relativo y odds ratio...................................................................................................................................11
3.2.3 Tamao del efecto...................................................................................................................................................12
3.2.4 Potencia estadstica...............................................................................................................................................13
3.3 TECNOLOGAS DE LA INFORMACIN...............................................................................................................................14
4 RESULTADOS.....................................................................................................................................................................14
4.1 RECOMENDACIN DEL TAMAO DE LA MUESTRA...........................................................................................................16
4.2 DESCRIPCIN ESTADSTICA DE LA MUESTRA..................................................................................................................16
4.2.1 Descripcin de datos fenotpicos...........................................................................................................................17
4.2.2 Descripcin de datos genticos..............................................................................................................................17
4.2.3 Representacin grfica de cantidades y frecuencias.............................................................................................19
4.3 TESTS DE ASOCIACIN CASO-CONTROL..........................................................................................................................20
4.3.1 Estudios de asociacin para datos fenotpicos......................................................................................................21
4.3.2 Estudios de asociacin para datos genticos.........................................................................................................21
4.4 TESTS DE HIPTESIS MULTIVARIABLE.............................................................................................................................23
4.5 ONTOLOGA ESTADSTICA...............................................................................................................................................24
5. DISCUSIN.........................................................................................................................................................................35
5.1 ARCHIVOS MDICOS........................................................................................................................................................35
5.2 GENTICA, ESTADSTICA Y SISTEMAS DE INFORMACIN................................................................................................36
6 CONCLUSIONES................................................................................................................................................................37
BIBLIOGRAFA.....................................................................................................................................................................38
Documentos de ASSIST...................................................................................................................................................38
APNDICE A: DELIVERABLE 6.3.....................................................................................................................................39
APNDICE B: R IN ASSIST.................................................................................................................................................40
1 INTRODUCCIN
En esta memoria se l presente trabajo pretende explicar la solucin adoptada en
para realizar estudios de asociacin dentro del proyecto ASSIST , un proyecto de
mbito europeodel VI programa marco de la Comunidad Europea para llevar a
cabo estudios de asociacin entre caractersticas individuales, tanto genticas
como fenotpicas, y una enfermedad, en este caso el cncer cervical. Los datos
para efectuar los anlisis se han recogido destinado a recoger datos de distintos
hospitales y realizar estudios de asociacin para encontrar vnculos entre
caractersticas individuales, tanto genticas como fenotpicas, con una
enfermedad. En este caso, el cncer cervical.
Adicionalmente se adjuntan dos documentos que he redactado personalmente
escritos por m para el proyecto ASSIST. El primero de ellos es un entregable
dirigido al comit de seguimiento del proyecto. El segundo es un pequeo
documento de carcter tcnico dirigido al grupo encargado de realizar la
integracin e instalacin del sistema.
1.1 El proyecto ASSIST

El cncer cervical es el segundo tipo de cncer ms comn en todo el mundo.
Slo en Europa, se registran 60000 nuevos casos y 30000 muertes cada ao.
Las ltimas tendencias en investigacin mdica combinan datos genticos y
clnicos con el objetivo de identificar nuevos marcadores de riesgo, mejorar los
diagnsticos y los pronsticos acerca de la enfermedad.
Pese a que el nmero de estudios que intentan establecer asociaciones fenotipo-
genotipo no para de aumentar, estos estudios se ven a menudo frenados por la

segmentacin de los estudios y los datos.
El principal objetivo de ASSIST es el desarrollo de nuevas tecnologas de
integracin de informacin clnica para facilitar la investigacin del cncer cervical
a travs de un sistema que virtualmente unifica mltiples repositorios de datos,
fsicamente ubicados en diferentes hospitales.
Para ello, ASSIST traduce los conceptos mdicos en valores entendibles para los
sistemas que lo integran mediante unas reglas de inferencia semntica las cuales
vienen definidas por una ontologa ncleo, y de esta manera se permite la
utilizacin homognea de los datos, permitiendo la evaluacin de hiptesis
mdicas y realizando estudios de asociacin.
La unificacin de las fuentes de datos participantes, las cuales contienen tanto
datos clnicos como datos genticos, en una sola fuente de conocimiento mdico
permite una mayor flexibilidad al permitir la formacin de grupos de estudio "bajo
demanda" y la reutilizacin de registros de pacientes en nuevos estudios.
Los investigadores de las clnicas ginecolgicas en estos hospitales, ya poseyendo
una cantidad de datos clnicos y genticos cuantificable, intentarn desvelar tapar
relaciones entre HPV, hbitos de pacientes y genotipos.
El proyecto ASSIST (ASsociation Studies assisted by Inference and Semantic
Technologies) se trata de un proyecto europeo perteneciente al sexto programa
marco.
Sixth Framework Programme - Priority 2.4.11
Integrated biomedical information for better health
IST-4 027510
Prueba del inters que suscitan los estudios de asociacin a gran escala, o GWAS
(Genome-wide Association Studies), y la unificacin de grandes bases de datos
genticas es que la Comisin Europea est promocionando la coordinacin de
programas que incluyan GWAS e integracin de datos a gran escala relativos a
salud humana y enfermedades. En el sptimo programa marco, la Comisin
Europea ha incrementado su presupuesto significativamente, pasando de los 2255
millones de euros del sexto programa marco (2002-2006) a los 6000 .
Este proyecto comprende 4 socios provenientes de la investigacin en tecnologas
de la informacin (IT), 4 desarrolladores de software y 3 hospitales de
investigacin. El proyecto se inici en enero de 2006 y est previsto finalizar en
enero de 2009.
La investigacin sobre la base gentica de las enfermedades es uno de los temas
ms punteros de la biomedicina, y las publicaciones acerca de asociaciones entre
genotipos y fenotipos se estn acumulando aceleradamente en la literatura. Los
estudios de asociacin GWAS (Genome-wide Association Studies) constituyen un
mtodo potente para identificar susceptibilidad gentica a una enfermedad.

Normalmente realizar un GWAS requiere recoger datos genticos de centenares o
miles de sujetos utilizando cientos de miles de SNPs localizados a lo largo del
genoma humano. En ASSIST, como se ver, el nmero de marcadores genticos
es inicialmente modesto, pero el objetivo final es que pueda generalizarse a
muchos marcadores. Los algoritmos utilizados comparan las frecuencias tanto
allicas como genotpicas de los SNPs, buscando regiones con diferencias
estadsticamente significativas entre casos y controles. Para realizar este tipo de
estudios se necesitan:
1. Bases de datos que contengan datos genticos, fenotpicos y, en caso de estar
disponible, asociaciones entre estos (los archivos mdicos en ASSIST).
2. Herramientas bioinformticas para analizar los datos (el mdulo estadstico en
ASSIST)
3. Vocabularios que describan la informacin de una manera estndard para as
poder interactuar con otras herramientas (la ontologa ncleo y la ontologa
estadstica en ASSIST).
Actualmente se avanza en todos estos frente simultneamente, y existen
proyectos que intentan cubrir estas necesidades, desde bases de datos genotipofenotipo como dbGAP (http://www.ncbi.nlm.nih.gov/sites/entrez?Db=gap) a
vocabularios estndar (ontologas) como PML (http://www.openpml.org)
1.2 Organizacin del sistema ASSIST

Como en la mayor parte de grandes proyectos en los que participan varios socios,
se ha divido el proyecto en 3 grandes piezas (subsistemas), y stos a su vez en
mdulos. Entendemos por subsistema un sistema autnomo que, eventualmente,
puede formar parte de un sistema mayor, pero no contiene a ningn otro
subsistema, sino que puede contener mdulos. Se entiende por mdulo un
conjunto de funciones agrupadas por un concepto. Es un paquete de
funcionalidades que responden a una misma temtica, una herramienta que
puede ser usada por un sistema o subsistema. Por ejemplo, se podra tener un
mdulo llamado Mates que contuviera todas las funciones matemticas que se
necesitarn en un sistema que lo contiene.
Las ventajas de organizar un proyecto de este tipo en una estructura modular en
vez de una secuencial son muchas, pero entre ellas se podran destacar:
Facilita el anlisis, diseo y desarrollo del proyecto. Actualmente no se

concibe iniciar un proyecto sin un anlisis modular del sistema.
La organizacin en mdulos permite dividir el proyecto en problemas

independientes (o con pocas dependencias) que pueden ser abordados
simultneamente por equipos distintos.
Un proyecto grande especificado como un gran bloque resulta complicado

de entender a cualquier persona externa al proyecto. Estructurar un
proyecto grande en bloques conceptuales facilita la descripcin del
problema.
La incorporacin de nuevas personas al proyecto requiere mucho menos

tiempo de aprendizaje, pues la nueva incorporacin slo debe adentrarse en
el mdulo que le ocupa, a la vez que tiene una visin global del sistema.
En ASSIST hay 3 grandes subsistemas:
Poner pie de figura, p.e. Figura 1. Tres sSubsistemas principales de sistema

informacional ASSIST: a) Los archivos mdicos. b) El ncleo . Y . Cc) La interfaz
de usuario.
Los archivos mdicos o base de datos local.
Los archivos mdicos que estn disponibles para ASSIST constituyen los
repositorios de datos orientados a la investigacin relacionados con el cncer
cervical al que ASSIST se le ha sido permitido pleno acceso completo. Para cada
hospital, los datos disponibles son extrados, anonimizados y guardados en una

base datos local.
El ncleo
Constituye el punto medio entre la interfaz del usuario y el sistema. A partir
Desde De de la informacin suministrada proveida por los archivos mdicos, el
ncleo infiere el conocimiento sobre los pacientes y ofrece servicios de
recuperacin y anlisis de datos, as como la posibilidad de definir, ejecutar y
gestionar estudios de asociacin. Es en el ncleo pues donde debe aparecer el
mdulo estadstico, cubriendo toda la funcionalidad requerida en el anlisis
estadstico de los datos y la definicin, ejecucin y gestin de estudios de
asociacin.
La interfaz de usuario
Este subsistema habilita la formulacin de preguntas al sistema y la visualizacin
de las repuestas de un modo humanamente entendilble.
2 OBJETIVOS
Dentro del objetivo principal de desarrollar e implementar un mdulo de anlisis
de asociacin dentro del sistema ASSIST, Eel presente trabajo tiene los siguientes
objetivos especficos:
1. . Creacin de una ontologa estadstica para resolver la comunicacin entre el
mdulo estadstico y el resto del sistema.
2. I mplementar un mdulo estadstico que permita realizar:
a) Una estimacin del tamao necesario de la muestra para obtener una
potencia estadstica deseada.
b) Una descripcin estadstica de los datos, tanto genticos como
fenotpicos, incluidos en un estudio de asociacin.
c) EstudiosTest de asociacin paraentre variables tanto genticas comoy
fenotpicas.
d) Validacin de hiptesis.
3. Crear pruebas unitarias para cada una de las funcionalidades.
4. Participar en el proceso de prueba test e integracin del mdulo estadstico en

el sistema ASSIST.
pretende explicar la solucin adoptada para realizar estudios de asociacin dentro
del proyecto ASSIST, un proyecto de mbito europeo destinado a recoger datos
de distintos hospitales y realizar estudios de asociacin para encontrar vnculos
entre caractersticas individuales, tanto genticas como fenotpicas, con una
enfermedad. En este caso, el cncer cervical.
Adicionalmente se adjuntan dos documentos escritos por m en el proyecto
ASSIST. El primero de ellos es un entregable dirigido al comit de seguimiento del
proyecto. El segundo es un pequeo documento de carcter tcnico dirigido al
grupo encargado de realizar la integracin e instalacin del sistema.
3 MATERIALES Y MTODOS
3.1 Factores de estudio
Se entiende por factor de estudio a cualquiera de las variables que pueden
participar en un estudio de asociacin. En ASSIST todos los factores de estudio
son genticos o fenotpicos. En este caso, por fenotpico se incluye todo lo no
gentico, es decir, variables realmente fenotpicas as como informacin sobre
hbitos y tambin de estilo de vida y variables ambientales. Los datos genticos
con los que se cuenta son los genotipos de cada individuo para los loci
estudiados. y nada ms, es decir, niNo se dispone de la genealoga, ni de
filogenia, la fase haplotpica.
o cualquier otra caracterstica utilizable para analizar los datos.
Los factores de estudio genticos disponibles son:
- SNP (Single Nucleotide Polymorphism): Todos los polimorfismos estudiados
en ASSIST son no-sinnimos. De hecho, cada dato almacenado en los
archivos mdicos acerca de un SNP se corresponde al aminocido
correspondiente al cambio nucleotdico. Buscando en la literatura se han
encontrado las referencias en la base de datos dbSNP (NCBI), de manera
que se puedan comparar los datos provenientes de los archivos mdicos
con lunos datos de referencia.
p53 codon72: Dentro del gen p53, la sustitucin en el codn 72 de

una C por una G lleva a una sustitucin de prolina por argininia.
MTHFR 677C->T La sustitucin de una C por una T en el codn 222
lleva a la sustitucin de Valina por Alanina en el codn 222.
CYP1A1/MspI: Una sustitucin de una T por una C en la base 6235

del flanco 3' del gen CYP1A1 crea un sitio de reconocimiento MspI.
CYP2E1/PstI: Un SNP G/C que altera un locus PstI situado en la
regin 5', a 1.3 kb hacia arriba del codn de inicio del gen CYP2E.
Indel Variantes electrofortica nulas(Insertion/Deletion): En estos

casos la presencia o ausencia de un gen producto proteico constituye el
polimorfismo. Genes GSTM1 y GSTT1. El nombre elegido para nombrar al
polimorfismo es el nombre del gen que provoca el polimorfismo.
GSTM1
GSTT1
Adems de los datos genticos, los diferentes hospitales cuentan con otros
datos no genticos a los cuales se les ha puesto la etiqueta de fenotpicos.
Para los estudios de asociacin todas las variables fenotpicas se consideran de

son de tipo cualitativo, inclusive las cuantitativas, los valores de las cuales son
traducidos a categoras definidas por el usuario. Estas categoras, como se ver
ms adelante, incluyen un nombre y un rango de valores entre los cuales se debe
encontrar todo valor asignado a dicha categora. Las categoras deben ser
mutuamente excluyentes y, en su conjunto, abarcar todos los valores que puede
tomar la variable.
3.2 Estadsticas
3.2.1 Asociacin de variables cualitativas
Los tests utilizados son el chi-cuadrado y el G, tambin llamado loglinear. La
diferencia entre ambos se encuentra en el modo de estimar llegar al el estadstico
de la prueba.
En el test chi-cuadrado es:
En el test G:
El mecanismo criterio de decisin consiste en ver que si la probabilidad de las

observaciones que la hiptesis nula (los valores no estn relacionados) se cumpla
es muy pequea segn la hiptesis nula (normalmente menor deldel 5%). Para
ello hay que calcular el estadstico y los grados de libertad, y despus utilizar
estos datos para buscar el valor P en una distribucin chi-cuadrado.
3.2.2. Riesgo relativo y odds ratio

Para expresar cuantificar el efecto que la exposicin a un factor de estudio tiene
sobre la enfermedad se utilizan los ndices el riesgo relativo y el odds ratio. Para
calcularlos se parte de una tabla de contingencia como esta:
Expuestos
No expuestos
Total
Casos
a
c
a+c
Controles
b
d
B+d
Total
a+b
c+d
N
El odds ratio (OR) es una forma de expresar la proporcin de veces que un

suceso ocurra frente a que no ocurra. Por tanto, un OR de 3 significa que la
probabilidad de que un efecto aparezca exposicin si el individuo est expuesto a
(o presenta) a un factor de riesgo es de 3 veces superior a la probabilidad de que
se de el efecto cuando no se est expuesto a dicho factor de riesgo.
Por tanto, el OR es una probabilidad relativa a otra. escrita de un modo diferente.

Si se prefiere utilizar el lenguaje de probabilidades clsico para decir que la
probabilidad de que aparezca la enfermedad en exposicin a un factor de riesgo
es del 70% basta con hacer una sencilla transformacin:
Para el OR se calcula su intervalo de confianza dado un nivel de confianza

predeterminado. En ASSIST se est utilizando de manera fija el 95%:
El riesgo relativo (RR) mide la fuerza de la asociacin entre la exposicin y la

enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los
expuestos a un factor de riesgo en relacin al grupo de los no expuestos. Su
clculo se estima dividiendo la incidencia de la enfermedad en los expuestos entre
la incidencia de la enfermedad en los no expuestos.
Leyendo las definiciones puede parecer que OR y RR estn se tiene la sensacin

de estar midiendo lo mismo de distinta forma. De hecho cuando la probabilidad
del suceso es baja (< 20 %) el valor del OR y el RR es muy parecido, pero no es
as cuando el suceso es bastante comn.
Una propiedad interesante del OR es que no vara aunque se cambie el orden de
las categoras en cualquiera de las variables, pero s que vara lo que no ocurre
con el riesgo relativo.
3.2.3 Tamao del efecto

El tamao del efecto es una medida de la fuerza de la relacin entre 2 variables.
En experimentos cientficos es en ocasiones no slo es til conocer no slo si el
experimento tiene estadsticamente un efecto significativo, sino tambin el
tamao de cualquiera de los efectos observados.
Aunque el OR expresa un tamao del efecto, est en una escala diferente a la d
de Cohen, y por tanto no se utiliza en los anlisis de la potencia.
Tanto el OR como el RR expresan un tamao del efecto, sin embargo ninguno de
ellos es apropiado para realizar anlisis de potencia estadstica de un test chicuadrado. El clculo del tamao del efecto es llevado a cabo por el servidor
estadstico R-server a partir de la tabla de contingencia.
3.2.4 Potencia estadstica

La potencia estadstica de un test es 1 menos la probabilidad de que el test
rechace una hiptesis nula que es cierta (, el falsamente, es decir, es la
probabilidad de no cometer un error de Tipo II (beta). Por tanto, cuanto mayor
sea la potencia, menor es la probabilidad de las posibilidades de que suceda un

error de Tipo II disminuyen. La probabilidad de un error Tipo II es referida como
la probabilidad de obtener un falso negativo, o, simplemente beta. Se suele
expresar la potencia estadstica como: potencia = 1- .beta
El anlisis de la potencia de un test estadstica estadstico puede hacerse antes o
despus de que los datos sean recolectados y recibir el nombre de a-priori o aposteriori respectivamente. En el caso de la recomendacin del tamao de la
muestra claramente se trata de un anlisis a-priori de la potencia estadstica, ya
que este anlisis se realiza antes de llevar a cabo el estudio de asociacin y su
objetivo es el de determinar un tamao apropiado de la muestra que permita
obtener una determinada potencia estadstica.
En un anlisis de la potencia a-priori se tiene:
Como entrada:
- El nivel de significacin (alfa)
- La potencia deseada (1- beta)
- El tamao del efecto que se quiere detectar.
Como salida:
- El tamao total de la muestra (N).
En un anlisis de la potencia a-posteriori se tiene:
Como entrada:
- El tamao total de la muestra (N).
- El nivel de significacin (alfa)
- La tabla de contingencia.
Como salida:
- El tamao del efecto
- La potencia del test (1-beta)
3.3 Tecnologas de la informacin

El lenguaje de programacin con el que se ha implementado el mdulo es Java, y
esto se debe en gran medida a la facilidad de conjugar Java con otras tecnologas,
Entre estas otras tecnologas se pueden destacar XML, XSD, JAXB y R (Rserve
y Rclient).
En un principio se utiliz aba RDF, pero la complejidad que generaba en el cdigo
era enorme y el beneficio nulo, de manera que se sustituy por XML para
transmitir la informacin en el formato definido por la ontologa estadstica (XSD).
Esta informacin contenida en un documento XML se transforma de manera
automtica, mediante JAXB, en objetos Java para as poder trabajar con ellos de
una manera rpida, limpia e intuitiva.
R es un lenguaje y entorno de cdigo abierto para el clculo estadstico y
generacin de grficos. Ofrece una amplia variedad de clculos estadsticos y
tcnicas grficas. Una utilidad importante es Rserve. Rserve es un servidor TCP/IP
que permite a otros programas usar la potencia de R sin la necesidad de
inicializar el entorno R o enlazar una librera de R. Para que los programas puedan
comunicarse con Rserve utilizan una librera (Rclient) que contiene las funciones
necesarias ejecutar cdigo R desde otros programas. Esta librera cliente se
encuentra disponible para varios lenguajes de programacin, entre ellos Java.
4 RESULTADOS
As como una gran parte del proyecto ASSIST tiene que ver con la unificacin de
conceptos y recuperacin de datos, el mdulo estadstico provee al sistema con
las funciones necesarias para analizar esos datos recuperados, realizar estudios
de asociacin y validar hiptesis de asociacin (esta ltima funcin est en
construccin).
La comunicacin con el resto del sistema se realiza a travs de XML, y consiste en
todos los casos en la recepcin de una peticin y el envo de una respuesta. Las
preguntas y respuestas posibles, as como sus correspondientes formatos, vienen
definidos por una ontologa estadstica orientada que regula la comunicacin del
mdulo estadstico con el exterior, sea el exterior como sea..
La mayor parte de clculos estadsticos se obtienen mediante peticiones a Rserver, una aplicacin servidor del entorno estadstico R que es capaz de
comunicarse mediante TCP/IP con un programa Java a travs de una librera
cliente.
Figura 2. Diseo funcional del mdulo estadstico. Se observan los paquetes que
conforman el mdulo estadstico, as como los elementos externos con los que
interactan.
El uso del mdulo estadstico durante una sesin de ASSIST podra seguir estos
pasos:
1. Recomendacin del tamao de la muestra en base a la potencia estadstica
deseada para una variable.
2. Descripcin de la muestra para cada una de sus variables genticas y/o
fenotpicas (cantidad y frecuencia), as como sus respectivas grficas.
Tambin se describe las variables genticas en funcin de todos los posibles
valores de todas las variables fenotpicas seleccionadas para el estudio.
3. En el caso de las variables de tipo SNP comprobar que la distribucin de los
valores de la muestra cumplen el equilibrio de Hardy-Weinberg.
4. Realizar estudios de asociacin caso-control tanto para las variables
genticas como para las fenotpicas. De nuevo, se realizan los estudios de
asociacin para las variables genticas en funcin de todos los posibles
valores de todas las variables fenotpicas seleccionadas para el estudio.
5. Realizar validacin de hiptesis que hablen del grado de relacin entre la

variable dependiente y una o varias variables, las cuales pueden ser tanto
genticas como fenotpicas. Esto ltimo no est implementado todava.
4.1 Recomendacin del tamao de la muestra

Antes de realizar un estudio de asociacin hay que recuperar los datos de los
archivos mdicos. Sin embargo, puede ser interesante recibir una recomendacin
del nmero de registros a recuperar teniendo en cuenta que el usuario desea que
sus estudios de asociacin gocen de una potencia estadstica mnima.
En ASSIST el clculo de la potencia se realiza utilizando el servidor estadstico Rserver. En concreto, se utiliza la librera pwr, la cual que es gratis libre y puede
ser descargada desde el mismo intrprete de R.
La funcin ejecutada en R es:
pwr.chisq.test (w, N, df, sig.level, power)
Donde:
w es el tamao del efecto
N es el nmero total de observaciones
df indica los grados de libertad
sig.level es el nivel de significacin
power es la potencia del test
Esta funcin acepta 5 parmetros diferentes, pero siempre uno de ellos debe
omitirse, indicndose as cual es la incgnita a calcular.
4.2 Descripcin estadstica de la muestra

Una vez recogidos los datos, se quiere realizar una descripcin estadstica de
stos, y para ello se realizan una serie de operaciones con el objetivo de obtener
las cantidades y frecuencias de cada una de las categoras de cada variable,
generar algunas grficas y validar los datos referentes a SNPs.
Tambin se quiere tener, en el caso de haber polimorfismos y fenotipos entre los
factores de estudio, todas las muestras resultantes de filtrar por cada una de las
categoras y, si se trata de ms de un fenotipo, todas las posibles combinaciones
de sus categoras. Como la cantidad de informacin que se puede generar en caso
de seleccionar varios fenotipos junto con algn polimorfismo es enorme, la

interfaz de usuario deber resolver cmo dejar elegir al usuario cuales son las
muestras quieren tenerse en cuenta y cuales no.
4.2.1 Descripcin de datos fenotpicos

Los valores fenotpicos pueden ser de tipo cuantitativo o cualitativo, sin embargo
en los estudios de asociacin que se realizan en ASSIST se requieren datos
cualitativos, es decir, categoras. La eleccin de estas categoras puede ser crtica
para realizar un buen estudio de asociacin. El investigador debe jugar con los
rangos de valores y muchas veces buscar un compromiso entre el nmero de
categoras, el significado que se tiene en mente para cada categora y los datos
de los que se dispone. Por ejemplo, en un factor de estudio como cigarrillos por
da podra tener sentido para un mdico definir 2 categoras: fumador y nofumador, mientras que posiblemente para otro mdico tenga sentido definir 3 o
ms categoras: no-fumador, ocasional, poco, mucho, Una vez definidas las
categoras hay que definir los rangos para cada una de ellas: no-fumador: 0,
ocasional: 1-5, poco: 6-15, mucho: 16-infinito. Tambin hay que inspeccionar
echar un vistazo a los datos, ya que es posible que en los datos disponibles hayan
categoras con 0 elementos, y que por tanto puedan estropear el estudio de
asociacin. En ese caso, tal vez habra que plantearse si las categoras pueden
ajustarse o si las categoras son correctas pero los datos son malos.
Debido a que los criterios de cada mdico o investigador pueden ser diferentes,
en ASSIST es el propio usuario quien decide las categoras que quiere crear.
Tanto para las variables cuantitativas como cualitativas, el mdulo estadstico
genera las cantidades y frecuencias para las categoras de dicha variable. En el
caso de las cuantitativas el mdulo estadstico debe clasificar previamente los
valores en las categoras correspondientes y, tras obtener las cantidades y
frecuencias de cada categora, calcula la media aritmtica y la desviacin tpica.
4.2.2 Descripcin de datos genticos
Tal y como se coment en el apartado referente a los factores de estudio

utilizados en ASSIST, se tienen 2 tipos de polimorfismos: Indel y SNP.
En el caso de los polimorfismos de tipo Indel el mdulo estadstico tan slo
genera las cantidades y frecuencias para los 2 posibles valores (Wt,null).
En el caso de los polimorfismos de tipo SNP se hacen bastantes ms cosas. Como
se ha comentado antes, el dato que se recibe es traducido a un genotipo. Por otro
lado, se dispone del identificador del SNP en dbSNP (rsId). Con estos 2
elementos, se realiza la siguiente descripcin de la muestra para cada SNP:
Se calculan las cantidades y las frecuencias para de los genotipos.

Se calculan las cantidades y las frecuencias para de los alelos
Se comparan los alelos y genotipos observados con los de dbSNP.
Se comparan las frecuencias genotpicas y allicas observadas con
las de dbSNP
Se obtienen algunos datos ms acerca del SNP de dbSNP
Se comprueba si la muestra se ajusta est enal equilibrio de HardyWeinberg
Figura 3. Especificacin de la interfaz de usuario relativa a la descripcin de

datos genticos
Para obtener los datos de dbSNP se guardan en disco los documentos XML
obtenidos de dbSNP utilizando la opcin FREQXML. Esta opcin devuelve, entre
muchos otros datos, las frecuencias genotpicas y allicas para dicho SNP en
varias poblaciones, as como las frecuencias medias ponderadas de todas las
poblaciones incluidas en el documento. De este documento tambin se extraen
algunos datos descriptivos del SNP:
-
Alelos observados
Cromosoma
Posicin
Gen en el que se encuentra (identificador y smbolo)
Los datos de cromosoma, posicin y gen dependen del ensamblaje que se utilice.
En ASSIST se usan los datos del ensamblaje de referencia y se descartan los
datos de otros ensamblajes (Celera, HuRef, etc.). Los distintos ensamblajes
normalmente coinciden en el cromosoma y el gen, pero difieren en la posicin
dentro del cromosoma.
Para cada muestra y cada SNP se realiza un test de Chi-cuadrado y un test G
entre las frecuencias genotpicas observadas y las esperadas segn la Ley del
equilibrio de Hardy-Weinberg. Como en todo test de Chi-cuadrado, tambin se
calcula la potencia estadstica asociada a dicho test.
4.2.3 Representacin grfica de cantidades y frecuencias

Una vez el mdulo estadstico recibe los datos, ste genera un conjunto de
grficas que pretenden mejorar la legibilidad y hacer ms agradable la interfaz de
usuario. En concreto, se genera un histograma para las cantidades que registran
las categoras de una variable en una muestra y una grfica de tipo tarta
(piechart) para las frecuencias de una variable en una muestra.
Figura 4. Representacin grfica de una variable en una muestra. a)

Representacin de las frecuencias mediante un piechart., b) Representacin de
las cantidadesfrecuencias mediante un histograma.
Tambin se genera un histograma en el que aparecen las cantidades de cada
categora de una variable para todas las muestras, permitiendo de esta manera
comparar visualmente las diferencias entre varias muestras, como por ejemplo
entre casos y controles.
Figura 5. Representacin grfica de una variable en varias dos muestras (casos

y controles)
4.3 Tests de asociacin caso-control

En ASSIST el diseo de los estudios de asociacin para una variable es de tipo
caso-control. Este tipo de estudios son idnticos a los usados en epidemiologa
clnica y consisten en determinar la frecuencia de una variante de DNA en
individuos afectados por una enfermedad (casos) y aquellos no afectados
(controles). En estos estudios es necesario conocer algo de la enfermedad de tal

manera que pueda utilizarse en las hiptesis como factor de riesgo una posible
variacin en uno o ms genes. En el caso de ASSIST, los polimorfismos
mencionados anteriormente han sido seleccionados por expertos en cncer
cervical.
Este tipo de estudio es econmica y estadsticamente eficiente pero
potencialmente susceptible de sesgo si los casos y los controles en realidad no
son comparables. Tambin es importante usar cuidadosamente muestras
extradas de una poblacin homognea y disponer de bastantes casos y controles.
Para saber si se dispone de bastantes sujetos se puede hacer un anlisis de la
potencia estadstica.
En estos test de asociacin para una sola variable se quiere determinar si la
frecuencia observada de un fenmeno es significativamente igual a la frecuencia
terica prevista, o s, por el contrario, estas dos frecuencias acusan una diferencia
significativa para, por ejemplo, un nivel de significacin del 5%. Los tests
estadsticos utilizados son el test chi cuadrado de Pearson y el test G. En ambos
tests el resultado es un valor P calculado a partir del respectivo estadstico y los
grados de libertad del test. Este valor es la probabilidad de que la hiptesis nula
sea correcta. Por tanto, si se tiene un valor P muy pequeo, tpicamente inferior a
0.05 (), la hiptesis nula es rechazada, lo cual indica una posible asociacin.
4.3.1 Estudios de asociacin para datos fenotpicos

Para cada factor de estudio no gentico se realiza un test chi-cuadrado y un test
G. Los grados de libertad dependern del nmero de categoras que tenga el
factor de estudio para el cual se quiere encontrar una asociacin. La hiptesis
nula es que las frecuencias de los casos sones similares a las de los controles. Por
defecto, se usa como alfa 0.05. Tambin se calcula el RR y el OR. La potencia
estadstica a posteriori es calculada para el test de chi-cuadrado.
4.3.2 Estudios de asociacin para datos genticos

Adems de realizar un estudio de asociacin para el conjunto del los datos
genticos, se pueden realizarn todos los estudios de asociacin posibles filtrando
por todas las categoras de todos los fenotipos escogidos para el estudio de
asociacin.
Dependiendo del tipo de factor de estudio gentico los tests realizados variarn
ya que en el caso de los SNPs se tiene el genotipo y para los Indel se tiene si el
gen est presente o no.
Tanto los SNPs, En el caso de un el polimorfismo electrofortico, de tipo Indel se
analizan del mismo modo, hace exactamente lo mismo que para los datos no
genticos, es decires decir, se efecta , un test chi-cuadrado, un test G, el clculo
de la potencia estadstica del test chi-cuadrado, el clculo del OR con su intervalo
de confianza y el RR.
En los SNPs hayHay 2 informaciones genticas distintas que deben ser
analizadas: alelos y genotipos. Para los alelos, al igual que para los datos no
genticos, se realiza un test chi-cuadrado, un test G, se calcula el RR y el OR.
Para los genotipos, se contemplan 3 modelos de accin gnicaescenarios, basados
en una relacin especfica entre los efectos y los diferentes alelos de un
polimorfismo. Si las 2 copias no son idnticas (heterocigotoalelo distinto), su
efecto combinado podra ser diferente al efecto de tener 2 copias idnticas de uno
de los alelos. Si el efecto combinado es el mismo que el efecto de tener 2 copias
de uno de los alelos, entonces se dice que el efecto del alelo es dominante sobre
el otro.
Figura 6. Especificacin de la interfaz de usuario relativa a un estudio de

asociacin entre un factor de estudio gentico (polimorfismo MTHFR C677T) y
lacncer cervical enfermedad. Los individuos seleccionados para el estudio son
solo aquellos tales que el factor de estudio Smoking Status sea positivo.
.
Codominancia: En codominancia ningn fenotipo es dominante sobre el

otro. Sin embargo, los individuos heterocigotos expresan ambos fenotipos.
Dominancia: Un alelo dominante que siempre que est presente se expresa

totalmente, independientemente de que el otro alelo pueda ser diferente.
Recesividad: Se da cuando un alelo slo se expresa cuando ambos alelos

son el mismo.
Las tablas anteriores han sido extradas del documento de especificacin de la

interfaz de usuario, sin embargo hay algunas incorrecciones y omisiones. Las
tablas contendran estos datos:
Alleles
Control
Subjects
Case
subjects
Odds Ratio (95%

CI)
Risk Ratio
48 (41.7%)
53 (44.1%)
1.00
XX.XX
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
Model
Codominant
Dominant
Recessive
Control
Genotypes Subjects
Case
subjects
X^2
P-value
1.75
Power
Log Linear
56%
1.72
0.70
Odds Ratio (95%

CI)
Risk Ratio
C/C
48 (41.7%)
53 (44.1%)
1.00
XX.XX
C/T
53 (46.1%)
54 (45.0%)
0.88 (0.21-3.75)
XX.XX
T/T
14 (12.2%)
13 (10.8%)
0.88 (0.09-8.23)
XX.XX
C/C
48 (41.7%)
53 (41.7%)
1.00
XX.XX
C/T-T/T
67 (58.3%)
67 (55.8%)
0.87 (0.22-3.45)
XX.XX
C/C-C/T
101 (87.8%)
107 (89.1%)
1.00
XX.XX
T/T
14 (12.2%)
13 (10.8%)
0.90 (0.11-7.80)
XX.XX
X^2
P-value
P-value
0.72
Power Log Linear
P-value
1.75
0.70
56%
1.72
0.72
1.50
0.80
61%
1.45
0.85
2.2
0.45
61%
2.1
0.47
Figura 7. Correccin de las tablas incluidas en la figura 6. Las siguientes tablas

incluyen la potencia estadstica para cada tabla de asociacin, a la vez que
aaden un p-value para cada estadstico (chi-cuadrado y G)
4.4 Tests de hiptesis multivariable

Para probar una hiptesis sobre la enfermedad en la que interviene ms de un
factor de estudio se utiliza la regresin logstica. La regresin logstica es una til
manera de describir la relacin entre uno o ms factores de estudio con una
enfermedad, la cual toma 2 posibles valores, enfermo o sano (caso o control).
La frmula general es:
, donde:
- Y es la variable dependiente binaria (caso=1 o control=0)

- xi son los factores de estudio (tambin binarios, valen 1 o 0)
- Betai son los coeficientes que significan como de importante el factor de
estudio es en la aparicin de la enfermedad.
- El logit es el logaritmo del odds para p, por tanto
log(OR) = logit(p) logit(q) , y el OR puede ser calculado
Una vez el modelo ha sido construido (la hiptesis definida), se puede probar con
nuevos conjuntos de datos para evaluar la hiptesis
En caso de que los factores de estudio tengan ms de 2 categoras habr que
redefinir el concepto, creando tantos nuevos factores de estudio como categoras
tena antes. Estos nuevos factores de estudio sern binarios.
4.5 Ontologa estadstica

La ontologa estadstica define los conceptos a travs de los cuales se realizan las
peticiones al mdulo estadstico. Se le llama ontologa estadstica porque es
utilizada en las interacciones con el mdulo estadstico pero no porque slo
contenga conceptos estadsticos, ya que contiene conceptos de gentica y alguna
otra definicin destinada a facilitar la representacin grfica de la informacin.
TIPOS
Los tipos definen el significado de los conceptos que se utilizan durante la
comunicacin con el mdulo estadstico. A continuacin se presentan en secciones
para facilitar situar el concepto en un contexto e intentar hacer ms fcil su
comprensin.
DESCRIPCIN
El tipo range_type define una categora. El nombre de la categora viene dado por
study_factor_value y, en caso de ser una categora perteneciente a una variable
cuantitativa, el rango de valores que clasifica.
El polymorphism_type contiene, adems del identificador en ASSIST, el tipo de

polimorfismo del que se trata y los datos obtenidos de dbSNP
El phenotype_type define un fenotipo. Por fenotipo se clasifica en este caso toda

variable no gentica. Se almacena el identificador en ASSIST, el tipo de fenotipo
(cuantitativo o cualitativo) y una descripcin.
En power_analysis_type aparecen todos los datos que intervienen en un anlisis

de la potencia estadstica: alpha (grado de significacin), df (grados de libertad),
effect_size (tamao del efecto), power (potencia estadstica), total_size (tamao
de la muestra).
El tipo hw_test_type contiene las frecuencias genotpicas observadas y esperadas,

y los tests chi-cuadrado y G (loglinear).
En study_factor_stats_type se almacenan la cantidad y la frecuencia para una

categora de un factor de estudio.
El tipo domain_filter_type contiene la categora de un fenotipo utilizada para

filtrar una muestra.
El tipo polymorrphism_stats_by_sample contiene la descripcin de un

polimorfismo para una muestra.
El tipo phenotype_stats_by_sample_type contiene la descripcin de una variable

no gentica para una muestra
En el tipo sample_type contiene, adems del identificador y el tamao, las

descripciones de un conjunto de variables para una muestra.
ASOCIACIN
En test de asociacin se incluyen los parmetros de entrada (grados de libertad y
el estadstico) y la probabilidad. Tambin puede haber un anlisis de la potencia
estadstica si el test de asociacin utiliza el estadstico chi-cuadrado.
El tipo simple_association_table_row_type ha sido diseado exclusivamente para

ser fcilmente representado desde una interfaz de usuario, pero no tiene un
significado completo autoexplicativo. Este tipo contiene todos los datos
correspondientes a una fila de una tabla que represente los resultados de un
estudio de asociacin.
Al igual que simple_association_table_row_type, el tipo

simple_association_table_type ha sido diseado exclusivamente para ser
fcilmente representado desde una interfaz de usuario. Este tipo contiene todos
los datos correspondientes a una tabla que represente los resultados de un
estudio de asociacin
GRFICOS
El tipo graphic_value_type es utlizado para las representaciones grficas, y
contiene el valor real (xy_value) para una categora (x) que podra estar siendo
representada para varias muestras (y).
En piechart_type se almacenan los datos que describen un grfico de tipo tarta

(piechart)
Histogram_type contiene los datos utilizados para caracterizar un histograma, as

como una referencia al grfico generado (url).
SERVICIOS
Los servicios definen las preguntas que el mdulo estadstico sabe responder y
cmo va a ser la respuesta.
Recomendacin del tamao de la muestra:

Peticin
Se espera el identificador del factor de estudio, el nmero de categoras de dicho
factor de estudio (para calcular los grados de libertad), el efecto deseado y la
potencia estadstica mnima a la que se quiere llegar
Respuesta
La respuesta consiste en un anlisis de la potencia estadstica
Descripcin de los datos:

Peticin
Se espera un nmero indeterminado de polimorfismos y/o fenotipos. El parmetro
session_path se ha incluido durante la integracin del mdulo dentro del sistema.
Posiblemente desaparezca en un futuro.
Respuesta
La respuesta consiste en 2 muestras, casos y controles, y cada una de ellas
contiene para cada factor de estudio su descripcin en esa muestra. Si hay algn
SNP como factor de estudio puede haber otra muestra llamada NCBI, la cual
contendr slo la descripcin de los factores de estudio de tipo SNP obtenida de
dbSNP.
Tambin se devuelven los factores de estudio de entrada, algunos de ellos con
informacin complementaria. En el caso de los SNPs se incluyen algunos datos
extrados de dbSNP (cromosoma, posicin, ensamblaje, alelos observados, etc.).
En el caso de los fenotipos cuantitativos se aaden la media aritmtica y la
desviacin estndar.
Por ltimo se incluye un histograma para cada factor de estudio, el cual muestra
informacin relativa a todas las muestras incluidas.
Estudio de asociacin:
Peticin
Se espera la respuesta dada anteriormente en la descripcin de datos, excepto
los histogramas y la informacin del NCBI.
Respuesta
La respuesta consiste en un conjunto de tablas de asociacin, tanto para
fenotipos como para polimorfismos.
5. Discusin
5.1 Archivos mdicos
En la actualidad los esfuerzos para llevar acabo estudios de asociacin obliga a
organizar los datos de una manera uniforme y siguiendo un vocabulario estndar.
En ASSIST se ha conseguido mediante la implementacin de una ontologa ncleo
(core ontology), mediante la cual se expresan los datos provenientes de varios
hospitales. La transformacin de los datos brutos provenientes de los hospitales
en datos entendibles por el sistema tiene un coste y, segn el tipo de estudios
que se quieran llevar a cabo, la estimacin de ese coste resulta imprescindible
para el xito o fracaso del sistema.
En ASSIST se ha optadoopt inicialmente por utilizar tcnicas de inferencia
semntica para traducir los datos brutos a datos expresados en trminos de la
ontologa ncleo.
Esta solucin est demostrando ser ineficiente para recuperar grandes volmenes
de datos. Actualmente el sistema de recuperacin de datos puede tardar horas en
recuperar los datos de unos cuantos cientos de pacientes para los cuales se
quieran realizar estudios de asociacin utilizando 6 factores de estudio genticos.
Sin realizar un modelo de la complejidad es difcil expresar como crece el tiempo
de bsqueda de los datos en funcin del volumen de datos deseados y el nmero
de factores de estudio, sin embargo, es fcil notar empricamente que el
crecimiento no es de orden lineal, sino mucho mayor, lo cual invalida en gran
medida la aproximacin adoptada.
Tal vez sea por una desacertada implementacin de las reglas semnticas de
inferencia o, como es muy posible, la estimacin de la complejidad y coste de
esta solucin ha sido incorrecta, y por tanto la solucin inviable.
A favor de la utilizacin de reglas de inferencia semnticas hay que decir que:
1. Permite recuperar en todo momento los datos disponibles para hacer un
estudio de asociacin, porque no se realiza una traduccin masiva cada cierto
tiempo, sino que se traducen bajo demanda todos aquellos datos almacenados en
las bases de datos de los hospitales.
2. Tecnolgicamente innovadora, pues son pioneros en la utilizacin de estas
tcnicas aplicadas a las ciencias de la vida.
Otro punto interesante es el intercambio de informacin con otros orgenes de
datos, como podran ser hospitales u otros proyectos similares. ASSIST
actualmente no contempla intercambiar datos y, teniendo en cuenta el gran
crecimiento que experimentan tanto las bases de datos pblicas de polimorfismos
como los proyectos de asociacin a gran escala, de esta manera se limita en gran
medida la capacidad de realizar estudios de asociacin con suficiente potencia
estadstica para ser interesantes. Este problema queda reforzado por el hecho de
disponer de pocos datos genticos relativos al cncer cervical en los hospitales.
Esto en gran parte es debido a
Esta incomunicacin podra resolverse utilizando realizando una traduccin a un
formato estndar, como podra ser PML (Polymorphism Markup Language). Esta
traduccin no debera ser excesivamente complicada, pues es un estndar creado
por un comit de expertos y los datos que se manejan son del mismo tipo. S, sin
embargo este planteamiento solo hubiera sido vlido al inicio del proyecto,
cuando se ha de realizar la planificacin de tareas.
5.2 Gentica, estadstica y sistemas de informacin

El creciente inters por los estudios de asociacin a gran escala hace que
disciplinas totalmente alejadas, como la gentica, la estadstica y la informtica
tengan que utilizarse conjuntamente. En el momento en que no se presta
suficiente atencin a una de ellas la probabilidad de fracaso del proyecto se crece
significativamente.
El papel de la gentica es crucial, pues la informacin que se maneja, as como
las conclusiones a las que se llega estn en su dominio. Los genetistas son
quienes, por ejemplo, pueden identificar qu datos hay que analizar y estn
mejor preparados para interpretar los resultados en trminos genticos. Sin
embargo, a la hora de realizar estudios de asociacin un genetista necesita
realizar tests estadsticos, y es aqu donde el perfil del estadstico entra, al saber
cmo disear un estudio de asociacin entre variables cualitativas, refinar los
anlisis o proponer nuevas tcnicas. Y finalmente ni los estadsticos ni los
genetistas podran abordar ningn estudio de asociacin sin un sistema de
informacin que lo respalde, tanto en el almacenamiento de la informacin como
en la realizacin de clculos y tratamiento de grandes volmenes de informacin.
Es por ello que el control, o al menos el seguimiento, de un proyecto como
ASSIST debe estar en manos de un grupo de personas pertenecientes a estas
disciplinas. En el caso de ASSIST, un proyecto europeo perteneciente a la
categora de las tecnologas de la informacin enfocado a solucionar un problema
de ciencias de la vida, se ha puesto ms inters y recursos en investigar y
solucionar temas de ingeniera informtica que en los estudios de asociacin
propiamente.
6 Consideraciones Conclusiones
1. Se ha implementado un mdulo estadstico que permite realizar:
a) Estimacin de la cantidad de datos necesaria en un estudio de asociacin.
b) Descripcin estadstica de datos genticos y estadsticos.
c) Estudios de asociacin caso-control entre factores genticos y fenotpicos.
d) Validacin de hiptesis respecto a la enfermedad que involucren a ms de una variable
(en construccin)
2. La inferencia de datos a travs de los mecanismos proporcionados por la ontologa del
ncleo proporciona una gran cantidad de datos expresados en un vocabulario comn
(ontologa), sin embargo esa inferencia tiene un alto precio en cuanto a recursos utilizados y
tiempo de recuperacin de los datos.
3. El sistema ha sido probado por los usuarios con xito, teniendo en cuenta que an no est
finalizado y falta trabajo por hacer, especialmente en la interfaz de usuario y en la
recuperacin de datos.
4. Se baraja la posibilidad de incluir a nuevos hospitales en el proyecto, intentando de esta
manera incrementar el volumen de datos.
5. Los hospitales disponen de muy pocos datos genticos de sus pacientes. En parte se debe a
que los polimorfismos de inters varan segn la enfermedad sobre la que se quiera
investigar, de manera que un hospital difcilmente guardar informacin acerca de los
polimorfismos de inters para, en este caso, el cncer cervical.
6. Este tipo de proyectos requieren de varias disciplinas muy alejadas hasta ahora, como son la
gentica, la estadstica y las tecnologas de la informacin. Todos los flancos son
importantes, por lo que el control, o al menos el seguimiento, de un proyecto como este
debera estar en manos de un grupo de personas pertenecientes a estas disciplinas.
7. Al ser un proyecto europeo perteneciente a la categora de las tecnologas de la informacin
se ha puesto ms inters en investigar y solucionar temas de ingeniera informtica que en
los estudios de asociacin propiamente.
Bibliografa
Rosner B., Fundamentals of Biostatistics. Duxbury Press; 6th edition (Febrero de
2005)
The Wellcome Trust Case Control Consortium, Genome-wide association study of
14,000 cases of seven common diseases and 3,000 shared controls. Nature
Publishing Group (2007)
Venables W. N., Smith D. M. and the R Development Core Team An Introduction
to R (Julio de 2008, en lnea) http://cran.r-project.org/doc/manuals/R-intro.pdf
Sokal R. R., Rohlf F. J., Introduction to Biostatistics. W.H. Freeman & Company;
2nd edition (Marzo de 1987)
Gordon D., Finch S. J., Factors affecting statistical power in the detection of
genetic association. The Journal of Clinical Investigation, Volume 115, Number 6
(Junio de 2005)
Lloyd D. Fisher, Gerald Van Belle, Biostatistics, a Methodology for the Health
Sciences. Wiley-Interscience publication (1993)
Documentos de ASSIST
ASSIST D.4.2
Deliverable 6.3
User interface specification, version 3.0
R in ASSIST
APNDICE A: DELIVERABLE 6.3
APNDICE B: R IN ASSIST

Cancer Cervical

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Cancer Cervical

Caricato da

Copyright:

Formati disponibili

Desarrolloiseo (creacin?

Emilio Centeno Ortiz

Mdulo estadstico para estudios de asociacin aplicados al cncer cervical

Antonio Barbadilla Prados

1.1 El proyecto ASSIST

genotipo no para de aumentar, estos estudios se ven a menudo frenados por la

mtodo potente para identificar susceptibilidad gentica a una enfermedad.

1.2 Organizacin del sistema ASSIST

Facilita el anlisis, diseo y desarrollo del proyecto. Actualmente no se

La organizacin en mdulos permite dividir el proyecto en problemas

Un proyecto grande especificado como un gran bloque resulta complicado

La incorporacin de nuevas personas al proyecto requiere mucho menos

En ASSIST hay 3 grandes subsistemas:

Poner pie de figura, p.e. Figura 1. Tres sSubsistemas principales de sistema

hospital, los datos disponibles son extrados, anonimizados y guardados en una

4. Participar en el proceso de prueba test e integracin del mdulo estadstico en

p53 codon72: Dentro del gen p53, la sustitucin en el codn 72 de

CYP1A1/MspI: Una sustitucin de una T por una C en la base 6235

Indel Variantes electrofortica nulas(Insertion/Deletion): En estos

Para los estudios de asociacin todas las variables fenotpicas se consideran de

El mecanismo criterio de decisin consiste en ver que si la probabilidad de las

3.2.2. Riesgo relativo y odds ratio

El odds ratio (OR) es una forma de expresar la proporcin de veces que un

Por tanto, el OR es una probabilidad relativa a otra. escrita de un modo diferente.

Para el OR se calcula su intervalo de confianza dado un nivel de confianza

El riesgo relativo (RR) mide la fuerza de la asociacin entre la exposicin y la

Leyendo las definiciones puede parecer que OR y RR estn se tiene la sensacin

3.2.3 Tamao del efecto

3.2.4 Potencia estadstica

sea la potencia, menor es la probabilidad de las posibilidades de que suceda un

3.3 Tecnologas de la informacin

5. Realizar validacin de hiptesis que hablen del grado de relacin entre la

4.1 Recomendacin del tamao de la muestra

4.2 Descripcin estadstica de la muestra

de seleccionar varios fenotipos junto con algn polimorfismo es enorme, la

4.2.1 Descripcin de datos fenotpicos

4.2.2 Descripcin de datos genticos

Tal y como se coment en el apartado referente a los factores de estudio

Se calculan las cantidades y las frecuencias para de los genotipos.

Figura 3. Especificacin de la interfaz de usuario relativa a la descripcin de

4.2.3 Representacin grfica de cantidades y frecuencias

Figura 4. Representacin grfica de una variable en una muestra. a)

Figura 5. Representacin grfica de una variable en varias dos muestras (casos

4.3 Tests de asociacin caso-control

(controles). En estos estudios es necesario conocer algo de la enfermedad de tal

4.3.1 Estudios de asociacin para datos fenotpicos

4.3.2 Estudios de asociacin para datos genticos

Figura 6. Especificacin de la interfaz de usuario relativa a un estudio de

Codominancia: En codominancia ningn fenotipo es dominante sobre el

Dominancia: Un alelo dominante que siempre que est presente se expresa

Recesividad: Se da cuando un alelo slo se expresa cuando ambos alelos

Las tablas anteriores han sido extradas del documento de especificacin de la

Odds Ratio (95%

Odds Ratio (95%

Power Log Linear

Figura 7. Correccin de las tablas incluidas en la figura 6. Las siguientes tablas

4.4 Tests de hiptesis multivariable

- Y es la variable dependiente binaria (caso=1 o control=0)

4.5 Ontologa estadstica

El polymorphism_type contiene, adems del identificador en ASSIST, el tipo de

El phenotype_type define un fenotipo. Por fenotipo se clasifica en este caso toda

En power_analysis_type aparecen todos los datos que intervienen en un anlisis

El tipo hw_test_type contiene las frecuencias genotpicas observadas y esperadas,