Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
EM ESTUDOS DE ASSOCIAO
Rio de Janeiro
Maio de 2013
UMA METODOLOGIA PARA A DESCOBERTA DE MARCADORES GENTICOS
EM ESTUDOS DE ASSOCIAO
Examinada por:
_________________________________________
Prof. Eugenius Kaszkurewicz, D.Sc.
__________________________________________
Prof. Amit Bhaya, Ph.D.
__________________________________________
Prof. Alberto Martin Rivera Davila, D.Sc.
__________________________________________
Prof. Beatriz de Souza Leite Pires de Lima, D.Sc.
_________________________________________
Prof. Andre Ponce de Leon F. de Carvalho, D.Sc.
iii
Em memria de minha irm, Carmen Mercedes Ruiz Olazar (19622013).
iv
AGRADECIMENTOS
A minha famlia que sempre acreditou no meu potencial e me deu seu apoio
incondicional em todos os momentos de minha existncia. A minha me, meus irmos e
irms, meus sobrinhos e sobrinhas, por me dar sempre a fora e o alento necessrios
nestes anos longe de casa.
Ao professor Amit Bhaya, pela ajuda e esforo para que esta pesquisa pudesse
ter um curso proveitoso e produtivo.
Aos colegas Marcelo Ribeiro Alves da Fiocruz e Raquel Barbosa do INCA por
sua amizade, carinho, colaborao sincera e preciosa ajuda que tornaram esta pesquisa
apaixonante.
v
Resumo da Tese apresentada COPPE/UFRJ como parte dos requisitos necessrios
para a obteno do grau de Doutor em Cincias (D.Sc.)
Maio/2013
vi
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (D.Sc.)
May/2013
vii
NDICE
1. Introduo ............................................................................................................. 1
1.1 Motivao ............................................................................................................ 1
1.2 Estudos de Associao Genmica ....................................................................... 3
1.3 Identificao interao SNP-SNP......................................................................... 6
1.4 Estrutura do Documento ...................................................................................... 8
1.5 Sntese do captulo ................................................................................................ 8
2. Gentica Humana Bsica ..................................................................................... 9
2.1 A estrutura do material gentico humano ............................................................. 9
2.2 Polimorfismos Genticos.................................................................................... 11
2.3 Posies cromossmicas e loci genticos ........................................................... 14
2.4 Que pode ser medido em laboratrio .................................................................. 15
2.5 Marcadores genticos ......................................................................................... 16
2.6 Obteno de amostras biolgicas ....................................................................... 17
2.7 Fentipo .............................................................................................................. 20
2.8 Sntese do captulo .............................................................................................. 22
3. Estudos de associao do genoma inteiro-GWAS ........................................... 23
3.1 Estudos de Ligao ............................................................................................. 23
3.2 Estudos de Associao ....................................................................................... 23
3.3 Estudos caso-controle ......................................................................................... 24
3.4 Etapas de um estudo de associao genmica ampla ......................................... 26
3.5 Conceptos da gentica de populaes ................................................................ 26
3.5.1 Principio de Hardy-Weinberg .......................................................................... 27
3.5.2 Herdabilidade................................................................................................... 27
3.5.3 Desequilbrio de Ligao (LD) ........................................................................ 28
3.5.4 Ausncia de gentipo....................................................................................... 29
3.5.5 Estratificao da populao ............................................................................. 29
3.5.6 Epistasis ........................................................................................................... 30
3.5.7 Efeitos epistticos e principais ........................................................................ 31
3.6 Sntese do captulo .............................................................................................. 33
viii
4. Abordagens computacionais para GWAS........................................................ 34
4.1 Mtodos de busca exaustiva ............................................................................... 35
4.2 Mtodos de busca no exaustiva ........................................................................ 44
4.3 Comparao dos mtodos de busca .................................................................... 51
4.4 Sntese do captulo .............................................................................................. 54
5. Metodologia proposta ......................................................................................... 55
5.1 Passo 1:Pre-processamento do conjunto de dados ............................................. 58
5.1.1 Anlise de controle de qualidade ..................................................................... 59
5.1.2 Critrios de controle de qualidade ................................................................... 60
5.1.3 Workflow Paralelo para controle de qualidade ............................................... 64
5.1.4 Programas Computacionais utilizados ............................................................ 65
5.2 Passo 2: partio dos dados ................................................................................ 66
5.3 Passo 3: Execuo do MIGA-2L para descoberta de SNPs ............................... 68
5.3.1 Algoritmo de MIGA-2L ................................................................................... 68
5.4 Passo 4: Classificao dos hapltipos em casos ou controles ............................ 77
5.5 Passo 5: comparao do conjunto de regras e conjunto de teste ........................ 78
5.6 Passo 6: avaliao de desempenho do algoritmo ............................................... 80
5.7 Sntese do captulo .............................................................................................. 85
6. Experimentos computacionais ........................................................................... 86
6.1 Pre-processamento dos dados ............................................................................. 86
6.2 Descoberta de SNPs associados a doenas utilizando MIGA-2L ....................... 90
6.2.1 Experimentos com dados simulados ............................................................... 91
6.2.2 Experimentos sobre dados reais: Diabetes tipos 1........................................... 99
6.3 Anlise funcional .............................................................................................. 106
6.4 Experimentos sobre 4 conjuntos de dados da WTCCC1.Cromossomo 6 ........ 107
6.5 Sntese do captulo ............................................................................................ 110
6. Concluso e trabalhos futuros ......................................................................... 111
7.1 Contribuio da tese ......................................................................................... 111
7.2 Trabalhos Futuros ............................................................................................. 113
8. Referncias Bibliogrficas ............................................................................... 115
Apndice ................................................................................................................ 125
ix
LISTA DE FIGURA S
Figura 1.1: Este painel mostra a sequencia de gentipos de 3 indivduos. Pode-se observar dois SNPs
localizados em uma pequena poro do cromossomo 9. Fonte: Manolio 2010, N Engl J Med. .......................... 1
Figura 1.2 Os Gwas listados aqui incluem aqueles estudos que consideram ao menos 100,000 SNPs na
fase inicial. (Fonte http://www.genome.gov/26525384) ...................................................................................... 2
Figura 1.3 Pode-se observar um incremento na descoberta do nmero de loci em relao com o
incremento do tamanho da amostra. Fonte: Visscher et al, 2012. ....................................................................... 5
Figura 2.1: Cariograma dos cromossomos masculinos. (Fonte: Almgen et al, 2003) ...................................... 10
Figura 2.2: estrutura simplificada do cromossomo. (Fonte: Almgen et al, 2003) ............................................ 11
Figura 2.3. Uma ilustrao de uma populao de amostras de 6 SNPs em um cromossomo no genoma, as
setas de cor escura mostram a posio de cada SNP no cromossomo. A letra P referencia ao cromossomo
do Pai e a letra M da Me. .................................................................................................................................. 13
Figura 2.5: Catalogo de marcadores genticos (SNPs) associados a doenas. Na Figura superior pode-se
observar os cromossomos com loci sugeridos por GWAS. Na Figura inferior so referidas as doenas
cujos loci so assinalados nos cromossomos da Figura superior. Este catalogo considera GWAS desde o
ano 2009 at 2012. Fonte: NHGRI GWA Catalog. http://www.genome.gov/GWAStudies/ ............................. 18
Figura 2.6: Imagem do chip Affymetrix. A direita so mostradas as sinais obtidas no processo
experimental. ...................................................................................................................................................... 20
Figura 3.1: A fora da associao entre cada SNPs e a doena calculada com base na prevalncia de
cada SNPs nos casos e controles ........................................................................................................................ 25
Figura 3.2: Epistasis envolvendo a cor da pelagem em camundongos, alelos no lcus A, alteram o efeito
do fentipo dos alelos no lcus B. ...................................................................................................................... 31
Figura 3.3: O grfico mostra 2000 casos e 2000 controles onde o SNP1 e o SNP2 tm a mesma
distribuio em casos e controles, mas sua distribuio conjunta significativamente diferente entre casos
e controles .......................................................................................................................................................... 32
Figura 4.1: Classificao das abordagens computacionais para detectar interao em GWAS.. ..................... 34
Figura 4.2: Viso geral do algoritmo MDR. Basicamente, uma Tabela de contingncia construda para
cada SNP-SNP de forma a fazer uma classificao dos gentipos em alto ou baixo risco. Finalmente,
aqueles gentipos que minimizam o erro de predio sobre os k valores analisados so selecionados como
o melhor modelo. ................................................................................................................................................ 38
Figura 4.3: No modelo de interao lcus x lcus, Plink estima a OR (Odds Ratio) como log (AD/BC) ....... 41
x
Figura 5.2: Arquitetura de execuo de Quiron ............................................................................................... 57
Figura 5.5: A validao cruzada repetida 10 vezes permutando todos os subconjuntos. Cada partio
usada uma vez para teste e exatamente 9 vezes para treino ................................................................................ 67
Figura 5.8. Cruzamento de dois elementos de tamanho 5 e ponto de corte igual a 4. Os bits trocados so
representados pelo sombreamento. Neste caso o ponto de corte produz dois novos elementos com 2 bits
ativos .................................................................................................................................................................. 74
Figura 5.9. Cruzamento com ponto de corte igual a 3. Os bits trocados so representados pelo
sombreamento. Neste caso o ponto de corte produz trs novos elementos com 2 bits ativos ............................ 75
Figura 5.10. Cruzamento com ponto de corte igual a 2. Os bits trocados so representados pelo
sombreamento. Neste caso o ponto de corte produz seis novos elementos com 2 bits ativos ............................ 76
Figura 5.11. O ponto escolhido igual a 3 representado pelo sombreamento. A mutao produz 2 novos
elementos com 2 bits ativos ................................................................................................................................ 76
Figura 5.12: Fluxo do processo para identificar e classificar os hapltipos que apresentam associao
com a doena estudada ....................................................................................................................................... 78
Figura 5.13: Fluxo do processo para gerar a Tabela de verdadeiros e falsos positivos e negativos ................. 79
Figura 6.1a A densidade da amostra indicada pelo sombreamento e as linhas tracejadas denotam o
limiar a ser utilizado como corte. ....................................................................................................................... 89
Figura 6.1b Identificao de amostras duplicadas, a grfico identifica todos os pares de indivduos com
um IBD > 0.185. Aquelas amostras com IBD inferior a este limiar sero removidas. ....................................... 89
Figura 6.1d Proporo de gentipos ausentes que permaneceram no conjunto de dados depois da
remoo dos indivduos que falharam no QC das amostras ............................................................................... 90
Figura 6.2a: Neste dois modelos MIGA-2L supera na porcentagem de acertos a Plink. Estes so modelos
considerados no Plink, mas quando a frequncia do alelo menor pequena MAF= 0.1 Plink tem
problemas para identificar os SNPs funcionais .................................................................................................. 93
xi
Figura 6.2b: No modelo 3 pode se notar que Plink no tem nenhum acerto quando o MAF 0.1 e 0.2.
No modelo 4 ao contrario, com um MAF maior (MAF=0.4) Plink no tem nenhum acerto. Fato que
confirma uma forte dependncia de Plink com a frequncia allica................................................................... 93
Figura 6.3a: Os grficos mostram que quando a frequncia do alelo menor MAF=0.2 os dois algoritmos
conseguem obter 100% de acertos, ou seja conseguem descobrir os SNPs funcionais que interagem nestes
modelos simulados. ............................................................................................................................................ 95
Figura 6.3b: Modelos 2 e 4 para MAF=0.4. MIGA-2L supera a Plink no numero de acertos ......................... 96
Figura 6.3c: Nos modelos 6 e 8 MIGA-2L continua com 100% de acertos enquanto Plink
apresentanenhum acerto em alguns conjuntos de dados. No modelo 8 pode se notar que Plink fica afetado
com a diminuio da taxa de herdabilidade. ....................................................................................................... 96
Figura 6.3d: Estes modelos seguem o padro dos modelos anteriores mostrados na Figura 6.3c. .................. 97
Figura 6.3e: Nestes dois modelos MIGA-2L apresenta uma diminuio na porcentagem de acerto devido
a influencia da herdabilidade. ............................................................................................................................. 97
Figura 6.4: Plink assume que os dados seguem um modelo aditivo para dessa forma colapsar as 3
categorias de gentipos em uma Tabela de contingencia de alelos 2x2. ............................................................ 98
Figura 6.6: Tempo computacional obtido em cada tarefa do pre-processamento dos dados. Os tempos
foram computados utilizando o motor de Workflow Quiron............................................................................ 100
Figura 6.7a: Relao entre a taxa de heterozigosidade e a proporo de gentipos ausentes no conjunto
de dados de T1D ............................................................................................................................................... 101
Figura 6.7b: Indivduos duplicados e relacionados no conjunto de T1D, note que o IBD >0.25 indica os
indivduos a ser removidos desde a amostra..................................................................................................... 101
Figura 6.7c Resultados da anlise de componentes principais para as amostras casos e controles ................ 101
Figura 6.8: Grfico Manhattan do cromossomo 6 da amostra T1D do projeto WTCCC1 ............................. 103
Figura 6.9a: Grfico Q-Q dos valores observados e valores esperados desde o computo de associao
utilizando um teste estadstico qui-quadrado. ................................................................................................... 104
Figura 6.9b: Grfico Q-Q obtido com dados de gentipos de SNPs no localizados na regio HLA............ 104
Figura 6.10 Via de interao do gene PACRG, ligado a genes como SYT11, PARK2 e SLC11A1 ............. 107
xii
LISTA DE TABELAS
Tabela 2.1: Conjunto de dados de gentipos de 6 SNPs observados na amostra 2 da Figura 2.3 ...................... 14
Tabela 4.1: Comparao de alguns mtodos utilizado para avaliar associao de marcadores. .......................... 52
Tabela 4.2a: Vantagens e desvantagens de mtodos para deteco de associao (2 loci) ................................. 53
Tabela 4.2b: Vantagens e desvantagens do algoritmo MIGA-2L para deteco de associao (2 loci) .............. 54
Tabela 5.1: Tabela de 6 indivduos casos e controles com seus gentipos correspondentes em 5 SNPs. A
coluna ressaltada indica um exemplo da variabilidade da frequncia do gentipo entre casos e controles.......... 58
Tabela 5.7: Tabela 3x2 de frequncias condicionais do gentipo B sobre o gentipo A .................................... 83
Tabela 6.2 Tabela comparativa do tamanho do conjunto de dados antes e depois do pr processamento .......... 89
Tabela 6.3 Taxa de herdabilidade e MAF utilizada na simulao de 12 conjuntos de dados com efeito
principal ................................................................................................................................................................ 92
Tabela 6.4 Taxa de herdabilidade e MAF utilizada na simulao de 70 conjuntos de dados sem efeito
principal ................................................................................................................................................................ 94
Tabela 6.6 Interaes encontradas pelo MIGA-2L no cromossomo 6 em T1D ................................................. 105
Tabela 6.7 Valores das Odds ratio e seu intervalo de confiana de cada hapltipo das interaes SNP-
SNP identificadas no cromossomo 6 para T1D .................................................................................................. 105
Tabela 6.8 Quantidade de marcadores considerados no GWAS para T2D, HT, BD e CAD ............................ 108
xiii
SMBOLOS E ABREVIATURAS
DNA Acido Desoxirribonuclico
EA Algoritmos Evolucionrios
GWAS Estudos de associao do genoma inteiro
GWA Associao genmica ampla
LD Desequilbrio de ligao
EHW Equilbrio de Hardy-Weinberg
SNP Polimorfismo de Nucleotdeo nico/simples
AG Algoritmo gentico
NN Redes Neurais
WTCCC Welcome Trust Case-Control Consortium
MAF Frequncia do menor alelo
MDR Multifactor Dimensionality Reduction
xiv
DENOMINAES E CONCEITOS BSICOS
Alelo: um possvel estado de um loco polimrfico. Por exemplo, um SNP
poderia ter alelos G e T.
Lcus: (do latim "lugar", no plural loci) o local fixo num cromossomo onde
est localizado determinado gene ou marcador gentico.
xv
Marcador gentico: um gene ou posio no genoma que existe em dois ou
mais alelos distinguveis e cuja herana pode ser seguida atravs de um cruzamento
gentico, permitindo mapear a posio de um gene a determinar. Ex. SNPs.
xvi
CAPTULO 1: INTRODUO
Este captulo aborda a importncia dos Estudos de associao do genoma
inteiro para a descoberta de marcadores genticos de doenas no contexto das cincias
biolgicas e cincia computacional e suas principais contribuies para estudos do
mesmo gnero. Na ltima seo se detalha a estrutura deste documento de uma
maneira geral.
1.1 MOTIVAO
Indivduo1
Indivduo2
Indivduo3
1
Pesquisadores procuram por associao entre um certo trao de interes ou
fentipo e alelos ou gentipos em um lcus gentico com o objetivo de determinar se
um alelo particular associa-se com certa doena na populao como um todo. Esta
associao pode indicar uma relao causal direta que permitiria investigar os
mecanismos e vias metablicas (chamados pathways) na progresso da doena ou
pode indicar uma relao indireta que pode ajudar a localizar a variante causal.
1200
N total de publicaes
1000
800
600
400
200
0
2005 2006 2007 2008 2009 2010 2011 2012
Figura 1.2: Esta Figura apresenta uma grfico de GWAS realizados nos ltimos
anos. Os GWAS considerados aqui incluem aqueles estudos com ao menos 100,000
SNPs na fase inicial. (Fonte http://www.genome.gov/26525384)
2
Os pesquisadores esperam descobrir mais SNPs associados com doenas
crnicas, assim como entender a forma como estas variaes afetam a resposta de
uma pessoa a certas drogas e os efeitos produzidos pelas interaes entre os genes e o
meio ambiente. Para este propsito, se torna essencial em GWAS o uso de softwares
especializados para lidar com a grande dimensionalidade dos dados e realizar um
grande nmero de testes para investigar associaes diminuindo a complexidade
computacional.
3
2012]. Porm, em comparao com a era pr-GWAS, a proporo da variao
gentica explicada por variantes recm-descobertas que so segregadas na populao
grande.
Complexidade computacional
4
possveis interaes entre marcadores genticos so computacionalmente complexos e
inaceitveis.
1.1
5
1.3 IDENTIFICAO DE INTERAO DE SNP-SNP
Para abordar estas deficincias, este trabalho apresenta uma metodologia que
viabiliza o uso de marcadores genticos em escala genmica abrangendo desde o
controle de qualidade dos dados at a seleo e classificao dos hapltipos potenciais
que indicam associao com a doena estudada. A metodologia proposta utiliza um
motor de workflow de forma a modelar e otimizar a execuo das vrias etapas do
processo envolvido em GWAS. Desta forma, visamos proporcionar uma metodologia
flexvel, rpida e robusta que pode manipular dados de alta dimensionalidade e
integrar vrios tipos de programas e mtodos bioestatsticos para controle de
qualidade e anlise de interao, podendo ser estendido para estudos posteriores tais
6
como replicao e meta-anlise, assim como estudos de identificao de vias
metablicas e de alvos para drogas.
7
1.4 ESTRUTURA DO DOCUMENTO
No prximo captulo ser feita uma reviso da base biolgica necessria para o
entendimento do trabalho, abordando os fundamentos da biologia e gentica. No
captulo 3 ser apresentado o estudo de associao genmica ampla e conceitos da
gentica de populaes. Posteriormente, no captulo 4 sero descritos alguns mtodos
computacionais categorizados de acordo com as estratgias de otimizao que
utilizam. Seguidamente, no captulo 5 ser explicado o modelo proposto para o
problema de descoberta de SNPs potencialmente associados a doenas, descrevendo
cada passo da metodologia empregada. O captulo 6, apresenta os resultados dos
experimentos realizados tanto com dados simulados como com dados reais.
Finalmente, no captulo 7 so apresentadas as concluses e os trabalhos futuros que
podem seguir a este trabalho de tese.
GWAS uma rea de pesquisa crescente que ainda apresenta muitos desafios
a serem resolvidos. Como foi destacado neste primeiro captulo, ao longo desta ultima
dcada, muito se avanou no desenvolvimento de tcnicas que ajudam ao estudo dos
dados genmicos, os quais levam em considerao o impacto em problemas de sade.
Com o intuito de explicar a motivao deste trabalho de tese foi apresentada aqui uma
reviso geral de pesquisas sobre GWAS, assim como trabalhos desenvolvidos dentro
do enfoque dos estudos caso-controle.
8
CAPTULO 2: GENTICA HUMANA BSICA
Neste captulo se apresenta um resumo de gentica humana bsica. A
informao descrita aqui foi baseada nas notas providas pelo curso de Statistic in
Genetics [Almgen et al, 2003] e no livro de Sham, Statistic in human genetics
[Sham, 1998]
9
Figura 2.1: Cariograma dos cromossomos masculinos. (Fonte: Almgen et al, 2003)
Cada cromossomo poderia ser descrito por sua sequencia de DNA, ex. G-G-A-
C-T-A-A e poderia ser visto como um vetor de letras com alfabeto {A, C, G, T}.
Estas sequncias poderiam diferir em comprimento de cromossomo para cromossomo
e, de fato, na ordem de pares de bases. No total, existem aproximadamente
3,000,000,000 (3 x 109) pares de bases no genoma humano (ex. em todos os
cromossomos).
10
G C
G C
A T
C G
T A
A T
A T
Figura 2.2: estrutura simplificada do cromossomo. (Fonte: Almgen et al, 2003). Note
que duas fitas de DNA formadas pelas bases esto conectadas linearmente (ex. G-G-
A-C-T-A-A e C-C-T-G-A-T-T).
11
substituio, deleo ou insero, se denomina polimorfismo gentico. Nem todos os
polimorfismos genticos provocam uma alterao na sequencia de uma protena ou de
seu nvel de expresso, ou seja, muitos so silenciosos e carecem de expresso
fenotpica.
12
frequentemente se restringe a aqueles polimorfismos de um nico nucleotdeo nos que
o alelo menos frequente aparece em ao menos 1% da populao.
A Figura 2.3 mostra uma ilustrao de SNPs no genoma. Existem dois tipos
de nucleotdeos possveis em um SNP especfico. Por exemplo, no SNP1 somente
aparecem A e C e no SNP2 aparecem somente G e A. O nucleotdeo com
maior frequncia na populao chamado alelo maior e o outro alelo menor. Por
exemplo, o alelo maior e menor para o SNP1 so C e A, respectivamente. Em
gentica, uma combinao de alelos em diferentes loci sobre o cromossomo que so
transmitidos (ex. herdados) juntos referenciado como um hapltipo. Se os seis SNPs
na Figura 2.3 so herdados juntos, ento existem dois hapltipos para a primeira
amostra, AGCCCA herdada do seu pai e CGCCCA da sua me. De modo similar,
dois hapltipos para a segunda amostra: CATGCA do seu pai e CGCCCA da sua
me.
Cromossomo pai P
Cromossomo mae M
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6
1a. ... C A T ... C G A ... C C A ... T C G ... T C C ... T A G ... P
amostra ... C C C ... C G A ... C C A ... T C G ... T C C ... T A G ... M
Alelo maior C G C C C A
Alelo menor A A T G T C
13
2.3, um conjunto de dados de SNPs ser observado como na Tabela 2.1, neste
conjunto de dados, no sabemos qual alelo A no SNP2 vem do pai ou da me.
2 CC AG TC GC CC AA
Como o cromossomo uma estrutura linear, faz sentido falar sobre posies
ao longo do cromossomo. Uma maneira para definir a posio cromossmica
simplesmente contar o nmero de pares de bases a partir de uma origem bem definida
do cromossomo, tal como seu final (o telmero) ou seu centro (o centrmero). Como
o nmero de pares de base muito grande, pode ser expresso como uma medida de
quilo pares de bases (1Kbp) ou em mega pares de bases (1 Mpb).
14
Alelos e gentipos em loci gentico.
15
Se nosso interesse procurar vrios loci, isto tem que ser feito separadamente
para cada lcus, um lcus por vez. Suponha, que no primeiro cromossomo em um par
homlogo temos um alelo A no primeiro lcus e um alelo B no segundo lcus, e no
segundo cromossomo, no mesmo par, temos um alelo a e outro alelo b nos dois loci
respectivamente como mostrado na Figura 2.4.
A a
B b
16
Um marcador gentico, ou marcador molecular, um segmento de DNA com
uma localizao fsica identificvel (lcus) em um cromossomo e cuja herana
gentica pode-se rastrear. Dever ser vivel e eficiente determinar o gentipo de um
marcador gentico em um indivduo utilizando mtodos laboratoriais, como a
genotipagem.
17
Figura 2.5: Catalogo de marcadores genticos (SNPs) associados a doenas. Na
Figura superior pode-se observar os cromossomos com loci sugeridos por GWAS. Na
Figura inferior so referidas as doenas cujos loci so assinalados nos cromossomos
da Figura superior. Este catalogo considera GWAS desde o ano 2009 at 2012.
Fonte: NHGRI GWA Catalog. http://www.genome.gov/GWAStudies/
18
Genotipagem
19
Figura 2.6: Imagem do chip Affymetrix. A direita so mostradas as sinais obtidas no
processo experimental.
2.7 FENTIPO
20
Fentipo e gentipo e ambiente em interao
21
tamanhos diferentes aos olhos destas moscas. No entanto, este tamanho tambm varia
em funo da temperatura a que as moscas esto expostas.
22
CAPTULO 3: ESTUDOS DE ASSOCIAO DO
23
abundancia de SNPs e a facilidade provida pelas tecnologias de genotipagem fazem
com que estes marcadores genticos sejam a escolha da maioria dos estudos de
associao. Tcnicas de genotipagem de alto rendimento esto evoluindo rapidamente
e conseguem hoje que aproximadamente 1 milho de SNPs sejam genotipados
[Spencer et al., 2009]. Ao mesmo tempo, o custo da genotipagem de SNPs caiu
dramaticamente fazendo os estudos de associao com milhares de pacientes uma
realidade. As estimativas sugerem que com 500 mil SNPs, 85-92% da variao
comum no genoma da populao caucasiana ser capturada [WTCCC, 2007]. Por
exemplo, a Wellcome Trust Case Control Consortium realizou um estudo de
associao de um lcus, em sete doenas comuns com um total de 14,000 pacientes
cujos resultados foram depois replicados com sucesso. Assim, GWA de longe o
mtodo mais detalhado e completo de investigar o genoma inteiro atualmente
disponvel.
24
lado, os estudos baseados em famlia tm a vantagem sobre os estudos de base
populacional, de que so robustos contra a miscigenao e estratificao da
populao, e permitem tanto testes de ligao como de associao. Alm disso, o fato
de que eles contm informao tanto dentro como entre famlias, o qual prove
benefcios substanciais em termos de mltiplos testes de hipteses, especialmente no
contexto de estudos de associao de todo o genoma. A limitao deste tipo de
estudos que precisa de dados de gentipos de muitos indivduos com relao
parenteral e este tipo de dados so mais difceis de conseguir. Por isso estes estudos
so feitos geralmente complementando os estudos caso-controle.
pacientes No pacientes
Comparar as
diferenas para
descobrir SNPs
associados com
doenas
Figura 3.1: A fora da associao entre cada SNPs e a doena calculada com base
na prevalncia de cada SNPs nos pacientes (casos) e nos no pacientes (controles).
25
3.4 ETAPAS DE UM GWAS
GWAS pode ser tambm utilizado para anlises de interao gene-gene, para
deteco de hapltipos de alto risco, associao entre SNPs e expresso do gene (ex.
quantidade de protenas para o qual um gene codifica).
26
3.5.1 PRINCPIO DE HARDY-WEINBERG OU EQUILIBRIO DE HARDY
WEINBERG
3.5.2 HERDABILIDADE
Vale lembrar que no apenas a carga gentica que uma pessoa possui que ir
determinar a ocorrncia de uma doena: fatores ambientais, como dieta, fumo,
agentes infecciosos, tambm esto envolvidos no processo. Na gentica o conceito de
fentipo definido como F = G + A, onde F o Fentipo, G os genes e A o ambiente,
ou seja, a expresso do fentipo dependente da expresso dos genes e dos fatores
ambientes. Ento, a herdabilidade calculada atravs da Equao:
27
Estimado pela razo entre as varincias do gentipo (Var(G)) e Fentipo
(Var(F)), que mede a proporo da variao fenotpica que pode ser herdada em uma
populao, ou seja, o quanto que o fator gentico influencia sobre um fentipo.
28
Ento D dado pela formula:
D = PAB PA x PB
A medida r2 reflete o poder estatstico para detectar LD: nr2 o teste estatstico
de Pearson em uma Tabela 2x2 de contagem de hapltipos. O valor mximo que r2
pode atingir fortemente determinado pelas frequncias allicas nos dois lcus
[Wray, 2005]. Quanto mais diferentes as frequncias allicas, menor o valor de r2.
Assim, como a maioria dos SNP genotipados so comuns, se os variantes so raros, r2
ser baixo. Portanto, um r2 baixo necessrio para detectar o LD entre os marcadores.
29
ancestralmente distintas com diferentes valores de prevalncia da doena e frequncia
de SNPs.
Por exemplo, com duas populaes onde a populao 1 tem uma alta
prevalncia da doena e (independentemente) uma frequncia de alelos maior no SNP
que a populao 2, teremos uma maior frequncia de alelo de SNP em casos que nos
controles, que resultar em uma associao espria entre o SNP e a doena.
3.5.6 EPISTSIS
30
Um clssico exemplo de epistasia a cor da pelagem que resulta do
cruzamento de dois camundongos. Na Figura 3.2, dois dos loci responsveis pela cor
da pelagem em camundongos so:
AA Aa aa
BB
Bb
bb
31
Considerando a complexidade envolvida no mecanismo de regulao no
genoma humano e nas diferentes formas de manifestaes de doenas e
susceptibilidade, amplamente aceito que doenas complexas ou multifatoriais sejam
normalmente causadas por influncia de mltiplas variaes genticas, ou seja, pelo
efeito combinado de vrios SNPs. Este tipo de variao gentica que influencia de
forma combinada conhecido como efeito episttico ou interao, apresentado por
SNPs com pouco ou nenhum efeito individual, mas que apresentam forte influncia
quando esto atuando em conjunto. Basicamente, uma interao entre dois SNPs
acontece quando seu efeito conjunto no pode ser entendido como a soma de seus
efeitos individuais.
SNP1
AA Aa aa
960 960
710 730
Controles
330 310
Casos
710 700
460
BB
450
220 190
50 40
970 980
660 670
SNP2
Bb
260 250
50 60
Bb
320 320
210 240
20 70 40 60
Figura 3.3: o grfico mostra 2000 casos e 2000 controles onde o SNP1 e o SNP2 tm
a mesma distribuio em casos e controles, mas sua distribuio conjunta
significativamente diferente entre casos e controles.
32
Assim, seu efeito individual muito fraco ou seja no ajuda a distinguir casos e
controles. Similarmente, o efeito individual do SNP2 tambm fraco. Todavia, seu
efeito conjunto forte j que as quantidades de gentipos aparecem completamente
diferentes para cada combinao de gentipos. Este fenmeno chamado efeito
marginal fraco com interao forte. Uma estratgia muito comum primeiro seleciona
aqueles SNPs com grande efeito marginal para depois realizar o teste de interao
somente entre esses SNPs selecionados. Claramente esta estratgia no identificar
SNPs com o chamado efeito marginal fraco porm com forte interao.
33
CAPTULO 4: ABORDAGENS COMPUTACIONAIS PARA
DETECO DE INTERAO DE SNPS EM DOENAS
34
4.1 MTODOS DE BUSCA EXAUSTIVA
35
likelihood estimation - MLE). A nova medida de interao dada pela diferena
desses dois modelos. A representao booleana dos dados de gentipos ajuda na
eficincia de CPU porque s envolve valores booleanos e permite usar operaes
lgicas rpidas (bitwise) para obter as Tabelas de contingncia. O programa esta
disponvel em http://bioinformatics.ust.hk/BOOST.html
36
FastEpistasis otimiza os clculos, dividindo as tarefas da anlise em trs
aplicaes distintas: pr computao, ncleo ou computacional e ps-computao. A
fase de pr computao carrega arquivos de dados no formato binrio PLINK,
reformata os dados para realizar computaes mais rpidas e reduz o nmero de
condies para verificar na fase computacional. A fase ncleo desenhada para
realizar computao embaraosamente paralela, atravs de iterao de testes de
epistasis em pares de SNPs. A computao est baseada na aplicao da
decomposio QR para derivar estimaes de mnimos quadrados do coeficiente de
interao e de seu erro padro. Uma fase opcional de ps computao fornecida para
agregar resultados de cada processador ou ncleo, podendo incluir detalhada
informao de cada SNP, computar p-valoress de cada teste, e converte arquivos de
texto.
37
descrio inicial do MDR feita por Ritchie et al. (2001), muitas modificaes e
extenses tem sido propostas, mas a ideia principal da abordagem baseada na
reduo do espao de representao dos dados, tornando mais fcil para outros
mtodos detectarem interaes. A ferramenta de cdigo aberto escrita na linguagem
Java foi implementada e descrita por Ritchie et al. (2003b), ela capaz de tratar tanto
dados de caso e controle como tambm dados baseados em famlia. Como resultado
do esforo na difuso da metodologia proposta e fcil acesso ferramenta, MDR
atualmente um dos mtodos mais amplamente utilizado para detectar interao entre
marcadores ou epistasis, como evidenciado pelas 378 publicaes encontradas no
Pubmed, buscando todos os campos (all fields) por Multifactor Dimensionality
Reduction.
38
O algoritmo possui 4 passos principais:
Passo 1. Selecionar k fatores (k variveis para modelar, ex. dois lcus: SNPi
x SNPj). O conjunto selecionado deve ser pequeno para fazer o
passo 2 tratvel;
39
biblioteca de medicina Pubmed Central [http://www.ncbi.nlm.nih.gov/pubmed] na
data 20 de maio de 2013. Foi projetado para realizar uma srie de anlises bsicas em
dados de alta dimensionalidade de forma computacionalmente eficiente. Alm de suas
outras funes, ele pode ser usado para investigar epistasia estatstica.
Para identificar as interaes entre todos os pares de loci, usa uma estratgia
simples analisando exaustivamente cada combinao SNP-SNP atravs de um modelo
de interao completa baseada em regresso logstica. Esta estratgia, implementada
primeiramente por Marchini et al (2005), foi revisada por Ionita and Man(2006), que
adicionaram uma busca condicional que posteriormente foi implementado no Plink
por Purcell em 2007. Atualmente o Plink proporciona mtodos tanto de busca
exaustiva como de busca no exaustiva.
A busca por associao de 2 loci com certo fentipo realizada pelo modulo
epistasis. Plink aplica regresso logstica por cada avaliao de lcus x lcus aplicada
segundo a equao 4.1. A regresso logstica uma adaptao da regresso linear na
qual uma transformao logartmica logit usada para permitir a analise de um
Fentipo binrio (ex. estado de caso ou controle). Na equao 4.1, p a probabilidade
de ter a doena, 0 representa o efeito nulo, 1 e 2 representa o efeito principal de
cada lcus sobre o fentipo, e 3 representa o termo de interao. As variveis x1 e x2
contm informao sobre o gentipo nos dois lcus e podem ser codificados de
formas diferentes, por exemplo, -1, 0 e 1 para homozigoto recessivo, heterozigoto e
homozigoto dominante respectivamente. O termo de interao (x1*x2) pode tambm
ser codificado de formas diferentes:
[4.1]
40
Interao de dois lcus, efeito limiar: em analise onde um lcus no
suficiente, se assume que a presena de variantes de risco a partir de ambos
marcadores, elevam o risco que aumenta para um nvel constante.
Algoritmo
Lcus H Lcus H
Lcus G Lcus G
2 1 0 H1 H2
2 a b c G1 A=4a+2b+2d+e B=4c+2b+df+e
1 d e f G2 C=4g+2h+2d+e D=4i+2h+2f+e
0 g h i
Figura 4.3: No modelo de interao lcus x lcus, Plink estima a OR (Odds Ratio)
como log (AD/BC).
41
O teste Z-score aplicado segundo a equao 4.2 onde a varincia V
estimada da forma:
[4.2]
Outros mdulos proporcionados pelo programa so gesto dos dados, estatsticas para
controle de qualidade dos dados, deteco de estratificao da populao, teste de
associao bsico, teste de hapltipo e preditores multimarcadores, anlise de CNV
(em fase de teste), meta-anlise e outros testes bsicos. O programa est disponvel no
site web [http://pngu.mgh.harvard.edu/~purcell/plink/].
42
FastANOVA necessita apenas executar o teste ANOVA em um pequeno nmero de
pares de SNPs sem o risco de perder qualquer par significativo.
43
pode-se obter os valores exatos dos testes investigando a rvore de expanso mnima
sem verificar todos os indivduos.
Este tipo de mtodos realiza uma busca parcial das possveis associaes (de k
marcadores com certo fentipo) para completar o processamento de forma
relativamente rpida. Apesar de eficientes e rpidos comparados com os mtodos
exaustivos, estes mtodos muitas vezes dependem do acaso para selecionar SNPs que
exercem influncia sobre a doena. No possvel saber se eles conseguiram
identificar ou alcanar a correta soluo para um conjunto de dados especfico. A
medida que os conjuntos de dados crescem em nmero de SNPs, as chances de
encontrar os dados corretos diminuem devido ao crescimento do espao de busca.Os
algoritmos exaustivos podem ser classificados segundo a estratgia utilizada para a
reduo do espao de busca em mtodos estocsticos e em mtodos gulosos.
44
A probabilidade de uma formiga adicionar o SNP k em seu caminho (ex. uma
k-lcus interao) na iterao i definida como , onde
o feromnio. O feromnio atualizado de acordo a
, onde o coeficiente de evaporao, J o nmero de interaes k-
45
SNPs, aqueles que tm a contribuio mais significante para a discriminao entre
casos contra e controles, selecionado.
46
neural para melhorar o poder de identificar interaes gene-gene. A tcnica de
evoluo gramatical separa o gentipo do fentipo no processo evolucionrio e
permite maior diversidade gentica dentro da populao que outro algoritmo
evolucionrio. Em GENN a gramtica permite definir mltiplas conexes entre os
ndos selecionados pelo algoritmo. Tambm o nmero de conexes permite que redes
neurais mais complexas possam evoluir e por tanto incrementar seu poder de deteco
de associao.
47
MegaSNPHunter [Wan X. et al, 2009]
48
Algoritmo
49
Todos os SNPs que se mostrem significantes so removidos. O mtodo tem
como objetivo encontrar as interaes epistticas, ou seja, SNPs que apresentam
efeitos conjuntos. Aqueles SNPs com efeitos principais so descartados da anlise.
Assim, para um valor fixo k, definido como o nmero de interaes que sero testadas
pelo mtodo, onde k ln3Nd -1, e Nd o nmero de casos.
50
medida U(), o algoritmo ento constri uma rvore de busca para cada regra
selecionada, onde cada nodo representa um SNP e cada ramo que liga os ndos
representa uma possvel interao. Posteriormente, um mtodo de busca em
profundidade (do ingls, depth-first transversal) gera e avalia as possveis interaes
utilizando a estatstica qui-quadrado ajustada pelo uso da correo de Bonferroni. Ao
final o algoritmo exibe em sua sada uma lista de interaes ordenadas atravs da
estatstica qui-quadrado.
No entanto, alguns dos mtodos discutidos neste captulo podem ser adaptados
para tirar vantagem da informao biolgica. Os mtodos estocsticos como
Epiforest, MegaSNPHunter, Epimode, BEAM, GENN selecionam iterativamente um
pequeno nmero de locos e realizam um teste completo para epistasia. Esta estratgia
baseia-se na sorte para selecionar loci que interagem em pelo menos uma iterao.
Outros como MECCPM, SNPRuler, InterSNP, SNPHarvester e AntiEpiSeeker
realizam uma busca parcial das interaes utilizando critrios heursticos para filtrar a
quantidade de SNPs no estudo. O sucesso desta estratgia depende da natureza das
iteraes presentes no conjunto de dados: as interaes epistticas puras sem efeitos
principais so susceptveis de serem desperdiadas.
51
uma concluso razovel? difcil ou impossvel de responder satisfatoriamente a
essas perguntas. No prximo captulo ser descrita a proposta de uma metodologia
que pode ajudar a superar estas dificuldades, fornecendo ferramentas teis execuo
dos experimentos e anlises de GWAS.
52
Algoritmo Vantagens Desvantagens
FastANOVA, Disponibiliza vrios testes estatsticos No considera gentipos heterozigotos;
COE convexos; Tamanho amostral pequeno;
Disponvel para uso. Carece de validao, o que poderia resultar
em resultados enviesados.
TEAM Disponibiliza vrios testes estatsticos Carece de validao, o que poderia resultar
convexos; em resultados enviesados.
Disponvel para uso.
MDR Bom poder para detectar associao; Algoritmo intratvel para amostras de escala
No assume um modelo gentico apriori; genmica;
Utiliza modelo de validao cruzada com Tem problemas para detectar associaes na
fator 10; presencia de lcus com heterogeneidade.
Bem avaliado e entendido por vrios grupos
de pesquisa;
Disponvel para uso.
FastEpistasis Fornece processamento paralelo do modulo Erro no calculo da Varincia;
epistasis de Plink; No realiza estimao dos gentipos devido
Escala linearmente com o numero de a dados incompletos;
processadores considerado. Problemas para detectar associaes em um
conjunto de gentipos sem efeito marginal.
PLINK Bom poder para detector associao O teste exaustivo computacionalmente
(exaustivo) assumindo certo tipo de modelo gentico custoso.
sobre os dados; Problemas na deteco de associao para
Amplamente difundido e disponvel para modelos com efeito marginal fraco.
uso.
Plink (no Tratvel para dados de escala genmica; Deteco de associao em ausncia de
exaustivo) Mtodo simple e facil de implementar; dados com efeito marginal fraco perdida
Disponvel para uso. devido a uma busca incompleta do espao
das possveis associaes.
SNPRuler Seu algoritmo baseado em aprendizado de No pode detectar interaes epistticas
regras fornece fcil interpretao; contendo regras conjuntas;
No assume uma distribuio apriori sobre No considera modelos de heterogeneidade
os dados; gentica (ex. efeito marginal fraco);.
Proporciona uma lista de interaes No realiza validao para evitar resultados
classificadas por significncia. esprios para reduzir os falsos positivos.
SNPHarvester Complexidade de busca linear; A remoo de SNPs com efeitos marginais
Fornece a possibilidade de remover SNPs significativos limita a possibilidade de
com significante efeito marginal para a identificar todos resultados das interaes
deteco correta de interaes epistticas. epistticas;
A seleo aleatria do conjunto inicial dos
SNPs utilizada pelo algoritmo PathSeeker
pode limitar a deteco de associaes
importantes.
BEAM Permite incorporar conhecimento experto Problemas para detectar associaes sobre
utilizando uma distribuio a priori sobre os dados de gentipos sem efeito principal;
dados; Tempo de execuo lento em comparao
Bom poder de deteco de associao em com outros mtodos.
modelos de interao com MAF baixo;
Disponibilidade para uso.
Epiforest Random Forest so rapidos para construir; Problemas para detectar interaes com
Bom poder de deteco de interaes com pequeno ou nenhum efeito marginal;
efeito episttico puro; Utiliza uma votao consensual que limita a
Suporta vrios formatos de arquivos. lista de loci de suscetibilidade com o
fentipo estudado.
GENN Capacidade de aprender sobre um Precisa de ajustes sobre os dados;
determinado conjunto de dados e fazer Factvel somente para um pequeno conjunto
previses sobre os mesmos, onde o resultado de dados.
da doena desconhecida;
Software disponvel para uso.
Tabela 4.2a: Vantagens e desvantagens de mtodos para deteco de associao (2 loci).
53
Algoritmo Vantagens Desvantagens
MIGA-2L Utiliza validao cruzada estratificada de A escolha dos parmetros para a execuo
fator 10 para evitar resultados esprios; pode afetar no desempenho do algoritmo;
Pode ser utilizado para dados de escala No fornece uso de fentipos contnuos;
genmica; No realiza estimao dos gentipos devido
No assume nenhuma distribuio apriori a dados incompletos.
sobre os dados;
Bom poder de deteco de interao sobre
vrios modelos genticos.
Tabela 4.2b: Vantagens e desvantagens do algoritmo MIGA-2L para deteco de associao
(2 loci). MIGA-2L ser descrito no proximo capitulo.
Este captulo teve como finalidade fazer uma reviso geral sobre as
ferramentas utilizadas para investigar efeitos de interao episttica em GWAS. Estes
procedimentos foram vistos de uma maneira panormica, procurando enfatizar a
tcnica de abordagem empregada por cada um deles. Nos ltimos anos muitos
mtodos foram propostos, a fim de resumir alguns deles e ajudar no seu
reconhecimento, estes mtodos foram agrupados segundo o tipo de busca empregada
para a identificao de uma interao episttica. Foram includos mtodos que
utilizam uma busca exaustiva e os que utilizam busca no exaustiva. De todo o grupo,
pode-se destacar o Plink por ser uma ferramenta robusta e uma das mais difundidas e
utilizadas em estudos que envolvem GWAS. O modulo fast-epistasis de Plink foi
escolhido para realizar um estudo comparativo com o algoritmo MIGA-2L, que foi
desenvolvido neste trabalho de pesquisa para investigar associao de SNPs com
doenas. No final deste capitulo foram apresentadas Tabelas comparativas dos
mtodos citados considerando vrios critrios de desempenho.
54
CAPTULO 5: METODOLOGIA PROPOSTA
Este trabalho teve como enfoque o desenvolvimento de uma metodologia para
a descoberta de marcadores genticos (SNPs) de doenas abarcando desde o pr-
processamento dos dados at a identificao dos hapltipos que manifestam risco de
desenvolvimento da doena estudada. A ideia bsica que dado um conjunto de SNPs
de indivduos casos e controles, a metodologia consiga descobrir um subconjunto
destes relacionados com a doena em estudo. A metodologia proposta pode ser
esquematizada em 6 passos, como mostrado na Figura 5.1.
55
MOTOR DE GERENCIAMENTO DO WORKFLOW: QUIRON
56
intermedirios, tais como arquivos enormes e outros resultados de computao
complexos, so apenas referenciados no banco de dados. Estes arquivos so mantidos
na rea de armazenamento da aplicao. Provenincia essencial para experincias
cientficas e de engenharia e garante que o experimento possa ser reproduzido sobre
condies diferentes. Quiron requer software adicional, como PostgresSQL, Java e
bibliotecas adicionais como MPJ[Carpenter et al., 2000] e HSQLDB [Simpson and
Toussi, 2007]. Estes so softwares de cdigo aberto que podem estar disponveis em
centros de Computao de alto desempenho. Quiron est disponvel no cluster do
Centro de Computao de Alto Desempenho da Universidade Federal do Rio de
Janeiro para qualquer projeto ou cientista que deseja us-lo.
Provenincia
Entrada de
parmetros
Quiron
Computador A B C
alto
desempenho Quiron
Cientfico/
Cluster
Engenheiro A B C
...
A B C
Desenho a a Quiron
Workflow A B C
chamadas
Quiron
57
5.1 PASSO 1: PR-PROCESSAMENTO DO CONJUNTO DE DADOS
G1 1 1 2 1 1 1
G2 1 1 2 0 1 1
G3 2 1 2 1 2 1
G4 2 1 2 1 2 1
G5 1 1 0 1 2 0
G6 1 1 0 1 0 0
G7 2 1 0 0 0 0
G8 2 2 0 1 1 0
58
Para evitar confuso na terminologia utilizada nas prximas seces, uma o
termo amostra ser utilizado para descrever os gentipos correspondentes a um
certo indivduo, representada por uma linha na Tabela 5.1, o tipo de marcador
utilizado neste trabalho de tese o SNP, representado por uma coluna na Tabela 5.1 e
seu valor dado pelo seu gentipo, representado por uma clula na Tabela 5.1.
59
um indivduo. A remoo de uma pequena porcentagem destes no deve diminuir
consideravelmente o desempenho do estudo j que tcnicas de imputao do gentipo
podem ser utilizadas para recuperar estes marcadores.
60
1. Determinao da qualidade do gentipo (qualidade de DNA baixa).
61
Considerando M marcadores, o IBS entre o i-simo e j-simo indivduo dado
pela equao 5.1.
[5.1]
onde, Gik denota a quantidade do alelo menor (em nosso caso 0) levado pelo i-simo
indivduo no SNP k.
62
1. Identificao de SNPs com uma excessiva ausncia de gentipos.
Removemos SNPs que mostram desvio significante o HWE, que podem ser
indicativos de um erro de determinao de gentipo. No entanto, desvios do HWE
poderiam tambm indicar seleo. Uma amostra caso pode mostrar desvios do HWE
em loci associados com a doena, e, obviamente, seria contra-produtivo remover
esses loci de novas investigaes. Portanto, somente as amostras de controle devem
ser utilizadas no teste para desvios de HWE. O limiar de significncia para que SNPs
permaneam em equilbrio de Hardy-Weinberg tem variado muito de um estudo a
outro (p-valores variam entre 0,001 e 5,7 10-7 )[The Wellcome Trust, 2007]. Neste
estudo, SNPs com p-valor<0.00001 em controles foram removidos.
63
No entanto, mesmo aps um rigoroso controle de qualidade de SNP, erros de
genotipagem podem ainda persistirem. Verificar manualmente grficos a melhor
maneira de garantir que a determinao de gentipos seja robusta e, portanto,
essencial que todos os SNPs associados com o estado da doena sejam inspecionados
manualmente antes de escolher SNPs para estudos de seguimento (follow-up
genotyping). Na Figura 5.3 se mostra o fluxo do processo.
Figura 5.3: Fluxo do processo de controle de qualidade dos dados. Note que o
workflow consiste de uma sequencia de passos concatenados (conectados), que segue
o paradigma de fluxo, onde cada passo segue o precedente.
64
realizar a re-execuo do workflow. Tambm, pode-se fazer a escolha de novos
parmetros que iro alimentar a atividade seguinte.
Extrair
Avaliar gentipos amostras
Hapmap data ausentes/heterozigosidade Falha-sextest-CQ.txt
discordantes
Avaliar Falha-ancestres-CQ.txt
ancestres
Avaliar diferena na
Remover marcadores
taxa casos/controles
65
PLINK um software para anlise de GWAS.
http://pngu.mgh.harvard.edu/~purcell/plink/
SMARTPCA.pl software para PCA.
http://genepath.med.harvard.ude/~reich/Software.htm
Cabe ressaltar que os modelos obtidos a partir dos dados de treino s sero
considerados bons, do ponto de vista da acurcia preditiva, se ele classificar
corretamente uma alta porcentagem das instancias (exemplos) dos dados de teste. Em
outras palavras, esses dados devem representar um conhecimento que possa ser
generalizado para os dados de teste, que no foram utilizados durante o treinamento.
Esta diviso reduz o tamanho dos dados analisados, considerando 2/3 dos
dados para treino e 1/3 para teste, sendo est uma proporo comunmente utilizada e
sugerida no estudo realizado em [Kohavi R., 1995]. Como a acurcia dos resultados
estimada baseada em uma nica partio dos dados (teste), que no muito
significante do ponto de vista estatstico foi utilizada a estratgia de validao cruzada
estratificada de k parties (k-fold cross-validation).
66
Na validao cruzada, primeiro todos os dados so aleatoriamente divididos
em k mutuamente exclusivas parties do mesmo tamanho, onde k um parmetro
definido pelo usurio. Ns usamos um valor de k=10, produzindo 10 procedimentos
de validao cruzada. Esta escolha foi baseada no estudo descrito por Kohavi
[Kohavi, 1995] onde mostrou que para conjuntos de dados do mundo real semelhantes
aos utilizados nesta tese, o melhor mtodo a ser usado para a seleo do modelo a
validao cruzada estratificada em dez vezes. As parties realizadas so do mesmo
tamanho onde 50% dos dados so casos e 50% controles, mantendo assim cada
partio balanceada.
67
5.3 PASSO 3: EXECUO DO MIGA-2L PARA DESCOBERTA DE
68
aplicado. Os AGs demonstraram ser adequados na otimizao de problemas
complexos como o caso da tarefa que queremos resolver. A principal razo de nossa
escolha que os AGs so capazes de explorar os efeitos das interaes entre SNPs,
sem pressupor conhecimento a priori do modelo gentico que possui a doena
estudada, enquanto que outras metodologias poderiam ignora-lhas devido ao
desconhecimento de um modelo vlido adequado.
Os AGs foram desenvolvidos por John Holland que em 1975 publicou o seu
livro Adaptation in Natural and Artificial Systems [Goldberg D., 1989]. Os
componentes principais so o esquema de codificao, inicializao da populao,
funo de avaliao (do ingls, fitness function), seleo, operador de cruzamento e o
operador de mutao. O fluxograma do algoritmo proposto para a tarefa de descoberta
dos SNPs que indicam associao com a doena mostrado na Figura 5.6.
69
escolhendo de forma aleatria duas posies entre 1 e m. Estas posies
correspondem s localizaes de dois SNPs no arquivo de Gentipos G. Ento,
computada a informao mtua [Cover & Thomas, 2006] desses dois SNPs no
conjunto de dados de Gentipos G. Este valor ser chamado fitness do elemento.
Posteriormente, os operadores de mutao e cruzamento so aplicados aos elementos
da populao selecionados. Logo aps a aplicao dos operadores genticos, como o
tamanho da populao P pode crescer, so selecionados NPOP melhores elementos,
segundo seu fitness, para formar parte da nova populao. Este processo repetido
at que um certo nmero de geraes seja alcanado. continuao se descreve com
mais detalhe cada componente do algoritmo gentico.
70
5.3.1.1 Esquema de codificao
71
seleo. Nesta implementao foi utilizada uma abordagem baseada na teoria da
informao [Cover and Thomas, 2006] aplicada como medida biolgica para
investigar duas variveis. Esta abordagem foi descrita no Apndice.
SNP1
AA Aa aa
72
relacionados com a doena, ou seja casos, ser chamado D. O i-simo SNP descrito
pelo gentipo gi e pode assumir 3 valores diferentes {0,1,2} como foi citado
anteriormente.
[5.2]
[5.3]
[5.4]
[5.5]
Daqui, o grau de informao que dois SNPs, gi e gj, podem ter ao respeito de
um fentipo C definido pela diferena da informao mtua dos dois SNPs na
presena da doena (C=1) e a informao mtua dos dois SNPs na populao de
gentipos geral (conjunto G). Esta diferena ser chamada de Ganho de informao e
ser calculada pela equao 5.8.
73
Finalmente, a funo de avaliao ou fitness formulada como:
74
identificados: no caso 1 (Figura 5.8), os dois elementos possuem 2 bits ativos; no
caso 2, um elemento fica com 1 bit ativo e o outro fica com 3 bits ativos; e no caso 3,
um elemento fica com 4 bits ativos e o outro sem bits ativos.
A codificao implementada s considera elementos com 2 bits ativos j que o
algoritmo avalia a interao entre dois SNPs. Ento, para que os elementos da
populao P permaneam com 2 bits ativos, aplicamos certas regras dependendo do
caso identificado. No caso 1, mostrado na Figura 5.8, os dois elementos gerados
possuem 2 bits ativos e no representam nenhuma mudana com respeito aos
elementos selecionados antes do cruzamento e, portanto, esses dois elementos
permanecem na populao P. No caso 2 (um elemento com 3 bits ativos e o outro
com 1 bit ativo), Figura 5.9, o elemento com 3 bits ativos desdobrado em trs novos
elementos os quais resultam da combinao par desses 3 bits. Os novos elementos
sero inseridos na populao P, e aquele elemento que ficou com 1 bit ativo ser
descartado j que no cumpre os requisitos da codificao do algoritmo.
No caso 3 (um elemento com 4 bits ativos e o outro sem bits ativos), Figura
5.10, o elemento que fica sem bits ativos descartado pela mesma regra do caso 2. O
outro elemento fica com quatro bits ativos, ento aplicamos o desdobramento da
75
mesma forma que na regra do caso 2 que gera seis novos elementos que resultam da
combinao par dos 4 bits ativos.
Caso 3: Depois do cruzamento, obtm-se um elemento com quatro bits ativos e outro
com 1 bit ativo
0 1 2 3 4 5
el.1 1 1 0 0 0 0
antes 0 1 2 3 4 5
el.2 0 0 1 1 0 0
el.1 1 1 0 0 0 0
el.2 1 0 1 0 0 0
0 1 2 3 4 5
el.3 1 0 0 1 0 0
el. 1 1 1 1 1 0 0
Depois el.4 0 1 1 0 0 0
el. 2 0 0 0 0 0 0
el.5 0 1 0 1 0 0
el.6 0 0 1 1 0 0
0 1 2 3 4 5
antes 1 1 0 0 0 0
0 1 2 3 4 5 0 1 2 3 4 5
Depois 1 1 0 1 0 0 el.1 1 0 0 1 0 0
el.2 0 1 0 1 0 0
76
5.3.1.8 Manter o melhores
CONTROLES
SE hk ENTO caso
Esta regra indica que os SNPs gi e gj, com hapltipos hk (Tabela 5.3) so
classificados como casos, ou seja, estes hapltipos demonstram uma associao
positiva, ou de risco com a doena estudada. Aquele hapltipo que apresenta proteo
ser do tipo SE hk ENTO controle.
Haplotipo(hk) 00 01 02 10 11 12 20 21 22
gi 0 0 0 1 1 1 2 2 2
gj 0 1 2 0 1 2 0 1 2
77
Um hapltipo uma combinao dos gentipos gi e gj,. A Tabela 5.3 mostra
que para dois SNPs existe em total 9 hapltipos.
CONJUNTO DE TESTE.
78
FP (Falsos positivos) = total de instancias controles no conjunto de teste
cobertos pelas regras casos do conjunto de regras;
Conjunto Teste
Testecasos Testecontroles
Conjunto
Regrascasos VP FP
Regras
Regrascontroles FN VN
hapltipos
classificados Conjunto Teste
Testecasos Testecontroles
Comparao
Conjunto
Regrascasos VP FP
Regras
Dados de
teste
Figura 5.13: Fluxo do processo para gerar a Tabela de verdadeiros e falsos positivos
e negativos.
79
5.6 PASSO 6: AVALIAO DE DESEMPENHO DA METODOLOGIA
80
J que existe um contrabalano entre estas duas propriedades, de tal modo que
quando uma delas aumenta a outra diminui e vice-versa, utilizaremos a soma das duas
[Medronho R., 2009].
Curvas ROC
Por exemplo, para uma Tabela 2x2 como a Tabela 5.5 o Odds-ratio (OR)
definido pela equao 5.10:
Casos Controles
Exposio Sim a b
fator risco No c d
81
O odds-ratio calculado pela equao
[5.10]
Teste de significncia
82
Locus2
BB Bb bb
AA a b c
Locus1
Aa d e f
aa g h i
Locus2
B B
AA 2a+b 2c+b
Locus1
Aa 2d+e 2f+e
aa 2g+h 2i+h
Esta Tabela de novo colapsada em uma Tabela 2x2 como a Tabela 5.8
B b
A C=4a+2b+2d+e D=4c+2b+2f+e
a E=4g+2h+2d+e F=4i+2h+2f+e
83
Com os dados desta Tabela, agora possvel calcular a OR=CF/ED entre os
loci A e B e seu SE para casos e controles em forma separada.
Pode se assumir que os dados seguem uma distribuio normal pelo qual
podemos escolher o teste estatstico Z score. O teste estatstico Z obtido calculando
a diferencia entre as OR em casos e controles, segundo a equao 5.11:
Intervalo de confiana
84
5.7 SNTESE DO CAPTULO
85
CAPTULO 6: EXPERIMENTOS COMPUTACIONAIS
Neste captulo so apresentados os resultados dos experimentos
computacionais realizados em conjuntos de dados simulados e com dados reais.
Tipicamente, os dados podem vir de observaes do mundo real, com conhecidas
associaes, ou de dados simulados, gerados segundo modelos de dados que
apresentam efeitos epistticos em conhecidos loci funcionais. Dados reais so
preferidos sobre os simulados, j que os modelos utilizados para gerar as simulaes
poderiam no representar da forma precisa processos biolgicos complexos que
envolvem as doenas humanas. Lastimosamente, se tem poucas referencias sobre
interaes epistticas que foram descobertas e replicadas. Este o motivo pelo qual se
deve recorrer a simulaes para avaliar o desempenho de algoritmos para GWAS.
86
so utilizados pelo programa Plink e tornaram-se formatos padro em GWAS (Tabela
6.1). O arquivo .ped contem os valores dos gentipos e informao referente s
amostras. O arquivo .map contem a descrio de cada marcador (SNP) descrito em
quatro variveis. Finalmente, estes arquivos foram convertidos a um formato binrio
para otimizar seu tratamento.
.ped .map
87
no eixo X, e Pr(IBD=0)=0 no eixo Y. O IBD=1 significa que duas amostras
compartilham 100% de seus alelos, o que pode indicar que estas amostras esto
duplicadas ou que possuem algum nvel de parentesco. A Figura 6.1b indica que
existe um par de irmos no canto inferior esquerdo, onde Pr(IBD=0)=0 e
Pr(IBD=1)=0. Isto significa que este par de amostras compartilham 2 alelos idnticos
por descendncia em cada lcus do genoma. Isto pode ser uma indicao de amostra
duplicada ou um conjunto de gmeos idnticos. Os pontos no quadrante inferior
direito do grfico sugerem algumas amostras relacionadas, provavelmente em
segundo ou terceiro grau de parentesco. O grfico da Figura 6.1b d uma pista sobre
a escolha do limiar para corrigir potenciais problemas de identidade das amostras.
88
Tamanho do conjunto de Antes do pr Depois do pr
dados processamento processamento
89
0.03
CE
U
CHB+JPT
YRI
Figura 6.1c. Agrupamento ancestral baseado em Figura 6.1d Proporo de falha de gentipos
amostras de referencia de Hapmap3: CEU que permaneceram no conjunto de dados depois
(populao europia), CHB+JPT (populao da remoo das amostras que falharam no
asitica) e YRI (populao africana). Cada ponto Controle de qualidade. A linha tracejada indica o
no grfico corresponde a uma amostra. Aquelas limiar escolhido de 3% para a remoo dos
que esto fora dos 3 grupos (em crculos) marcadores.
apresentam problemas de estrutura populacional
e foram removidas do estudo.
MIGA-2L
Para compreender as causas subjacentes de doenas de caractersticas
complexas, muitas vezes necessrio considerar os efeitos genticos conjuntos
tambm conhecido como epistasis atravs de todo o genoma. O conceito de epistasis
discutido no captulo 3, geralmente definido como a interao entre diferentes
genes. Aqui utilizaremos o algoritmo MIGA-2L, considerando a definio de epistasis
estatstica, para descrever o fenmeno biolgico que um lcus com efeito sobre o
fentipo dependente de outro lcus. Desta forma, a anlise matemtica de epistasis
fica mais simples.
90
definido devido abreviao, do ingls, de mtual information genetic algorithm para
2 loci. O programa Plink utilizado amplamente pela comunidade cientfica em
GWAS. O algoritmo utilizado no modulo fast-epistasis, de Plink, foi descrito no
capitulo 4 como um mtodo de busca no exaustiva. Na comparao tambm foram
utilizadas medidas de desempenho epidemiolgicas tanto quanto computacionais
descritas no captulo 5.
Plink: Para cada par de SNPs, PLINK aplica regresso logstica sobre o
modelo P ~ 0 + 1 * Snp1 + 2 * Snp2 + 3 * Snp1 * Snp2 + , onde P o fentipo
estudado. Neste estudo foi considerado o parmetro epistasis do programa.
Um modelo episttico com efeito principal aquele que descreve SNPs com
efeito individual moderado ou grande sobre a doena e, um modelo episttico com
efeito fraco ou sem efeito principal aquele que descreve SNPs com pouco ou
nenhum efeito individual, mas que apresentam forte influencia quando esto atuando
em conjunto. Um exemplo foi descrito no capitulo 3 na Figura 3.3.
91
Conjunto de dados considerando loci com efeito principal
O conjunto de dados considerando loci com efeito principal foi gerado por Xai
Wan et al. (2010). Nestas simulaes, quatro modelos epistticos foram considerados
(Tabela 6.3). Cada modelo foi divido em trs grupos segundo sua herdabilidade e seu
MAF; cada grupo consta de 100 arquivos. Foi considerada uma prevalncia da doena
na populao igual a 0.1. O modelo 1 um modelo multiplicativo [MARCHINI et al,
2005]. O modelo 2 um modelo episttico [NEUMAN & RICE, 1992], que foi usado
para descrever doena lateral [LEVY J. and NAGYLAKI T., 1992] e a cor do suno
[LERNER 1968]. O modelo 3 um modelo clssico episttico [FRANKEL &
SCHORK, 1996; LI & REICH, 2000]. O modelo 4 conhecido como o modelo XOR.
92
Cada arquivo de dados de gentipos possui dois SNPs funcionais que
interagem com o efeito principal. O objetivo do experimento que os algoritmos
identifiquem esses SNPs funcionais. Assim, foi computado para cada grupo as vezes
que cada algoritmo fez a identificao correta. As Figura s 6.2a e 6.2b exibem os
resultados obtidos nos experimentos realizado com Plink e MIGA-2L. O eixo vertical
indica a quantidade de acertos que definido como a proporo dos 100 conjuntos de
dados onde a interao de SNPs funcionais identificada. A ausncia de barra
significa nenhum acerto.
100 100
98
80
96
Acertos
60 94
Acertos 92
40
90
20
88
0 86
MAF 0.1 MAF 0.2 MAF 0.4 MAF 0.1 MAF 0.2 MAF 0.4
100 100
80 80
Acertos
60 60
Acertos
40 40
20 20
0 0
MAF 0.1 MAF 0.2 MAF 0.4 MAF 0.1 MAF 0.2 MAF 0.4
Figura 6.2b: No modelo 3 pode se notar que Plink no tem nenhum acerto com MAF=0.2.
Igualmente no modelo 4, com MAF=0.4. Fato que confirma uma forte dependncia de Plink
com a frequncia allica em modelos genticos heterogneos.
93
Em todos os modelos com efeito principal, MIGA-2L supera em numero de
acertos a Plink. A opo de fast-epistasis de Plink seleciona SNPs com efeito
principal marginal de um nico SNP, ignorando SNPs que poderiam ter um efeito de
interao forte em conjunto com outros SNPs. Enquanto, MIGA-2L consegue capturar
a interao SNP-SNP sem ser confundido pelo efeito principal de um nico lcus.
94
Neste experimento, foram usados todos os 70 modelos puros epistticos sem
efeito principal para comparar o desempenho de MIGA-2L e Plink. A herdabilidade h2
controla a variao fenotpica de estes 70 modelos, atribuindo valores desde 0.01 at
0.4. O MAF varia de 0.2 a 0.4. Os resultados comparativos para os 70 modelos so
mostrados nas Figuras 6.3a at 6.3e. Tambm, como no experimento anterior, pode se
observar uma porcentagem superior de acertos do MIGA-2L sobre Plink. Os detalhes
dos parmetros para a gerao destes 70 modelos epistticos so listados no Apndice
deste documento de tese.
100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Conj. 00 Conj. 01 Conj. 02 Conj. 03 Conj. 04 Conj. 10 Conj. 11 Conj. 12 Conj. 13 Conj. 14
100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Conj. 20 Conj. 21 Conj. 22 Conj. 23 Conj. 24 Conj. 30 Conj. 31 Conj. 32 Conj. 33 Conj. 34
95
100 100
Acertos 80 80
Acertos
60 60
40 40
20 20
0 0
Conj. 05 Conj. 06 Conj. 07 Conj. 08 Conj. 09 Conj. 15 Conj. 16 Conj. 17 Conj. 18 Conj. 19
Figura 6.3b: Taxa de acerto obtido nos Modelos 2 e 4 para MAF=0.4. MIGA-2L
supera a Plink no numero de acertos.
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Conj. 25 Conj. 26 Conj. 27 Conj. 28 Conj. 29 Conj. 35 Conj. 36 Conj. 37 Conj. 38 Conj. 39
Figura 6.3c: Nos modelos 6 e 8 MIGA-2L continua com 100% de acertos enquanto
Plink apresenta nenhum acerto em alguns conjuntos de dados. No modelo 8 Plink
diminui sua taxa de acerto porque fica afetado com a diminuio da taxa de
herdabilidade.
96
100 100
80 80
60 60
Acertos
Acertos
40 40
20 20
0 0
Conj. 40 Conj. 41 Conj. 42 Conj. 43 Conj. 44 Conj. 50 Conj. 51 Conj. 52 Conj. 53 Conj. 54
80 80
Acertos
Acertos
60 60
40 40
20 20
0
0
Conj. 55 Conj. 56 Conj. 57 Conj. 58 Conj. 59
Conj. 45 Conj. 46 Conj. 47 Conj. 48 Conj. 49
Plink miga-2l
Plink miga-2l
Modelo 10: h2 0.05 e MAF 0.4 Modelo 12: h2 0.025 e MAF 0.4
Figura 6.3d: Estes modelos seguem o padro dos modelos anteriores mostrados na
Figura 6.3c.
70 100
60
80
50
Acertos
Acertos
40 60
30 40
20
20
10
0 0
Conj. 60 Conj. 61 Conj. 62 Conj. 63 Conj. 64 Conj. 65 Conj. 66 Conj. 67 Conj. 68 Conj. 69
Modelo 13: h2 0.01 e MAF 0.2 Modelo 14: h2 0.01 e MAF 0.4
97
Plink e MIGA-2L apresentam problemas para identificar os SNPs funcionais
quando a taxa de herdabilidade diminui e a frequncia de alelo menor aumenta
MAF=0.4. Como pode se ver nos modelos 13 e 14, mostrados na Figura 6.3e, onde
conjuntos de dados tm nenhum acerto ou uma porcentagem muito baixa de acertos.
Isto deve-se a que o coeficiente h2 tem influenciado a taxa de penetrncia em
valores muito baixos, dificultando a identificao da proporo da variao no
fentipo que atribuvel ao gentipo. Nestes casos de herdabilidade e penetrncia
baixas, fatores ambientais deveriam ser considerados para ajudar uma melhor
identificao dos SNPs de risco.
Figura 6.4: Plink assume que os dados seguem um modelo aditivo para dessa forma
colapsar as 3 categorias de gentipos em uma Tabela de contingencia de alelos 2x2.
98
6.2.2 EXPERIMENTOS SOBRE DADOS REAIS: DIABETES TIPO I
99
Este conjunto de dados foi submetido ao controle de qualidade descrito no
captulo anterior. Uma anlise inicial dos dados foi feita utilizando o grfico de
Manhattan (Figura 6.5). Este grfico fornece uma forma de visualizar cada SNPs
atravs dos cromossomos humanos posicionando-o como um ponto no grfico, onde a
altura corresponde fora de associao desse SNP com a doena expressada pelo
log10 do p-valor obtido utilizando a estatstica Chi-quadrado. Os pontos localizados
acima de certo limiar, por exemplo um p-valor > 10E-5, poderiam ser considerados
como altamente suspeitos, ou seja eles podem ser SNPs apresentando associao com
a doena estudada ou poderiam ser SNPs com erros de genotipagem. No grfico de
Manhatan da Figura 6.5 pode-se observar um pico que esta localizado no
cromossomo 6. Este cromossomo altamente polimrfico e, por essa razo, foi
estudado com mais detalhe neste trabalho.
100
Como foi descrito no captulo anterior, o controle de qualidade foi realizado
primeiro avaliando a qualidade das amostras e posteriormente a qualidade dos
marcadores. Nesta anlise a quantidade de SNPs que passaram o controle de
qualidade foi de 352,538 SNPs dos 500,000 SNPs originais. A Figura 6.6 apresenta o
workflow conceitual a que foi submetido utilizando o motor de workflow Quiron,
com os tempos computacionais por cada tarefa, assim como o tempo total empregado
para remoo das amostras e para remoo dos marcadores que no passaram no
controle de qualidade.
101
Tempo Computacional
102
O tamanho da amostra analisada foi de 35,865 SNPs sobre um total de 4,612
indivduos, sendo 2,646 controles e 1,966 casos. A Figura 6.8 mostra o grfico de
Manhattam para o cromossomo 6, onde se pode observar alguns picos de associao
de 1 nico lcus.
Outro tipo de grfico muito interessante Q-Q plot, este grfico mostra no
eixo X a distribuio esperada de gentipos usando o teste estatstico Chi-quadrado,
comparado a sua distribuio observada no eixo Y. A Figura 6.8a apresenta o Q-Q
plot para os dados pertencentes ao cromossomo 6 de T1D. Note que a linha tracejada
serve para indicar a tendncia que os dados deveriam seguir. Desvios da linha podem
sugerir associao desses dados com a doena estudada.
103
associao. Com isto, pode-se estimar que resultados interessantes se encontram
escondidos nos dados e que certamente uma anlise grfico pode estar excluindo
interaes significantes como aquelas sem efeito principal.
Figura 6.9a: Grfico Q-Q dos valores Figura 6.9b: Grfico Q-Q obtido com
observados e valores esperados da dados de gentipos de SNPs no
computao da associao utilizando um localizados na regio HLA.
teste estatstico chi-quadrado.
104
o computo das odds ratio (OR) e o intervalo de confiana computado sobre cada
hapltipo das interaes listadas na Tabela 6.6.
AABB 1.07 0.94-1.22 1.06 0.93-1.21 1.06 0.93-1.21 1.06 0.93-1.21 1.05 0.92-1.20
AABb 0.78 0.59-1.03 0.79 0.6-1.04 0.79 0.6-1.04 0.77 0.58-1.02 0.77 0.61-0.97
AAbb 0.5 0.16-1.56 0.5 0.16-1.56 0.5 0.16-1.56 0.58 0.21-1.63 0.53 0.22-1.25
AaBB 0.6 0.17-1.73 Na Na Na Na Na Na Na Na
AaBb 0.98 0.87-1.09 0.98 0.87-1.09 0.98 0.87-1.09 0.98 0.87-1.10 1 0.89-1.12
Aabb 1.04 0.8-1.35 1.03 0.79-1.35 1.02 0.78-1.34 1.02 0.78-1.34 1.07 0.84-1.36
aaBB Na Na Na Na Na Na Na Na Na Na
aaBb 0.05 0.01-0.21 0.03 0.00-0.19 0.03 0.00-0.19 0.03 0.00-0.19 0.03 0.00-0.18
aabb 1.17 1.01-1.34 1.17 1.02-1.34 1.17 1.02-1.35 1.17 1.02-1.35 1.17 1.01-1.35
Tabela 6.7 Valores das Odds-ratio e seu intervalo de confiana de cada hapltipo das
interaes SNP-SNP identificadas no cromossomo 6 para T1D. O hapltipo recessivo
aabb (resaltado na Tabela) apresenta uma OR > 1, indicando uma associao positiva
com T1D. Os alelos recessivos so as formas mais graves de mutao j que perderam
o stio de reconhecimento que seria utilizado na transcrio de protenas.
Como era esperado, a maioria dos estudos GWA para fentipos discretos,
apresentam valores de OR detectveis entre 1,1 e 1,3 [Goldstein D.B, 2009]. Assim,
na Tabela 6.7 o hapltipo recessivo mostra uma OR de 1,17 que pode-ser interpretado
como que os indivduos portadores de este hapltipo apresentam um incremento no
105
risco de desenvolvimento da doena entre 15% e 20% comparados com os no
portadores.
Tempo computacional
106
de diabetes tipo 1 assim como de doenas como Parkinson e hansenase. Tem que ser
mencionado aqui que fatores ambientais tambm influenciam e tem que ser
considerados, mas estes achados podem ser referidos adicionalmente como uma
explicao alternativa para a etiologia da T1D na populao do Reino Unido.
Figura 6.10 Via de interao gnica do gene PACRG o qual interage genes como
SYT11, PARK2 e SLC11A1. Estudos mostram que estes genes esto associados a
T1D e outras doenas como Parkinson e hansenase [Fonte: Raquel Barbosa
INCA/Rio de Janeiro].
107
tipo1 (T1D). A Tabela 6.8 mostra o nmero de SNPs que restaram depois do pr-
processamento dos dados sobre o cromossomo 6.
SNP1 SNP2
rs734960 rs9504552
rs9504552 rs7739310
rs2517595 rs2523995
rs734960 rs539703
rs2394401 rs2523995
Tabela 6.9a: Interaes SNP-SNP identificadas em CAD.
108
SNP1 SNP2
rs554158 rs6454756
rs554158 rs6934594
rs554158 rs3798867
rs554158 rs9456734
rs554158 rs9493450
rs554158 rs211218
Tabela 6.9b: Interaes SNP-SNP identificadas em HT.
SNP1 SNP2
rs2747436 rs29254
rs2438083 rs977674
rs2438083 rs977673
rs1729549 rs1190806
Tabela 6.9c: Interaes SNP-SNP identificadas em BD.
SNP1 SNP2
rs11758386 rs683831
rs311210 rs683831
rs4314501 rs683831
rs7756217 rs683831
rs236949 rs683831
Tabela 6.9d: Interaes SNP-SNP identificadas em TD2.
109
6.5 Sntese do captulo
110
CAPTULO 7: CONCLUSO E TRABALHOS FUTUROS
O problema GWAS consiste principalmente em descobrir quais so os
marcadores genticos que so relevantes em relao com a doena estudada,
utilizando um conjunto de dados de gentipos de indivduos em escala genmica. Na
busca de uma metodologia eficiente para realizar esta anlise foi encontrado que os
mtodos de data mining mostram-se adequados para o tratamento destes dados j que
as etapas mais importantes e informativas so as de pre-processamento e seleo.
No mbito que este trabalho de tese foi desenvolvido, visando oferecer uma
metodologia livre de erros metodolgicos e fornecer de forma rpida e simples a
obteno dos resultados, que so apresentados com medidas de desempenho
computacionais tanto como epidemiolgicas, demonstrando sua aplicabilidade em
dados reais como a identificao de padres que distinguem doenas como diabetes
tipo 1.
Estudos GWA tem vrios problemas e limitaes que podem ser atendidos por
meio do controle de qualidade adequado e bom desenho do estudo. A obteno dos
dados de gentipos de tamanho suficiente para anlise deixou de ser um problema
graas s tecnologias de genotipagem cada vez mais precisas e accessveis que
permitem sequenciar o genoma completo de vrios indivduos. Por isso, uma vez
superadas questes como um desenho de estudo bem definido de grupos de casos e
controles e um tamanho de amostra suficiente, o principal desafio o tratamento
desses dados de alta dimensionalidade.
111
A proposta apresentada neste trabalho toma proveito das vantagens de um
motor de workflow para auxiliar em todo o processo de GWAS. Sua utilizao
fornece integrao, sequencialidade e interao com o usurio fornecendo informao
necessria para facilitar a tomada de decises. Cada etapa da metodologia toma
especial cuidado de forma a evitar ou minimizar os erros que possam enviesar os
resultados do estudo. O primeiro passo da metodologia considera mltiplos critrios
que envolvem certa complexidade. Estes critrios foram abordados utilizando uma
estratgia de otimizao para evitar a eliminao de dados de gentipos e/ou amostras
que possam ser relevantes para a identificao da associao. Estes passos crticos so
fundamentais para o sucesso de um estudo de caso-controle e so necessrios antes do
teste de associao. Alm disso, os programas e algoritmos selecionados para este
primeiro passo so amigveis ao usurio, amplamente difundidos na comunidade
cientfica e computacionalmente eficientes. O processo de controle de qualidade dos
dados demora menos de 2 horas para uma amostra de 317,503 SNPs e 2,000
indivduos.
112
7.2 Trabalhos Futuros
113
arranjos de expression gnica de todo o genoma sobre tecidos relevantes), em paralelo
com os estudos GWA, a fim de facilitar a interpretao biolgica.
114
REFERNCIAS BIBLIOGRFICAS
ALMGREN P., BENDAHL P.O., BENGTSSON H., HOSSJER O. AND
PERFEKT R., 2003, Statistic in Genetics. Lund University, Lund Institute of
Technology, Centre for Mathematical Sciences, Mathematical Statistic.
CARDON L.R. AND BELL J.I., 2001, Association study designs for
complex diseases, Nature Reviews in Genetics, v.2, pp. 91-99.
115
CLARK, T.G., DE LORIO, M., GRIFFITHS, R.G., FARRALL, M., 2005,
Finding Association in Dense Genetic Maps: A Genetics Algorithm Approach.
Human Heredity, v.60, pp. 97108.
COVER T., THOMAS J., July 2006, Elements of the Information theory, 2nd
edition, John Wiley & Sons, Inc.
DEWAN A., LIU M., HARTMAN S., ZHANG S.S., LIU D.T., ZHAO C.,
TAM P.O., CHAN W.M., LAM D.S., SNYDER M. HTRA1 promoter polymorphism
in wet age-related macular degeneration. Science. 2006;314:989992.
DUDA R.O., HART P.E., STORK D.G., 2001, Pattern Classification, 2nd
edition, John Wiley & Sons, Inc.
116
ERICHSEN, H. C. AND CHANOCK, S. J., 2004, SNPs in cancer research
and treatment, British Journal of Cancer, v.90, pp. 747751.
GREENE CS, WHITE BC, MOORE JH., 2008, Ant Colony Optimization for
Genome-Wide Genetic Analysis, Lect Notes Comput Sci., v.5217, pp. 37-47.
117
GREENE CS, WHITE BC, MOORE JH., 2009, May 18, Sensible
Initialization Using Expert Knowledge for Genome-Wide Analysis of Epistasis Using
Genetic Programming, Genet Evol Comput Conf., pp.1289-1296.
HAGENAUER, J., DAWY, Z., GOEBEL, B., HANUS, P., MUELLER, J.C.,
2004. Genomic analysis using methods from information theory. IEEE Information
Theory Workshop (ITW 2004), 55-59.
118
KEMPTHORNE O, 1968, "The correlation between relatives on the
supposition of mendelian inheritance", American Journal of Human Genetics, 20:
402.
KLEIN R.J., ZEISS C., CHEW E.Y., TSAI J.Y., SACKLER R.S., HAYNES
C., HENNING A.K., SANGIOVANNI J.P., MANE S.M., MAYNE S.T., 2005,
Complement factor H polymorphism in age-related macular degeneration, Science,
v.308: pp.385389.
LI NN, CHANG XL, MAO XY, ZHANG JH, ZHAO DM, TAN EK, PENG
R., 2012, GWAS-linked GAK locus in Parkinson's disease in Han Chinese and meta-
analysis, Hum Genet., v.131(7): pp.1089-93.
119
of quantitative traits in genome-wide association studies, BMC Bioinformatics, v.9,
pp.315.
MILLER D.J., ZHANG Y., YU G., LIU Y., CHEN L., LANGEFELD C.D.,
HERRINGTON D, WANG Y., 2009, An algorithm for learning maximum entropy
probability models of disease risk that efficiently searches and sparingly encodes
multilocus genomic interactions, Bioinformatics, v. 25, n.19, pp.2478-2485.
MOORE JH, HAHN LW, RITCHIE MD, THORNTON TA, WHITE BC.,
2004, Routine Discovery of Complex Genetic Models using Genetic Algorithms,
Appl Soft Comput, v. 4, n.1, pp. 79-86.
120
MOTSINGER-REIF AA, FANELLI TJ, DAVIS AC, RITCHIE MD., 2008,
Power of grammatical evolution neural networks to detect gene-gene interactions in
the presence of error, BMC Res Notes., v. 1, n.65, pp. 1-8.
MPICH.http://www.mcs.anl.gov/research/projects/mpich2/overview, visited
June, 2011.
NEUMAN R.J. and RICE J.P., 1992 , Two-locus models of disease, Genetic
Epidemiology, vol. 9, n.5:pp. 347365.
PARK MY, HASTIE T., 2008, Penalized logistic regression for detecting
gene interactions, Biostatistics, v.9, n.1, pp. 30-50.
PARKES M et al., 2007, Sequence variants in the autophagy gene IRGM and
multiple other replicating loci contribute to Crohn's disease susceptibility, Nat
Genet., 39(7):pp. 830-2.
121
RITCHIE MD, HAHN LW, ROODI N, BAILEY LR, DUPONT WD, PARL
FF, MOORE JH., 2001, Multifactor-dimensionality reduction reveals high-order
interactions among estrogen-metabolism genes in sporadic breast cancer,
Am.J.Hum.Genet., v.69, n.1, pp.138-147.
SHAH, S., KUSIAK, A., 2004, Data mining and genetic algorithm based
gene/SNP selection, Artificial Intelligence in Medicine, v. 31, pp.183196
VELEZ DR, WHITE BC, MOTSINGER AA, BUSH WS, RITCHIE MD,
WILLIAMS SM, MOORE JH, 2007, A balanced accuracy function for epistasis
modeling in imbalanced datasets using multifactor dimensionality reduction, Genet
Epidemiol., v.31, n.4, pp.306-315.
122
VISSCHER PM, BROWN MA, MCCARTHY MI, YANG J, 2012, Five
years of GWAS discovery, Am J Hum Genet., 90(1):7-24.
YANG, C., WAN, X., YANG, Q., XUE, H., YU, W., 2010, Identifying main
effects and epistatic interactions from large-scale snp data via adaptive group lasso,
BMC Bioinformatics , v.11, Suppl 1, S18.
123
ZHANG X, ZOU F, WANG W. FastANOVA: an Efficient Algorithm for
Genome-Wide Association Study, Proc. KDD, 2008. pp. 821829.
ZHANG X, PAN F, XIE Y, ZOU F, WANG W., 2011, Tools for efficient
epistasis detection in genome-wide association study, Source Code Biol Med., v.6,
n.1(Jan), pp.1.
124
APNDICE
A1. Informao Mutua de duas variveis aleatrias
[1]
125
diagrama de Venn (Figura 1a) na qual a entropia das variveis H(X) e H(Y) so
representadas por dois conjuntos sobrepostos. A entropia das duas variveis
representada pela unio de estes conjuntos, e a informao mtua de X e Y
representada por sua interseo. Tambm a entropia condicional est representada no
diagrama que indicada pela subtrao dos conjuntos, de modo que, por exemplo, o
conjunto representado por H(X|Y) resulta de subtrair o conjunto representando H(Y)
do conjunto representando por H(X).
Figura 1a: Informao mutua de duas variveis. Figura 1b: Informao mutua de trs variveis.
126
Isto significa a reduo da informao mtua comum para duas variveis
devido ao conhecimento de uma terceira varivel.
127
Daqui, a funo discriminante definida como igual a sua probabilidade
posterior:
128
Na simulao, a prevalncia e a herdabilidade h2 so controladas pelos
parmetros e da Tabela A1. Primeiro os valores da prevalncia e herdabilidade so
determinados para depois resolver numericamente os parmetros ( e ) baseados nas
equaes correspondentes.
Modelo 1 BB Bb bb
AA
Aa (1+) (1+)2
AA (1+) (1+)4
Modelo 2 BB Bb bb
AA (1+) (1+)
Aa (1+)
aa (1+)
Modelo 3 BB Bb bb
AA (1+)
Aa (1+)
aa (1+) (1+)
Modelo 4 BB Bb bb
AA (1+)
Aa (1+) (1+)
aa (1+)
129
A4. Conjunto de dados sem efeito principal.
Tabela A2: Valores de penetrncia dos 70 modelos epistticos com seus parmetros
de herdabilidade h2 e MAF respectivos.
Conjunto 00 Conjunto 05
Conjunto 01 Conjunto 06
Conjunto 02 Conjunto 07
Conjunto 03 Conjunto 08
Conjunto 04 Conjunto 09
130
Conjunto 10 Conjunto 15
Conjunto 11 Conjunto 16
Conjunto 12 Conjunto 17
Conjunto 13 Conjunto 18
Conjunto 14 Conjunto 19
Conjunto 20 Conjunto 25
Conjunto 21 Conjunto 26
Conjunto 22 Conjunto 27
Conjunto 23 Conjunto 28
Conjunto 24 Conjunto 29
131
Conjunto 30 Conjunto 35
Conjunto 31 Conjunto 36
Conjunto 32 Conjunto 37
Conjunto 33 Conjunto 38
Conjunto 34 Conjunto 39
Conjunto 40 Conjunto 45
Conjunto 41 Conjunto 46
Conjunto 42 Conjunto 47
Conjunto 43 Conjunto 48
Conjunto 44 Conjunto 49
132
Conjunto 50 Conjunto 55
Conjunto 51 Conjunto 56
Conjunto 52 Conjunto 57
Conjunto 53 Conjunto 58
Conjunto 54 Conjunto 59
Conjunto 60 Conjunto 65
Conjunto 61 Conjunto 66
Conjunto 62 Conjunto 67
Conjunto 63 Conjunto 68
Conjunto 64 Conjunto 69
133