Estudos Genéticos

UMA METODOLOGIA PARA A DESCOBERTA DE MARCADORES GENTICOS
EM ESTUDOS DE ASSOCIAO
Margarita Ramona Ruiz Olazar
Tese de Doutorado apresentada ao Programa

de Ps-graduao em Engenharia Eltrica,
COPPE, da Universidade Federal do Rio de
Janeiro, como parte dos requisitos
necessrios obteno do ttulo de Doutor
em Engenharia Eltrica.
Orientador: Prof. Eugenius Kaszkurewicz
Rio de Janeiro
Maio de 2013
TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ

COIMBRA DE PS-GRADUAO E PESQUISA DE ENGENHARIA (COPPE) DA
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS
REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE DOUTOR EM
CINCIAS EM ENGENHARIA ELTRICA.
Examinada por:
_________________________________________
Prof. Eugenius Kaszkurewicz, D.Sc.
__________________________________________
Prof. Amit Bhaya, Ph.D.
__________________________________________
Prof. Alberto Martin Rivera Davila, D.Sc.
__________________________________________
Prof. Beatriz de Souza Leite Pires de Lima, D.Sc.
_________________________________________
Prof. Andre Ponce de Leon F. de Carvalho, D.Sc.
RIO DE JANEIRO, RJ - BRASIL

MAIO DE 2013
Olazar, Margarita Ruiz
Uma metodologia para a descoberta de marcadores
genticos/ Margarita Ramona Ruiz-Olazar. Rio de Janeiro:
UFRJ/COPPE, 2013.
XVI, 133 p.: il.; 29,7 cm.
Orientador: Eugenius Kaszkurewicz
Tese (doutorado) UFRJ/ COPPE/ Programa de
Engenharia Eltrica, 2013.
Referencias Bibliogrficas: p. 115-124.
1. Estudos de associao do genoma inteiro. 2.
Polimorfismo de nucleotdeo nico. 3. Informao mtua 4.
Algoritmos genticos. I. Kaszkurewicz, Eugenius. II.
Universidade Federal do Rio de Janeiro, COPPE, Programa
de Engenharia Eltrica. III. Titulo.
iii
Em memria de minha irm, Carmen Mercedes Ruiz Olazar (19622013).
iv
AGRADECIMENTOS
A Deus, por todas as oportunidades e bnos na minha vida.
A minha famlia que sempre acreditou no meu potencial e me deu seu apoio
incondicional em todos os momentos de minha existncia. A minha me, meus irmos e
irms, meus sobrinhos e sobrinhas, por me dar sempre a fora e o alento necessrios
nestes anos longe de casa.
Ao professor Eugenius Kaszkurewicz, quem me acolheu como sua orientada e

possibilitou que a minha experincia como aluna de doutorado fosse a mais proveitosa
possvel. Agradeo-lhe pelo inestimvel apoio e pela dedicao do seu tempo
determinantes para o sucesso deste trabalho.
Ao professor Amit Bhaya, pela ajuda e esforo para que esta pesquisa pudesse
ter um curso proveitoso e produtivo.
Aos colegas Marcelo Ribeiro Alves da Fiocruz e Raquel Barbosa do INCA por
sua amizade, carinho, colaborao sincera e preciosa ajuda que tornaram esta pesquisa
apaixonante.
A meus amigos, do NACAD - Ncleo de Atendimento de Computao de Alto

Desempenho, por sua cordial acolhida, amizade e ajuda.
Universidade Federal do Rio de Janeiro, e em especial ao Programa de

Engenharia Eltrica da COPPE por ter contribudo para minha formao e ter recebido e
dado oportunidade a uma estudante paraguaia.
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPQ)

pelo fundamental apoio financeiro para o cumprimento desta pesquisa.
Meus sinceros agradecimentos!
v
Resumo da Tese apresentada COPPE/UFRJ como parte dos requisitos necessrios
para a obteno do grau de Doutor em Cincias (D.Sc.)

Maio/2013
Orientador: Eugenius Kaszkurewicz
Programa: Engenharia Eltrica
Este trabalho desenvolve uma metodologia para ajudar a descobrir marcadores

genticos (ex. SNPs, do ingls, Single Nucleotide Polymorphims) em Estudos de
associao do genoma inteiro (GWAS, do ingls, Genome Wide Association Studies),
abrangendo desde aspectos fundamentais do controle de qualidade dos dados at a
identificao dos hapltipos potenciais de risco de desenvolvimento da doena
estudada. Foram feitos testes com 82 conjuntos de dados de diferentes modelos
epistticos gerados atravs de simulaes e tambm com 5 conjuntos de dados reais de
doenas complexas (Diabetes Mellitus tipo 1, Diabetes Mellitus tipo 2, Desordem
bipolar, Hipertenso e Doena arterial coronria), estes dados so provenientes da
Wellcome Trust Case Control Consortium (WTCCC) do Reino Unido. Para identificar
os SNPs que interagem com a doena estudada foi desenvolvido um algoritmo,
chamado MIGA-2L, que esta baseado na teoria da informao mtua em combinao
com um algoritmo gentico executado sobre mascaras de grupos de SNPs com o
objetivo de otimizar a busca. Tambm foi feita uma anlise comparativa do MIGA-2L
com o programa Plink, executado sobre um cluster SGI Altix ICE 8400 utilizando os
conjuntos de dados mencionados anteriormente. Os resultados obtidos, mostrados tanto
com medidas de desempenho computacionais como epidemiolgicas, confirmam que a
metodologia proposta pode ser uma ferramenta computacional til e rpida para realizar
GWAS em dados reais.
vi
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (D.Sc.)
A METHODOLOGY TO DISCOVER GENETIC MARKERS IN ASSOCIATION

STUDIES
May/2013
Advisor: Eugenius Kaszkurewicz
Department: Electrical Engineering
This work presents a methodology to discover genetic markers (SNPs) in GWAS

covering from fundamental aspect of data quality control until the identification of the
haplotypes that suggest risk of developing of the disease under study. The presented
methodology is based on workflow technologies to take advantage of the flexible
characteristics offered by the workflow engine to model and manage resources and
reduce the time needed to perform the complex analysis involved in the fundamental
steps in a GWAS, starting from raw data. A algorithm for test interaction SNP-SNP
was developed, called MIGA-2L, that is based on mtual information in combination
with a genetic algorithm that runs on masks of groups of SNPs to optimize the search.
The methodology was tested on 82 different epistatic models of simulated datasets and
also on five WTCCC dataset (Diabetes Type 1, Diabetes Type 2, Coronary artery
disease, Hypertension and Bipolar disorder) from United Kingdom. A comparative
analysis of the algorithm MIGA-2L was performed with the program Plink which is
typically used in this type of association studies, these experiment were ran on a cluster
SGI Altix ICE 8400 using the dataset mentioned above. Showing these results with
computational as epidemiologic performance measures. The results obtained confirm
that this methodology can be a useful computational tool to perform genome-wide case-
control studies on real datasets.
vii
NDICE
1. Introduo ............................................................................................................. 1
1.1 Motivao ............................................................................................................ 1
1.2 Estudos de Associao Genmica ....................................................................... 3
1.3 Identificao interao SNP-SNP......................................................................... 6
1.4 Estrutura do Documento ...................................................................................... 8
1.5 Sntese do captulo ................................................................................................ 8
2. Gentica Humana Bsica ..................................................................................... 9
2.1 A estrutura do material gentico humano ............................................................. 9
2.2 Polimorfismos Genticos.................................................................................... 11
2.3 Posies cromossmicas e loci genticos ........................................................... 14
2.4 Que pode ser medido em laboratrio .................................................................. 15
2.5 Marcadores genticos ......................................................................................... 16
2.6 Obteno de amostras biolgicas ....................................................................... 17
2.7 Fentipo .............................................................................................................. 20
2.8 Sntese do captulo .............................................................................................. 22
3. Estudos de associao do genoma inteiro-GWAS ........................................... 23
3.1 Estudos de Ligao ............................................................................................. 23
3.2 Estudos de Associao ....................................................................................... 23
3.3 Estudos caso-controle ......................................................................................... 24
3.4 Etapas de um estudo de associao genmica ampla ......................................... 26
3.5 Conceptos da gentica de populaes ................................................................ 26
3.5.1 Principio de Hardy-Weinberg .......................................................................... 27
3.5.2 Herdabilidade................................................................................................... 27
3.5.3 Desequilbrio de Ligao (LD) ........................................................................ 28
3.5.4 Ausncia de gentipo....................................................................................... 29
3.5.5 Estratificao da populao ............................................................................. 29
3.5.6 Epistasis ........................................................................................................... 30
3.5.7 Efeitos epistticos e principais ........................................................................ 31
viii
4. Abordagens computacionais para GWAS........................................................ 34
4.1 Mtodos de busca exaustiva ............................................................................... 35
4.2 Mtodos de busca no exaustiva ........................................................................ 44
4.3 Comparao dos mtodos de busca .................................................................... 51
5. Metodologia proposta ......................................................................................... 55
5.1 Passo 1:Pre-processamento do conjunto de dados ............................................. 58
5.1.1 Anlise de controle de qualidade ..................................................................... 59
5.1.2 Critrios de controle de qualidade ................................................................... 60
5.1.3 Workflow Paralelo para controle de qualidade ............................................... 64
5.1.4 Programas Computacionais utilizados ............................................................ 65
5.2 Passo 2: partio dos dados ................................................................................ 66
5.3 Passo 3: Execuo do MIGA-2L para descoberta de SNPs ............................... 68
5.3.1 Algoritmo de MIGA-2L ................................................................................... 68
5.4 Passo 4: Classificao dos hapltipos em casos ou controles ............................ 77
5.5 Passo 5: comparao do conjunto de regras e conjunto de teste ........................ 78
5.6 Passo 6: avaliao de desempenho do algoritmo ............................................... 80
6. Experimentos computacionais ........................................................................... 86
6.1 Pre-processamento dos dados ............................................................................. 86
6.2 Descoberta de SNPs associados a doenas utilizando MIGA-2L ....................... 90
6.2.1 Experimentos com dados simulados ............................................................... 91
6.2.2 Experimentos sobre dados reais: Diabetes tipos 1........................................... 99
6.3 Anlise funcional .............................................................................................. 106
6.4 Experimentos sobre 4 conjuntos de dados da WTCCC1.Cromossomo 6 ........ 107
6.5 Sntese do captulo ............................................................................................ 110
6. Concluso e trabalhos futuros ......................................................................... 111
7.1 Contribuio da tese ......................................................................................... 111
7.2 Trabalhos Futuros ............................................................................................. 113
8. Referncias Bibliogrficas ............................................................................... 115
Apndice ................................................................................................................ 125
ix
LISTA DE FIGURA S
Figura 1.1: Este painel mostra a sequencia de gentipos de 3 indivduos. Pode-se observar dois SNPs
localizados em uma pequena poro do cromossomo 9. Fonte: Manolio 2010, N Engl J Med. .......................... 1
Figura 1.2 Os Gwas listados aqui incluem aqueles estudos que consideram ao menos 100,000 SNPs na
fase inicial. (Fonte http://www.genome.gov/26525384) ...................................................................................... 2
Figura 1.3 Pode-se observar um incremento na descoberta do nmero de loci em relao com o
incremento do tamanho da amostra. Fonte: Visscher et al, 2012. ....................................................................... 5
Figura 2.1: Cariograma dos cromossomos masculinos. (Fonte: Almgen et al, 2003) ...................................... 10
Figura 2.2: estrutura simplificada do cromossomo. (Fonte: Almgen et al, 2003) ............................................ 11
Figura 2.3. Uma ilustrao de uma populao de amostras de 6 SNPs em um cromossomo no genoma, as
setas de cor escura mostram a posio de cada SNP no cromossomo. A letra P referencia ao cromossomo
do Pai e a letra M da Me. .................................................................................................................................. 13
Figura 2.4: loci di-allico ................................................................................................................................. 16
Figura 2.5: Catalogo de marcadores genticos (SNPs) associados a doenas. Na Figura superior pode-se
observar os cromossomos com loci sugeridos por GWAS. Na Figura inferior so referidas as doenas
cujos loci so assinalados nos cromossomos da Figura superior. Este catalogo considera GWAS desde o
ano 2009 at 2012. Fonte: NHGRI GWA Catalog. http://www.genome.gov/GWAStudies/ ............................. 18
Figura 2.6: Imagem do chip Affymetrix. A direita so mostradas as sinais obtidas no processo
experimental. ...................................................................................................................................................... 20
Figura 3.1: A fora da associao entre cada SNPs e a doena calculada com base na prevalncia de
cada SNPs nos casos e controles ........................................................................................................................ 25
Figura 3.2: Epistasis envolvendo a cor da pelagem em camundongos, alelos no lcus A, alteram o efeito
do fentipo dos alelos no lcus B. ...................................................................................................................... 31
Figura 3.3: O grfico mostra 2000 casos e 2000 controles onde o SNP1 e o SNP2 tm a mesma
distribuio em casos e controles, mas sua distribuio conjunta significativamente diferente entre casos
e controles .......................................................................................................................................................... 32
Figura 4.1: Classificao das abordagens computacionais para detectar interao em GWAS.. ..................... 34
Figura 4.2: Viso geral do algoritmo MDR. Basicamente, uma Tabela de contingncia construda para
cada SNP-SNP de forma a fazer uma classificao dos gentipos em alto ou baixo risco. Finalmente,
aqueles gentipos que minimizam o erro de predio sobre os k valores analisados so selecionados como
o melhor modelo. ................................................................................................................................................ 38
Figura 4.3: No modelo de interao lcus x lcus, Plink estima a OR (Odds Ratio) como log (AD/BC) ....... 41
Figura 5.1: Viso geral da metodologia proposta, esquematizada em 5 passos ............................................... 55
x
Figura 5.2: Arquitetura de execuo de Quiron ............................................................................................... 57
Figura 5.3: Fluxo do processo de controle de qualidade dos dados.................................................................. 64
Figura 5.4: Workflow conceptual para o pr processamento dos dados ........................................................... 65
Figura 5.5: A validao cruzada repetida 10 vezes permutando todos os subconjuntos. Cada partio
usada uma vez para teste e exatamente 9 vezes para treino ................................................................................ 67
Figura 5.6. Fluxograma do Algoritmo Gentico .............................................................................................. 70
Figura 5.7 Representao do i-simo elemento da populao AG de comprimento 5, indicando os SNP 1

e SNP5 como ativos ............................................................................................................................................ 71
Figura 5.8. Cruzamento de dois elementos de tamanho 5 e ponto de corte igual a 4. Os bits trocados so
representados pelo sombreamento. Neste caso o ponto de corte produz dois novos elementos com 2 bits
ativos .................................................................................................................................................................. 74
Figura 5.9. Cruzamento com ponto de corte igual a 3. Os bits trocados so representados pelo
sombreamento. Neste caso o ponto de corte produz trs novos elementos com 2 bits ativos ............................ 75
Figura 5.10. Cruzamento com ponto de corte igual a 2. Os bits trocados so representados pelo
sombreamento. Neste caso o ponto de corte produz seis novos elementos com 2 bits ativos ............................ 76
Figura 5.11. O ponto escolhido igual a 3 representado pelo sombreamento. A mutao produz 2 novos
elementos com 2 bits ativos ................................................................................................................................ 76
Figura 5.12: Fluxo do processo para identificar e classificar os hapltipos que apresentam associao
com a doena estudada ....................................................................................................................................... 78
Figura 5.13: Fluxo do processo para gerar a Tabela de verdadeiros e falsos positivos e negativos ................. 79
Figura 6.1a A densidade da amostra indicada pelo sombreamento e as linhas tracejadas denotam o
limiar a ser utilizado como corte. ....................................................................................................................... 89
Figura 6.1b Identificao de amostras duplicadas, a grfico identifica todos os pares de indivduos com
um IBD > 0.185. Aquelas amostras com IBD inferior a este limiar sero removidas. ....................................... 89
Figura 6.1c. Agrupao ancestral baseado em amostras de referencia Hapmap3: CEU(vermelho),

CHB+JPT (prpura) e YRI (verde). Cruzamento das amostras (preto). ............................................................. 90
Figura 6.1d Proporo de gentipos ausentes que permaneceram no conjunto de dados depois da
remoo dos indivduos que falharam no QC das amostras ............................................................................... 90
Figura 6.2a: Neste dois modelos MIGA-2L supera na porcentagem de acertos a Plink. Estes so modelos
considerados no Plink, mas quando a frequncia do alelo menor pequena MAF= 0.1 Plink tem
problemas para identificar os SNPs funcionais .................................................................................................. 93
xi
Figura 6.2b: No modelo 3 pode se notar que Plink no tem nenhum acerto quando o MAF 0.1 e 0.2.
No modelo 4 ao contrario, com um MAF maior (MAF=0.4) Plink no tem nenhum acerto. Fato que
confirma uma forte dependncia de Plink com a frequncia allica................................................................... 93
Figura 6.3a: Os grficos mostram que quando a frequncia do alelo menor MAF=0.2 os dois algoritmos
conseguem obter 100% de acertos, ou seja conseguem descobrir os SNPs funcionais que interagem nestes
modelos simulados. ............................................................................................................................................ 95
Figura 6.3b: Modelos 2 e 4 para MAF=0.4. MIGA-2L supera a Plink no numero de acertos ......................... 96
Figura 6.3c: Nos modelos 6 e 8 MIGA-2L continua com 100% de acertos enquanto Plink
apresentanenhum acerto em alguns conjuntos de dados. No modelo 8 pode se notar que Plink fica afetado
com a diminuio da taxa de herdabilidade. ....................................................................................................... 96
Figura 6.3d: Estes modelos seguem o padro dos modelos anteriores mostrados na Figura 6.3c. .................. 97
Figura 6.3e: Nestes dois modelos MIGA-2L apresenta uma diminuio na porcentagem de acerto devido
a influencia da herdabilidade. ............................................................................................................................. 97
Figura 6.4: Plink assume que os dados seguem um modelo aditivo para dessa forma colapsar as 3
categorias de gentipos em uma Tabela de contingencia de alelos 2x2. ............................................................ 98
Figura 6.5: Grfico Manhattan correspondente a T1D ..................................................................................... 99
Figura 6.6: Tempo computacional obtido em cada tarefa do pre-processamento dos dados. Os tempos
foram computados utilizando o motor de Workflow Quiron............................................................................ 100
Figura 6.7a: Relao entre a taxa de heterozigosidade e a proporo de gentipos ausentes no conjunto
de dados de T1D ............................................................................................................................................... 101
Figura 6.7b: Indivduos duplicados e relacionados no conjunto de T1D, note que o IBD >0.25 indica os
indivduos a ser removidos desde a amostra..................................................................................................... 101
Figura 6.7c Resultados da anlise de componentes principais para as amostras casos e controles ................ 101
Figura 6.8: Grfico Manhattan do cromossomo 6 da amostra T1D do projeto WTCCC1 ............................. 103
Figura 6.9a: Grfico Q-Q dos valores observados e valores esperados desde o computo de associao
utilizando um teste estadstico qui-quadrado. ................................................................................................... 104
Figura 6.9b: Grfico Q-Q obtido com dados de gentipos de SNPs no localizados na regio HLA............ 104
Figura 6.10 Via de interao do gene PACRG, ligado a genes como SYT11, PARK2 e SLC11A1 ............. 107
xii
LISTA DE TABELAS
Tabela 2.1: Conjunto de dados de gentipos de 6 SNPs observados na amostra 2 da Figura 2.3 ...................... 14
Tabela 4.1: Comparao de alguns mtodos utilizado para avaliar associao de marcadores. .......................... 52
Tabela 4.2a: Vantagens e desvantagens de mtodos para deteco de associao (2 loci) ................................. 53
Tabela 4.2b: Vantagens e desvantagens do algoritmo MIGA-2L para deteco de associao (2 loci) .............. 54
Tabela 5.1: Tabela de 6 indivduos casos e controles com seus gentipos correspondentes em 5 SNPs. A
coluna ressaltada indica um exemplo da variabilidade da frequncia do gentipo entre casos e controles.......... 58
Tabela 5.2: As 9 combinaes possveis de dois marcadores (SNPs) ................................................................. 72
Tabela 5.3: hapltipos gerados da combinao de dois gentipos ...................................................................... 77
Tabela 5.4: Tabela de falsos e verdadeiros positivos e negativos ........................................................................ 79
Tabela 5.5: Tabela de contingencia. Contagem das frequncias ......................................................................... 81
Tabela 5.6: Contagem das frequncias de gentipos nos loci 1 e 2..................................................................... 83
Tabela 5.7: Tabela 3x2 de frequncias condicionais do gentipo B sobre o gentipo A .................................... 83
Tabela 5.8: Tabela de contingncia 2x2 .............................................................................................................. 83
Tabela 6.1 Arquivos .ped e .map ......................................................................................................................... 87
Tabela 6.2 Tabela comparativa do tamanho do conjunto de dados antes e depois do pr processamento .......... 89
Tabela 6.3 Taxa de herdabilidade e MAF utilizada na simulao de 12 conjuntos de dados com efeito
principal ................................................................................................................................................................ 92
Tabela 6.4 Taxa de herdabilidade e MAF utilizada na simulao de 70 conjuntos de dados sem efeito
principal ................................................................................................................................................................ 94
Tabela 6.5 Tempo computacional empregado no pr processamento do conjunto de dados de Diabetes

Tipo 1 ................................................................................................................................................................. 102
Tabela 6.6 Interaes encontradas pelo MIGA-2L no cromossomo 6 em T1D ................................................. 105
Tabela 6.7 Valores das Odds ratio e seu intervalo de confiana de cada hapltipo das interaes SNP-
SNP identificadas no cromossomo 6 para T1D .................................................................................................. 105
Tabela 6.8 Quantidade de marcadores considerados no GWAS para T2D, HT, BD e CAD ............................ 108
Tabela 6.9a: Interaes SNP-SNP identificadas em CAD ................................................................................ 108
Tabela 6.9b: Interaes SNP-SNP identificadas em HT ................................................................................... 109
Tabela 6.9c: Interaes SNP-SNP identificadas em BD ................................................................................... 109
Tabela 6.9d: Interaes SNP-SNP identificadas em TD2 ................................................................................. 109
xiii
SMBOLOS E ABREVIATURAS
DNA Acido Desoxirribonuclico
EA Algoritmos Evolucionrios
GWAS Estudos de associao do genoma inteiro
GWA Associao genmica ampla
LD Desequilbrio de ligao
EHW Equilbrio de Hardy-Weinberg
SNP Polimorfismo de Nucleotdeo nico/simples
AG Algoritmo gentico
NN Redes Neurais
WTCCC Welcome Trust Case-Control Consortium
MAF Frequncia do menor alelo
MDR Multifactor Dimensionality Reduction
xiv
DENOMINAES E CONCEITOS BSICOS
Alelo: um possvel estado de um loco polimrfico. Por exemplo, um SNP
poderia ter alelos G e T.
Doena complexa: Um fentipo com uma etiologia multifatorial,

freqentemente consistindo de vrios componentes genticos e ambientais.
Equilbrio de ligao (LD): Associao de alelos em dois loci devido a um

fenmeno diferente da chance aleatria.
Estudos de associao: Buscam relacionar um marcador gentico particular

com uma doena complexa em uma populao.
Fentipo: so as caractersticas observveis de um indivduo como, por

exemplo: cor de olhos, presso sangunea, ou presena de uma doena particular.
Genome-wide association study (GWAS): so Estudos de associao do

genoma inteiro no qual 100,000 ou mais marcadores SNPs so testados em amostras
individuais de DNA.
Gentipo: um conjunto de alelos presentes em um loco particular. Gentipos

humanos tm dois alelos, um herdado de cada parente.
Genotipagem: um processo de determinao do gentipo ou contedo

genmico, na forma do DNA, especfico de um organismo biolgico, mediante um
procedimento de laboratrio.
Hapltipo: Um hapltipo uma combinao de alelos em loci adjacentes, que

fazem parte do mesmo cromossomo e so transmitidos juntos. Um hapltipo pode ser
formado por um ou vrios alelos, ou at pelo cromossomo inteiro.
Heterogeneidade gentica: Na clnica, a heterogeneidade gentica se refere

presena de vrios defeitos genticos que causam a mesma doena, frequentemente
devido a mutaes em locais diferentes no mesmo gene, um achado comum a muitas
doenas humanas, inclusive a Doena De Alzheimer, Fibrose Cstica, Deficincia De
Lipoprotena Lpase familiar e Neuropatias Policsticas.
Lcus: (do latim "lugar", no plural loci) o local fixo num cromossomo onde
est localizado determinado gene ou marcador gentico.
xv
Marcador gentico: um gene ou posio no genoma que existe em dois ou
mais alelos distinguveis e cuja herana pode ser seguida atravs de um cruzamento
gentico, permitindo mapear a posio de um gene a determinar. Ex. SNPs.
Penetrncia: um termo utilizado em gentica para descrever a proporo de

indivduos portadores de uma variao particular de um gene, que igualmente se
expressa no seu fentipo.
Polimorfismos genticos: so variantes do genoma que aparecem por mutaes

em alguns indivduos, se transmitem descendncia e adquirem certa frequncia na
populao aps mltiplas geraes. Os polimorfismos mais frequentes so os de base
nica chamados SNPs.
Polimorfismo de nucleotdeo simples (SNP): um loco com uma nica

substituio de base. Devido a sua abundncia e fcil deteco, SNPs so usados
frequentemente como marcadores em Estudos de associao do genoma inteiro.
Principio de Hardy-Weinberg (EHW): A situao na qual as frequncias dos

alelos e gentipos permanecem constantes em uma populao durante geraes. Quando
no EHW, as frequncias dos alelos A e B para um loco bi-allico em uma populao
diplide so esperados a estar relacionados a seus gentipos por Pr(AA) = Pr2(A),
Pr(AB) = Pr(A)Pr(B), Pr(BB) = Pr2(B).
xvi
CAPTULO 1: INTRODUO
Este captulo aborda a importncia dos Estudos de associao do genoma
inteiro para a descoberta de marcadores genticos de doenas no contexto das cincias
biolgicas e cincia computacional e suas principais contribuies para estudos do
mesmo gnero. Na ltima seo se detalha a estrutura deste documento de uma
maneira geral.
1.1 MOTIVAO
Os Estudos de associao do genoma inteiro, do ingls Genome Wide

Association Studies (GWAS), so uma forma relativamente nova de identificar genes
envolvidos em doenas humanas. Os cientistas procuram pequenas variaes ou
polimorfismos no genoma que ocorrem mais frequentemente em pessoas com uma
determinada doena do que em pessoas sem a doena. Cada estudo pode analisar
centenas ou milhares destes polimorfismos ao mesmo tempo.
Habitualmente, neste tipo de anlise so utilizados polimorfismos de

nucleotdeo simples ou SNPs (pronunciado snips) que so a forma de variao mais
frequente no Genoma, que acontece quando um dos nucleotdeos (A,C,G,T) difere
entre indivduos em um determinado local cromossmico (lcus). Os SNPs no
causam doenas, eles ajudam a estabelecer localizaes, no genoma, de algum fator
gentico que contribui variabilidade. Estes pontos de referencia so conhecidos
como marcadores genticos e facilitam a navegao no genoma humano (Figura 1.1).
Indivduo1
Indivduo2
Indivduo3
Figura 1.1: Este painel mostra a sequencia de gentipos de 3 indivduos. Pode-se

observar dois SNPs localizados em uma pequena poro do cromossomo 9. Fonte:
Manolio 2010, N Engl J Med.
1
Pesquisadores procuram por associao entre um certo trao de interes ou
fentipo e alelos ou gentipos em um lcus gentico com o objetivo de determinar se
um alelo particular associa-se com certa doena na populao como um todo. Esta
associao pode indicar uma relao causal direta que permitiria investigar os
mecanismos e vias metablicas (chamados pathways) na progresso da doena ou
pode indicar uma relao indireta que pode ajudar a localizar a variante causal.
GWAS j identificaram SNPs de vrias doenas complexas, incluindo

Parkinson [LI et al, 2012], Cncer de mamas [Ghoussaini et al, 2012; Easton et al.
2007], Artrite reumatoide [Kurreeman et al, 2012; Plenge et al. 2007] e Diabetes tipo
1 e tipo 2 [LU et al, 2012; Fagerholm et al, 2012; Todd et al, 2007; Zeggini et al.
2008]. Um estudo muito bem sucedido da Wellcome Trust Case-Control
Consortium (WTCCC), onde uma populao de indivduos de 7 diferentes doenas
foram analisadas, encontrando 24 sinais de associaes independentes em 6 das 7
doenas estudadas [WTCCC 2007]. Apesar de os primeiros resultados em GWAS
terem sido relatados em 2005 [Klein et al , 2005] e 2006 [Dewan et al, 2006], a
comunidade cientfica considera este estudo da WTCCC, publicado no journal Nature
em 2007, como o ponto de partida dos estudos GWAS.
1350
1400
1200
N total de publicaes
1000
800
600
400
200
0
2005 2006 2007 2008 2009 2010 2011 2012
Figura 1.2: Esta Figura apresenta uma grfico de GWAS realizados nos ltimos
anos. Os GWAS considerados aqui incluem aqueles estudos com ao menos 100,000
SNPs na fase inicial. (Fonte http://www.genome.gov/26525384)
At julho de 2012, foram relatados em publicaes de jornais cientficos mais

de 1,300 estudos GWAS, como mostrado na Figura 1.2, neles so reportados
aproximadamente 2,000 loci significativamente e fortemente associados com uma ou
mais caractersticas complexas [Visscher et al, 2012].
2
Os pesquisadores esperam descobrir mais SNPs associados com doenas
crnicas, assim como entender a forma como estas variaes afetam a resposta de
uma pessoa a certas drogas e os efeitos produzidos pelas interaes entre os genes e o
meio ambiente. Para este propsito, se torna essencial em GWAS o uso de softwares
especializados para lidar com a grande dimensionalidade dos dados e realizar um
grande nmero de testes para investigar associaes diminuindo a complexidade
computacional.
1.2 ESTUDOS DE ASSOCIAO DO GENOMA INTEIRO
Com a concluso do Projeto Genoma Humano em 2003

[http://www.genome.gov/] e o inicio do Projeto Internacional HapMap em 2002
[http://hapmap.ncbi.nlm.nih.gov/], os pesquisadores tm agora um conjunto de
ferramentas de investigao que tornam possvel pesquisas das contribuies
genticas de doenas comuns. As ferramentas incluem bancos de dados que contm a
referncia da sequencia do genoma humano
[http://www.ensembl.org/;http://www.ncbi.nlm.nih.gov/genome;http://www.ebi.ac.uk/;
http://genome.ucsc.edu/], tambm catlogos da variao gentica humana (mapas dos
marcadores genticos)[http://www.genome.gov/] e um conjunto de novas tecnologias
de alto rendimento de genotipagem (ex. Affymetrix e Illumina) que podem, de forma
rpida e precisa, coletar amostras do genoma de um
indivduo[http://www.affymetrix.com/; http://www.illumina.com].
Estes avanos contriburam para um considervel incremento de publicaes

cientficas. Nos ltimos 4 ou 5 anos uma srie de GWAS de alto perfil,
principalmente em desenhos casos/controles, como foi mostrado na Figura 1.2.
Desafortunadamente os resultados no foram to teis como se esperava [Juyal et al,
2011]. Um nmero substancial de recentes estudos GWAS indicam que para a
maioria das doenas, apenas algumas variantes comuns esto envolvidas, e os SNPs
associados explicam apenas uma pequena frao do risco gentico [Cantor et al.,
2010] [Hindorff et al., 2010]. A proporo da variao gentica explicada por SNPs
significativamente associados geralmente baixa (tipicamente menos de 10%) para
muitas caractersticas complexas. Em Doenas tais como a doena de Crohn e a
esclerose mltipla, e para as caractersticas quantitativas tais como a altura e traos de
lpidos, entre 10% e 20% da varincia gentica foi contabilizada [Visscher et al,
3
2012]. Porm, em comparao com a era pr-GWAS, a proporo da variao
gentica explicada por variantes recm-descobertas que so segregadas na populao
grande.
A maioria dos estudos so focados na anlise de um nico lcus, que avalia

diretamente associao entre um SNP e a variante fenotpica. Sem embargo,
considerar o efeito de interaes gene-gene ou SNP-SNP, assim como as interaes
do gene-ambiente podem tambm desempenhar um papel significativo na
determinao do fentipo. Este fenmeno de interes biolgico, chamado epistasis,
ajudaria a identificar genes que interagem para causar doenas e para entender os
mecanismos e vias metablicas na progresso dessas doenas [Cordell 2002; Cordell
2009]. Neste trabalho, estamos focados na utilizao de mtodos de deteco de
interaco SNP-SNP ou de deteo de epistasia estatstica para a descoberta de
marcadores genticos associados doenas, de acordo com a definio de [Phillips
2008].
Complexidade computacional
importante notar que o nmero das variantes genticas (ex. SNPs)

descobertas est fortemente correlacionado com o tamanho da amostra experimental.
Futuras pesquisas em GWAS tero que atingir um limiar mnimo de tamanho da
amostra para detectar variantes com alto ndice de confiana. Isto levanta um desafio
computacional grande na identificao de interaes genticas que esto
potencialmente associadas a doenas. Na Figura 1.3, pode-se perceber a tendncia de
que um tamanho cada vez maior da amostra ir aumentar o nmero de variantes
descobertas.
Neste contexto, muitas abordagens computacionais baseadas em mtodos

estatsticos foram propostas. Com poucas excees, elas caem dentro de uma de duas
categorias. As que explicitamente testam cada interao possvel entre marcadores, ou
seja, procuram em todo o espao de busca, e aquela que evitam uma enumerao
exaustiva do espao de busca. Dentro desta ultima categoria se encontram os
algoritmos estocsticos que realizam uma investigao probabilstica do espao de
busca e os algoritmos gulosos que simplesmente fazem a melhor escolha baseado na
informao disponvel. Em particular, os que realizam um teste completo de todas as
4
possveis interaes entre marcadores genticos so computacionalmente complexos e
inaceitveis.
Figura 1.3 O grfico apresenta uma relao entre o nmero de achados e a

quantidade de SNPs considerados em GWAS. Fonte: Visscher et al, 2012.
A quantidade de testes necessrios para investigar interao de marcadores

(por exemplo SNPs) em GWAS depende da quantidade de marcadores considerado
no estudo, como tambm do nmero de loci investigado. O nmero de testes pode-se
calcular com a equao 1.1, onde L o nmero total de marcadores e n nmero de
loci considerado .
1.1
Por exemplo, um conjunto de dados com 500,000 mil marcadores precisar

aproximadamente 125 bilhes de testes investigando 2 loci. Com um computador
executando 1000 testes por segundo, deveramos esperar aproximadamente 238 anos
para verificar os resultados. A complexidade aumenta exponencialmente com o
nmero de marcadores e a quantidade de loci considerados. Na prtica, esta estratgia
limitada a um pequeno conjunto de marcadores. No captulo 4 sero descritas
algumas abordagens computacionais que ajudam a investigar interaes de
marcadores com doenas comuns.
5
1.3 IDENTIFICAO DE INTERAO DE SNP-SNP
Uma variedade de mtodos foram desenvolvidos na busca de efeitos de

interao em doenas complexas, incluindo anlise de regresso [Marchini et al.
2005; Kooperberg et al. 2005; Park et al. 2008; Yang C et al. 2010; Purcell et al.
2007], inferncia Bayesiana [Zhang et al. 2007], tcnicas de aprendizado de mquina
[Ritche MD 2001; Breiman 2001], clculo de entropia [Miller DJ et al. 2009], entre
outros. Abordagens interessantes so os mtodos usados na teoria da informao que
podem ser utilizados em anlise genmica para proporcionar uma viso mais
significativa do processo gentico. Basicamente, a ideia que usando um modelo de
transferncia de informao entre certos polimorfismos no genoma humano (SNPs) e
certas doenas (ex. Alzheimer), a informao mtua de Shannon [Cover & Thomas,
2006] pode identificar os SNPs potenciais de associao com a doena. Alguns
trabalhos relacionados podem-se encontrar em [Hagenauer et al. 2004; Jakulin &
Bratko, 2004; Moore et al. 2006].
Mesmo escolhendo um mtodo robusto para testar interaes entre

marcadores, uma busca exaustiva pode resultar em execues muito lentas quando a
dimensionalidade dos dados aumenta. Muitos cientistas carecem dos recursos
computacionais requeridos para implantar estes mtodos na escala genmica. Apesar
do aumento do numero de publicaes propondo novas metodologias, algumas
simplesmente ajustam o tamanho do conjunto de dados filtrando um grupo pequeno
de marcadores para investigar interao, esta estratgia muitas vezes falha ao excluir
SNPs que apresentam interaes importantes e, portanto, no conseguem identificar
todos os marcadores que conferem risco.
Para abordar estas deficincias, este trabalho apresenta uma metodologia que
viabiliza o uso de marcadores genticos em escala genmica abrangendo desde o
controle de qualidade dos dados at a seleo e classificao dos hapltipos potenciais
que indicam associao com a doena estudada. A metodologia proposta utiliza um
motor de workflow de forma a modelar e otimizar a execuo das vrias etapas do
processo envolvido em GWAS. Desta forma, visamos proporcionar uma metodologia
flexvel, rpida e robusta que pode manipular dados de alta dimensionalidade e
integrar vrios tipos de programas e mtodos bioestatsticos para controle de
qualidade e anlise de interao, podendo ser estendido para estudos posteriores tais
6
como replicao e meta-anlise, assim como estudos de identificao de vias
metablicas e de alvos para drogas.
Na fase de anlise da interao propriamente dita foi utilizado um algoritmo

gentico (AG) para a otimizao da busca e identificao de associaes relevantes. O
AG um paradigma evolucionrio [Goldberg, 1989], onde um algoritmo realiza uma
busca estocstica baseado no processo da evoluo Darwiniana a fim de encontrar
solues para problemas computacionalmente complexos. Os AGs so apropriados
para estudos GWAS j que atravs de um processo aleatrio, tal como seleo natural,
mutao e cruzamento, investigam s um subconjunto de todas as possveis
interaes. Contudo, havendo descoberto uma interao importante, ele capaz de
preservar este padro em futuras geraes.
Na literatura foi possvel encontrar algumas abordagens que utilizam

paradigmas evolucionrios, alguns deles para melhorar o desempenho dos mtodos de
busca estocstica. Neste contexto, pode-se citar a programao gentica [Moore et al,
2004] e AG combinado com o algoritmo de colnia de formigas [Greene et al., 2008].
Tambm foi implementado um mtodo que usa evoluo gramatical de redes neurais
[Motsinger-Reif et al., 2008] onde um algoritmo evolucionrio grammatical
evolution utilizado para construir redes neurais (NN) e selecionar os SNPs
associados doenas.
Do mesmo modo, Shah et al [Shah et al., 2004] utilizaram um algoritmo

gentico para realizar seleo caracterstica construindo rvores de deciso e Clark et
al. [Clark et al., 2005; Clark et al., 2008] utilizaram um AG para construir rvores de
deciso de expresses booleanas construdas com blocos de SNPs. Em uma
publicao recente, um AG foi implementado como uma estratgia adaptativa
evolutiva em combinao com uma abordagem baseada em desequilbrio de ligao
para identificar interao de loci [Fontanarosa, Yang; 2010].
A metodologia aqui apresentada compara dois grupos de indivduos, aqueles

relacionados com a doena (chamado casos) e aqueles sadios (chamados controles).
Foram realizados experimentos utilizando dados simulados de 82 modelos epistticos
diferentes, assim como experimentos com dados reais de gentipos de 5 doenas, com
amostras originadas no Reino Unido e fornecidos pela WTCCC
[http://www.wtccc.org.uk/].
7
1.4 ESTRUTURA DO DOCUMENTO
No prximo captulo ser feita uma reviso da base biolgica necessria para o
entendimento do trabalho, abordando os fundamentos da biologia e gentica. No
captulo 3 ser apresentado o estudo de associao genmica ampla e conceitos da
gentica de populaes. Posteriormente, no captulo 4 sero descritos alguns mtodos
computacionais categorizados de acordo com as estratgias de otimizao que
utilizam. Seguidamente, no captulo 5 ser explicado o modelo proposto para o
problema de descoberta de SNPs potencialmente associados a doenas, descrevendo
cada passo da metodologia empregada. O captulo 6, apresenta os resultados dos
experimentos realizados tanto com dados simulados como com dados reais.
Finalmente, no captulo 7 so apresentadas as concluses e os trabalhos futuros que
podem seguir a este trabalho de tese.
1.5 SNTESE DO CAPTULO
GWAS uma rea de pesquisa crescente que ainda apresenta muitos desafios
a serem resolvidos. Como foi destacado neste primeiro captulo, ao longo desta ultima
dcada, muito se avanou no desenvolvimento de tcnicas que ajudam ao estudo dos
dados genmicos, os quais levam em considerao o impacto em problemas de sade.
Com o intuito de explicar a motivao deste trabalho de tese foi apresentada aqui uma
reviso geral de pesquisas sobre GWAS, assim como trabalhos desenvolvidos dentro
do enfoque dos estudos caso-controle.
Cabe resaltar a importncia dos estudos genmicos de grande escala como

fonte primordial de dados para a construo de indicadores de sade. Embora se tenha
conhecimento acerca das inmeras imperfeies neste tipo de anlise, o uso cada vez
mais amplo contribuir, certamente, para o seu aprimoramento, o que necessariamente
depende da utilizao de ferramentas vlidas que estejam livre de erros metodolgicos
na sua concepo, desenho, implementao, e no processo de anlise dos dados.
8
CAPTULO 2: GENTICA HUMANA BSICA
Neste captulo se apresenta um resumo de gentica humana bsica. A
informao descrita aqui foi baseada nas notas providas pelo curso de Statistic in
Genetics [Almgen et al, 2003] e no livro de Sham, Statistic in human genetics
[Sham, 1998]
2.1 A ESTRUTURA DO MATERIAL GENTICO HUMANO

O genoma humano a totalidade da informao gentica que possui um
organismo em particular e que codifica para ele. O material gentico em humanos est
presente em cada clula do corpo. A poro principal contida em cromossomos
localizados no ncleo da clula e uma pequena parte restante localizada dentro da
mitocndria.
2.1.1 CROMOSSOMOS SEXUAIS E AUTOSSMICOS

O ncleo de toda clula somtica (ex. todas as clulas, exceo dos vulos e
espermatozides) normalmente contm 23 pares de cromossomos, subdivididos em
22 pares de cromossomos autossmicos e um par de cromossomos sexuais
(representado por dois cromossomos X em mulheres, e um cromossomo X e um Y em
homens), um total de 46 cromossomos. Em clulas sexuais (vulo e
espermatozides), no existem cromossomos pares. Uma fotografia de microscpio
dos cromossomos masculinos mostrada na Figura 2.1. O genoma haplide (ou seja,
com uma nica representao de cada par) tem um comprimento total aproximado de
3,2 Giga de pares de bases de DNA (3,2 Gpb) que contm entre 20,000 a 25,000
genes [http://www.genome.org].
Para simplificar, no sero consideradas anlises de caractersticas ligadas ao

sexo, ex. caractersticas onde os genes contribuintes esto localizados nos
cromossomos X ou Y.
9
Figura 2.1: Cariograma dos cromossomos masculinos. (Fonte: Almgen et al, 2003)
A estrutura linear dos cromossomos
Cada cromossomo composto de DNA o qual tem uma estrutura linear e

essencialmente uma sequencia de pares de bases complementares, os quais esto
ligados entre si por limites qumicos. As quatro bases de DNA so molculas
chamadas adenina, guanina, citosina, e timina, abreviadas por A, G, C e T
respectivamente. Cada uma dessas bases pode formar um par complementar com uma
e somente uma outra base, ento poderia haver quatro diferentes pares de bases
complementares: A-T, G-C, T-A e C-G (a ordem das bases no importa). Note que, os
pares de base complementares podem se conectar em qualquer ordem no
cromossomo. Uma representao simplificada da estrutura de um cromossomo em
pares de bases mostrada na Figura 2.2.
Cada cromossomo poderia ser descrito por sua sequencia de DNA, ex. G-G-A-
C-T-A-A e poderia ser visto como um vetor de letras com alfabeto {A, C, G, T}.
Estas sequncias poderiam diferir em comprimento de cromossomo para cromossomo
e, de fato, na ordem de pares de bases. No total, existem aproximadamente
3,000,000,000 (3 x 109) pares de bases no genoma humano (ex. em todos os
cromossomos).
10
G C
G C
A T
C G
T A
A T
A T
Figura 2.2: estrutura simplificada do cromossomo. (Fonte: Almgen et al, 2003). Note
que duas fitas de DNA formadas pelas bases esto conectadas linearmente (ex. G-G-
A-C-T-A-A e C-C-T-G-A-T-T).
Pares de cromossomos homlogos
Lembrando que os cromossomos autossmicos so dispostos em pares, eles

so chamados pares homlogos de cromossomos. Como o termo homlogo diz, os
cromossomos do par so muito similares na estrutura (ex. em comprimento e na
sequencia de pares de bases). No entanto, eles no so cpias completas um do outro.
Um cromossomo herdado da me, outro do pai, e eles so diferentes devido
existncia de variaes ou polimorfismos genticos.
2.2 POLIMORFISMOS GENTICOS
Ao se comparar a sequencia gentica de diferentes indivduos da populao no

mesmo cromossomo, pode-se notar que grande parte da sequencia gentica
completamente similar para todos os indivduos (de fato, h partes assemelhando-se
estrutura gentica encontrada em animais, por exemplo, em rato, ilustrando o
desenvolvimento evolucionrio da espcie humana). No entanto, tambm evidente
que a sequencia de pares de bases varia de indivduo para indivduo.
Os seres humanos do mesmo sexo compartilham uma porcentagem muito

elevada (em torno de 99%) de sua sequencia de DNA, o que permite trabalhar com
uma nica sequencia de referncia, onde pequenas variaes genmicas fundamentam
boa parte da variabilidade fenotpica interindividual. Uma variao no genoma, por
11
substituio, deleo ou insero, se denomina polimorfismo gentico. Nem todos os
polimorfismos genticos provocam uma alterao na sequencia de uma protena ou de
seu nvel de expresso, ou seja, muitos so silenciosos e carecem de expresso
fenotpica.
Tipos de polimorfismo gentico
Muitas vezes, na sequencia de DNA de indivduos, uma das letras do

alfabeto de pares de bases (ex. uma A) na sequencia de pares de bases no
cromossomo ser substituda por outra letra (ex. uma C). Este tipo de polimorfismo
chamado polimorfismo de nucleotdeo simples ou SNP. Em outros casos a mesma
sequencia de letras poderia ser repetida uma quantidade de vezes diferente de um
indivduo a outro. Por exemplo, a sequencia em um indivduo poderia ser
GGACTAA[ACTT] (uma repetio de ACTT) e a sequencia em outro indivduo
poderia ser GGACTAA[ACTT][ACTT][ACTT] (trs repeties de ACTT). Um
polimorfismo gentico deste tipo chamado microsatlite autossmico (tambm
conhecidos pela sua sigla em ingls STRs - Short Tandem Repeats). De modo geral,
podem-se encontrar tambm polimorfismos genticos onde uma sequencia de uma ou
mais letras parece estar excluda ou inserida na sequencia original, polimorfismos
deste tipo so chamados polimorfismos de insero-deleo ou INDEL. Note que isto
implica que o comprimento do mesmo cromossomo pode variar entre os indivduos,
no entanto, essa variao no comprimento bastante insignificante em relao ao
comprimento do cromossomo inteiro.
Polimorfismo de Nucleotdeo nico (SNP)
Como seu nome sugere, um SNP se refere a uma nica diferena de

nucleotdeo (A, T, C, ou G) no genoma de uma populao, nos quais so focados a
maioria dos estudos GWAS. Os SNPs so a forma mais abundante de variao
encontrada no genoma humano (o genoma humano tem aproximadamente entre 10 a
20 milhares de SNPs [http://www.genome.gov]). Dada sua importncia, na atualidade
existe um projeto internacional (http://www.hapmap.org) para catalogar em grande
escala os SNPs do genoma humano. Neste contexto, a denominao de SNP
12
frequentemente se restringe a aqueles polimorfismos de um nico nucleotdeo nos que
o alelo menos frequente aparece em ao menos 1% da populao.
A Figura 2.3 mostra uma ilustrao de SNPs no genoma. Existem dois tipos
de nucleotdeos possveis em um SNP especfico. Por exemplo, no SNP1 somente
aparecem A e C e no SNP2 aparecem somente G e A. O nucleotdeo com
maior frequncia na populao chamado alelo maior e o outro alelo menor. Por
exemplo, o alelo maior e menor para o SNP1 so C e A, respectivamente. Em
gentica, uma combinao de alelos em diferentes loci sobre o cromossomo que so
transmitidos (ex. herdados) juntos referenciado como um hapltipo. Se os seis SNPs
na Figura 2.3 so herdados juntos, ento existem dois hapltipos para a primeira
amostra, AGCCCA herdada do seu pai e CGCCCA da sua me. De modo similar,
dois hapltipos para a segunda amostra: CATGCA do seu pai e CGCCCA da sua
me.
Cromossomo pai P
Cromossomo mae M
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6
1a. ... C A T ... C G A ... C C A ... T C G ... T C C ... T A G ... P
amostra ... C C C ... C G A ... C C A ... T C G ... T C C ... T A G ... M
2a. ... C C T ... C A A ... C T A ... T G G ... T C C ... T A G ... P

amostra ... C C T ... C G A ... C C A ... T C G ... T C C ... T A G ... M
.................
n-a. ... C C T ... C G A ... C C A ... T C G ... T T C ... T C G ... P
amostra ... C C T ... C A A ... C C A ... T G G ... T C C ... T A G ... M
Alelo maior C G C C C A
Alelo menor A A T G T C
Cromossomo Gene SNP

Figura 2.3. Uma ilustrao de uma populao de amostras de 6 SNPs em um
cromossomo no genoma. As setas indicam a posio de cada SNP no cromossomo. A
letra P referencia ao cromossomo do Pai e a letra M da Me.
Para um conjunto de SNPs, os hapltipos no podem diretamente ser

observados em GWAS. Isto causa algumas incertezas quando queremos conhecer os
hapltipos de um arquivo de gentipos. A estimao da fase allica de hapltipos do
conjunto de dados de gentipos chamado "phasing". Na segunda amostra na Figura
13
2.3, um conjunto de dados de SNPs ser observado como na Tabela 2.1, neste
conjunto de dados, no sabemos qual alelo A no SNP2 vem do pai ou da me.
Amostra ID SNP1 SNP2 SNP3 SNP4 SNP5 SNP6
2 CC AG TC GC CC AA
Tabela 2.1: Conjunto de dados de gentipos de 6 SNPs observados na amostra 2 da

Figura 2.3
2.3 POSIES CROMOSSMICAS E LOCI GENTICOS
Como o cromossomo uma estrutura linear, faz sentido falar sobre posies
ao longo do cromossomo. Uma maneira para definir a posio cromossmica
simplesmente contar o nmero de pares de bases a partir de uma origem bem definida
do cromossomo, tal como seu final (o telmero) ou seu centro (o centrmero). Como
o nmero de pares de base muito grande, pode ser expresso como uma medida de
quilo pares de bases (1Kbp) ou em mega pares de bases (1 Mpb).
Outra maneira de definir um local ou regio especfica do cromossomo

olhando para a sequencia de pares de bases. No fim das contas, uma sequencia de 20
ou mais pares de bases de comprimento na maioria dos casos suficiente para a
identificao nica de uma localizao cromossmica, o que significa que tal
sequencia s aparece uma vez em um lugar do genoma. Assim, se escolhemos uma
sequencia de 20 bp, que compartilhada por todos os indivduos na populao, esta
pode ser usada para apontar uma regio especfica do cromossomo, que tem estrutura
e funo semelhante nos indivduos.
Tendo estabelecido uma forma de apontar um local especfico no

cromossomo, pode-se agora definir o conceito de um lcus gentico, como um trecho
de DNA em um lugar particular em um cromossomo especfico que est sendo
analisado em sua variabilidade. Note que a sequencia no tem que ter um
comprimento fixo. Assim, lcus gentico uma regio cromossmica bem definida
em algum local especfico do cromossomo. Pesquisadores esto normalmente
interessados em analisar as variaes de pares de bases da sequencia nessa regio nos
indivduos da populao.
14
Alelos e gentipos em loci gentico.
As variantes de sequncias diferentes que podem ocorrer em um lcus

gentico so chamados alelos. Por exemplo, no caso de um lcus com um SNP
correspondente a uma substituio de C por T poderamos definir dois alelos: o
primeiro corresponde a uma sequencia de pares de bases contendo um C, e o segundo
corresponde a uma sequencia de pares de bases contendo um T. Na gentica clssica
Mendeliana os dois alelos so normalmente identificados por A e a.
Claramente, o nmero de diferentes variantes de pares de bases da sequencia

encontrada nos indivduos depende do comprimento do lcus gentico - uma regio
longa tem maior probabilidade de dar origem a uma grande quantidade de variantes
de sequncias genticas em relao a uma regio curta. Na prtica, importante
definir um lcus gentico de forma que o nmero correspondente de alelos seja
manejvel.
Os cromossomos autossmicos so dispostos em pares homlogos. Em um

nico indivduo um lcus gentico est, portanto, presente em ambos cromossomos.
Uma descrio completa da estrutura gentica neste lcus requer portanto a
especificao de dois alelos (um de cada cromossomo). A combinao de dois alelos
desde os dois cromossomos chamada o gentipo do indivduo nesse lcus gentico.
Retornando ao exemplo do SNP com C/T, substituindo pelos alelos A e a, trs
gentipos so possveis: AA, Aa e aa. Os gentipos com dois alelos idnticos so
chamados homozigotos, enquanto o gentipo com diferentes alelos chamado
heterozigoto.
2.4 O QUE PODE SER MEDIDO NO LABORATRIO
A tecnologia moderna da gentica molecular disponvel em laboratrio tem

importantes limitaes no que diz respeito a anlise da sequencia gentica. Em
particular, o processo de obter uma sequencia gentica completa do genoma de um
indivduo ainda muito custoso e lento. Por isto, a maioria das tcnicas usadas hoje
em dia considera um lcus gentico por vez. No entanto, estas tcnicas no permitem
anlises separadas dos cromossomos que formam um par homlogo. Por esse motivo,
o resultado de um anlise de laboratrio de uma sequencia gentica em um particular
lcus um gentipo, ex. AA, Aa ou aa para um lcus com alelos A e a.
15
Se nosso interesse procurar vrios loci, isto tem que ser feito separadamente
para cada lcus, um lcus por vez. Suponha, que no primeiro cromossomo em um par
homlogo temos um alelo A no primeiro lcus e um alelo B no segundo lcus, e no
segundo cromossomo, no mesmo par, temos um alelo a e outro alelo b nos dois loci
respectivamente como mostrado na Figura 2.4.
A a
B b
Figura 2.4: loci di-allico
A informao sobre A e B que esto no mesmo cromossomo importante em

algumas situaes. Se diz que os dois alelos A e B formam um hapltipo AB o qual
corresponde a um alelo no lcus combinado consistindo do lcus 1 e lcus 2.
Porm, no laboratrio a anlise separada dos dois loci deveria resultar em um

gentipo Aa no primeiro lcus e um gentipo Bb no segundo lcus (a ordem dos
alelos no pode ser determinada), sem qualquer informao sobre si A e B esto no
mesmo cromossomo. De fato, a mesma informao do gentipo deveria ter sido
obtida se o primeiro cromossomo carregava alelos A e b, correspondente ao hapltipo
Ab e o segundo cromossomo carregava os alelos a e B, correspondente ao hapltipo
aB. Fazendo uma anlise lcus por lcus se diz que perdemos informao sobre a fase
dos alelos nos dois loci, o qual uma limitao importante dos mtodos de
laboratrio.
2.5 MARCADORES GENTICOS
O ltimo objetivo da anlise de certa caracterstica gentica estabelecer a

localizao de algum fator gentico contribuindo para a variao da caracterstica ou
fentipo. Uma maneira de fazer isto descrever a localizao do novo lcus que
influencia a caracterstica relacionando-a com algum loci de localizao bem
estabelecido.
16
Um marcador gentico, ou marcador molecular, um segmento de DNA com
uma localizao fsica identificvel (lcus) em um cromossomo e cuja herana
gentica pode-se rastrear. Dever ser vivel e eficiente determinar o gentipo de um
marcador gentico em um indivduo utilizando mtodos laboratoriais, como a
genotipagem.
Para este efeito, um esforo considervel dos pesquisadores foi gasto na

criao de marcos nos cromossomos, que so chamados de marcadores genticos. At
o ano 2011 foram publicados mais de 1,000 GWAS com aproximadamente 2,000
achados. Na Figura 2.5, apresentado por cada cromossomo, marcadores genticos
associados a doenas. [NHGRI GWAS Catalog]
2.6 OBTENO DE AMOSTRAS BIOLGICAS
A maioria das clulas de eucariotos contm o contedo completo de todos os

cromossomos do organismo. Como a complexidade dos organismos cresce, assim
tambm os diferentes tipos de clulas de um organismo. Com exceo das clulas
sexuais haplides, todas as clulas nucleadas tm o contedo total de cromossomos
que todas as clulas tm. Isto faz possvel coletar DNA para o propsito de
genotipagem utilizando amostras biolgicas de diferentes formas, como sangue,
cabelo, pele, como tambm saliva.
A extrao do DNA comea to pronto quanto a clula de origem recuperada

em sua fonte. Esta amostra contm milhares de clulas completas com no somente
DNA, mas tambm outros materiais intra e extra celulares. Os derivados celulares
mais perigosos que so coletados com cada amostra so enzimas que quebram e
digerem o DNA. Portanto, no importa o tipo de material biolgico coletado, a
purificao desse material importante para a fidelidade do DNA que ser extrado.
17
Figura 2.5: Catalogo de marcadores genticos (SNPs) associados a doenas. Na
Figura superior pode-se observar os cromossomos com loci sugeridos por GWAS. Na
Figura inferior so referidas as doenas cujos loci so assinalados nos cromossomos
da Figura superior. Este catalogo considera GWAS desde o ano 2009 at 2012.
Fonte: NHGRI GWA Catalog. http://www.genome.gov/GWAStudies/
18
Genotipagem
A quantidade total de informao, de cadeia dupla, do DNA puro afeta a

fidelidade da genotipagem, independentemente da tecnologia usada. Toda tecnologia
de genotipagem baseia-se no fato de que o DNA pode ser teoricamente replicado na
direo 5' a 3' infinitamente. Para efeitos de genotipagem, a amplificao de um local
especfico ou de todo o genoma essencial, afim de ter sinais suficientemente grandes
para que as tecnologias atuais possam ser executadas confiavelmente.
A genotipagem mede a composio allica especfica do indivduo. Um alelo,

como foi mencionado anteriormente, um membro par de um gene em uma rea
especfica de um cromossomo especfico. O objetivo da genotipagem encontrar um
trao ou caracterstica especifica de uma pessoa, planta ou animal. Cada gene tem
dois traos e trs combinaes possveis para esse trao. Os principais mtodos para
realizar genotipagem para deteo de SNPs so: a reao em cadeia polimerase
(PCR), alelo-especfico de oligonucletidos (ASO) e ensaios de microarranjos de
DNA [NEALE M. et al, 2008].
Microarranjos de DNA, ou DNA-chip, consiste num arranjo pr-definido de

molculas de DNA (fragmentos de DNA genmico, cDNAs ou oligonucleotdeos)
quimicamente ligadas a uma superfcie slida, usualmente lminas de microscpio
revestidas com compostos que conferem carga positiva. Existem vrias plataformas
comerciais de microarranjos tais como Affymetrix, Illumina, Agilent, AppliedBiosystems,
Incyte/Stanford etc. Por exemplo, a tecnologia desenvolvida pela Affymetrix (Figura
2.6) atualmente utilizada para analisar mais de um milho de SNPs sobre um chip.
Esta tecnologia tambm usa uma quantidade mnima de DNA por gentipo,
requerendo s 250 ng para completar todo o arranjo (http://www.affymetrix.com/).
Para fins computacionais, os dados brutos de SNPs, vindos da genotipagem

so mostrados como letras (ex. aa, aA, AA) que definem os alelos observados em
cada indivduo, ou em forma de nmeros (0, 1, 2). Diferentes abordagens para
deteminao do genotipo SNP so adaptadas para diferentes tecnologias, na maioria
delas a determinao das variantes do gentipos tipicamente realizada pela anlise
de clusterizao [NEALE M. et al, 2008]. Como as tecnologias de SNP focam na
anlise de alta dimensionalide dos dados, uma inspeo visual sobre a determinao
do gentipo para todos os marcadores irrealista. Como em qualquer procedimento
estatstico, os erros da tcnica de cluster so uma armadilha potencial.
19
Figura 2.6: Imagem do chip Affymetrix. A direita so mostradas as sinais obtidas no
processo experimental.
Portanto, para qualquer SNP mostrando um sinal de associao significante

com a doena estudada, as imagenes atuais de intensidade providas pela genotipagem
devem ser inspecionadas. Tambm, fazer a genotipagem dos SNPs com outra
plataforma ou sobre a fita oposta pode adicionar mais confibilidade ao resultado.
2.7 FENTIPO
O termo fentipo (do grego pheno, evidente, brilhante, e typos,

caracterstico) empregado para designar as caractersticas apresentadas por um
indivduo, sejam elas morfolgicas, fisiolgicas e comportamentais. Tambm fazem
parte do fentipo caractersticas microscpicas e de natureza bioqumica, que
necessitam de testes especiais para a sua identificao.
Entre as caractersticas fenotpicas visveis, pode-se citar a cor de uma flor, a

cor dos olhos de uma pessoa, a textura do cabelo, a cor do pelo de um animal, etc. J
o tipo sanguneo e a sequncia de aminocidos de uma protena so caractersticas
fenotpicas revelada apenas mediante testes especiais. O fentipo de um indivduo
sofre transformaes com o passar do tempo. Por exemplo, medida que
envelhecemos o nosso corpo se modifica. Fatores ambientais tambm podem alterar o
fentipo: se ficarmos expostos luz do sol, nossa pele escurecer.
O termo gentipo (do grego genos, originar, provir, e typos, caracterstica)

refere-se constituio gentica do indivduo, ou seja, aos genes que ele possui.
20
Fentipo e gentipo e ambiente em interao
O fentipo resulta da interao do gentipo com o ambiente. Consideremos,

por exemplo, duas pessoas que tenham os mesmos tipos de alelos para pigmentao
da pele; se uma delas toma sol com mais frequncia que a outra, suas tonalidades de
pele, fentipo, so diferentes.
Um exemplo interessante de interao entre gentipo e ambiente na produo

do fentipo a reao dos coelhos da raa Himalaia temperatura. Em temperaturas
baixas, os pelos crescem pretos e, em temperaturas altas, crescem brancos. A pelagem
normal desses coelhos branca, menos nas extremidades do corpo (focinho, orelha,
rabo e patas), que, por perderem mais calor e apresentarem temperatura mais baixa,
desenvolvem pelagem preta.
O fentipo qualquer caracterstica mensurvel e podem ser discretos ou

contnuos. Os fentipos em geral no so passados de uma gerao a outra, os
Gametas no. Os gametas so o mecanismo de transferncia de informao gentica.
Estes gametas sempre ocorrem em algum contexto ambiental para produzir os
fentipos.
A grande maioria de fentipos no tem categorias discretas e no tem um gene

que seja necessrio e suficiente para explicar sua variao. Hardy e Weinberg (no ano
1908) ajudaram a estabelecer que vrias caractersticas eram Mendelianas. Mesmo
assim, a maioria dos caracteres quantitativos no pode ser vista em um enfoque
Mendeliano simples. A maioria dos caracteres que eles estudaram eram quantitativas.
Por tanto, muitos cientficos dessa poca acreditavam que um mecanismo alternativo
e mais importante de hereditariedade existia, alm do Mendelismo. O Mendelismo
no foi capaz de explicar os padres de herana para a grande maioria da variao
fenotpica.
Duas formas no mutuamente excludentes de gentipos discretos produzirem

fentipos contnuos so: Variao ambiental e Poligenes.
Na variao ambiental o mesmo gentipo pode responder diferentemente a

alteraes no ambiente. Por exemplo, indivduos com o mesmo gentipo podem
apresentar variao no fentipo em funo de influncias ambientais. A forma como
um gentipo responde ao meio ambiente chamada de norma de reao daquele
fentipo. Um exemplo, so as mutaes em Drosophila melanogaster que conferem
21
tamanhos diferentes aos olhos destas moscas. No entanto, este tamanho tambm varia
em funo da temperatura a que as moscas esto expostas.
Na Poligenes, Ronald A. Fisher [FISHER, 1918] observou que quando vrios

loci esto determinando um fentipo, vrias classes diferentes podem ser produzidas
pela conjuno de diferentes alelos neste loci distintos. Dessa forma, quanto mais loci
estiverem controlando um carter, maior a possibilidade de formao de fentipos
com valores distintos.
Portanto, apesar de sua definio aparentemente simples, o conceito de

fentipo apresenta algumas sutilezas: Primeiro, a maior parte das molculas
codificadas no material gentico, que consequentemente so parte do fentipo, no
so visveis na aparncia do organismo, ainda que sejam observveis. Um bom
exemplo o tipo sanguneo em humanos. Segundo, o fentipo no meramente um
produto do gentipo, mas influenciado em graus variveis pelo ambiente.
Alm disso, vale lembrar que a hereditariedade no est restrita

ao DNA nuclear, j que a mitocndria tambm apresenta o seu prprio DNA. Ao
expandir o conceito de gentipo incluindo outros elementos hereditrios, ampliamos
tambm o conceito de fentipo.
Procurou-se aqui introduzir alguns conceitos essenciais sobre a estrutura do

material gentico humano. Um conceito importante o polimorfismo gentico, o qual
determina a variabilidade no genoma humano e ajuda a estudar a diferena que existe
entre seres humanos. A principal fonte de variabilidade nos genomas dos seres
humanos procede das variaes de um nico nucleotdeo, conhecido como SNP, nos
quais so focados a maioria dos estudos GWAS. Foi tambm aqui abordado o
processo requerido para obter os gentipos destes SNPs desde amostras biolgicas
para estudos GWA. Este captulo no pretende fazer uma descrio de forma
exaustiva, mas sim uma tentativa de fornecer uma viso e contexto para a criao de
dados genticos essenciais para a compreenso deste trabalho.
22
CAPTULO 3: ESTUDOS DE ASSOCIAO DO
GENOMA INTEIRO - GWAS
Existem dois mtodos analticos principais para mapear genes envolvidos em

traos humanos e de susceptibilidade a doenas, eles so ligao e associao. Os
mtodos de associao provm maior poder e resoluo que anlises de ligao
[Risch and Merikangas, 1996]. A ideia bsica dos GWAS rastrear todo o genoma
procurando associaes com certas doenas. A motivao que tais associaes
podem fornecer novos candidatos para as variantes nos genes causais (ou em seus
elementos regulatrios) que desempenham um papel para o fentipo de interesse. No
contexto clnico isto pode eventualmente levar a uma melhor compreenso dos
componentes genticos de doenas e seus factores de risco. Neste captulo
descrevemos os conceitos bsicos para entender GWAS e a gentica de populaes.
3.1 ESTUDOS DE LIGAO
Os estudos de ligao (LD) so tambm conhecidos como estudos de

desequilbrio de ligao (do ingls, Linkage disequilbrium). Em populaes
genticas, LD a associao no randmica dos alelos em dois ou mais loci, no
necessariamente no mesmo cromossoma. O desequilbrio de ligao descreve uma
situao em que algumas combinaes de alelos ou marcadores genticos ocorrem
mais ou menos frequentemente numa populao do que seria esperado pela formao
aleatria de hapltipos a partir de alelos baseados nas suas frequncias. Associaes
no aleatrias entre polimorfismos em loci diferentes so medidas pelo grau de
desequilbrio de ligao. Por exemplo, alelos dos SNPs que residem prximos uns dos
outros no cromossomo freqentemente ocorrem em combinaes no randmicas
devido infreqente recombinao. Isto implica em dizer que alelos que esto em
desequilbrio de ligao migram juntos na diviso celular.
3.2 ESTUDOS DE ASSOCIAO

Em Estudos de associao do genoma inteiro, ou GWAS, os pesquisadores
procuram por certos alelos que predispem seus carreadores a certas doenas. A
23
abundancia de SNPs e a facilidade provida pelas tecnologias de genotipagem fazem
com que estes marcadores genticos sejam a escolha da maioria dos estudos de
associao. Tcnicas de genotipagem de alto rendimento esto evoluindo rapidamente
e conseguem hoje que aproximadamente 1 milho de SNPs sejam genotipados
[Spencer et al., 2009]. Ao mesmo tempo, o custo da genotipagem de SNPs caiu
dramaticamente fazendo os estudos de associao com milhares de pacientes uma
realidade. As estimativas sugerem que com 500 mil SNPs, 85-92% da variao
comum no genoma da populao caucasiana ser capturada [WTCCC, 2007]. Por
exemplo, a Wellcome Trust Case Control Consortium realizou um estudo de
associao de um lcus, em sete doenas comuns com um total de 14,000 pacientes
cujos resultados foram depois replicados com sucesso. Assim, GWA de longe o
mtodo mais detalhado e completo de investigar o genoma inteiro atualmente
disponvel.
Geralmente, estudos de associao so divididos em duas categorias: estudos

baseados em famlia e estudos baseados na populao. Nos estudos baseados em
famlias, dados sobre os indivduos afetados e seus pais so coletados. Ento,
realizada uma procura dos alelos que so transmitidos de pais para seus filhos
afetados, com mais frequncia do que seria esperado ao acaso. Os estudos baseados
na populao so compostos de indivduos afetados no relacionados (chamados de
casos) e indivduos saudveis no relacionados (chamados de controles), por isso
tambm so conhecidos como estudos caso-controle. Neste tipo de estudo se
procura alelos cuja frequncia entre os casos diferente de sua frequncia entre os
controles. Descobrir um SNP associado poderia significar a causa direta do
desenvolvimento de certa doena, mas alternativamente, pode significar apenas uma
ligao gentica ao SNP causal. Portanto, uma investigao mais aprofundada e um
mapeamento fino das reas em torno de SNPs associados geralmente so necessrios.
3.3 ESTUDOS CASO-CONTROLE
Os estudos caso-controle so os mais comuns na literatura cientfica. Muitos

autores afirmam que eles so a abordagem mais poderosa e eficiente, garantindo
robustez quando se estuda um grande nmero de SNPs [Ioannidis et al., 2001]. De
uma perspectiva epidemiolgica, a principal limitao desta abordagem que s
vezes levam ao surgimento de falsos positivos [Cardon L.R. & Bell, 2001]. Por outro
24
lado, os estudos baseados em famlia tm a vantagem sobre os estudos de base
populacional, de que so robustos contra a miscigenao e estratificao da
populao, e permitem tanto testes de ligao como de associao. Alm disso, o fato
de que eles contm informao tanto dentro como entre famlias, o qual prove
benefcios substanciais em termos de mltiplos testes de hipteses, especialmente no
contexto de estudos de associao de todo o genoma. A limitao deste tipo de
estudos que precisa de dados de gentipos de muitos indivduos com relao
parenteral e este tipo de dados so mais difceis de conseguir. Por isso estes estudos
so feitos geralmente complementando os estudos caso-controle.
Um aumento na frequncia de um alelo ou gentipo em casos comparados

com os controles indica que a presena desse gentipo pode aumentar o risco da
doena. A Figura 3.1 apresenta um esquema de um estudo caso-controle. O principal
problema neste tipo de estudo garantir uma boa correspondncia entre a base
gentica dos casos e controles, de modo que qualquer diferena gentica entre eles
esteja relacionada com a doena em estudo e no a uma amostragem tendenciosa.
Claramente, os casos e controles devem ser de grupos tnicos similares. Muitas
diferenas genticas sutis podem ser evitadas atravs da coleta de controles da mesma
rea geogrfico dos casos, ou atravs da coleta de informaes sobre o local de
nascimento dos avs de modo a verificar uma distribuio semelhante entre casos e
controles.
pacientes No pacientes
DNA dos pacientes DNA dos no pacientes
Comparar as
diferenas para
descobrir SNPs
associados com
doenas
SNPs dos pacientes SNPs dos no pacientes
Figura 3.1: A fora da associao entre cada SNPs e a doena calculada com base
na prevalncia de cada SNPs nos pacientes (casos) e nos no pacientes (controles).
25
3.4 ETAPAS DE UM GWAS
Os estudos GWAS caso-controle, tipicamente consideram 5 passos

fundamentais na anlise:
1. Primeiramente, um bom planejamento do estudo tem que ser feito, onde se

realiza a seleo de um grande nmero de indivduos com a doena a ser
estudada e do grupo de comparao, ou seja dos controles;
2. Posteriormente comea a coleta das amostras e o processo de genotipagem
do DNA de cada indivduo selecionado no desenho do estudo;
3. Depois ser feito um controle de qualidade sobre os dados brutos vindos
da genotipagem, verificando e corrigindo os erros do processo de
genotipagem;
4. Logo aps ser realizada a anlise de associao (ex. teste estatstico) entre
os SNPs (aqueles que passaram o controle de qualidade) e a doena. Aqui
realizado um teste para cada SNPs ou mltiplos testes;
5. Finalmente, para confirmar os sinais de associao positiva desde o estudo
inicial, essencial replicar os resultados em uma amostra de uma
populao independente. Tambm deve ser realizada uma anlise
funcional dos SNPs identificados.
Alm disso uma meta-anlise pode incrementar o poder em detectar variantes

mais raras de efeito modesto utilizando uma amostra maior que no estudo individual.
GWAS pode ser tambm utilizado para anlises de interao gene-gene, para
deteco de hapltipos de alto risco, associao entre SNPs e expresso do gene (ex.
quantidade de protenas para o qual um gene codifica).
3.5 CONCEITOS DA GENTICA DE POPULAES
Nesta seo sero abordados alguns conceitos importantes da gentica de

populaes que respondem a questes fundamentais que os epidemiologistas
genticos consideram em GWAS.
26
3.5.1 PRINCPIO DE HARDY-WEINBERG OU EQUILIBRIO DE HARDY
WEINBERG
O Equilbrio de Hardy-Weinberg (EHW), o princpio base da gentica de

populaes, que diz que em uma populao suficientemente grande e na ausncia de
seleo, migrao e mutao, a frequncia com que ocorre um alelo, permanecer
constante ao passar das geraes [Hoffee, 2000].
Para se entender melhor consideremos um caso simples, um nico lcus

gnico com dois alelos, sendo o alelo dominante A e o alelo recessivo a, com
frequncias allicas p e q respectivamente, sendo a freq(A) = p e a freq(a) = q onde
p+q = 1. Ento, considerando que os alelos dos controles no conjunto de dados esto
em equilbrio de Hardy-Weinberg, teremos a freq(AA) = p2 para os homozigotos AA
(dominantes) na populao, a freq(aa) = q2 para os homozigotos aa (recessivos), e
freq(Aa) = 2pq para os heterozigotos.
Gentipos de controles devem estar em equilbrio de HW. Desvios do EHW

podem ser devidos a endogamia, estratificao ou seleo da populao. Tambm
podem ser um sintoma de associao com a doena. Desvios aparentes do EHW
podem surgir na presena de um polimorfismo de deleo comum, tambm devido a
um stio PCR-primer mutante ou devido a uma tendncia de erroneamente ler um
heterozigoto como homozigoto. Geralmente, os pesquisadores testam o EHW de
modo a avaliar a qualidade dos dados e descartam aqueles loci que, por exemplo, tem
um desvio do EHW entre controles com um nvel de significncia de =10-3 ou 10-4.
[Baldwin, 2006]
3.5.2 HERDABILIDADE
Vale lembrar que no apenas a carga gentica que uma pessoa possui que ir
determinar a ocorrncia de uma doena: fatores ambientais, como dieta, fumo,
agentes infecciosos, tambm esto envolvidos no processo. Na gentica o conceito de
fentipo definido como F = G + A, onde F o Fentipo, G os genes e A o ambiente,
ou seja, a expresso do fentipo dependente da expresso dos genes e dos fatores
ambientes. Ento, a herdabilidade calculada atravs da Equao:
27
Estimado pela razo entre as varincias do gentipo (Var(G)) e Fentipo
(Var(F)), que mede a proporo da variao fenotpica que pode ser herdada em uma
populao, ou seja, o quanto que o fator gentico influencia sobre um fentipo.
A estimativa da herdabilidade analisa a contribuio relativa da diferena entre

os fatores genticos e no genticos para a varincia fenotpica total em uma
populao. Sendo assim, se uma doena ou fentipo possui uma herdabilidade de 0,5,
isso significa que 50% de toda variao fenotpica da doena devido constituio
gentica, mas isto no significa que 50% deles so causados pela gentica.
Avanos cientficos na gentica molecular tm aumentado o conhecimento das

variaes genticas que contribuem na ocorrncia de doenas na populao. Vrios
genes j foram identificados como os da fibrose cstica, algumas formas de cncer,
dentre os quais pelo menos cerca de 5% destes j possuem mecanismos de
herdabilidade explicados [TOMLINSON et al, 2011].
3.5.3 DESEQUILBRIO DE LIGAO (LD)
Alm dessas propriedades biolgicas j citadas nas sees anteriores, tambm

se pode utilizar o princpio de Desequilbrio de Ligao. O princpio de LD
estudado para definir a associao existente entre SNPs, tambm definido como uma
associao no-aleatria de SNPs [Ardlie et al., 2002]. Quando dois ou mais alelos
especficos, em loci distintos, em um mesmo cromossomo so mais freqentes em
conjunto do que separados, ento os loci esto em desequilbrio.
Anlises de LD permanecero cruciais para o planejamento dos estudos de

associao at que o re-seqenciamento de todo o genoma se torne rotineiramente
vivel. Atualmente, s alguns dos mais de 10 milhes de polimorfismos humanos
comuns so considerados em qualquer estudo. Se um polimorfismo causal no
genotipado, podemos ainda esperar detectar seu efeito atravs de LD com os
polimorfismos que foram genotipados. No entanto, LD um fenmeno no-
quantitativo: no h escala natural para medi-la. Entre as medidas que tm sido
propostas para hapltipos de dois lcus, as duas mais importantes so D e r2.
A medida D calcula o desequilbrio pela diferena entre a frequncia

observada entre um par de loci, PAB e a frequncia esperada entre os alelos separados
PA e PB [Ardlie et al., 2002].
28
Ento D dado pela formula:
D = PAB PA x PB
A medida r2 reflete o poder estatstico para detectar LD: nr2 o teste estatstico
de Pearson em uma Tabela 2x2 de contagem de hapltipos. O valor mximo que r2
pode atingir fortemente determinado pelas frequncias allicas nos dois lcus
[Wray, 2005]. Quanto mais diferentes as frequncias allicas, menor o valor de r2.
Assim, como a maioria dos SNP genotipados so comuns, se os variantes so raros, r2
ser baixo. Portanto, um r2 baixo necessrio para detectar o LD entre os marcadores.
3.5.4 AUSNCIA DE GENTIPO
Em GWAS onde se investiga associao de um SNP com certa doena, se

poucos gentipos estiverem faltando, no h muito problema. J na anlise de loci, os
dados ausentes podem ser mais problemticos porque muitos indivduos podem ter
um ou mais gentipos faltando. Isto pode conduzir a resultados esprios. Uma
soluo conveniente fazer imputao destes dados. Uma estratgia frequentemente
utilizada realizar substituio dos gentipos faltantes com valores previstos
baseando-se em um painel de referencia, como a fornecida pelo International Hapmap
Consortium. Em esta estratgia tenta se identificar os hapltipos comuns obtidos do
cruzamento entre o painel de hapltipos proporcionado pelo Hapmap e os hapltipos
dos indivduos do estudo. Ento utiliza se os hapltipos compartilhados para imputar
os alelos em falta nos indivduos do estudo. [Anderson et al., 2010; Marchini&Howie,
2010].
3.5.5 ESTRATIFICAO DA POPULAO
Os estudos caso-controle assumem que qualquer diferena nos gentipos de

SNPs entre casos e controles unicamente devido a sua diferena no status da doena,
e no devido a qualquer diferena de fundo gentico.
Este pressuposto fundamental para um estudo bem sucedido, mas difcil de

garantir tanto na fase da concepo de um estudo, ou na fase de anlise. O problema
surge se a populao subjacente na verdade uma mistura de populaes
29
ancestralmente distintas com diferentes valores de prevalncia da doena e frequncia
de SNPs.
Por exemplo, com duas populaes onde a populao 1 tem uma alta
prevalncia da doena e (independentemente) uma frequncia de alelos maior no SNP
que a populao 2, teremos uma maior frequncia de alelo de SNP em casos que nos
controles, que resultar em uma associao espria entre o SNP e a doena.
A falta de sucesso na replicao em muitos estudos de associao de doenas

pode ser devido estratificao da populao, mas h pouca evidncia de que as
diferenas genticas entre populaes so suficientes para levar a estes resultados.
Diversas populaes genticas, como os africanos e caucasianos tm prevalncias de
doenas diferentes e por tanto tambm diferem nas frequncias allicas de seus SNPs.
Ex. Hipertenso, cncer de prstata no seriam analisados em um estudo gentico
considerando essas populaes em conjunto. [Hirschhorn, 2002]
3.5.6 EPISTSIS
Epistasis foi originalmente definido por Bateson como a expresso de um

alelo em um lcus mascarado por um alelo em outro lcus [Bateson 1910]. Este
conceito foi posteriormente explicado em uma maneira estatstica por Fisher
[Kempthorne 1968] como qualquer desvio estatstico da combinao aditiva de dois
loci em seus efeitos sobre o fentipo. A definio de Fisher permite que a epistasia
seja quantificada em formas diferentes baseado em seu significado biolgico
determinado por Bateson. A existncia de epistasis amplamente reconhecida como
fundamentalmente importante para a compreenso da estrutura e funo de pathways
e da dinmica evolucionria de sistemas genticos complexos [Phillips 2008].
Epistasia uma medida da fora de interaes epistticas. Interaes

epistticas so interaes no-aditivas entre alelos, locos, ou mutaes. Isto , se o
efeito combinado de um par de mutaes no o que se espera de seus efeitos
individuais, ento pode-se dizer que h epistasia entre estas duas mutaes. Epistasia
descreve como interaes entre genes podem afetar fentipos. Os genes podem
mascarar a presena do outro ou se combinar para produzir uma caracterstica
totalmente nova.
30
Um clssico exemplo de epistasia a cor da pelagem que resulta do
cruzamento de dois camundongos. Na Figura 3.2, dois dos loci responsveis pela cor
da pelagem em camundongos so:
AA Aa aa
BB
Bb
bb
Figura 3.2: Epistasia envolvendo a cor da pelagem em camundongos, alelos no lcus

A, alteram o efeito do fentipo dos alelos no lcus B.
Locus A: afeta as etapas iniciais de produo de uma enzima responsvel pela

produo de pigmentos:.
alelo dominante (A) - a produo de pigmento normal;

alelo recessivo (a) - homozigotos bloqueiam toda produo de pigmentos e
so albinos.
Lcus B: determina se a pelagem tem bandas.
alelo dominante (B) - resulta em pelagem com bandas e pelagem cutia

(marrom). Mostrado na Figura 3.2 com uma cor cinza;
alelo recessivo (b) - homozigotos no tm bandas e sua pelagem negra.
3.5.7 EFEITOS EPISTTICOS E PRINCIPAIS
Alm de respeitar o equilbrio de Hardy-Weinberg, os dados tambm levam

em considerao a influncia de um ou mais SNPs sobre uma doena. Este tipo de
variao gentica que possui alcance individual suficiente para influenciar sobre uma
doena ou fentipo conhecida como efeito principal [Yang et al., 2010].
31
Considerando a complexidade envolvida no mecanismo de regulao no
genoma humano e nas diferentes formas de manifestaes de doenas e
susceptibilidade, amplamente aceito que doenas complexas ou multifatoriais sejam
normalmente causadas por influncia de mltiplas variaes genticas, ou seja, pelo
efeito combinado de vrios SNPs. Este tipo de variao gentica que influencia de
forma combinada conhecido como efeito episttico ou interao, apresentado por
SNPs com pouco ou nenhum efeito individual, mas que apresentam forte influncia
quando esto atuando em conjunto. Basicamente, uma interao entre dois SNPs
acontece quando seu efeito conjunto no pode ser entendido como a soma de seus
efeitos individuais.
SNP1
AA Aa aa
960 960
710 730
Controles
330 310
Casos
710 700
460
BB
450
220 190
50 40
970 980
660 670
SNP2
Bb
260 250
50 60
Bb
320 320
210 240
20 70 40 60
Figura 3.3: o grfico mostra 2000 casos e 2000 controles onde o SNP1 e o SNP2 tm
a mesma distribuio em casos e controles, mas sua distribuio conjunta
significativamente diferente entre casos e controles.
Um exemplo extremo mostrado na Figura 3.3. Pode-se observar que as

quantidade de gentipos so quase as mesmas no SNP1 para os casos e controles.
32
Assim, seu efeito individual muito fraco ou seja no ajuda a distinguir casos e
controles. Similarmente, o efeito individual do SNP2 tambm fraco. Todavia, seu
efeito conjunto forte j que as quantidades de gentipos aparecem completamente
diferentes para cada combinao de gentipos. Este fenmeno chamado efeito
marginal fraco com interao forte. Uma estratgia muito comum primeiro seleciona
aqueles SNPs com grande efeito marginal para depois realizar o teste de interao
somente entre esses SNPs selecionados. Claramente esta estratgia no identificar
SNPs com o chamado efeito marginal fraco porm com forte interao.
Procurou-se neste captulo mostrar uma introduo sobre GWAS, descrevendo

os tipos de estudos de associao. De maneira especial foram abordados os estudos do
tipo caso-controle e as principais etapas consideradas na anlise. Na ltima parte do
captulo foram revistos conceitos fundamentais da gentica de populaes que so
importantes para a abordagem GWAS. Estes conceitos ajudam o pesquisador a
entender as questes principais que subjazem a epidemiologia gentica. Embora o
captulo possa aparentar uma certa complexidade, vale dizer que se buscou abordar os
conceitos necessrios para compreender este trabalho de tese.
33
CAPTULO 4: ABORDAGENS COMPUTACIONAIS PARA
DETECO DE INTERAO DE SNPS EM DOENAS
Como foi mencionado no captulo anterior, a epistasia reconhecida como

fundamentalmente importante para a compreenso do mecanismo da doena que
causa a variao gentica. Nos ltimos 5 anos, o nmero de estudos GWAS
publicados aumentou consideravelmente. Isto se deveu aos avanos nas ferramentas
para pesquisa gentica, como banco de dados, e tecnologias para genotipagem cada
vez mais precisas e acessveis, contribuindo aos avanos no desenvolvimento de
softwares para anlise GWAS.
No existe um paradigma para a anlise de interao de SNPs em GWAS.

Fazendo uma reviso na literatura sobre os mtodos disponveis, foram apontados
dois grupos de abordagens de acordo a sua estratgia de busca: mtodos baseados na
busca exaustiva e mtodos baseados na busca no exaustiva tambm conhecidos
como busca estocstica e/ou heurstica. A Figura 4.1 apresenta um diagrama com
alguns mtodos encontrados na literatura. Nas sees seguintes alguns deste mtodos
sero apresentados.
Figura 4.1: Classificao das abordagens computacionais para detectar interao em

GWAS.
34
4.1 MTODOS DE BUSCA EXAUSTIVA
A busca exaustiva, enumera todos os k-lcus de interaes possveis entre

SNPs para identificar o efeito, ou efeitos, que melhor predizem o desfecho fenotpico.
Esta propriedade exaustiva leva sua caracterstica mais importante do ponto de vista
computacional. Embora seja vivel, mesmo para os maiores conjuntos de dados
disponveis hoje, utilizando, por exemplo, computao paralela, as generalizaes
para investigar interaes de ordem superior so excessivamente demoradas. Nesta
seo ser realizado um breve resumo de algumas abordagens exaustivas disponveis
na literatura.
BGTA (Backward genotype-trait association) [Zheng et al, 2006]
Usa um procedimento de varredura tipo boopstrap para selecionar marcadores.

Aqueles marcadores que retornam uma frequncia maior aplicando um procedimento
de regresso log quantile-quantile so considerados marcadores associados com a
doena.
Nesta abordagem, um algoritmo de varredura seleciona um conjunto de

marcadores relevantes que exibem sinais de associao com certa doena. Em cada
iterao, o algoritmo remove os marcadores que tm uma contribuio mnima na
informao de associao.
BOOST (BOolean Operation-based Screening and Testing) [Wang X. et

al, 2010]
Pertence aos mtodos que investigam epistasia estatstica para o
descobrimento de interaes desconhecidas gene-gene que subjazem s doenas
complexas. Permite a anlise de todos os pares de interaes de marcadores de
estudos GWA caso-controle de uma maneira rpida. O mtodo utiliza uma
representao booleana dos gentipos para obter uma Tabela de contingncia mais
eficiente utilizando operaes booleanas.
Sobre a base da equivalncia entre o modelo log-linear e seu correspondente

modelo de regresso logstica, BOOST constri um teste estatstico usando um
modelo de associao homogneo e um modelo saturado, estes modelos so
maximizados atravs de estimao de mxima verossimilhana (do ingls, maximum-
35
likelihood estimation - MLE). A nova medida de interao dada pela diferena
desses dois modelos. A representao booleana dos dados de gentipos ajuda na
eficincia de CPU porque s envolve valores booleanos e permite usar operaes
lgicas rpidas (bitwise) para obter as Tabelas de contingncia. O programa esta
disponvel em http://bioinformatics.ust.hk/BOOST.html
EPISNP e EPISNPmpi [Ma et al., 2008]
Os programas EPISNPmpi e EPISNP foram desenvolvidos para detectar efeito

de um nico lcus e efeitos epistticos de SNP em caractersticas quantitativas em
GWAS. Tambm incluem investigao de efeitos de trs lcus para cada SNP e cinco
efeitos de epistasia para cada par de SNPs, com base no modelo estendido de
Kempthorne (1954). EPISNPmpi um programa de computao paralela para
investigar epistasia em GWAS em supercomputadores e clusters, utilizando um
modelo de regresso linear.
O mtodo estatstico implementado para detectar efeitos de 1-lcus e epistasia

em computao paralela e serial utiliza um modelo linear geral para investigar os
efeitos de cada SNP e cada par de SNPs, e est baseado no modelo de Kempthorne
para investigar efeitos aditivos e de dominncia de cada SNP investigado e de cada
par de SNPs. Uma anlise de mnimos quadrados de dois passos usada para
implementar o teste estatstico. O primeiro passo corrige o valor fenotpico causado
por efeitos sistemticos de gnero e idade. O segundo passo investiga os efeitos
epistticos e de 1-lcus usando os valores fenotpicos corrigidos. Esta anlise de dois
passos estima e remove efeitos sistemticos de uma vez, e ento consegue uma
considervel vantagem computacional quando o nmero de SNPs grande.
FastEpistasis [SCHPBACH et al., 2010]
FastEpistasis uma ferramenta de software, capaz de computar testes de

epistasia para um grande nmero de pares de SNPs. uma extenso paralela eficiente
para o mdulo de epistasia desenvolvido no PLINK. Ele investiga efeitos epistticos
usando um mtodo de regresso linear normal de resposta quantitativa sobre os
efeitos marginais de cada SNP e um efeito de interao do par de SNP.
36
FastEpistasis otimiza os clculos, dividindo as tarefas da anlise em trs
aplicaes distintas: pr computao, ncleo ou computacional e ps-computao. A
fase de pr computao carrega arquivos de dados no formato binrio PLINK,
reformata os dados para realizar computaes mais rpidas e reduz o nmero de
condies para verificar na fase computacional. A fase ncleo desenhada para
realizar computao embaraosamente paralela, atravs de iterao de testes de
epistasis em pares de SNPs. A computao est baseada na aplicao da
decomposio QR para derivar estimaes de mnimos quadrados do coeficiente de
interao e de seu erro padro. Uma fase opcional de ps computao fornecida para
agregar resultados de cada processador ou ncleo, podendo incluir detalhada
informao de cada SNP, computar p-valoress de cada teste, e converte arquivos de
texto.
FIFT (Focused Interaction Testing Framework) [Millstein et al, 2006]
FIFT foi desenvolvido para identificar a susceptibilidade de genes envolvidos

em interaes epistticas de estudos caso-controle de genes candidatos. Nesta
abordagem, testes de razo de verossimilhana so realizados em etapas, que vo
aumentando segundo a ordem de interao considerada. Realiza uma reduo do
nmero de testes fazendo uma varredura das combinaes de genes utilizando o teste
estatstico qui-quadrado.
MDR [Ritchie et al., 2001]
O mtodo Multifactor Dimensionality Reduction (MDR) foi inicialmente

proposto por Ritchie et al. (2001), ela uma abordagem de minerao de dados no-
paramtrica que no assume nenhum modelo gentico para detectar e caracterizar as
combinaes entre variveis genticas e ambientais que interagem para influenciar a
varivel classe (caso-controle). MDR procura exaustivamente o espao de k
combinaes de marcadores e constri um classificador para cada combinao. Todo
o processo de classificao realizado utilizando validao cruzada estratificada com
fator 10.
MDR identifica k formas de interaes atravs da busca exaustiva e avalia a

associao entre cada interao e a doena por meio de validaes cruzadas. Desde a
37
descrio inicial do MDR feita por Ritchie et al. (2001), muitas modificaes e
extenses tem sido propostas, mas a ideia principal da abordagem baseada na
reduo do espao de representao dos dados, tornando mais fcil para outros
mtodos detectarem interaes. A ferramenta de cdigo aberto escrita na linguagem
Java foi implementada e descrita por Ritchie et al. (2003b), ela capaz de tratar tanto
dados de caso e controle como tambm dados baseados em famlia. Como resultado
do esforo na difuso da metodologia proposta e fcil acesso ferramenta, MDR
atualmente um dos mtodos mais amplamente utilizado para detectar interao entre
marcadores ou epistasis, como evidenciado pelas 378 publicaes encontradas no
Pubmed, buscando todos os campos (all fields) por Multifactor Dimensionality
Reduction.
A premissa bsica do MDR reduzir a multi-dimensionalidade do espao de

busca para uma varivel preditora de uma nica dimenso. Anlise de gentipos
multi-lcus so agrupadas em categorias de alto e baixo risco para seguidamente
resultar em uma dimenso. MDR um algoritmo de quatro passos como mostrado na
Figura 4.2.
Figura 4.2: Viso geral do algoritmo MDR. Basicamente, uma Tabela de

contingncia construda para cada SNP-SNP de forma a fazer uma classificao dos
gentipos em alto ou baixo risco. Finalmente, aqueles gentipos que minimizam o
erro de predio sobre os k valores analisados so selecionados como o melhor
modelo.
38
O algoritmo possui 4 passos principais:
Passo 1. Selecionar k fatores (k variveis para modelar, ex. dois lcus: SNPi
x SNPj). O conjunto selecionado deve ser pequeno para fazer o
passo 2 tratvel;
Passo 2. Calcular as taxas caso-controle para cada gentipo multi-lcus.

Uma Tabela construda com uma clula para cada gentipo multi-
lcus. Por exemplo, para marcadores bi-allicos tal como SNP para
o qual a Tabela ter dimenso 3x3. Como na Figura 4.2;
Passo 3. Identificar gentipos multi-lcus de alto risco. Para certo limiar T,

etiquetar todas as clulas com taxa caso/controle R T como alto
risco, aqueles com R<T como baixo risco, e ignorar as clulas
vazias. Geralmente o limiar T =1.0;
Passo 4. Estimar o erro de predio usando validao cruzada estratificada

de fator 10. Para cada modelo resultante, o erro de predio
determinado.
Uma vez que estes passos so completados para todos os k valores

considerados (todas as combinaes do conjunto de dados), o conjunto de fatores que
minimiza o erro de predio sobre os k valores analisados selecionado como o
melhor modelo.
Este tipo de mtodo de busca exaustiva trabalha bem com um problema de

tamanho pequeno. Em GWAS, aplicao direta deste mtodo computacionalmente
proibitiva. preciso uma filtragem efetiva para reduzir significativamente o nmero
de SNPs de modo que a busca exaustiva seja computacionalmente factvel. Estudos
comprovam que MDR tem melhor desempenho que regresso logstica para doenas
comuns [Zhang et al, 2009]. Esta ferramenta encontra-se disponvel em
[http://sourceforge.net/projects/mdr/].
PLINK [Purcell et al, 2007]

Plink um software livre de cdigo aberto, que proporciona um conjunto de
ferramentas de anlise de associao do genoma completo. Este mtodo o mais
utilizado em GWAS e por isso considerado como o estado da arte, como
evidenciado pelas 2,334 citaes em artigos cientficos, quando procurado na
39
biblioteca de medicina Pubmed Central [http://www.ncbi.nlm.nih.gov/pubmed] na
data 20 de maio de 2013. Foi projetado para realizar uma srie de anlises bsicas em
dados de alta dimensionalidade de forma computacionalmente eficiente. Alm de suas
outras funes, ele pode ser usado para investigar epistasia estatstica.
Para identificar as interaes entre todos os pares de loci, usa uma estratgia
simples analisando exaustivamente cada combinao SNP-SNP atravs de um modelo
de interao completa baseada em regresso logstica. Esta estratgia, implementada
primeiramente por Marchini et al (2005), foi revisada por Ionita and Man(2006), que
adicionaram uma busca condicional que posteriormente foi implementado no Plink
por Purcell em 2007. Atualmente o Plink proporciona mtodos tanto de busca
exaustiva como de busca no exaustiva.
A busca por associao de 2 loci com certo fentipo realizada pelo modulo
epistasis. Plink aplica regresso logstica por cada avaliao de lcus x lcus aplicada
segundo a equao 4.1. A regresso logstica uma adaptao da regresso linear na
qual uma transformao logartmica logit usada para permitir a analise de um
Fentipo binrio (ex. estado de caso ou controle). Na equao 4.1, p a probabilidade
de ter a doena, 0 representa o efeito nulo, 1 e 2 representa o efeito principal de
cada lcus sobre o fentipo, e 3 representa o termo de interao. As variveis x1 e x2
contm informao sobre o gentipo nos dois lcus e podem ser codificados de
formas diferentes, por exemplo, -1, 0 e 1 para homozigoto recessivo, heterozigoto e
homozigoto dominante respectivamente. O termo de interao (x1*x2) pode tambm
ser codificado de formas diferentes:
[4.1]
Os coeficientes so estimados para cada SNP como tambm para a interao

entre estes. Este procedimento pode ser usado sistematicamente para comparar
diferentes modelos genticos e para investigar se mltiplos SNPs tm efeitos
independentes sobre o fentipo ou se esto em desequilbrio de ligao um como o
outro. Plink avalia os seguintes modelos genticos, descritos por [Marchini et al,
2005] :
Modelo multiplicativo: em analises de 1 lcus o modelo multiplicativo

avaliado entre e dentro loci, onde assume se um aumento do risco doena
adicionando uma variante em cada marcador multiplicativamente.
40
Interao de dois lcus, efeito limiar: em analise onde um lcus no
suficiente, se assume que a presena de variantes de risco a partir de ambos
marcadores, elevam o risco que aumenta para um nvel constante.
Interao de dois lcus, efeito multiplicativo: em analise onde um lcus

no suficiente se assume que alelos de risco mltiplos desde diferentes loci
incrementam o risco linearmente.
Algoritmo
a) Avaliar todos os pares de loci.

b) Para cada par de loci x1 e x2, avaliar o modelo de interao segundo a
equao 4.1:
c) Estimar OR (Odds Ratio). Para estimar a OR no modelo de interao de

lcus x lcus, Plink preenche uma Tabela com as frequncias allicas da
combinao dos loci e posteriormente colapsa essa Tabela 3x3 em uma
Tabela 2 x 2 como mostrada na Figura 4.3
d) Aplicar o teste Z score. Equao 4.2
e) Realizar o controle de testes mltiplos aplicando correo de Bonferroni
ou FDR.
Lcus H Lcus H
Lcus G Lcus G
2 1 0 H1 H2
2 a b c G1 A=4a+2b+2d+e B=4c+2b+df+e
1 d e f G2 C=4g+2h+2d+e D=4i+2h+2f+e
0 g h i
Figura 4.3: No modelo de interao lcus x lcus, Plink estima a OR (Odds Ratio)
como log (AD/BC).
41
O teste Z-score aplicado segundo a equao 4.2 onde a varincia V
estimada da forma:
[4.2]
Outros mdulos proporcionados pelo programa so gesto dos dados, estatsticas para
controle de qualidade dos dados, deteco de estratificao da populao, teste de
associao bsico, teste de hapltipo e preditores multimarcadores, anlise de CNV
(em fase de teste), meta-anlise e outros testes bsicos. O programa est disponvel no
site web [http://pngu.mgh.harvard.edu/~purcell/plink/].
Tools for efficient epistasis detection in GWAS [Zhang X. et al, 2011]
As ferramentas apresentadas por Zhang et al., so trs mtodos que exploram

alguma propriedade de algum teste estatstico usado para mitigar problemas de testes
mltiplos que limitam a maioria dos algoritmos exaustivos. Eles provm um conjunto
de mtodos, FastANOVA, COE e TEAM que consideram um nmero linear de testes
para desse modo evitar a penalidade dos testes mltiplos. COE uma generalizao
do anterior FastANOVA, incluindo teste chi-quadrado e a razo de verossimilhana.
O primeiro programa FastANOVA [Zhang X. et al, 2008], utiliza um limite

superior do teste ANOVA (teste de anlise de varincia) de dois lcus para podar o
espao de busca. O limite superior expresso como a soma de dois termos. O
primeiro termo baseado no teste ANOVA de um nico SNP. O segundo termo
baseado no gentipo de pares de SNPs independente de permutaes. Esta
propriedade permite indexar pares de SNP numa matriz com base na relao entre os
gentipos de SNPs. Devido a o nmero de entradas na matriz ser limitado pelo
nmero de indivduos no estudo, muitos pares de SNPs compartilharam uma entrada
comum. Alm disso, pode ser demonstrado que todos os pares de SNP indexados pela
mesma entrada tm exatamente o mesmo limite superior. Portanto, pode-se calcular o
limite superior para um grupo de pares de SNP. Outra propriedade importante que a
estrutura de indexao s precisa ser construda uma vez e pode ser reutilizado para
todos os dados permutados. Utilizando o limite superior e a estrutura de indexao,
42
FastANOVA necessita apenas executar o teste ANOVA em um pequeno nmero de
pares de SNPs sem o risco de perder qualquer par significativo.
O segundo programa, COE [Zhang X. et al., 2010], utiliza otimizao

convexa. Ele se baseia em que uma grande variedade de testes estatsticos, tais como
o teste qui-quadrado, o teste de razo de probabilidade (tambm conhecido como
teste-G), e testes com base em entropia so todos testes com funes convexas de
frequncias observadas em Tabelas de contingncia. Uma vez que o valor mximo de
uma funo convexa atingido nos vrtices do seu domnio convexo, por restries
sobre as frequncias observadas nas Tabelas de contingncia, pode-se determinar o
domnio da funo convexa e obter o seu valor mximo. Este valor mximo
utilizado como o limite superior no teste estatstico para filtrar pares de SNPs
insignificantes. COE aplicvel a todos os testes que so convexos.
O terceiro programa, TEAM [Zhang X. et al., 2010], foi desenvolvido para

superar as limitaes dos anteriores que foram projetados para estudos com gentipos
homozigotos e tamanhos de amostra relativamente pequenos. TEAM (do ingls, Tree-
based Epistasis Association Mapping), um algoritmo exaustivo que utiliza o mnimo
de uma rvore de expanso (do ingls, minimum spaning tree) para atualizar de forma
incremental as Tabelas de contingncia para testes epistticos sem verificar todos os
indivduos. Ele suporta qualquer teste estatstico baseado em Tabelas de contingncia,
e permite tanto o calculo da taxa de erro baseada em famlia como a taxa de controle
de descoberta de falsos positivos.
TEAM computa exaustivamente todas as interaes possveis de 2-lcus

usando um teste de permutao. Testes de permutao so geralmente mais precisos
que mtodos de ajuste direto, como por exemplo a correo de Bonferroni, para
identificar interaes epistticas significantes, pero com um alto custo computacional.
Se dois SNPs tem os mesmos gentipos na maioria das amostras, o calculo de suas
Tabelas de contingncia pode ser compartilhado considerando apenas aquelas
amostras com diferentes gentipos.
TEAM utiliza uma rvore de expanso mnima para maximizar a computao

das Tabelas de contingncia compartilhadas, reduzindo assim o custo computacional.
Na rvore, um n representa um SNP e as arestas denotam o nmero de amostras com
diferentes gentipos entre os SNPs conectados. Esta rvore, torna mais rpida a
computao que os mtodos de fora bruta em uma ordem de magnitude. Ento,
43
pode-se obter os valores exatos dos testes investigando a rvore de expanso mnima
sem verificar todos os indivduos.
4.2 MTODOS DE BUSCA NO EXAUSTIVA
Este tipo de mtodos realiza uma busca parcial das possveis associaes (de k
marcadores com certo fentipo) para completar o processamento de forma
relativamente rpida. Apesar de eficientes e rpidos comparados com os mtodos
exaustivos, estes mtodos muitas vezes dependem do acaso para selecionar SNPs que
exercem influncia sobre a doena. No possvel saber se eles conseguiram
identificar ou alcanar a correta soluo para um conjunto de dados especfico. A
medida que os conjuntos de dados crescem em nmero de SNPs, as chances de
encontrar os dados corretos diminuem devido ao crescimento do espao de busca.Os
algoritmos exaustivos podem ser classificados segundo a estratgia utilizada para a
reduo do espao de busca em mtodos estocsticos e em mtodos gulosos.
Os mtodos estocsticos realizam uma investigao probabilstica do espao

de busca. Alguns comeam com um modelo composto por um conjunto aleatrio de
SNPs e tentam melhorar a sua preciso de classificao, enquanto outros usam um
subconjunto pequeno que foram previamente selecionados incorporando
conhecimento experto sobre os dados.
Os mtodos de busca gulosa utilizam algoritmos que buscam uma soluo

para o problema tomando decises que levam a um novo timo local a cada passo da
execuo. Com isso, espera-se que ao final da busca seja alcanado o timo global
sem que seja necessrio analisar todas as situaes possveis.
Algumas ferramentas que se baseiam em mtodos estocsticos so:
AntEpiSeeker [WANG Y. et al, 2010]
Este mtodo um algoritmo derivado do ACO [DORIGO &

GAMBARDELLA, 1997] e apresenta duas etapas. Na primeira, ele usa um teste qui-
quadrado para verificar associao entre interao k-lcus e o fentipo, e
inicialmente, nenhuma suposio sobre a interao feita no AntEpiSeeker.
44
A probabilidade de uma formiga adicionar o SNP k em seu caminho (ex. uma
k-lcus interao) na iterao i definida como , onde
o feromnio. O feromnio atualizado de acordo a
, onde o coeficiente de evaporao, J o nmero de interaes k-
lcus contendo k SNP na iterao i, e o valor qui-quadrado da interao j. Na

segunda etapa, AntEpiSeeker conduz uma busca exaustiva de interaes dentro do
conjunto de SNPs altamente suspeitos, e dentro do conjunto reduzido de SNPs com
nveis de feromnios no topo do ranking.
BEAM [Zhang Y, Liu JS., 2007]
Este mtodo usa um modelo Bayesiano com um algoritmo Metropolis-Hasting

para partio dos marcadores em trs grupos: um grupo G0 contm marcadores no
ligados doena, um grupo G1 inclui marcadores que contribuem independentemente
doena, e um grupo G2 que est composto de marcadores que influenciam
conjuntamente doena. Aps a fase de partio, a verificao da significncia dos
SNPs candidatos realizada com a utilizao do teste estatstico B.
Em BEAM, existem duas probabilidades a priori que necesitam ser pr-

determinadas: a probabilidade de cada marcador pertencer a G1 e de pertencer a G2.
Primeiro, uma aplicao de regresso logstica seleciona a frao mais significativa
de SNPs em funo de seus efeitos marginais, e posteriormente verifica-se todas as
interaes 2-lcus desses SNPs utilizando regresso logstica com teste de razo de
verossimilhana.
Epiforest [Jiang R. et al, 2009]
uma abordagem baseada em random forest para a deteco de interaes

epistticas em estudos caso-controle. Primeiro, um algoritmo random forest
executado com todos os SNPs para obter a importncia de Gini de cada SNP e, em
seguida, realizada uma seleo de caractersticas utilizando um algoritmo sliding
window sequencial forward (SWSFS) selecionando um subconjunto de SNPs. Todas
as interaes possveis so enumeradas para este subconjunto obtido como resultado
do algoritmo SWSFS. Depois deste passo um pequeno subconjunto de candidatos
45
SNPs, aqueles que tm a contribuio mais significante para a discriminao entre
casos contra e controles, selecionado.
Na segunda etapa, um procedimento hierrquico adotado para declarar que a

significncia estatstica dos SNPs candidatos esto associados com o risco de doena.
Em anlises de 1 lcus, aplicado o teste estatstico B para cada SNP candidato, e
ento reporta-se todos os SNPs cujos p-valores so menores que um certo depois de
aplicar correo de Bonferroni para L testes. Em testes de interao de 2-lcus, se
aplica o teste estatstico para todos as interaes possveis de 2-lcus, e reporta-se as
interaes com p-valor menor que certo depois da correo de Bonferroni para L(L-
1)/2 testes. Se ambos SNPs investigados no teste de interao j foram reportados no
teste de 1 lcus, ento o teste de sua interao no ser realizado.
Epimode [Tang W. et al, 2009]
EpiMODE (do ingls, epistatic MOdule DEtection) uma generalizao do

mtodo BEAM. Este mtodo introduz mdulos epistticos para descrever o efeito
independente de um nico lcus ou efeitos interativos de mltiplos loci sobre as
doenas. A base da ferramenta epiMODE a definio de mdulos epistticos
como uma pequena unidade gentica que, independentemente influencia o risco de
doena. Com base nesta noo, achados de SNPs que verificam epistasis so
atribudos a mdulos epistticos. Esta atribuio feita calculando a probabilidade
dos dados observados dado um padro determinado de partio de SNP usando um
modelo Bayesiano e, em seguida, obtendo a probabilidade posterior de um SNP
pertencente a cada mdulo episttico.
Uma estratgia Gibbs sampling de amostragem com salto reversvel de

cadeia Markov e Monte Carlo (RJ-MCMC) empregado para obter a probabilidade a
posterior, e para facilitar a deteco dos mdulos epistticos. Finalmente, epiMODE
reordena os testes de hiptese para filtrar os mdulos epistticos significativos.
GENN [Motsinger et al, 2008]
Grammatical evolution neural networks (GENN) um software que utiliza

uma abordagem de redes neurais em conjunto com algoritmos de computao
evolucionaria para otimizar os parmetros de entrada, arquitetura e pesos de uma rede
46
neural para melhorar o poder de identificar interaes gene-gene. A tcnica de
evoluo gramatical separa o gentipo do fentipo no processo evolucionrio e
permite maior diversidade gentica dentro da populao que outro algoritmo
evolucionrio. Em GENN a gramtica permite definir mltiplas conexes entre os
ndos selecionados pelo algoritmo. Tambm o nmero de conexes permite que redes
neurais mais complexas possam evoluir e por tanto incrementar seu poder de deteco
de associao.
INTERSNP [Herold et al., 2009]
Este mtodo seleciona SNPs para anlise de interao utilizando informao a

priori, tal como dados prprios de relevncia gentica/biolgica, localizao
genmica, classe ou funo. Fontes de informao para definir estratgias
significativas podem ser evidncias estatsticas de associao e relevncia
gentica/biolgica (locao genmica, classe funcional ou informao de pathway). O
software inclui mdulos baseados em regresso logstica tambm como modelos log-
linear para anlise de mltiplos SNPs, simulaes de Monte-Carlo para avaliar a
significncia genmica, anlise de associao de pathway e anlise de hapltipos,
entre outros.
MECCPM SNP [Miller et al., 2009]
Usa um modelo de mxima entropia (MECPM) acoplado com um modelo de

busca estruturada. MECPM explicita interaes que conferem poder preditivo do
fentipo. Ele identifica um subconjunto de marcadores permitindo k formas diferentes
de interaes entre estes marcadores.
MECCPM constri um fentipo a posteriori, baseado no principio de mxima

entropia, codificando restries do modelo que correspondem a interaes 1 a 1.
Permite codificao para modelo dominante ou recessivo para cada lcus em uma
interao candidata. Busca interaes utilizando uma heurstica gulosa avaliando
candidatos at a quinta ordem. Utiliza o critrio de informao Bayesiana (BIC) como
medida na estratgia de seleo.
47
MegaSNPHunter [Wan X. et al, 2009]
MegaSNPHunter recebe como dados de entrada os gentipos de casos e

controles e produz uma lista ordenada de interaes multi-SNP. O mtodo funciona
da seguinte maneira: o genoma inteiro dividido em vrios curtos subgenomas que
cobrem uma rea genmica de possveis efeitos hapltipos. Para cada um destes
subgenomas MegaSNPHunter constri um classificador baseado em rvore
investigando as interaes multi-SNP, e seguidamente mede a importncia dos SNPs
com base em suas contribuies no classificador. O mtodo mantm os SNPs
relativamente mais importantes e permite que haja competio de uns com os outros
em cada nvel. A competio termina quando o nmero de SNPs selecionados
menor do que o tamanho do subgenoma. Finalmente, MegaSNPHunter prov extratos
e relatrios valiosos das interaes multi-SNP.
PBEAM [Zhang Y. & Liu J., 2007]
uma verso paralela do BEAM (Bayesian Epistasis Mapping Association).

Ele usa cadeia de Markov com algoritmo Monte Carlo, Markov Chain Monte Carlo
(MCMC), para procurar efeitos de um nico marcador e efeitos de interao de
mltiplos loci. O algoritmo BEAM tem dois componentes essenciais: uma ferramenta
de inferncia Bayesiana para epistasia, implementada via MCMC, e um teste
estatstico para avaliar a significncia estatstica. Como resultado desta anlise,
BEAM proporciona uma probabilidade a posteriori para cada marcador ou epistasia
estar associado com a doena. Ele classifica os SNPs em trs tipos: SNPs associados
com a doena, SNPs contribuindo para a suscetibilidade doena de forma
independente e SNPs que influenciam o risco de doena em conjunto com outro SNP.
PLINK (fast epistasis) [Purcell et al., 2007]
No procedimento de busca exaustiva de Plink, uma busca simultnea

conduzida sobre todos os loci. O procedimento de busca no exaustiva de Plink,
chamado fast-epistasis, identifica um conjunto de loci que atingem um nvel de
significncia convincente na avaliao do teste de associao de 1 lcus.
Posteriormente examina todas as possveis interaes dos loci do conjunto
selecionado.
48
Algoritmo
a) Definir o nvel de significncia ;

b) Aplicar o teste de associao para um nico lcus e selecionar S o
conjunto de loci cuja significncia maior a ;
c) Avaliar todos os pares (2 loci) do conjunto S aplicando a equao 4.1;
d) Estimar a OR. Para estimar a OR no modelo de interao de lcus x lcus,
Plink preenche uma Tabela com as frequncias allicas da combinao dos
loci e posteriormente colapsa essa Tabela 3x3 em uma Tabela 2x2 como
mostrada na Figura 4.3;
e) Calcular Z score como na equao 4.2;
f) Aplicar correo para testes mltiplos. Rejeitar todos os pares de loci com
probabilidade ajustada p(x1,x2) > .
SNPHarvester [Yang C. et al, 2009]
Este um mtodo de busca gulosa e pode selecionar um conjunto de grupos

significativos de SNP dentre centenas de milhares de forma eficiente. Estes grupos
selecionados de SNPs podem ento ser analisados por outros mtodos. SNPHarvester
uma ferramenta til porque a maioria das ferramentas de procura de interaes
epistticas no consegue lidar com a grande quantidade de dados nos estudos GWA,
portanto, eles precisam reduzir o conjunto de dados. SNPHarvester reduz
eficientemente o nmero de SNPs e permite a aplicao direta de ferramentas
estatsticas existentes na deteco de interao. SNPHarvester uma ferramenta
intermediria que usa gentipos de estudos GWA e proporciona grupos de SNPs, que
devem ser analisados por programas como o MDR.
O mtodo basicamente busca dentro de um grande conjunto de dados de

SNPs, conjuntos ou grupos de SNPs que melhor explicam a existncia de interaes, e
utiliza modelos de regresso logstica sobre esses grupos para identificar as interaes
significantes entre os SNPs. Inicialmente o algoritmo SNPHarvester faz uma busca
sobre todos os L SNPs do conjunto de dados, detectando os SNPs que sejam
significantes. Os SNPs so considerados significantes com base no valor obtido pelo
teste de qui-quadrado com dois graus de liberdade, aps correo de Bonferroni.
49
Todos os SNPs que se mostrem significantes so removidos. O mtodo tem
como objetivo encontrar as interaes epistticas, ou seja, SNPs que apresentam
efeitos conjuntos. Aqueles SNPs com efeitos principais so descartados da anlise.
Assim, para um valor fixo k, definido como o nmero de interaes que sero testadas
pelo mtodo, onde k ln3Nd -1, e Nd o nmero de casos.
Assim, utilizando os SNPs sem efeitos principais so gerados mltiplos paths

atravs de um algoritmo de busca local denominado PathSeeker. O algoritmo
PathSeeker calcula a pontuao de cada path, de tal forma que percorre todo conjunto
de SNPs que no esto no path, verificando se a troca de um dos SNPs do path, pelo
SNP do conjunto aumenta a pontuao. Caso a pontuao aumente, o SNP trocado,
caso contrrio o path permanece igual, ou seja com os mesmos SNPs. Dessa forma, o
algoritmo PathSeeker atualiza apenas um SNP por vez em um path. Ao mesmo tempo
em que se verifica a pontuao do path tambm verificado se o valor excede um
determinado limiar T. Caso ultrapasse, o path adicionado a uma coleo M
composta por grupos de SNPs que sero analisados em um ps-processamento. No
ps-processamento, os SNPs selecionados em um path so analisados utilizando uma
regresso logstica penalizada que indicar as melhores interaes encontradas.
SNPRuler [Wan X. et al., 2010]
SNPRuler usa uma abordagem de aprendizado baseado em regras para

detectar interaes epistticas. A aprendizagem de regras utilizada para inferir
interaes onde cada interao episttica implicitamente contm algumas regras
preditivas. Descobrir e avaliar regras muito mais fcil e mais rpido do que
encontrar e avaliar as interaes. O algoritmo de aprendizagem utilizado procura
identificar as regras para inferir possveis interaes epistticas. Apesar de uma regra
preditiva no pode garantir a existncia de interao episttica entre os SNPs na regra,
esta abordagem reduz o nmero de possveis interaes de forma a aproveitar aquelas
estatisticamente significativas.
Com o objetivo de encontrar as melhores regras preditivas, uma medida de

relevncia U() utilizada para ordenar as regras que contenham interaes
verdadeiras. A partir da medida da regra preditiva U(), um limite superior definido
para evitar a expanso desnecessria de uma determinada regra, evitando uma busca
exaustiva ou estocstica das interaes. Aps obtidas as melhores regras utilizando a
50
medida U(), o algoritmo ento constri uma rvore de busca para cada regra
selecionada, onde cada nodo representa um SNP e cada ramo que liga os ndos
representa uma possvel interao. Posteriormente, um mtodo de busca em
profundidade (do ingls, depth-first transversal) gera e avalia as possveis interaes
utilizando a estatstica qui-quadrado ajustada pelo uso da correo de Bonferroni. Ao
final o algoritmo exibe em sua sada uma lista de interaes ordenadas atravs da
estatstica qui-quadrado.
4.3 COMPARAO DOS MTODOS DE BUSCA
Como o tamanho dos conjuntos de dados disponveis excede meio milho de

marcadores, evidente que uma pesquisa exaustiva ou de fora bruta das interaes
de SNP-SNP apresentar dificuldades computacionais e estatsticas que podero
afetar sua viabilidade. Alguns destes mtodos, como FastANOVA, TEAM, EpiSNP e
FastEpistasis fazem uso da computao de alto desempenho para superar a
complexidade computacional, mas tropeam na necessidade do controle de testes
mltiplos, levando assim a resultados enviesados. Outros mtodos conseguem
trabalhar bem com um conjunto de dados de tamanho pequeno, como MDR, que tem
melhor desempenho que mtodos que utilizam regresso logstica.
No entanto, alguns dos mtodos discutidos neste captulo podem ser adaptados
para tirar vantagem da informao biolgica. Os mtodos estocsticos como
Epiforest, MegaSNPHunter, Epimode, BEAM, GENN selecionam iterativamente um
pequeno nmero de locos e realizam um teste completo para epistasia. Esta estratgia
baseia-se na sorte para selecionar loci que interagem em pelo menos uma iterao.
Outros como MECCPM, SNPRuler, InterSNP, SNPHarvester e AntiEpiSeeker
realizam uma busca parcial das interaes utilizando critrios heursticos para filtrar a
quantidade de SNPs no estudo. O sucesso desta estratgia depende da natureza das
iteraes presentes no conjunto de dados: as interaes epistticas puras sem efeitos
principais so susceptveis de serem desperdiadas.
Ainda assim, o exame incompleto de todas as possibilidades traz consigo outro

conjunto de problemas. Como se pode ter certeza de que as interaes que
escolhemos ignorar so desinteressantes? Interaes puras realmente existem em
gentica? Quantas iteraes so necessrias em uma busca aleatria para chegar a
51
uma concluso razovel? difcil ou impossvel de responder satisfatoriamente a
essas perguntas. No prximo captulo ser descrita a proposta de uma metodologia
que pode ajudar a superar estas dificuldades, fornecendo ferramentas teis execuo
dos experimentos e anlises de GWAS.
A Tabela 4.1 mostra uma comparao dos mtodos descritos considerando

critrios como nome do algoritmo, numero de interaes suportadas, tamanho
amostral para 2 loci, tipo de teste aplicado e estratgia de busca empregada denotada
como E para busca exaustiva e NE para busca no exaustiva.
Algoritmo Nro de T. amostra Tipo de teste aplicado Estratgia

interaes (para 2 loci) de busca
FastANOVA 2 loci ~100,000 Teste ANOVA E
COE 2 loci ~100,000 Testes estatsticos convexos como Chi quadrado, E
razo de mxima verossimilhana, Informao
mutua e teste Cochran-Armitage
TEAM 2 loci ~500,000 Arvore de expanso mnima baseada em testes E
estatsticos convexos (como em COE)
MDR k loci ~10,000 Data mining E
BOOST 2 loci ~500,000 Mxima Verossimilhana E
EpiSNP 2 loci ~500,000 Modelo Kempthorne E
FastEpistasis 2 loci ~500,000 Regresso logstica E
PLINK 2 loci ~500,000 Regresso logstica E/NE
AntEpiSeeker k loci ~100,000 Chi-quadrado/ACO NE
SNPRuler k loci ~100,000 Aprendizado baseado em regras NE
InterSNP 2 loci ~300,000 Regresso logstica NE
MECCPM k-loci ~300,000 Critrio de informao bayesiana (BIC) NE
SNPHarvester k-loci ~500,000 Regresso logstica penalizada NE
BEAM 2 loci ~500,000 Modelo bayesiano NE
Epiforest 2 loci ~100,000 Random Forest NE
GENN 2 loci ~100 Neural Network NE
MIGA-2L 2 loci ~500,000 Algoritmo Gentico NE
Tabela 4.1: Comparao de alguns mtodos utilizados para deteco de interao de

SNPs.
A Tabela 4.2 apresenta vantagens e desvantagens de alguns dos mtodos descritos

neste capitulo. Os principais critrios considerados foram poder de deteco, tamanho
amostral, mtodo de validao para evitar resultados esprios (falsos positivos) entre
outros.
52
Algoritmo Vantagens Desvantagens
FastANOVA, Disponibiliza vrios testes estatsticos No considera gentipos heterozigotos;
COE convexos; Tamanho amostral pequeno;
Disponvel para uso. Carece de validao, o que poderia resultar
em resultados enviesados.
TEAM Disponibiliza vrios testes estatsticos Carece de validao, o que poderia resultar
convexos; em resultados enviesados.
Disponvel para uso.
MDR Bom poder para detectar associao; Algoritmo intratvel para amostras de escala
No assume um modelo gentico apriori; genmica;
Utiliza modelo de validao cruzada com Tem problemas para detectar associaes na
fator 10; presencia de lcus com heterogeneidade.
Bem avaliado e entendido por vrios grupos
de pesquisa;
Disponvel para uso.
FastEpistasis Fornece processamento paralelo do modulo Erro no calculo da Varincia;
epistasis de Plink; No realiza estimao dos gentipos devido
Escala linearmente com o numero de a dados incompletos;
processadores considerado. Problemas para detectar associaes em um
conjunto de gentipos sem efeito marginal.
PLINK Bom poder para detector associao O teste exaustivo computacionalmente
(exaustivo) assumindo certo tipo de modelo gentico custoso.
sobre os dados; Problemas na deteco de associao para
Amplamente difundido e disponvel para modelos com efeito marginal fraco.
uso.
Plink (no Tratvel para dados de escala genmica; Deteco de associao em ausncia de
exaustivo) Mtodo simple e facil de implementar; dados com efeito marginal fraco perdida
Disponvel para uso. devido a uma busca incompleta do espao
das possveis associaes.
SNPRuler Seu algoritmo baseado em aprendizado de No pode detectar interaes epistticas
regras fornece fcil interpretao; contendo regras conjuntas;
No assume uma distribuio apriori sobre No considera modelos de heterogeneidade
os dados; gentica (ex. efeito marginal fraco);.
Proporciona uma lista de interaes No realiza validao para evitar resultados
classificadas por significncia. esprios para reduzir os falsos positivos.
SNPHarvester Complexidade de busca linear; A remoo de SNPs com efeitos marginais
Fornece a possibilidade de remover SNPs significativos limita a possibilidade de
com significante efeito marginal para a identificar todos resultados das interaes
deteco correta de interaes epistticas. epistticas;
A seleo aleatria do conjunto inicial dos
SNPs utilizada pelo algoritmo PathSeeker
pode limitar a deteco de associaes
importantes.
BEAM Permite incorporar conhecimento experto Problemas para detectar associaes sobre
utilizando uma distribuio a priori sobre os dados de gentipos sem efeito principal;
dados; Tempo de execuo lento em comparao
Bom poder de deteco de associao em com outros mtodos.
modelos de interao com MAF baixo;
Disponibilidade para uso.
Epiforest Random Forest so rapidos para construir; Problemas para detectar interaes com
Bom poder de deteco de interaes com pequeno ou nenhum efeito marginal;
efeito episttico puro; Utiliza uma votao consensual que limita a
Suporta vrios formatos de arquivos. lista de loci de suscetibilidade com o
fentipo estudado.
GENN Capacidade de aprender sobre um Precisa de ajustes sobre os dados;
determinado conjunto de dados e fazer Factvel somente para um pequeno conjunto
previses sobre os mesmos, onde o resultado de dados.
da doena desconhecida;
Software disponvel para uso.
Tabela 4.2a: Vantagens e desvantagens de mtodos para deteco de associao (2 loci).
53
Algoritmo Vantagens Desvantagens
MIGA-2L Utiliza validao cruzada estratificada de A escolha dos parmetros para a execuo
fator 10 para evitar resultados esprios; pode afetar no desempenho do algoritmo;
Pode ser utilizado para dados de escala No fornece uso de fentipos contnuos;
genmica; No realiza estimao dos gentipos devido
No assume nenhuma distribuio apriori a dados incompletos.
sobre os dados;
Bom poder de deteco de interao sobre
vrios modelos genticos.
Tabela 4.2b: Vantagens e desvantagens do algoritmo MIGA-2L para deteco de associao
(2 loci). MIGA-2L ser descrito no proximo capitulo.
Este captulo teve como finalidade fazer uma reviso geral sobre as
ferramentas utilizadas para investigar efeitos de interao episttica em GWAS. Estes
procedimentos foram vistos de uma maneira panormica, procurando enfatizar a
tcnica de abordagem empregada por cada um deles. Nos ltimos anos muitos
mtodos foram propostos, a fim de resumir alguns deles e ajudar no seu
reconhecimento, estes mtodos foram agrupados segundo o tipo de busca empregada
para a identificao de uma interao episttica. Foram includos mtodos que
utilizam uma busca exaustiva e os que utilizam busca no exaustiva. De todo o grupo,
pode-se destacar o Plink por ser uma ferramenta robusta e uma das mais difundidas e
utilizadas em estudos que envolvem GWAS. O modulo fast-epistasis de Plink foi
escolhido para realizar um estudo comparativo com o algoritmo MIGA-2L, que foi
desenvolvido neste trabalho de pesquisa para investigar associao de SNPs com
doenas. No final deste capitulo foram apresentadas Tabelas comparativas dos
mtodos citados considerando vrios critrios de desempenho.
54
CAPTULO 5: METODOLOGIA PROPOSTA
Este trabalho teve como enfoque o desenvolvimento de uma metodologia para
a descoberta de marcadores genticos (SNPs) de doenas abarcando desde o pr-
processamento dos dados at a identificao dos hapltipos que manifestam risco de
desenvolvimento da doena estudada. A ideia bsica que dado um conjunto de SNPs
de indivduos casos e controles, a metodologia consiga descobrir um subconjunto
destes relacionados com a doena em estudo. A metodologia proposta pode ser
esquematizada em 6 passos, como mostrado na Figura 5.1.
Figura 5.1: Viso geral da metodologia proposta, esquematizada em 6 passos.
Em resumo, a metodologia considera um conjunto de SNPs de indivduos

casos e controles e realiza uma avaliao da qualidade dos dados para seguidamente
particionar o conjunto completo em subconjuntos de treino e teste utilizando a
estratgia de validao cruzada. Posteriormente, cada conjunto de treino ser
submetido com a execuo de um algoritmo gentico para descobrir os SNPs que
apresentam susceptibilidade com a doena em estudo. Depois da seleo dos SNPs
ser realizada uma classificao para determinar os hapltipos associados com a
doena. Finalmente ser realizada a avaliao do desempenho da metodologia.
55
MOTOR DE GERENCIAMENTO DO WORKFLOW: QUIRON
A metodologia proposta faz uso de um Sistema de Gerenciamento de

Workflow (SGWf) para a execuo e gesto de todas as etapas mostradas na Figura
5.1. Os SGWf permitem automatizar uma sequencia de aes, atividades ou tarefas na
execuo de um experimento cientfico, permitem realizar um controle de cada etapa
do mesmo e aportam as ferramentas necessrias para seu controle ou gesto do fluxo
de trabalho. Ele se caracteriza, principalmente, pela adequada integrao com
sistemas de informao atuais: banco de dados, gesto documental, mensagens, etc.,
permitindo a ampliao de um processo simples integrao de vrios processos
inter-relacionados. SGWf um software que suporta modelagem e execuo de
workflows cientficos, coletando a provenincia dos dados durante o desenho e
execuo do workflow. No entanto, experimentos de grande-escala requerem
frequentemente o uso de um ambiente de computao paralela. Poucos SGWf esto
prontos para execuo paralela nos atuais ambientes de computao de alto
desempenho. Assim, para permitir o uso eficiente desses recursos, foi utilizado
Quiron [Ogasawara et al., 2011], um motor de workflow cientfico de dados
centralizados que executa, em paralelo, aplicaes cientficas.
O Quiron implementa um gerenciador para dirigir a execuo do workflow.

Basicamente, Quiron coordena a execuo paralela do workflow, atribuindo conjuntos
de parmetros de entrada diferentes aos ns de computao. Quiron usa uma
abordagem de dados centralizados usando lgebra de workflow cientfico para
gerenciar a execuo paralela do workflow eficientemente. A lgebra padroniza o
consumo e produo de dados e tambm abre horizontes para otimizao do
workflow. Quiron utiliza uma linguagem declarativa (XML) para definir os
workflows e transform-los em uma expresso algbrica permitindo a otimizao
automtica do workflow, ele tambm estabelece um plano de execuo otimizado
paralelo para workflow.
A execuo paralela de um workflow apresenta vrias dificuldades para a

coleta de dados de provenincia, porque estes dados tambm so distribudos em todo
o ambiente de computao de alto desempenho em diferentes ns de um cluster ou
mesmo em diferentes mquinas virtuais em um ambiente de nuvem. No banco de
dados gerado pelo Quiron, apenas os dados de provenincia so armazenados, tais
como metadados e os vrios resultados extrados. Os dados de aplicativos
56
intermedirios, tais como arquivos enormes e outros resultados de computao
complexos, so apenas referenciados no banco de dados. Estes arquivos so mantidos
na rea de armazenamento da aplicao. Provenincia essencial para experincias
cientficas e de engenharia e garante que o experimento possa ser reproduzido sobre
condies diferentes. Quiron requer software adicional, como PostgresSQL, Java e
bibliotecas adicionais como MPJ[Carpenter et al., 2000] e HSQLDB [Simpson and
Toussi, 2007]. Estes so softwares de cdigo aberto que podem estar disponveis em
centros de Computao de alto desempenho. Quiron est disponvel no cluster do
Centro de Computao de Alto Desempenho da Universidade Federal do Rio de
Janeiro para qualquer projeto ou cientista que deseja us-lo.
A Figura 5.2 apresenta uma viso simplificada de como Quiron trabalha em

um cluster de computao de alto desempenho em ambiente paralelo onde A, B e C
representam as atividades do workflow.
Provenincia
Entrada de
parmetros
Quiron
Computador A B C
alto
desempenho Quiron
Cientfico/
Cluster
Engenheiro A B C
...
A B C
Desenho a a Quiron
Workflow A B C
chamadas
Quiron
Figura 5.2: Arquitetura de execuo de Quiron
57
5.1 PASSO 1: PR-PROCESSAMENTO DO CONJUNTO DE DADOS
O conjunto de dados utilizado segue o formato padro de estudos de

associao que consideram grupos de indivduos casos e controles. Estes dados
podem ser representados como uma matriz onde as linhas representam os indivduos
casos e controles e as colunas representam os marcadores genticos ou SNPs que
sero analisados no estudo. Uma coluna adicional identifica se o indivduo caso ou
controle.
Existem varias nomenclaturas para definir um SNP, para nosso propsito

consideramos cada SNP como a informao do valor do alelo que formado por
{A>C, A>G, A>T, C>G, C>T, G>T}, o smbolo > representa alternativa, isto
significa a ocorrncia de mais de um alelo em um lcus, onde pelo menos dois alelos
aparecem com frequncia > 1% na populao. A informao dada pelo SNP em certo
lcus chamada gentipo. Como os seres humanos so diplides, isto , possuem
duas cpias de cada cromossomo, podem acontecer os seguintes casos: os dois
cromossomos contm o mesmo alelo que o mais presente na populao (homozigoto
dominante), ambos contm o mesmo alelo que o mais raro na populao
(homozigoto recessivo) e um cromossomo possui o alelo mais comum enquanto outro
possui o mais raro (heterozigoto).
Ind SNP1 SNP2 SNP3 SNP4 SNP5 Classe
G1 1 1 2 1 1 1
G2 1 1 2 0 1 1
G3 2 1 2 1 2 1
G4 2 1 2 1 2 1
G5 1 1 0 1 2 0
G6 1 1 0 1 0 0
G7 2 1 0 0 0 0
G8 2 2 0 1 1 0
Tabela 5.1: Tabela de 6 indivduos casos e controles com seus gentipos

correspondentes em 5 SNPs. A coluna ressaltada indica um exemplo da variabilidade
da frequncia do gentipo entre casos e controles.
58
Para evitar confuso na terminologia utilizada nas prximas seces, uma o
termo amostra ser utilizado para descrever os gentipos correspondentes a um
certo indivduo, representada por uma linha na Tabela 5.1, o tipo de marcador
utilizado neste trabalho de tese o SNP, representado por uma coluna na Tabela 5.1 e
seu valor dado pelo seu gentipo, representado por uma clula na Tabela 5.1.
A Tabela 5.1 mostra um exemplo fictcio de uma sequencia de gentipos. Nela

esto retratados os indivduos com seus respectivos gentipos para cada SNP. Para
fins computacionais os possveis valores assumidos por cada SNP, homozigoto
dominante, homozigoto recessivo e heterozigoto esto representados com 0, 2 e 1
respectivamente. A ltima coluna, isto , a informao de caso-controle,
representada com 1 para casos e 0 para controles.
5.1.1 ANLISE DE CONTROLE DE QUALIDADE
Com o objetivo de reduzir o nmero de associaes com falsos positivos e

falsos negativos, importante realizar uma avaliao da qualidade dos dados que
foram obtidos da coleta de amostras de indivduos casos e controles, selecionados no
desenho do estudo e no processo de determinao de gentipos. Potenciais vieses
podem ser introduzidos nestes processos precedentes.
No entanto, realizar um controle de qualidade em dados de escala genmica

uma tarefa complicada devido ao tamanho dos dados e aos critrios que devem ser
tidos em conta para uma avaliao adequada. Critrios de controle de qualidade so
subjetivos e variam de um estudo a outro. Os filtros para selecionar amostras e
marcadores para remoo no devem ser to rigorosos a fim de no remover a maioria
dos dados analisados, porm devem eliminar marcadores de pior qualidade.
Na tentativa de remover falsas associaes positivas, minimizando o erro no

processo, preciso fazer um controle de qualidade que proporcione flexibilidade na
avaliao de cada critrio a fim de remover indivduos ou marcadores com taxas de
erro muito elevadas. J que muitos milhares de casos e controles foram genotipados
para maximizar o poder de detectar associao, a remoo de um punhado de
indivduos deve ter pouco efeito sobre o estudo. No entanto, cada marcador removido
em um estudo potencialmente uma associao com a doena negligenciada e, assim,
o impacto da remoo de um marcador potencialmente maior do que a remoo de
59
um indivduo. A remoo de uma pequena porcentagem destes no deve diminuir
consideravelmente o desempenho do estudo j que tcnicas de imputao do gentipo
podem ser utilizadas para recuperar estes marcadores.
Por este motivo, uma boa pratica considerar primeiro um controle de

qualidade sobre as amostras (anlise por linha) para seguidamente conduzir a
avaliao sobre os marcadores (anlise por coluna). Deste modo, cuidamos de no
remover erroneamente marcadores devido a um subconjunto de amostras mal
genotipadas, mas o estudo continua susceptvel remoo errnea de amostras com
base em um subconjunto de marcadores mal genotipados.
Com a finalidade de realizar uma abordagem cuidadosa para evitar a remoo

desnecessria de amostras e marcadores, neste trabalho utilizamos Quiron, um
sistema de workflow paralelo, para a identificao de marcadores e amostras que
devem ser removidas antes da realizao da anlise de associao. O modelo proposto
consegue analisar dados de escala genmica e integrar programas cientficos robustos
para interagir com o usurio mostrando grficos que ajudam na inspeo visual e na
escolha de parmetros adequados para realizar o controle de qualidade. Nas sees
seguintes so descritos os critrios de controle de qualidade considerados, os quais
foram agrupados por critrios de qualidade por amostra e critrios de qualidade por
marcador.
5.1.2 CRITRIOS DE CONTROLE DE QUALIDADE
A metodologia utilizada para atribuir qualidade aos dados primeiro realiza

uma avaliao da qualidade das amostras e posteriormente remoo das amostras de
baixa qualidade, realiza uma avaliao da qualidade dos marcadores (SNPs),
identificando aqueles que sero excludos do estudo. Estes controles foram
implementados utilizando softwares cientficos de livre acesso e comprovada robustez
para anlise GWAS (Seo 5.1.4).
Critrios para avaliao das amostras
Neste processo cuidamos de no remover erroneamente marcadores devido a

um subconjunto de indivduos mal genotipados, por isso tivemos em conta 4 critrios
de qualidade que se descrevem a continuao.
60
1. Determinao da qualidade do gentipo (qualidade de DNA baixa).
A qualidade do DNA medida segundo a taxa de falha de determinao do

gentipo e a taxa de heterozigosidade de cada amostra. Amostras com baixa qualidade
de DNA ou concentrao esto, frequentemente, abaixo da mdia de taxas de
determinao (call rates) e preciso do gentipo. Assim as amostras com mais que 3-
7% de gentipos com falha ou ausentes foram selecionadas para remoo.
2. Contaminao da amostra de DNA ou endogamia e identificao de

discordantes (outliers) de heterozigosidade atravs de autossomos.
A distribuio da heterozigosidade mdia (excluindo os cromossomos sexuais)

em todos os indivduos deve ser inspecionada para identificar indivduos com um
nmero excessivo ou reduzido de gentipos heterozigotos, isto pode ser indicativo de
contaminao por DNA ou endogamia, respectivamente.
Por essa razo avaliada a diferena da distribuio de heterozigocidade em

homens e mulheres. No deve haver heterozigocidade no sexo masculino, seno
espera-se algum erro de genotipagem. As discrepncias nas informaes sobre gnero
pode refletir erros nos dados, mistura da amostra e/ou informao de sexo
inconsistente com cromossomos sexuais.
3. Duplicao ou parentesco baseado sobre identidade-por-estado (do

ingls identity-by-state).
As amostras devem ser independentes, isto , o parentesco mximo entre

qualquer par de indivduos inferior a um parente de segundo grau. Se parentes de
primeiro ou de segundo grau esto presentes, um vis pode ser introduzido para o
estudo porque os gentipos dentro das famlias vo ser sobre representados, e, assim,
a amostra pode no ser mais um claro reflexo das frequncias allicas na populao
total. A mtrica utilizada para identificar indivduos duplicados e relacionados IBS
(identity by state) a qual calculada para cada par de indivduos com base da
proporo mdia de alelos compartilhados em comum em SNPs genotipados
(excluindo os cromossomos sexuais).
A mdia da populao IBS ir variar dependendo da frequncia do alelo dos

marcadores genotipados dentro dessa populao. Indivduos relacionados iro
compartilhar mais alelos IBS do que o esperado por acaso, com o grau de partilha
adicional proporcional ao grau de parentesco.
61
Considerando M marcadores, o IBS entre o i-simo e j-simo indivduo dado
pela equao 5.1.
[5.1]
onde, Gik denota a quantidade do alelo menor (em nosso caso 0) levado pelo i-simo
indivduo no SNP k.
Amostras idnticas iro compartilhar IBS perto de 100% (permitindo assim

erros de genotipagem). Indivduos relacionados (aparentados) iro compartilhar IBS
maior do que indivduos no aparentados.
4. Avaliao de incompatibilidades com informao externa (mistura de

amostras) e ascendncia da populao remota (confuso devido estrutura da
populao)
Em estudos genticos a principal fonte de confuso a estratificao da

populao, em que as diferenas genotpicas entre casos e controles so geradas por
causa de origens diferentes da populao ao invs de qualquer efeito sobre o risco de
doena [Cardon&Palmer, 2003; Campbell et al., 2005]. No esforo para remover ou
reduzir o efeito da estratificao da populao usado anlise de componentes
principais (PCA) [Patterson & Reich, 2006], este mtodo permite identificar
indivduos com diferenas ancestrais em grande escala. O modelo PCA construdo
usando dados de gentipos de genomas de populaes ancestrais conhecidas (ex.
Europa (CEU), sia (CHB+JPT) e frica (YRI)), estes dados so obtidos do HapMap
Internacional Consortium [2003]. Devido s diferenas genticas em grande escala
entre estes 3 grupos ancestrais, os primeiros dois componentes so suficientes para
agrupar separadamente indivduos destas 3 populaes.
Critrios de avaliao dos marcadores.
O impacto da remoo de marcadores (SNPs) no estudo pode causar

resultados esprios, j que podemos remover um marcador potencialmente associado
com a doena ou podemos deixar como parte do estudo um marcador mal genotipado,
introduzindo informao errnea. Para superar estes inconvenientes tivemos em conta
quatro critrios de qualidade que se descrevem a continuao.
62
1. Identificao de SNPs com uma excessiva ausncia de gentipos.
Dados brutos vindos da genotipagem trazem uma poro de dados faltantes. O

critrio utilizado nestes casos realizar a remoo de SNPs, chamamos de subtimos,
com uma taxa de determinao do gentipo menor que 97% como sugerido pelo
protocolo de controle de qualidade publicado por um grupo de pesquisadores da
Welcome Trust Consortium [Anderson et al., 2010].
2. Identificao de SNPs demonstrando um significante desvio desde o

equilbrio de Hardy-Weinberg (HWE).
Removemos SNPs que mostram desvio significante o HWE, que podem ser
indicativos de um erro de determinao de gentipo. No entanto, desvios do HWE
poderiam tambm indicar seleo. Uma amostra caso pode mostrar desvios do HWE
em loci associados com a doena, e, obviamente, seria contra-produtivo remover
esses loci de novas investigaes. Portanto, somente as amostras de controle devem
ser utilizadas no teste para desvios de HWE. O limiar de significncia para que SNPs
permaneam em equilbrio de Hardy-Weinberg tem variado muito de um estudo a
outro (p-valores variam entre 0,001 e 5,7 10-7 )[The Wellcome Trust, 2007]. Neste
estudo, SNPs com p-valor<0.00001 em controles foram removidos.
3. Identificao de SNPs com uma diferencia significante na taxa de

gentipos ausentes entre casos e controles.
Em estudos onde os casos e/ou controles foram obtidos de vrias fontes

diferentes, aconselhvel testar diferenas significativas na taxa de determinao do
gentipo, frequncia do alelo e frequncia do gentipo entre esses vrios grupos para
assegurar que possvel tratar o combinado conjunto caso ou controle como um
grupo homogneo. Neste estudo foram removidos SNPs com uma diferena
significante (p-valor<0.00001) de taxa de gentipos ausentes entre casos e controles,
como sugerido em [Anderson et al. 2010].
4. Identificao de SNPs com MAF muito baixo.
Tipicamente so utilizados uma taxa de frequncia de alelo menor, MAF, entre

1% a 2% aplicado, mas estudos com tamanho de amostra pequeno poderiam
necessitar uma proporo mais alta. Neste estudo, SNPs com MAF<0.01 foram
removidos [Anderson et al., 2010].
63
No entanto, mesmo aps um rigoroso controle de qualidade de SNP, erros de
genotipagem podem ainda persistirem. Verificar manualmente grficos a melhor
maneira de garantir que a determinao de gentipos seja robusta e, portanto,
essencial que todos os SNPs associados com o estado da doena sejam inspecionados
manualmente antes de escolher SNPs para estudos de seguimento (follow-up
genotyping). Na Figura 5.3 se mostra o fluxo do processo.
5.1.3 WORKFLOW PARALELO PARA CONTROLE DE QUALIDADE DOS DADOS
Neste estudo foram considerados todos os critrios descritos na seco

anterior. O workflow foi desenhado para aproveitar o paralelismo intrnseco dos
processos que esto envolvidos no QC. A Figura 5.3 apresenta um esquema do fluxo
de processos desenhado para a implementao do workflow.
Figura 5.3: Fluxo do processo de controle de qualidade dos dados. Note que o
workflow consiste de uma sequencia de passos concatenados (conectados), que segue
o paradigma de fluxo, onde cada passo segue o precedente.
Cada processo foi implementado utilizando programas computacionais que

foram integrados com algoritmos especialmente desenvolvidos para o workflow
desenhado. A Figura 5.4 exibe o workflow conceitual. Em alguns pontos da execuo
possvel fazer uma parada para analisar os relatrios e grficos que so fornecidos
durante a execuo. Nestas anlises pode-se mudar algum parmetro e seguidamente
64
realizar a re-execuo do workflow. Tambm, pode-se fazer a escolha de novos
parmetros que iro alimentar a atividade seguinte.
Avaliao grfico, excluir amostras

com falha na taxa de determinao de Filtrar
Falha-ausentes/het-CQ.txt
gentipos >= 0.03 amostras
Extrair
Avaliar gentipos amostras
Hapmap data ausentes/heterozigosidade Falha-sextest-CQ.txt
discordantes
Misturar amostras com

HAPMAP data Converter a Avaliar
discordncia/sexo binrio discordncia/sexo
Avaliar estrutura Avaliar IBS/IBD

populacional
Gerar grfico Falha-IBD-CQ.txt

IBD
Gerar grfico de
componentes principais
Avaliar Falha-ancestres-CQ.txt
ancestres
Avaliao grfico, excluir

amostras no agrupadas com a
populao ancestral estudada Remover amostras
Avaliao Gerar grfico da taxa Avaliar gentipos com

grfico de gentipos falha na determinao
Avaliar diferena na
Remover marcadores
taxa casos/controles
Figura 5.4: Workflow conceitual para o pr processamento dos dados.
5.1.4 PROGRAMAS COMPUTACIONAIS UTILIZADOS
Os softwares cientficos que foram integrados no workflow Quiron so de

livre acesso e de comprovada robustez para anlise GWAS, a continuao listamos
eles:
65
PLINK um software para anlise de GWAS.
http://pngu.mgh.harvard.edu/~purcell/plink/
SMARTPCA.pl software para PCA.
http://genepath.med.harvard.ude/~reich/Software.htm
R ambiente estatstico para anlise de dados e grficos. http://cran-r-

project.org
Perl um linguagem de programao interpretada, especialmente
verstil no processamento de cadeias (strings), manipulao de texto e
na anlise de padres, implementado atravs de expresses regulares.
5.2 PASSO 2: PARTIO DOS DADOS

Para realizar a avaliao do desempenho do modelo proposto, os dados
originais so divididos em subconjuntos de treino e teste. Estes subconjuntos devero
ser independentes e balanceados, com 50% de seus dados correspondentes a casos e
50% correspondentes a controles. Os dados de treino so disponibilizados para ser
analisados pelo algoritmo gentico que realiza a identificao e seleo dos SNPs
mais significativos. Posteriormente feita a classificao dos hapltipos que sugerem
uma potencial associao com a doena estudada. Finalmente, feita a avaliao do
desempenho do algoritmo comparando estes resultados com os dados de teste.
Cabe ressaltar que os modelos obtidos a partir dos dados de treino s sero
considerados bons, do ponto de vista da acurcia preditiva, se ele classificar
corretamente uma alta porcentagem das instancias (exemplos) dos dados de teste. Em
outras palavras, esses dados devem representar um conhecimento que possa ser
generalizado para os dados de teste, que no foram utilizados durante o treinamento.
Esta diviso reduz o tamanho dos dados analisados, considerando 2/3 dos
dados para treino e 1/3 para teste, sendo est uma proporo comunmente utilizada e
sugerida no estudo realizado em [Kohavi R., 1995]. Como a acurcia dos resultados
estimada baseada em uma nica partio dos dados (teste), que no muito
significante do ponto de vista estatstico foi utilizada a estratgia de validao cruzada
estratificada de k parties (k-fold cross-validation).
66
Na validao cruzada, primeiro todos os dados so aleatoriamente divididos
em k mutuamente exclusivas parties do mesmo tamanho, onde k um parmetro
definido pelo usurio. Ns usamos um valor de k=10, produzindo 10 procedimentos
de validao cruzada. Esta escolha foi baseada no estudo descrito por Kohavi
[Kohavi, 1995] onde mostrou que para conjuntos de dados do mundo real semelhantes
aos utilizados nesta tese, o melhor mtodo a ser usado para a seleo do modelo a
validao cruzada estratificada em dez vezes. As parties realizadas so do mesmo
tamanho onde 50% dos dados so casos e 50% controles, mantendo assim cada
partio balanceada.
Ento o algoritmo executado 10 vezes, e na i-sima execuo, onde

i=1,2,..,10, a i-sima partio ser usada como subconjunto de teste e as 9 restantes
sero combinadas e usadas como subconjunto de treinamento para essa execuo. A
Figura 5.5 mostra um exemplo da partio do conjunto de dados, as parties de cor
escura representam o conjunto de treino e a partio de cor clara representa o
conjunto de teste para cada simulao.
Figura 5.5: A validao cruzada repetida 10 vezes permutando todos os

subconjuntos. Cada partio usada uma vez para teste e exatamente 9 vezes para
treino.
67
5.3 PASSO 3: EXECUO DO MIGA-2L PARA DESCOBERTA DE
SNPS ASSOCIADOS A DOENAS
Com a finalidade de apresentar o algoritmo MIGA-2L, uma sequencia de

gentipos g correspondente a m SNPs, foi representada como G={g1, g2, ..., gm}, onde
gi {0, 1, 2}. Foi utilizado o valor 0 e 1 para representar os alelos homozigotos e 2
para representar os alelos heterozigotos e 0 i m.
0: dois alelos do i-simo SNP so homozigotos dominantes
gi = 1: dois alelos do i-simo SNP so homozigotos recessivos
2: dois alelos do i-simo SNP so heterozigotos
Inicialmente consideramos um conjunto de dados de sequncias de gentipos

sobre m SNPs de N indivduos que queremos analisar. Esta amostra se divide em dois
grupos de indivduos, aqueles que esto relacionados com certa doena, chamados de
casos, e aqueles indivduos no relacionados com a doena, chamados controles.
Ento, a representao da k-sima amostra pertencente a um indivduo ser:
Gk = g1 # g2 # ...# gm # C, onde C={0,1}

onde, C=0 corresponde aos indivduos controles e C=1 corresponde aos indivduos
casos. O smbolo # representa concatenao.
Nosso objetivo encontrar uma combinao par de SNPs, S = { gi, gj }, onde 0

i,j m e i j, o qual consiste em selecionar o par de SNPs mais significativos do
conjunto de dados de gentipos considerado. Estes devero prover informao
preditiva sobre a doena que est sendo estudada. Na prxima seo se descrevem os
principais algoritmos envolvidos nesta etapa, que so o algoritmo de seleo e o
algoritmo de classificao.
5.3.1 ALGORITMO MIGA-2L
O objetivo do algoritmo consiste em, dado um conjunto de dados de gentipos

relacionados a certa doena, descobrir os pares de SNPs que so mais informativos no
conjunto. Como estratgia deste processo de busca, um Algoritmo Gentico (AG) foi
68
aplicado. Os AGs demonstraram ser adequados na otimizao de problemas
complexos como o caso da tarefa que queremos resolver. A principal razo de nossa
escolha que os AGs so capazes de explorar os efeitos das interaes entre SNPs,
sem pressupor conhecimento a priori do modelo gentico que possui a doena
estudada, enquanto que outras metodologias poderiam ignora-lhas devido ao
desconhecimento de um modelo vlido adequado.
A maioria das abordagens computacionais de doenas comuns apresentadas no

captulo anterior, esto interessadas em considerar todas as possveis combinaes de
interaes (combinaes de dois, de trs, etc.). No entanto, como foi apontado na
introduo, uma busca exaustiva pode ser extremadamente demorada. (ex. para 21
SNPs existem possveis combinaes pares, combinaes
triplas, combinaes qudruplas, etc.), o nmero de testes que dever

ser feito leva a uma computao intensiva.
Os AGs so mtodos de busca robustos e flexveis, que tendem a lidar bem

com interaes entre variveis, devido a sua natureza de busca global. Desta forma,
intuitivamente eles podem ser facilmente adaptados para tratar um alto grau de
interao entre SNPs. Os AGs, atravs de um processo aleatrio como seleo natural
(sobrevivncia do mais apto), mutao e cruzamento, investigam s um subconjunto
destas possveis interaes. Contudo, havendo descoberto uma interao importante,
ele capaz de preservar este padro em futuras geraes [Congdon C.B., 1995;
Packard N.H., 1990; Freitas, 2001; Carvalho, 2005].
Os AGs foram desenvolvidos por John Holland que em 1975 publicou o seu
livro Adaptation in Natural and Artificial Systems [Goldberg D., 1989]. Os
componentes principais so o esquema de codificao, inicializao da populao,
funo de avaliao (do ingls, fitness function), seleo, operador de cruzamento e o
operador de mutao. O fluxograma do algoritmo proposto para a tarefa de descoberta
dos SNPs que indicam associao com a doena mostrado na Figura 5.6.
Descrio do Algoritmo Gentico
O AG cria inicialmente, de forma aleatria, uma populao P de tamanho

NPOP. Cada elemento desta populao tem o comprimento m, igual ao nmero de
SNPs que considerado no estudo. O algoritmo avalia cada elemento da populao P,
69
escolhendo de forma aleatria duas posies entre 1 e m. Estas posies
correspondem s localizaes de dois SNPs no arquivo de Gentipos G. Ento,
computada a informao mtua [Cover & Thomas, 2006] desses dois SNPs no
conjunto de dados de Gentipos G. Este valor ser chamado fitness do elemento.
Posteriormente, os operadores de mutao e cruzamento so aplicados aos elementos
da populao selecionados. Logo aps a aplicao dos operadores genticos, como o
tamanho da populao P pode crescer, so selecionados NPOP melhores elementos,
segundo seu fitness, para formar parte da nova populao. Este processo repetido
at que um certo nmero de geraes seja alcanado. continuao se descreve com
mais detalhe cada componente do algoritmo gentico.
Figura 5.6 Fluxograma do algoritmo MIGA-2L (Mutual Information Genetic

Algorithm 2 loci) [Goldberg D., 1989]
70
5.3.1.1 Esquema de codificao
Fundamental para a estrutura do AG o esquema de codificao. Nesta

implementao, o mtodo de codificao binria foi utilizado para representar cada
elemento da populao P do AG, que tem m bits de comprimento, igual quantidade
total de SNPs sendo considerados no estudo. O mtodo de codificao binria
utilizado pode ser descrito para o i-simo elemento da populao P como:
Ei = Si1 # Si2 # ... # Sim,
onde 0 i NPOP, Sij = {0,1}, 0 j m, NPOP o tamanho da populao P, e Sij =

1 significa que o j-simo SNP sobre o i-simo elemento foi selecionado ou ativado.
Por exemplo, neste esquema de codificao um elemento representado por Ei

= 1 # 0 # 0 # 0 # 1, descreve os SNP1 e SNP5 como ativos, os SNPs restantes (SNP2,
SNP3 e SNP4) so mascarados, representados como inativos e no sero considerados
no processo de avaliao. A Figura 5.7 corresponde ao exemplo.
SNP1 SNP2 SNP3 SNP4 SNP5

1 0 0 0 1
Figura 5.7 Representao do i-simo elemento da populao AG de comprimento 5,

indicando os SNP1 e SNP5 como ativos.
5.3.1.2 Populao inicial P
O modelo de inicializao foi produzido atribuindo o valor 1 a duas posies

escolhidas de forma aleatria em cada elemento da populao P. Desta forma cada
elemento de P possui dois bits igual a 1 (ativos) e os restantes igual a 0.
De aqui em diante a populao do AG ser chamada P para diferenciar do

conjunto de dados de gentipos que ser chamado G, que utilizado na avaliao de
cada elemento de P.
5.3.1.3 Funo de avaliao (Fitness function)
A funo de avaliao um dos mais importantes parmetros em um AG. Ela

usada para determinar quais elementos sero selecionados durante a operao de
71
seleo. Nesta implementao foi utilizada uma abordagem baseada na teoria da
informao [Cover and Thomas, 2006] aplicada como medida biolgica para
investigar duas variveis. Esta abordagem foi descrita no Apndice.
5.3.1.4 Representao das variveis aleatrias como medida biolgica
O objetivo perseguido quantificar a informao que, por exemplo, dois SNPs

provm sobre um fentipo C, tal como uma doena em particular. Baseado na teoria
da informao, como descrito no Apndice, esse grau de informao pode ser
obtido definindo esses dois SNPs e o fentipo C como as variveis aleatrias. Dois
marcadores di-allicos, SNP1 e SNP2, possuem 9 combinaes de gentipos como se
mostra na Tabela 5.2. Ento, a funo de informao mtua, definida como
I(SNP1;SNP2;C), reduz os dados 9-dimensionais para uma varivel de 1-dimenso.
SNP1
AA Aa aa
BB AABB AaBB aaBB

SNP2
Bb AABb AaBb aaBb
bb AAbb Aabb aabb
Tabela 5.2: As 9 combinaes possveis de dois marcadores (SNPs)
Basicamente, a funo da Informao Mutual, I(SNP1;SNP2;C), proporciona

uma forma de medir o grau de informao que os SNP1 e SNP2 tm em presena da
doena C. Neste contexto, a ideia formular um teste de hiptese, onde a hiptese
nula avalia se a doena e os SNP1 e SNP2 so independentes, ou seja se I(SNP1;SNP2)
= I(SNP1;SNP2;C) ou de outra forma se I(SNP1;SNP2;C) - I(SNP1;SNP2) = 0. Partindo
deste razoamento, pode-se avaliar a associao entre a doena C e os marcadores
SNP1 e SNP2 calculando se sua diferencia diferente a zero.
Os dados de gentipos, para indivduos casos e controles, providos como

dados de entrada sero utilizados para calcular as probabilidades da frequncia
relativa de cada gentipo. Para o propsito da descrio do algoritmo este conjunto de
dados ser chamado G. O dados de gentipos correspondentes a indivduos
72
relacionados com a doena, ou seja casos, ser chamado D. O i-simo SNP descrito
pelo gentipo gi e pode assumir 3 valores diferentes {0,1,2} como foi citado
anteriormente.
Usando a definio de entropia de uma varivel aleatria, pode-se definir a

entropia H(gi) em G e a entropia condicional H(gi|C) em D nas equaes 5.2 e 5.3.
[5.2]
[5.3]
Considerando dois SNPs, gi e gj, define-se sua entropia conjunta H(gi,gj) em G

e a entropia condicional H(gi,gj|C) em D nas equaes 5.4 e 5.5.
[5.4]
[5.5]
A informao mtua dos SNPs gi e gj definida na equao 5.6 como:
I(gi,gj) = H(gi) + H(gj) - H(gi,gj) [5.6]
Na populao de gentipos D, indivduos com a doena (casos), a informao

mtua dos SNPs gi e gj definido na equao 5.7 como:
I(gi,gj|C) = H(gi|C) + H(gj|C) - H(gi,gj|C) [5.7]
Para quaisquer dois SNPs gi e gj, I(gi,gj) 0 e I(gi,gj)=0 se e somente se gi e gj

so independentes. Para quaisquer dois SNPs gi e gj, I(gi,gj|C) 0 e I(gi,gj|C) = 0 se e
somente se gi e gj so condicionalmente independentes dado o conhecimento da
doena C.
Daqui, o grau de informao que dois SNPs, gi e gj, podem ter ao respeito de
um fentipo C definido pela diferena da informao mtua dos dois SNPs na
presena da doena (C=1) e a informao mtua dos dois SNPs na populao de
gentipos geral (conjunto G). Esta diferena ser chamada de Ganho de informao e
ser calculada pela equao 5.8.
GI = I(gi,gj|C) - I(gi,gj) [5.8]
73
Finalmente, a funo de avaliao ou fitness formulada como:
Maximo GI(gi,gj,C) [5.9]
5.3.1.5 Operador de seleo.
Nesta implementao foi usado o mtodo da roleta, que comumente

utilizado e simples de aplicar. Basicamente, a seleo aplica o seguinte mecanismo:
cada elemento da populao P associado com uma fatia sobre uma roda virtual. Um
setor cobre uma rea maior na roleta quando o correspondente elemento tem um valor
de funo de fitness alto, enquanto um valor baixo representado por um setor menor.
5.3.1.6 Operador de cruzamento.
Depois do processo de seleo o operador de cruzamento aplicado. Neste

processo um ponto de corte escolhido de forma aleatria para cruzar dois elementos
selecionados da populao P. Os bits a partir deste ponto de corte so trocados entre
esses dois elementos produzindo novos elementos. Na Figura 5.8 se mostra um
cruzamento que produz dois novos elementos.
Caso 1: dois bits ativos
Figura 5.8. Cruzamento de dois elementos de tamanho 5 e ponto de corte igual a 4.

Os bits trocados so representados pelo sombreamento. Neste caso o ponto de corte
produz dois novos elementos com 2 bits ativos.
Segundo o ponto de corte escolhido, o nmero de bits ativos em cada

elemento gerado no cruzamento pode variar de 0 a 4. Ento, de acordo quantidade
de bits ativos em cada elemento depois do cruzamento, 3 casos podem ser
74
identificados: no caso 1 (Figura 5.8), os dois elementos possuem 2 bits ativos; no
caso 2, um elemento fica com 1 bit ativo e o outro fica com 3 bits ativos; e no caso 3,
um elemento fica com 4 bits ativos e o outro sem bits ativos.
A codificao implementada s considera elementos com 2 bits ativos j que o
algoritmo avalia a interao entre dois SNPs. Ento, para que os elementos da
populao P permaneam com 2 bits ativos, aplicamos certas regras dependendo do
caso identificado. No caso 1, mostrado na Figura 5.8, os dois elementos gerados
possuem 2 bits ativos e no representam nenhuma mudana com respeito aos
elementos selecionados antes do cruzamento e, portanto, esses dois elementos
permanecem na populao P. No caso 2 (um elemento com 3 bits ativos e o outro
com 1 bit ativo), Figura 5.9, o elemento com 3 bits ativos desdobrado em trs novos
elementos os quais resultam da combinao par desses 3 bits. Os novos elementos
sero inseridos na populao P, e aquele elemento que ficou com 1 bit ativo ser
descartado j que no cumpre os requisitos da codificao do algoritmo.
Caso 2: Depois do cruzamento obtm-se um elemento com trs bits ativos e

outro elemento com 1 bit ativo
0 1 2 3 4 5
el.1 1 1 0 0 0 0
antes
el.2 0 0 1 1 0 0
Novos elementos
0 1 2 3 4 5
0 1 2 3 4 5
el.1 1 1 0 0 0 0
el. 1 1 1 0 1 0 0
Depois el.2 1 0 0 1 0 0
el. 2 0 0 1 0 0 0
el.3 0 1 0 1 0 0
Figura 5.9. Cruzamento com ponto de corte igual a 3. Os bits trocados so

representados pelo sombreamento. Neste caso o ponto de corte produz trs novos
elementos com 2 bits ativos.
No caso 3 (um elemento com 4 bits ativos e o outro sem bits ativos), Figura
5.10, o elemento que fica sem bits ativos descartado pela mesma regra do caso 2. O
outro elemento fica com quatro bits ativos, ento aplicamos o desdobramento da
75
mesma forma que na regra do caso 2 que gera seis novos elementos que resultam da
combinao par dos 4 bits ativos.
Caso 3: Depois do cruzamento, obtm-se um elemento com quatro bits ativos e outro
com 1 bit ativo
0 1 2 3 4 5
el.1 1 1 0 0 0 0
antes 0 1 2 3 4 5
el.2 0 0 1 1 0 0
el.1 1 1 0 0 0 0
el.2 1 0 1 0 0 0
0 1 2 3 4 5
el.3 1 0 0 1 0 0
el. 1 1 1 1 1 0 0
Depois el.4 0 1 1 0 0 0
el. 2 0 0 0 0 0 0
el.5 0 1 0 1 0 0
el.6 0 0 1 1 0 0
Figura 5.10. Cruzamento com ponto de corte igual a 2. Os bits trocados so

representados pelo sombreamento. Neste caso o ponto de corte produz seis novos
elementos com 2 bits ativos.
5.3.1.7 Operador de Mutao
Depois do cruzamento aplicado o operador de mutao. Neste processo, para

cada elemento selecionado da populao P, escolhido um ponto de forma aleatria
cujo bit est zero e o ativamos a 1. Este processo produz dois novos elementos, que
resultam da combinao par desse novo bit ativo com aqueles dois que j estavam
ativos, Figura 5.11.
0 1 2 3 4 5
antes 1 1 0 0 0 0
0 1 2 3 4 5 0 1 2 3 4 5
Depois 1 1 0 1 0 0 el.1 1 0 0 1 0 0
el.2 0 1 0 1 0 0
Figura 5.11. O ponto escolhido igual a 3 representado pelo sombreamento. A

mutao produz 2 novos elementos com 2 bits ativos.
76
5.3.1.8 Manter o melhores
A aplicao dos operadores genticos de cruzamento e mutao gera novos

elementos que so incorporados populao P aumentando seu tamanho inicial. O
processo de manter os melhores escolhe os melhores NPOP elementos baseado na
funo de fitness e descarta os elementos restantes. Desta forma, o tamanho da
populao mantm-se a mesma em cada gerao.
5.3.1.9 Critrio de parada
Todo o processo se repete at a convergncia da soluo. Ao finalizar, a

combinao de SNPs que teve o maior valor na sua funo de avaliao escolhida
como a mais significativa da amostra de gentipos que est sendo estudada.
5.4 PASSO 4: CLASSIFICAO DOS HAPLTIPOS EM CASOS OU
CONTROLES
Uma vez descobertos os SNPs que sugerem associao com a doena,

precisamos determinar quais hapltipos apresentam susceptibilidade doena e quais
indicam proteo doena. Para expressar essa informao, agruparemos os
hapltipos obtidos da combinao de dois SNPs, gi e gj, em duas classes. A primeira
classe, chamada caso, e a segunda classe, chamada controle. Ento uma regra
que classifica um hapltipo hk, associada com o risco doena, ser do tipo:
SE hk ENTO caso
Esta regra indica que os SNPs gi e gj, com hapltipos hk (Tabela 5.3) so
classificados como casos, ou seja, estes hapltipos demonstram uma associao
positiva, ou de risco com a doena estudada. Aquele hapltipo que apresenta proteo
ser do tipo SE hk ENTO controle.
Haplotipo(hk) 00 01 02 10 11 12 20 21 22
gi 0 0 0 1 1 1 2 2 2
gj 0 1 2 0 1 2 0 1 2
Tabela 5.3: hapltipos gerados da combinao de dois gentipos.
77
Um hapltipo uma combinao dos gentipos gi e gj,. A Tabela 5.3 mostra
que para dois SNPs existe em total 9 hapltipos.
O algoritmo utilizado para a obteno das regras um classificador Bayesiano

simples, chamado Naive Bayes [Duda, Hart, Stork, 2001]. Uma breve descrio pode
ser encontrada no Apndice.
No captulo seguinte sero mostrados exemplos desta implementao com

dados simulados e reais. Na Figura 5.12 se apresenta o fluxo do processo do passo 3
da metodologia.
Dados de AG SNPs Classificao Hapltipos

treino selecionados classificados
Figura 5.12: Fluxo do processo para a descobrir os SNPs de risco e classificar os

hapltipos que apresentam associao com a doena estudada.
5.5 PASSO 5: COMPARAO DO CONJUNTO DE REGRAS E O
CONJUNTO DE TESTE.
Cada execuo completa do AG gera um conjunto de regras e tem tambm

associado um conjunto de teste, como foi descrito no passo 2. Como so 10 execues
do algoritmo, isto significa que teremos 10 conjuntos de regras e 10 conjuntos de
teste. Ento nesta etapa so comparados estes dois conjuntos calculando as instancias
do conjunto de teste que so cobertos pelo conjunto de regras.
Neste processo todas as instancias do conjunto de teste sero verificadas, para

isso os seguintes dados so calculados para preencher a Tabela chamada de
contingncia:
VP (Verdadeiros positivos) = total de instancias casos no conjunto de teste

cobertos pelas regras casos do conjunto de regras;
VN (Verdadeiros negativos) = total de instancias controles no conjunto de

teste cobertos pelas regras controles do conjunto de regras;
78
FP (Falsos positivos) = total de instancias controles no conjunto de teste
cobertos pelas regras casos do conjunto de regras;
FN (Falsos negativos) = total de instancias casos no conjunto de teste cobertos

pelas regras controles do conjunto de regras.
Uma matriz de confuso contm os valores dos verdadeiros e falsos positivos

e negativos, medidas que so habitualmente utilizadas na prtica mdica para auxiliar
na avaliao da qualidade de um teste de diagnstico. Assim, ao solicitar um teste de
diagnstico o mdico se v diante de quatro possibilidades: o exame resultar positivo
na presena da doena (verdadeiro-positivo), positivo na sua ausncia (falso-positivo),
negativo na ausncia da doena (verdadeiro-negativo) e negativo na ausncia da
doena (falso-negativo). Onde positivo sinnimo de anormal e negativo sinnimo de
normal.
Finalmente teremos 10 Tabelas de contingncia que sero calculadas

comparando os 10 conjuntos de regras com seus conjuntos de teste correspondente.
Na Tabela 5.4 mostrada uma Tabela de contingncia padro para falsos e
verdadeiros positivos e negativos.
Conjunto Teste
Testecasos Testecontroles
Conjunto
Regrascasos VP FP
Regras
Regrascontroles FN VN
Tabela 5.4: Tabela de falsos e verdadeiros positivos e negativos
hapltipos
classificados Conjunto Teste
Testecasos Testecontroles
Comparao
Conjunto
Regrascasos VP FP
Regras
dos conjuntos Regrascontroles FN VN
Dados de
teste
Figura 5.13: Fluxo do processo para gerar a Tabela de verdadeiros e falsos positivos
e negativos.
79
5.6 PASSO 6: AVALIAO DE DESEMPENHO DA METODOLOGIA
Para avaliar o desempenho da metodologia, em cada execuo ser estimado o

percentual de acurcia do conjunto de regras sobre o conjunto de teste, ou seja, o
nmero de instancias no conjunto de teste que o conjunto de regras cobre. Este
percentual dado pela proporo entre os verdadeiros positivos e negativos em
relao a todos os resultados possveis.
No final, a acurcia mdia estimada simplesmente a mdia aritmtica das 10

taxas de acurcia obtidas em cada execuo.
Tambm sero considerados como medida de desempenho trs propriedades

muito importantes em epidemiologia que medem a qualidade de um teste de
diagnstico. Estas propriedades so: Sensibilidade, Especificidade e Razo de
chances.
Sensibilidade (S): definido como a proporo de verdadeiros positivos entre

todos os doentes (casos).
Especificidade (E) : definido como a proporo de verdadeiros negativos

entre todos os sadios (controles).
80
J que existe um contrabalano entre estas duas propriedades, de tal modo que
quando uma delas aumenta a outra diminui e vice-versa, utilizaremos a soma das duas
[Medronho R., 2009].
Curvas ROC
Uma forma eficiente de demonstrar a relao normalmente antagnica entre a

sensibilidade e a especificidade dos estudos que apresentam resultados contnuos so
as Curvas de Caractersticas de Operao do Receptor (Curvas ROC- Receiver
Operating Characteristic). A Curva ROC uma ferramenta poderosa para medir e
especificar problemas no desempenho do diagnstico em medicina por permitir
estudar a variao da sensibilidade e especificidade para diferentes valores de corte.
A Curva ROC um grfico construdo a partir dos valores estimados de

sensibilidade (ou taxa de verdadeiros positivos) versus taxa de falsos positivos.
Razo de chances (Odds ratio)
A razo de chances um bom estimador do risco relativo (RR) de ocorrncia

da doena nos expostos em relao aos no expostos, sempre que a prevalncia da
doena estudada nos no expostos seja igual ou menor que 5%.
Por exemplo, para uma Tabela 2x2 como a Tabela 5.5 o Odds-ratio (OR)
definido pela equao 5.10:
Casos Controles
Exposio Sim a b
fator risco No c d
Tabela 5.5: Tabela de contingncia 2x2. Contagem das frequncias.
81
O odds-ratio calculado pela equao
[5.10]
A odds-ratio (OR) definida como a probabilidade de que um evento ocorra

dividido pela probabilidade de que ele no ocorra
A OR varia entre 0 a infinito, sendo o valor 1 indicador de no associao

entre exposio e doena. Valores menores que 1 sugerem proteo da exposio e
valores maiores que 1 sugerem um efeito deletrio da exposio. Quanto mais distante
de 1 para cima ou para baixo, mais forte a associao.
A palavra sugerem, utilizada no pargrafo anterior foi proposital, j que os

dados sob estudo so amostrais. Assim, h que se considerar que as estimativas
observadas podem refletir meras flutuaes amostrais do verdadeiro efeito da
exposio doena. O verdadeiro efeito nunca ser conhecido, mas pode-se dispor de
uma boa estimativa dele quando se tem uma amostra representativa da populao
de referncia.
Teste de significncia
Uma vez calculada a OR, preciso estimar se as OR obtidas so significantes.

Para isto necessrio calcular seu erro padro (SE do ingls standard error) e seu
intervalo de confiana (por exemplo de 95%), para verificar se o 1 esta contido nesse
intervalo. Se o extremo inferior deste exceder o valor de 1, se pode considerar igual
que um teste de significao estatstica.
Em estudos de GWAS, onde consideramos frequncias allicas, o clculo da

OR pode ser aproximado como medida estatstica assumindo algum modelo episttico
para a construo de uma Tabela de 2x2. Neste experimento foi assumido um modelo
multiplicativo. Ento realizada a contagem dos alelos casos e controles, como se
mostra na Tabela 5.6.
82
Locus2
BB Bb bb
AA a b c
Locus1
Aa d e f
aa g h i
Tabela 5.6: Contagem das frequncias de gentipos nos loci 1 e 2.
Especificamente contamos os alelos independentes (A,a,B,b) observados em

dois loci nos indivduos casos (cujos valores so representados pelas letras
a,b,c,d,e,f,g,h,i). De forma similar, se realiza a contagem para os controles.
Posteriormente, a Tabela 5.6 colapsada em uma Tabela 2x2, seguindo a

lgica seguinte: primeiro conta-se os alelos em um locus, por ex. Locus 2
considerando B condicional sobre o gentipo A, representado como uma Tabela 3x2,
onde cada cela calculada como se mostra na Tabela 5.7.
Locus2
B B
AA 2a+b 2c+b
Locus1
Aa 2d+e 2f+e
aa 2g+h 2i+h
Tabela 5.7: Tabela 3x2 de frequncias condicionais do gentipo B sobre o gentipo A.
Esta Tabela de novo colapsada em uma Tabela 2x2 como a Tabela 5.8
B b
A C=4a+2b+2d+e D=4c+2b+2f+e
a E=4g+2h+2d+e F=4i+2h+2f+e
Tabela 5.8: Tabela de contingncia 2x2
83
Com os dados desta Tabela, agora possvel calcular a OR=CF/ED entre os
loci A e B e seu SE para casos e controles em forma separada.
Pode se assumir que os dados seguem uma distribuio normal pelo qual
podemos escolher o teste estatstico Z score. O teste estatstico Z obtido calculando
a diferencia entre as OR em casos e controles, segundo a equao 5.11:
Z = ( log(R) - log(S) ) / sqrt( SE(R) + SE(S) ) [5.11]
onde, R e S so as odds-ratio para casos e controles respectivamente e SE o erro

padro da OR.
Intervalo de confiana
Para o clculo do intervalo de confiana de 95%, seguimos o seguinte

procedimento:
1. calcular o logaritmo neperiano (ln) da OR (logartmicos dos nmeros

naturais);
2. calcular o erro padro (SE) do ln OR com a seguinte frmula:
onde a,b,c e d so os valores contidos nas celas da Tabela de

contingncia 2x2 (Tabela 5.8);
3. multiplicar o SE (ln OR) por Z score (Z=1,96 para 95%);

4. o resultado obtido em 3, se soma e se resta do ln OR;
5. para os valores obtidos, calcula-se o antilogartmo neperiano e assim,
se obtm o limite inferior e superior do intervalo de confiana. Se este
intervalo no incluir o valor 1, pode-se considerar uma significncia
estatstica equivalente a um nvel de 5%.
84
Neste captulo foi apresentada a metodologia utilizada para o descobrimento

de marcadores genticos de doenas. O processo comea com o tratamento dos dados
brutos vindos da genotipagem que so submetidos a um processo de controle de
qualidade seguindo um conjunto de critrios que foram detalhados no passo 2.
Posteriormente, foi descrito o processo de particionamento dos dados que passaram o
controle de qualidade. Seguidamente, cada partio dos dados utilizada na execuo
do algoritmo MIGA-2L para identificar as interaes Snp-Snp mais relevantes.
Finalmente, foram descritas as medidas de desempenho utilizadas para avaliar o
algoritmo.
No captulo seguinte so apresentados os experimentos realizados com dados

gerados atravs de simulaes e com dados reais da populao caucasiana.
85
CAPTULO 6: EXPERIMENTOS COMPUTACIONAIS
Neste captulo so apresentados os resultados dos experimentos
computacionais realizados em conjuntos de dados simulados e com dados reais.
Tipicamente, os dados podem vir de observaes do mundo real, com conhecidas
associaes, ou de dados simulados, gerados segundo modelos de dados que
apresentam efeitos epistticos em conhecidos loci funcionais. Dados reais so
preferidos sobre os simulados, j que os modelos utilizados para gerar as simulaes
poderiam no representar da forma precisa processos biolgicos complexos que
envolvem as doenas humanas. Lastimosamente, se tem poucas referencias sobre
interaes epistticas que foram descobertas e replicadas. Este o motivo pelo qual se
deve recorrer a simulaes para avaliar o desempenho de algoritmos para GWAS.
Todos os experimentos foram realizados utilizando um computador Altix ICE

8400, com 128 CPUs Intel Xeon (640 cores) e 64 ns de processamento. Este
computador possui memria distribuda de at 1.28 TBytes, funcionando com um
sistema operacional Suse Linux Enterprise Server (SLES) e SGI Performance Suite.
Foram utilizados compiladores Intel e GNU (C/C++) com suporte OpenMP. Este
computador parte do Ncleo de atendimento em computao de alto desempenho da
Coppe/UFRJ (http://www.nacad.ufrj.br/)
6.1 PR-PROCESSAMENTO DO CONJUNTO DE DADOS
Para avaliar o desempenho desta etapa da metodologia, foi utilizado um

conjunto de dados de gentipos de 317,503 marcadores correspondentes a SNPs sobre
2,000 indivduos, onde 1,023 so casos e 977 so controles. Destes, 997
correspondem a homens e 1,003 correspondem a mulheres. Este conjunto de dados
contem 11,440 hapltipos de heterozigotos e 3,286 gentipos de SNPs ausentes ou
no determinados. O conjunto de dados foi submetido aos critrios de controle de
qualidade descrito no captulo 5, referido como passo 1 da metodologia proposta.
Os dados brutos de gentipos foram coletados utilizando a plataforma de

genotipagem Affymetrix [http://www.affymetrix.com/estore/] e inicialmente
registrados em formato Chiamo [MARCHINI et al, 2007]. Posteriormente, foram
convertidos a um formato de arquivos padro .ped e .map. Estes formatos de arquivos
86
so utilizados pelo programa Plink e tornaram-se formatos padro em GWAS (Tabela
6.1). O arquivo .ped contem os valores dos gentipos e informao referente s
amostras. O arquivo .map contem a descrio de cada marcador (SNP) descrito em
quatro variveis. Finalmente, estes arquivos foram convertidos a um formato binrio
para otimizar seu tratamento.
.ped .map
Famlia ID cromossomo (1-22, X, Y or 0 if

Individuo ID unplaced)
Pai ID rs# ou snp identificador
Me ID distancia Gentica (morgans)
Sexo(1=homem; 2=mulher; posio em pares de base (bp units)
outro=desconhecido)
Fentipo
Tabela 6.1 Informao contida nos arquivos .ped e .map
Depois da formatao dos arquivos do conjunto de dados, comeou a

verificao da qualidade das amostras. Assim avaliou-se a discordncia das amostras
atravs dos cromossomos autossomos, calculando a heterozigosidade mdia em cada
amostra. No desenho do workflow (Figura 5.4) esta atividade indicada como
Avaliar discordncia/sexo e gera um arquivo de texto com as amostras que no
passaram na avaliao.
Em outra atividade, chamada Avaliar gentipos ausentes/heterozigosidade,

compara-se a taxa de determinao de gentipos com a taxa de distribuio de
gentipos heterozigotos. Esta atividade gera um grfico onde se observa a densidade
de gentipos nas amostras (Figura 6.1a). Cada ponto no grfico denota uma amostra,
onde o eixo X corresponde ao valor da taxa gentipos ausentes e o eixo Y
corresponde ao valor da taxa de heterozigosidade. Depois de analisar o grfico da
Figura 6.1a foi feita a remoo das amostras cuja taxa de falha de gentipos foi acima
do valor 0.03.
Tambm foi realizada a anlise de duplicao ou parentesco das amostras

utilizando o indicador IBS, identidade por estado, que calculado para cada par de
amostras com base na proporo de alelos compartilhados em comum. Esta atividade,
chamada no workflow como Avaliar IBS/IBD, gera um grfico onde cada ponto
representa um par de amostras com valores das probabilidades de IBD, Pr(IBD=1)=0
87
no eixo X, e Pr(IBD=0)=0 no eixo Y. O IBD=1 significa que duas amostras
compartilham 100% de seus alelos, o que pode indicar que estas amostras esto
duplicadas ou que possuem algum nvel de parentesco. A Figura 6.1b indica que
existe um par de irmos no canto inferior esquerdo, onde Pr(IBD=0)=0 e
Pr(IBD=1)=0. Isto significa que este par de amostras compartilham 2 alelos idnticos
por descendncia em cada lcus do genoma. Isto pode ser uma indicao de amostra
duplicada ou um conjunto de gmeos idnticos. Os pontos no quadrante inferior
direito do grfico sugerem algumas amostras relacionadas, provavelmente em
segundo ou terceiro grau de parentesco. O grfico da Figura 6.1b d uma pista sobre
a escolha do limiar para corrigir potenciais problemas de identidade das amostras.
Do mesmo modo, foi realizada a avaliao de incompatibilidades devido

mistura das amostras e/ou confuso devido estrutura da populao. Aqui foi
utilizado o programa SMARTPCA/EIGENSOFT para realizar o clculo de
componentes principais. O conjunto de dados estudado foi cruzado com 3 grupos de
populaes de referencia, populao europeia (CEU ), populao asitica (CHB +
JPT) e populao africana (YRI). Estes dados foram obtidos do consrcio Hapmap
[http://hapmap.ncbi.nlm.nih.gov/]. A Figura 6.1c mostra o grfico de 2 componentes
principais. O cruzamento resulto em 11 casos e 19 controles que no ficaram
agrupados em nenhum grupo populacional, estas amostras foram removidas do
estudo.
Posteriormente remoo de amostras que no passaram o controle de

qualidade, se realizou a anlise de qualidade por marcador. Deste modo, foi verificada
a qualidade dos gentipos calculando a taxa de falha na determinao do gentipo.
Neste processo foi gerado um histograma (Figura 6.1d) para mostrar a taxa de falha
de gentipos por amostra. Assim, aqueles SNPs acima de 3% na sua taxa foram
removidos da anlise devido ao excesso na taxa de falha de gentipos. Tambm nesta
etapa, foram removidos os marcadores cuja frequncia de alelo menor (MAF) foi
menor que 0.01 e cujo p-valor de HWE foi menor que 0.00001.
Finalmente foram removidas 56 amostras e 3623 marcadores. O tempo

computacional empregado pelo workflow de controle de qualidade foi
aproximadamente de 4 horas, enquanto que o tempo empregado no Plink foi de
aproximadamente 12 horas. A Tabela 6.2 apresenta um resumo do tamanho do
conjunto de dados utilizado comparando-o antes e depois do pr-processamento.
88
Tamanho do conjunto de Antes do pr Depois do pr
dados processamento processamento
Marcadores (SNPs) 317,503 313,880
Casos 1,023 1,000
Controles 977 944
Homens 997 966
Mulheres 1,003 978
Tabela 6.2 Tabela comparativa do tamanho do conjunto de dados antes e depois do

pr processamento
A utilizao do Quiron, assim como o uso dos softwares escolhidos otimizou o

tempo computacional, ajudando a diminuir o tempo de processamento, j que vrias
atividades do workflow podem ser processadas em paralelo. Como foi mencionado no
captulo anterior, no existe um consenso sobre os critrios a serem considerados no
controle de qualidade dos dados GWAS. Por esse motivo, o uso de um workflow
prov maior liberdade e flexibilidade na escolha desses critrios, assim como dos
programas cientficos utilizados.
Figura 6.1a A densidade da amostra indicada Figura 6.1b Identificao de amostras

pelo sombreamento e as linhas tracejadas duplicadas. O grfico identifica todos os pares de
denotam o limiar a ser utilizado como corte. O indivduos com um IBD > 0.185. Aquelas
valor escolhido como limiar foi de 0.03. amostras com IBD acima deste valor foram
removidas.
89
0.03
CE
U
CHB+JPT
YRI
Figura 6.1c. Agrupamento ancestral baseado em Figura 6.1d Proporo de falha de gentipos
amostras de referencia de Hapmap3: CEU que permaneceram no conjunto de dados depois
(populao europia), CHB+JPT (populao da remoo das amostras que falharam no
asitica) e YRI (populao africana). Cada ponto Controle de qualidade. A linha tracejada indica o
no grfico corresponde a uma amostra. Aquelas limiar escolhido de 3% para a remoo dos
que esto fora dos 3 grupos (em crculos) marcadores.
apresentam problemas de estrutura populacional
e foram removidas do estudo.
6.2 DESCOBERTA DE SNPS ASSOCIADOS DOENAS UTILIZANDO
MIGA-2L
Para compreender as causas subjacentes de doenas de caractersticas
complexas, muitas vezes necessrio considerar os efeitos genticos conjuntos
tambm conhecido como epistasis atravs de todo o genoma. O conceito de epistasis
discutido no captulo 3, geralmente definido como a interao entre diferentes
genes. Aqui utilizaremos o algoritmo MIGA-2L, considerando a definio de epistasis
estatstica, para descrever o fenmeno biolgico que um lcus com efeito sobre o
fentipo dependente de outro lcus. Desta forma, a anlise matemtica de epistasis
fica mais simples.
Com o fim de avaliar o desempenho do algoritmo MIGA-2L proposto para

detectar interao SNP-SNP, um estudo comparativo foi realizado com o modulo
fast-epistasis fornecido pelo programa Plink. Foram utilizados conjuntos de dados
sintticos de referncia e conjunto de dados reias de 5 doenas comuns. O algoritmo
MIGA-2L foi descrito no captulo 5 e desenvolvido neste trabalho de tese. O nome foi
90
definido devido abreviao, do ingls, de mtual information genetic algorithm para
2 loci. O programa Plink utilizado amplamente pela comunidade cientfica em
GWAS. O algoritmo utilizado no modulo fast-epistasis, de Plink, foi descrito no
capitulo 4 como um mtodo de busca no exaustiva. Na comparao tambm foram
utilizadas medidas de desempenho epidemiolgicas tanto quanto computacionais
descritas no captulo 5.
Os parmetros utilizados em cada algoritmo foram:
MIGA-2L : Os parmetros a serem considerados so nmero de geraes,

tamanho da populao do algoritmo gentico, taxa de cruzamento e taxa de mutao.
Tambm pode se escolher o fator de validao cruzada;
Plink: Para cada par de SNPs, PLINK aplica regresso logstica sobre o
modelo P ~ 0 + 1 * Snp1 + 2 * Snp2 + 3 * Snp1 * Snp2 + , onde P o fentipo
estudado. Neste estudo foi considerado o parmetro epistasis do programa.
6.2.1EXPERIMENTOS COM DADOS SIMULADOS

Um modelo de dados de interao episttica descreve como o efeito da
combinao de gentipos (ex. SNPs) influencia no risco doena. A maioria dos
GWAS assumem a suposio de que o risco inerente doena pode aumentar (ou
diminuir) segundo a frequncia dos alelos. Por isso associaes de doenas so muitas
vezes conceituadas em duas dimenses: frequncia do alelo a qual determinada pela
penetrncia e o tamanho do efeito que estimado sobre a base da definio da OR
(Odds Ratio) da doena. Neste contexto, foram simulados dois tipos de modelos de
dados de interao episttica: com efeito forte chamado efeito principal e com efeito
fraco ou sem efeito.
Um modelo episttico com efeito principal aquele que descreve SNPs com
efeito individual moderado ou grande sobre a doena e, um modelo episttico com
efeito fraco ou sem efeito principal aquele que descreve SNPs com pouco ou
nenhum efeito individual, mas que apresentam forte influencia quando esto atuando
em conjunto. Um exemplo foi descrito no capitulo 3 na Figura 3.3.
91
Conjunto de dados considerando loci com efeito principal
O conjunto de dados considerando loci com efeito principal foi gerado por Xai
Wan et al. (2010). Nestas simulaes, quatro modelos epistticos foram considerados
(Tabela 6.3). Cada modelo foi divido em trs grupos segundo sua herdabilidade e seu
MAF; cada grupo consta de 100 arquivos. Foi considerada uma prevalncia da doena
na populao igual a 0.1. O modelo 1 um modelo multiplicativo [MARCHINI et al,
2005]. O modelo 2 um modelo episttico [NEUMAN & RICE, 1992], que foi usado
para descrever doena lateral [LEVY J. and NAGYLAKI T., 1992] e a cor do suno
[LERNER 1968]. O modelo 3 um modelo clssico episttico [FRANKEL &
SCHORK, 1996; LI & REICH, 2000]. O modelo 4 conhecido como o modelo XOR.
Nestas simulaes, os valores escolhidos para herdabilidade foram h2=0.03

para o modelo 1 e h2 = 0,02 para modelos 2, 3 e 4. Todos os gentipos foram gerados
baseados no principio de Hardy-Weinberg (HWE). Os valores de MAF considerados
foram: 0.1, 0.2 e 0.4 para os quatro modelos. Com este esquema foram gerados 12
grupos de 100 arquivos de dados de gentipos cada um. Cada conjunto de dados
contem 1000 SNPs e 1600 indivduos considerando um desenho caso-controle
balanceado (800 casos e 800 controles). Na Tabela 6.3 se apresentam os parmetros
utilizados na gerao de cada conjunto de dados. Por convenincia a descrio da
gerao destes dados so listados no Apndice.
Modelo Conjunto Herdabilidade MAF

1 1 0.03 0.1
2 0.03 0.2
3 0.03 0.4
2 4 0.02 0.1
5 0.02 0.2
6 0.02 0.4
3 7 0.02 0.1
8 0.02 0.2
9 0.02 0.4
4 10 0.02 0.1
11 0.02 0.2
12 0.02 0.4
Tabela 6.3 Taxa de herdabilidade e MAF utilizada na simulao de 12 conjuntos de
dados com efeito principal.
92
Cada arquivo de dados de gentipos possui dois SNPs funcionais que
interagem com o efeito principal. O objetivo do experimento que os algoritmos
identifiquem esses SNPs funcionais. Assim, foi computado para cada grupo as vezes
que cada algoritmo fez a identificao correta. As Figura s 6.2a e 6.2b exibem os
resultados obtidos nos experimentos realizado com Plink e MIGA-2L. O eixo vertical
indica a quantidade de acertos que definido como a proporo dos 100 conjuntos de
dados onde a interao de SNPs funcionais identificada. A ausncia de barra
significa nenhum acerto.
100 100
98
80
96
Acertos
60 94
Acertos 92
40
90
20
88
0 86
MAF 0.1 MAF 0.2 MAF 0.4 MAF 0.1 MAF 0.2 MAF 0.4
Plink miga-2l Plink miga-2l
Modelo 1 (Multiplicativo): h2 = 0.03 Modelo 2 (epistasis): h2 = 0.02

Figura 6.2a: Neste dois modelos MIGA-2L supera na porcentagem de acertos a Plink.
Quando a frequncia do alelo menor pequena MAF= 0.1 Plink tem problemas para
identificar os SNPs funcionais.
100 100
80 80
Acertos
60 60
Acertos
40 40
20 20
0 0
MAF 0.1 MAF 0.2 MAF 0.4 MAF 0.1 MAF 0.2 MAF 0.4
Modelo 3 (epistasis clssico): h2 = 0.02 Modelo 4 (XOR): h2 = 0.02
Figura 6.2b: No modelo 3 pode se notar que Plink no tem nenhum acerto com MAF=0.2.
Igualmente no modelo 4, com MAF=0.4. Fato que confirma uma forte dependncia de Plink
com a frequncia allica em modelos genticos heterogneos.
93
Em todos os modelos com efeito principal, MIGA-2L supera em numero de
acertos a Plink. A opo de fast-epistasis de Plink seleciona SNPs com efeito
principal marginal de um nico SNP, ignorando SNPs que poderiam ter um efeito de
interao forte em conjunto com outros SNPs. Enquanto, MIGA-2L consegue capturar
a interao SNP-SNP sem ser confundido pelo efeito principal de um nico lcus.
Conjunto de dados com loci sem efeito principal
Para abordar um conjunto de dados simulados sem efeito principal, utilizamos

os dados gerados por Velez et al. (2007). Estas simulaes contemplam 70 modelos
epistticos, construdos a partir de funes de penetrncia e diferentes combinaes
nas taxas de herdabilidade e MAF (Apndice). Estes modelos so listados na Tabela
6.4, onde cada conjunto simulado esta composto por um total de 100 conjuntos de
dados de gentipos. Cada conjunto de dado contm 1000 SNPs e 1600 indivduos,
considerando um desenho balanceado.
Modelo Conjuntos Herdabilidade MAF

Modelo 1 00-04 0.4 0.2
Modelo 2 05-09 0.4 0.4
Modelo 3 10-14 0.3 0.2
Modelo 4 15-19 0.3 0.4
Modelo 5 20-24 0.2 0.2
Modelo 6 25-29 0.2 0.4
Modelo 7 30-34 0.1 0.2
Modelo 8 35-39 0.1 0.4
Modelo 9 40-44 0.05 0.2
Modelo 10 45-49 0.05 0.4
Modelo 11 50-54 0.025 0.2
Modelo 12 55-59 0.025 0.4
Modelo 13 60-64 0.01 0.2
Modelo 14 65-69 0.01 0.4
Tabela 6.4 Taxa de herdabilidade e MAF utilizada na simulao de 70 conjuntos de

dados sem efeito principal.
94
Neste experimento, foram usados todos os 70 modelos puros epistticos sem
efeito principal para comparar o desempenho de MIGA-2L e Plink. A herdabilidade h2
controla a variao fenotpica de estes 70 modelos, atribuindo valores desde 0.01 at
0.4. O MAF varia de 0.2 a 0.4. Os resultados comparativos para os 70 modelos so
mostrados nas Figuras 6.3a at 6.3e. Tambm, como no experimento anterior, pode se
observar uma porcentagem superior de acertos do MIGA-2L sobre Plink. Os detalhes
dos parmetros para a gerao destes 70 modelos epistticos so listados no Apndice
deste documento de tese.
100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Conj. 00 Conj. 01 Conj. 02 Conj. 03 Conj. 04 Conj. 10 Conj. 11 Conj. 12 Conj. 13 Conj. 14
Modelo 1: h2 0.4 e MAF 0.2 Modelo 3: h2 0.3 e MAF 0.2
100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Figura 6.3a: Os grficos mostram os resultados obtidos quando a frequncia do alelo

menor MAF=0.2. Os dois algoritmos conseguem obter 100% de acertos, ou seja
conseguem descobrir os SNPs funcionais que interagem nestes modelos genticos.
95
100 100
Acertos 80 80
Acertos
60 60
40 40
20 20
0 0
Figura 6.3b: Taxa de acerto obtido nos Modelos 2 e 4 para MAF=0.4. MIGA-2L
supera a Plink no numero de acertos.
No modelo 2 Plink tem uma porcentagem de acerto superior a 90% com

exceo do conjunto 8. No modelo 4 Plink no tem nenhum acerto nos conjuntos 17 e
18. Isto deve se que as frequncias allicas destes modelos genticos possuem uma
alta heterogeneidade gentica fazendo que Plink ignore aqueles SNPs com baixo
efeito marginal individual. As frequncias allicas so estimadas considerando
diferentes valores de penetrncia em combinao com o MAF e a herdabilidade h2.
100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0 0
Figura 6.3c: Nos modelos 6 e 8 MIGA-2L continua com 100% de acertos enquanto
Plink apresenta nenhum acerto em alguns conjuntos de dados. No modelo 8 Plink
diminui sua taxa de acerto porque fica afetado com a diminuio da taxa de
herdabilidade.
96
100 100
80 80
60 60
Acertos
Acertos
40 40
20 20
0 0

100 100
80 80
Acertos
Acertos
60 60
40 40
20 20
0
0
Conj. 55 Conj. 56 Conj. 57 Conj. 58 Conj. 59
Conj. 45 Conj. 46 Conj. 47 Conj. 48 Conj. 49
Plink miga-2l
Plink miga-2l
Figura 6.3d: Estes modelos seguem o padro dos modelos anteriores mostrados na
Figura 6.3c.
70 100
60
80
50
Acertos
Acertos
40 60
30 40
20
20
10
0 0
Figura 6.3e: Nestes dois modelos MIGA-2L apresenta uma diminuio na

porcentagem de acerto devido a influencia da taxa de herdabilidade h2.
97
Plink e MIGA-2L apresentam problemas para identificar os SNPs funcionais
quando a taxa de herdabilidade diminui e a frequncia de alelo menor aumenta
MAF=0.4. Como pode se ver nos modelos 13 e 14, mostrados na Figura 6.3e, onde
conjuntos de dados tm nenhum acerto ou uma porcentagem muito baixa de acertos.
Isto deve-se a que o coeficiente h2 tem influenciado a taxa de penetrncia em
valores muito baixos, dificultando a identificao da proporo da variao no
fentipo que atribuvel ao gentipo. Nestes casos de herdabilidade e penetrncia
baixas, fatores ambientais deveriam ser considerados para ajudar uma melhor
identificao dos SNPs de risco.
Relao entre o modulo fast-epistasis de Plink e MIGA-2L
O algoritmo MIGA-2L abrange um espao de modelos de dados maior que

Plink j que no precisa assumir um modelo gentico especifico. A diferencia
principal entre MIGA-2L e Plink a forma em que eles avaliam o efeito da interao
de SNPs com a doena. Plink realiza uma avaliao alelo x alelo, onde trs categorias
de gentipos so colapsadas em duas categorias enquanto MIGA-2L realiza a
avaliao gentipo x gentipo. Figura 6.4
Figura 6.4: Plink assume que os dados seguem um modelo aditivo para dessa forma
colapsar as 3 categorias de gentipos em uma Tabela de contingencia de alelos 2x2.
98
6.2.2 EXPERIMENTOS SOBRE DADOS REAIS: DIABETES TIPO I
Nesta seo so apresentados os resultados dos experimentos realizados com o

conjunto de dados de diabetes tipo 1 (T1D). Este conjunto de dados foi
proporcionado pela Wellcome Trust Case Control Consortium (WTCCC). Eles foram
gerados usando um chip affymetrix de 500K para coletar os gentipos de 500,000
marcadores.
6.2.2.1 Pr-processamento do conjunto de dados de diabetes tipo 1 (T1D)
O conjunto de dados originado do projeto WTCCC1, contm 2,000 amostras

de pacientes com T1D e 3,004 amostras de controles, dos quais 1,504 foram coletadas
de uma coorte de britnicos nascidos em 1958 e 1,500 controles adicionais cujas
amostras procedem do Servio nacional de sangue do Reino Unido.
Chr2:40.1803M Chr4:171.102M Chr8:42.6252M Chr12:49.6251M Chr18:12.1982M
Figura 6.5: Grfico de Manhattan correspondente a T1D. A seta assinala a regio

localizada no cromossomo 6.
99
Este conjunto de dados foi submetido ao controle de qualidade descrito no
captulo anterior. Uma anlise inicial dos dados foi feita utilizando o grfico de
Manhattan (Figura 6.5). Este grfico fornece uma forma de visualizar cada SNPs
atravs dos cromossomos humanos posicionando-o como um ponto no grfico, onde a
altura corresponde fora de associao desse SNP com a doena expressada pelo
log10 do p-valor obtido utilizando a estatstica Chi-quadrado. Os pontos localizados
acima de certo limiar, por exemplo um p-valor > 10E-5, poderiam ser considerados
como altamente suspeitos, ou seja eles podem ser SNPs apresentando associao com
a doena estudada ou poderiam ser SNPs com erros de genotipagem. No grfico de
Manhatan da Figura 6.5 pode-se observar um pico que esta localizado no
cromossomo 6. Este cromossomo altamente polimrfico e, por essa razo, foi
estudado com mais detalhe neste trabalho.
Figura 6.6: Tempo computacional obtido em cada tarefa do pr-processam ento

dos dados. Os tempos foram computados utilizando o motor de Workflow Quiron.
100
Como foi descrito no captulo anterior, o controle de qualidade foi realizado
primeiro avaliando a qualidade das amostras e posteriormente a qualidade dos
marcadores. Nesta anlise a quantidade de SNPs que passaram o controle de
qualidade foi de 352,538 SNPs dos 500,000 SNPs originais. A Figura 6.6 apresenta o
workflow conceitual a que foi submetido utilizando o motor de workflow Quiron,
com os tempos computacionais por cada tarefa, assim como o tempo total empregado
para remoo das amostras e para remoo dos marcadores que no passaram no
controle de qualidade.
As Figura s 6.7a, 6.7b e 6.7c mostram alguns grficos gerados durante o

controle de qualidade das amostras. Estes grficos servem para ajudar na escolha de
um certo valor (ou limiar) para filtrar as amostras com falha na qualidade.
Figura 6.7a: Relao entre a taxa de Figura 6.7b: Indivduos duplicados e

heterozigosidade e a proporo de gentipos relacionados no conjunto de T1D. Note que
ausentes no conjunto de dados de T1D o IBD >0.25 indica os indivduos a serem
removidos da amostra.
Figura 6.7c Resultados da anlise de componentes

principais para as amostras casos e controles. Esta
anlise mostra a diferencia na frequncia dos alelos nos
milhares de marcadores, indicando diferenas tnicas.
101
Tempo Computacional
Minimizar o vis potencial e erro no resultado de GWAS depende da

qualidade global dos dados. Neste contexto, o grande nmero de SNPs genotipados
em estudos GWA caso-controle constitui um grande desafio computacional devido
aos critrios envolvidos no controle de qualidade dos dados. O que torna o processo
operacionalmente intensivo e desafiador. A Tabela 6.5 apresenta os tempos
empregados por cada atividade.
Nome da tarefa Tempo

Avaliao das amostras
Formatar arquivo a binrio/ avaliar discordncia segundo sexo 60 min
Avaliar taxa gentipos ausentes vs. heterozigosidade 17 min
Avaliar indivduos duplicados e relacionados 8 hs 35 min
Avaliar estrutura populacional 2 hs 15 min
Remover amostras falhadas 1 min
Avaliao dos marcadores
Avaliar taxa de gentipos ausentes 1 min
Avaliar taxa de gentipos ausentes entre casos e controles 1 min
Avaliar HWE e MAF 5 min
Remover marcadores que no passaram a avaliao 1 min
Tempo total empregado usando Quiron 8 hs 35 min
Tabela 6.5 Tempo computacional empregado no pr processamento do conjunto de
dados de Diabetes Tipo 1.
Anlise do cromossomo 6 de T1D.
O cromossomo 6 altamente polimrfico, contendo a regio MHC com uma

alta densidade de genes. Estudos prvios reportam forte associao de um nico lcus
entre genes pertencentes a regio MHC e T1D [Noble and Erlich, 2012], tal como
HLA-DQB1 e HLA-DRB1. Porm ainda no est claro qual e como muitos loci
dentro da regio MHC e fora dela determinam susceptibilidade a T1D.
Interaes sem efeitos principais significantes podem prover informao

adicional para ajudar a entender loci associados a doenas. Em muitos estudos SNPs
envolvidos neste tipo de interaes so frequentemente excludos da anlise. Nesta
seo so mostrados as interaes descobertas pelo algoritmo MIGA-2L no
cromossomo 6 de T1D. Posteriormente, uma inspeo dessas interaes foi realizada
para entender sua funcionalidade na doena.
102
O tamanho da amostra analisada foi de 35,865 SNPs sobre um total de 4,612
indivduos, sendo 2,646 controles e 1,966 casos. A Figura 6.8 mostra o grfico de
Manhattam para o cromossomo 6, onde se pode observar alguns picos de associao
de 1 nico lcus.
Eixo X: Posio no cromossomo
Figura 6.8: Grfico de Manhattan do cromossomo 6 da amostra T1D do projeto

WTCCC1. Cada ponto um SNP em uma localizao do cromossomo. O eixo Y
representa a fora de associao de cada SNP com a doena obtido com um teste
log10 de Chi-quadrado/P value. As associaes mais fortes formam picos e SNPs
correlacionados mostram o mesmo sinal. O grfico de Manhattan com pontos acima
de certo limiar (ex. a linha solida indicando um P-valor < 5x10-7) deveria ser visto
como altamente suspeito.
Outro tipo de grfico muito interessante Q-Q plot, este grfico mostra no
eixo X a distribuio esperada de gentipos usando o teste estatstico Chi-quadrado,
comparado a sua distribuio observada no eixo Y. A Figura 6.8a apresenta o Q-Q
plot para os dados pertencentes ao cromossomo 6 de T1D. Note que a linha tracejada
serve para indicar a tendncia que os dados deveriam seguir. Desvios da linha podem
sugerir associao desses dados com a doena estudada.
Na Figura 6.9a se observam muitos SNPs que no seguem a linha tracejada.

Isto deve-se a que a regio HLA localizado no cromossomo 6 uma significante e
grande regio que est impactando no estudo de associao. A Figura 6.9b mostra um
melhor ajuste dos dados, onde os SNPs correspondentes regio HLA foram
removidos para constatar o impacto que essa regio est causando no estudo de
103
associao. Com isto, pode-se estimar que resultados interessantes se encontram
escondidos nos dados e que certamente uma anlise grfico pode estar excluindo
interaes significantes como aquelas sem efeito principal.
Figura 6.9a: Grfico Q-Q dos valores Figura 6.9b: Grfico Q-Q obtido com
observados e valores esperados da dados de gentipos de SNPs no
computao da associao utilizando um localizados na regio HLA.
teste estatstico chi-quadrado.
6.2.2.2 Execuo do MIGA-2L para descoberta de interao SNP-SNP.
O conjunto de dados do cromossomo 6 de T1D foi submetido para ser

analisado pelo algoritmo MIGA-2L e investigar as interaes SNP-SNP. Previamente
foi realizada a partio do conjunto de dados, utilizando a estratgia de validao
cruzada com k=10. Gerando desta forma 10 conjuntos balanceados de dados de treino
e 10 conjuntos balanceados de dados de teste.
Os resultados encontrados pelo algoritmo MIGA-2L so mostrados na Tabela

6.6. A Tabela mostra as interaes identificadas que tiveram o maior nvel de
significncia estatstica aplicando o teste estatstico Z score. Todas as interaes tm
um p-valor < 0.0001. Estes SNPs apresentam uma associao com a doena estudada
nos indivduos portadores dessas interaes. Uma avaliao mais informativa pode ser
feita efetuando uma anlise detalhada das variantes dos hapltipos que compem as
interaes descobertas. Desta forma, pode-se estimar quais hapltipos incrementam o
risco de desenvolvimento da doena nos indivduos portadores dessas interaes
comparados com os no portadores. Esta anlise, por cada interao SNP-SNP, e
incluindo seus 9 hapltipos possveis, mostrada na Tabela 6.7. Esta Tabela apresenta
104
o computo das odds ratio (OR) e o intervalo de confiana computado sobre cada
hapltipo das interaes listadas na Tabela 6.6.
SNP - Locus1 SNP - Locus2 Z score

rs2147653 rs6455867 45.742
rs2147653 rs6932546 46.133
rs2147653 rs2982908 44.841
rs2147653 rs6937679 43.611
rs2147653 rs2206256 49.904
Tabela 6.6 Interaes encontradas pelo MIGA-2L no cromossomo 6 em T1D. A

primeira e segunda coluna apresentam os SNPs identificados segundo a referencia do
banco de dados dbSNP cujo formato SNP ID nmero (rs#; "refSNP cluster").
rs2147653- rs2147653- rs2147653- rs2147653- rs2147653-

rs6937679 rs6455867 rs6932546 rs2982908 rs2206256
Hap OR IC(95%) OR IC(95%) OR IC(95%) OR IC(95%) OR IC(95%)
AABB 1.07 0.94-1.22 1.06 0.93-1.21 1.06 0.93-1.21 1.06 0.93-1.21 1.05 0.92-1.20
AABb 0.78 0.59-1.03 0.79 0.6-1.04 0.79 0.6-1.04 0.77 0.58-1.02 0.77 0.61-0.97
AAbb 0.5 0.16-1.56 0.5 0.16-1.56 0.5 0.16-1.56 0.58 0.21-1.63 0.53 0.22-1.25
AaBB 0.6 0.17-1.73 Na Na Na Na Na Na Na Na
AaBb 0.98 0.87-1.09 0.98 0.87-1.09 0.98 0.87-1.09 0.98 0.87-1.10 1 0.89-1.12
Aabb 1.04 0.8-1.35 1.03 0.79-1.35 1.02 0.78-1.34 1.02 0.78-1.34 1.07 0.84-1.36
aaBB Na Na Na Na Na Na Na Na Na Na
aaBb 0.05 0.01-0.21 0.03 0.00-0.19 0.03 0.00-0.19 0.03 0.00-0.19 0.03 0.00-0.18
aabb 1.17 1.01-1.34 1.17 1.02-1.34 1.17 1.02-1.35 1.17 1.02-1.35 1.17 1.01-1.35
Tabela 6.7 Valores das Odds-ratio e seu intervalo de confiana de cada hapltipo das
interaes SNP-SNP identificadas no cromossomo 6 para T1D. O hapltipo recessivo
aabb (resaltado na Tabela) apresenta uma OR > 1, indicando uma associao positiva
com T1D. Os alelos recessivos so as formas mais graves de mutao j que perderam
o stio de reconhecimento que seria utilizado na transcrio de protenas.
Como era esperado, a maioria dos estudos GWA para fentipos discretos,
apresentam valores de OR detectveis entre 1,1 e 1,3 [Goldstein D.B, 2009]. Assim,
na Tabela 6.7 o hapltipo recessivo mostra uma OR de 1,17 que pode-ser interpretado
como que os indivduos portadores de este hapltipo apresentam um incremento no
105
risco de desenvolvimento da doena entre 15% e 20% comparados com os no
portadores.
Tempo computacional
O tempo total empregado por MIGA-2L na investigao de interao SNP-

SNP foi de 55 minutos utilizando o workflow Quiron. O programa Plink demorou 42
horas para investigar a interao de 2 loci utilizando a opo - -epistasis (busca
exaustiva) e 12 horas utilizando a opo - -fast-epistasis (busca aleatria), sobre o
mesmo conjunto de dados.
6.3 ANLISE FUNCIONAL

O algoritmo MIGA-2L revelou que existem SNPs associados
significativamente com T1D no cromossomo 6. Os SNPs da Tabela 6.6 pertencem
regio do gene PACRG2 cuja relevncia fisiolgica ou patofisiolgica
desconhecida. Este um gene co-regulador da Parkina, uma protena produzida pelo
gene PARK2. O promotor do gene da Parkina um promotor bidireccional, regulando
a transcrio da Parkina e do gene upstream antissense [Andrew B. West et al. 2003]
que possui 5 exes e um comprimento total de 0.6 Mb.
A Figura 6.10 apresenta a via de interao gnica envolvida com o gene

PACRG e PARK2. Outros genes envolvidos com PACRG so o SYT11 gene
regulador da insulina e o SLC11A1, o qual apresenta associao com T1D.
Mutaes no gene da Parkina (PARK2) surgem com elevada frequncia, sendo

observadas em cerca de 50% dos casos de doena de Parkinson hereditria [Betarbet
et al. 2005]. Quando o gene se encontra mutado manifesta-se um fentipo
autossmico recessivo juvenil da doena de Parkinson. Alm disso, alguns estudos
apontaram uma associao do PARK2 e SLC11A1 (anteriormente chamado
NRAMP1) com a hansenase [SOUZA & PEREIRA, 2007].
Neste contexto, pode-se interpretar que o gene PACRG contm um sitio de

ligao para um fator regulador de transcrio de protenas relacionadas a T1D e que
leva a pessoas portadoras do hapltipo recessivo uma falha na transcrio devido
perda desse stio de reconhecimento. Esse fato aumenta o risco no desenvolvimento
106
de diabetes tipo 1 assim como de doenas como Parkinson e hansenase. Tem que ser
mencionado aqui que fatores ambientais tambm influenciam e tem que ser
considerados, mas estes achados podem ser referidos adicionalmente como uma
explicao alternativa para a etiologia da T1D na populao do Reino Unido.
Figura 6.10 Via de interao gnica do gene PACRG o qual interage genes como
SYT11, PARK2 e SLC11A1. Estudos mostram que estes genes esto associados a
T1D e outras doenas como Parkinson e hansenase [Fonte: Raquel Barbosa
INCA/Rio de Janeiro].
6.4 EXPERIMENTOS SOBRE 4 CONJUNTOS DE DADOS DA WTCCC1

NO CROMOSSOMO 6
A metodologia proposta neste trabalho de tese tambm foi aplicada para

anlise de outros 4 conjuntos de dados do projeto da WTCCC1. Este projeto inclui
alm da T1D, 4 doenas humanas comuns, tais como, doena da artria coronria
(CAD), hipertenso (HT), diabetes tipo 2 (T2D) e desordem bipolar (BD). O pr-
processamento dos dados foi realizado da mesma forma como na anlise de diabetes
107
tipo1 (T1D). A Tabela 6.8 mostra o nmero de SNPs que restaram depois do pr-
processamento dos dados sobre o cromossomo 6.
As Tabelas 6.9a at 6.9d listam as associaes SNP-SNP mais significantes

encontradas por MIGA-2L no cromossomo 6. Estes resultados foram obtidos
considerando p-valores < 0.0001 utilizando o teste estatstico Z score.
Diabetes tipo Hipertenso Desordem bipolar Doena da artria

2 (T2D) (HT) (BD) coronria (CAD)
27,396 SNPs 27,387 SNPs 27,392 27,395
Tabela 6.8 Quantidade de marcadores considerados no GWAS para T2D, HT, BD e

CAD.
6.4.1 Doena de artria coronria (CAD)

A doena arterial coronariana o estreitamento dos pequenos vasos
sanguneos que fornecem sangue e oxignio ao corao. Ela tambm chamada de
doena cardaca coronria.
O algoritmo MIGA-2L encontrou associao de CAD com os SNPs mostrados

na Tabela 6.9a. Estes SNPs pertencem aos genes OR2H1, OR2H2, RPS17P1, UBD,
PPP1R11, ZNRD1-AS1, TRIM15, TRIM31, TRIM40.
SNP1 SNP2
rs734960 rs9504552
rs9504552 rs7739310
rs2517595 rs2523995
rs734960 rs539703
rs2394401 rs2523995
Tabela 6.9a: Interaes SNP-SNP identificadas em CAD.
6.4.2 Hipertenso (HT)

A Hipertenso arterial uma doena crnica determinada por elevados nveis
de presso sangunea nas artrias, o que faz com que o corao tenha que exercer um
esforo maior do que o normal para fazer circular o sangue atravs dos vasos
sanguneos. Os SNPs achados pelo MIGA-2L esto localizados nos genes LOC441179
e LOC100422263.
108
SNP1 SNP2
rs554158 rs6454756
rs554158 rs6934594
rs554158 rs3798867
rs554158 rs9456734
rs554158 rs9493450
rs554158 rs211218
Tabela 6.9b: Interaes SNP-SNP identificadas em HT.
6.4.3 Desordem bipolar (BD)

O desordem bipolar uma forma de transtorno de humor caracterizado pela
variao extrema do humor entre uma fase manaca ou hipomanaca1 , que so
estgios diferentes pela gradao dos seus sintomas, hiperatividade fsica e mental, e
uma fase de depresso, inibio, lentido para conceber e realizar ideias,
e ansiedade ou tristeza.
Os SNPs associados com BD descobertos pelo MIGA-2L se encontram nas

regies dos genes HLA-F e FOXQ1.
SNP1 SNP2
rs2747436 rs29254
rs2438083 rs977674
rs2438083 rs977673
rs1729549 rs1190806
Tabela 6.9c: Interaes SNP-SNP identificadas em BD.
6.4.4 Diabetes Tipo 2 (TD2)

A diabetes mellitus tipo 2 um distrbio metablico caracterizado pelo
elevado nvel de glicose no sangue no mbito da resistncia insulina e pela
insuficincia relativa de insulina. Distingue-se da diabetes mellitus tipo 1, na qual se
verifica a deficincia completa de insulina devido destruio dos ilhus de
Langerhans no pncreas. Os SNPs associados a TD2 pertencem s regies dos genes
RBBBP4P3, CLVS2, ATXN1 e HIVEP2.
SNP1 SNP2
rs11758386 rs683831
rs311210 rs683831
rs4314501 rs683831
rs7756217 rs683831
rs236949 rs683831
Tabela 6.9d: Interaes SNP-SNP identificadas em TD2.
109
6.5 Sntese do captulo
A interpretao biolgica de dados GWA um grande desafio. Associaes

so frequentemente encontradas em SNPs localizados em genes desertos ou a uma
distncia significativa de um gene conhecido. Uma estratgia frequentemente
utilizada por geneticistas restringir a anlise a SNPs localizados dentro de 10kb de
um gene conhecido. Porm, esta no uma boa prtica j que uma frao importante
do genoma est sendo ignorado. Essa estratgia facilita a interpretao biolgica e
ajuda a realizar um enfoque sobre o que o cientista entende melhor.
Qualquer que seja a estratgia empregada pelo cientista em GWAS, este

captulo foi apresentado para demonstrar que a metodologia proposta neste trabalho
de tese fornece ferramentas vlidas e rpidas para a anlise de dados em escala
genmica. A metodologia foi testada tanto com dados simulados correspondentes a
82 modelos diferentes de doena como tambm com dados reais de 5 doenas
comuns.
110
CAPTULO 7: CONCLUSO E TRABALHOS FUTUROS
O problema GWAS consiste principalmente em descobrir quais so os
marcadores genticos que so relevantes em relao com a doena estudada,
utilizando um conjunto de dados de gentipos de indivduos em escala genmica. Na
busca de uma metodologia eficiente para realizar esta anlise foi encontrado que os
mtodos de data mining mostram-se adequados para o tratamento destes dados j que
as etapas mais importantes e informativas so as de pre-processamento e seleo.
No mbito que este trabalho de tese foi desenvolvido, visando oferecer uma
metodologia livre de erros metodolgicos e fornecer de forma rpida e simples a
obteno dos resultados, que so apresentados com medidas de desempenho
computacionais tanto como epidemiolgicas, demonstrando sua aplicabilidade em
dados reais como a identificao de padres que distinguem doenas como diabetes
tipo 1.
7.1 Contribuio da tese

Esta proposta de tese teve como enfoque os estudos GWA. Nesse contexto, a
maior contribuio deste trabalho a apresentao de uma metodologia para fornecer
de forma simples e rpida a anlise de dados de gentipos em escala genmica,
abrangendo desde o controle de qualidade dos dados brutos, vindos da genotipagem,
seguindo pela anlise de associao, at chegar classificao do risco dos hapltipos
correspondentes aos SNPs selecionados. Foi demonstrado no captulo anterior que a
metodologia proposta aplicvel para a anlise de conjuntos de dados reais de
gentipos (SNPs) em escala genmica assim como para a anlise de vrios modelos
epistticos.
Estudos GWA tem vrios problemas e limitaes que podem ser atendidos por
meio do controle de qualidade adequado e bom desenho do estudo. A obteno dos
dados de gentipos de tamanho suficiente para anlise deixou de ser um problema
graas s tecnologias de genotipagem cada vez mais precisas e accessveis que
permitem sequenciar o genoma completo de vrios indivduos. Por isso, uma vez
superadas questes como um desenho de estudo bem definido de grupos de casos e
controles e um tamanho de amostra suficiente, o principal desafio o tratamento
desses dados de alta dimensionalidade.
111
A proposta apresentada neste trabalho toma proveito das vantagens de um
motor de workflow para auxiliar em todo o processo de GWAS. Sua utilizao
fornece integrao, sequencialidade e interao com o usurio fornecendo informao
necessria para facilitar a tomada de decises. Cada etapa da metodologia toma
especial cuidado de forma a evitar ou minimizar os erros que possam enviesar os
resultados do estudo. O primeiro passo da metodologia considera mltiplos critrios
que envolvem certa complexidade. Estes critrios foram abordados utilizando uma
estratgia de otimizao para evitar a eliminao de dados de gentipos e/ou amostras
que possam ser relevantes para a identificao da associao. Estes passos crticos so
fundamentais para o sucesso de um estudo de caso-controle e so necessrios antes do
teste de associao. Alm disso, os programas e algoritmos selecionados para este
primeiro passo so amigveis ao usurio, amplamente difundidos na comunidade
cientfica e computacionalmente eficientes. O processo de controle de qualidade dos
dados demora menos de 2 horas para uma amostra de 317,503 SNPs e 2,000
indivduos.
continuao, segue o teste de associao onde o objetivo a identificao

e/ou seleo dos marcadores que se associam com a doena estudada. Esta a etapa
mais desafiante do ponto de vista computacional. O algoritmo proposto baseado na
teoria da informao auxiliado por um algoritmo gentico que utiliza mscaras de
grupos de SNPs para otimizar a busca e identificar os pares de SNPs que mostram
uma associao relevante. Utilizando esta estratgia, o algoritmo MIGA-2L pode
realizar a anlise de associao em escala genmica 60 vezes mais rpido que Plink; o
mtodo mais difundido para GWAS e considerado o estado da arte. O algoritmo
gentico, graas a sua natureza, consegue convergir rapidamente no precisando
realizar uma busca exaustiva de todas as interaes possveis.
O algoritmo MIGA-2L foi desenvolvido para testar epistasia estatstica em

estudos caso-controle com fentipos binrios, mas facilmente escalvel para testar
interaes de maior grau, para agregar a utilizao de outras funes de avaliao e
para tratar dados de fentipos com mltiplas variveis. No entanto, a extenso do
mtodo proposto para lidar com dados fenotpicos com valor contnuo no simples,
a menos que os valores do fentipo possam ser dicotomizados apropriadamente.
112
7.2 Trabalhos Futuros
Como foi explicado anteriormente, o enfoque deste estudo GWA atende a

desenhos caso-controle onde o fentipo representado como uma varivel binria.
Certas melhoras podem ser feitas metodologia descrita neste trabalho de forma a
estender para outros tipos de estudos, como aqueles baseados em famlias e estudos
de genes fazendo as consideraes apropriadas sobre os dados.
Assim, a metodologia proposta no pode ser aplicada a GWAS envolvendo

fentipos representados como uma varivel contnua a menos que os fentipos
contnuos possam ser dicotomizados. O mesmo se aplica aos marcadores genticos
que so tratados como variveis categricas (ex. SNP com valores ternrios).
Covariveis ambientais e variveis de mistura gentica poderiam ser

quantitativas ou ordinais (ex. gua, solo, presso, temperatura, oxigeno etc.). Estender
esta abordagem para permitir covariveis mais gerais pode ser considerado em um
trabalho futuro. Existem muitas formas naturais de realizar o tratamento de medidas
contnuas, por exemplo, se a covarivel foi discreta ou pode ser discretizada o mtodo
proposto pode ser estendido fazendo um tratamento direto. Seno, ento outro tipo de
pr-processamento deve ser feito para adapt-la, como por exemplo utilizar regresso
logstica para ajustar a covarivel.
Alm disso, no foi investigado o tratamento dos dados de gentipos faltantes

e seu efeito sobre o estudo. muito comum a falta de gentipos em GWAS. Em
geral, o mecanismo exato subjacente da falta de dados desconhecido para os
investigadores. Atualmente, o pressuposto de aletoriedade feito para explicar a falta
de gentipos (ou seja, se assume que gentipos e alelos diferentes esto faltando com
a mesma probabilidade). No entanto, poucos estudos tm examinado a magnitude dos
efeitos quando esta hiptese simplificadora violada.
Como foi mencionado no captulo anterior, a interpretao biolgica dos

achados continua sendo um grande desafio. Neste contexto, primeiro precisa-se
identificar a variante causal. Em seguida, so necessrias provas experimentais para
demonstrar o efeito molecular da variante sobre o gene e a doena/fentipo. Todas
estes validaes funcionais baseadas em laboratrio so altamente dependentes sobre
o tipo de variantes, genes e doenas. A tendncia atual e promissora executar
ferramentas genmicas adicionais de alto desempenho (por exemplo, considerando
113
arranjos de expression gnica de todo o genoma sobre tecidos relevantes), em paralelo
com os estudos GWA, a fim de facilitar a interpretao biolgica.
Finalmente, a metodologia proposta teve o propsito de ser o mais flexivel

possvel, de forma a conseguir em trabalhos futuros adicionar outros mdulos que
ajudem na anlise de dados genomicos. Nesta viso que a metodologia utiliza um
motor de workflow de caractersticas flexveis e escalveis.
114
REFERNCIAS BIBLIOGRFICAS
ALMGREN P., BENDAHL P.O., BENGTSSON H., HOSSJER O. AND
PERFEKT R., 2003, Statistic in Genetics. Lund University, Lund Institute of
Technology, Centre for Mathematical Sciences, Mathematical Statistic.
ANDERSON C. A., PETTERSSON F.H., CLARKE G.M., CARDON L.R.,

MORRIS A.P., and ZONDERVAN K.T., 2010, Data quality control in genetic case-
control association studies. Nat Protoc.; vol.5, no. 9, pp. 15641573.
ARDLIE, K. G., KRUGLYAK, L., SEIELSTAD, M., 2002, Patterns of

linkage disequilibrium in the human genome, Nat Rev Genet, v.3, n.4, pp.299309.
BALDING, D. J., 2006, A tutorial on statistical methods for population

association studies, Nat Rev Genet, v.7, n.10, pp. 781-791.
BATESON W, 1910, Mendels principles of heredity, Molecular and

General Genetics MGG, 3: 108109.
BETARBET, R., SHERER, T.B. & GREENAMYRE, J TIMOTHY, 2005.

Ubiquitin-proteasome system and Parkinsons diseases. Experimental neurology,
191 Suppl , pp.S17-27.
BREIMAN L., 2001, Random forests, Machine Learning, 45:532.
CANTOR RM, LANGE K, SINSHEIMER JS, 2010, Prioritizing GWAS

results: A review of statistical methods and recommendations for their application,
Am J Hum Genet., v.86, n.1, pp.6-22.
CARDON L.R. AND BELL J.I., 2001, Association study designs for
complex diseases, Nature Reviews in Genetics, v.2, pp. 91-99.
CARVALHO, D., rvore de deciso/Algoritmo gentico para tratar o

problema pequenos disjuntos em classificao de dados. Tese de D.Sc.,
COPPE/UFRJ, Rio de Janeiro, Brasil, 2005.
CHEN X, LIU CT, ZHANG M, ZHANG H., 2007, A forest-based approach

to identifying gene and gene gene interactions, Proc.Natl.Acad.Sci., v. 104, n. 49,
pp.19199-19203.
115
CLARK, T.G., DE LORIO, M., GRIFFITHS, R.G., FARRALL, M., 2005,
Finding Association in Dense Genetic Maps: A Genetics Algorithm Approach.
Human Heredity, v.60, pp. 97108.
CLARK, T.G., DE LORIO, M., GRIFFITHS, R.G., 2008, An Evolutionary

Algorithm to Find Associations in Dense Genetic Maps, IEEE Transactions on
Evolutionary Computation, v.12, n.3, pp. 297306.
CONGDON, C.B., 1995, A Comparison of Genetic Algorithms and other

Machine Learning Systems on a Complex Classification Task from Common Disease.
Ph.D. Thesis in Computer Science, University of Michigan, Michigan, USA.
CORDELL H.J., Epistasis: What it Means, What it Doesnt Mean, and

Statistical Methods to Detect it in Humans, 2002, Human Molecular Genetics, vol.
11, no. 20, pp. 2463-2468.
CORDELL H.J., Detecting Gene-Gene Interactions that Underlie Human

Diseases, 2009, Nature Rev. Genetics, vol. 10, no. 6, pp. 392-404.
COVER T., THOMAS J., July 2006, Elements of the Information theory, 2nd
edition, John Wiley & Sons, Inc.
CULVERHOUSE R, SUAREZ BK, LIN J, REICH T, 2002, A perspective

on epistasis: limits of models displaying no main effect, Am J Hum Genet.
70(2):461-71.
DEWAN A., LIU M., HARTMAN S., ZHANG S.S., LIU D.T., ZHAO C.,
TAM P.O., CHAN W.M., LAM D.S., SNYDER M. HTRA1 promoter polymorphism
in wet age-related macular degeneration. Science. 2006;314:989992.
DORIGO M, GAMBARDELLA LM: Ant colonies for the travelling salesman

problem. Biosystems 1997, 43(2):73-81.
DUDA R.O., HART P.E., STORK D.G., 2001, Pattern Classification, 2nd
edition, John Wiley & Sons, Inc.
ESTER, M., 1996, A density-based algorithm for discovering clusters in

large spatial databases with noise, In Proceedings of the 2nd International
Conference on Knowledge Discovery and Data Mining, AAAI Press, Portland, OR,
pp. 226231.
116
ERICHSEN, H. C. AND CHANOCK, S. J., 2004, SNPs in cancer research
and treatment, British Journal of Cancer, v.90, pp. 747751.
FAGERHOLM E, AHLQVIST E, FORSBLOM C, SANDHOLM N,

SYREENI A, PARKKONEN M, MCKNIGHT AJ, TARNOW L, MAXWELL AP,
PARVING HH, GROOP L, GROOP PH; Finn Diane Study Group, SNP in the
genome-wide association study hotspot on chromosome 9p21 confers susceptibility to
diabetic nephropathy in type 1 diabetes, Diabetologia. 2012 Sep;55(9):2386-93.
FISHER R A, 1918, The correlation between relatives on the supposition of

Mendelian inheritance, Transactions of the Royal Society of Edingurgh, 52:399-433.
FONTANAROSA J., YANG D., A Block-Based Evolutionary Optimization

Strategy to Investigate Gene-Gene Interactions in Genetic Association Studies,
Bioinformatics and Biomedicine Workshops (BIBMW), 2010 IEEE International
Conference, 18 Dec. 2010, vol. 330-335.
FRANKEL W.N. and SCHORK N.J., Whos afraid of epistasis?, 1996,

Nature genetics, v.14, n.4: pp.371373.
FREITAS, A.A., 2001, Understanding the Crucial Role of Attribute
Interaction in Data Mining, Artificial Intelligence Review, v.16, n.3, p.177-199.
FREITAS, A.A., 2002, Data Mining and Knowledge Discovery with

Evolutionary Algorithms. New York, Springer-Verlag.
GHOUSSAINI M, FLETCHER O, MICHAILIDOU K, TURNBULL C,

SCHMIDT MK, DICKS E, DENNIS J, WANG Q, HUMPHREYS MK,
LUCCARINI C et al., 2012, Genome-wide association analysis identifies three new
breast cancer susceptibility loci, Nat Genet., v.44(3): p. 312318.
GOLDBERG, DAVID E. Genetic Algorithms in Search, Optimization, and

Machine Learning. EUA: Addison-Wesley, 1989.
GOLDSTEIN D.B. Common genetic variation and human traits. N. Engl. J.

Med. 2009;360:16961698.
GREENE CS, WHITE BC, MOORE JH., 2008, Ant Colony Optimization for
Genome-Wide Genetic Analysis, Lect Notes Comput Sci., v.5217, pp. 37-47.
117
GREENE CS, WHITE BC, MOORE JH., 2009, May 18, Sensible
Initialization Using Expert Knowledge for Genome-Wide Analysis of Epistasis Using
Genetic Programming, Genet Evol Comput Conf., pp.1289-1296.
HAGENAUER, J., DAWY, Z., GOEBEL, B., HANUS, P., MUELLER, J.C.,
2004. Genomic analysis using methods from information theory. IEEE Information
Theory Workshop (ITW 2004), 55-59.
HINDORFF LA, MACARTHUR J (European Bioinformatics Institute),

MORALES J (European Bioinformatics Institute), JUNKINS HA, HALL PN,
KLEMM AK, and MANOLIO TA. A Catalog of Published Genome-Wide
Association Studies. Available at: Available at: www.genome.gov/gwastudies [date of
access].
HEROLD C, STEFFENS M, BROCKSCHMIDT FF, BAUR MP, BECKER

T., 2009, INTERSNP: genome-wide interaction analysis guided by a priori
information, Bioinformatics, v.25 , pp. 32753281.
HOFFEE, P. A., 2000, Gentica Mdica Molecular, Guanabara Koogan

Edio, Oxford, Blackwell Science Limited.
IOANNIDIS J.P., NTZANI E.E., TRIKALINOS T.A. AND

CONTOPOULOS- IOANNIDIS D.G., 2001, Replication validity of genetic
association studies, Nature Genetics, v.29, pp. 306-309.
JIANG R, TANG W, WU X, FU W., 2009 , A random forest approach to the

detection of epistatic interactions in case-control studies, BMC Bioinformatics, v.10,
Suppl 1, S65.
JOHNSON, A.; O'DONNELL, C., 2009, An open access database of

genome-wide association results, BMC medical genetics, v. 10, n. 6.
JUYAL G, PRASAD P, SENAPATI S, MIDHA V, SOOD A, AMRE D,

JUYAL RC, BK T, An investigation of genome-wide studies reported susceptibility
loci for ulcerative colitis shows limited replication in north Indians, PLoS One, 2011
Jan 31;6(1):e16565.
KEMPTHORNE O., 1954, The correlation between relatives in a random

mating population, Proc R Soc Lond B Biol Sci., v.143, n.910, pp.102-13.
118
KEMPTHORNE O, 1968, "The correlation between relatives on the
supposition of mendelian inheritance", American Journal of Human Genetics, 20:
402.
KLEIN R.J., ZEISS C., CHEW E.Y., TSAI J.Y., SACKLER R.S., HAYNES
C., HENNING A.K., SANGIOVANNI J.P., MANE S.M., MAYNE S.T., 2005,
Complement factor H polymorphism in age-related macular degeneration, Science,
v.308: pp.385389.
KOHAVI R., 1995, A study of cross-validation and bootstrap for accuracy

estimation and model selection, In: Proceedings of the 14th international joint
conference on Artificial intelligence, pp. 1137-1143, San Francisco, CA, USA.
KOOPERBERG C., RUCZINSKI I., 2005, Identifying Interacting SNPs

using Monte Carlo Logic Regression, Genetic Epidemiology, v.28, n.2, pp. 157-70.
KURREEMAN FA, STAHL EA, OKADA Y, LIAO K, DIOGO D,

RAYCHAUDHURI S, FREUDENBERG J, KOCHI Y, et al, 2012, Use of a
multiethnic approach to identify rheumatoid- arthritis-susceptibility loci, 1p36 and
17q12, Am J Hum Genet., v.90(3):pp.524-32.
LEVY J. and NAGYLAKI T., 1972, A model for the genetics of

handedness, Genetics, v. 72, n.1: pp.117128.
LERNER I.M., Heredity, Evolution, and Society. W.H. Freeman, San

Francisco, 1968.
LI W. and REICH J., 2000, A complete enumeration and classification of

two-locus disease models, Human Heredity, v.50: pp. 334349.
LI NN, CHANG XL, MAO XY, ZHANG JH, ZHAO DM, TAN EK, PENG
R., 2012, GWAS-linked GAK locus in Parkinson's disease in Han Chinese and meta-
analysis, Hum Genet., v.131(7): pp.1089-93.
LU S, XIE Y, LIN K, LI S, ZHOU Y, MA P, LV Z, ZHOU X, 2012,

Genome-Wide Association Studies-derived susceptibility loci in Type 2 Diabetes:
confirmation in a Chinese population, Clin Invest Med., v. 35(5):E327.
MA L., H.B. RUNESHA, D. DVORKIN, J.R. GARBE, AND Y. DA., 2008,

Parallel and serial computing tools for testing single-locus and epistatic SNP effects
119
of quantitative traits in genome-wide association studies, BMC Bioinformatics, v.9,
pp.315.
MANOLIO T.A., 2010, Genome wide association studies and assessment of

the risk of disease, N Engl J Med 2010 Jul 8;363(2):166-76, N Engl J Med, v.363,
n.2, pp.166-76.
MARCHINI J. et al., 2005, Genome-wide strategies for detecting multiple

loci that influence complex diseases, Nature Genetics, 37:413417.
MARCHINI J., HOWIE B., 2010, Genotype imputation for genome-wide

association studies, Nature Genetics, 11: 499-511.
MARCHINI J., HOWIE B., S. MYERS, G. MCVEAN and P. DONNELLY,

2007, A new multipoint method for genome-wide association studies via imputation
of genotypes, Nature Genetics, 39 : 906-913.
MEDRONHO R., BLOCH K.V., LUIZ R.R., WERNECK G.L., 2009,

Epidemiologia. 2ed. So Paulo, Atheneu.
MILLER D.J., ZHANG Y., YU G., LIU Y., CHEN L., LANGEFELD C.D.,
HERRINGTON D, WANG Y., 2009, An algorithm for learning maximum entropy
probability models of disease risk that efficiently searches and sparingly encodes
multilocus genomic interactions, Bioinformatics, v. 25, n.19, pp.2478-2485.
MILLSTEIN J, CONTI DV, GILLILAND FD, GAUDERMAN WJ., 2006, A

testing framework for identifying susceptibility genes in the presence of epistasis,
Am.J.Hum.Genet., v. 78, n.1, pp.15-27.
MOORE JH, HAHN LW, RITCHIE MD, THORNTON TA, WHITE BC.,
2004, Routine Discovery of Complex Genetic Models using Genetic Algorithms,
Appl Soft Comput, v. 4, n.1, pp. 79-86.
MOORE JH. et al., 2006, A flexible computational framework for detecting,

characterizing, and interpreting statistical patterns of epistasis in genetic studies of
human disease susceptibility, J Theor Biol., pp.241:25261.
MOORE JH, ASSELBERGS FW, WILLIAMS SM., 2010, Bioinformatics

challenges for genome-wide association studies, Bioinformatics, v.26, n.4, pp.445-
455.
120
MOTSINGER-REIF AA, FANELLI TJ, DAVIS AC, RITCHIE MD., 2008,
Power of grammatical evolution neural networks to detect gene-gene interactions in
the presence of error, BMC Res Notes., v. 1, n.65, pp. 1-8.
MPICH.http://www.mcs.anl.gov/research/projects/mpich2/overview, visited
June, 2011.
NEALE B, FERREIRA M, MEDLAND S, POSTHUMA D. Statistical in

genetics: Gene Mapping through Linkage and Association. Taylor & Francis, 2008
US.
NEUMAN R.J. and RICE J.P., 1992 , Two-locus models of disease, Genetic
Epidemiology, vol. 9, n.5:pp. 347365.
NOBLE J. A. and ERLICH H.A., 2012, Genetics of Type 1 Diabetes, Cold

Spring Harb Perspect Med., v. 2, n.1: a007732.
PACKARD N.H., 1990, A Genetic learning algorithm for the analysis of

complex data, Complex Sustem, v.4, pp.543-572.
PANKRATZ N. D., WOJCIESZEK J., FOROUD T., 2007, Parkinson

Disease Overview, Gene Reviews, www.ncbi.nlm.nih.gov. Reference Type: Internet
Communication.
PARK MY, HASTIE T., 2008, Penalized logistic regression for detecting
gene interactions, Biostatistics, v.9, n.1, pp. 30-50.
PARKES M et al., 2007, Sequence variants in the autophagy gene IRGM and
multiple other replicating loci contribute to Crohn's disease susceptibility, Nat
Genet., 39(7):pp. 830-2.
PHILLIPS P.C., Epistasis the Essential Role of Gene Interactions in the

Structure and Evolution of Genetic Systems, 2008, Nature Rev. Genetics, vol. 9, no.
11, pp. 855-867.
PURCELL S, NEALE B, TODD-BROWN K, THOMAS L, FERREIRA MA,

BENDER D, MALLER J, SKLAR P, DE BAKKER PI, DALY MJ, SHAM PC.,
2007, PLINK: a tool set for whole-genome association and population-based linkage
analyses, Am. J. Hum. Genet., v.81, pp. 559575.
RISCH, N. and MERIKANGAS, K., 1996, The future of genetic studies of

complex human diseases, Science 273: 1516-1517.
121
RITCHIE MD, HAHN LW, ROODI N, BAILEY LR, DUPONT WD, PARL
FF, MOORE JH., 2001, Multifactor-dimensionality reduction reveals high-order
interactions among estrogen-metabolism genes in sporadic breast cancer,
Am.J.Hum.Genet., v.69, n.1, pp.138-147.
SCHPBACH T., XENARIOS I., BERGMANN S., KAPUR K., 2010,

FastEpistasis: A high performance computing solution for quantitative trait
epistasis, Bioinformatics, v.26, n.11, pp.1468-9.
SLADEK R, ROCHELEAU G, RUNG J., 2007, A genome-wide association

study identifies novel risk loci for type 2 diabetes, Nature, v.445, n. 7130, pp. 881
885.
SHAH, S., KUSIAK, A., 2004, Data mining and genetic algorithm based
gene/SNP selection, Artificial Intelligence in Medicine, v. 31, pp.183196
SHAM P., 1998, Statistic in human genetics, Arnold Applications of Statistic

Series, London, Arnold.
SPENCER CC, SU Z, DONNELLY P, MARCHINI J., Designing genome-

wide association studies: sample size, power, imputation, and the choice of
genotyping chip, PLoS Genet, v. 5:e1000477-e1000477.
SOUZA VNB, PEREIRA AC., 2007, Gentica humana na susceptibilidade

hansenase, Hansen Int.;32(1): 81-93.
TANG W, WU X, JIANG R, LI Y., 2009, Epistatic module detection for

case-control studies: a Bayesian model with a Gibbs sampling strategy, PLoS Genet,
v.5, n.5. e1000464.
TOMLINSON I. P. M., CARVAJAL-CARMONA L. G., DOBBINS S. E.,

TENESA A., JONES A.M. et al, 2011, Multiple Common Susceptibility Variants
near BMP Pathway Loci GREM1, BMP4, and BMP2 Explain Part of the Missing
Heritability of Colorectal Cancer, PLoS Genet., v. 7(6): e1002105.
VELEZ DR, WHITE BC, MOTSINGER AA, BUSH WS, RITCHIE MD,
WILLIAMS SM, MOORE JH, 2007, A balanced accuracy function for epistasis
modeling in imbalanced datasets using multifactor dimensionality reduction, Genet
Epidemiol., v.31, n.4, pp.306-315.
122
VISSCHER PM, BROWN MA, MCCARTHY MI, YANG J, 2012, Five
years of GWAS discovery, Am J Hum Genet., 90(1):7-24.
WAN X, YANG C, YANG Q, XUE H, TANG NL, YU W., 2009,

MegaSNPHunter: a learning approach to detect disease predisposition SNPs and
high level interactions in genome wide association studies, BMC Bioinformatics,
v.10, n.13.
WAN X, YANG C, YANG Q, XUE H, TANG NL, YU W, 2010, Predictive

rule inference for epistatic interaction detection in genome-wide association studies,
Bioinformatics, v.26, n.1, pp.30-37.
WAN X, YANG C, YANG Q, XUE H, FAN X, TANG NL, YU W, 2010,

BOOST: A Fast Approach to Detecting Gene-Gene Interactions in Genome-wide
Case-Control Studies, The American Journal of Human Genetics, v.87, n.3, pp. 325-
340.
WANG Y, LIU X, ROBBINS K, REKAYA R, 2010, AntEpiSeeker:

detecting epistatic interactions for case-control studies using a two-stage ant colony
optimization algorithm, BMC Res Notes, vol. 3:117.
WELLCOME TRUST CASE CONTROL CONSORTIUM, 2007, Genome-

wide association study of 14,000 cases of seven common diseases and 3,000 shared
controls, Nature, v.447, n. 7145, pp. 66178.
WEST, ANDREW B. et al., 2003. Identification of a Novel Gene Linked to

Parkin via a Bi-directional Promoter. Journal of Molecular Biology, 326(1), pp.11-
19.
WRAY, N.R., 2005, Allele frequencies and the r2 measure of linkage

disequilibrium: impact on design and interpretation of association studies., Twin
Research and Human Genetics, v. 8, pp. 87-94.
YANG, C., WAN, X., YANG, Q., XUE, H., YU, W., 2010, Identifying main
effects and epistatic interactions from large-scale snp data via adaptive group lasso,
BMC Bioinformatics , v.11, Suppl 1, S18.
YANG C, HE Z, WAN X, YANG Q, XUE H, YU W, 2009, SNPHarvester: a

filtering-based approach for detecting epistatic interactions in genome-wide
association studies, Bioinformatics, v.25, n.4, pp.504-511.
123
ZHANG X, ZOU F, WANG W. FastANOVA: an Efficient Algorithm for
Genome-Wide Association Study, Proc. KDD, 2008. pp. 821829.
ZHANG X, HUANG S, ZOU F, WANG W., 2010, TEAM: efficient two-

locus epistasis tests in human genome-wide association study, Bioinformatics, v.26,
n.12, pp. i217-27.
ZHANG Y, LIU JS., 2007, Bayesian inference of epistatic interactions in

case-control studies, Nat.Genet., v.39, n. 9, pp.1167-1173.
ZHANG X, PAN F, XIE Y, ZOU F, WANG W., 2011, Tools for efficient
epistasis detection in genome-wide association study, Source Code Biol Med., v.6,
n.1(Jan), pp.1.
ZHANG X, HUANG S, ZOU F, WANG W., 2011, COE: a General

Approach for Efficient Genome-Wide Two-Locus Epistatic Test in Disease
Association Study, Journal of Computational Biology. 2010;17(3):401415.
ZHENG T, WANG H, LO SH., 2006, Backward genotype-trait association

(BGTA)-based dissection of complex traits in case-control designs, Hum.Hered.,
v.62, n.4, pp.196-212.
124
APNDICE
A1. Informao Mutua de duas variveis aleatrias
A informao mtua de duas variveis aleatrias a quantidade de

dependncia mtua das duas variveis aleatrias. Formalmente, a informao mtua
de duas variveis aleatrias discretas X e Y pode ser definido como:
[1]
onde, p(x,y) a funo de distribuio da probabilidade conjunta de X e Y, e p(x) e

p(y) so as funes de distribuio das probabilidades marginais de X e Y,
respectivamente.
A informao mtua pode equivalentemente ser expressada em termos da

entropia de uma varivel aleatria. Intuitivamente, ela mede a informao que X e Y
compartilham, ou seja, ela mede o quanto conhecer uma dessas variveis reduz a
incerteza sobre a outra.
Se a incerteza de uma varivel aleatria X medida por sua entropia H(X),

calculada pela equao (definida por Shannon em 1948); ento a
incerteza de uma varivel aleatria X dado o conhecimento de outra varivel aleatria
Y medida por sua entropia condicional H(X|Y); e a incerteza de um par de variveis
aleatrias X,Y medida pela entropia conjunta H(X,Y), calculada pela equao
. Estas quantidades so relacionadas na equao 2.
H(X,Y) = H(X) + H(X|Y) = H(Y) + H(Y|X) [2]
Aqui, a Informao mtua definida como o grau de incerteza em X, menos a

quantidade de incerteza em X que permanece depois que Y conhecido, o que
equivalente a dizer a quantidade de incerteza em X que removida por conhecer Y.
O mesmo equivale para Y, como se mostra na equao 3
I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) [3]
Da equao anterior, I(X;Y) pode-se expressar como
I(X;Y) = [H(X) + H(Y)] - H(X,Y) [4]
Portanto, o significado fsico de I(X;Y) a reduo da incerteza de X devido

ao conhecimento de Y (ou vice-versa) e esta relao pode ser representada em um
125
diagrama de Venn (Figura 1a) na qual a entropia das variveis H(X) e H(Y) so
representadas por dois conjuntos sobrepostos. A entropia das duas variveis
representada pela unio de estes conjuntos, e a informao mtua de X e Y
representada por sua interseo. Tambm a entropia condicional est representada no
diagrama que indicada pela subtrao dos conjuntos, de modo que, por exemplo, o
conjunto representado por H(X|Y) resulta de subtrair o conjunto representando H(Y)
do conjunto representando por H(X).
A informao mtua pode ser condicionada sobre o conhecimento de outra

varivel aleatria incluindo esta condio sobre todos os termos da definio. Por
exemplo, dada uma terceira varivel aleatria Z, a informao mtua I(X;Y|Z) igual
a H(X|Z) - H(X|Y,Z), isto significa a reduo da incerteza de X devido a Y (ou vice-
versa), quando Z dado. O diagrama de Venn da Figura 1b mostra que o conjunto
representando I(X;Y|Z) resulta de subtrair o conjunto representando H(Z) desde o
conjunto representado por I(X;Y).
Figura 1a: Informao mutua de duas variveis. Figura 1b: Informao mutua de trs variveis.
A informao mtua referente a trs variveis X, Y, Z pode ser definida pela

equao 5 [McGill, 1954; Watanabe, 1960; Cover and Thomas, 2006]
I(X;Y;Z) = [H(X|Z) + H(Y|Z)] H(X,Y | Z) [5]
Das definies acima pode se concluir a seguinte equao:
I(X;Y;Z) = I(X;Y) I(X;Y|Z) [6]
126
Isto significa a reduo da informao mtua comum para duas variveis
devido ao conhecimento de uma terceira varivel.
A2. Classificador Naive Bayes.
Ele forma parte do grupo de classificadores Bayesianos. Eles so

classificadores estatsticos que classificam um objeto numa determinada classe
baseando-se na probabilidade deste objeto pertencer a esta classe. O classificador
Naive Bayes supe como hiptese que o efeito do valor de um atributo no-classe
independente dos valores dos outros atributos. Isto , o valor de um atributo no
influencia o valor dos outros. Esta hiptese tem como objetivo facilitar os clculos
envolvidos na tarefa de classificao.
O Naive Bayes aplicado da seguinte maneira:
O procedimento consiste em contar o nmero de aparies de cada hapltipo,

da Tabela 5.3, chamado hk onde 1k9, agrupados por Cn, onde n={casos,controles}.
Seguidamente, calculamos a probabilidade de hk de pertencer a Ccasos ou Ccontroles. Esta
probabilidade P[Cn|hk] tambm chamada probabilidade posterior, e pode ser
calculada utilizando o teorema de Bayes.
As probabilidades podem ser calculadas a partir das amostras da

seguinte maneira:
A probabilidade posterior a probabilidade de que hk pertena classe Cn e a

probabilidade a priori P[Cn] a probabilidade total da classe Cn.
O critrio de classificao chamado de Mximo a posteriori, ou MAP, no qual

se classifica para a classe Cn com o Mximo das probabilidades posteriori das duas
classes,
Classe (Cn) = {P[Cn|hk]} =
127
Daqui, a funo discriminante definida como igual a sua probabilidade
posterior:
A classe aquela que maximiza o discriminante. Ento uma vez obtido o

Mximo das probabilidades a posteriori criamos a regra do tipo SE hk ENTO Cn.
A3. Conjunto de dados com efeito principal
Foram gerados 4 classes de modelo de dados. O primeiro modelo, tambm

chamado modelo multiplicativo [MARCHINI et al., 2005], o segundo modelo
chamado de modelo episttico [NEWMAN & RICE, 1992], o terceiro modelo um
clssico modelo episttico [LEVY & NAGYLAKI, 1972; LERNER & FREEMAN,
1968] e o quarto descrito como modelo XOR (OR exclusivo). A gerao dos
arquivos de gentipos pertencentes a cada modelo foi baseada considerando Tabelas
de Odds Ratio como se mostra a continuao.
Seja a probabilidade de que um indivduo seja afetado pela doena

dado seu gentipo (ex. penetrncia de ), e seja a probabilidade de que
um indivduo no seja afetado dado seu gentipo . Baseado na definio da Odds
Ratio da doena,
A penetrncia do gentipo pode ser calculado pela equao,
A prevalncia e a herdabilidade gentica h2 so estimadas pelas equaes

seguintes,
128
Na simulao, a prevalncia e a herdabilidade h2 so controladas pelos
parmetros e da Tabela A1. Primeiro os valores da prevalncia e herdabilidade so
determinados para depois resolver numericamente os parmetros ( e ) baseados nas
equaes correspondentes.
Por exemplo, seja e h2=0.03 no modelo 1. Ento = 0.09989 e

=3.4481 para uma frequncia de alelo menor (MAF) = 0.1.
Modelo 1 BB Bb bb
AA
Aa (1+) (1+)2
AA (1+) (1+)4
Modelo 2 BB Bb bb
AA (1+) (1+)
Aa (1+)
aa (1+)
Modelo 3 BB Bb bb
AA (1+)
Aa (1+)
aa (1+) (1+)
Modelo 4 BB Bb bb
AA (1+)
Aa (1+) (1+)
aa (1+)
Tabela A1. Os parmetros e controlam a prevalncia da doena p(D) e a herdabilidade h2
129
A4. Conjunto de dados sem efeito principal.
Estes modelos sem efeito principal so discutidos amplamente em

[CULVERHOUSE et al., 2002; VELEZ et al., 2007]. Nesta tese foram utilizados 70
modelos epistticos sem efeito principal os quais so listados na prxima pgina. A
herdabilidade h2 controla a variao fenotpica destes 70 modelos, com valores desde
0.01 at 0.4 e o MAF abrange valores desde 0.2 at 0.4.
Tabela A2: Valores de penetrncia dos 70 modelos epistticos com seus parmetros
de herdabilidade h2 e MAF respectivos.
Conjunto 00 Conjunto 05
130
131
132
133

Estudos Genéticos

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estudos Genéticos

Caricato da

Copyright:

Formati disponibili

UMA METODOLOGIA PARA A DESCOBERTA DE MARCADORES GENTICOS

Margarita Ramona Ruiz Olazar

Tese de Doutorado apresentada ao Programa

Orientador: Prof. Eugenius Kaszkurewicz

Margarita Ramona Ruiz Olazar

TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ

RIO DE JANEIRO, RJ - BRASIL

A Deus, por todas as oportunidades e bnos na minha vida.

Ao professor Eugenius Kaszkurewicz, quem me acolheu como sua orientada e

A meus amigos, do NACAD - Ncleo de Atendimento de Computao de Alto

Universidade Federal do Rio de Janeiro, e em especial ao Programa de

Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPQ)

Meus sinceros agradecimentos!

UMA METODOLOGIA PARA A DESCOBERTA DE MARCADORES GENTICOS

Margarita Ramona Ruiz Olazar

Orientador: Eugenius Kaszkurewicz

Programa: Engenharia Eltrica

Este trabalho desenvolve uma metodologia para ajudar a descobrir marcadores

A METHODOLOGY TO DISCOVER GENETIC MARKERS IN ASSOCIATION

Margarita Ramona Ruiz Olazar

Advisor: Eugenius Kaszkurewicz

Department: Electrical Engineering

This work presents a methodology to discover genetic markers (SNPs) in GWAS

Figura 2.4: loci di-allico ................................................................................................................................. 16

Figura 5.1: Viso geral da metodologia proposta, esquematizada em 5 passos ............................................... 55

Figura 5.3: Fluxo do processo de controle de qualidade dos dados.................................................................. 64

Figura 5.4: Workflow conceptual para o pr processamento dos dados ........................................................... 65

Figura 5.6. Fluxograma do Algoritmo Gentico .............................................................................................. 70

Figura 5.7 Representao do i-simo elemento da populao AG de comprimento 5, indicando os SNP 1

Figura 6.1c. Agrupao ancestral baseado em amostras de referencia Hapmap3: CEU(vermelho),

Figura 6.5: Grfico Manhattan correspondente a T1D ..................................................................................... 99

Tabela 5.2: As 9 combinaes possveis de dois marcadores (SNPs) ................................................................. 72

Tabela 5.3: hapltipos gerados da combinao de dois gentipos ...................................................................... 77

Tabela 5.4: Tabela de falsos e verdadeiros positivos e negativos ........................................................................ 79

Tabela 5.5: Tabela de contingencia. Contagem das frequncias ......................................................................... 81

Tabela 5.6: Contagem das frequncias de gentipos nos loci 1 e 2..................................................................... 83

Tabela 5.8: Tabela de contingncia 2x2 .............................................................................................................. 83

Tabela 6.1 Arquivos .ped e .map ......................................................................................................................... 87

Tabela 6.5 Tempo computacional empregado no pr processamento do conjunto de dados de Diabetes

Tabela 6.9a: Interaes SNP-SNP identificadas em CAD ................................................................................ 108

Tabela 6.9b: Interaes SNP-SNP identificadas em HT ................................................................................... 109

Tabela 6.9c: Interaes SNP-SNP identificadas em BD ................................................................................... 109

Tabela 6.9d: Interaes SNP-SNP identificadas em TD2 ................................................................................. 109

Doena complexa: Um fentipo com uma etiologia multifatorial,

Equilbrio de ligao (LD): Associao de alelos em dois loci devido a um

Estudos de associao: Buscam relacionar um marcador gentico particular

Fentipo: so as caractersticas observveis de um indivduo como, por

Genome-wide association study (GWAS): so Estudos de associao do

Gentipo: um conjunto de alelos presentes em um loco particular. Gentipos

Genotipagem: um processo de determinao do gentipo ou contedo

Hapltipo: Um hapltipo uma combinao de alelos em loci adjacentes, que

Heterogeneidade gentica: Na clnica, a heterogeneidade gentica se refere

Penetrncia: um termo utilizado em gentica para descrever a proporo de

Polimorfismos genticos: so variantes do genoma que aparecem por mutaes

Polimorfismo de nucleotdeo simples (SNP): um loco com uma nica

Principio de Hardy-Weinberg (EHW): A situao na qual as frequncias dos

Os Estudos de associao do genoma inteiro, do ingls Genome Wide

Habitualmente, neste tipo de anlise so utilizados polimorfismos de

Figura 1.1: Este painel mostra a sequencia de gentipos de 3 indivduos. Pode-se

GWAS j identificaram SNPs de vrias doenas complexas, incluindo

At julho de 2012, foram relatados em publicaes de jornais cientficos mais

1.2 ESTUDOS DE ASSOCIAO DO GENOMA INTEIRO

Com a concluso do Projeto Genoma Humano em 2003

Estes avanos contriburam para um considervel incremento de publicaes