Sei sulla pagina 1di 9

Seção de Bioestatística

Uso do Modelo de Equações de


Estimações Generalizadas na análise de
dados longitudinais

Use of the Generalized Estimating


Equation Model in longitudinal data
analysis

Luciano Santos Pinto Guimarães, Vânia Naomi Hirakata

resumo
Este artigo tem como objetivo apresentar o método de Equações de Estimações Revista HCPA. 2012;32(4):503-511
Generalizadas (GEE) para a análise de dados longitudinais, considerada, em
muitas ocasiões da área médica, melhor que a análise de variâncias para medidas Unidade de Bioestatística, Grupo de
repetidas. Para um melhor entendimento, apresentamos um exemplo no programa Pesquisa e Pós-graduação, Hospital
SPSS, versão 18.0.0, mostrando como esta pode ser realizada e interpretada. de Clínicas de Porto Alegre.

Palavras-chave: Equações de Estimações Generalizadas; dados longitudinais; SPSS


Contato:
Luciano Santos Pinto Guimarães
ABSTRACT
lsguimaraes@hcpa.ufrgs.br
The objective of the present manuscript was to describe the method of Generalized Porto Alegre, RS, Brasil.
Estimating Equations (GEE) for longitudinal data analysis, which is considered to
be better than the analysis of variance for repeated measures in many medical
situations. For a better understanding, we present an example using the SPSS,
version 18.0.0, and showing how GEE can be performed and interpreted.
Keywords: Generalized Estimating Equations; longitudinal data; SPSS

Na área da saúde são comuns momentos entre dois grupos,


os estudos em que se têm diversas ou ainda, quando existir alguma
medidas de uma mesma variável variável cujo efeito se quer ajustar a
em um mesmo sujeito, seja esta comparação, seria necessário
em estudos com delineamento que se realizasse uma análise de
longitudinal, apenas observacional, variâncias para medidas repetidas
seja ele com alguma intervenção (ANOVA-MR), considerada um
entre as medidas. Quando GLM (modelo linear generalizado).
desejamos avaliar a alteração de Contudo, por uma série de pré-
uma variável ao longo do tempo em requisitos desta análise, muitas
apenas dois momentos, a opção vezes é inviável que ela possa
de análise mais apropriada para ser aplicada na prática. Uma das
variáveis com distribuição normal exigências do modelo de ANOVA-
seria o teste t para amostras MR é a de que a variável em
emparelhadas. No entanto, quando estudo seja quantitativa e tenha
a mensuração for feita em mais distribuição normal multivariada.
de dois momentos, ou quando se Ou seja, a variável dependente
deseja comparar o comportamento em cada subgrupo, para cada
da variável ao longo dos diferentes momento, necessita ter distribuição

http://seer.ufrgs.br/hcpa Rev HCPA 2012;32(4) 503


Guimarães LSP, Hirakata VN

normal, além de que as variâncias sejam iguais em de correlação (13). Os parâmetros de regressão
todos os momentos e a correlação seja constante (β’s) são estimados pelo estimador de máxima
entre quaisquer dois momentos (esfericidade) verossimilhança. Os cálculos das variâncias são
(1). Essa situação é praticamente impossível de realizados usando uma função de ligação, que
ser alcançada na área médica, à medida que os transforma a variável dependente em uma equação
pacientes alteram sua situação clínica ao longo do de estimativas de parâmetros na forma de um
tratamento(2). Também é necessário que os dados modelo aditivo (y=β0+β1x1+β2x2+...). Os resultados
sejam balanceados, ou seja, não exista nenhuma a partir dessas equações dão início a um processo
falha na coleta de dados de nenhum indivíduo. interativo usando procedimentos de mínimos
Isso quer dizer que, se em um estudo em que quadrados que envolvem a minimização extensa
seriam necessárias cinco medidas de seguimento, da alteração do parâmetro estimado a partir de
mesmo que um sujeito não tenha sido avaliado um modelo de regressão perfeitamente ajustado.
apenas uma vez, todas as demais avaliações À medida que o tamanho destas alterações tende
que ele tenha feito seriam desconsideradas da a zero as estimativas dos parâmetros (β’s e erros-
análise, a não ser que seja feita alguma forma padrão) estabilizam. As especificações corretas
de imputação dos dados faltantes (3,4). Além tornam as estimativas mais eficientes.
disso, são possíveis apenas fatores e covariáveis No software SPSS, versão 18.0.0, a realização
que não possam variar ao longo do tempo, e se da análise pode ser encontrada nos procedimentos:
for importante considerar a variação desta no Analyze >> Generalized Linear Models >>
comportamento da variável em estudo, na ANOVA- Generalized Estimating Equations. A análise de GEE
MR não é possível fazê-la na sua forma original. é relativamente simples de ser realizada. Algumas
O fato dos intervalos de tempo entre as diferentes escolhas anteriormente devem ser feitas, como por
mensurações serem considerados constantes exemplo:
também é uma importante limitação, uma vez que *A escolha da variável intrassujeito: para a
a variável tempo é sempre considerada categórica estruturação do banco, apresentado a seguir,
nessa análise. é necessário definir a variável que identifica os
Devido a estas limitações da ANOVA-MR e ao sujeitos, já que o mesmo sujeito possui mais de
surgimento de novas técnicas ao longo dos últimos uma observação. É possível que haja mais de uma
anos, juntamente com a implementação delas nos variável interferindo na medição, por exemplo,
softwares estatísticos, têm se visto cada vez mais em um modelo hierárquico, onde pacientes de
estudos mostrando as vantagens de métodos como estados (UF) distintos podem ser acompanhados
o de Modelos Lineares Mistos (Mixed Linear Models em tratamentos diferentes. Assim, a estrutura a
- MLM) (2,5-7) e das Equações de Estimações ser considerada é o sujeito seguido do estado
Generalizadas (Generalized Estimating Equations (UF) que ele pertence.
– GEE) (2,7,8) sobre a ANOVA-MR em estudos *A distribuição da variável dependente: o
longitudinais. Além disso, os MLM e GEE também programa SPSS tem como default o tipo de resposta
têm sido preferidos quando se trata de ensaios linear que utiliza uma função de ligação identidade
clínicos randomizados (6,9,10). (assumindo desta forma que a distribuição da
O objetivo deste artigo é apresentar a análise variável seja normal). Já para uma resposta com
e sua execução no programa SPSS, por meio da distribuição gamma, à função de ligação padrão é
utilização de uma variável dependente contínua. a logarítmica e para uma resposta binária a função
São apresentadas interpretações dos resultados e é a logito (13).
uma possível tabela de exposição dos dados. *A escolha do estimador da matriz de
covariância: o SPSS possibilita a escolha de dois
ANÁLISE DE GEE estimadores, o baseado no modelo e o robusto,
sendo o último default do programa.
A análise de GEE baseia-se na metodologia *A escolha da matriz de correlação trabalho:
dos Modelos Lineares Generalizados (11), e representa a dependência intraindividual. Uma
inicialmente foi proposta por Liang e Zeger (12), melhor estrutura deve ser buscada usando
para o contexto de dados longitudinais. Usar essa como critério o menor Quasi Likelihood Under
análise requer especificar: a) função de ligação, b) Independence Model Criterion (QIC).
distribuição da variável dependente e c) a estrutura

504 Rev HCPA 2012;32(4) http://seer.ufrgs.br/hcpa


GEE em dados longitudinais

Exemplo MONTAGEM DO BANCO


O banco para o exemplo foi mascarado sendo Diferente da construção dos bancos de
adaptado de um projeto real. A ansiedade é um dados utilizados em testes mais simples, a
transtorno bastante estudado. Uma pesquisa foi análise de GEE exige um formato chamado de
realizada, sendo aplicado um questionário que dados empilhados. O banco nesse exemplo foi
media um escore de ansiedade em pacientes pré- composto de quatro colunas, sendo uma para a
diagnosticados. Dois tratamentos distintos foram identificação dos sujeitos e outra especificando a
usados, sendo estudado também o efeito combinado qual grupo este pertence. O resultado é digitado
desses tratamentos para testar a redução desse em uma única variável sendo essa auxiliada por
transtorno. O estudo teve seguimento de um ano outra indicando o tempo. Cada sujeito terá no
sendo realizadas quatro medições: T1: basal, T2: 2º máximo quatro linhas, já que a perda de alguma
mês, T3: 4º mês e T4: 12º mês. Assim foram testados informação não acarretará na perda do sujeito,
os efeitos principais das variáveis (grupos e tempo) e como acontece na análise usando ANOVA-MR.
o efeito da interação (grupo*tempo). A figura 1 mostra Uma imagem de construção do banco de dados
as médias e os erros-padrão da média de cada grupo pode ser visto na Figura 2.
em cada tempo.

Figura 1: Gráfico de linha das médias do escore de ansiedade de cada grupo


discriminado pelos tempos avaliados.

http://seer.ufrgs.br/hcpa Rev HCPA 2012;32(4) 505


Guimarães LSP, Hirakata VN

Obs.: O banco foi construído a partir de códigos, o que se vê, na figura 2, são os rótulos.
Para a variável Grupo usou-se: 1 – Tratamento 1; 2 – Tratamento 2; 3 – Trat Combinado.
Para a variável Tempo usou-se: 1 – Basal; 2 – 2º mês; 3 – 4º mês; 4 – 12º mês.

Figura 2: Modelo de banco de dados utilizado para a análise de


GEE no software SPSS v.18.0.0.

No material suplementar (http://seer.ufrgs.br/hcpa/ (EMMEANS TABLES), quando a interação for


article/view/36971) pode-se visualizar a construção significativa, já que a disponibilizada pelo SPSS
da análise no software SPSS. A análise pode ser é de difícil compreensão. Esse complemento
realizada pela sintaxe encontrada no Quadro 1. aparece em destaque no Quadro 1. Foi usado
Uma introdução para o uso dessa ferramenta pode para esse exemplo o estimador robusto, uma
ser encontrada no artigo de Lindenau & Guimarães matriz de correlação trabalho não estruturada
(2012) (14). Um complemento na programação (unstructured) e uma distribuição normal com
deve ser feito na parte de comparação das médias função de ligação identidade.

506 Rev HCPA 2012;32(4) http://seer.ufrgs.br/hcpa


GEE em dados longitudinais

Quadro 1: Sintaxe da análise de GEE, com modificação, no software SPSS v.18.0.0.

RESULTADOS DO EXEMPLO Pelo teste qui-quadrado de Wald é obtido o valor


p (nomeado pelo SPSS de Sig). Nesse exemplo a
As primeiras tabelas do output do SPSS interação (grupo*tempo) foi significativa (p<0,001)
mostram as informações utilizadas na análise: conforme pode ser visualizado na tabela trazida
a variável dependente, a distribuição e a função do SPSS (tabela 1). Esse resultado mostra
de ligação, a matriz de correlação, o número total que ao longo do tempo há uma mudança no
de sujeitos e suas discriminações pelas variáveis comportamento médio do escore de ansiedade
independentes (fatores). A tabela nomeada entre pelo menos dois grupos. Cabe agora, através
de Test of Model Effects mostra os resultados de um teste complementar, avaliar onde ocorre
dos efeitos principais e da interação (maiores essa mudança. O teste post-hoc realizado foi o
explicações sobre efeitos principais e efeitos de de Bonferroni. Já que a interação foi significativa,
interação podem ser encontrados no Anexo 1). os efeitos principais não devem ser analisados.

Tabela 1: Resultados do teste dos efeitos principais e da interação pelo


qui-quadrado de Wald dado pelo SPSS.

http://seer.ufrgs.br/hcpa Rev HCPA 2012;32(4) 507


Guimarães LSP, Hirakata VN

Os resultados das médias do escore de ansiedade, erros-padrão e intervalos de confiança de cada grupo
em cada tempo são encontrados na tabela Estimated Marginal Means na parte da interação (tabela 2).

Tabela 2: Estimativas da média de ansiedade discriminadas por grupo e tempo.

Com a modificação realizada na sintaxe antes tratamento combinado (p<0,001); no quarto mês
de executar o comando altera-se a maneira de há uma diferença entre todos os escores médios,
apresentação dos dados na comparação par a sendo que o tratamento combinado (p<0,001) é
par do efeito da interação. Na Tabela 3 destacam- mais eficaz, seguido do tratamento 1 (p<0,001).
se as informações mais relevantes do output do Após um ano de seguimento o tratamento 2
SPSS para essas comparações, já que há muitas é diferente dos demais, sendo menos eficaz
informações disponíveis nos resultados originais. (tratamento 1: p<0,001; tratamento combinado:
Nessa forma de apresentação os resultados são p<0,001), ou seja, produz médias de escores de
organizados de maneira mais direta, facilitando a ansiedade mais altos.
interpretação do pesquisador. A Tabela 3.b pode ser interpretada do seguinte
Duas tabelas foram criadas. A Tabela 3.a fixa modo: os quatro tempos possuem escores médios
o tempo e compara os grupos de tratamentos, de ansiedade diferentes, tanto no tratamento 1
diferente da Tabela 3.b, que fixa os grupos e quanto no tratamento combinado, sempre com
compara os tempos. Interpretando a Tabela 3.a: escores médios menores na decorrência do
os três grupos de tratamentos não possuem tempo (p<0,001); já no tratamento 2, o segundo
diferenças em seus escores de ansiedade no tempo e o quarto mês não diferem em médias no
basal (p>0,05), podendo confirmar esses valores escore de ansiedade (p>0,999), diminuindo
pela Tabela 2. No segundo mês o tratamento 1 é significativamente esse escore no décimo segundo
menos eficaz que o tratamento 2 (p=0,019) e o mês (p<0,001).

508 Rev HCPA 2012;32(4) http://seer.ufrgs.br/hcpa


GEE em dados longitudinais

Tabela 3: Resultados parciais das comparações múltiplas do efeito da interação


(grupo*tempo) na variável ansiedade fixando um dos fatores.

http://seer.ufrgs.br/hcpa Rev HCPA 2012;32(4) 509


Guimarães LSP, Hirakata VN

Uma representação dessas tabelas, para diferem dentro de um determinado tempo. Letras
publicação, pode ser feita usando o sistema de letras. maiúsculas distintas mostram a evolução de um
Letras minúsculas distintas mostram que as médias determinado grupo conforme o passar do tempo.
dos escores de ansiedade em cada tratamento Esse exemplo é encontrado na Tabela 4.

Tabela 4: Representação da tabela com os resultados finais e a representação do sistema


de letras das comparações múltiplas.

Podemos concluir nesse exemplo que distribuição normal ou esfericidade (12). Além
pela análise de GEE os tratamentos com disso, mesmo quando há perda de informações de
menores escores médios foram encontrados, algum indivíduo da amostra, é possível a inclusão
no acompanhamento de 12 meses, naqueles de todos os indivíduos, situação que pode evitar
com a composição do tratamento 1 (tratamento algum tipo de viés de seleção (4). Outra vantagem
1 e o tratamento combinado). O tratamento 2, a do GEE, demonstrada por Ma et al.(2), em relação
partir do quarto mês, produz as maiores médias, à ANOVA-MR é a necessidade de um tamanho
sendo diferente significativamente dos demais menor de amostra para conseguir evidenciar o
tratamentos, não sendo recomendado o seu uso. mesmo tamanho de efeito, com um poder de 80%.
A possibilidade de análise de dados categóricos
CONCLUSÃO ou ordinais também deve ser considerada, embora
nosso estudo não tenha tido este enfoque (15).
O método de análise de dados longitudinais Por esses motivos, recomenda-se o método das
pelo GEE possibilita a análise de desfechos equações de estimações generalizadas (GEE)
contínuos, mesmo quando a variável não apresenta para a análise de dados longitudinais.

REFERÊNCIAs

1. Garson GD. Univariate GLM, repeated-measures-approaches/. general psychiatry. Archives of General


ANOVA, and ANCOVA: Statistical Psychiatry. 2004;61(3):310-7.
4. Liu M, Wei L, Zhang J. Review of
Associates; 2012.
guidelines and literature for handling 7. Edwards LJ. Modern statistical
2. Ma Y, Mazumdar M, Memtsoudis missing data in longitudinal clinical techniques for the analysis of
SG. Beyond Repeated-Measures trials with a case study. Pharmaceutical longitudinal data in biomedical
Analysis of Variance: Advanced Statistics. 2006;5(1):7-18. research. Pediatr Pulmonol.
Statistical Methods for the Analysis 2000;30(4):330-44.
5. Krueger C, Tian L. A Comparison of
of Longitudinal Data in Anesthesia
the General Linear Mixed Model and 8. Stiger TR, Kosinski AS, Barnhart HX,
Research. Regional Anesthesia and
Repeated Measures ANOVA Using Kleinbaum DG. Anova for repeated
Pain Medicine. 2012;37(1):99-105
a Dataset with Multiple Missing Data ordinal data with small sample size?
10.1097/AAP.0b013e31823ebc74.
Points. Biological Research For a comparison of anova, manova,
3. Grace-martin K. Approaches to Nursing. 2004;6(2):151-7. wls and gee methods by simulation.
Repeated Measures Data: Repeated Communications in Statistics
6. Gueorguieva R KJH. Move over
Measures ANOVA, Marginal, and - Simulation and Computation.
anova: Progress in analyzing repeated-
Mixed Models. Available from: 1998;27(2):357-75.
measures data andits reflection in
http://www.theanalysisfactor.com/
papers published in the archives of 9. Albert PS. Longitudinal data analysis

510 Rev HCPA 2012;32(4) http://seer.ufrgs.br/hcpa


GEE em dados longitudinais

(repeated measures) in clinical trials. 11. McCullagh P, Nelder JA. Generalized 14. Lindenau JD-R, Guimarães
Stat Med. 1999;18(13):1707-32. Linear Models: Chapman & Hall; 1983. LSP. Calculando o tamanho de
efeito no SPSS. Revista HCPA.
10. Twisk JR, Vente W. The analysis 12. Liang K-Y, Zeger SL. Longitudinal
2012;32(3):363-81
of randomised controlled trial data analysis using generalized linear
data with more than one follow- models. Biometrika. 1986;73(1):13-22. 15. Zeger SL, Liang KY. Longitudinal
up measurement. A comparison data analysis for discrete and
13. Ballinger GA. Using Generalized
between different approaches. continuous outcomes. Biometrics.
Estimating Equations for Longitudinal
European Journal of Epidemiology. 1986;42(1):121-30.
Data Analysis 2013. Available from: http://
2008;23(10):655-60.
orm.sagepub.com/content/7/2/127.refs. Recebido:27/12/2012
Aceito: 10/01/2013

ANEXO 1

Efeito Principal x Efeito de Interação o Tempo 2 possui um escore maior que os demais
Um "efeito principal" é o efeito direto de uma tempos e separadamente certificamos que os
variável independente sobre a variável dependente. grupos possuem médias diferentes, sendo que o
Um "efeito de interação" é o efeito conjunto Grupo A é sempre maior que o Grupo B. No Gráfico
de duas ou mais variáveis independentes sobre a A3 temos o efeito da variável grupo não havendo
variável dependente. efeito no tempo, diferente do A4 que há mostra efeito
Um exemplo didático pode ser realizado usando do tempo e não do grupo. Nos dois últimos gráficos
as variáveis, grupo e tempo, para explicar o observamos a dependência de uma variável em
comportamento da variável resposta ansiedade. relação à outra. No Gráfico A5 há divergência dos
grupos em relação ao terceiro tempo e no A6 há um
Interpretação cruzamento entre elas observando que no Tempo 1
o Grupo B possui médias de escores de ansiedade
Na Figura A1 não vemos efeito dos fatores,
maiores, se iguala em média no tempo 2 e reduz os
grupo e tempo, na variável escore da ansiedade.
valores no Tempo 3.
Já em A2 há um efeito do grupo, mostrando que
Anexo 1 : Análise gráfica com dois fatores para explicação de efeito principal e efeito de interação

http://seer.ufrgs.br/hcpa Rev HCPA 2012;32(4) 511