Sei sulla pagina 1di 78

DM

DM

Anlise de Sobrevivncia com o R

Alexandra Isabel Monteiro Borges


MESTRADO EM MATEMTICA

Setembro | 2014

DIMENSES: 45 X 29,7 cm
PAPEL: COUCH MATE 350 GRAMAS
IMPRESSO: 4 CORES (CMYK)
ACABAMENTO: LAMINAO MATE

NOTA*
Caso a lombada tenha um tamanho inferior a 2 cm de largura, o logtipo institucional da UMa ter de rodar 90 ,
para que no perca a sua legibilidade|identidade.
Caso a lombada tenha menos de 1,5 cm at 0,7 cm de largura o laoyut da mesma passa a ser aquele que consta
no lado direito da folha.

Nome do Projecto/Relatrio/Dissertao de Mestrado e/ou Tese de Doutoramento | Nome do Autor

Alexandra Isabel Monteiro Borges

Anlise de Sobrevivncia com o R

DISSERTAO DE MESTRADO

Anlise de Sobrevivncia com o R


DISSERTAO DE MESTRADO

Alexandra Isabel Monteiro Borges


MESTRADO EM MATEMTICA

ORIENTAO
Ana Maria Corteso Pais Figueira da Silva Abreu

Anlise de Sobrevivncia com o R


Alexandra Isabel Monteiro Borges
Setembro 2014

"De tudo caram trs coisas...


A certeza de que estamos comeando...
A certeza de que preciso continuar...
A certeza de que podemos ser interrompidos antes de terminar...
Faamos da interrupo um caminho novo...
Da queda, um passo de dana...
Do medo, uma escada...
Do sonho, uma ponte...
Da procura, um encontro!"
Fernando Sabino - Trecho de "III O Escolhido", do livro "O Encontro
Marcado"

ii

Agradecimentos
com muita alegria e com sentimento de realizao pessoal que termino
esta etapa da minha vida. No teria sido possvel termin-la se no tivesse
tido a colaborao das pessoas que fazem parte do meu dia-a-dia. E, no
poderia deixar de as agradecer por, directa ou indirectamente, me inuenciarem nesta jornada.
O meu primeiro agradecimento dirigido a Deus, pois tem-me sempre
guiado num bom caminho, sempre com sade, vontade de viver e sobretudo
com vontade de superar-me todos os dias como ser humano.
Um especial e enorme agradecimento minha Orientadora, a Professora
Dr. Ana Maria Abreu, que sem ela, nada disto teria sido possvel, pois soube
sempre como me ajudar a ultrapassar os obstculos que foram surgindo,
incentivou-me, mostrou sempre dar valor ao meu trabalho e esforo, teve
muita pacincia e foi sem dvida muito dedicada a este trabalho. Por tudo
isto e muito mais, agradeo do fundo do meu corao.
a

Como no podia deixar de ser, um especial agradecimento aos meus Pais,


Isabel e Jos, que sempre tentaram dar todas e as melhores condies para que
conseguisse estudar e ser a pessoa que sou hoje. Acrescentando o meu querido
e amigo Irmo, Joo Pedro que, juntamente com os meus Pais, sempre me
apoiou, incentivou e que s vezes s recebeu as minhas rabugices. A eles
um grande obrigado por tornarem o nosso ambiente familiar feliz, divertido
e com muito amor. Sem o seu apoio e colaborao incondicional teria sido
bem mais difcil.
Ao Joo, o meu Companheiro, amigo e condente, o meu obrigado pela
pacincia, incentivo, colaborao e fazer-me sempre sorrir mesmo quando s
vezes parecia impossvel.
s minhas queridas amigas de infncia, Rita Mourato e Sara Santos,
que, apesar da distncia que nos separa, a amizade sempre se manteve e
sempre nos apoiamos umas s outras. Aos meus queridos amigos de longa
data, Catarina Teixeira, Carlos Quintal, Pedro Rocha, Joana Gomes e Filipa
Costa, que sempre me zeram sentir eu prpria, apoiaram e tornaram o
iii

meu dia mais alegre e divertido. s minhas queridas amigas e colegas, Eva
Henriques, Fbia Camacho, Helena Teixeira, Carla Spnola, Graa Paulo e
rica Serro, um obrigado por sempre poder contar com elas, simplesmente
para me fazerem sorrir ou pelo conforto de um ombro.
Carina Alves e Mariana Rodrigues, que comearam por ser minhas
colegas e que acabaram por se tornar minhas tutoras e amigas. Agradeo
tambm s minhas Chefes e aos meus colegas de trabalho que me ajudaram
e apoiaram, de alguma forma.
Aos meus Professores que me acompanharam ao longo destes anos acadmicos, obrigada pelo conhecimento que me transmitiram e alguns at, carinho
e amizade.
A todos os meus familiares, amigos, professores e colegas de escola e de
curso que contriburam para a pessoa que sou hoje e que de alguma maneira
me ajudaram no decorrer da minha vida.
Agradeo-vos a todos, do fundo do meu corao!

iv

Resumo
O principal objectivo desta dissertao dar a conhecer as potencialidades
da linguagem R pois ainda existem algumas reservas quanto sua utilizao.
E nada melhor que a anlise de sobrevivncia, por ser um tema da estatstica
com grande impacto no mundo das doenas e novas curas, para mostrar como
este programa apresenta grandes vantagens.
Esta dissertao ento composta por quatro captulos.
No primeiro captulo introduzimos alguns conceitos fundamentais da anlise de sobrevivncia, os quais serviro de suporte para o terceiro captulo.
Assim sendo, apresentamos um pouco da sua histria, conceitos bsicos, conceitos novos numa perspectiva de regresso diferente da que estamos habituados, tendo como objectivo a construo de modelos de regresso tendo
sempre em conta mtodos para averiguar se o modelo o mais adequado ou
no.
No segundo captulo apresentamos o R, o package R Commander (que j
tem um interface mais amigvel), o package survival (talvez o mais importante na anlise de sobrevivncia clssica), bem como outros packages que
podero ser teis para quem quiser aprofundar o seu uso nesta rea.
O terceiro captulo o que aplica os conhecimentos dos dois anteriores
e no qual pretendemos dar a conhecer algumas das muitas possibilidades
de utilizao deste software nesta rea da Estatstica. Este dividido em
trs, ou seja, est dividido consoante as etapas que vamos precisando para
trabalhar a nossa base de dados, comeando pela anlise descritiva, para
conhecermos os dados que temos, depois a funo de sobrevivncia, por ser
um conceito importante e por m, a construo de modelos de regresso, no
paramtricos e paramtricos.
Por ltimo, apresentamos as nossas concluses deste trabalho.
Palavras-Chave: Anlise de Sobrevivncia, linguagem R, package survival, R Commander.

vi

Abstract
The main goal of this dissertation is to show the potentials of the R
language in order to overtake some reservations in terms of its usage. Due
of the great impact in the world of diseases and new ways of healing, survival
analysis is the best way to show the potential and advantages of this program.
This dissertation has four chapters.
In the rst chapter we will introduce some fundamental concepts of the
survival analysis, which will serve as a support to the third chapter. We will
present some of his history, basic concepts, and new concepts in a dierent
perspective of regression, having in mind methods to evaluate if the model
ts the data.
In the second chapter we introduce the R, the package R Commander
(has a friendly interface), the package survival (the most important in the
classical survival analysis), like some other packages that could be useful to
whom would like to improve their knowledge in this area.
On the third chapter we apply the knowledge of the previous chapters
and the usage of this software in this statistical area. It is divided in three,
according to the stages needed to work with the data, beginning by descriptive analysis, to know the data we have, then the survival functions, because
its an important concept and, at the end, by constructing regression models,
parametric non-parametric.
To nish we will present the conclusions of this work.
Key-words: Package survival, R Commander, R language, Survival
Analysis.

vii

viii

ndice
1 Anlise de Sobrevivncia
1.1 Introduo . . . . . . . . . . .
1.2 Conceitos bsicos . . . . . . .
1.3 Censura . . . . . . . . . . . .
1.4 Estimador de Kaplan-Meier .
1.5 Variveis explanatrias . . . .
1.6 Modelos de Regresso . . . . .
1.6.1 Introduo . . . . . . .
1.6.2 Modelo de Cox . . . .
1.6.3 Modelos Paramtricos
1.7 Resduos de Schoenfeld . . . .
2 A linguagem R
2.1 Noes gerais sobre o R .
2.2 Alguns packages teis para
2.2.1 R Commander . .
2.2.2 survival . . . . . .
2.2.3 Outros packages . .

.
a
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

1
1
2
4
8
10
11
11
13
16
19

. . . . . . . . . . . . . . .
Anlise de Sobrevivncia
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

21
21
24
25
30
30

.
.
.
.
.
.
.

35
37
38
42
44
44
51
56

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

3 Anlise de Sobrevivncia com o R


3.1 Anlise descritiva . . . . . . . . .
3.2 Funo de sobrevivncia . . . . .
3.2.1 Algumas variantes . . . .
3.3 Modelos de regresso . . . . . . .
3.3.1 Modelo de Cox . . . . . .
3.3.2 Modelos paramtricos . .
3.3.3 Algumas variantes . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

4 Concluso

57

Bibliograa

63
ix

Lista de Figuras
1.1 Monotonia da Funo de Risco. . . . . . . . . . . . . . . . . .
1.2 Vrios tipos de censura direita. . . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5

Janela do R. . . . . . . . . . . . . . . . . . . . . . .
Janela de ajuda do comando RSiteSearch. . . . . .
Janela do R Commander. . . . . . . . . . . . . . .
Importao de cheiros de texto, do clipboard ou da
Interface do RcmdrPlugin.EZR . . . . . . . . . . .

.
.
.
.
.

22
23
25
27
29

3.1 Anlise descritiva das variveis numricas. . . . . . . . . . . .


3.2 Tabela de frequncias e de percentagens para o tratamento. . .
3.3 Comandos e respectivos outputs para a estimativa de Kaplan-Meier da funo de sobrevivncia. . . . . . . . . . . . . . . .
3.4 Estimativa de Kaplan-Meier para a funo de sobrevivncia
derivada do comando original versus Estimativa de KaplanMeier para a funo de sobrevivncia derivada de modicaes
no comando original. . . . . . . . . . . . . . . . . . . . . . . .
3.5 Diferenas entre as curvas de sobrevivncia para o tipo de
tratamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Estimativa de Kaplan-Meier para a funo de sobrevivncia
para cada um dos grupos de tratamento. . . . . . . . . . . . .
3.7 Estimativa de Kaplan-Meier para a funo de sobrevivncia de
uma sub-amostra atravs do plug-in RcmdrPlugin.KMggplot2.
3.8 Modelo de Cox com todas as variveis da base de dados. . . .
3.9 Modelo de Regresso de Cox apenas com as variveis signicativas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Curvas de Kaplan-Meier para as covariveis signicativas no
modelo de Cox para testar a proporcionalidade das funes de
risco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.11 Output gerado para testar a proporcionalidade das funes de
risco dos vrios passos para a construo do modelo de Cox
com o respectivo coeciente de determinao. . . . . . . . . .

38
38

xi

. . . . .
. . . . .
. . . . .
internet.
. . . . .

4
5

40

41
41
42
43
45
46

47

48

3.12 Teste de independncia do Qui-quadrado para testar se as variveis 4 ou mais ndulos (node4 ) e recorrncia (rec) so independentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13 Resduos de Schoenfeld para as variveis idade (age) e extenso do tumor (extent). . . . . . . . . . . . . . . . . . . . . . .
3.14 Resduos de Schoenfeld para a varivel recorrncia (rec). . . .
3.15 Modelo de Cox nal com as covariveis idade (age), extenso
do tumor (extent)
(rec). . . . . . . . . . . . . . .
h e recorrncia
i
3.16 Grco de log
log Sb0 (t) versus o logaritmo do tempo de
vida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.17 Modelo de Weibull sem covariveis. . . . . . . . . . . . . . . .
3.18 Comando que fornece os valores da funo especicada, neste
caso, a funo que gerou o modelo de regresso de Weibull,
mas com mais casas decimais. . . . . . . . . . . . . . . . . . .
3.19 Obteno dos parmetros da recta atravs da funo ConvertWeibull do package SurvRegCensCov. . . . . . . . . . . . . . .
3.20 Modelo Weibull com as covariveis idade (age), extenso do
tumor (extent) e recorrncia (rec). . . . . . . . . . . . . . . . .
3.21 Modelo de regresso Log-logstico sem covariveis. . . . . . . .
3.22 Modelo de regresso log-logstico com as covariveis idade (age),
extenso do tumor (extent) e recorrncia (rec). . . . . . . . . .
3.23 Funo de risco. . . . . . . . . . . . . . . . . . . . . . . . . . .

xii

49
50
50
51
52
52

53
53
54
55
55
56

Captulo 1
Anlise de Sobrevivncia
1.1

Introduo

A anlise de sobrevivncia um procedimento estatstico implementado


com maior frequncia a partir de meados do sculo XX, atingindo o seu maior
desenvolvimento e popularidade por volta da dcada de oitenta desse sculo.
A medicina surge fortemente ligada anlise de sobrevivncia, apesar deste
procedimento estatstico poder ser usado nas mais variadas reas, tais como
na engenharia, sociologia, psicologia, educao, etc.. Pode ter como objecto
de estudo, por exemplo, o tempo at que um automvel tem a sua primeira
avaria mecnica aps a sua venda; o tempo desde que um criminoso solto da
priso at reincidir no crime ou at mesmo o tempo de vida de uma mquina
aps substituio de uma componente mecnica.
A anlise de sobrevivncia consiste, entre outras coisas, em analisar os
tempos de vida dos indivduos desde o seu momento de entrada no estudo, at
ao momento em que ocorre o acontecimento de interesse, acontecimento esse
que denido partida. Este acontecimento geralmente denido como uma
falha, que poder ser morte, recada de uma doena ou at mesmo quando
um tratamento comea a fazer efeito no paciente.
Tem a particularidade de lidar com dados censurados, ou seja, em alguns dos indivduos pode no chegar a ocorrer o acontecimento de interesse
durante o perodo de observao. Indivduos que continuam vivos aps o trmino do estudo ou que abandonam o tratamento so exemplos de indivduos
com tempo de vida censurado.
Outro aspecto importante a ter em conta, o uso das variveis explanatrias, ou covariveis. O tempo de vida dos indivduos afectado por
estas variveis. Este tipo de dados sugere uma anlise de regresso, mas no
poderia ser uma regresso habitual devido s particularidades que este tipo
1

de dados apresenta. precisamente devido s observaes censuradas que a


anlise de sobrevivncia se distingue.
Neste captulo iremos apresentar os conceitos essenciais da anlise de
sobrevivncia. Depois de algumas denies bsicas, formalizaremos a noo
central de censura. Apresentaremos o estimador de Kaplan-Meier para o
tempo de sobrevivncia e suas propriedades, e alguns modelos de regresso
habitualmente utilizados para modelar a inuncia de variveis explanatrias
no tempo de sobrevivncia. Estes modelos podero ser paramtricos ou no
paramtricos, dependendo do conhecimento que se tenha sobre a distribuio
do tempo de vida dos indivduos.

1.2

Conceitos bsicos

Comecemos por denir que o tempo de vida de um determinado indivduo,


de uma populao homognea, ser representado por uma varivel aleatria
T , no negativa e absolutamente contnua. Podemos ento denir a funo
de sobrevivncia desse indivduo como sendo a probabilidade dele sobreviver
para alm de um instante t e que vamos representar por:
S (t) = P (T > t) ; t > 0
que uma funo montona, no crescente e contnua e que tem as seguintes
propriedades:
1. S(0) = 1;
2. S(+1) = lim S(t) = 0.
t!1

A funo densidade de probabilidade num instante t a taxa instantnea


de morte nesse instante:
f (t) = lim+

P (t

dt!0

T < t + dt)
dt

Uma funo igualmente utilizada neste mbito, a funo de risco (hazard


function), tambm conhecida por funo intensidade, taxa de falha, ou fora
de mortalidade, descrita como a taxa instantnea de morte de um indivduo,
que sobreviva at ao instante t, dada por:
h(t) = lim+

P (t

T < t + dtjT
dt

dt!0

t)

e que satisfaz as seguintes condies:


1. h(t) 0;
R1
2. 0 h(t)dt = 1.

A partir das denies anteriores, possvel obter-se relaes que podero


tornar-se teis, tais como:
h(t) =
S(t) = exp

f (t)
S(t)
Z t
h(u)du

(1.1)

f (t) = h(t) exp

h(u)du

A funo de risco cumulativa, que uma funo no negativa e montona


crescente, denida atravs de:
Z t
H(t) =
h(u)du; t > 0
0

donde, por (1.1), tem-se:


S(t) = exp [ H(t)] () H(t) =

log S(t)

isto , mede o risco de ocorrncia do acontecimento de interesse at ao instante t.


Podemos tambm denir a funo de distribuio, F (t), como sendo a
probabilidade de ocorrer o acontecimento de interesse at ao instante t, ou
seja:
F (t) = P (T t); 0 t < 1
Visto a funo de sobrevivncia ser decrescente, no permite uma leitura
directa de como evolui o risco de morte ao longo do tempo. Essa evoluo
ca mais patente na forma da funo de risco. Deste modo, temos cinco
formas possveis para a funo de risco, como ilustra a Figura 1.1. Assim,
esta funo pode ser:
1. montona crescente: a forma da funo de risco mais comum na
anlise de sobrevivncia pois corresponde a um risco crescente;
3

2. montona decrescente: mais raro, uma vez que corresponde a um risco


decrescente;
3. constante: acontece quando ou o perodo de observao curto, ou
surge uma "situao imprevista", uma doena, ou um acidente e s
registado esse tempo;
4. bathtub-shaped: adequada para caracterizar a mortalidade populacional,
pois no perodo inicial as mortes resultam essencialmente de doenas
infantis, aps o que se segue uma fase em que o risco de morte decresce
e se mantm baixo at haver um novo aumento devido ao envelhecimento;
5. hump-shaped ou unimodal: acontece, por exemplo, devido a uma interveno cirrgica, onde o paciente aumenta o risco de morte no momento
da operao, mas que ocorre sem complicaes.

Figura 1.1: Monotonia da Funo de Risco.

1.3

Censura

Uma caracterstica prpria dos dados de sobrevivncia o facto de o


evento de interesse no ser experienciado em todas as observaes do estudo.
A esta caracterstica dada o nome de censura [1]. A censura pode advir
dos limites de tempo ou de outro tipo de restries, dependendo da natureza
do estudo. Dizemos que uma varivel aleatria censurada quando no
4

possvel observar o seu valor exacto, mas se consegue obter um limite inferior para esse valor (censura direita), ou um limite superior (censura
esquerda), ou ambos (censura intervalar).
Existem vrios tipos de censura, como j referimos, que podem ocorrer,
mas a mais comum, a censura direita.
A censura ocorre devido, essencialmente, a trs motivos:
o estudo chegou ao m sem que fosse observado o acontecimento de
interesse;
o indivduo em estudo ca perdido para follow-up;
o indivduo retirado do estudo por algum motivo, relacionado com o
tempo de vida.
A Figura 1.2 reete o que pode acontecer com os indivduos no estudo,
onde Y representa o tempo de vida dos indivduos durante o perodo de
observao.

Figura 1.2: Vrios tipos de censura direita.

Na primeira situao, A, o indivduo entra no incio do estudo e experiencia o evento, ou a morte, no ano 6, o que signica ter um tempo de vida
de 6 anos. No caso do indivduo B, entra no incio do estudo e continua vivo
no trmino do mesmo, conferindo-lhe um tempo de vida de, pelo menos 12
anos, isto , tem um tempo censurado de 12 anos. O indivduo C, entra mais
tarde no estudo, no 3o ano, mas retirado do estudo no 5o ano porque o
5

tratamento deixou de ser ecaz, conferindolhe um tempo de vida de, pelo


menos 4 anos. Devido ao trmino do estudo, o indivduo D, no experiencia
o evento ou a morte, conferindo-lhe um tempo de vida de pelo menos 6 anos.
Por ltimo, temos o caso do indivduo E, que uma situao semelhante
do C, possuindo um tempo de vida de pelo menos 8 anos, pois a partir
desse ano, o indivduo perdido para follow-up, por algum motivo perdeu-se
o contacto.
Existem essencialmente cinco tipos de censura:
1. Censura direita: Estamos perante censura direita quando apenas
sabemos que o tempo de vida do indivduo excede um determinado
valor. Pode acontecer pelo motivo dos indivduos no quererem permanecer no estudo e por isso a informao ca incompleta; ou porque o
indivduo no experienciou o evento ou a morte antes do m do estudo;
ou at mesmo que o contacto foi perdido com este. Nestas situaes
camos com informao parcial e sabemos que o evento ocorreu (ou
ir ocorrer) algures depois da data do ltimo follow-up. Apesar disso
no podemos ignorar estas observaes visto que nos fornecem alguma
informao acerca da sobrevivncia, no sabemos a data exacta da sua
morte, mas sabemos que foi aps certo instante. Ainda podemos dividir
este tipo de censura em trs:
Tipo I: este tipo de censura ocorre quando o estudo concebido
para acabar aps x anos de follow-up. Neste caso, todos os indivduos em que no se tenha observado o acontecimento de interesse
durante o estudo, so considerados tempos censurados no ano x.
Tipo II: o estudo termina quando um nmero de eventos predenido acontece;
Censura aleatria: o estudo desenhado para acabar ao m de x
anos, ou seja, o indivduo entra no estudo aquando da sua data
de diagnstico, e devido ao facto do trmino do estudo ter sido
xado previamente, o tempo que os indivduos permaneceram no
estudo aleatrio.
2. Censura esquerda: acontece quando o tempo de vida inferior ao
tempo observado, ou seja, o evento de interesse j ocorreu nalgum instante anterior ao da observao. um tipo de censura menos comum.
3. Censura intervalar: neste tipo de censura, sabemos que o evento de
interesse aconteceu, mas no sabemos ao certo quando, apenas que
aconteceu num certo intervalo de tempo.
6

4. Censura independente: acontece quando a razo para haver censura


independente da razo que leva morte.
5. Censura no informativa: Neste tipo de censura temos de garantir que
um indivduo censurado representativo de todos os indivduos que
sobreviveram e que tenham as mesmas caractersticas ou covariveis.
Os estudos devem ser concebidos de forma a que a censura seja no informativa, ou seja, de forma a que a censura seja causada por algo que no
seja o fracasso iminente.
Na anlise de sobrevivncia, os mtodos de inferncia estatstica mais
utilizados so, de um modo geral, baseados na teoria assinttica da mxima
verosimilhana pois, como temos o factor de censura, dicultada a obteno
de distribuies de amostragem exactas.
Pretende-se realizar uma inferncia sobre o modelo paramtrico indexado
por um vector de parmetros que a distribuio do tempo de vida T segue.
Para construir a funo de verosimilhana vamos considerar T e C duas
variveis aleatrias (v.a.s) que representam o tempo de vida total e o tempo
at a censura ( direita), respectivamente. O tempo de vida observado para
um indivduo a v.a. Y = minfT; Cg. Os instantes de morte e censura
poderiam em princpio coincidir, mas nesse caso convenciona-se que a censura
ocorre depois da morte. Quando se observa a morte do indivduo ( = 1) num
intervalo sucientemente pequeno [t; t + dt[ ento, admitindo independncia
entre T e C,
P [t

Y < t + dt; = 1] = P [t

T < t + dt]P [C

t + dt]

e quando o tempo de vida censurado ( = 0) temos:


P [t

Y < t + dt; = 0] = P [t

C < t + dt]P [T

t + dt]

Se T e C forem absolutamente contnuas, com funes densidade f e


g e com funes de sobrevivncia S e 1 G, dividindo as duas igualdades
anteriores por dt e fazendo dt ! 0+ ca
ff (t)[1

G(t)]g fg(t)S(t)g1

Assim, para uma amostra aleatria de dimenso n, (t1 ;


temos a funo de verosimilhana:
n n
Q
[f (ti )] i [S (ti )]1

i=1

oQ
n n
[1
i=1

G (ti )] [g (ti )]

1 ); :::; (tn ; n ),

Se tivermos o caso de censura no informativa (que a situao mais


comum), a expresso anterior pode ainda ser simplicada, obtendo-se:
L=

n
Q

[f (ti )] i [S (ti )]1

() L =

i=1

n
Q

[h (ti )] i S (ti )

(1.2)

i=1

visto que a distribuio do tempo de censura no depende do vector de


parmetro de interesse .
Os resultados assintticos usuais da teoria da mxima verosimilhana continuam vlidos, sob condies de regularidade bastante gerais nos processos
de morte e censura, pelo que, o estimador de mxima verosimilhana, b, tem
distribuio assinttica normal multivariada com valor mdio e matriz de
covarincia I( ) 1 , sendo I( ) a matriz de informao de Fisher.

1.4

Estimador de Kaplan-Meier

Se no houvesse censura, a funo de sobrevivncia seria estimada pela


proporo de indivduos que sobreviveram alm do instante t:
b = nmero de tempos de vida > t ; t 0
S(t)
n
mas na presena de censura nem todos os tempos de vida sero observados
na sua totalidade. Para ultrapassar esta diculdade, Kaplan e Meier, [2]
propuseram em 1958 uma generalizao da funo de sobrevivncia emprica,
conhecida como estimador de Kaplan-Meier (KM) ou estimador produto-limite, que passamos a descrever.
Numa amostra com n tempos, suponha-se que r 6 n correspondem a observaes do acontecimento de interesse (que para concretizar ideias vamos
designar por morte) e os restantes n r tempos so censurados. Se t(1) ; :::;
t(r) so os instantes de morte, ni o nmero de indivduos em risco imediatamente antes do instante t(i) , e di o nmero de mortes nesse instante, ento
o estimador de Kaplan-Meier para a funo de sobrevivncia dene-se como:
b =
S(t)

Y ni

i:t(i) t

di
ni

i:t(i) t

di
ni

b = 1 para 0 t t(1) . Os instantes de morte e censura poderiam


onde S(t)
em princpio coincidir, mas nesse caso convenciona-se que a censura ocorre
depois da morte.
Note-se que, quando no existe censura, a funo de sobrevivncia emprica e o estimador de Kaplan-Meier coincidem. Podemos tambm armar
8

que, se a maior observao registada for no censurada (t


t(r) ), ento
b
S(t) = 0. Mas, se a maior observao registada for censurada, t , ento
b = S(t
b (r) ) para t(r) t t , pois a estimativa s est denida at esse
S(t)
instante e no atinge o valor zero.
Uma outra propriedade deste estimador ser uma funo em escada, em
b um estique os "saltos" so os instantes onde a morte observada. S(t)
mador consistente de S(t) e, sob certas condies de regularidade, pode ser
considerado como um estimador de mxima verosimilhana no paramtrico
de S (t).
b
possvel obter uma estimativa da varincia de S(t),
atravs da expresso:
n
o h
i2 X
b
b
vd
ar S(t)
= S(t)

i:t(i) t

di

ni (ni

di )

(1.3)

que conhecida por frmula de Greenwood.


Podemos ento estabelecer o intervalo de conana para o verdadeiro
b
valor da funo de sobrevivncia no instante t0 . Visto S(t)
ter uma distribuio assinttica normal de valor mdio S(t) e varincia dada por (1.3),
um intervalo de 100(1
)% de conana para S(t0 ), dado por:
q
q
b
b
b
b 0)
S(t0 ) z1 =2 vd
arS(t0 ); S(t0 ) + z1 =2 vd
arS(t

Apesar de ser o intervalo mais usado, apresenta alguns problemas, nomeab 0 ) esdamente devido ao facto de ser simtrico, pois quando a estimativa S(t
tiver prxima de 0 ou 1, os seus limites podem estar fora do intervalo (0; 1).
Como alternativa
a estei intervalo, pode-se usar uma transformao, por eh
b 0 ) e calcular o seu intervalo de conana. Aos intervaxemplo, log
log S(t
los de conana obtidos desta forma d-se o nome de intervalos de conana
ponto-a-ponto (pointwise), por dizerem respeito a instantes especcos.
A distribuio do tempo de vida , geralmente, assimtrica positiva, sendo
prefervel usar a mediana como medida central de localizao. Ento, sendo
ti o i-simo instante de morte com i = 1; :::; r, a estimativa da mediana do
tempo de vida dada por:
n
o
b (i) ) 0:5
m = min t(i) : S(t

b representa a estimativa de Kaplan-Meier da funo de sobrevivnonde S(t)


cia.
b pode ser superior a 0:5 para todos os valores de t e, nesses casos,
S(t)
utiliza-se outra medida de localizao (j no central), como por exemplo, a
9

estimativa de outro quantil mais conveniente. Temos ento a estimativa do


quantil de probabilidade p:
n
o
b (i) ) 1 p
bp = min t(i) : S(t

1.5

Variveis explanatrias

O tempo de vida de um indivduo afectado por diversos factores de risco


ou de prognstico. Podemos dividir esses factores em dois grupos:
intrnsecos: so por exemplo as variveis do tipo idade, gnero, histria
clnica, etc., ou seja, so os factores que so inerentes aos indivduos;
exgenos: so aqueles factores que resultam de elementos externos ao
indivduo, como por exemplo a histria familiar, factores ambientais,
sociais, etc..
Este factores de risco so designados por variveis explanatrias ou covariveis.
Existe, de modo geral, uma classicao das covariveis em constantes ou
dependentes do tempo:
1. Constantes: Quando o seu valor no se altera durante todo o perodo
em que o indivduo se encontra em observao. So exemplos deste
tipo de covariveis uma varivel indicatriz do tipo tratamento a que
o indivduo sujeito, variveis demogrcas como sejam o gnero ou
a nacionalidade, variveis clnicas cujos valores sejam registados uma
nica vez ao longo do estudo, etc.;
2. Dependentes do tempo: Quando o seu valor varia ao longo do estudo. Isto acontece quando, por exemplo, existem variveis clnicas
para as quais h vrios registos ao longo do estudo como, por exemplo,
a presso arterial ou o peso. Podem ainda existir factores que esto
sob controlo do experimentador, variando ao longo do estudo de forma
pr-determinada, como seja a dieta a que um indivduo sujeito. Estas
covariveis podem ainda ser divididas em:
Externas: So consideradas covariveis externas todo o tipo de covarivel que no est directamente relacionada com o mecanismo
que regula a morte dos indivduos;
10

Internas: So aquelas onde a mudana da covarivel ao longo


do tempo est relacionada com a sobrevivncia do indivduo, os
valores observados levam informao sobre o seu tempo de sobrevivncia.
habitual representar as covariveis por z1 ; :::; zp , ou seja, designar por
z = (z1 ; :::; zp )0 o vector de covariveis.

1.6

Modelos de Regresso

1.6.1

Introduo

Para modelar o tempo de vida de uma populao homognea, em geral,


so utilizadas distribuies contnuas univariadas. Porm, a existncia de
heterogeneidade entre os indivduos no que toca a factores de risco, comum.
Para que possamos incorporar esses factores, que supomos que afectam o
tempo de vida, temos de recorrer a um modelo de regresso, onde o tempo
de vida a varivel dependente ou de resposta e as covariveis so as variveis
independentes. Precisamos ainda especicar um modelo para a distribuio
do tempo de vida, T , o qual pode ser obtido a partir do vector z = (z1 ; :::; zp )0
de covariveis de um indivduo e de algumas famlias paramtricas ou semi-paramtricas, que iremos descrever no desenvolvimento da seco.
Podemos dividir os modelos de regresso utilizados na anlise de sobrevivncia em trs classes:
Modelo com funes de riscos proporcionais: Apesar dos indivduos
terem diferenas nos valores das covariveis, a proporcionalidade entre as funes de risco mantida. A funo de risco e a funo de
sobrevivncia so, respectivamente:
h(t; z) = h0 (t) ' (z) ;

S(t; z) = [S0 (t)]'(z)

com a exigncia de que ' (0) = 1, onde ' (z) representa o risco relativo.
Neste modelo, as covariveis tm um efeito multiplicativo na funo de
risco.
Um exemplo, o modelo de Cox (modelo semi-paramtrico), mas
tambm existem modelos paramtricos, consoante a distribuio de
probabilidade que seja usada para modelar o tempo de vida.
Modelo de tempo de vida acelerado: Este modelo, em termos de variveis aleatrias dado por T = T0 = (z), onde a T0 corresponde a
11

funo de sobrevivncia S e (z) tal que


risco e de sobrevivncia so dadas por:
h(t; z) = h0 (t (z))

(z) ;

(0) = 1. As funes de

S(t; z) = S0 (t (z))

As covariveis tm um efeito multiplicativo no tempo. Podemos ter


modelos paramtricos ou semi-paramtricos.
Este tipo de modelo tambm conhecido por modelo de localizao-escala para log T ou modelo log-linear para T . De facto, se representarmos o tempo na forma logartmica, temos log T = + 0 z + ". A
funo de sobrevivncia dada por:
S(t; z) = S0 (t= exp( 0 z))
onde o termo independente;
um vector de parmetros de regresso; um parmetro de escala; " uma v.a. que representa o erro e
0
cuja distribuio no depende de z e exp(
z) designado por factor
de acelerao.
Modelo de possibilidades proporcionais: Para este tipo de modelo, a
possibilidade (odds) de um indivduo com vector de covariveis z sobreviver para alm de um determinado instante t dado por:
S0 (t)
S(t; z)
=e
1 S(t; z)
1 S0 (t)
onde = 1 z1 + 2 z2 + ::: +
covarivel com j = 1; :::; p.

p zp

e zj representa o valor da j-sima

Tambm conseguimos estimar a funo de risco subjacente, no


parametricamente, tal como calculmos para o primeiro modelo. Obtemos assim:
h(t; z)
= f1 + (e
1)S0 (t)g 1
(1.4)
h0 (t)
e, quando t = 0, a razo das funes de risco e
converge para um.

e quando t ! 1,

Visto que os resultados obtidos ao ajustar este modelo so semelhantes aos obtidos utilizando o modelo de regresso de Cox com covariveis dependentes do tempo, este modelo no tem muita utilizao
prtica (Collett [3]).
12

1.6.2

Modelo de Cox

Em 1972, Cox [4], props um modelo de regresso para a anlise de dados


com observaes censuradas que rapidamente, se tornou o mais utilizado
devido sua exibilidade e versatilidade. Este modelo abrangia um grande
nmero de situaes prticas onde podia ser utilizado. Prova disso so os
inmeros artigos publicados, sendo possvel ser usado nas mais variadas reas,
desde a medicina engenharia. Cox deu um grande contributo e consequente
desenvolvimento na anlise de sobrevivncia.
Tem havido vrios estudos posteriores que se tm baseado no modelo de
Cox, quer atravs de aplicaes, quer atravs de extenses ou generalizaes.
Destaca-se neste modelo o facto de ser baseado na relao entre a funo de
risco e as covariveis, como veremos de seguida.
Vamos considerar uma v.a. contnua T , que representa o tempo de vida
de um indivduo com vector de covariveis associadas, z = (z1 ; :::; zp )0 , num
determinado instante t. Sejam 0 = ( 1 ; :::; p ) os coecientes de regresso
(desconhecidos), que representam o efeito das covariveis na sobrevivncia e
h0 (t) a funo de risco subjacente (funo arbitrria no negativa), ou seja,
aquela que corresponde a um indivduo com vector de covariveis nulo. Ento
o modelo tem a seguinte expresso:
h(t; z) = h0 (t) exp( 0 z) =h0 (t) exp(

1 z1

+ ::: +

p zp )

(1.5)

Deste modo, o efeito das covariveis modelado parametricamente, mas


o mesmo no acontece em relao funo de risco subjacente, pelo que o
modelo de Cox um modelo de regresso semi-paramtrico, [1].
A razo das funes de risco para dois indivduos com covariveis z1 e z2 ,
escreve-se da seguinte forma:
h(t; z1 )
= expf 0 (z1
h(t; z2 )

z2 )g

(1.6)

ou seja, no depende do tempo, t.


Tendo em conta a expresso (1.6), conclui-se que, para dois quaisquer
indivduos, as correspondentes funes de risco so proporcionais, razo pela
qual este considerado um modelo de riscos proporcionais. Ainda na mesma
expresso, (1.6), se z2 = 0, ento a razo das funes de risco apenas
exp( 0 z1 ), designado por risco relativo. Verica-se assim que as covariveis
tm um efeito multiplicativo na funo de risco.
O modelo de Cox assenta no princpio que, durante o tempo de observao
dos indivduos, a inuncia das covariveis na funo de risco no se altera.
Habitualmente, o vector de covariveis no nulo, reservando-se esse
valor para identicar a situao padro. Quando uma covarivel contnua
13

(por exemplo, a idade), pode no fazer sentido admitir que o caso padro
corresponde a considerar que a covarivel nula. Nesta situao, usual
convencionar que o caso padro corresponde mdia dessa covarivel. Por
exemplo, no caso da covarivel zj a funo de risco para o i-simo indivduo
escrita na forma:
h(t; zi ) = h0 (t) exp(

1 zi1

+ ::: +

j (zij

z j ) + ::: +

p zip )

Contudo, mesmo neste caso, possvel trabalhar com as covariveis no


transformadas e com a funo de risco escrita na forma habitual, uma vez
que a alterao referida no modica a inferncia sobre a inuncia das covariveis no risco de morte.
Sejam z1 e z2 vectores de covariveis de dois indivduos que apenas
diferem nos valores da covarivel zj ; ento:
h0 (t) exp(
h(t; z1 )
=
h(t; z2 )
h0 (t) exp(

1 z11

+ ::: +
1 z21 + ::: +

j z1j

+ ::: +
j z2j + ::: +

p z1p )
p z2p )

= exp( j (z1j

z2j ))

por isso,para interpretar os coecientes de regresso prefervel usar exp( j ),


que representa o efeito multiplicativo da diferena z1j z2j no risco de morte.
Para melhor percebermos como funciona, vejamos dois exemplos, semelhantes aos referidos em [5].
Exemplo 1.6.1 Temos uma covarivel dicotmica (ou binria),
z=

0 se o indivduo pertence ao grupo 1


1 se o indivduo pertence ao grupo 2

num estudo onde se pretende averiguar o tempo em remisso, ou seja, desde


o ltimo tratamento at ao reaparecimento da doena. A funo de risco
ser:
h(t; z = 0) = h0 (t)
se o indivduo pertence ao grupo 1
h(t; z) =
h(t; z = 1) = h0 (t)e se o indivduo pertence ao grupo 2
Para o caso de < 0 () e < 1, os indivduos do grupo 2 iro ter
melhor prognstico que no grupo 1, mas se
> 0 () e > 1, ento
observa-se o contrrio.
Exemplo 1.6.2 Existem trs covariveis em que uma corresponde ao grupo
de tratamento e as outras duas so potenciais factores de risco para os indivduos;
8
< z1 : tratamento (0=tradicional; 1=novo)
z2 : peso no incio do estudo (kg)
:
z3 : glicose no incio do estudo ( mg=dL)
14

e queremos estudar o efeito de um novo tratamento face ao tratamento tradicional. Os indivduos foram distribudos de forma aleatria pelos dois grupos
de tratamento e registou-se o tempo at obteno de valores normais para
a glicose. Temos ento que:
e 1 representa o risco (propenso) para atingir os nveis normais de
glicose num indivduo a que foi administrado o novo tratamento, face
a um indivduo com valores idnticos de peso e glicose a que tenha sido
administrado o tratamento tradicional, visto que
e

h(t; z1 = 1; z2 = j; z3 = k)
h(t; z1 = 0; z2 = j; z3 = k)

e 2 representa o efeito de cada kg de peso a mais no tempo at se


obterem nveis normais de glicose, mantendo-se idnticas as outras covariveis, visto que
e

h(t; z1 = i; z2 = j + 1; z3 = k)
h(t; z1 = i; z2 = j; z3 = k)

e 3 ser o efeito de cada mg=dL de glicose a mais no tempo at se


obterem nveis normais de glicose, xadas as restantes covariveis,
e

h(t; z1 = i; z2 = j; z3 = k + 1)
h(t; z1 = i; z2 = j; z3 = k)

Cox [4], para a inferncia sobre , baseou-se na funo de verosimilhana


parcial, dada por:
k
Y
exp( 0 z(i) )
P
L( ) =
exp( 0 zl )
i=1

(1.7)

l2Ri

onde Ri = R(t(i) ) = fj : tj
t(i) g o conjunto de risco no instante t(i) , ou
seja, o conjunto de ndices associados aos indivduos em observao imediatamente antes do instante t(i) e t(1) < ::: < t(k) , k < n so os k tempos de
vida distintos.
A funo L( ) considerada por Cox, no a verosimilhana habitual
(1.2), que para o modelo de Cox tomaria a forma:
L[ ; h0 (t)] =

n
Q

[h0 (ti ) exp( 0 zi )S0 (ti )exp(

i=1

0
Pexp( zi0)
exp( zl )

i2D l2Ri

h0 (ti )

i2D

l2Ri

15

zi )

] i [S0 (ti )exp(

exp( 0 zl )

n
Q

zi ) 1

S0 (ti )exp(

zi )

i=1

(1.8)

onde D representa o conjunto de indivduos cuja morte foi observada.


Mas uma vez que L( ) coincide com o primeiro fator de L[ ; h0 (t)], pode
ser interpretada como uma verosimilhana parcial. Como L( ) no depende
de h0 (t), permite realizar inferncia sobre o vector de parmetros
sem
especicar h0 (t).
Em 1982, autores como Andersen e Gill [6], concluram que, sob condies
de regularidade bastante gerais, o estimador de mxima verosimilhana parcial de consistente e assintoticamente normal com valor mdio e matriz
de covarincia I( ) 1 , onde:
@ 2 log L
@ j@ k

Ijk ( ) = E

Para a construo de L( ); apenas foram consideradas observaes distintas uma vez que observaes empatadas tm probabilidade nula sob um modelo contnuo. No entanto, em estudos prticos, possvel obter observaes
empatadas, essencialmente devido escala de medida utilizada. Nesses casos,
necessrio usar uma aproximao da funo de verosimilhana proposta por
Peto [7] e Breslow [8].
Kalbeisch e Prentice [9], obtiveram um estimador no paramtrico de
S0 (t) uma vez obtido b a partir da verosimilhana parcial. Quando no h
observaes empatadas, este reduz-se a:
Y
Sb0 (t) =
bi
i:t(i) t

com:

B
bi = B
@1

1exp(

exp b z(i) C
C
P
0
A
b
exp( zl )

b0 z(i) )

l2Ri

donde possvel obter estimativas de S(t; z) para qualquer z.

1.6.3

Modelos Paramtricos

Apesar do modelo de Cox ser o mais utilizado na anlise de sobrevivncia, Efron [10] mostrou que se consegue mais ecincia na obteno dos estimadores de parmetros de regresso em modelos paramtricos, sob certas
circunstncias, do que no modelo de Cox.
Por essa razo, vamos apresentar algumas distribuies contnuas univariadas, as mais utilizadas na anlise de sobrevivncia, e com elas construir
alguns modelos de regresso.
16

Distribuio exponencial: Com T; uma v.a. com distribuio exponencial


de parmetro > 0 e funo de densidade de probabilidade f (t) =
exp ( t) com t 0, ento:
h(t) = ;

S(t) = exp (

t)

Esta distribuio adequada quando o risco de morte sempre igual


ao longo do tempo.
Distribuio de Weibull: a mais usada na anlise de sobrevivncia, pois
apresenta uma razovel exibilidade para a funo de risco e por a
funo de risco e de sobrevivncia poderem ser representadas atravs
de expresses analticas simples. Com parmetro de escala > 0 e de
forma > 0, para t 0, tem a funo de densidade de probabilidade:
f (t) =

exp(

t )

e custa desta, obtm-se as funes de risco e de sobrevivncia:


h(t) =

S(t) = exp (

t )

Quando > 1, a funo de risco montona crescente; quando


0 < < 1, a funo de risco montona decrescente e quando = 1,
a funo de risco constante e neste caso, obtm-se a distribuio
exponencial.
Distribuio Gama: Com parmetro de escala > 0 e de forma
para t 0, tem a funo de densidade de probabilidade
f (t) =

( t)

exp(
( )

t)

A funo de sobrevivncia exprime-se como S(t) = 1


onde I( ; x) a funo gama incompleta e que se dene:
I( ; x) =

1 Rx
u
( )0

> 0,

I( ; t),

du

A funo de risco montona crescente quando > 1 com h(0) = 0


e limt!0+ h(t) = ; montona decrescente quando 0 <
< 1 com
limt!0+ h(t) = 1 e limt!1 h(t) = e constante quando = 1 (distribuio exponencial).
Esta distibuio menos usada que a anterior.
17

Distribuio log-logstica: Com parmetro de escala


> 0 e de forma
> 0, para t 0, tem a funo de densidade de probabilidade:
f (t) =
e:
h(t) =

(1 + t )2

t 1
,
1+ t

S(t) =

1
1+ t

como funes de risco e de sobrevivncia, respectivamente. A funo


de risco montona decrescente para 0 <
1.
Para > 1, serve de alternativa distribuio de Weibull quando
necessrio considerar uma funo de risco unimodal. crescente desde
1 1=
, decrescendo a
a origem at ao valor mximo, no instante t =
partir desse instante, com limt!1 h (t) = 0.
Aps referirmos as distribuies de tempo de vida mais usadas, vamos
apresentar dois dos modelos de regresso mais usados: o modelo de regresso
Weibull e o modelo de regresso log-logstico.
Modelo de regresso Weibull:
Este o nico modelo que pode ser considerado tanto um modelo de
riscos proporcionais como de tempo de vida acelerado. Consideremos
a sua formulao apenas em termos de modelo de riscos proporcionais,
que a mais usual. Um indivduo com vector de covariveis z apresenta
a funo de risco:
h(t; z) = h0 (t) exp( 0 z) =

exp( 0 z)

(1.9)

onde o tempo de vida desse indivduo tem uma distribuio de Weibull


com parmetro de escala exp( 0 z) e parmetro de forma . Conseguimos observar que as covariveis s afectam o parmetro de escala.
A funo de sobrevivncia dada por:
S(t; z) = exp(

t )exp(

z)

Modelo de regresso log-logstico:


Este modelo de regresso pode ser utilizado em alternativa ao modelo de Weibull, quando este no se adequa, ou seja, quando temos
uma funo de risco no montona ou um modelo de possibilidades
proporcionais ou at um modelo de tempo de vida acelerado.
18

Um indivduo com vector de covariveis z apresenta a funo de


sobrevivncia:
1
S(t; z) =
1 + exp( 0 z)t
onde o tempo de vida desse indivduo tem uma distribuio log-logstica
com parmetro de escala exp( 0 z) e parmetro de forma .
Modelos que sejam ajustados aos mesmos dados, podem ser comparados
b para cada modelo.
atravs da diferena entre os valores da estatstica 2 log L
Ou seja, faz-se um teste de razo de verosimilhanas para testar H0 : j = 0
bp 1 =L
bp tem
vs H1 : j 6= 0, j = 1; :::; p, pois sob H0 , a estatstica 2 log L
distribuio assinttica de um qui-quadrado com 1 grau de liberdade.
Alguns packages estatsticos apresentam formas automticas para a seleco das covariveis, mas pode no ser a melhor opo. Collett [3] mencionou este facto e props um outro mtodo de seleco.

1.7

Resduos de Schoenfeld

Os resduos so uma ferramenta importante para testar se o modelo de


regresso adequado ou no.
O resduo de Schoenfeld [11], para o i-simo indivduo com covarivel zj ,
rji = i fzji aji g onde:

1
0

P
b0 z
l
l2Ri zjl exp
se ti no censurado
e aji = P
b0 z
se ti censurado
l
l2Ri exp

com j = 1; :::; p e como j vimos anteriormente, Ri o conjunto dos indivduos em risco no instante ti .
Quando uma observao censurada, o resduo tem o valor zero, por
denio. Para distinguir estes dois casos em que o tempo de vida observado
coincide verdadeiramente com o previsto pelo modelo, habitual assinalar
como valores omissos os resduos nulos associados a observaes censuradas.
Para o caso da morte ser observada no instante ti , o resduo associado
a esse indivduo pode ser interpretado como a diferena entre o valor da
covarivel zj e a mdia ponderada dos valores dessa covarivel, para todos
os indivduos em risco nesse instante. O peso associado a cada um desses
indivduos exp b0 zl .
A verosimilhana parcial L( ) verica a igualdade:
19

n
P
@ log L b
( ) = rji = 0
@ j
i=1

0
onde b = (b1 ; :::; bp )0 so as estimativas de mxima verosimilhana dos coecientes j das covariveis. Assim, a soma dos resduos de todos os indivduos
em estudo sempre nula para cada covarivel. Quando as amostras so
grandes, os resduos so no correlacionados e o valor esperado de rji zero.
Quando interpretamos o grco dos resduos de Schoenfeld versus o tempo
de vida (ou as ordens dos tempos de vida), se os dados se dispuserem numa
nuvem de pontos aleatria, centrada em zero, ento estamos perante um
modelo adequado para os dados.
Uns anos mais tarde, Grambsch e Therneau [12] propuseram uma verso
padronizada destes resduos que se revelaram mais ecazes para vericar o
modelo de riscos proporcionais aps o ajustamento do modelo de Cox.

20

Captulo 2
A linguagem R
2.1

Noes gerais sobre o R

O R surge pela criao do R Foundation for Statistical Computing com


o objectivo de ser uma ferramenta gratuita e de utilizao livre. uma linguagem computacional formal desenhada para ser utilizada na manipulao e
anlise de dados, possuindo uma forte componente grca e estatstica. Tem
por base a linguagem S que foi desenvolvida em 1976 em conjunto por John
Chambers e seus colaboradores. Em 1995, Robert Gentleman e Ross Ihaka,
do a conhecer o R e transformam-no em Open Source, ou seja, criada a
possibilidade de qualquer utilizador poder programar, interagindo com o que
j existe ou criando novas funes, a m de melhor resolver o seu problema,
pois o cdigo aberto [13]. Esta caracterstica confere-lhe versatibilidade e
isto possvel graas aos packages (ou livrarias) que so as contribuies dos
utilizadores de toda a parte do mundo e que qualquer utilizador pode aceder.
Para utilizar este software necessrio programar, pois a interao
feita atravs de uma janela de comandos. Todavia j esto disponveis packages grcos, nomeadamente o R Commander, que tornam a interface mais
amigvel atravs da utilizao de menus.
Apresenta compatibilidade com diversas plataformas como o Linux, Unix,
Windows, Mac Os X, etc. e estabelece ligao com interfaces como o Excel,
Minitab, S-PLUS, SAS, SPSS, Stata, Systat, entre outros.
Para obteno do software, a pgina do R (http://www.r-project.org/),
fornece o download da aplicao (clicando em CRAN no menu do lado esquerdo) e todo o processo de instalao.
Aps concluda a instalao, ao abrirmos o programa, -nos apresentada
uma janela, Figura 2.1, onde consta a informao da verso instalada, informaes gerais sobre o programa, alguns comandos teis de obteno de
21

ajuda e o espao para introduo da(s) linha(s) de comando, que se inicia


pelo smbolo >.

Figura 2.1: Janela do R.

Devido ao facto do R ser uma linguagem case sensitive (sensvel s letras


maisculas e minsculas), importante ter em ateno a forma como so
escritos os comandos.
importante saber quais os packages (ou livrarias) que o software possui
e para isso utiliza-se o comando >library(), onde nos aparece uma nova janela
com todos os packages disponveis. O R possui milhares de packages ( data,
22/05/2014, 5566) e que, na instalao inicial do R, apenas alguns destes so
instalados.
Uma potencialidade muito til a diversidade de formas de ajuda que
possui:
>help();
>help.start(): d-nos vrias hiperligaes, por exemplo manuais, com
os mais variados tipos de ajuda. Como primeiro impacto ao software
bastante til;
>help("function") ou >?function: d-nos informao acerca da construo de uma funo. Podemos tambm substituir a palavra "func22

tion"por uma outra que represente uma funo em concreto e nesse


caso, fornece informao especca dessa funo;
>apropos("function") ou >help.search("function"): presta-nos auxlio
quando desconhecemos o nome exacto da funo pela qual procuramos.
Se digitarmos o primeiro comando, conseguimos saber quantos tipos
de funes existem daquele gnero e se digitarmos o segundo comando
conseguimos saber em que livrarias que a funo se encontra;
>RSiteSearch("tpico"): d-nos uma forte ferramenta de ajuda, como
se pode constatar pela Figura 2.2, onde compilada toda a informao
atravs das mailing list e outros documentos.

Figura 2.2: Janela de ajuda do comando RSiteSearch.


Neste trabalho foi utilizada a verso 3.1.0 do R. Para que todas as funcionalidades estejam operacionais para futuros trabalho a partir deste,
necessrio que a verso do R seja igual mencionada, pois, se for inferior
ou superior, nem todas as funes vo estar disponveis ou apresentam-se de
forma diferente.
23

2.2

Alguns packages teis para a Anlise de


Sobrevivncia

Uma das vantagens deste software o facto desta ferramenta no ocupar


muito espao na memria do computador, pois, todos os seus recursos, bases
de dados ou as prprias funes esto disponveis nos packages que tm de ser
sempre "carregados" quando os desejamos usar. O comando que se utiliza
>library("nome do package") e a partir dele cam disponveis todas as
funcionalidades desse package as quais podem ser consultadas atravs do
comando >help(package="nome do package") ou ento, atravs do comando
>help("tpico"), dando uma informao mais detalhada.
Como existem inmeros packages instalados, para que os possamos usar,
necessrio fazer a sua instalao prvia a partir do comando >install.packages
("package") e s depois serem carregados.
Os packages esto disponveis no stio do R, clicando em CRAN no menu
do lado esquerdo. Aps essa seleco aparece uma lista de pases, onde
podemos escolher Portugal. De volta ao menu do lado esquerdo, selecionamos
packages e aparecem duas hiperligaes: Table of available packages, sorted
by date of publication e Table of available packages, sorted by name. Se
optarmos, pela primeira, podemos vericar que praticamente todos os dias
aparecem novas publicaes. Por exemplo, s no dia 20 de Maio de 2014
(data da pesquisa), existem 12 novos packages.
Visto ser um programa que est em constante actualizao, os packages
tambm sofrem modicaes, e para que no estejamos sempre a instal-los,
pode-se recorrer ao comando >update.packages(). Se apenas for necessrio
saber qual a verso que foi instalada, utiliza-se >installed.packages().
Em seguida iremos descrever sucintamente alguns packages do R importantes para a anlise de dados de sobrevivncia. Achou-se interessante subdividir esta seco, dando nfase ao R Commander por ser o ponto de partida
para os menus e por haver plug-ins disponveis; ao package survival, por ser
sobre ele que assentam outros packages e por m agrupamos outros que se
achou ter relevncia para a anlise de sobrevivncia.
Os packages podem sofrer mudanas ao longo do tempo, dando origem
a novas verses e consequentemente a estrutura das funes pode mudar,
devido a isso preciso chamar ateno que todos os packages consultados
e instalados nesta dissertao datam de Maio de 2014.
24

2.2.1

R Commander

O R Commander um package do R que possui menus e caixas de dilogo, desenvolvido por John Fox em 2003 com base no package tcltk. Assim,
o R passou a ter uma interface mais amigvel.
Para instalar o R Commander temos de recorrer ao comando: >install.packages("Rcmdr"). Sempre que pretendermos us-lo, teremos de o carregar,
atravs do comando >library(Rcmdr). A primeira vez que o carregarmos,
surge uma janela onde nos perguntado se queremos instalar aquela lista de
packages que so necessrios utilizao do R Commander, se aceitarmos a
sua sugesto, temos a facilidade de que os packages j cam disponveis.
A janela do R Commander, composta por sete partes (assinaladas pelas
setas), como mostra a Figura 2.3.

Figura 2.3: Janela do R Commander.


Temos assim:
1. menus: onde possvel fazer os habituais procedimentos estatsticos,
comuns aos vrios softwares estatsticos. Se alguma das funes dos
25

menus estiver a cinzento, isso quer dizer que essa funo no est
disponvel. Isso acontece, ou por no haver dados para executar essas
aces, ou por os dados no serem adequados para esses procedimentos;
2. barra de ferramentas: funes relacionadas com a base de dados que
est activa. O primeiro item indica qual a base de dados que est
activa; o segundo item serve para alterar ou acrescentar algum valor; o
terceiro item serve apenas para visualizar a base de dados e o ltimo
item indica qual o modelo que est disponvel;
3. R Script: ao utilizarmos os menus, ir aparecer todo o cdigo que
envolveu a operao realizada. Embora existam menus, pode-se introduzir o cdigo manualmente e, nesse caso, tem de ser introduzido nesta
janela;
4. R Markdown: quando estamos neste separador, aparece o boto Generate HTML report e se clicarmos, gerado um documento numa pgina
de html no browser, com o input e o output. Mais informaes sobre
este separador, encontram-se no menu Help;
5. Submit: este boto serve para dar o ok no comando introduzido manualmente. Quando o comando implica mais de uma linha, preciso
selecion-las todas primeiro e s depois clicar no boto, pois caso contrrio, apenas submetido o comando da linha onde se encontra o
cursor;
6. Output: todos os comandos introduzidos no R Script sero reproduzidos novamente neste espao (a vermelho), acrescido do resultado que o
comando implique (a azul);
7. Messages: so reportadas as mensagens de erro (a vermelho), informativas (a azul) ou apenas de aviso (a verde).
Uma componente muito importante a compilao/obteno da base de
dados. Existem trs possibilidades para o fazer:
1. Criao de uma base directamente no R Commander: Se seleccionarmos no menu Data !New data set..., aparece uma janela onde
podemos introduzir o nome do cheiro (sem espaos). Uma nova janela
com aspecto de uma folha de clculo, chamada Data Editor, ca activa,
onde somos livres de introduzir toda a informao que pretendemos. Se
quisermos alterar o nome das variveis, dando dois cliques em cima da
mesma, aparece uma janela onde podemos escolher o type, numeric
26

(varivel quantitativa) ou character (varivel qualitativa), consoante


os dados;
2. Importao a partir dos packages disponveis no R: Se seleccionarmos
Data !Data in packages !List data set in packages iremos encontrar a lista com os packages disponveis, assim como uma breve descrio. Para ento importarmos uma base de dados seleccionamos
Data !Data in packages !Read data set from an attached package...
e depois escolhemos ento o package (car ou dataset ou outro que tenha
sido carregado) e depois um dos cheiros disponveis;
3. Importao de dados de outros programas de texto: Seleccionamos
Data !Import data !from text le, clipboard, or URL... e aparece-nos uma janela, como mostra a Figura 2.4.

Figura 2.4: Importao de cheiros de texto, do clipboard ou da internet.


No item Missing data indicator consta NA (Not available) pois o cdigo
que ir ser atribudo aos valores omissos, caso existam na base de dados. No
27

item Location of Data le, indicamos a localizao do cheiro que queremos


importar. No item Field Separator indicamos como feita a separao dos
dados. E por m, no item Decimal-Point Character escolhemos a forma
como esto separados os valores decimais.
Para o caso de o cheiro ser em Excel, seleccionamos Data !Import
data !from Excel, Access or dBase data set... abre-se uma janela para
colocarmos o nome do documento e pressionamos ok, aparece a janela para
escolher o directrio do documento.
Plug-ins
Para este tipo de anlise de dados, de sobrevivncia, considermos importantes trs packages e que so plug-ins do R Commander. So eles, o
RcmdrPlugin.EZR, o RcmdrPlugin.KMggplot2 e o RcmdrPlugin.survival.
Todos estes plug-ins precisam de ser instalados para serem usados, da
mesma forma que j foi mencionado no incio da seco (>install.packages("nome do plug-in")) e escolhemos o Pas que pretendemos. Aps a instalao, no h necessidade de carregarmos o plug-in, mas a prxima vez que
iniciarmos a sesso do R Commander precisamos de o fazer, e nesse caso,
vamos ao menu Tools!Load Rcmdr plug-in(s). . . !Plug-in e seleccionamos
o que pretendemos carregar.
RcmdrPlugin.EZR
O package EZR (Easy R), adiciona uma variedade de funes estatsticas, incluindo na anlise de sobrevivncia, nomeadamente, a anlise de curvas ROC, meta-anlises, clculo da dimenso da amostra.
O EZR tem disponvel o fcil acesso de apontar e clicar para as
funes estatsticas, especialmente para a estatstica com aplicao
mdica. uma plataforma independente e funciona nos variados sistemas operativos. O manual completo, apenas est disponvel em
japons, mas foi publicado um artigo, em 2003, na revista Bone Marrow
Transplantation, que serve de manual breve, [14].
Este package deve ser instalado no R Commander, visto tambm ser
um plug-in deste. Associado a este package esto outros que devem ser
instalados, para isso usa-se o comando >install.packages(pkgs=Rcmdr
Plugin.EZR, dependencies=TRUE).
No caso do EZR, aps o carregamento tem de ser reiniciado. Abre
ento uma nova janela, que ir ser a interface do EZR, que se parece
com o R Commander, como podemos vericar pela Figura 2.5.
Os menus disponveis so:
28

Figura 2.5: Interface do RcmdrPlugin.EZR

- Active data set - possui funes relacionadas com os dados, desde


criar variveis, a exportar dados;
- Statistical analysis - possui funes estatsticas, quer seja para dados
discretos ou contnuos, teste no paramtricos ou o clculo da
dimenso de amostras;
- Graphs and Tables - consegue-se fazer vrios tipos de grcos e resumos das variveis das tabelas;
- Tools - a partir deste menu que podemos importar os packages ou
plug-in(s) que j esto instalados;
- Help - menu de ajuda, tanto para o R Commander como para este
plug-in (EZR);
- Original Menu - d-nos todos os menus originais do R Commander,
na mesma disposio que existiam sem termos o plug-in activo.
Neste momento, a verso deste package a 1.24.
29

RcmdrPlugin.KMggplot2
Este package essencialmente grco, til sobretudo para fazer os
grcos da estimativa de Kaplan-Meier da funo de sobrevivncia. Os
grcos podem ser mais elaborados pois, para a sua construo esto
disponveis as funcionalidades do package ggplot2 [15]. um package
recente (23 de Janeiro de 2013) e detm a verso 0.2-0.
RcmdrPlugin.survival
Este package uma extenso do que j existe no R Commander, acrescentando novos itens aos menus j existentes. Existem itens
especcos para o modelo de Cox, modelo de regresso paramtrico,
estimao de curvas de sobrevivncia, juntamente com facilidades no
manuseamento dos dados, testa diferenas entre as curvas de sobrevivncia e possui uma variedade de testes, diagnsticos e grcos.
Nesta data, a verso disponvel a 1.0-4 e foi criada a 17 de Janeiro
de 2007. Para mais informaes sobre este package e as suas funcionalidades, consulte-se [16].

2.2.2

survival

Este package o mais importante no domnio da anlise de sobrevivncia pois serve de base para muitos outros. uma ferramenta para dados
de sobrevivncia onde podemos fazer anlises descritivas, testes para duas
amostras, modelos de tempo de vida acelerado paramtricos, modelo de Cox,
conseguimos ter observaes censuradas em todos os modelos, intervalos censurados para modelos paramtricos e Case-cohort designs (estudo coorte).
No necessrio que este package esteja a ser usado com o R Commander,
mas uma clara vantagem se for assim usado, pois o acesso s funes
facilitado atravs dos menus.
Neste momento, a verso disponvel a 2.37-7. Consultar [17].
Para instalar e correr o package, o procedimento idntico aos outros.

2.2.3

Outros packages

Existem imensos packages, tanto para a anlise de sobrevivncia, como


para as mais variadas reas. Listamos alguns packages que se destacaram
pelo nome e descrio, de maneira que vamos referir alguns, por ordem alfabtica e que achmos interessantes para este tema:

30

eha
Das vrias funes que este package possui, destaca-se a funo
coxreg, a qual uma generalizao da funo coxph do package survival.
Permite tambm o uso de modelos de tempo de vida acelerado com
as distribuies de Weibull, Gompertz, log-logstica, log-normal e de
valores extremos. Possui a verso 2.4-1. Consultar [18].
KMsurv
Este package , essencialmente, a compilao das bases de dados
utilizadas no trabalho de Klein e Moeschberger [19]. possvel obter-se tabelas de mortalidade. Neste momento, possui a verso 0.1-5.
muhaz
Este package possui funes que permitem obter estimativas da
funo de risco para dados que possuam censura. Neste momento,
a verso disponvel a 1.2.5. Consultar [20].
pec
Na anlise de sobrevivncia, um par de indivduos designado de
concordante se o risco de ocorrer o acontecimento de interesse previsto
pelo modelo inferior para o indivduo no qual esse acontecimento foi
observado mais tarde. A probabilidade de concordncia (ndice-C)
a frequncia de pares concordantes entre todos os pares de indivduos.
Este ndice pode ser usado para medir e comparar a potncia discriminante entre vrios modelos de risco. Este package permite o clculo
deste ndice na presena de observaes censuradas direita. Neste
momento, a verso disponvel a 2.2.9. Consultar [21].
prodlim
uma implementao fcil e amigvel para estimadores no paramtricos com historial de eventos censurados de anlise de sobrevivncia. Implementa um algoritmo rpido e alguns recursos que no esto
includos na funo survt (cria curvas de sobrevivncia a partir de
frmulas, ou seja, KM, modelo de Cox ajustado previamente, ou modelo acelerado de tempos de falha) do package survival. Possui a verso
1.4.3. Consultar [22].
relsurv
Este package adequado para o clculo da sobrevivncia relativa.
Engloba a regresso com modelos aditivos (os mais usuais), modelos
31

multiplicativos e modelos em que os tempos de vida dos indivduos so


previamente transformados (transformation models) [23]. Possui neste
momento a verso 2.0-4.
riskRegression
Este package indicado para modelos de regresso de risco para
anlise de sobrevivncia com e sem riscos competitivos. Possui a verso
0.0.8. Consultar [24].
rms
Permite a estimao dos parmetros para uma grande variedade de
modelos de regresso, embora tenha sido desenvolvido especialmente
para modelos de regresso binrios, de Cox, de tempo de vida acelerado,
entre outros. Possui neste momento a verso 4.2-0. Consultar [25].
simPH
Simula e projecta quantidades de interesse (risco relativo, primeiras
diferenas, taxa de risco) para coecientes lineares, interaes multiplicativas, polinmios, splines penalizados e riscos no proporcionais,
bem como curvas de sobrevivncia estraticadas a partir do modelo de
Cox de riscos proporcionais. Projecta tambm efeitos marginais para
interaes multiplicativas. Possui a verso 1.2.1. Consultar [26].
smcure
Este package serve para ajustar modelos semiparamtricos de cura
de mistura quer usando o modelo de riscos proporcionais quer o modelo de tempo de vida acelerado. Possui neste momento a verso 2.0.
Consultar [27].
Uma aplicao prtica com utilizao deste package pode ser consultada em [28].
survcomp
Este package tem funes que comparam a qualidade do ajustamento de vrios modelos. A instalao deste package processa-se de
maneira diferente dos outros, recorremos aos comandos:
> source("http://bioconductor.org/biocLite.R")
> biocLite("survcomp")
Para correr o package, ser feito da forma que j estamos habituados. Possui neste momento a verso 3.1.0. Consultar [29].
32

survMisc
Possui essencialmente funes para anlise de sobrevivncia, fazendo
uma extenso do package survival. Por exemplo, atravs da funo
lrSS possvel determinar a dimenso da amostra por forma a detectar
diferenas entre as funes de sobrevivncia e a funo genSurv permite
gerar amostras aleatrias. Possui a verso 0.4.2. Consultar [30].
SurvRegCensCov
Este package destina-se a permitir a estimao de um modelo de
regresso paramtrico em que se usa a distribuio de Weibul para a
varivel que representa o tempo de vida dos indivduos. Tem vrias
novidades que no se encontram noutros packages que englobam este
modelo, como sejam obter o valor das estimativas nas vrias parametrizaes do modelo Weibul, permitir considerar uma covarivel com
informao omissa, na presena de outras com informao completa,
entre outras. Possui a verso 1.3. Consultar [31].
Todos estes packages funcionam sobre o R Commander, ou simplesmente
sobre o R. So instalados todos da mesma forma ( excepo do survcomp),
assim como precisam de ser todos carregados quando se pretende utiliz-los. Para mais informaes sobre outros packages com funes usuais na
anlise de sobrevivncia, consultar o excelente resumo elaborado por Allignol
e Latouche [32]. Existe tambm um outro trabalho realizado que poder
servir de manual para trabalhar com o R com dados de sobrevivncia, [33].

33

34

Captulo 3
Anlise de Sobrevivncia com o
R
O primeiro passo para iniciarmos esta anlise consiste em ter uma base
de dados. Visto que no possuamos nenhuma e que, juntamente com o
package survival so instaladas algumas, optamos por usar a base colon que,
por ter bastantes dados e variveis, considermos ser uma boa aposta para
apresentarmos vrias situaes. Aps carregarmos o package survival e o
plug-in RcmdrPlugin.survival, escolhemos a base de dados atravs do menu
Data!Data in packages!Read data set from an attached package..., escolhemos o package survival e a Data set colon. Se em vez de clicarmos em
OK, clicarmos em Help on selected data set, abre uma janela no browser com
a informao sobre os dados que escolhemos.
Realmente o R possui uma compilao de base de dados slida, mas
muitas vezes tem pouca informao, ou poucos casos ou at mesmo poucas
variveis. Devido a essas razes, esta base de dados foi cuidadosamente
escolhida, pois preenchia todos esses requisitos, acrescentando o facto de que,
na informao facultada possua links com os artigos que foram publicados
na altura.
Esta base de dados composta por 929 indivduos com cancro do clon,
o qual foi classicado no estadio IIIB (T3-T4, N1 e M0) ou IIIC (qualquer T,
N2 e M0), onde T representa o tamanho do tumor, N o nmero de ndulos
positivos e M a presena (M1) ou ausncia (M0) de metstases.
Os doentes foram classicados em trs grupos, consoante o tipo de tratamento adjuvante utilizado no combate ao cancro, ou seja, o grupo de observao, o grupo ao qual foi administrada a toxina levamisole e o grupo ao
qual foi administrada a combinao da toxina de levamisole e uorouracil
(5-FU ).
Os doentes que entraram no estudo, [34], estavam inscritos entre Maro
35

de 1984 e Outubro de 1987. O estudo foi interrompido aps uma anlise


preliminar em Setembro de 1989, quando a combinao das duas toxinas
foi considerada altamente ecaz no aumento do tempo de sobrevivncia e
reduo do risco de recorrncia do cancro.
De facto, no nal do estudo, dos 315 pacientes que pertenciam ao grupo
de observao, 155 tiveram recorrncia e 114 morreram. No caso da administrao da toxina levamisole, 310, 144 tiveram recorrncia e 109 morreram.
No caso da administrao da combinao das duas toxinas, 304, 103 tiveram
recorrncia e 78 morreram.
Cada paciente possui dois registos: o relativo ao tempo at recorrncia
e o relativo ao tempo at morte pelo cancro.
Existem dezasseis variveis neste estudo:
1. id - identicao do indivduo;
2. study - 1 para todos os pacientes;
3. rx - tipo de tratamento (Obs - observado/ Lev - administrao de
Levamisole/ Lev+5-FU - administrao de Levamisole e 5-FU);
4. sex - sexo (1 - masculino/ 0 - feminino);
5. age - idade (em anos);
6. obstruct - obstruo do clon pelo tumor (1 - obstrudo/ 0 - no obstrudo);
7. perfor - perfurao do clon (1 - perfurado/ 0 - no perfurado);
8. adhere - aderncia aos orgos vizinhos (1 - sim/ 0 - no);
9. nodes - nmero de ndulos linfticos positivos;
10. time - dias at ao evento ou censura;
11. status - censura (1 - censurado/ 0 - observado);
12. dier - diferenciao do tumor (1 - bom/ 2 - moderado/ 3 - fraco);
13. extent - extenso da disseminao local (1 - submucosa/ 2 - muscular/
3 - serosa/ 4 - estruturas contguas);
14. surg - tempo at cirurgia (0 - pouco/ 1 - muito);
15. node4 - mais de quatro ndulos linfticos positivos;
36

16. etype - tipo de evento (1 - recorrncia; 2 - morte).


Informao sobre a base de dados pode ser consultada atravs da ajuda
que se encontra disponibilizada quando escolhemos a base de dados (referido
anteriormente o procedimento) e o estudo realizado na altura, atravs de [34].
Visto que j carregmos o package survival e o plug-in RcmdrPlugin.survival para obteno da base de dados, j no precisamos de os carregar novamente. Note-se que, se instalarmos o plug-in RcmdrPlugin.EZR, algumas
das funes deixam de estar activas.

3.1

Anlise descritiva

Antes de comearmos a fazer a anlise descritiva, dado cada indivduo


possuir dois registos (duas linhas), para conseguirmos trabalhar os dados
da melhor forma, preciso que apenas exista um registo por indivduo, por
isso, temos de "transformar" a base de dados de modo a que s exista um
indivduo por linha. Para tal, a varivel relativa ao tempo (time) d origem a
duas variveis: time1, onde constar o tempo at recorrncia e time2, onde
constar o tempo at morte, as quais so identicadas a partir da varivel
etype. Comparando os tempos destas duas novas variveis, possvel obter
uma varivel (rec) indicatriz da existncia ou no da recorrncia: quando
os tempos so iguais no h recorrncia e quando so diferentes h. Por
ltimo, tambm a varivel relativa ao estado (status) d origem a outras
duas: status1, que nos dar o estado (indivduo censurado - 1 ou observado
- 0), se o acontecimento de interesse for a recada, ou seja, quando rec=1 ; e
status2 d-nos o estado quando o acontecimento de interesse a morte, neste
caso, rec=2.
Resumindo, passou-se a ter dezoito variveis, onde as variveis time e
status dividiram-se em duas, aparece uma nova varivel rec e a varivel etype
desaparece.
Comeamos ento por fazer um resumo das variveis numricas atravs
do comando Statistics!Summaries!Numerical summaries e escolhemos as
variveis age, time1 e time2. No separador Statistics, podemos escolher os
parmetros de interesse. Neste caso, obtivemos as estatsticas que se podem
observar na Figura 3.1.
Conseguimos ento saber a mdia (mean), o desvio padro (sd), a amplitude interquartis (IQR), os quantis (0%, 25%, 50%, 75% e 100%) e a
dimenso da amostra (n). Podemos fazer o mesmo atravs do comando Statistical analysis!Continuous variables!Numerical summaries se o plug-in
RcmdrPlugin.EZR estiver carregado. Um comando anlogo a este Statistics!Summaries!Active data set, mas teremos a estatstica descritiva de
37

Figura 3.1: Anlise descritiva das variveis numricas.

todas as variveis da base de dados, o que no ter muito interesse pois a


maior parte das variveis no so numricas.
Numa outra perspectiva, podemos fazer as frequncias da varivel rx,
tipos de tratamentos, onde camos a saber a quantidade de indivduos (e
correspondente percentagem) atribudos a cada um dos tratamentos, como
mostra a Figura 3.2, atravs do menu Statistics!Summaries!Frequency
distribution....

Figura 3.2: Tabela de frequncias e de percentagens para o tratamento.

O primeiro comando cria uma tabela com as categorias da varivel rx, o


segundo, faz as contagens, o terceiro, as percentagens e o quarto remove a
tabela pois a funo .Table foi criada apenas para este contexto, no precisa
de ser exibida novamente. Podemos fazer o mesmo atravs do comando
Statistical analysis!Discrete variables!Frequency distribution (se tivermos
o plug-in RcmdrPlugin.EZR carregado).

3.2

Funo de sobrevivncia

Antes de estimarmos a funo de sobrevivncia, precisamos indicar qual


a varivel que dene o tempo e qual a varivel que dene se o indivduo tem
um tempo censurado ou no (evento). Recorre-se ao menu Data!Survival
data!Survival data denition..., gerando as linhas de comando:
38

> attr(BaseColon, "time1") <- "time1"


> attr(BaseColon, "time2") <- "time2"
> attr(BaseColon, "event") <- "status2"
denimos desde j as variveis time1 e time2, pois podemos, mais para a
frente, precisar do time1. Para a varivel do estado, apenas podemos escolher
uma de cada vez, neste caso, denimos o status2 pois, vamos considerar a
morte como o evento, em primeira instncia pelo menos. Este comando no
estritamente necessrio, apenas facilita a escolha das variveis cada vez que
temos de fazer algo novo utilizando as variveis do tempo e status.
Ao executarmos o menu Statistics!Survival analysis!Estimate survival
function..., obtemos a curva da estimativa de Kaplan-Meier da funo de
sobrevivncia com o respectivo intervalo de conana. Uma das barreiras
que se encontrou ao realizar este grco, foi o facto do eixo no ser editvel
pois, por exemplo, era mais conveniente conseguir ter o eixo em anos. Uma
forma de contornar esta questo criar uma nova varivel, mas com a escala
que desejamos, neste caso, em anos. Atravs de Data!Manage variables
in active data set!Compute new variable, escolhemos a varivel a modicar, neste caso time2, damos um novo nome, por exemplo, time2_anos e
na Expression to compute colocamos time2=365 e depois voltamos a fazer e
assim j se obtm a escala em anos. Apesar de no conseguirmos atravs
dos menus do R Commander contornar toda esta questo, e uma vez que
este software bastante verstil, conseguimos complementar os comandos
que obtivemos originalmente. O comando que mostramos de seguida uma
adaptao do que j existe mas com uns melhoramentos, de forma a mostrarmos a estimativa de Kaplan-Meier, tanto com o comando original (primeiro
grco da Figura 3.4), como as alteraes que pretendamos, onde tivemos
de acrescentar, manualmente, a nova funo (segundo grco da Figura 3.4):
.Survt <- survt(Surv(time2, status2) ~1, conf.type="log", conf.int=0.95,
type="kaplan-meier", error="greenwood", data=BaseColon)
.Survt
.Survt2 <- survt(Surv(time2_anos, status2) ~1, conf.type="log",
conf.int=0.95, type="kaplan-meier", error="greenwood", data=BaseColon)
.Survt2
mf<-par(mfrow=c(1,2))
plot(.Survt, conf.int=TRUE, mark.time=TRUE)
plot(.Survt2, conf.int=TRUE, mark.time=TRUE, xlab="Tempo (anos)",
ylab="Probabilidade")
par(mf)
remove(.Survt)
remove(.Survt2)
39

As primeiras duas linhas servem para construir a funo .Survt (.Survt


uma funo do package survival que nos fornece a estimativa de Kaplan-Meier para a funo de sobrevivncia) a partir do time2 e status2 ; a terceira, d-nos uma estatstica descritiva da funo denida na linha anterior;
a quarta e quinta linha servem para a construo da funo .Survt2 a partir
do time2_anos e status2 ; a sexta d-nos uma estatstica descritiva da funo
denida na linha anterior; a stima linha cria uma funo a partir da qual
conseguimos dividir a janela grca numa linha e duas colunas, de forma a
que os dois grcos apaream em simultneo na mesma janela, fechando este
comando, mais abaixo com o comando par(mf). Os comandos comeados por
plot, servem para fazer o grco, sendo que o primeiro referente funo
.Survt e o segundo referente funo .Survt2 acrescidos com o nome dos
novos eixos, que neste caso o tempo ser em anos. O comando remove serve
s para que as funes no apaream, pois as funes (.Survt e .Survt2 )
foram criadas apenas para este contexto, no precisam de ser exibidas novamente. Obtm-se o output que podemos observar na Figura 3.3 e que d
origem aos grcos que esto representados na Figura 3.4.

Figura 3.3: Comandos e respectivos outputs para a estimativa de Kaplan-Meier da funo de sobrevivncia.

Podemos calcular as diferenas entre as curvas de sobrevivncia e assim


saber se essas diferenas so signicativas de grupo para grupo. Neste caso, a
40

Figura 3.4: Estimativa de Kaplan-Meier para a funo de sobrevivncia


derivada do comando original versus Estimativa de Kaplan-Meier para a
funo de sobrevivncia derivada de modicaes no comando original.

nossa varivel do tipo de tratamento (rx ) j est denida como categrica na


base de dados original e assim podemos obter a diferena atravs do menu
Statistics!Survival analysis!Compare survival functions... e obtemos o
output, que se encontra na Figura 3.5.

Figura 3.5: Diferenas entre as curvas de sobrevivncia para o tipo de tratamento.


Visto o p value ser muito inferior a 0:05, podemos concluir que existem
diferenas entre os grupos de tratamento. Se quisermos podemos obter as
curvas de Kaplan-Meier para cada um dos grupos de tratamento, atravs
do comando anterior, mas com a diferena de que, na opo Strata, seleccionamos a varivel rx.
Conseguimos averiguar, atravs da observao da Figura 3.6, que a curva
dos doentes que pertencem ao grupo de observao e dos que pertencem ao
41

grupo onde foi administrado a Levamisole, tm formas semelhantes, o que


sugere que fazer esse tratamento talvez no seja to vantajoso. A curva
do outro grupo est nitidamente acima das duas anteriores, indicando uma
sobrevivncia maior para os doentes sujeitos ao tratamento Levamisole e
5-FU.

Figura 3.6: Estimativa de Kaplan-Meier para a funo de sobrevivncia para


cada um dos grupos de tratamento.

3.2.1

Algumas variantes

Como j vericmos, ainda existe um leque abrangente de packages disponveis para trabalhar dados de sobrevivncia. Por ser um conceito importante, escolheu-se o package RcmdrPlugin.KMggplot2, para podermos explorar melhor o estimador de Kaplan-Meier. J referimos que este package tem
muito potencial no que diz respeito a grcos. Vamos apresentar um exemplo.
Depois do carregamento, aparece uma nova janela aps aceitarmos a reiniciao, semelhante do R Commander, mas com um novo menu chamado
KMggplot2. Para obtermos a estimao da funo de sobrevivncia, usamos
os menus KMggplot2 !Kaplan-Meier plot... e aparece uma janela onde pode42

mos escolher a varivel do tempo (Time variable - time2_anos), o evento


(Event variable - status2 ) e podemos escolher estraticar a curva por uma
varivel (Stratum variable - rx ). Podemos denir o nome dos eixos, o ttulo
da legenda e o ttulo do grco. Para alm de termos a opo para que o intervalo de conana (Condence interval) aparea tal como nos packages que
j mencionmos, as grandes vantagens deste package so o facto de no grco
da funo de sobrevivncia poder constar o valor do p-value correspondente
ao teste log-rank (log-rank test) e uma linha para localizar o valor da mediana
do tempo de vida (Reference line at median survival). Tambm possibilita
modicar o smbolo dos valores correspondentes a observaes censuradas
(Dot censored symbol). de salientar que este package tem limite reduzido
para o nmero de observaes por varivel (linhas na base de dados). Por
essa razo, optou-se por gerar uma amostra aleatria a partir da nossa base
de dados original. Sendo que o mximo de linhas que este plug- -in permite
de 80, construiu-se uma amostra com uma linha destinada ao nome das variveis e mais 79 indivduos. Claramente uma barreira, mas a m de testar
as suas potencialidades utilizmos essa amostra e obtivemos as estimativas
de Kaplan-Meier para as funes de sobrevivncia, no primeiro grco, sem
estraticar os dados, e no segundo grco, estraticando para a varivel rx,
como podemos constatar pela Figura 3.7.

Figura 3.7: Estimativa de Kaplan-Meier para a funo de sobrevivncia de


uma sub-amostra atravs do plug-in RcmdrPlugin.KMggplot2.

Note-se que s aparecem duas linhas para a mediana, uma vez que no
possvel ser calculada para o grupo que foi sujeito ao tratamento Lev+5FU.
43

3.3

Modelos de regresso

A construo de um modelo de regresso um passo bastante importante,


pois a partir dele que camos a conhecer que factores (covariveis) inuenciam o tempo de vida de um indivduo. Consoante a distribuio que vamos
usar para o tempo de vida dos indivduos, iremos ter um modelo de regresso
paramtrico ou no paramtrico.
Em primeiro lugar iremos considerar o modelo de Cox, ou seja, um modelo
no paramtrico e, em seguida, dois modelos paramtricos, utilizando as
distribuies de Weibull e Log-logstica para o tempo de vida dos indivduos.

3.3.1

Modelo de Cox

Para construirmos este modelo, consideramos que as variveis so signicativas para entrar no modelo se = 0:10.
Numa primeira instncia, todas as variveis entraram no modelo a m de
testar como se comporta o modelo de Cox. Obteve-se os comandos atravs do
menu Statistics!Fit models!Cox regression model....Podemos ver o output
deste comando na Figura 3.8.
De todas as variveis que foram introduzidas, podemos destacar as seis
que foram signicativas: age (p value = 0:000348), extent (p value =
0:032605), node4 (p value = 0:000317), nodes (p value = 0:093575),
obstruct (p value = 0:024627) e rec (p value = 2e 16).
Note-se que a varivel nodes s signicativa se considerarmos um nvel
de signicncia de 0:1. Atendendo a que esta varivel muito parecida
varivel node4 (que j se revelou signicativa para o modelo) e juntando o
facto de que o intervalo de conana associado conter o valor 1 (0:9956; 1:058),
essa covarivel no ser considerada no modelo. Por outro lado, a varivel rec,
que acrescentmos base de dados inicial, mostrou ser bastante importante
para o modelo, pois no s o seu p-value extremamente pequeno como o seu
valor de exp( ) distancia-se muito de 1 (20:2226) e o intervalo de conana
(14:5180; 28:169).
Repare-se que, uma vez que a varivel rx tem trs categorias, apenas
existem duas linhas para esta varivel: a que diz respeito ao grupo que foi
administrado Levamisole e 5-FU e a que diz respeito ao grupo de observao, no sendo visvel o grupo que foi administrado apenas Levamisole.
Isto deve-se ao facto de este grupo ser o de controlo (tratamento padro),
pois, por um lado pretendemos saber se existem diferenas entre os dois tipos
de tratamento e se h diferenas entre fazer ou no fazer o tratamento padro
(objectivo do estudo inicial).
O prximo passo consiste em construir o modelo apenas com as covariveis
44

Figura 3.8: Modelo de Cox com todas as variveis da base de dados.

45

que foram signicativas anteriormente e ir retirando uma de cada vez, por


forma a vericar se a signicncia do modelo aumentou ou no com a retirada
dessa covarivel. Tem-se assim o modelo patente na Figura 3.9.

Figura 3.9: Modelo de Regresso de Cox apenas com as variveis signicativas.


Agora que cmos s com as variveis que tiveram signicado para o
modelo, precisamos de vericar os pressupostos do modelo de Cox. Para testar a proporcionalidade das funes de risco vamos comear por representar
as curvas das estimativas de Kaplan-Meier da funo de sobrevivncia para
cada uma das covariveis discretas que no se devero cruzar.
Visto as variveis serem numricas, temos de convert-las em categricas
(ou factores) atravs do comando Data!Manage variables in active data
set!Convert numeric variables to factors..... Obtm-se assim as curvas exibidas na Figura 3.10.
46

Figura 3.10: Curvas de Kaplan-Meier para as covariveis signicativas no


modelo de Cox para testar a proporcionalidade das funes de risco.

Podemos observar que na varivel extent (Extenso) h cruzamento das


curvas de sobrevivncia, ao contrrio do que sucede nas restantes variveis,
violando ligeiramente o princpio da proporcionalidade das funes de riscos.
Em relao varivel rec nota-se que as curvas se vo afastando com o
decorrer do tempo, o que tambm indicia uma possvel violao do princpio
da proporcionalidade das funes de risco.
Uma forma mais ecaz de vericar a proporcionalidade das funes de
risco, consiste na utilizao dos resduos de Schoenfeld. Existe no menu
a opo Models!Numerical diagnostics!Test proportional hazards, onde
podemos testar se as funes de risco so ou no proporcionais. Os outputs
gerados pelo comando anterior encontram-se na Figura 3.11, onde ainda
possvel obter o valor de R2 para cada um dos modelos de Cox considerados.
Este comando ajuda tambm a tomar a deciso da retirada das variveis no modelo.
47

Figura 3.11: Output gerado para testar a proporcionalidade das funes de


risco dos vrios passos para a construo do modelo de Cox com o respectivo
coeciente de determinao.

No primeiro modelo (CoxModel.2 ), observamos que, a um nvel de signicncia de 0:05, o pressuposto de proporcionalidade das funes de risco
violado em todas as variveis, excepo da idade (age), pois a nica
varivel em que o p-value (p) superior a 0:05. Para que mais variveis
possam entrar no modelo, vamos considerar para critrio de entrada um nvel
de signicncia de 0:10 e assim incluem-se as variveis extent e node4, para
as quais no h violao do pressuposto de riscos proporcionais. Facilmente
reparamos que este no o modelo mais adequado, pois o p-value Global
muito pequeno. Vericou-se que o tempo de sobrevivncia era explicado em
54:4% (R2 = 0:544).
No modelo CoxModel.3 retirmos a varivel com o p-value mais pequeno
no teste proporcionalidade das funes de risco, ou seja, a varivel obstruct.
O modelo continua a no ser o melhor, apesar do aumento do p-value Global,
que passou para 0:0203 e os dados continuam a ser bem explicados s com
estas variveis (R2 = 0:541).
Para construir o modelo seguinte (CoxModel.4 ), a prxima varivel a
retirar a rec (p < 0:05). O valor de p-value Global baixa signicativamente,
o que implica que essa varivel tem interesse para o modelo. E at mesmo
48

pelo valor de R2 (0:114) se chega concluso que este no um bom modelo.


Tendo em conta o que signicam as variveis node4 e rec, de esperar
que elas estejam relacionadas. De facto, atravs do teste de independncia do
Qui-quadrado, verica-se que estas variveis no so independentes (Figura
3.12). Assim, optou-se por retirar a varivel node4 do modelo CoxModel.3,
do que resultou o modelo CoxModel.5.

Figura 3.12: Teste de independncia do Qui-quadrado para testar se as variveis 4 ou mais ndulos (node4 ) e recorrncia (rec) so independentes.
Atravs da observao grca dos resduos de Schoenfeld (Figura 3.13)
para estas duas variveis tambm se pode concluir que a proporcionalidade
das funes de risco no violada.
De facto, os resduos tm um padro aleatrio (com algumas, mas poucas,
observaes isoladas) em torno do zero.
Quanto varivel rec, os resduos que se situam sensivelmente a partir do
tempo 3:4 (anos), exibem um padro crescente (Figura 3.14), o que sugere
violao do princpio de proporcionalidade das funes de risco. A acompanhar esta concluso est o valor obtido do p-value desta varivel no modelo
CoxModel.5. Assim sendo, para melhorar o modelo seria prefervel considerar
a covarivel rec dependente do tempo, eventualmente com corte nos 3:4 anos.
Ento o modelo de Cox nal tem a seguinte expresso:
h(t; z) = h0 (t) exp(

1 age

2 extent

3 rec)

ou ainda:
h(t; z)
= exp( 1 age + 2 extent + 3 rec)
h0 (t)
Assim, substituindo os parmetros pelas respectivas estimativas (Figura
3.15), obtm-se:
h(t; z)
= exp(0:009853 age + 0:251529 extent + 3:062296 rec)
h0 (t)
49

Figura 3.13: Resduos de Schoenfeld para as variveis idade (age) e extenso


do tumor (extent).

Figura 3.14: Resduos de Schoenfeld para a varivel recorrncia (rec).

50

Figura 3.15: Modelo de Cox nal com as covariveis idade (age), extenso
do tumor (extent) e recorrncia (rec).

3.3.2

Modelos paramtricos

Como distribuio para o tempo de vida dos indivduos, escolhemos as


distribuies paramtricas de Weibull e log-logstica.
Comecemos ento pelo modelo de Weibull. Este modelo pode ser visto
como uma alternativa ao modelo de Cox.
Em primeiro lugar, temos de testar a hiptese de riscos proporcionais e
isso j foi realizado aquando da construo do modelo de Cox, Figura 3.10.
Agora falta-nos testar se o tempo de vida segue esta distribuio. No caso
de termos covariveis dicotmicas, atravs da expresso 1.9, tem-se que os
tempos de vida de um indivduo padro seguem uma distribuio de Weibull
com parmetros e , e, para os restantes indivduos, o tempo de vida segue
uma distribuio de Weibull com parmetros
e , onde = e .
Tem de ser vericado se o tempo de vida dos nossos indivduos segue
uma distribuio de Weibull e, para isso, uma possibilidade consiste em fazer
a representao grca do logaritmo da funo de risco cumulativa versus
o logaritmo do tempo [35]. Se houver um bom ajustamento, a recta com
declive b e ordenada na origem log b deve-se ajustar tambm aos dados,
(Figura 3.16).
51

Figura 3.16: Grco de log


vida.

i
log Sb0 (t) versus o logaritmo do tempo de

Para a construo deste grco, no foi encontrado um package que o


zesse de modo "automtico", de forma que se construiu por etapas. Primeiro
comeou-se por estimar os parmetros do modelo Weibull (Figura 3.17).

Figura 3.17: Modelo de Weibull sem covariveis.


A estimativa apresentada inicialmente para o parmetro de escala (scale)
1, mas pelo valor do logaritmo, log(scale), vemos que o valor exacto tem
mais casas decimais. Podemos pedi-las fazendo Submit com o nome do modelo gerado (Figura 3.18). Obtemos ento = 1:000856 e a ordenada na
origem (Intercept) 0 = 2:241560.
52

Figura 3.18: Comando que fornece os valores da funo especicada, neste


caso, a funo que gerou o modelo de regresso de Weibull, mas com mais
casas decimais.

Como referido em [35], para se obter as estimativas dos parmetros da


recta, utiliza-se a parametrizao:
=

= log

Substituindo os parmetros pelas suas estimativas, obtm-se:


=
0

) b = 0:999144732

= log

) b = 0:1064965

o que permite fazer a representao da recta.


Uma alternativa mais simples para obter directamente as estimativas consiste em usar a funo ConvertWeibull do package SurvRegCensCov (Figura
3.19).

Figura 3.19: Obteno dos parmetros da recta atravs da funo ConvertWeibull do package SurvRegCensCov.
Em seguida calculou-se o log t atravs do menu Data! Manage variable in active data set! Compute new variable...! Seleccionar a varivel
53

time2_anos, denominar por log_time e na Expression to compute, escrever


log(time2_anos) e assim obteve-se o logaritmo do tempo.
Por ltimo executou-se o cdigo que se segue:
xyplot(log_KM ~log_time, type="p", pch=16,
auto.key=list(border=TRUE), par.settings=simpleTheme(pch=16),
scales=list(x=list(relation=same), y=list(relation=same)),
data=BaseColon, ylim=c(-7,1))
lines(BaseColon$log_time,BaseColon$log_S, lwd=2)
onde log_KM indica as estimativas do logaritmo da funo de risco cumulativa e log_S a varivel com os valores para a representao da recta.
A Figura 3.16 permite concluir que o ajustamento recta nunca muito
satisfatrio, indicando que o modelo de regresso de Weibull pode no ser a
melhor opo.
De modo a podermos comparar o modelo de Cox com o modelo de
Weibull, vamos considerar neste ltimo as mesmas covariveis obtidas no
modelo de Cox nal, ou seja, age, extent e rec (Figura 3.20).

Figura 3.20: Modelo Weibull com as covariveis idade (age), extenso do


tumor (extent) e recorrncia (rec).

Observando os outputs do modelo de Cox (Figura 3.15) e do modelo de


Weibull (Figura 3.20), podemos constatar que os p values associados s
covariveis so bastante mais pequenos no caso do modelo de Weibull, o que
refora a preferncia por este modelo.
semelhana do modelo de regresso de Weibull, estimmos o modelo
de regresso log-logstico sem covariveis, Figura 3.21.
54

Figura 3.21: Modelo de regresso Log-logstico sem covariveis.

Novamente com o intuito de podermos comparar os dois modelos de regresso paramtricos, vamos considerar o modelo log-logstico com as covariveis age, extent e rec (Figura 3.22).

Figura 3.22: Modelo de regresso log-logstico com as covariveis idade (age),


extenso do tumor (extent) e recorrncia (rec).

Comparando os dois outputs das Figuras 3.20 e Figura 3.22, verica-se


que os p values associados s covariveis so inferiores no caso do modelo
log-logstico, o que signica que este o melhor modelo, dos analisados, para
estes dados.
55

3.3.3

Algumas variantes

Visto a funo de risco ser um conceito de relevncia no que toca a dados


de anlise de sobrevivncia, usmos o package muhaz [20] para estim-la,
com o seguinte cdigo:
data(BaseColon, package="survival")
attach(BaseColon)
t2 <- muhaz(time2_anos, status2)
plot(t2)
summary(t2)
Quer a funo de sobrevivncia (Figura 3.4), quer a funo de risco
(Figura 3.23) permitem concluir que o risco de morte aumenta progressivamente desde o incio do estudo. Mas na segunda mais evidente que, mais
ou menos ao m de quatro anos, o risco de morte comea a estabilizar, assim
como a sobrevivncia.

Figura 3.23: Funo de risco.

Note-se ainda que o facto de podermos representar gracamente a funo


de risco e de, neste caso, constatarmos que unimodal constitui uma mais
valia na escolha da distribuio do tempo de vida dos indivduos. De facto,
se inicialmente tivessemos feito esta representao, teramos logo optado pela
distribuio log-logstica visto que uma das distribuies adequadas para
este tipo de funo de risco, como referimos na subseco 1.6.3.

56

Captulo 4
Concluso
Nesta dissertao foi lanado o desao de estudar a anlise de sobrevivncia num software que, primeira vista, poder no ser muito convidativo a
experimentar. Aps uma busca sobre este tema, deparmo-nos com muitos
outros trabalhos acadmicos na mesma rea, mas com realizao noutros
softwares mais apelativos, nem que seja devido existncia de menus e por
j serem familiares de alguma forma. Todos os programas tm as suas vantagens e desvantagens e a verdade que, no meio acadmico, o factor da
disponibilidade das licenas gratuitas para os alunos e docentes uma clara
vantagem, mas quando passamos vida real, deparamo-nos com um factor
econmico que pode no ser assim to fcil de contornar. Assim, achou-se
que seria bom explorar uma ferramenta que est ao alcance de todos ns,
gratuitamente e com a grande vantagem que podemos sempre melhor-lo.
Optou-se ento por estudar a anlise de sobrevivncia, que foi um tema
que nos cativou devido sua importncia na estatstica e ao tipo de dados
com que trabalha, e que foi fundamental apresent-lo no primeiro captulo,
dando a conhecer os conceitos bsicos, conceitos novos, tendo como objectivo
a construo de modelos de regresso e optou-se por dar a conhecer melhor o
software de estatstica R, que o apresentmos no segundo captulo, dando a
conhecer a sua origem, a sua evoluo e como se encontra no momento actual
e que, sem estes conceitos, seria difcil mostrar a sua aplicabilidade.
Encontram-se artigos das mais variadas partes do mundo com a utilizao
do R, mas de Portugal pouca coisa existe, o que sugere que esta ferramenta
ainda pouco usada.
Como j vimos no decorrer desta dissertao, este software apresenta
vantagens e desvantagens. Em termos de vantagens, destacam-se trs que
so realmente muito importantes: o facto de ser gratuito; o facto de ser
de cdigo aberto, onde podemos criar as nossas prprias funes, modelar
as que j existem s novas situaes, fazendo do R, uma ferramenta muito
57

verstil e o facto de ser um programa que ocupa pouco espao na memria


do computador, podendo ser uma vantagem para alguns utilizadores. Em
termos de desvantagens, a principal a de termos de saber a linguagem para
conseguir trabalhar mas, com a introduo do package Rcmdr, o R tornou-se um ambiente mais aceitvel, at amigvel e quebrou-se a barreira que
inicialmente se ps.
Os packages so claramente uma vantagem, como j foi referido, existem
muitos, mas uma das diculdades encontradas, foi na procura de packages que
tivessem funes que fossem possveis usarmos na nossa anlise. A pesquisa
foi extensa. Alguns, por terem nomes sugestivos, induzem o acesso sua
informao, mas o utilizador perde-se na lista exaustiva de nomes. Para nossa
sorte, existe uma task view no stio do R, exclusivamente para a anlise de
sobrevivncia onde, para alm de nomear os packages, especica as funes e
o que elas fazem (ver [32]). data de 14 de Agosto de 2014, existem 33 task
view e tm todas uma data de elaborao relativamente recente; a mais antiga
com mais ou menos um ano e a mais recente apenas com sensivelmente um
ms, que de sobrevivncia. Juntamente com as task view, no m da pgina
do R, apresentado um package, ctv, que se o instalarmos, e o corrermos,
o R instala todos os packages que esto disponveis nessa task view, o que
realmente apresenta uma clara vantagem, pois no precisamos de o fazer um
a um, mas precisamos de dispender algum tempo, pois, como de esperar,
muita informao a carregar.
Mais uma vez o R tornou-se til neste trabalho, pois no possuamos
nenhuma base de dados para trabalhar. Existe uma diversidade de base de
dados e aps debruarmo-nos sobre elas, encontramos uma que realmente era
muito boa, pois possua muitos indivduos e muitas variveis que podamos
explorar. O primeiro problema surge quando a informao disponibilizada
pouca na parte que descreve as variveis, o que suscitou algumas dvidas,
mas ultrapassando esse problema, encontrou-se outro, achou-se mais prtico
trabalhar a base no Excel primeiro e ento depois exportar para o R, pois
a diviso da base em dois, devido ao facto de haver duas linhas para cada
indivduo, e depois a juno, foi impraticvel.
O R Commander foi realmente uma grande ajuda para trabalhar os dados, no foi preciso perder muito tempo com a aprendizagem da linguagem,
pois os menus esto bastante completos e toda a programao complementar aos cdigos gerados foram coisas simples e que facilmente se encontra na
documentao.
Foi no terceiro captulo que se fez a ligao dos conhecimentos que adquirimos no primeiro e segundo captulo, sendo um captulo mais prtico, de
aplicao directa dos conhecimentos, onde realmente pudemos mostrar as
vantagens e desvantagens do R. de destacar que tivemos a necessidade
58

de incorporar uma subseco chamada outras variantes por ser algo no


necessrio anlise de sobrevincia "bsica", mas como uma alternativa ao
que j tinhamos, numa verso melhorada ou at mesmo diferentes coisas que
se pode aplicar nessa matria.
Com o R conseguiu-se fazer um estudo de uma base de dados de sobrevivncia com alguma profundidade, to bom como se tivessemos utilizado
qualquer outro software estatstico, porventura at mesmo uma verso mais
elaborada, pois conseguiu-se tirar partido da sua versatilidade e isto foi possvel de realizar-se porque o R possui um sistema de ajuda muito bom.
sem dvida um software recomendvel, pelo menos para anlise de
sobrevivncia.

59

60

Bibliograa
[1] Marubini, E., Valsecchi, M.G. (1995) - Analysing Survival Data from
Clinical Trials and Observational Studies. New York: Wiley.
[2] Kaplan, E.L., Meier, P. (1958) - Non-parametric estimation from incomplete observations. Journal of the American Statistical Association, 53,
457-481.
[3] Collett, D. (2003) - Modelling Survival Data in Medical Research. 2nd
edition, Chapman & Hall/CRC, Boca Raton.
[4] Cox, D.R. (1972) - Regression models and life-tables (with discussion).
Journal of the Royal Statistical Society Series B 34, 187-220.
[5] Rocha C., Papoila A.L. (2009) - Anlise de Sobrevivncia, XVII Congresso da Sociedade Portuguesa de Estatstica SPE.
[6] Andersen, P.K., Gill, R.D. (1982) - Coxs regression model for counting
processes: A large sample study. Annals of Statistics, 10, 1100-1120.
[7] Peto, R., Peto, J. (1972) - Asymptotically e cient rank invariant test
procedures (with discussion). Journal of the Royal Statistical Society,
Series A, 135, 185-206.
[8] Breslow, N.E. (1970) - A generalized Kruskal-Wallis test for comparing
k samples subject to unequal patterns of censorship. Biometrika, 57,
579-594.
[9] Kalbeisch, J.D., Prentice, R.L. (1973) - Marginal likelihoods based on
Coxs regression and life model. Biometrika, 60, 267-278.
[10] Efron, B. (1977) - The e ciency of Coxs likelihood function for censored
data. Journal of the American Statistical Association, 72, 557-565.
[11] Schoenfeld, D.A. (1982) - Partial residuals for the proportional hazards
regression model. Biometrika, 69, 239-241.
61

[12] Grambsch, P.M., Therneau, T.M. (1994) - Proportional hazards tests


and diagnostics based on weighted residuals. Biometrika, 81, 515-526.
[13] Gentleman, R., Ihaka, R. (1997) - The R Project for Statistical Computing, University of Auckland. URL: http://www.r-project.org/.
[14] Kanda, Y. (2013) - Investigation of the freely available easy-to-use software EZR for medical statistics. Bone Marrow Transplantation, 48,
452-458.
[15] Wickham, H. (2009) - ggplot2: elegant graphics for data analysis.
Springer, New York.
[16] Fox, J., S Carvalho, M., (2012) - The RcmdrPlugin.survival Package:
Extending the R Commander Interface to Survival Analysis. Journal of
Statistical Software, 49 (7), 1-32.
[17] http://cran.dcc.fc.up.pt/web/packages/survival/survival.pdf.
tado a 28/07/2014.
[18] http://cran.dcc.fc.up.pt/web/packages/eha/eha.pdf.
28/07/2014.

Consul-

Consultado

[19] Klein, J.P., Moeschberger, M.L. (1997) - Survival Analysis Techniques


for Censored and Truncated Data, Springer.
[20] http://cran.dcc.fc.up.pt/web/packages/muhaz/muhaz.pdf. Consultado
a 28/07/2014.
[21] Mogensen, U.B., Ishwaran H., Gerds, T.A. (2012) - Eva- luating Random
Forests for Survival Analysis Using Prediction Error Curves. Journal of
Statistical Software, 50 (11), 1-23.
[22] http://cran.dcc.fc.up.pt/web/packages/prodlim/prodlim.pdf.
tado a 28/07/2014.

Consul-

[23] Pohar M., Starde J. (2006) - Relative survival analysis in R. Computer


methods and programs in biomedicine, 81, 272278.
[24] http://cran.dcc.fc.up.pt/web/packages/riskRegression/riskRegression.
pdf. Consultado a 28/07/2014.
[25] http://biostat.mc.vanderbilt.edu/rms. Consultado a 28/07/2014.
[26] http://christophergandrud.github.io/simPH/.
28/07/2014.
62

Consultado

[27] http://cran.dcc.fc.up.pt/web/packages/smcure/smcure.pdf.
tado a 28/07/2014.

Consul-

[28] Alves, A.C. (2012) - Modelos de Cura: Aplicao ao Cancro da Mama


Feminino Dissertao de Mestrado. Centro de Competncia de Cincias
Exactas e da Engenharia. Universidade da Madeira.
[29] Schroeder, M.S., Culhane, A.C., Quackenbush, J., Haibe-Kains, B.
(2011) - survcomp: an R/Bioconductor package for performance assessment and comparison of survival models. Bioinformatics, 27 (22),
3206-3208.
[30] http://cran.dcc.fc.up.pt/web/packages/survMisc/survMisc.pdf.
sultado a 28/07/2014.

Con-

[31] http://cran.dcc.fc.up.pt/web/packages/SurvRegCensCov/SurvRegCensCov.pdf. Consultado a 28/07/2014.


[32] Allignol A., Latouche A., Task view: Survival Analysis. URL:
http://cran.r-project.org/web/views/Survival.html.
Consultado
a
16/06/2014.
[33] Pea, R.E.B. (2005) Anlisis de Sobrevivencia utilizando el lenguaje R,
Simposio de Estadstica, Paipa, Boyac, Colombia.
[34] Lin. D.Y. (1994) - Cox regression analysis of multivariate failure time
data: the marginal approach. Statistics in Medicine, 13, 2233-2247.
[35] Abreu, A.M. (1997) - Modelos de Sobrevivncia para Populaes Heterogneas. Dissertao de mestrado. Departamento de Estatstica e Investigao Operacional. Faculdade de Cincias da Universidade de Lisboa.

63

Potrebbero piacerti anche