Sei sulla pagina 1di 67

Corso di Laurea in

Statistica Matematica e
trattamento Informatico dei Datiati
Università di Genova

Applicazione del modello di regressione di Poisson


e del modello logistico in Epidemiologia

Lezione 1
Introduzione al modello di Poisson negli studi di coorte

Esercitazione pratica nell’ambito del


Corso di Modelli Statistici - Anno Accademico 2006-2007
A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,
c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5,
16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: stefanoparodi@ospedale-gaslini.ge.it
Il disegno dello studio in Epidemiologia

 L’Epidemiologia è la scienza che studia la distribuzione nello


spazio e nel tempo delle malattie, delle loro cause e dei loro
rimedi.

 A tal fine si avvale di diverse tipologie di studio (disegni dello


studio), che possono essere raggrupati in tre grandi categorie:

a) studi sperimentali

c) studi semi-sperimentali

d) studi osservazionali
test di laboratorio

sperimentale sperimentazioni cliniche


(clinical trials)

interventi di comunità
Disegno
dello studio in quasi-sperimentale
(o semi-sperimentale)
Epidemiologia ecologico
descrittivo
trasversale
(cross-sectional)
osservazionale
di coorte
analitico (follow-up)

caso-controllo
 Gli studi sperimentali (o esperimenti) sono indagini in cui la
distribuzione del fattore in studio viene decisa dallo sperimentatore,
attraverso una procedura denominata randomizzazione.

 Tale procedura consiste nell’assegnare in modo casuale il fattore


(ad esempio un trattamento rispetto a un placebo) nei soggetti in
studio.

 I principali studi sperimentali sono i test di laboratorio, le


sperimentazioni cliniche (clinical trials) e gli interventi di comunità.
 Il loro vantaggio principale risiede nella possibilità di isolare gli
effetti di interesse dai fattori estranei che possono influenzare le
stime osservate, persino nel caso in cui questi non siano
completamente noti.

 Tali fattori sono noti come fattori di confondimento o confondenti.

 Per tale motivo gli studi sperimentali sono considerati come


altamente probanti.
 Gli studi semi-sperimentali sono caratterizzati dalla possibilità
di manipolare il fattore in studio, senza però utilizzare la
randomizzazione.

 Ciò può avvenire, ad esempio, quando ogni soggetto in un solo


gruppo viene osservato prima e dopo un determinato trattamento
oppure quando il fattore in studio viene rilevato su volontari.

 Gli studi semi-sperimentali comprendono alcune indagini di


laboratorio, clinical trials, e studi di valutazione degli interventi di
politica sanitaria (introduzione di un limite di velocità, adozione di
un divieto al fumo in luoghi pubblici, ecc...).
 Gli studi osservazionali sono indagini in cui il ricercatore non può
manipolare il fattore in studio.

 In tali indagini l’osservazione viene condotta in modo da


assomigliare il più possibile a un esperimento (osservazione
pianificata).

 Ad esempio, è possibile selezionare due gruppi di operai, di cui


uno esposto a sostanze potenzialmente tossiche, e seguirli entrambi
nel tempo per verificare se vi sono differenze nella comparsa di
malattie.
 Gli studi osservazionali possono essere distinti in due categorie:

a) gli studi descrittivi, che comprendono lo studio ecologico


(spesso considerato come lo studio descrittivo “per eccellenza”) e
lo studio trasversale (cross-sectional);

b) gli studi analitici, tra cui i più importanti sono lo studio di coorte
e lo studio caso-controllo, che costituiranno l’oggetto della
presente esercitazione.

 Infatti in tale ambito vengono principalmente applicate le due


metodiche di analisi di regressione che verranno illustrate, ovvero:
il modello logistico e il modello di Poisson.
Lo studio di coorte

 Nell’ambito degli studi osservazionali, lo studio di coorte, o studio


di follow-up, è considerato lo studio analitico per eccellenza.

 Infatti permette di osservare l’insorgenza della patologia dopo


l’avvenuta esposizione, di misurare quindi i tempi di esposizione e
di ottenere stime di associazione tra l’esposizione e la probabilità
di
contrarre una determinata patologia.

 Tale procedura consiste nel confronto tra gruppi, denominati


“coorti”, costituiti da soggetti esposti e da soggetti non-esposti.
 Lo stesso disegno di studio viene spesso adottato anche
nell’ambito
degli studi sperimentali o semi-sperimentali, per esempio per
valutare la diversa comparsa di ricadute in gruppi di pazienti
sottoposti a trattamenti diversi e quindi per confrontare l’efficacia
di tali trattamenti.

 Sulla base della selezione dei soggetti si distinguono diverse


tipologie di coorti, tra cui le due principali sono:

a) la coorte chiusa

b) la coorte aperta.
 Nella coorte chiusa il campione in studio viene identificato
interamente in un preciso istante temporale.

 Solitamente, vengono identificati simultaneamente i fattori di


interesse per lo studio, ovvero la presenza di esposizioni in soggetti
sani o il tipo di trattamento per quanto riguarda gli studi clinici.

I soggetti vengono quindi seguiti nel tempo per rilevare la


comparsa
dell’evento di interesse (patologie, decesso, ricadute o recidive
negli
studi clinici), come illustrato nella Figura 2.
ESEMPIO SCHEMATICO DI UNO
STUDIO DI COORTE CHIUSA

1
Esposti

2
Popolazione in studio

3
4
5
Non-esposti

6
7
8

1 2 3 4 5 6 7 8
= Evento Periodo di follow-up (anni)
 In uno studio di coorte chiusa è possibile stimare direttamente la
probabilità del verificarsi degli eventi di interesse durante il
periodo di osservazione.

 Infati è sufficiente calcolare la frequenza con cui tali eventi si


sono
verificati entro tale periodo.

 La probabilità del verificarsi degli eventi, condizionata al tempo di


osservazione prende il nome di Rischio.
1

Esposti
2
3
4
Non-esposti 5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

 Nell’esempio sopra illustrato il rischio di ammalarsi negli esposti


durante il periodo di osservazione (8 anni) sarà quindi pari al 50%
(2 eventi osservati su 4 soggetti in studio), mentre il corrispondente
rischio nei soggetti non esposti sarà del 25% (1 evento osservato su
4 soggetti).
1

Esposti
2
3
4
Non-esposti 5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

 Il rapporto tra tali rischi, denominato Rischio Relativo (RR), può


quindi essere utilizzato come misura dell’associazione tra
l’avvenuta esposizione e la probabilità di comparsa della malattia.
 Nell’esempio sopra illustrato la stima del rischio relativo dovuto
all’esposizione sarà quindi pari a 2, indicando che gli esposti
presentano un rischio doppio di ammalarsi rispetto ai non esposti.

 Il RR tenderà ad assumere valori vicini a 1 se non vi è associazione


tra il fattore in studio e la probabilità di insorgenza della patologia,
mentre valori superiori a 1 saranno osservati per quei fattori (detti,
appunto, fattori di rischio) che sono associati a tali patologie.

 Valori compresi tra 0 e 1 saranno invece osservati per fattori


associati inversamente al rischio (che verranno denominati “fattori
protettivi”).
1

Esposti
2
3
4
Non-esposti 5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

 Si noti come le stime di rischio siano condizionate alla durata del


tempo di osservazione (periodo di follow-up). Infatti se tale
periodo fosse stato di soli tre anni si sarebbero osservati 0 eventi in
entrambi i gruppi di esposizione e quindi le corrispondenti stime di
rischio sarebbero state entrambe pari a zero.
1

Esposti
2
3
4
Non-esposti 5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

 Se invece il tempo di osservazione fosse stato di 6 anni, si sarebbe


osservato un rischio del 25% in entrambi i gruppi, e di
conseguenza
la stima di RR sarebbe stata pari a 1.
 Il Rischio, essendo una probabilità, può assumere solo valori
compresi tra 0 e 1 ed è adimensionale (ovvero è un numero puro,
privo di unità di misura).

 Per distinguerlo dal rischio istantaneo (ovvero dal valore cui


tenderebbe in un intervallo temporale tendente a zero) viene anche
denominato Rischio Cumulativo, in quanto rappresenta una
probabilità cumulativa.
 In una coorte aperta, al contrario del caso precedente, la perdita del
soggetto durante il follow-up può avvenire anche per motivi diversi
dalla fine del periodo di osservazione o dal manifestarsi dell’evento
di interesse.

 Il soggetto può risultare “perso di vista” (ad esempio per fenomeni


di migrazione), oppure può decedere per cause diverse da quella in
studio.

 In tal caso il tempo di osservazione si definisce troncato


(censored).
ESEMPIO SCHEMATICO DI UNO
STUDIO DI COORTE APERTA

1
Esposti

2
Popolazione in studio

3
4
5
Non-esposti

6
7
8

= Osservazione troncata 1 2 3 4 5 6 7 8
(censored) Periodo di follow-up (anni)
= Evento
 Un caso particolare, ma molto comune di coorte aperta, è la coorte
dinamica, che è costituita da individui che possono cambiare nel
tempo, per movimenti naturali, anagrafici o amministrativi.

 Un esempio può essere rappresentato dalla maggior parte delle


coorti occupazionali.

 Una coorte lavorativa infatti, si può formare solo in piccola parte al


momento dell’apertura di uno specifico impianto (assunzione).

In genere il periodo di studio è molto lungo e nel tempo nuove


maestranze sono assunte, mentre altre escono dall’azienda per
pensionamento, trasferimento, licenziamento, ecc...
ESEMPIO SCHEMATICO DI UNO
STUDIO DI COORTE DINAMICA

1
Esposti

2
Popolazione in studio

3
4
5
Non-esposti

6
7
8

= Osservazione troncata 1 2 3 4 5 6 7 8
(censored) Periodo di follow-up (anni)
= Evento
ESEMPIO SCHEMATICO DI COORTE APERTA
RICAVATA DA UNA COORTE DINAMICA

1
Esposti

2
Popolazione in studio

3
4
5
Non-esposti

6
7
8

= Osservazione troncata 1 2 3 4 5 6 7 8
(censored) Periodo di follow-up (anni)
= Evento
1

Esposti
2
3
Non-esposti 4
5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

 In genere la presenza del troncamento impedisce di produrre stime


dirette del rischio, dato che i tempi di osservazione per i diversi
soggetti sono diversi.
1

Esposti
2
3
Non-esposti 4
5
6
7
8

1 2 3 4 5 6 7 8
Periodo di follow-up (anni)

Una possibilità per ottenere stimatori di rischio relativo è quella di


stimare un’altra fondamentale grandezza utilizzata in
Epidemiologia, ovvero il Tasso.
 La definizione di tasso può essere ricavata dalla relazione che lega
il rischio al tempo in una coorte chiusa:

R  1 e    ( t ) dt

 La quantità  costituisce il tasso di comparsa degli eventi nella


coorte e misura quindi la velocità con cui tali eventi si verificano
nel tempo.
 Per molte patologie la variazione di  rispetto al tempo può essere
considerata (almeno approssimativamente) trascurabile, da cui:

  t
R  1 e

 Nel caso in cui si studino patologie rare, per le quali il tasso di


insorgenza risulti “piccolo” (nell’ordine, ad esempio, di un evento
per 10-3 – 10-6 persone per anno), si può adottare la seguente utile
approssimazione:

R   t
ANDAMENTO DEL RISCHIO IN FUNZIONE DEL TASSO

1.0

0.9

0.8 
0.7 
Rischio

0.6 
= 0.0010.t-1
0.5
= 0.0005.t-1
0.4
= 0.0003.t-1
0.3
= 0.0002.t-1
0.2
0.1

0.0
1 2 3 4 5 6 7 8 9 10

Tempo di osservazione (follow-up)


1.0
0.9

0.8 
0.7 
Rischio

0.6 
= 0.0010.t-1
0.5
= 0.0005.t-1
0.4
= 0.0003.t-1
0.3
= 0.0002.t-1
0.2
0.1
0.0
1 2 3 4 5 6 7 8 9 10

Tempo di osservazione (follow-up)

 Si può osservare l’andamento approssimativamente lineare di tale


relazione per bassi valori di t.
 Si Il tasso medio  può essere stimato dal rapporto tra gli eventi
osservati e la sommatoria dei tempi di osservazione m per ogni
singolo soggetto:

 O

m

dove O sono gli eventi osservati e m viene denominata “massa


persone-tempo a rischio”.
 Dalla relazione tra rischio e tasso per eventi rari si evince che il
rapporto tra tassi (rate ratio) può essere impiegato come stimatore
di rischio relativo:

RE  E  t RNE  NE  t



  E
RR
NE
dove il pedice E indica la sub-coorte degli esposti e il pedice NE
quella dei non-esposti.
Variabilità della stima dei tassi e
distribuzione di Poisson
 La variabilità della stima di un tasso e il confronto tra tassi diversi
necessitano di assunzioni sulla distribuzione di probabilità che si
ritiene generi gli eventi osservati.

 Nella grande maggioranza delle applicazioni, la variabilità della


stima della popolazione a rischio viene considerata trascurabile
rispetto alla variabilità del numero degli eventi stessi.

 Quindi si assume che solamente il numeratore contribuisca alla


variabilità della stima del tasso.
 Si può assumere che gli eventi osservati in un intervallo di tempo
t siano generati da una distribuzione binomiale (condizionata al
tempo t) con parametri:

p  dimensioni della popolazione a rischio,


R  rischio di ammalarsi nel tempo t e
O  numero di eventi osservati in t .

p!
R   1  R 
O p O

O! p  O !
 Considerando invariante la popolazione a rischio, la funzione
binomiale può essere riparametrizzata nel modo seguente:

O p O
p!   
   1  
O! p  O !  p   p

 Se applicata allo studio di patologie rare, tale distribuzione può


essere approssimata dalla distribuzione di Poisson, che presenta
una formulazione analitica più semplice.
O p O
p!   
   1  
O! p  O !  p   p

 Essendo:

p O
p! pO  
lim  lim 1    e 
p   , O!  p  O ! O!
O0
p  ,
O 0 
p

O O
O 
p    e
P O   
  e 
O!  p  O!
 P(O) segue una distribuzione di Poisson, con parametro  che
rappresenta sia il valore atteso che la varianza, e che corrisponde
al prodotto p.R della corrispondente distribuzione binomiale.

 La varianza della stima di un tasso è facilmente calcolabile


assumendo che la massa persone-tempo m a rischio sia invariante e
che gli eventi osservati O rappresentino una stima di 

O  O  O ˆ ˆ 2
Var

   Var
Var  
 
m

m 2
 2  
m m O
Variabilità del rapporto tra tassi
e inferenza statistica
 Applicando alla stima del logaritmo di RR l’approssimazione
alla distribuzione normale se ne possono ottenere gli intervalli di
confidenza a uno specifico valore di 1-:

1 z / 2 1

1 
O1 O2
 e 
2 
 

che si ricava applicando la seguente formula approssimata per la


stima della varianza del logaritmo di un tasso (metodo delta):


  

Var log  
1
O
 L’applicazione di tale formula per l’inferenza statistica nello studio
di coorte può essere illustrata mdiante il seguente esempio.

 Si supponga di aver osservato la mortalità per tumori maligni


dell’apparato respiratorio in una coorte di lavoratori, tra i quali un
gruppo era esposto a sostanze potenzialmente cancerogene e uno
era non esposto, entrambi osservati per un periodo di tempo
adeguato agli obiettivi dello studio.

Esposizione Morti Persone/Anno

Esposti 108 44870


Non-esposti 51 21063
Esposizione Morti Persone/Anno

Esposti 108 44870


Non-esposti 51 21063

 La stima del tasso per anno di osservazione negli esposti è:


108
1   240.7 10 5
44870

 Il corrispondente tasso nei non esposti è:

51
2   242.1 10 5
21063
Esposizione Morti Persone/Anno

Esposti 108 44870


Non-esposti 51 21063

 da cui:
1 242.7 105

 
RR   0.99
2 240.1 10
5

 i relativi intervalli di confidenza al 95% sono:

 1.96
1 1
 
0.99  e 108 51
 0.71;1.4
 
 
 Dal momento che tali intervalli comprendono il valore di 1, atteso
sotto l’ipotesi nulla di uguaglianza del rischio nei due gruppi a
confronto, tale ipotesi non può essere rigettata.

 Si può quindi concludere che nel campione in studio non vi è


evidenza di alcun effetto dell’esposizione.

 Un risultato del tutto analogo si sarebbe potuto ottenere mediante


il modello di regressione di Poisson.
STIMA DI UN RAPPORTO TRA TASSI MEDIANTE
IL MODELLO DI REGRESSIONE DI POISSON

 Come sopra brevemente illustrato, il numeratore di un tasso,


stimato per una patologia rara, può essere considerato come la
realizzazione di una variabile Poissoniana con parametro ignoto
.

 Di conseguenza, la relazione che lega il tasso a variabili di


interesse, ad esempio esposizioni in soggetti sani o trattamenti
farmacologici in pazienti, può essere modellata mediante un
modello di regressione di Poisson.
 Come ampiamente illustrato nelle lezioni teoriche del Corso, il
modello di Poisson può essere esplicitato nella forma seguente:

 
E Y  , x   0  1 x  ...   p x p

 con:

 Y e 

P Y , x   Y!
 Comunemente si utilizza una funzione di link logaritmico, che
permette di evitare valori attesi negativi (che non hanno senso se si
tratta di modellare un conteggio).

 Si noti però che il modello di Poisson adotta come variabile


risposta un conteggio, mentre la variabile di interesse negli esempi
sopra riportati è un tasso, ottenuto come rapporto di un conteggio e
di una costante.

 Risulta quindi opportuno introdurre nel modello tale costante (cioè


gli anni persona a rischio), oppure la sua trasformata logaritmica
se
il modello è log-lineare, sotto forma di OFFSET.
 In un GLM l’offset rappresenta un predittore che viene introdotto
nel predittore lineare con coefficiente pari a 1.

 A seconda della funzione di link, tale predittore deve essere


opportunamente trasformato; ad esempio, se il link è la funzione
logaritmo, anche l’offset deve essere trasformato mediante
trasformazione logaritmica) .

 Nel caso di una sola variabile (dummy) di esposizione E, con


valore 0 per i non-esposti e 1 per gli esposti, i valori stimati attesi
di un modello di regressione log lineare di Poisson saranno:


log    0  
 E
1
 da cui si ricava che l’antilogaritmo del coefficiente per la dummy
di esposizione rappresenta la stima di RR ricercata:


 E 
e  1
 RR
NE

dove E e NE rappresentano rispettivamente il tasso negli esposti e nei


non esposti.
 Utilizzando la stima dell’errore standard di 1 ricavata dal
modello, si possono produrre gli intervalli di confidenza a un
prefissato valore di 1-  (tipicamente, al 95%) mediante il metodo
di Wald.

 L’anti-logaritmo di tali limiti di confidenza fornisce l’intervallo di


confidenza corrispondente per la stima di RR, utilizzabile ai fini
dell’inferenza statistica:

 
95% IC  RR   RR  e 1.96 ES  1 

 
 Grazie a tale modellamento, il modello di Poisson risulta del tutto
analogo ad un modello di regressione lineare semplice o multipla
che utilizzi come variabile risposta il logaritmo di un tasso.

 Tra i vantaggi dell’applicazione di un modello di Poisson vi è la


possibilità di analizzare matrici di dati in cui sono presenti zero
osservazioni in una o più categorie di interesse .

 Inoltre il modello di Poisson non assume l’omoscedasticità della


variabile risposta nelle varie categorie dei predittori, che è parte
degli assunti del modello lineare generale.
IL CONFONDIMENTO
IN UNO STUDIO DI COORTE

 Nell’analisi di dati epidemiologici occorre valutare la presenza di


variabili che, se associate sia alla variabile risposta (incidenza,
mortalità, ecc...) che al fattore in studio (esposizione, trattamento,
fattori genetici, ecc...) possono produrre distorsioni nelle stime di
associazione.

 Tali fattori prendono il nome di confondenti, il fenomeno viene


denominato “confondimento” e l’eventuale distorsione indotta
nelle stime viene denominata “bias da confondimento”.
 Esempio di confondimento generato da una variabile categorica
(sesso) nell’ambito di uno studio di coorte in cui anche
l’esposizione è riportata su scala dicotomica (presenza o assenza).

Tutti i soggetti Strato 1 Strato 2


Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 

 Perché vi sia confondimento occorre che la stima di RR ottenuta


nell’analisi dei dati raggruppati (analisi pooled) sia diversa da
quella derivante dall’analisi stratificata per i livelli del
confondente.
 Se però le stime di RR risultassero diverse tra i vari strati del
fattore in esame vi sarebbe indicazione che tale variabile modifichi
l’effetto dell’esposizione (o del trattamento).

 In tal caso vi sarebbe interazione tra le variabili e non


confondimento.
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 

 La differenza è fondamentale in quanto, mentre il confondimento


in genere non è di nessun interesse per il ricercatore, l’interazione
(o modificazione d’effetto) può rappresentare un fenomeno di
grande interesse dal punto di vista bio-medico.

 Nell’esempio sopra riportato le stime di RR nei due strati del


confondente sono identiche (RR=2.5) e molto diverse dalla stima
pooled (RR=0.99), per cui non vi è dubbio che ci si trovi in
presenza di confondimento.
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 

 Si noti inoltre che il RR pooled è vicino al valore atteso di 1 di non


effetto dell’esposizione, mentre le due stime entro gli strati del
confondente risultano entrambe superiori a 1 (p<0.05).

 In presenza di confondimento occorre procedere a una stima


comune dei RR entro gli strati del confondente e del relativo
intervallo di confidenza (in genere al 95%).

 Tale procedimento può essere effettuato mediante il modello di


regressione di Poisson.
Tutti i soggetti Strato 1 Strato 2
Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

 Perché una variabile si comporti da confondente è necessario


che
sia associata sia alla variabile risposta che al fattore in studio,
( nell’esempio riportato, sia all’esposizione che al tasso).
 Nell’esempio sopra riportato ciò può essere evidenziato
stimando i tassi nelle due categorie di esposizione, separatamente
per i maschi e per le femmine.
Tutti i soggetti Strato 1 Strato 2
Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

Maschi Femmine
 30 78
Esposti  E ,M   932.3 105 E , F   187.3 105
3218 41652
 44 7
Non-Esposti  NE , M   376.1 10 5 NE , F   74.8 10 5
11699 9364

 I tassi nei maschi sono più elevati dei corrispondenti tassi nelle
femmine entro ogni categoria di esposizione (associazione
tra stimatore di rischio e variabile di stratificazione).
Tutti i soggetti Strato 1 Strato 2
Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

 Inoltre le femmine contribuiscono al gruppo degli esposti con


molte più persone-anno rispetto ai maschi, mentre il loro
contributo al gruppo dei non-esposti è simile a quello dei maschi
(associazione tra esposizione e variabile di stratificazione).
Tutti i soggetti Strato 1 Strato 2
Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

 In maniera più intuitiva, si può affermare che il confondimento è


dovuto alla presenza di molte femmine tra gli esposti, che,
presentando tassi inferiori a quelli dei maschi, hanno
mascherato
l’effetto dell’esposizione.
CONTROLLO DEL CONFONDIMENTO MEDIANTE
MODELLO DI REGRESSIONE DI POISSON

 Si supponga di applicare un modello log-lineare di Poisson a


dati di uno studio di coorte, utilizzando:

a) come variabile risposta il numero di eventi osservati;

b) come predittori una variabile dicotomica di esposizione E e un


confondente C;

c) come offset il logaritmo degli anni persona a rischio.


 I valori stimati attesi del modello saranno i seguenti:


log   
 
0
 E
1
 C
2

 Dal rapporto tra i valori stimati attesi per gli esposti e per i non
esposti e passando all’antilogaritmo:

E  1   2 CE  CNE 


e
NE

 A parità di valori (ovvero entro ogni strato) del confondente:

E 
 1
e   RR

 NE
 Quindi l’anti-logaritmo della stima del coefficiente 1 per
l’esposizione rappresenta una stima del rapporto tra il tasso E
negli esposti e il tasso NE nei non-esposti.

 Di conseguenza, quando applicato allo studio di una patologia


rara, rappresenta una stima non distorta di rischio relativo,
corretta per l’effetto del confondente introdotto nel modello.

 Lo stesso risultato si sarebbe ottenuto nel caso più generale di C


espresso su scala categorica a più di due livelli, nel qual caso
però sarebbero state necessarie più variabili dummies per
modellarne l’effetto.
MODIFICAZIONE D’EFFETTO
IN UNO STUDIO DI COORTE

 La modificazione d’effetto si produce quando una variabile


interagisce con l’esposizione, per cui tale fenomeno, viene anche
denominato interazione.

 La presenza di interazione può essere evidenziata dalla presenza


di un diverso andamento dello stimatore di rischio entro le
categorie della variabile di interazione.

 Contrariamente a quanto avviene per il confondimento, il


ricercatore non può produrre stime aggiustate per l’effetto di tale
variabile (stime comuni d’effetto), in quanto l’associazione tra
esposizione e rischio è diversa nei gruppi a confronto.
 Un esempio di tale fenomeno è illustrato nella tabella seguente,
in cui gli eventi di interesse sono rappresentati dai nuovi casi di
malattia osservati in una coorte ipotetica.

Tutti i soggetti Strato 1 Strato 2


Maschi Femmine
Casi Pers/anno Casi Pers/anno Casi Pers/anno

Esposti 391 769309 189 478383 202 290926

Non-Esposti 119 358341 78 242043 41 116298

 T  1.5
RR  1  1.2
RR  2  2.0
RR
1.2,1.9  0.94,1.6  1.4,2.8 
 T  1.5
RR  1  1.2
RR  2  2.0
RR
1.2,1.9  0.94,1.6  1.4,2.8 

 Nell’intera coorte in studio il rischio di ammalarsi sembra


associato
all’esposizione, essendo lo stimatore di RR superiore a 1 in modo
statisticamente significativo.
 Stratificando per sesso, si osserva una differenza di rischio relativo
tra maschi e femmine, poiché i primi presentano un lieve eccesso
di
rischio non significativo (RR = 1.2), mentre nelle femmine
l’esposizione porta a un raddoppio del rischio (RR = 2.0).
 In sostanza i risultati suggeriscono la presenza di interazione tra
sesso ed esposizione, nel senso che le femmine sarebbero più
suscettibili all’esposizione rispetto ai maschi .
MODELLO DI REGRESSIONE DI POISSON
CON INTERAZIONE (CENNI)

 La presenza di interazione non permette di ottenere stime comuni


di RR tra i diversi livelli del modificatore d’effetto, per cui in
genere conviene produrre stime separate.

 Tuttavia può essere conveniente verificare se l’evidenza di


modificazione d’effetto sia attribuibile o meno alla fluttuazione
statistica .

 Per tale scopo esistono alcuni test formali, oppure, in alternativa, si


può fittare un modello di Poisson con un termine di interazione e
testarne la significatività statistica .
 Nel caso di un’esposizione dicotomica e di un modificatore
d’effetto anch’esso espresso su scala binaria, è sufficiente
introdurre nel predittore lineare un termine di interazione

 Tale variabile viene ottenuta come prodotto del modificatore


d’effetto per la variabile di esposizione:.


log   
 
0
 E
1
 M 
2
 EM
3

dove M rappresenta la variabile indicatrice per il modificatore


d’effetto con valore 0 nella prima categoria e valore 1 nella seconda.
 È agevole verificare che il modello permette di ottenere le due
stime separate di RR entro le due categorie della variabile M:



  
log  M  0   0   1 E  RR  M  0   e  1


 
    
log  M  1   0   1 E   2   3 E  RR  M  1  e  1   3

 Si noti che, quando 3 è pari a 0 la variabile M può essere al più un


confondente, in quanto le due stime di RR tenderanno a coincidere.

 Di conseguenza la presenza di interazione può essere testata


mediante un metodo consueto per i coefficienti di un modello GLM
(es: test di Wald, LRo test, Score test), applicato alla stima di 3.

Potrebbero piacerti anche