Lezione 1

Corso di Laurea in
Statistica Matematica e
trattamento Informatico dei Datiati
Università di Genova
Applicazione del modello di regressione di Poisson

e del modello logistico in Epidemiologia
Lezione 1
Introduzione al modello di Poisson negli studi di coorte
Esercitazione pratica nell’ambito del

Corso di Modelli Statistici - Anno Accademico 2006-2007
A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,
c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5,
16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: stefanoparodi@ospedale-gaslini.ge.it
Il disegno dello studio in Epidemiologia
 L’Epidemiologia è la scienza che studia la distribuzione nello

spazio e nel tempo delle malattie, delle loro cause e dei loro
rimedi.
 A tal fine si avvale di diverse tipologie di studio (disegni dello

studio), che possono essere raggrupati in tre grandi categorie:
a) studi sperimentali
c) studi semi-sperimentali
d) studi osservazionali
test di laboratorio
sperimentale sperimentazioni cliniche

(clinical trials)
interventi di comunità
Disegno
dello studio in quasi-sperimentale
(o semi-sperimentale)
Epidemiologia ecologico
descrittivo
trasversale
(cross-sectional)
osservazionale
di coorte
analitico (follow-up)
caso-controllo
 Gli studi sperimentali (o esperimenti) sono indagini in cui la
distribuzione del fattore in studio viene decisa dallo sperimentatore,
attraverso una procedura denominata randomizzazione.
 Tale procedura consiste nell’assegnare in modo casuale il fattore

(ad esempio un trattamento rispetto a un placebo) nei soggetti in
studio.
 I principali studi sperimentali sono i test di laboratorio, le

sperimentazioni cliniche (clinical trials) e gli interventi di comunità.
 Il loro vantaggio principale risiede nella possibilità di isolare gli
effetti di interesse dai fattori estranei che possono influenzare le
stime osservate, persino nel caso in cui questi non siano
completamente noti.
 Tali fattori sono noti come fattori di confondimento o confondenti.
 Per tale motivo gli studi sperimentali sono considerati come

altamente probanti.
 Gli studi semi-sperimentali sono caratterizzati dalla possibilità
di manipolare il fattore in studio, senza però utilizzare la
randomizzazione.
 Ciò può avvenire, ad esempio, quando ogni soggetto in un solo

gruppo viene osservato prima e dopo un determinato trattamento
oppure quando il fattore in studio viene rilevato su volontari.
 Gli studi semi-sperimentali comprendono alcune indagini di

laboratorio, clinical trials, e studi di valutazione degli interventi di
politica sanitaria (introduzione di un limite di velocità, adozione di
un divieto al fumo in luoghi pubblici, ecc...).
 Gli studi osservazionali sono indagini in cui il ricercatore non può
manipolare il fattore in studio.
 In tali indagini l’osservazione viene condotta in modo da

assomigliare il più possibile a un esperimento (osservazione
pianificata).
 Ad esempio, è possibile selezionare due gruppi di operai, di cui

uno esposto a sostanze potenzialmente tossiche, e seguirli entrambi
nel tempo per verificare se vi sono differenze nella comparsa di
malattie.
 Gli studi osservazionali possono essere distinti in due categorie:
a) gli studi descrittivi, che comprendono lo studio ecologico

(spesso considerato come lo studio descrittivo “per eccellenza”) e
lo studio trasversale (cross-sectional);
b) gli studi analitici, tra cui i più importanti sono lo studio di coorte
e lo studio caso-controllo, che costituiranno l’oggetto della
presente esercitazione.
 Infatti in tale ambito vengono principalmente applicate le due

metodiche di analisi di regressione che verranno illustrate, ovvero:
il modello logistico e il modello di Poisson.
Lo studio di coorte
 Nell’ambito degli studi osservazionali, lo studio di coorte, o studio

di follow-up, è considerato lo studio analitico per eccellenza.
 Infatti permette di osservare l’insorgenza della patologia dopo

l’avvenuta esposizione, di misurare quindi i tempi di esposizione e
di ottenere stime di associazione tra l’esposizione e la probabilità
di
contrarre una determinata patologia.
 Tale procedura consiste nel confronto tra gruppi, denominati

“coorti”, costituiti da soggetti esposti e da soggetti non-esposti.
 Lo stesso disegno di studio viene spesso adottato anche
nell’ambito
degli studi sperimentali o semi-sperimentali, per esempio per
valutare la diversa comparsa di ricadute in gruppi di pazienti
sottoposti a trattamenti diversi e quindi per confrontare l’efficacia
di tali trattamenti.
 Sulla base della selezione dei soggetti si distinguono diverse

tipologie di coorti, tra cui le due principali sono:
a) la coorte chiusa
b) la coorte aperta.
 Nella coorte chiusa il campione in studio viene identificato
interamente in un preciso istante temporale.
 Solitamente, vengono identificati simultaneamente i fattori di

interesse per lo studio, ovvero la presenza di esposizioni in soggetti
sani o il tipo di trattamento per quanto riguarda gli studi clinici.
I soggetti vengono quindi seguiti nel tempo per rilevare la

comparsa
dell’evento di interesse (patologie, decesso, ricadute o recidive
negli
studi clinici), come illustrato nella Figura 2.
ESEMPIO SCHEMATICO DI UNO
STUDIO DI COORTE CHIUSA
1
Esposti
2
Popolazione in studio
3
4
5
Non-esposti
6
7
8
1 2 3 4 5 6 7 8
= Evento Periodo di follow-up (anni)
 In uno studio di coorte chiusa è possibile stimare direttamente la
probabilità del verificarsi degli eventi di interesse durante il
periodo di osservazione.
 Infati è sufficiente calcolare la frequenza con cui tali eventi si

sono
verificati entro tale periodo.
 La probabilità del verificarsi degli eventi, condizionata al tempo di

osservazione prende il nome di Rischio.
1
Esposti
2
3
4
Non-esposti 5
6
7
8
1 2 3 4 5 6 7 8
Periodo di follow-up (anni)
 Nell’esempio sopra illustrato il rischio di ammalarsi negli esposti

durante il periodo di osservazione (8 anni) sarà quindi pari al 50%
(2 eventi osservati su 4 soggetti in studio), mentre il corrispondente
rischio nei soggetti non esposti sarà del 25% (1 evento osservato su
4 soggetti).
1
Esposti
2
3
4
Non-esposti 5
6
7
8
1 2 3 4 5 6 7 8
 Il rapporto tra tali rischi, denominato Rischio Relativo (RR), può

quindi essere utilizzato come misura dell’associazione tra
l’avvenuta esposizione e la probabilità di comparsa della malattia.
 Nell’esempio sopra illustrato la stima del rischio relativo dovuto
all’esposizione sarà quindi pari a 2, indicando che gli esposti
presentano un rischio doppio di ammalarsi rispetto ai non esposti.
 Il RR tenderà ad assumere valori vicini a 1 se non vi è associazione

tra il fattore in studio e la probabilità di insorgenza della patologia,
mentre valori superiori a 1 saranno osservati per quei fattori (detti,
appunto, fattori di rischio) che sono associati a tali patologie.
 Valori compresi tra 0 e 1 saranno invece osservati per fattori

associati inversamente al rischio (che verranno denominati “fattori
protettivi”).
1
Esposti
2
3
4
Non-esposti 5
6
7
8
1 2 3 4 5 6 7 8
 Si noti come le stime di rischio siano condizionate alla durata del

tempo di osservazione (periodo di follow-up). Infatti se tale
periodo fosse stato di soli tre anni si sarebbero osservati 0 eventi in
entrambi i gruppi di esposizione e quindi le corrispondenti stime di
rischio sarebbero state entrambe pari a zero.
1
Esposti
2
3
4
Non-esposti 5
6
7
8
1 2 3 4 5 6 7 8
 Se invece il tempo di osservazione fosse stato di 6 anni, si sarebbe

osservato un rischio del 25% in entrambi i gruppi, e di
conseguenza
la stima di RR sarebbe stata pari a 1.
 Il Rischio, essendo una probabilità, può assumere solo valori
compresi tra 0 e 1 ed è adimensionale (ovvero è un numero puro,
privo di unità di misura).
 Per distinguerlo dal rischio istantaneo (ovvero dal valore cui

tenderebbe in un intervallo temporale tendente a zero) viene anche
denominato Rischio Cumulativo, in quanto rappresenta una
probabilità cumulativa.
 In una coorte aperta, al contrario del caso precedente, la perdita del
soggetto durante il follow-up può avvenire anche per motivi diversi
dalla fine del periodo di osservazione o dal manifestarsi dell’evento
di interesse.
 Il soggetto può risultare “perso di vista” (ad esempio per fenomeni

di migrazione), oppure può decedere per cause diverse da quella in
studio.
 In tal caso il tempo di osservazione si definisce troncato

(censored).
STUDIO DI COORTE APERTA
1
Esposti
2
3
4
5
Non-esposti
6
7
8
= Osservazione troncata 1 2 3 4 5 6 7 8
(censored) Periodo di follow-up (anni)
= Evento
 Un caso particolare, ma molto comune di coorte aperta, è la coorte
dinamica, che è costituita da individui che possono cambiare nel
tempo, per movimenti naturali, anagrafici o amministrativi.
 Un esempio può essere rappresentato dalla maggior parte delle

coorti occupazionali.
 Una coorte lavorativa infatti, si può formare solo in piccola parte al

momento dell’apertura di uno specifico impianto (assunzione).
In genere il periodo di studio è molto lungo e nel tempo nuove

maestranze sono assunte, mentre altre escono dall’azienda per
pensionamento, trasferimento, licenziamento, ecc...
STUDIO DI COORTE DINAMICA
1
Esposti
2
3
4
5
Non-esposti
6
7
8
= Evento
ESEMPIO SCHEMATICO DI COORTE APERTA
RICAVATA DA UNA COORTE DINAMICA
1
Esposti
2
3
4
5
Non-esposti
6
7
8
= Evento
1
Esposti
2
3
Non-esposti 4
5
6
7
8
1 2 3 4 5 6 7 8
 In genere la presenza del troncamento impedisce di produrre stime

dirette del rischio, dato che i tempi di osservazione per i diversi
soggetti sono diversi.
1
Esposti
2
3
Non-esposti 4
5
6
7
8
1 2 3 4 5 6 7 8
Una possibilità per ottenere stimatori di rischio relativo è quella di

stimare un’altra fondamentale grandezza utilizzata in
Epidemiologia, ovvero il Tasso.
 La definizione di tasso può essere ricavata dalla relazione che lega
il rischio al tempo in una coorte chiusa:
R  1 e    ( t ) dt
 La quantità  costituisce il tasso di comparsa degli eventi nella

coorte e misura quindi la velocità con cui tali eventi si verificano
nel tempo.
 Per molte patologie la variazione di  rispetto al tempo può essere
considerata (almeno approssimativamente) trascurabile, da cui:
  t
R  1 e
 Nel caso in cui si studino patologie rare, per le quali il tasso di

insorgenza risulti “piccolo” (nell’ordine, ad esempio, di un evento
per 10-3 – 10-6 persone per anno), si può adottare la seguente utile
approssimazione:
R   t
ANDAMENTO DEL RISCHIO IN FUNZIONE DEL TASSO
1.0
0.9

0.8 
0.7 
Rischio
0.6 
= 0.0010.t-1
0.5
= 0.0005.t-1
0.4
= 0.0003.t-1
0.3
= 0.0002.t-1
0.2
0.1
0.0
1 2 3 4 5 6 7 8 9 10
Tempo di osservazione (follow-up)

1.0
0.9

0.8 
0.7 
Rischio
0.6 
= 0.0010.t-1
0.5
= 0.0005.t-1
0.4
= 0.0003.t-1
0.3
= 0.0002.t-1
0.2
0.1
0.0
1 2 3 4 5 6 7 8 9 10
Tempo di osservazione (follow-up)
 Si può osservare l’andamento approssimativamente lineare di tale

relazione per bassi valori di t.
 Si Il tasso medio  può essere stimato dal rapporto tra gli eventi
osservati e la sommatoria dei tempi di osservazione m per ogni
singolo soggetto:
 O

m
dove O sono gli eventi osservati e m viene denominata “massa

persone-tempo a rischio”.
 Dalla relazione tra rischio e tasso per eventi rari si evince che il
rapporto tra tassi (rate ratio) può essere impiegato come stimatore
di rischio relativo:
RE  E  t RNE  NE  t


  E
RR
NE
dove il pedice E indica la sub-coorte degli esposti e il pedice NE
quella dei non-esposti.
Variabilità della stima dei tassi e
distribuzione di Poisson
 La variabilità della stima di un tasso e il confronto tra tassi diversi
necessitano di assunzioni sulla distribuzione di probabilità che si
ritiene generi gli eventi osservati.
 Nella grande maggioranza delle applicazioni, la variabilità della

stima della popolazione a rischio viene considerata trascurabile
rispetto alla variabilità del numero degli eventi stessi.
 Quindi si assume che solamente il numeratore contribuisca alla

variabilità della stima del tasso.
 Si può assumere che gli eventi osservati in un intervallo di tempo
t siano generati da una distribuzione binomiale (condizionata al
tempo t) con parametri:
p  dimensioni della popolazione a rischio,

R  rischio di ammalarsi nel tempo t e
O  numero di eventi osservati in t .
p!
R   1  R 
O p O
O! p  O !
 Considerando invariante la popolazione a rischio, la funzione
binomiale può essere riparametrizzata nel modo seguente:
O p O
p!   
   1  
O! p  O !  p   p
 Se applicata allo studio di patologie rare, tale distribuzione può

essere approssimata dalla distribuzione di Poisson, che presenta
una formulazione analitica più semplice.
O p O
p!   
   1  
O! p  O !  p   p
 Essendo:
p O
p! pO  
lim  lim 1    e 
p   , O!  p  O ! O!
O0
p  ,
O 0 
p
O O
O 
p    e
P O   
  e 
O!  p  O!
 P(O) segue una distribuzione di Poisson, con parametro  che
rappresenta sia il valore atteso che la varianza, e che corrisponde
al prodotto p.R della corrispondente distribuzione binomiale.
 La varianza della stima di un tasso è facilmente calcolabile

assumendo che la massa persone-tempo m a rischio sia invariante e
che gli eventi osservati O rappresentino una stima di 
O  O  O ˆ ˆ 2
Var

   Var
Var  
 
m

m 2
 2  
m m O
Variabilità del rapporto tra tassi
e inferenza statistica
 Applicando alla stima del logaritmo di RR l’approssimazione
alla distribuzione normale se ne possono ottenere gli intervalli di
confidenza a uno specifico valore di 1-:
1 z / 2 1

1 
O1 O2
 e 
2 
 
che si ricava applicando la seguente formula approssimata per la

stima della varianza del logaritmo di un tasso (metodo delta):

  

Var log  
1
O
 L’applicazione di tale formula per l’inferenza statistica nello studio
di coorte può essere illustrata mdiante il seguente esempio.
 Si supponga di aver osservato la mortalità per tumori maligni

dell’apparato respiratorio in una coorte di lavoratori, tra i quali un
gruppo era esposto a sostanze potenzialmente cancerogene e uno
era non esposto, entrambi osservati per un periodo di tempo
adeguato agli obiettivi dello studio.
Esposizione Morti Persone/Anno
Esposti 108 44870

Non-esposti 51 21063
Esposti 108 44870

 La stima del tasso per anno di osservazione negli esposti è:

108
1   240.7 10 5
44870
 Il corrispondente tasso nei non esposti è:
51
2   242.1 10 5
21063
Esposti 108 44870

 da cui:
1 242.7 105

 
RR   0.99
2 240.1 10
5
 i relativi intervalli di confidenza al 95% sono:
 1.96
1 1
 
0.99  e 108 51
 0.71;1.4
 
 
 Dal momento che tali intervalli comprendono il valore di 1, atteso
sotto l’ipotesi nulla di uguaglianza del rischio nei due gruppi a
confronto, tale ipotesi non può essere rigettata.
 Si può quindi concludere che nel campione in studio non vi è

evidenza di alcun effetto dell’esposizione.
 Un risultato del tutto analogo si sarebbe potuto ottenere mediante

il modello di regressione di Poisson.
STIMA DI UN RAPPORTO TRA TASSI MEDIANTE
IL MODELLO DI REGRESSIONE DI POISSON
 Come sopra brevemente illustrato, il numeratore di un tasso,

stimato per una patologia rara, può essere considerato come la
realizzazione di una variabile Poissoniana con parametro ignoto
.
 Di conseguenza, la relazione che lega il tasso a variabili di

interesse, ad esempio esposizioni in soggetti sani o trattamenti
farmacologici in pazienti, può essere modellata mediante un
modello di regressione di Poisson.
 Come ampiamente illustrato nelle lezioni teoriche del Corso, il
modello di Poisson può essere esplicitato nella forma seguente:
 
E Y  , x   0  1 x  ...   p x p
 con:
 Y e 

P Y , x   Y!
 Comunemente si utilizza una funzione di link logaritmico, che
permette di evitare valori attesi negativi (che non hanno senso se si
tratta di modellare un conteggio).
 Si noti però che il modello di Poisson adotta come variabile

risposta un conteggio, mentre la variabile di interesse negli esempi
sopra riportati è un tasso, ottenuto come rapporto di un conteggio e
di una costante.
 Risulta quindi opportuno introdurre nel modello tale costante (cioè

gli anni persona a rischio), oppure la sua trasformata logaritmica
se
il modello è log-lineare, sotto forma di OFFSET.
 In un GLM l’offset rappresenta un predittore che viene introdotto
nel predittore lineare con coefficiente pari a 1.
 A seconda della funzione di link, tale predittore deve essere

opportunamente trasformato; ad esempio, se il link è la funzione
logaritmo, anche l’offset deve essere trasformato mediante
trasformazione logaritmica) .
 Nel caso di una sola variabile (dummy) di esposizione E, con

valore 0 per i non-esposti e 1 per gli esposti, i valori stimati attesi
di un modello di regressione log lineare di Poisson saranno:

log    0  
 E
1
 da cui si ricava che l’antilogaritmo del coefficiente per la dummy
di esposizione rappresenta la stima di RR ricercata:

 E 
e  1
 RR
NE
dove E e NE rappresentano rispettivamente il tasso negli esposti e nei

non esposti.
 Utilizzando la stima dell’errore standard di 1 ricavata dal
modello, si possono produrre gli intervalli di confidenza a un
prefissato valore di 1-  (tipicamente, al 95%) mediante il metodo
di Wald.
 L’anti-logaritmo di tali limiti di confidenza fornisce l’intervallo di

confidenza corrispondente per la stima di RR, utilizzabile ai fini
dell’inferenza statistica:
 
95% IC  RR   RR  e 1.96 ES  1 

 
 Grazie a tale modellamento, il modello di Poisson risulta del tutto
analogo ad un modello di regressione lineare semplice o multipla
che utilizzi come variabile risposta il logaritmo di un tasso.
 Tra i vantaggi dell’applicazione di un modello di Poisson vi è la

possibilità di analizzare matrici di dati in cui sono presenti zero
osservazioni in una o più categorie di interesse .
 Inoltre il modello di Poisson non assume l’omoscedasticità della

variabile risposta nelle varie categorie dei predittori, che è parte
degli assunti del modello lineare generale.
IL CONFONDIMENTO
IN UNO STUDIO DI COORTE
 Nell’analisi di dati epidemiologici occorre valutare la presenza di

variabili che, se associate sia alla variabile risposta (incidenza,
mortalità, ecc...) che al fattore in studio (esposizione, trattamento,
fattori genetici, ecc...) possono produrre distorsioni nelle stime di
associazione.
 Tali fattori prendono il nome di confondenti, il fenomeno viene

denominato “confondimento” e l’eventuale distorsione indotta
nelle stime viene denominata “bias da confondimento”.
 Esempio di confondimento generato da una variabile categorica
(sesso) nell’ambito di uno studio di coorte in cui anche
l’esposizione è riportata su scala dicotomica (presenza o assenza).
Tutti i soggetti Strato 1 Strato 2

Maschi Femmine
Morti Pers/anno Morti Pers/anno Morti Pers/anno
Esposti 108 44870 30 3218 78 41652
Non-Esposti 51 21063 44 11699 7 9364
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 
 Perché vi sia confondimento occorre che la stima di RR ottenuta

nell’analisi dei dati raggruppati (analisi pooled) sia diversa da
quella derivante dall’analisi stratificata per i livelli del
confondente.
 Se però le stime di RR risultassero diverse tra i vari strati del
fattore in esame vi sarebbe indicazione che tale variabile modifichi
l’effetto dell’esposizione (o del trattamento).
 In tal caso vi sarebbe interazione tra le variabili e non

confondimento.
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 
 La differenza è fondamentale in quanto, mentre il confondimento

in genere non è di nessun interesse per il ricercatore, l’interazione
(o modificazione d’effetto) può rappresentare un fenomeno di
grande interesse dal punto di vista bio-medico.
 Nell’esempio sopra riportato le stime di RR nei due strati del

confondente sono identiche (RR=2.5) e molto diverse dalla stima
pooled (RR=0.99), per cui non vi è dubbio che ci si trovi in
presenza di confondimento.
 T  0.99
RR  1  2.5
RR  2  2.5
RR
0.71,1.4  1.6,3.9  1.2,5.4 
 Si noti inoltre che il RR pooled è vicino al valore atteso di 1 di non

effetto dell’esposizione, mentre le due stime entro gli strati del
confondente risultano entrambe superiori a 1 (p<0.05).
 In presenza di confondimento occorre procedere a una stima

comune dei RR entro gli strati del confondente e del relativo
intervallo di confidenza (in genere al 95%).
 Tale procedimento può essere effettuato mediante il modello di

regressione di Poisson.
Maschi Femmine
Esposti 108 44870 30 3218 78 41652
Non-Esposti 51 21063 44 11699 7 9364
 Perché una variabile si comporti da confondente è necessario

che
sia associata sia alla variabile risposta che al fattore in studio,
( nell’esempio riportato, sia all’esposizione che al tasso).
 Nell’esempio sopra riportato ciò può essere evidenziato
stimando i tassi nelle due categorie di esposizione, separatamente
per i maschi e per le femmine.
Maschi Femmine
Esposti 108 44870 30 3218 78 41652
Non-Esposti 51 21063 44 11699 7 9364
Maschi Femmine
 30 78
Esposti  E ,M   932.3 105 E , F   187.3 105
3218 41652
 44 7
Non-Esposti  NE , M   376.1 10 5 NE , F   74.8 10 5
11699 9364
 I tassi nei maschi sono più elevati dei corrispondenti tassi nelle
femmine entro ogni categoria di esposizione (associazione
tra stimatore di rischio e variabile di stratificazione).
Maschi Femmine
Esposti 108 44870 30 3218 78 41652
Non-Esposti 51 21063 44 11699 7 9364
 Inoltre le femmine contribuiscono al gruppo degli esposti con

molte più persone-anno rispetto ai maschi, mentre il loro
contributo al gruppo dei non-esposti è simile a quello dei maschi
(associazione tra esposizione e variabile di stratificazione).
Maschi Femmine
Esposti 108 44870 30 3218 78 41652
Non-Esposti 51 21063 44 11699 7 9364
 In maniera più intuitiva, si può affermare che il confondimento è

dovuto alla presenza di molte femmine tra gli esposti, che,
presentando tassi inferiori a quelli dei maschi, hanno
mascherato
l’effetto dell’esposizione.
CONTROLLO DEL CONFONDIMENTO MEDIANTE
MODELLO DI REGRESSIONE DI POISSON
 Si supponga di applicare un modello log-lineare di Poisson a

dati di uno studio di coorte, utilizzando:
a) come variabile risposta il numero di eventi osservati;
b) come predittori una variabile dicotomica di esposizione E e un

confondente C;
c) come offset il logaritmo degli anni persona a rischio.

 I valori stimati attesi del modello saranno i seguenti:

log   
 
0
 E
1
 C
2
 Dal rapporto tra i valori stimati attesi per gli esposti e per i non
esposti e passando all’antilogaritmo:
E  1   2 CE  CNE 

e
NE
 A parità di valori (ovvero entro ogni strato) del confondente:
E 
 1
e   RR

 NE
 Quindi l’anti-logaritmo della stima del coefficiente 1 per
l’esposizione rappresenta una stima del rapporto tra il tasso E
negli esposti e il tasso NE nei non-esposti.
 Di conseguenza, quando applicato allo studio di una patologia

rara, rappresenta una stima non distorta di rischio relativo,
corretta per l’effetto del confondente introdotto nel modello.
 Lo stesso risultato si sarebbe ottenuto nel caso più generale di C

espresso su scala categorica a più di due livelli, nel qual caso
però sarebbero state necessarie più variabili dummies per
modellarne l’effetto.
MODIFICAZIONE D’EFFETTO
IN UNO STUDIO DI COORTE
 La modificazione d’effetto si produce quando una variabile

interagisce con l’esposizione, per cui tale fenomeno, viene anche
denominato interazione.
 La presenza di interazione può essere evidenziata dalla presenza

di un diverso andamento dello stimatore di rischio entro le
categorie della variabile di interazione.
 Contrariamente a quanto avviene per il confondimento, il

ricercatore non può produrre stime aggiustate per l’effetto di tale
variabile (stime comuni d’effetto), in quanto l’associazione tra
esposizione e rischio è diversa nei gruppi a confronto.
 Un esempio di tale fenomeno è illustrato nella tabella seguente,
in cui gli eventi di interesse sono rappresentati dai nuovi casi di
malattia osservati in una coorte ipotetica.

Maschi Femmine
Casi Pers/anno Casi Pers/anno Casi Pers/anno
Esposti 391 769309 189 478383 202 290926
Non-Esposti 119 358341 78 242043 41 116298
 T  1.5
RR  1  1.2
RR  2  2.0
RR
1.2,1.9  0.94,1.6  1.4,2.8 
 T  1.5
RR  1  1.2
RR  2  2.0
RR
1.2,1.9  0.94,1.6  1.4,2.8 
 Nell’intera coorte in studio il rischio di ammalarsi sembra

associato
all’esposizione, essendo lo stimatore di RR superiore a 1 in modo
statisticamente significativo.
 Stratificando per sesso, si osserva una differenza di rischio relativo
tra maschi e femmine, poiché i primi presentano un lieve eccesso
di
rischio non significativo (RR = 1.2), mentre nelle femmine
l’esposizione porta a un raddoppio del rischio (RR = 2.0).
 In sostanza i risultati suggeriscono la presenza di interazione tra
sesso ed esposizione, nel senso che le femmine sarebbero più
suscettibili all’esposizione rispetto ai maschi .
MODELLO DI REGRESSIONE DI POISSON
CON INTERAZIONE (CENNI)
 La presenza di interazione non permette di ottenere stime comuni

di RR tra i diversi livelli del modificatore d’effetto, per cui in
genere conviene produrre stime separate.
 Tuttavia può essere conveniente verificare se l’evidenza di

modificazione d’effetto sia attribuibile o meno alla fluttuazione
statistica .
 Per tale scopo esistono alcuni test formali, oppure, in alternativa, si

può fittare un modello di Poisson con un termine di interazione e
testarne la significatività statistica .
 Nel caso di un’esposizione dicotomica e di un modificatore
d’effetto anch’esso espresso su scala binaria, è sufficiente
introdurre nel predittore lineare un termine di interazione
 Tale variabile viene ottenuta come prodotto del modificatore

d’effetto per la variabile di esposizione:.

log   
 
0
 E
1
 M 
2
 EM
3
dove M rappresenta la variabile indicatrice per il modificatore

d’effetto con valore 0 nella prima categoria e valore 1 nella seconda.
 È agevole verificare che il modello permette di ottenere le due
stime separate di RR entro le due categorie della variabile M:


  
log  M  0   0   1 E  RR  M  0   e  1

 
    
log  M  1   0   1 E   2   3 E  RR  M  1  e  1   3
 Si noti che, quando 3 è pari a 0 la variabile M può essere al più un

confondente, in quanto le due stime di RR tenderanno a coincidere.
 Di conseguenza la presenza di interazione può essere testata

mediante un metodo consueto per i coefficienti di un modello GLM
(es: test di Wald, LRo test, Score test), applicato alla stima di 3.

Lezione 1

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lezione 1

Caricato da

Copyright:

Formati disponibili

Corso di Laurea in

Applicazione del modello di regressione di Poisson

Esercitazione pratica nell’ambito del

 L’Epidemiologia è la scienza che studia la distribuzione nello

 A tal fine si avvale di diverse tipologie di studio (disegni dello

sperimentale sperimentazioni cliniche

 Tale procedura consiste nell’assegnare in modo casuale il fattore

 I principali studi sperimentali sono i test di laboratorio, le

 Tali fattori sono noti come fattori di confondimento o confondenti.

 Per tale motivo gli studi sperimentali sono considerati come

 Ciò può avvenire, ad esempio, quando ogni soggetto in un solo

 Gli studi semi-sperimentali comprendono alcune indagini di

 In tali indagini l’osservazione viene condotta in modo da

 Ad esempio, è possibile selezionare due gruppi di operai, di cui

a) gli studi descrittivi, che comprendono lo studio ecologico

 Infatti in tale ambito vengono principalmente applicate le due

 Nell’ambito degli studi osservazionali, lo studio di coorte, o studio

 Infatti permette di osservare l’insorgenza della patologia dopo

 Tale procedura consiste nel confronto tra gruppi, denominati

 Sulla base della selezione dei soggetti si distinguono diverse

 Solitamente, vengono identificati simultaneamente i fattori di

I soggetti vengono quindi seguiti nel tempo per rilevare la

 Infati è sufficiente calcolare la frequenza con cui tali eventi si

 La probabilità del verificarsi degli eventi, condizionata al tempo di

 Nell’esempio sopra illustrato il rischio di ammalarsi negli esposti

 Il rapporto tra tali rischi, denominato Rischio Relativo (RR), può

 Il RR tenderà ad assumere valori vicini a 1 se non vi è associazione

 Valori compresi tra 0 e 1 saranno invece osservati per fattori

 Si noti come le stime di rischio siano condizionate alla durata del

 Se invece il tempo di osservazione fosse stato di 6 anni, si sarebbe

 Per distinguerlo dal rischio istantaneo (ovvero dal valore cui

 Il soggetto può risultare “perso di vista” (ad esempio per fenomeni

 In tal caso il tempo di osservazione si definisce troncato

 Un esempio può essere rappresentato dalla maggior parte delle

 Una coorte lavorativa infatti, si può formare solo in piccola parte al

In genere il periodo di studio è molto lungo e nel tempo nuove

 In genere la presenza del troncamento impedisce di produrre stime

Una possibilità per ottenere stimatori di rischio relativo è quella di

 La quantità  costituisce il tasso di comparsa degli eventi nella

 Nel caso in cui si studino patologie rare, per le quali il tasso di

Tempo di osservazione (follow-up)

Tempo di osservazione (follow-up)

 Si può osservare l’andamento approssimativamente lineare di tale

dove O sono gli eventi osservati e m viene denominata “massa

 Nella grande maggioranza delle applicazioni, la variabilità della

 Quindi si assume che solamente il numeratore contribuisca alla

p  dimensioni della popolazione a rischio,

 Se applicata allo studio di patologie rare, tale distribuzione può

 La varianza della stima di un tasso è facilmente calcolabile

che si ricava applicando la seguente formula approssimata per la

 Si supponga di aver osservato la mortalità per tumori maligni

Esposizione Morti Persone/Anno

Esposti 108 44870

Esposti 108 44870

 La stima del tasso per anno di osservazione negli esposti è:

 Il corrispondente tasso nei non esposti è:

Esposti 108 44870

 i relativi intervalli di confidenza al 95% sono:

 Si può quindi concludere che nel campione in studio non vi è

 Un risultato del tutto analogo si sarebbe potuto ottenere mediante

 Come sopra brevemente illustrato, il numeratore di un tasso,

 Di conseguenza, la relazione che lega il tasso a variabili di

 Si noti però che il modello di Poisson adotta come variabile