Epidemiologia Principi Generali

Ann. Fac. Medic. Vet. di Parma (Vol. XXIV, 2004) - pag. 209 - pag.
236
INTRODUZIONE ALLO STUDIO CASO-CONTROLLO IN EPIDEMIOLOGIA

Stefano Parodi1, Ezio Bottarelli2
Introduzione Secondo la denizione di Kleinbaum et al. (1982) lEpidemiologia la scienza che studia lo stato di salute o di malattia nelle popolazioni umane. La denizione pu essere estesa anche al settore della medicina veterinaria, essendo gli scopi primari dellepidemiologia umana e veterinaria sostanzialmente i medesimi. Secondo Thruseld (1995) i campi dazione dellepidemiologia si riferiscono, in sintesi, a: 1) acquisire informazioni riguardo alla storia naturale delle malattie e descrivere lo stato di salute di popolazioni nello spazio e nel tempo, anche stimando il numero di nuovi eventi come, ad esempio, i malati o i morti; 2) individuare lorigine delle malattie la cui causa ignota e ridurre la frequenza delle malattie la cui causa nota; 3) pianicare e monitorare i programmi di controllo delle malattie; 4) valutare i danni economici delle malattie e calcolare il rapporto costi/beneci delle azioni di controllo. Tali obiettivi possono essere raggiunti con una variet di disegni di studio e di approcci metodologici, che si avvalgono tutti di misurazioni di eventi sanitari, di cui le principali sono: lincidenza, la mortalit e la prevalenza. Lincidenza misura linsorgere di nuovi eventi, quasi sempre nuovi casi di malattia oppure segni clinici. Viene quindi calcolata in relazione al trascorrere del tempo, in genere sotto forma di velocit media con cui gli eventi si producono. Tale velocit viene chiamata tasso medio o, pi semplicemente, tasso (in inglese, rate). La mortalit del tutto analoga allincidenza, di cui rappresenta in molti studi un surrogato, in mancanza di informazioni sulla condizione di malattia nella popolazione in studio. Lanalogia ovviamente consiste nel fatto che si tratta di un evento di transizione da uno stato ad un altro (soggetto vivo vs. deceduto, oppure soggetto sano vs. malato). La differenza fondamentale che lincidenza non viene sempre considerata come evento irreversibile, potendosi vericare pi volte nel corso dellosservazione (ad esempio, nel caso di tumori multipli, di recidive, oppure di ricomparsa della stessa patologia nello stesso individuo), mentre levento morte produce necessariamente luscita del soggetto dallosservazione (periodo a rischio). Per quanto riguarda lincidenza, tale esclusione pu essere o meno effettuata a seconda del disegno dello studio.
1
Istituto G.Gaslini. Sezione Epidemiologia e Biostatistica, Direzione Scientica. Largo G. Gaslini 5, 16147 GENOVA. e-mail: stefanoparodi@ospedale-gaslini.ge.it 2 Universit degli Studi di Parma, Dipartimento di Salute Animale. Via del Taglio 10, 43100 PARMA. e-mail: ezio.bottarelli@unipr.it
209
Ann. Fac. Medic. Vet. di Parma (Vol. XXIV, 2004) - pag. 209 - pag. 236
La prevalenza rappresenta la presenza di una determinata condizione (di solito una malattia oppure unesposizione) in un determinato istante temporale (ad esempio, il 1 gennaio di un determinato anno). Viene misurata in genere sotto forma di proporzione o di percentuale; ad esempio, la proporzione di animali risultati positivi allintradermoreazione alla tubercolina in una mandria di bovini. Il tipo di misura da adottare e il suo utilizzo nellambito di unindagine epidemiologica variano a seconda del disegno dello studio, che a sua volta condizionato dagli obiettivi dellindagine, dalla disponibilit di risorse (costi, personale, tempo di esecuzione, ecc.), e da altre considerazioni inerenti la fattibilit, fra le quali rientrano, in medicina umana, anche problematiche di tipo etico. I principali disegni di studio in Epidemiologia I principali disegni di studi epidemiologici sono riassunti nello Schema 1. Essi possono essere classicati sulla base della possibilit del ricercatore di manipolare il fattore in studio, ad esempio lesposizione (in soggetti sani) oppure la somministrazione di farmaci (a soggetti malati). Si distinguono quindi tre grandi categorie (Kleinbaum et al., 1982): a) studi sperimentali b) studi quasi sperimentali (o semi sperimentali) c) studi osservazionali.
Schema 1 Principali disegni di studio epidemiologico.
Gli studi sperimentali (o, semplicemente, esperimenti) sono indagini in cui la distribuzione del fattore in studio viene decisa dallo sperimentatore, attraverso una procedura denominata randomizzazione. Tale procedura consiste nellassegnare in modo casuale il fattore (ad esempio un trattamento rispetto ad un placebo) nei soggetti in studio. I principali studi sperimentali sono i test di laboratorio, le sperimentazioni cliniche (clinical trials) e gli interventi di comunit (community intervention). Il loro vantaggio principale risiede nella possibilit di isolare gli effetti di interesse dai fattori estranei che possono inuenzare le stime osservate, detti fattori di confondimento
210
(confounders), persino nel caso in cui questi non siano completamente noti. Infatti la procedura della randomizzazione dovrebbe assicurare una loro ripartizione omogenea. Per tale motivo gli studi sperimentali sono considerati come altamente probanti lassociazione tra un fattore in studio e una determinata risposta (ad esempio fra trattamento farmacologico e remissione della patologia). Tuttavia, in moltissime indagini, per ragioni sia etiche che di ordine pratico, la randomizzazione non pu essere effettuata. Ad esempio, sarebbe eticamente inaccettabile sottoporre un gruppo di pazienti umani ad una terapia dallefcacia incerta o ignota per il trattamento di una malattia per la quale esiste gi un farmaco sicuramente attivo. E quindi evidente che, in molti casi, diviene necessario ricorrere ad altre tipologie di studio. Tra queste, gli studi semi-sperimentali sono caratterizzati dalla possibilit di manipolare il fattore in studio, senza per utilizzare la randomizzazione. Ci pu avvenire, ad esempio, quando ogni soggetto in un solo gruppo viene osservato prima e dopo un determinato trattamento oppure, nellepidemiologia umana, quando il fattore in studio viene rilevato su soggetti volontari. Gli studi semi-sperimentali comprendono alcuni studi di laboratorio, clinical trials, e studi di valutazione degli interventi di politica sanitaria (ad esempio, introduzione di un limite di velocit, adozione di un divieto al fumo in luoghi pubblici, ecc...). Gli studi osservazionali sono indagini in cui il ricercatore non pu manipolare il fattore in studio. In tali indagini losservazione viene condotta in modo da assomigliare il pi possibile ad un esperimento (osservazione pianicata). Ad esempio, possibile selezionare due gruppi di bovine in lattazione, abitualmente sottoposte a due differenti tipi di mungitura, e seguirli entrambi nel tempo per vericare se vi sono differenze nella comparsa di mastite. Gli studi osservazionali possono essere distinti in due grandi categorie: a) gli studi descrittivi, che comprendono lo studio ecologico (spesso considerato come lo studio descrittivo per eccellenza) e lo studio trasversale (cross-sectional); b) gli studi analitici, tra cui i pi importanti sono lo studio di coorte e lo studio casocontrollo. Gli studi analitici rivestono grande importanza in quanto sono considerati probanti e possono essere condotti in situazioni in cui la distribuzione del fattore in studio (tipicamente unesposizione) non pu essere controllata dal ricercatore. Lo studio di coorte, o studio di follow-up, considerato lo studio analitico per eccellenza, nel senso che permette di osservare linsorgenza della patologia dopo lavvenuta esposizione, di misurare quindi i tempi di esposizione e di ottenere stime di associazione tra esposizione e occorrenza di una determinata patologia, confrontando gruppi (coorti) di esposti e di non-esposti. Tuttavia, in alcune condizioni lo studio di coorte pu essere di difcile realizzazione. In particolare, per lo studio di patologie a lunga latenza pu necessitare di un tempo di osservazione estremamente prolungato. Inoltre, esso comporta costi piuttosto elevati e presenta il limite di poter indagare una sola (o pochissime) esposizioni alla volta, per cui in genere non pu essere impiegato per generare nuove ipotesi. Al contrario, lo studio caso-controllo, anche se molto pi esposto al rischio della presenza di fattori che possono introdurre distorsioni sistematiche (denominate bias) nelle stime, presenta il vantaggio di risultare realizzabile in condizioni in cui lo studio di coorte non pu essere effettuato, ad esempio quando non si conosce la dimensione della popolazione in studio.
211
I principali stimatori nellEpidemiologia Osservazionale Dal momento che le indagini epidemiologiche vengono effettuate su campioni, i cui parametri calcolati rappresentano una stima statistica dei parametri di una popolazione generale, tali variabili vengono anche chiamate stimatori. La presente trattazione sar focalizzata su variabili che sono associate alla probabilit di contrarre una determinata patologia (o altro evento ad essa correlato, come la comparsa di sintomi, la morte del soggetto, ecc.) in un periodo determinato di osservazione. Alcuni studi hanno semplicemente uno scopo descrittivo e si limitano alla produzione di misure di frequenza. Tuttavia, gran parte delle indagini epidemiologiche mira a stimare lassociazione tra determinate esposizioni e probabilit di contrarre una determinata patologia, tipicamente rispetto ad un gruppo di riferimento costituito da soggetti non esposti o poco esposti. Tali studi forniscono quindi misure di associazione. A) Misure di frequenza Le principali misure di frequenza in Epidemiologia sono: il rischio, lodd e il tasso. Il rischio viene denito come probabilit di transizione (in genere di incidenza o di morte) condizionata al tempo di osservazione. Il rischio si riferisce ad un evento che potr accadere in futuro; essendo denito in termini di probabilit, assume valori compresi fra 0 e 1 ed adimensionale, ovvero viene espresso sotto forma di un numero puro (privo di unit di misura), talvolta moltiplicato per cento ed espresso quindi come percentuale. Pu essere anche denominato rischio cumulativo, in quanto rappresenta una probabilit cumulativa nel tempo, oppure rischio istantaneo quando misurato in un intervallo temporale molto limitato, approssimabile ad un istante. L odd rappresenta il rapporto tra una probabilit (in genere stimata da una proporzione) e il suo complemento a 1. In Epidemiologia vengono ampiamente impiegati: (a) lodd di rischio, denito come il rapporto tra il rischio ed il suo complemento a 1, (b) lodd di prevalenza, ottenuto dal rapporto tra la proporzione di soggetti affetti da una determinata patologia (casi prevalenti), rispetto a quelli non affetti3, (c) lodd di esposizione, ottenuto dal rapporto tra la proporzione di esposti e di non esposti. Il tasso rappresenta una misura della transizione nel tempo da uno stato ad un altro, tipicamente dallo stato di non-malattia a quello di malattia negli studi di incidenza, oppure dallo stato di vivo a quello di deceduto negli studi di mortalit. Viene denito a partire dal concetto sico di velocit, di cui in inglese condivide il nome (rate), ove rappresenta la variazione dello spazio percorso nel tempo. Si tratta in genere di una misura denita entro un intervallo di tempo nito, per cui viene denominato anche tasso medio. Ad esempio il numero di nuove diagnosi (casi incidenti) di una determinata patologia ogni centomila abitanti per anno di osservazione, oppure il numero di morti per una specica causa, sempre riferito ad
3
Oppure, pi semplicemente, dal numero di malati diviso quello dei non malati.
212
una determinata popolazione e ad un tempo di osservazione (tasso di mortalit). Il tasso medio viene anche denominato densit di incidenza. Mentre il rischio misura la probabilit di un determinato evento, e pu essere riferito ad un singolo individuo (rischio individuale), il tasso misura la variazione delloccorrenza di tale evento nel tempo, e viene riferito sempre ad un insieme di soggetti e ad una misura dellandamento temporale (in genere anni di osservazione). La differenza concettuale tra tasso e rischio pu risultare pi chiara mediante un esempio: per un soggetto di 60 anni det di una determinata popolazione, la probabilit di morte entro i prossimi 30 anni potrebbe essere del 90%, mentre il tasso di mortalit generale per gli individui di 60 anni di et della stessa popolazione potrebbe essere dellordine di alcune centinaia di eventi ogni 100 000 abitanti per anno di osservazione4. Il tasso istantaneo misura la variazione della condizione studiata in un intervallo temporale molto limitato, cio approssimabile ad un istante. Riprendendo lanalogia con il concetto di velocit, il tasso istantaneo simile alla misura che un automobilista rileva sul contachilometri (che indica la velocit istantanea), mentre il tasso medio analogo alla velocit media tenuta in un percorso. Dal punto di vista epidemiologico, il tasso istantaneo unastrazione concettuale, utile per la modellazione statistica dei dati. Infatti mentre in sica si pu parlare di variazione istantanea dello spazio percorso, in quanto si tratta di una quantit continua, in epidemiologia si misura quasi sempre una quantit discreta (numero di eventi). Il concetto di tasso istantaneo viene impiegato negli studi di sopravvivenza, in cui viene denominato hazard. Pi in generale, tale concetto pu essere utilizzato per ricavare analiticamente le relazioni tra tasso medio e rischio. Infatti, considerando di seguire nel tempo una popolazione sana ssa, cio denita in un preciso momento oltre il quale non entrano nello studio nuovi soggetti, se si studiano eventi irreversibili (morte o prima incidenza), la popolazione potr solamente diminuire, in quanto i soggetti escono progressivamente dallo studio per avvenuto decesso o insorgenza della malattia, ma nessun altro individuo entra nellanalisi. Nel tempo, quindi, la proporzione di soggetti che rimangono nella popolazione tender a diminuire in dipendenza dellintensit della mortalit o dellincidenza. Assumendo che la variazione della popolazione tra il tempo 0 e il tempo t sia approssimativamente proporzionale alla popolazione stessa, si ottiene la seguente relazione tra rischio R e tasso , ove e rappresenta il numero di Nepero (2.7183). La dimostrazione formale della relazione riportata in Appendice 1.
R 0 ,t = 1 e t
Dalla suddetta relazione si deduce che, se lincidenza (almeno approssimativamente) costante nel tempo, il rischio di una popolazione chiusa
4
Naturalmente tale tasso aumenter allaumentare dellet anagraca e potr essere studiato seguendo le singole generazioni no alla morte (ovvero, per coorti), oppure osservando le persone di una determinata et che si presentano in una popolazione (ovvero per contemporanei). Tale distinzione comunque non interessa il disegno di studio caso-controllo.
213
presenta una relazione esponenziale inversa con il tasso (che in questo caso sia tasso medio che istantaneo, dato che si assume costante nel tempo). Tale relazione viene illustrata nella Figura 1, in cui si evidenzia come il rischio nel tempo aumenti pi rapidamente per tassi elevati. Si noti che, per piccoli valori di R e t (vicini allorigine), la relazione tra le variabili quasi lineare, per cui vale la seguente approssimazione, che trova impiego negli studi di patologie a bassa incidenza, quali le malattie cronicodegenerative:
R0,t t
La dimostrazione formale di tale relazione riportata nella parte nale dellAppendice 1.
Figura 1 Andamento del rischio in funzione del tempo e di tre diversi tassi (con 1 > 2 > 3).
B) Misure di associazione Le misure di associazione forniscono una stima della forza della relazione statistica che lega un fattore in studio al vericarsi di una determinata patologia e vengono quindi utilizzate per produrre inferenza causale. Tuttavia, non sufciente produrre una misura di associazione statisticamente signicativa tra unesposizione e una misura di occorrenza di patologia per dimostrare la causalit di tale associazione. Il punto cruciale di molte indagini lindividuazione di un gruppo di soggetti
214
non esposti o, se ci non possibile, a basso livello di esposizione, che si ritiene quindi presentino il rischio pi basso. Tale gruppo viene utilizzato come riferimento e in genere le stime di associazione vengono espresse sotto forma di rapporto delle stime di frequenza nei gruppi di esposti rispetto al gruppo dei non esposti. Una misura largamente impiegata il rapporto tra tassi, denominato anche rate ratio o, meno comunemente, rapporto di densit di incidenza (incidence density ratio) (Miettinen, 1975; Kleinbaum et al., 1982). Sotto opportune condizioni il rapporto tra tassi pu essere interpretato come uno stimatore di rischio relativo. Infatti, come mostrato in precedenza, nel caso di patologie rare con tassi costanti nel periodo di tempo considerato, il rischio approssima il prodotto del tasso per il tempo. Quindi, date due popolazioni N0 e N1, di cui N0 rappresenti la categoria di riferimento, R0 e R1 i rischi corrispettivi per lincidenza di una patologia di interesse nel tempo t, e inne 0 e 1 i corrispondenti tassi di incidenza, si ha:
R1 1 t R1 = 0 R0 R0 t
Unaltra misura fondamentale il rapporto tra rischi (RR), denominato risk ratio o rischio relativo (relative risk), che pu essere stimato direttamente dal rapporto tra due rischi cumulativi. Inne, l Odds Ratio (OR) viene ricavato dal rapporto tra due Odds, a loro volta ottenuti dal rischio di contrarre una determinata patologia in due distinte popolazioni (tipicamente esposti e non-esposti); esso dovrebbe essere indicato pi propriamente come ROR (Risk Odds Ratio), per distinguerlo da altri rapporti di Odds. Tuttavia, in genere, nella letteratura scientica tale distinzione risulta implicita. Per patologie rare lOR rappresenta una stima di rischio relativo. Infatti, se Odd1 e Odd2 sono gli odd corrispondenti ai rischi R1 e R2 per due popolazioni a confronto e se la patologia rara, allora le quantit 1-R1 e 1-R2 saranno entrambi approssimabili circa a 1, per cui:
Odd 1
R1 1 R1 R2 1 R2
Odd 2
R1 1 R1 R OR 1 R2 R2 1 R2
215
dove il simbolo signica uguale per denizione ed il simbolo signica "uguale circa". Tale propriet dellOR pu sembrare poco utile, in quanto il rischio relativo pu essere direttamente calcolato dal rapporto tra i rischi utilizzati per stimare i corrispondenti Odds (ovvero dal rapporto tra R1 e R2). Tuttavia, nello studio casocontrollo non si ha la possibilit di misurare direttamente il rischio negli esposti e nei non esposti, ma si deve procedere misurando lesposizione nelle due categorie di malattia (tipicamente malati e sani, denominati rispettivamente casi e controlli). LOR cos ottenuto, che un Odds Ratio di esposizione (Exposure Odds Ratio), pu essere utilizzato per stimare il corrispondente OR di rischio, che a sua volta, come appena dimostrato, uno stimatore di rischio relativo. La suddetta propriet dellOR di esposizione pu essere ricavata analiticamente a partire dal teorema di Bayes, come illustrato nellAppendice 2. La relazione tra OR e rate ratio pu essere ricavata in modo piuttosto semplice. Infatti, in una popolazione stabile (dove cio la popolazione N non varia sensibilmente nel tempo di osservazione t), il rapporto tra due tassi di incidenza 1 e 0 pari a:
C1 C1 1 N1t C0 = = C0 N1 0 N 0 t N 0
Il rapporto tra C1 e C0 rappresenta lOdd di esposizione per i casi, mentre il rapporto tra N1 e N0 lOdd di esposizione per i non casi5, per cui:
1 = ROR 0
Riepilogando, lOR di esposizione stimatore dellOR di rischio sotto opportune condizioni (ovvero che i casi e i non-casi, detti in questo contesto controlli, originino dalla stessa popolazione o, almeno, da popolazioni che siano state sottoposte allo stesso periodo di osservazione). LOR di rischio anche equivalente ad un rapporto tra tassi. LOR rappresenta quindi uno stimatore di rischio relativo che non distorto per eventi rari. Non distorto (in lingua inglese unbiased) signica che il suo valore stimato da un campione casuale della popolazione generale coincide mediamente
5 In genere lOdd di esposizione nei non casi (denominati controlli nello studio caso-controllo) non stimato dallintera popolazione, ma da un suo campione selezionato con precisi criteri, come si vedr meglio in seguito.
216
(cio per ripetuti campionamenti) con il valore vero della popolazione stessa. Il fattore di distorsione (bias) pu essere ricavato immediatamente dalla relazione che lega lOR di rischio al risk ratio:
R1 1 R0 1 R1 R1 1 R0 = RR = OR 1 R R0 R0 1 R1 1 1 R0
quindi il fattore di distorsione pari al rapporto tra il complemento a 1 dei due rischi, inserito nella parentesi tonda della formula sopra riportata. Quando entrambi i rischi sono piccoli (ovvero in presenza di una patologia rara), come sopra illustrato, tale rapporto tende a 1 e OR tende a RR. Si noti che tale rapporto tende comunque a 1, anche per patologie non rare, quando i due rischi sono simili. Nel caso si confrontino due popolazioni che differiscono per un fattore di esposizione, lOR sar quindi pari a RR e al valore atteso di 1 sotto lipotesi nulla di assenza delleffetto dellesposizione stessa, sia per patologie rare che per patologie a elevata incidenza. Qualora il rischio R0 per la popolazione non esposta fosse inferiore a quello della popolazione esposta R1, si osserverebbe un RR superiore a 1 e lOR risulterebbe distorto per eccesso (in quanto il numeratore 1-R0 risulterebbe maggiore del denominatore 1-R1). Al contrario, se lesposizione fosse protettiva, ovvero in presenza di R0 > R1, lOR sarebbe inferiore a 1, e risulterebbe stimatore distorto per difetto di RR. Quindi, in sintesi, lOR tende ad enfatizzare sistematicamente leffetto dellesposizione, in particolare per patologie non rare. Un esempio numerico permette di vericare tale propriet: si supponga di avere studiato due popolazioni per un determinato intervallo di tempo t. La probabilit di ammalarsi per gli esposti in tale intervallo di tempo era pari al 3 per mille (ovvero: R1 = 0.003), mentre la corrispondente probabilit nella popolazione dei non esposti era pari all1 per mille (R0 = 0.001). La stima di rischio relativo sar quindi ottenibile immediatamente dal rapporto tra i rischi:
RR =
R1 0.003 = =3 R0 0.001
per cui si stima che lesposizione abbia triplicato il rischio di ammalarsi. Il corrispondente OR sar:
R1 0.003 ^ 1 R1 1 0.003 = = 3.006 OR = 0.001 R0 1 R0 1 0.001

217
LRR e lOR presentano quindi valori molto simili tra loro. Si supponga ora di studiare sulla stessa popolazione lincidenza di unaltra patologia meno rara, i cui rischi siano rispettivamente, del 15 e del 5 per cento (ovvero R1 = 0.15 e R0 = 0.05). Il rischio relativo sar ancora pari a 3:
RR =
R1 0.15 = =3 R0 0.05
LOR invece risulter sensibilmente pi elevato:
R1 0.15 ^ 1 R1 1 0.15 OR = = = 3.35 R0 0.05 1 R0 1 0.05

Introduzione allo Studio Caso-Controllo La caratteristica fondamentale dello studio caso-controllo la misura dellesposizione pregressa effettuata separatamente in due gruppi diversi di soggetti, denominati appunto casi e controlli. Per tale motivo esso noto anche come studio retrospettivo e viene talora denominato studio case-referent o, pi raramente, casecompeer (Cole, 1979; Breslow and Day, 1980). Differisce dallo studio trasversale in quanto seleziona i casi e i non casi da popolazioni differenti (Kleinbaum et al., 1982). Storicamente, il primo studio caso-controllo fu probabilmente lindagine di Lane-Claypon (1926) sullassociazione tra tumore maligno della mammella e fertilit. Tale metodologia di studio venne utilizzata molto sporadicamente nei due decenni successivi, nch nel 1951 Corneld dimostr che il rapporto tra le frequenze di esposizione nei casi e nei controlli poteva essere impiegato per stimare il rischio relativo di malattia (nell Appendice 2 riportata la dimostrazione formale di tale propriet applicata allOR). Ulteriore impulso venne poi fornito dal contributo teorico di Mantel e Haenszel (1959), in cui vennero descritti metodi per la valutazione e per il controllo del confondimento sia per quanto riguarda la pianicazione dello studio che dal punto di vista della metodologia statistica. A partire dagli anni 60, lo studio caso-controllo si diffuso enormemente, sino a diventare oggi, probabilmente, lo studio epidemiologico osservazionale pi utilizzato. Tra i vantaggi principali, che ne giusticano lampio utilizzo, vi lapplicabilit diretta sia allessere umano che agli animali domestici, dato che si tratta di uno studio osservazionale in cui, come gi accennato in precedenza, lesposizione
218
non deve essere somministrata dallo sperimentatore. Rispetto agli studi di coorte, permette di valutare leffetto di diverse esposizioni e quindi leventuale presenza di interazione tra di esse. Permette inoltre una pi agevole raccolta di informazioni su diversi possibili confondenti e, inne, in molte situazioni risulta pi potente, poich in grado di includere un numero di casi molto superiore, specialmente se si tratta di studiare patologie cronico-degenerative (cio rare), che in uno studio di coorte insorgono solamente in numero limitato e dopo un prolungato periodo di osservazione. Uno studio caso-controllo basato su unintera popolazione (cio che campiona casi e controlli da una popolazione generale) permette anche di ottenere una stima del tasso di incidenza, che pi difcilmente ottenibile in un disegno di coorte, in cui alcune categorie si riducono o scompaiono nel corso dellindagine (ad esempio, per invecchiamento della coorte, con conseguente scomparsa dei soggetti giovani, oppure per perdita di informazioni per migrazione dei soggetti). Un ulteriore vantaggio dello studio caso-controllo consiste nella rapidit con cui esso pu essere effettuato, ossia da poche settimane, se si utilizzano dati preesistenti (eventualit per piuttosto rara), a pochi anni. Tale rapidit si afanca a bassi costi derivanti o dalla disponibilit di dati preesistenti, oppure, pi comunemente, dalla fonte anamnestica dellinformazione sullesposizione pregressa e sui possibili confondenti, rilevati in genere tramite un questionario. Tuttavia alcuni studi caso-controllo possono essere piuttosto costosi se al questionario si aggiungono informazioni da analisi genetiche o da campioni biologici. Lo studio caso-controllo risulta particolarmente adatto per indagare patologie rare, in cui si possono selezionare tutti i casi incidenti (nuovi casi) in un determinato territorio per lintero periodo di osservazione (utilizzando, ad esempio, segnalazioni ospedaliere, da centri coinvolti nello studio, schede di dimissione, oppure dati di registro di patologia). In ogni caso, si applica molto bene anche allo studio di patologie frequenti, in cui per, per ragioni di costi, pu essere conveniente selezionare un campione dei casi, anzich la loro totalit. Inne, contrariamente agli studi descrittivi, lo studio caso-controllo ha valore probante riguardo allassociazione causale tra esposizione e rischio di insorgenza della patologia in analisi; tale vantaggio, nellambito degli studi osservazionali, condiviso solamente dallo studio di coorte. A fronte degli evidenti vantaggi, lo studio caso-controllo presenta per, specialmente rispetto allo studio di coorte, alcuni limiti che devono essere attentamente presi in considerazione in fase sia di pianicazione dello studio che di interpretazione dei risultati. In particolare, lo studio caso-controllo non adatto a valutare leffetto di esposizioni rare, ma tale limite presente solo se la prevalenza degli esposti bassa nel sottogruppo dei casi. Infatti, se lesposizione presenta un elevato rischio attribuibile (ovvero responsabile di unampia proporzione di casi, come ad esempio lesposizione ad asbesto quale fattore di rischio per il mesotelioma della pleura), lo studio caso-controllo risulta comunque efcace nel rilevare la sua associazione con la patologia. In genere lo studio caso-controllo permette solo di ottenere stime relative della frequenza di patologia, anche se, come sottolineato poco sopra, quando basato su popolazione pu consentire la stima di tassi di incidenza. Ci risulta
219
particolarmente agevole se i casi sono estratti da un archivio di patologia (quale un Registro Tumori). Il limite principale dello studio caso-controllo, probabilmente, risiede nella sua suscettibilit a diversi fattori di distorsione (bias). Il primo bias da cosiderare il bias di selezione, che pu originare dalla scelta inadeguata dei casi o, pi comunemente, dei controlli. Infatti se questi ultimi non sono rappresentativi della popolazione generale, lassociazione eventualmente osservata nel campione potrebbe essere diversa da quella presente nella popolazione. Un altro possibile bias rappresentato dalla differenza di informazione ottenuta dai casi rispetto ai controlli. In particolare, i casi spesso tendono ad attribuire ad avvenute esposizioni linsorgenza della loro patologia, per cui possono ricordare meglio o pi intensamente lavvenuta esposizione (recall bias, chiamato talvolta anamnestic bias o rumination bias). Il bias di selezione non caratteristico solo degli studi caso-controllo, ma pu essere presente, in modo particolarmente insidioso, anche in altre indagini epidemiologiche sia sperimentali che osservazionali. Il recall bias invece tipico degli studi caso-controllo, in quanto deriva dalla raccolta anamnestica dellesposizione. I bias da confondimento, per le variabili pi importanti, possono essere controllati mediante appaiamento (matching). Leffetto delle variabili che non sono oggetto di appaiamento pu essere controllato mediante opportuno modellamento statistico.
Pianicazione dello studio Le due aree principali in cui possono insorgere difcolt nella pianicazione e conduzione di uno studio caso-controllo sono: a) la selezione dei soggetti in studio (specialmente la scelta del gruppo di controllo) b) il trattamento del confondimento e dellinterazione. Per quanto riguarda la selezione dei casi, questi possono essere incidenti, prevalenti, o deceduti (in tal caso viene intervistato in genere il parente pi prossimo). Gli studi con casi incidenti sono preferibili, in quanto lintervista ai parenti dei deceduti pu fornire informazioni meno accurate e complete, mentre i casi prevalenti possono essere selezionati per qualche caratteristica legata alla loro maggiore capacit di sopravvivenza. Ad ogni modo, dal momento che si utilizza linformazione a priori (cio rilevata prima dellinizio dello studio) sulla condizione di malattia, in genere i casi vengono campionati da una popolazione diversa rispetto a quella dei controlli, e ci costituisce una differenza fondamentale rispetto allo studio trasversale, che campiona dalla stessa popolazione sia i malati (quasi sempre casi prevalenti) che i non malati. La denizione dei casi dovrebbe essere il pi possibile omogenea, a meno
220
che non si conducano studi estremamente ampi (ad esempio studi multicentrici), che concettualmente possono essere considerati come un insieme di studi casocontrollo condotti simultaneamente (tipicamente con un solo gruppo di controllo per ogni gruppo di casi). Un esempio costituito dallo studio di popolazione condotto su 11 aree italiane (Comune di Torino, Province di Firenze, Forl, Imperia, Latina, Novara, Ragusa, Siena, Varese, Vercelli e Verona), tra lassociazione ad esposizioni professionali e linsorgenza di neoplasie dellapparato emolinfopietico (Costantini et al., 1992). Tali neoplasie costituiscono un gruppo di patologie eterogeneo, per le quali per esiste almeno una indicazione di una possibile associazione con fattori di rischio nellambiente di lavoro. Per assicurare unelevata omogeneit dei casi, talvolta viene operata una restrizione ad un determinato sottogruppo di et, sesso o di altri fattori. Per evitare bias di selezione, sia nei casi che nei controlli, occorre evitare la selezione degli individui sulla base di caratteristiche associate allesposizione. Ad esempio, se lesposizione causa sintomi o patologie diverse dalla malattia in esame, pu per favorire una maggiore frequenza di visite mediche e controlli, che a loro volta possono portare ad unanticipazione della diagnosi, con la rilevazione di patologie asintomatiche o silenti; ci produce una sovrastima dellassociazione. Tale bias risulta per maggiormente insidioso negli studi di follow-up, in cui tende a causare una sovrastima dei tassi osservati. Le fonti di informazione sui casi incidenti sono rappresentate da: registri di patologia, dipartimenti di patologia, schede di ricovero o dimissione ospedaliera e, pi raramente, registri personali di medici di base. Nel caso degli animali, la fonte pi importante rappresentata dal registro tumori animali coordinato dal CE.R.O.V.E.C. (Centro di referenza nazionale per loncologia veterinaria e comparata) di Torino. La selezione del tipo di controlli e il calcolo della loro numerosit rappresentano punti cruciali nella pianicazione di uno studio caso-controllo. La scelta di controlli ospedalieri viene utilizzata in quanto permette un notevole risparmio di costi. Lintervistatore pu infatti rilevare informazioni sia sui casi incidenti che sui controlli agevolmente e in tempi molto rapidi; inoltre i soggetti ospedalizzati tendono ad essere maggiormente collaborativi. Se la serie dei casi basata su popolazione (cio rappresenta un campione casuale dei casi entro una popolazione oppure, come avviene frequentemente per patologie rare, costituisce la totalit dei casi incidenti nel periodo di conduzione dello studio), allora la scelta dei controlli dovrebbe essere effettuata su un campione della popolazione, scelto in modo randomizzato. Alternativamente, al ne di assicurare un miglior controllo del confondimento, i controlli possono essere selezionati mediante appaiamento (matching). Tuttavia, la scelta dei controlli di popolazione deve tenere conto dellaumento del costo dello studio e del rischio di ottenere un elevato numero di non rispondenti. Lappaiamento consiste nel campionare, per ogni caso, uno o pi controlli simili per la distribuzione di alcune variabili di confondimento (tipicamente: sesso, et e, negli studi multicentrici, area di provenienza). In genere viene stabilito un opportuno rapporto di campionamento (ad esempio 2 controlli per ogni caso, 4 controlli per ogni caso, ecc.). La decisione di effettuare o meno lappaiamento e la scelta delle variabili in base alle quali appaiare risulta cruciale nella pianicazione di
221
uno studio caso-controllo. Lappaiamento permette di ottenere sia maggiore potenza che un semplice ma efcace controllo del confondimento. Tuttavia la scelta di appaiare per una variabile che non realmente associata al rischio della malattia pu causare una perdita di efcienza dello studio (fenomeno noto come overmatching). Inoltre la scelta di un elevato numero di variabili per il matching pu aumentare, anzich diminuire, i costi, in quanto risulta necessario campionare i controlli in un numero molto elevato di strati (e quindi occorre campionarne un numero maggiore). Se invece i casi originano da una restrizione, anche i controlli dovranno essere selezionati applicando la stessa procedura. Per similitudine con gli studi sperimentali, in genere si ritiene che i controlli dovrebbero differire dai casi solamente per lassenza della patologia in esame. Tuttavia, come evidenziato da Cole (1979), tale assioma di solito inapplicabile agli studi caso-controllo. Inoltre, come sopra accennato, appaiando per variabili che non sono veri e propri confondenti, si pu ottenere leffetto di overmatching, ovvero di aumento della variabilit delle stime. Inne, vi il rischio di selezionare controlli con caratteristiche che non sono associate alla patologia bens allesposizione, generando cos una sottostima del rischio.
Inferenza statistica nello studio caso-controllo Nel caso pi semplice di una sola variabile di esposizione e in assenza di confondenti, il risultato di uno studio caso controllo pu essere riassunto in una tabella 2x2, nel modo seguente: Tabella 1. Risultato di uno studio caso-controllo con fattore di esposizione a due livelli (presente o assente).
Esposizione Casi Controlli Presente a c a+c Assente b d b+d Totale a+b c+d a+b+c+d
Lo stimatore di associazione di gran lunga pi comune nello studio casocontrollo, come accennato pi volte, lOdds Ratio di esposizione che, come gi detto, rappresenta una stima dellOR di rischio e, come tale, stimatore di rischio relativo. Esso pu essere ricavato semplicemente dalla seguente formula:
OR =
ad bc
222
Infatti, lodd di esposizione nei casi pu essere stimato dal rapporto a/b, mentre lodd di esposizione nei controlli da c/d. Dal rapporto tra tali quantit si ricava immediatamente la semplice formula sopra riportata. Sotto lipotesi di non-effetto dellesposizione, il valore atteso dellOR pari a 1, mentre sotto lipotesi di un incremento di rischio per gli esposti tale valore tender ad essere pi elevato. Al contrario, nel caso in cui lesposizione fosse protettiva, lOR sar compreso tra 0 e 1 e il fattore di rischio dovrebbe essere denominato, pi coerentemente, fattore protettivo. E necessario valutare se un OR che si discosti da 1 sia prodotto da unassociazione tra il fattore in studio e il rischio di patologia, oppure sia imputabile alla uttuazione casuale dovuta alla variabilit del campione. Per tale valutazione (che costituisce loggetto dell inferenza statistica) si pu procedere testando lassociazione tra esposizione e patologia mediante un test 2 di Pearson sulla tabella di contingenza corrispondente (v. esempio in Tabella 1). Tale metodo verr ripreso poco pi avanti. Alternativamente, si pu impiegare una stima della varianza dellOR (oppure la sua radice quadrata, che prende il nome di errore standard). I metodi pi utilizzati per ricavare la varianza dellOR sono quello di Woolf (1955) e quello di Miettinen (1976), che producono risultati in genere sovrapponibili, come mostrato nellesempio numerico in Appendice 3.
Metodo di Woolf Assumendo per il logaritmo dellOR una distribuzione (almeno approssimativamente) log-normale e assumendo lindipendenza dei conteggi nelle celle a, b, c e d (Tabella 1), la varianza del logaritmo dellOR sar:
a d Var [log(OR )]= VAR log = VAR [log(a )]+ VAR [log(d )]+ VAR [log(b )]+ VAR [log(c )] b c
La varianza del logaritmo di un conteggio uguale (circa) allinverso del conteggio stesso (Woolf, 1955), per cui la varianza del logaritmo dellOR potr essere ottenuta dalla seguente formula:
Var [log(OR )]
1 1 1 1 + + + a b c d
La signicativit statistica ad un determinato livello di (in genere, per convenzione, 0.05) potr essere ottenuta da un test basato sulla distribuzione normale standardizzata:
223
z=
log(OR ) = ES [log(OR )]
ad log bc 1 1 1 1 + + + a b c d
Se tale valore supera in valore assoluto il valore critico di 1.96, si pu affermare che vi unassociazione statisticamente signicativa tra esposizione e insorgenza di malattia. In modo del tutto equivalente si possono ricavare i corrispondenti intervalli di condenza per il logaritmo dellOR che, opportunamente esponenziati, producono gli intervalli di condenza dellOR:
95%CI (OR ) = OR e
Metodo di Miettinen
m1.96
1 1 1 1 + + + a b c d
Nel 1976 Olli Miettinen ha proposto un metodo anchesso basato sullapprossimazione del logaritmo dellOR alla distribuzione normale. Sotto tale ipotesi, data la relazione che lega la distribuzione normale standard alla distribuzione 2, il rapporto tra tale parametro al quadrato e la sua varianza dovrebbe essere distribuito come un 2 con 1 grado di libert:
12 =
log(OR ) Var [log(OR )]
La presenza di associazione tra esposizione e rischio di malattia, come sopra accennato, pu essere testata impiegando il test 2 di Pearson per la tabella di contingenza riportata in Tabella 1, ovvero:
12 =
(Oss Att )2
Att
dove gli eventi osservati Oss per ogni cella nella Tabella 1 sono stati indicati con le lettere a, b, c e d, rispettivamente, mentre i valori attesi corrispondenti (Att) vengono calcolati con il metodo di Pearson, moltiplicando per ogni cella il totale di riga per quello di colonna e dividendo il risultato per il totale generale. Ad esempio, per la cella con a eventi osservati in Tabella 1, i corrispondenti eventi attesi saranno:
224
(a + b )(a + c )
a +b+c+d
Utilizzando tale stima del valore di 2 nella formula sopra indicata si pu ottenere una stima della varianza del logaritmo dellOR:
Var [log(OR )]=
log(OR ) 12
da cui si possono ricavare gli intervalli di condenza dellOR nel modo seguente: [log (OR )]2 m 1.96
95%CI (OR ) = OR e
12
Calcolo dellOR per dati appaiati I metodi di stima dellOR e dei suoi limiti di condenza ora accennati sono validi soltanto in assenza di fattori di confondimento. Tale situazione, in realt, risulta piuttosto rara, per cui sono stati sviluppati diversi procedimenti di controllo del confondimento, che costituiranno largomento di un prossimo articolo. In questa sede si accenner brevemente soltanto al metodo di stima dellOR per dati appaiati. Tabella 2. Risultato di uno studio caso-controllo per dati appaiati (con rapporto di campionamento 1:1) e fattore di esposizione a due livelli (presente o assente).
Controlli Esposti a c a+c Controlli Non-Esposti b d b+d Totale a+b c+d a+b+c+d
Casi Esposti Casi Non-esposti Totale
La stima dellOR in questo caso viene effettuata considerando solamente le coppie di caso e controllo con risultato discordante, ovvero ignorando i casi esposti appaiati ai controlli esposti e i casi non esposti appaiati ai controlli non esposti. La stima dellOR sar, semplicemente:
OR =
b c
La signicativit statistica di tale stimatore potr essere ricavata dal test 2
225
per tabelle di contingenza 2x2 con dati appaiati (test di McNemar), che ha la seguente semplice formulazione:
2 MN 1
2 ( b c) =
b+c
I limiti di condenza dellOR ad un determinato livello di signicativit 1- (usualmente, per convenzione, 0.95, ossia 95%) possono essere ottenuti mediante lapprossimazione proposta da Pearson e Hartley (1966). Si procede calcolando i limiti di condenza per la proporzione delle coppie con i soli controlli esposti, che legata allOR dalla seguente relazione:
OR =
La formula per il calcolo di tali limiti stata ricavata dalla relazione che lega la funzione binomiale alla funzione F di Fisher:
I =
(b + 1) F / 2,(2b + 2 ),2c b ; S = c + (b + 1) F / 2 ,(2 b + 2 ), 2 c b + (c + 1) F / 2 ,(2 c + 2 ), 2 b
dove L e S rappresentano, rispettivamente, i limiti di condenza inferiore e superiore di . Ottenuti I e S, i limiti di condenza dellOR (rispettivamente, ORI e ORS) saranno quindi:
OR I =
I S ; ORS = 1 S 1I
In Appendice 4 riportato un esempio con dati simulati. Viene inoltre mostrato come ignorare il matching in fase di analisi possa indurre una stima distorta dellOR, che pu inciare la validit dello studio.
APPENDICE 1 Relazione tra rischio e tasso La relazione che lega il rischio al tasso pu essere ricavata nel modo seguente. Si selezioni una popolazione di individui non affetti dalla patologia in studio, seguiti
226
tra il tempo 0 e il tempo T. Si supponga che gli individui vengano esclusi dal periodo di osservazione a causa dellinsorgenza della patologia in esame (ignorando quindi, in una prima grossolana approssimazione, la possibilit che un individuo esca dallo studio senza aver contratto la patologia in esame6, per la conclusione dello studio stesso, per decesso dovuto a cause diverse da tale patologia, oppure perch perso di vista, ad esempio per migrazione). Per ogni periodo temporale t, possibile denire una funzione di rischio, come probabilit che il tempo T sia inferiore a t (ovvero che il soggetto esca dallo studio per linsorgenza della patologia):
R (t )= P (T < t ) = f (x )dx
0
dove f(x) rappresenta la funzione di densit di probabilit della funzione di distribuzione dei tempi T, ovvero (per denizione) la derivata prima della funzione di rischio R(t). possibile denire una nuova funzione, denominata funzione di sopravvivenza, che rappresenta la probabilit che un soggetto sopravviva (senza malattia) oltre un determinato tempo t. Ci implica che il periodo di osservazione T sia superiore a t, per cui la funzione di sopravvivenza S(t) risulter complementare alla funzione F(t):
S (t ) = P (T t ) = 1 R (t )
Si denisce come funzione di hazard, (t), la probabilit che un soggetto della popolazione in studio muoia al tempo t; si tratta quindi di una probabilit condizionale ad essere sopravvissuto no a al tempo t. Pi precisamente, la funzione di hazard rappresenta il tasso di incidenza (o di morte) istantaneo per un individuo sopravvissuto no al tempo t:
P( t T < t + t T t ) (t ) = lim t 0 t
Fenomeno che negli studi di sopravvivenza viene denominato censoring.
227
Applicando il teorema di Bayes si ottiene la relazione che lega la funzione hazard alla funzione di sopravvivenza:
P( P( t T < t + t T t ) T t t T < t + t ) P(t T t + t ) (t ) = lim = lim t 0 t P(T t )t t 0
f (t ) P(t T < t + t ) 1 = (t ) = lim t 0 t S (t ) S (t )

Ricordando che questultima stata denita come il complementare a 1 della funzione di rischio R(t), si ottiene:
(t ) =
dR (t ) 1 d[ 1 S (t )] 1 = dt S (t ) dt S (t )
(t )dt =
dS (t ) S (t )
da cui integrando entrambi i membri, si ottiene:

(t )dt R(t ) = 1 e
Nel caso in cui il tasso risulti (almeno approssimativamente) costante nel periodo di tempo tra 0 e t, e indicando il corrispondente rischio dellevento come R0,t, tale formula si semplica nella seguente:
R0 ,t = 1 e t
Inne, per patologie rare considerate in un breve intervallo di tempo, il prodotto t risulta piuttosto vicino al valore 0 (ad esempio, il tasso di incidenza della maggior parte delle neoplasie dellordine di 10-5 o 10-6 per anno); applicando alla
228
formula sopra riportata la seguente propriet dei limiti:
1 ex lim =1 x 0 x
tale relazione tra rischio e tasso si semplica nella seguente:
R0,t t
in cui il simbolo signica uguale circa.
APPENDICE 2 LOR di esposizione equivalente allOR di rischio. Mentre negli studi di coorte possibile, per quanto in genere poco utile, calcolare direttamente una stima di OR di rischio (ROR), negli studi caso-controllo la proporzione dei casi viene scelta a priori, per cui non possibile ottenere un odd di rischio e quindi una stima di ROR. Tuttavia possibile ottenere un Odd di esposizione sia per i casi che per i controlli e, di conseguenza rapportarli per ottenere una stima di OR di esposizione (EOR). Tale stimatore tender ad essere tanto pi elevato quanto pi elevata la probabilit per i casi di essere stati esposti rispetto ai controlli, per cui risulta intuitivo che debba essere associato al rischio relativo (e quindi al ROR) di malattia nelle popolazioni degli esposti e dei non esposti, che si assume abbiano dato origine ai casi ed ai controlli inclusi nello studio. Meno intuitiva invece lesatta corrispondenza tra OR di esposizione e OR di rischio, che ne giustica lampio utilizzo come principale stimatore di RR nellambito degli studi caso-controllo. Tale dimostrazione si effettua a partire dal teorema di Bayes. Si considerino due gruppi di soggetti, esposti e non-esposti, osservati per periodo di tempo t. LOR di rischio (ROR) sar, per denizione:
( 1 P( M E ) P( M ROR = = P( M E ) P( M 1 P( M E ) P( M
P M + E+
+ + + +
P M + E+
+
E+ E E
) ) ) )
dove P M + E + rappresenta la probabilit di ammalarsi per un esposto (ovvero il rischio per un esposto) e P M E + la probabilit di non ammalarsi per lo
229
+ stesso soggetto, per cui vale la seguente relazione: 1 P M + E + = P M E .
( soggetto non-esposto e P ( M
(
) rappresenta la probabilit di ammalarsi per un E ) rappresenta la probabilit di non ammalarsi per un non esposto, per cui: 1 P ( M E ) = P( M E ).
Analogamente P M E
+ +
Applicando il teorema di Bayes, separatamente ai due rischi (negli esposti e nei non esposti), si ottiene:
PM E
)=
P E + M + P( M +) P (E + )
P E + M + P( M + )+ P E + M P ( M )
P E + M + P( M+)
P M E
)=
P E M + P( M +) P (E )
P E M + P( M + )+ P E M P ( M )
P E M + P( M+)
LOR corrispondente sar quindi:
)( ) P( E M )P ( M ) + P( E M )P( M ) P( M E ) P( E M )P( M ) 1 1 P( M E) P( E M )P( M ) + P( E M )P ( M ) ROR = = = P( M E) P( E M )P ( M ) 1 P( M E) P( E M )P ( M ) + P( E M )P ( M ) P( E M )P( M ) 1 P( E M )P( M ) + P( E M )P( M )

P E+ M + P M +
+ + + + + + + + + + + + + + + + + + + + + + + + +
( P( E M )P( M ) + P( E = P( E P( E M )P( M )+ P ( E
+ + + + +
P E+ M + P M +
+ + +
)( M )P ( M M )P( M M )P ( M
) ) P(E ) ) P(E
+
M+ P M+ M+ P M+
) ( )= )( )
( P( E = P( E P( E
P E+ M +
+ +
) P(E M ) M ) 1 P( E M ) = = EOR M ) P( E M ) M ) 1 P( E M )
+ + + + +
230
APPENDICE 3 Esempio di calcolo di un OR e dei suoi intervalli di condenza Recentemente (Glickman et al., 2004) stata studiata lassociazione tra contatto con vari tipi di erbicidi ed altre sostanze usate in agricoltura e rischio di carcinoma vescicale in cani di razza Scottish Terrier. Relativamente allesposizione agli erbicidi, sono stati ottenuti i dati riassunti Tabella 1A. Tabella 1A. Risultati di uno studio caso-controllo (Glickman et al., 2004)
Esposizione Presente Casi Controlli 42 41 83 Assente 15 68 83 Totale 57 109 166
1) Stima dellOR:
OR =
42 68 = 4.643 15 41
il cui logaritmo naturale vale 1.535 Si osserva quindi una stima di rischio di sviluppare la patologia di oltre 4 volte negli esposti rispetto ai non esposti.
2) Errore Standard del logaritmo dellOR sec. Woolf:
ES [log(OR )]=
1 1 1 1 + + + = 0.360 42 15 41 68
3) Limiti di condenza al 95% dellOR, sec. Woolf:
95% CI (OR ) = OR e m1.96 ES [log (OR )] = 4.643 e m1.960.360 = [2.29; 9.40]

Il limite di condenza inferiore eccede il valore atteso di 1, per cui si pu affermare che lassociazione osservata tra il fattore di rischio e linsorgenza della patologia risulta statisticamente signicativa (p<0.05).
231
4) Analisi mediante il metodo di Miettinen: Test 2 di Pearson sulla tabella di contingenza 1A:
2 2 2 2
57 83 57 83 109 83 109 83 42 15 41 68 166 166 166 166 2 1 = + + + = 19.48 57 83 57 83 109 83 109 83 166 166 166 166
il valore eccede il valore critico di 3.84, per cui lassociazione osservata statisticamente signicativa (p<0.05)7. Calcolo dei limiti di condenza al 95% dellOR:
95% CI (OR ) = OR e
m1.96
[log (OR )] 2
2
= e m1.960.348 = [2.35; 9.18]
Si noti che i limiti di condenza ottenuti con i due metodi hanno prodotto risultati molto simili.
APPENDICE 4 Esempio di stima dellOR per dati appaiati In uno studio caso-controllo si supponga di aver reclutato 175 casi di una determinata patologia, appaiati ad altrettanti controlli per sesso e classe det, e di aver ottenuto, mediante questionario, linformazione sullavvenuta esposizione. Si supponga inoltre che non vi siano altri fattori di confondimento, oltre quelli selezionati per il matching. I risultati sono riassunti nella tabella seguente:
Controlli Esposti 78 7 85 Controlli Non-Esposti 19 71 90 Totale 97 78 175
Casi Esposti Casi Non-Esposti Totale
7 Si noti come lapproccio di Miettinen sia del tutto speculare a quello di Woolf, in quanto si procede prima al calcolo di una statistica test e poi alla stima della varianza del parametro.
232
La stima dellOR per dati appaiati semplicemente:
OR =
19 = 2.71 7
La sua signicativit statistica pu essere ottenuta mediante il test di McNemar:

2 MN 1 =
(19 7)2
19 + 7
= 5.54
che eccede il valore critico 3.84, che corrisponde alla soglia convenzionale di signicativit statistica ( = 0.05)8. La proporzione di coppie con caso esposto e controllo non esposto pari a 19 su 26, ovvero 0.731. Per calcolare i relativi limiti di condenza al 95% con la formula di Pearson e Hartley, occorre conoscere i valori della funzione F di Fisher per F0.025,16,38 e F0.025,40,14, rispettivamente, che possono essere ricavati approssimativamente dalle tavole della distribuzione F oppure, se possibile, ottenuti esattamente da un software statistico, che dovrebbe fornire i seguenti valori: 2.174 e 2.674. I limiti di condenza al 95% per e per lOR saranno quindi:
I =
0.522 19 b = 1.1 = = 0.522 ORI = 1 0.522 b + (c + 1) F / 2,(2c + 2 ), 2b 19 + (7 + 1) 2.174
S =
(b + 1) F / 2,(2b +2 ),2c c + (b + 1) F / 2,(2b+ 2 ), 2c
(19 + 1) 2.674 = 0.884 7+( 19 + 1) 2.674
ORS =
0.884 = 7.6 1 0.884
Ignorando (erroneamente) il matching, si sarebbe invece ottenuta la seguente tabella di contingenza, che si pu ricavare agevolmente utilizzando i totali di riga e di colonna della tabella sopra riportata.
Esposizione Presente Casi Controlli 97 85 182 Assente 78 90 168 Totale 175 175 350
Il valore di p ottenuto mediante un software statistico 0.019.
233
LOR stimato su tale tabella sarebbe stato:
OR =
97 90 = 1.32 78 85
che risulta nettamente inferiore allOR ottenuto tenendo conto dellappaiamento. I relativi limiti di condenza, calcolati con il metodo di Woolf precedentemente illustrato, sarebbero stati i seguenti9:
95%CI (OR ) = OR e
m1.96 ES [log (OR )]
= 1.32 e
m 1.96
1 1 1 1 + + + 97 78 85 90
=[ 0.86;2.0]
per cui oltre ad una sottostima delleffetto dellesposizione, la perdita dellinformazione sullappaiamento in fase di analisi ha anche comportato una perdita di signicativit statistica dellassociazione rilevata.
BIBLIOGRAFIA 1) Breslow N.E., and Day N.E. (1980). Statistical Methods in Cancer Research Volume 1 The analysis of case-control studies. IARC Scientic Publications N. 32, Lyon. 2) Cole P. (1979). The evolving case-control study. J. Chron. Dis., 32: 15-27. 3) Corneld J. (1951). A method for estimating comparative rate from clinical data. Applications to cancer of the lung, breast and cervix. J. Natl. Cancer Inst., 11: 1269-75. 4) Costantini A.S., Crosignani P., Zanetti R., Vineis P. (1992). Incidence of nonHodgkins lymphomas in Italy. Working Group on the Epidemiology of Hematolymphopoietic Malignancies in Italy. J. Natl. Cancer Inst., 84: 12771278. 5) Glickman L.T., Raghavan M., Knapp D.W., Bonney P.L., Dawson M.H. (2004). Herbicide exposure and the risk of transitional cell carcinoma of the urinary bladder in Scottish Terriers. J. Am. Vet. Med. Assoc. 224: 8, 1290-1297. 6) Kleinbaum D.G., Kupper L.L., Morgenstern H. (1982). Epidemiologic research: principles and quantitative methods. John Wiley & Sons, Inc., New York. 7) Lane-Claypon J.E. (1926). A further report on cancer of the breast with special reference to its associated antecedent conditions. Reports on Public Health and Medical Subjects no. 32, London: Ministry of Health.
Utilizzando il metodo di Miettinen con la stessa approssimazione decimale, si sarebbero ottenuti gli stessi valori.
234
8) Mantel, N., Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. J Natl. Cancer Inst., 22: 719-748. 9) Miettinen O.S. (1976). Estimability and estimation in case-referent studies. Am. J. Epidemiol., 103 (2), 226-235. 10) Pearson E.S., Hartley H.O. (1966). Biometrika Tables for Statisticians, Vol.I (3rd Edition), Cambridge, Cambridge University Press. 11) Thruseld M. (1995). Veterinary Epidemiology. 2nd Ed., Blackwell Science, Oxford. 12) Woolf B (1955). On estimating the relationship between blood group and disease. Ann. Human Genet., 19: 251-253.
RIASSUNTO Gli studi epidemiologici volti a studiare i determinanti di malattia possono essere classicati in tre categorie (sperimentali, quasi-sperimentali ed osservazionali) in base alla possibilit del ricercatore di manipolare il fattore in studio. Gli studi osservazionali consistono in indagini in cui il fattore in studio (generalmente un presunto determinante) non viene manipolato. Essi possono essere distinti in studi descrittivi e studi analitici; questi ultimi assumono grande importanza nello studio delle cause di malattia in quanto, diversamente da altri tipi di studio, sono considerati probanti. Gli studi analitici possono essere a loro volta inquadrati in studi di coorte e studi caso-controllo. Gli studi caso-controllo, che rappresentano loggetto della presente rassegna, sono utilissimi qualora si intenda studiare patologie a lungo periodo di latenza e risultano realizzabili anche in condizioni in cui la dimensione della popolazione a rischio non sia nota. Essi hanno anche il vantaggio di richiedere meno risorse rispetto ad altri tipi di studio, ma possono essere soggetti a distorsioni sistematiche (bias). Dopo aver brevemente considerato alcune importanti misure di frequenza e di associazione utilizzabili negli studi epidemiologici, gli Autori illustrano le caratteristiche di tali tipi di studio, mettendone in evidenza i dettagli di pianicazione ed i processi di inferenza utilizzabili nellinterpretazione dei dati ottenuti. In particolare, viene trattato, anche con lausilio di esempi numerici, lOdds Ratio (OR) di esposizione e si illustrano due metodi di stima della sua varianza: il metodo di Woolf ed il metodo di Miettinen. Inne, viene descritto il calcolo dellOR per dati appaiati.
SUMMARY Epidemiological studies, aimed at investigating risk factors for selected diseases, may be classied into three categories (experimental, quasi-experimental and observational studies), according to the power of the researcher to handle the factor under study. Observational studies are investigations in which the studied factor (in general, some exposure) is not manipulated. They may be classied in
235
descriptive and analytical. Differently from other studies, these latter are considered as probatory and therefore they play a central role in studying disease causes. Analytical studies, in their turn, may be arranged either in cohort or in case-control studies. Case-control studies, which represent the matter of this review, are very suitable to investigate diseases with a long latency, and they are feasible even when the size of the at risk population is unknown. Moreover, they have the advantage to require less resources than other type of epidemiological studies. However, they may be prone to some systematic errors (biases). The Authors briey review the main measures of frequency and association employed in epidemiological studies. Thereafter, they illustrate the characteristics of case-control studies, highlighting study design issues and illustrating some methods of statistical inference and the interpretation of the obtained results. For instance, the exposure Odds Ratio (OR) is described providing numerical examples, and two methods to estimate its variance are also described (i.e., Woolf and Miettinen methods, respectively). Finally, the method to estimate OR for matching case-control study is also illustrated.
PAROLE CHIAVE Epidemiologia, studi osservazionali, studi analitici, studi caso controllo, Odds Ratio, appaiamento.
KEY WORDS Epidemiology, observational studies, analytical studies, case-control studies, Odds Ratio, matching.
236

Epidemiologia Principi Generali

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Epidemiologia Principi Generali

Caricato da

Copyright:

Formati disponibili

Ann. Fac. Medic. Vet. di Parma (Vol. XXIV, 2004) - pag. 209 - pag.

INTRODUZIONE ALLO STUDIO CASO-CONTROLLO IN EPIDEMIOLOGIA

Schema 1 Principali disegni di studio epidemiologico.

R1 0.003 ^ 1 R1 1 0.003 = = 3.006 OR = 0.001 R0 1 R0 1 0.001

LOR invece risulter sensibilmente pi elevato:

R1 0.15 ^ 1 R1 1 0.15 OR = = = 3.35 R0 0.05 1 R0 1 0.05

log(OR ) Var [log(OR )]

Var [log(OR )]=

Casi Esposti Casi Non-esposti Totale

La signicativit statistica di tale stimatore potr essere ricavata dal test 2

(b + 1) F / 2,(2b + 2 ),2c b ; S = c + (b + 1) F / 2 ,(2 b + 2 ), 2 c b + (c + 1) F / 2 ,(2 c + 2 ), 2 b

Fenomeno che negli studi di sopravvivenza viene denominato censoring.

P( P( t T < t + t T t ) T t t T < t + t ) P(t T t + t ) (t ) = lim = lim t 0 t P(T t )t t 0

f (t ) P(t T < t + t ) 1 = (t ) = lim t 0 t S (t ) S (t )

da cui integrando entrambi i membri, si ottiene:

formula sopra riportata la seguente propriet dei limiti:

+ stesso soggetto, per cui vale la seguente relazione: 1 P M + E + = P M E .

LOR corrispondente sar quindi:

)( ) P( E M )P ( M ) + P( E M )P( M ) P( M E ) P( E M )P( M ) 1 1 P( M E) P( E M )P( M ) + P( E M )P ( M ) ROR = = = P( M E) P( E M )P ( M ) 1 P( M E) P( E M )P ( M ) + P( E M )P ( M ) P( E M )P( M ) 1 P( E M )P( M ) + P( E M )P( M )

2) Errore Standard del logaritmo dellOR sec. Woolf:

3) Limiti di condenza al 95% dellOR, sec. Woolf:

95% CI (OR ) = OR e m1.96 ES [log (OR )] = 4.643 e m1.960.360 = [2.29; 9.40]

= e m1.960.348 = [2.35; 9.18]

Casi Esposti Casi Non-Esposti Totale

La stima dellOR per dati appaiati semplicemente:

La sua signicativit statistica pu essere ottenuta mediante il test di McNemar:

0.522 19 b = 1.1 = = 0.522 ORI = 1 0.522 b + (c + 1) F / 2,(2c + 2 ), 2b 19 + (7 + 1) 2.174

(b + 1) F / 2,(2b +2 ),2c c + (b + 1) F / 2,(2b+ 2 ), 2c

(19 + 1) 2.674 = 0.884 7+( 19 + 1) 2.674

0.884 = 7.6 1 0.884

Il valore di p ottenuto mediante un software statistico 0.019.

LOR stimato su tale tabella sarebbe stato:

m1.96 ES [log (OR )]

Potrebbero piacerti anche