Sei sulla pagina 1di 29

DISPENSE DI STATISTICA MEDICA

Italo NOFRONI (1)

Anna Rita VESTRI (2)

(1) Titolare dellinsegnamento di Statistica Medica, Dipartimento di Medicina Sperimentale e Patologia,


Facolt di Medicina e Chirurgia, Universit La Sapienza, Roma
(2) Titolare dellinsegnamento di Metodologia Epidemiologica Clinica, Dipartimento di Medicina
Sperimentale e Patologia, Facolt di Medicina e Chirurgia, Universit La Sapienza, Roma

Le presenti dispense sono state costituite semplicemente riunendo e, in parte, riorganizzando, una
serie di articoli didattici apparsi sulla Rivista Italiana di Nutrizione Parenterale ed Enterale (RINPE). Per
questo motivo non possibile individuare in esse un rigoroso processo logico espositivo, ma solo una
traccia di alcuni dei principali aspetti metodologici propri di un corso di Statistica rivolto ad operatori della
Sanit.
1) LA RACCOLTA DEI DATI: IL FULCRO DI OGNI RICERCA
Qualsiasi indagine statistica, in qualunque ambito si svolga, incluso quindi quello clinico, comporta
lo svolgimento di diverse operazioni, schematicamente sintetizzabili in sei distinte fasi:
1.
2.
3.
4.
5.
6.

Definizione del problema oggetto di studio


Valutazione della fattibilit dello studio e stesura del protocollo di ricerca
Definizione del piano di rilevazione e raccolta dei dati
Controllo, verifica e correzione dei dati raccolti
Elaborazione dei dati
Interpretazione dei risultati

Questa fasi, invero non sempre formalmente distinguibili, rivestono tutte naturalmente una grande
importanza; in questa occasione voglio per soffermarmi sulla fase 3, definizione del piano di rilevazione e
raccolta dei dati, che costituisce il vero fulcro per la realizzazione di qualunque ricerca statistica. Se infatti
la raccolta dei dati viene realizzata in modo corretto ed i dati ottenuti sono funzionali alle finalit che la
ricerca si prefigge, questa avr buone probabilit di essere valida e di portare a conclusioni corrette. In caso
contrario sar grande il rischio di non poterla portare a termine o, peggio ancora, di giungere a conclusioni
distorte o errate.
Purtroppo molto spesso si pone la massima attenzione alla possibilit di disporre di Personal
Computer ultraveloci o di acquisire raffinati software statistici, che quasi sempre vengono poi utilizzati solo
per una minima parte delle loro potenzialit, trascurando o ponendo una cura minima alla corretta
impostazione del metodo di raccolta dati. Acutamente gli anglosassi citano: " rubbish input, rubbish out",
ovverosia, parafrasando il concetto, se i dati che immetti nel computer sono spazzatura, solo spazzatura il
computer ti restituisce.
Lo studioso che si appresta ad avviare una ricerca per dare una risposta ad un determinato problema
clinico, si trover di fronte ad un bivio: effettuare uno studio globale, relativo cio allintera popolazione
presa in esame, realizzando quindi un censimento, o limitarsi a studiare una piccola parte di tale
popolazione, portando quindi a termine un campionamento o, come comunemente si dice, un campione.
E evidente che il censimento, essendo una raccolta di dati relativa alla totalit delle unit
statistiche oggetto di studio, fornir, a parit di validit della ricerca stessa, risultati sicuramente pi
attendibili e veritieri. Sar per in molti casi estremamente arduo da realizzare per molteplici motivi: costi
elevati, tempi lunghi, difficolt nel raggiungere e controllare tutte le unit statistiche. Se, ad esempio, ci
riproponessimo di valutare la durata media di accensione senza guasti delle lampadine prodotte da una

ipotetica ditta X, ed intendessimo avvalerci di un censimento, dovremmo raccogliere tutta le lampadine


prodotte in un certo periodo, accenderle ed aspettare che siano tutte fulminate; avremmo quindi portato a
termine un censimento distruttivo con il bel risultato di conoscere esattamente la vita media delle
lampadine, ma di non poter in alcun modo utilizzare tale informazione perch relativa ad una popolazione
ormai estinta, avendo nel frattempo speso svariati miliardi.
E evidente a questo punto che la seconda soluzione, quella cio del campione, appare decisamente
pi fattibile, soprattutto in campo sanitario nel quale il medico non potr mai sperare, ad esempio, di poter
studiare tutta la popolazione di pazienti affetti da una certa patologia. Il campione presenter quindi tutti
quei vantaggi che appunto mancavano nel censimento: economicit, tempi brevi, facilit di realizzazione. Ma
dal campione stesso, in quanto raccolta di dati limitata ad una parte della popolazione oggetto di studio, non
si potr pretendere di ottenere risultati del tutto validi ed attendibili per lintera popolazione in esame.
Ci si pongono quindi le domande: cosa si pu desumere relativamente alle caratteristiche della
popolazione sulla base delle informazioni (limitate) ottenute dal campione? e che fiducia si pu avere che
quanto desunto sia attendibile?.
E a questo punto che nella ricerca trova applicazione quella branca della statistica che prende il
nome di inferenza, ovverosia quel complesso di tecniche statistiche che consentono di estendere i risultati
parziali desunti dal campione lintero collettivo. Questa estensione dalla parte al tutto rientra in un
procedimento induttivo proprio della statistica che trova le sue basi logiche e formali nel calcolo delle
probabilit. Non sar mai possibile, infatti, utilizzando dati campionari, giungere a risultati certi, ma solo
trarre delle conclusioni la cui validit per un collettivo pi ampio sia espressa in termini probabilistici,
ovverosia prefissando un determinato rischio di errore o, il che lo stesso, essendone il complemento, un
livello di fiducia.
Naturalmente perch linferenza statistica possa assolvere correttamente i compiti che le sono
richiesti, necessario che il campione presenti due fondamentali requisiti:
1) sia rappresentativo, cio le sue caratteristiche strutturali siano simili, per quanto possibile, a quelle
della popolazione da cui estratto. Questo perch si pretende che il campione abbia un comportamento
simile a quello della popolazione; se cos non fosse il campione sarebbe detto distorto.
2) sia casuale, cio le unit statistiche da inserire nel campione siano selezionate con un procedimento
assimilabile ad una estrazione a sorte; si parla infatti di randomizzazione dal termine inglese random
(caso). Ladozione dellestrazione casuale fu proposta per primo dallinglese Ronald A. Fisher (1890
1962), padre della statistica moderna e maggiore epistemologo del 1900, mettendone in luce i vantaggi e la
maggiore obiettivit dei risultati con numerosi lavori sperimentali.
Esistono vari tipi di campione casuale:
- campione casuale semplice: estrazione diretta delle unit statistiche dalla popolazione;
- campione stratificato: si suddivide la popolazione in gruppi omogenei (strati) sulla base di determinate
caratteristiche (sesso, et, professione ecc.) e da ciascuno di essi si estrarre casualmente un sub campione
di numerosit proporzionale allampiezza che lo strato costituisce nella popolazione; viene realizzato per
migliorare la rappresentativit;
- campione a grappolo: si estraggono casualmente grappoli di unit statistiche (famiglia, casse contenenti
confezioni alimentari ecc.) e queste ultime vengono utilizzate per la costituzione del campione;
- campione a pi stadi: si estraggono im un primo tempo le unit di primo stadio (ad es. comuni) e quindi
successivamente da ognuna di queste le unit elementari (ad es. abitanti) con cui costituire il campione;
- campione continuativo: un stesso campione fornisce i dati in pi tempi successivi; tipico esempio ne
sono gli studi di follow-up.
Esiste infine un altro campione che certamente non pu essere definito casuale, ma nondimeno
quello pi frequentemente utilizzato nelle ricerche cliniche: il campione empirico o di convenienza.
Naturalmente il medico non ha la possibilit di estrarre casualmente dalla ipotetica intera popolazione di
malati la casistica di cui ha bisogno, generalmente quindi si limita a prendere in considerazione i pazienti di
cui pu disporre in quanto gi presenti in ambulatorio o in reparto.
Questo modo di procedere non fornisce alcuna garanzia di rappresentativit in quanto i soggetti cos
scelti sono certamente autoselezionati sulla base di fattori incontrollabili quali vicinanza dellospedale,
consigli di amici, scelte personali ecc. Sarebbe quindi estremamente scorretto fare inferenze su tale gruppo
relativamente alle sue caratteristiche strutturali quali et media al ricovero, percentuale di maschi, numero di
figli ecc.
Per poter comunque procedere nello studio, non potendo randomizzare i pazienti, verr comunque
scelta casualmente (o almeno, dovrebbe esserlo) la tarapia, il trattamento o il tipo di intervento oggetto di

studio. Una procedura comunemente adottata , ad esempio, quella di attribuire casualmente i trattamenti ai
pazienti che in modo sequenziale vengono ricoverati in una determinata struttura, purch questi soddisfino i
criteri di inclusione nello studio. Naturalmente necessario verificare che i due (o pi) gruppi a confronto
cos costituiti risultino omogenei tra di loro; se infatti fra i gruppi si osservassero rilevanti diversit di et,
gravit e caratteristiche della patologia, malattie concomitanti ecc., leventuale diversa risposta al trattamento
potrebbe essere attribuita a tali fattori.
Studi di questo tipo, nel quale diversi trattamente sono confrontati e valutati contemporaneamente
in altrettanti gruppi di pazienti, vengono detti tra pazienti.
Esistono anche gli studi cosiddetti entro pazienti, o crossover, nel quali un gruppo di soggetti
riceve in successione i trattamenti; in questo caso randomizzata la seguenza con cui i trattamenti stessi
vengono somministrati a ciascun paziente. Questultimo tipo di studi possono essere adottati quando si sia
sicuri che linterruzione del primo trattamento comporti, entro un adeguato periodo di tempo, che il paziente
torni alla situazione in cui era prima del trattamento stesso, non si manifesti cio un effetto di trascinamento,
sia farmacologico che psicologico, da un periodo allaltro; si pu adottare, quindi, solo per un numero
limitato di patologie. Daltra parte questi studi, rispetto agli studi tra pazienti, presentano il grosso vantaggio
di consentire un confronto tra trattamenti eliminando la variabilit che sussiste tra gruppi diversi, essendo
unico il gruppo oggetto di studio; infatti per quanto si cerchi di rendere omogenei gruppi diversi una parte
della variabilit tra gruppi ineliminabile e potrebbe falsare le conclusioni cui giunge lo studio.
In conclusione, fondamentale che chi conduce una ricerca clinica sia consapevole dei metodi che
ha a disposizione per la raccolta dei dati, sappia impostare (meglio se con la collaborazione dello statistico)
un adeguato piano di rilevazione, rendendosi conto che una buona qualit del dato statistico il presupposto
irrinunciabile per una ricerca seria e proficua.
2) LE BASI DELLEPIDEMIOLOGIA
Le profonde modificazioni che si sono verificate in questi ultimi anni nelle scienze mediche e lo
sviluppo delle nuove tecnologie, hanno creato i presupposti di una nuova medicina, non pi riconducibile
semplicemente alle leggi della fisiologia, alle descrizioni citologiche, ai processi biochimici, ma anche allo
studio della diffusione delle patologie, ai metodi di valutazione dei fattori di rischio, allutilizzo di indici
sintetici. Si richiede, infatti, al medico il pieno utilizzo dellEpidemiologia quale metodo di studio dei
fenomeni sanitari in generale e morbosi in particolare, in stretta interazione con la Statistica che, in questo
contesto, fornisce supporto e strumenti metodologici.
Lapplicazione della metodologia epidemiologica alla ricerca clinica sui fattori di rischio ha
consentito, per molte malattie, il rilevante progresso nel campo della prevenzione e della terapia, come pure
lapplicazione dei clinical trial nel settore della sperimentazione clinico-farmacologica ha consentito un
continuo progresso diagnostico e terapeutico ai vari settori della medicina.
Lepidemiologia stata definita in molti modi. Il termine deriva dal greco (epi = su, demos =
popolazione, logos = studio), quindi studio di fenomeni riguardanti una popolazione; questa etimologia
peraltro lacunosa per quanto riguarda il concetto di salute o di sanit che invece caratterizza pienamente
questa disciplina.
In tempi passati lepidemiologia consisteva nello studio delle modalit di diffusione delle malattie
infettive, la moderna epidemiologia, invece, si occupa dello studio dei fattori che determinano la frequenza e
la distribuzione delle malattie, non solo ad eziologia infettiva, e dei problemi sanitari in una popolazione.
Poich lepidemiologia studia, in genere, fenomeni che interessano intere popolazioni, sono
necessarie misure che abbiano caratteristiche di accuratezza, precisione e sinteticit. La misura fondamentale
in epidemiologia la frequenza con la quale gli eventi in studio, generalmente malattie, morti o altri
problemi sanitari, si verificano nelle popolazioni da studiare.
Un tasso la frequenza di una malattia espressa rispetto allammontare di popolazione cui
riferita, in relazione al periodo temporale in cui i casi sono osservati. E quindi evidente che, per avere un
tasso utile dal punto di vista epidemiologico, sono necessari tre tipi di informazioni: il numeratore (numero
delle persone affette), il denominatore (la popolazione di riferimento, cio rispetto alla quale sono osservate
le persone affette), la specificazione del tempo. Sia il denominatore che il numeratore di un tasso dovrebbero
avere le stesse restrizioni: se, ad esempio, il numeratore limitato a certe classi di et oppure al un solo
sesso, anche il denominatore deve avere le stesse caratteristiche.

La frequenza pu essere misurata in modi diversi e pu essere relativa a differenti denominatori, in


funzione degli obiettivi che ci si fissati e dai dati disponibili. I due indici pi utilizzati e di fondamentale
importanza in epidemiologia, sono il tasso di incidenza ed il tasso di prevalenza.
Il tasso di incidenza la frequenza dei nuovi casi di malattia, (stati morbosi o decessi) che si
verificano nellintervallo unitario di tempo, generalmente lanno solare, in rapporto al numero totale della
popolazione esposta; non potendo conoscere esattamente questultimo dato, si riporta la media aritmetica fra
la popolazione allinizio ed alla fine del periodo. Lincidenza corrisponde al numero dei cambiamenti dallo
stato di benessere a quello di malessere, dallo stato di vita a quello di morte, allinterno di una popolazione
durante un determinato periodo di osservazione. Nella pratica, non essendo usualmente possibile misurare
lincidenza nel preciso momento di insorgenza di una malattia, viene utilizzato come tempo di riferimento
iniziale la comparsa del primo sintomo, il tempo della diagnosi, la data di notificazione o quella di
ospedalizzazione.
La densit di incidenza la frequenza di nuovi eventi per persona nellunit di tempo (anni-persona
o mesi-persona). Questo indice utile soprattutto quando levento in studio pu verificarsi pi volte sullo
stesso individuo durante il periodo di osservazione.
Il tasso di prevalenza (denominata anche prevalenza di punto) dato dal numero di persone che
presentano una malattia (o sono in una particolare condizione sanitaria come vaccinati, in gravidanza ecc.)
in un determinato momento, in rapporto alla consistenza della popolazione in quello stesso momento. Alcuni
articoli in letteratura utilizzano anche la prevalenza di periodo, riferendosi al numero di persone che
risultano malate in un intervallo di tempo specificato, ed rappresentata dalla somma della prevalenza di
punto allinizio dellintervallo di tempo, pi lincidenza durante lintervallo. La prevalenza di periodo una
misura mista, non del tutto affidabile, pertanto sconsigliato assumerla come ipotesi di partenza per studi
successivi.
Esiste una relazione importante che lega la prevalenza e lincidenza: la prevalenza, infatti, pu essere
desunta calcolando il prodotto dellincidenza per la durata media di malattia. Un cambiamento nella
prevalenza da un periodo di osservazione ad un altro pu quindi essere la risultante di cambiamenti
dellincidenza, della durata di malattia o in entrambe. Per esempio, miglioramenti nella terapia atti ad evitare
la morte ma che non producano la completa guarigione, potrebbero dare paradossalmente un incremento
della prevalenza di malattia. Una diminuzione della prevalenza pu risultare non solo da un decremento
dellincidenza ma anche da una durata della malattia pi breve; questa, a sua volta, potrebbe essere
conseguenza di una guarigione pi rapida, ma anche di una morte pi precoce.
Il dato di prevalenza fornisce informazioni indispensabili per poter effettuare una diagnosi, che,
come noto, rappresenta la formulazione di giudizio probabilistico piuttosto che un momento di certezza
assoluta. Quindi la conoscenza della prevalenza di una determinata patologia, unitamente alla conoscenza
delle caratteristiche anamnestiche e cliniche di un paziente, non solo permette una corretta interpretazione
della diagnosi, ma, di fatto, condiziona anche le scelte terapeutiche.
Lincidenza mettendo in luce tutti i casi di malattia insorti in una popolazione, fornisce di fatto, in
maniera diretta, informazioni sulla probabilit che altri soggetti, che si trovino in condizioni simili alla
popolazione studiata, sviluppino la stessa patologia. I dati di incidenza servono inoltre a stimare il rischio di
insorgenza, a prevedere il decorso di una malattia ed a fornire informazioni attendibili riguardo la sequenza
degli eventi, in quanto la malattia viene monitorata in tutta la sua storia naturale. La prevalenza, invece, non
consente previsioni attendibili, in quanto descrive solo la situazione sanitaria di un gruppo di individui in un
determinato momento.
I dati di incidenza e di prevalenza, infine, oltre ad avere unutilit intrinseca nella descrizione dei
fenomeni sanitari, assumono un ruolo fondamentale come strumento di decisioni cliniche, laddove siano
utilizzati per effettuare confronti. E il confronto della frequenza di una malattia tra individui esposti e non
esposti ad uno specifico fattore, lelemento di maggior prova di una ipotetica relazione di causalit. I clinici
usano le misure di frequenza come elementi comparativi per indagare sulla relazione causa-effetto (cio
fattore-malattia-esito).
Naturalmente, nel caso di confronto di tassi, si rende generalmente necessario standardizzare i tassi
stessi, al fine di eliminare linfluenza delle diverse strutture per et delle popolazioni a confronto, utilizzando
due metodi alternativi (metodo diretto e metodo indiretto).
Per poter calcolare tutti gli indici suddetti ovviamente necessaria la disponibilit di attendibili dati
statistici. La maggior parte delle nazioni raccoglie e pubblica dati statistici desunti sia dalle statistiche
anagrafiche, sia ricavati dai censimenti di popolazione; opportuno ricordare che, purtroppo, la qualit di tali

dati varia notevolmente da paese a paese ed quindi necessaria molta prudenza nellutilizzare dati relativi ai
Paesi in via di sviluppo nei quali i metodi di relevazione sono poco affidabili.
I dati epidemiologici correnti sono importanti sia per fini amministrativi che per finalit di ricerca: il
loro impiego integrato nella sorveglianza e nella ricerca epidemiologica necessita di particolari requisiti tra i
quali i pi importanti sono costituiti da:
accuratezza
tempestivit
completezza
confrontabilit
In Italia le fonti di dati socio-demografici e sanitari si basano su un sistema di rilevazione misto con
finalit differenti. A livello nazionale le fonti dei dati raccolti con frequenza universale e continua sono
rappresentate da:
a) rilevazione della mortalit tramite le schede ISTAT
b) notifica delle malattie infettive
c) rilevazione delle malattie professionali ed infortuni sul lavoro.
La fonte di dati raccolti con frequenza universale e sporadica rappresentata dal censimento della
popolazione che viene portato a termine con cadenza decennale.
A livello regionale le principali fonti sono costituite da:
a) registri tumori (coprono circa il 15% della popolazione)
b) schede di dimissione ospedaliera
c) dati riguardanti la struttura e lattivit degli istituti di cura.
A livello locale i dati sono raccolti dai diversi servizi delle Aziende Sanitarie Locali, dove avviene
una prima elaborazione dei dati.
Infine si possono ricordare le fonti campionarie e sporadiche, come indagini epidemiologiche ad hoc,
condotte da enti di ricerca quali, ad esempio, CNR, Universit, Istituto Superiore di Sanit.
3) I MODELLI FONDAMENTALI DEGLI STUDI EPIDEMIOLOGICI
Lobiettivo principale della maggior parte degli studi epidemiologici di individuare modelli
esplicativi della distribuzione delle patologie in terminio di fattori causali, cio valutare lassociazione
casuale tra malattia ed esposizione ad un determinato fattore di rischio. Per fattore di rischio si intende una
variabile che, se presente ed attiva, si presume sia in grado di incrementare in modo rilevante la probabilit
che una particolare malattia si sviluppi in un gruppo di persone esposte a questo fattore rispetto ad un altro
gruppo, con caratteristiche analoghe, che non subisce lesposizione. Un fattore di rischio tuttavia non n
causa necessaria n causa sufficiente di malattia.
Il fattore di rischio pu essere una abitudine nutrizionale (dieta ad alto contenuto di grassi), una
esposizione ambientale (radioattivit dopo il disastro di Chernobyl), un comportamento voluttuario
(tabagismo), una caratteristica fisiologica (alti livelli di colesterolo), un intervento clinico (assunzione di un
antibiotico) o una misura di sanit pubblica (vaccino).
La ricerca dellassociazione causale in epidemiologia richiede due distinzioni fondamentali. La
prima tra soggetti esposti o meno ad un fattore di rischio in studio (variabile indipendente), mentre la
seconda distinzione quella tra soggetti affetti e non affetti da una malattia (variabile dipendente). Nella
realt queste distinzioni risultano raramente semplici, anzi sono soggette a distorsioni ed errori casuali.
Nellambito del disegno di una ricerca epidemiologica pu emergere lesigenza di dover analizzare
contemporaneamente leffetto di diverse variabili indipendenti (possibili cause) e la loro reciproca
interazione sul verificarsi di un evento patologico. Ad esempio, la prevalenza dellipertensione legata sia
allet che al sesso e queste variabili interagiscono nel modo seguente: prima dei 50 anni gli uomini sono pi
spesso ipertesi, mentre dopo i 50 anni la probabilit di essere ipertesi maggiore nel sesso femminile.
C inoltre la necessit di misurare i diversi gradi di intensit e/o durata di esposizione ad un fattore
di rischio. Gli studi epidemiologici valutano sia la forza che la durata dellesposizione; ad esempio,
lesposizione al fumo di sigaretta viene studiata in termini di numero di pacchetti fumati allanno, che
calcolato come numero medio di pacchetti fumati al giorno per numero di anni di esposizione al fumo. Molte
volte per difficile determinare il momento esatto dellinizio dellesposizione ad un fattore di rischio: ci in
particolare vero per fattori di rischio legati a stili di vita, come le abitudini sedentarie o leccessivo introito

di grassi con la dieta. Ulteriori difficolt possono scaturire dalla necessit di distinguere diversi stadi o livelli
di gravit di una malattia.
Un corretto modello di studio epidemiologico deve rispondere ai seguenti requisiti:
consentire il confronto di una variabile tra due o pi gruppi di popolazione in un determinato
momento, oppure, in alternativa, nello stesso gruppo in tempi diversi, ad esempio prima e dopo un
intervento o lesposizione ad un fattore di rischio;
2)
permettere la quantificazione delle differenze sia in termini assoluti (differenze tra rischi e tassi) sia
relativi (rischio relativo);
3)
collocare le esposizioni e le malattie nel tempo al fine di verificarne la sequenza temporale;
4)
ridurre al minimo errori, confondimenti ed altri problemi che potrebbero complicare o falsare
linterpretazione dei dati.
I disegni di studio trattati in questo paragrafo sono quelli pi frequentemente utilizzati nella ricerca
epidemiologica.
La prima importante distinzione quella tra studi osservazionali (descrittivi, trasversali, ecologici),
analitici (coorte, caso-controllo) e sperimentali (trial randomizzati). Poich ad alcuni quesiti si pu
rispondere attraverso la pianificazione e leffettuazione di pi di un tipo di ricerca epidemiologica, la scelta
del tipo di disegno di studio dipende da una serie di considerazioni, non esclusi criteri quali rapidit di
esecuzione, controllo dei costi e disponibilit di dati.
1)

STUDI OSSERVAZIONALI
Studi descrittivi
Si basano sulla semplice descrizione della distribuzione della patologia in studio nella popolazione,
mettendola in relazione a variabili di tipo demografico (et, sesso...), valutate nel tempo e nello spazio
(ripartizioni geografiche). Generalmente si basano su statistiche ufficiali di morbosit e/o mortalit.
Gli studi descrittivi costituiscono studi preliminari e di base da cui in genere prendono il via studi
epidemiologici successivi pi approfonditi quali quelli analitici (v. oltre), i soli in grado di validare i
meccanismi causali alla base delleziologia delle patologie e descrivere la storia naturale delle malattie.
Studi trasversali
Unindagine epidemiologica di tipo trasversale uninchiesta (survey per gli Autori anglosassoni)
condotta su una popolazione in un determinato momento: tra queste si collocano, ad esempio, le interviste di
popolazione ed i programmi di screening di massa.
Gli studi trasversali presentano il vantaggio di essere veloci e semplici da effettuare; sono utili per
stimare la prevalenza di malattia in una definita popolazione. Sono utilizzati anche nellambito di indagini
sullo stato di salute della popolazione, per la pianificazione dei servizi sanitari ed inoltre per la selezione di
interventi prioritari per il controllo delle malattie.
Uno dei pi importanti svantaggi delle indagini trasversali costituito dal fatto che i dati, sia
sullesposizione ad eventuali fattori di rischio che sulla presenza o assenza della malattia, vengono raccolti
simultaneamente, quindi difficile individuare la corretta relazione esistente tra una probabile causa e un
presunto effetto. Altro svantaggio considerevole costituto dal fatto che unindagine trasversale risulta
selettiva per le patologie croniche e di lunga durata, le quali hanno lunghe sopravvivenze, e quindi hanno
maggiori probabilit, rispetto a malattie acute di breve durata, di essere rilevate nel corso dellindagine.
Questo fenomeno definito bias di Neyman (bias = errore): pu verificarsi sia quando nellindagine i
soggetti con malattia grave hanno meno probabilit di essere selezionati, ad esempio perch deceduti prima
dellindagine, sia quando i programmi di screening tendono a selezionare i casi meno gravi di malattia per
sottoporli a trattamento.
Studi trasversali ripetuti possono essere utilizzati per valutare cambiamenti della frequenza di una
malattia in una popolazione in differenti intervalli di tempo (ma non la natura della loro reciproca
associazione). I risultati di queste indagini possono essere analizzati allo scopo di evidenziare
unassociazione e quindi generare ipotesi, ma non sono utilizzabili per verificare lefficacia di interventi.
Studi ecologici

Gli studi ecologici trasversali hanno lobiettivo di evidenziare la relazione tra alcune variabili (ad
es. il fumo) ed uno o pi esiti di un certo interesse (ad es. cancro del polmone) in popolazioni residenti nella
stessa area geografica.
Questi studi sono spesso utili per suggerire ipotesi, ma non possono essere utilizzati per trarre
conclusioni definitive su rapporti di associazione, poich non sono disponibili dati individuali che indichino,
ad esempio, che i soggetti che si ammalano di cancro del polmone sono proprio quelli esposti al fumo di
sigaretta. Questa problematica legata agli studi epidemiologici definita con il termine fallacia ecologica.
Gli studi ecologici longitudinali prevedono la sorveglianza continuativa o leffettuazione di studi
trasversali ripetuti e frequenti mirati alla valutazione dellandamento dei tassi di malattia, in lunghi intervalli
di tempo, in determinate popolazioni. Confrontando gli andamenti delle malattie con landamento di altri
fenomeni sociali, come guerre, migrazioni, introduzione di pratiche preventive o terapeutiche, gli
epidemiologici sono in grado di valutare limpatto di tali interventi sui tassi di incidenza e/o di mortalit.
STUDI ANALITICI
Studi di coorte (o longitudinali)
Il termine coorte usato per indicare un gruppo di individui che abbiano un qualche elemento in
comune; essi vengono identificati come gruppo, seguiti nel tempo e vengono registrati gli eventi patologici
che man mano si verificano in essi. La caratteristica comune degli individui appartenenti alla coorte, viene
ovviamente identificata sulla base delle finalit dello studio o di ci che si intende ricercare.
Negli studi di coorte necessario che, allinizio del periodo di osservazione, nessuno degli individui
della coorte sia mai stato esposto al fattore di rischio su cui si indaga. Appurato ci, la coorte viene divisa in
due sottogruppi che, per un periodo di tempo predefinito, resteranno esposti (e non esposti), al fattore di
rischio oggetto di studio. E necessario ovviamente che la coorte dei non esposti il pi possibile omogenea
con quella degli esposti per tutte le caratteristiche. I soggetti verranno seguiti nel tempo per vedere quali di
essi sviluppano levento-malattia; in questo modo possibile studiare se, e in quale modo, lesposizione al
fattore di rischio sia in grado di condizionare il verificarsi degli avvenimenti successivi.
Gli studi di coorte presentano diversi vantaggi. Il principale rappresentato dal fatto che il
ricercatore in grado di controllare di persona la qualit dei dati raccolti nel corso dello studio, sia per
quanto riguarda loggettivit e lentit dellesposizione, che per quanto riguarda linsorgenza di eventuali
patologie, e di assicurarsi che entrambe siano valutate e classificate correttamente. Un ulteriore vantaggio
rappresentato dal fatto che possibile la stima dei tassi di incidenza e quindi il calcolo dei vari indici di
rischio, in quanto vengono studiate popolazioni ben definite. Infine possibile studiare anche patologie o
effetti dellesposizione diversi da quelli previsti allinizio dello studio, senza che la validit della ricerca ne
sia inficiata.
Tuttavia gli studi di coorte presentano anche svantaggi non trascurabili, il principale dei quali che
non possibile studiare fattori di rischio diversi da quelli individuati allinizio dello studio; inoltre gli studi
di coorte richiedono generalmente costi elevati e tempi lunghi per la verifica delle ipotesi a causa del lungo
periodo di latenza che in genere sussiste tra esposizione e sviluppo della malattia.
Alcune delle limitazioni relative ai tempi ed ai costi degli studi di coorte possono essere ridotti
utilizzando gli studi di coorte retrospettivi. Questo approccio prevede la definizione di gruppi di soggetti
esposti nel passato a determinati fattori di rischio (ad esempio i soggetti esposti allesplosione atomica di
Hiroshima nellagosto 1945); successivamente i membri della coorte vengono seguiti fino al presente per
valutare gli eventuali esiti dellesposizione (malattia, morte). Naturalmente, anche nel caso di uno studio di
coorte retrospettivo, necessario prevedere il confronto con una coorte di non esposti, il pi possibile
omogenea a quella degli esposti.
La principale estrinsecazione del rischio il dato di incidenza (v. precedente contributo di questa
rubrica); in genere si cerca di confrontare lincidenza di malattia in due o pi coorti che presentano differenti
esposizioni ad un eventuale fattore di rischio. E importante ricordare che il rischio di malattia nel gruppo
degli esposti sar maggiore a quello dei non esposti se una esposizione realmente dannosa (come nel caso
del fumo di sigaretta) oppure minore se unesposizione protettiva ( come nel caso di un vaccino).
Per confrontare i rischi sono comunemente usate diverse misure di associazione tra esposizione e
malattia, definite misure di effetto. Esse rappresentano differenti concetti di rischio e sono usate per scopi
diversi, come riassunto nella tabella seguente:

Misure di effetto
Rischio attribuibile
Rischio relativo
Rischio attribuibile di
popolazione
Frazione di rischio
attribuibile di popolazione

Quesito cui rispondono


Qual la quota parte dellincidenza di
malattia attribuibile al fattore di rischio?
Quante volte in pi gli esposti hanno
probabilit di sviluppare la malattia
rispetto ai non esposti?
Qual lincidenza di una malattia in una
determinata popolazione in cui agisce un
fattore di rischio?
Qual la quota di malattia in una
determinata popolazione attribuibile
allesposizione ad un fattore di rischio?

Formula
RA = IE InE
RR = IE/InE
Rap = RA x P
Fap= Rap/Rt

dove:
IE = incidenza negli esposti
InE = incidenza nei non esposti
P = prevalenza di esposizione al fattore di rischio
Rt = incidenza totale di malattia in una popolazione
La misura di effetto pi utilizzata in questo tipo di studio certamente il rischio relativo (RR):
come detto, esso valuta quante volte maggiore la probabilit di ammalarsi fra i soggetti esposti rispetto ai
non esposti. Se ad esempio in uno studio sugli effetti dellalcool sullinsorgenza di patologie epatiche
risultasse un RR pari a 4, significherebbe che fra gli alcolisti il rischio di patologie epatiche quattro volte
superiore rispetto ai non alcolisti. Nel caso risulti un RR < 1, significherebbe che il presunto fattore di rischio
, in realt, protettivo per la patologia considerata. Un RR = 1, infine, indicherebbe una non inflenza del
presunto fattore di rischio sulla patologia considerata: che lesposizione sia presente o meno sarebbe, quindi,
del tutto ininfluente.
Dopo aver calcolato le misure di effetto importante calcolare anche la stima intervallare delle stesse
o, in alternativa, il loro livello di significativit statistica, per valutare la possibilit che le differenze
osservate siano attribuibili al caso. Ad esempio, se nello studio precedente il RR = 4 avesse un intervallo di
confidenza (al 95 %) compreso tra 0.9 e 8.5, comprendendo il valore 1, che come abbiamo visto corrisponde
ad un fattore di rischio ininfluente, non saremmo in grado di affermare che lalcolismo costituisce realmente
un fattore di rischio che aumenta la probabilit dellinsorgenza di patologie epatiche.
Studi caso-controllo
In uno studio caso-controllo, il ricercatore seleziona il gruppo dei casi ed il gruppo dei controlli, in
base alla presenza o meno della malattia o dellevento in studio e confronta i due gruppi in base
allesposizione ai fattori di rischio identificati. I controlli possono essere abbinati ai casi come gruppo o
appaiati individualmente in modo tale da essere omogenei ai casi per una serie di variabili fondamentali,
quali let, il sesso, la razza, etc. che potrebbero costituire potenziali variabili di confondimento.
Lappaiamento in genere avviene nel rapporto di 1: 1, 1: 2 o anche 1: 4. In genere, il ricercatore seleziona i
controlli dalla stesso ambiente da cui sono stati estratti i casi, al fine di eliminare potenziali fattori di
confondimento (ad esempio maggiore probabilit di essere affetti da una malattia in alcuni gruppi della
popolazione piuttosto che in altri).
In questo tipo di studio, dopo la selezione dei casi e dei controlli, viene raccolta lanamnesi
attraverso interviste dirette o, in caso di assenza o di decesso dei casi, attraverso interviste ai familiari o ai
medici curanti per verificare la passata esposizione ai fattori di rischio in studio. Le relazioni temporali in
uno studio caso-controllo sono simili a quelle esistenti in uno studio trasversale, in cui il ricercatore apprende
contemporaneamente la presenza o meno della malattia e dei fattori di rischio cui in passato i soggetti sono
stati esposti. In termini di selezione dei soggetti, tuttavia, uno studio caso-controllo si differenzia da uno
studio trasversale, in quanto i soggetti vengono selezionati in base allessere o meno affetti dalla malattia in
studio.
Gli studi caso-controllo sono particolarmente utili quando necessario che lo studio sia breve ed
economico ed in caso di malattie rare. Per lo studio di una patologia rara, infatti uno studio di coorte
richiederebbe un consistente numero di soggetti allo scopo di individuare anche pochi casi di malattia; inoltre
lo studio potrebbe richiedere tempi molto lunghi e, quindi, anche un notevole dispendio economico.

Sebbene in ogni studio caso-controllo pu essere preso in considerazione un solo effetto, si possono
studiare contemporaneamente pi fattori di rischio: ci rende gli studi caso controllo utili per la generazione
di ipotesi causa-effetto da approfondire eventualmente in studi di coorte o sperimentali. Se viene rispettata
una procedura metodologica corretta, la qualit dellinformazione ottenuta negli studi caso-controllo pu
considerarsi vicina a quella ottenuta dagli studi clinici randomizzati, che per comportano maggiori difficolt
di conduzione e consistenti impegni energetici e temporali.
Nonostante i considerevoli vantaggi, gli studi caso-controllo presentano anche diversi svantaggi e
precisamente:
1)
per quanto riguarda laccertamento dei fattori di rischio, il principale problema rappresentato dai
potenziali errori anamnestici;
2)
altro problema costituito dalle difficolt che si incontrano nella selezione di appropriati gruppi di
controllo;
Nel caso degli studi caso-controllo non si pu calcolare il rischio assoluto dellevento in quanto non
possibile il calcolo dei tassi di incidenza perch in questo caso non si parte da popolazione definite, come
negli studi di coorte, ma da un gruppo di malati ed uno di non malati stabiliti aprioristicamente.
Conseguentemente non si pu neanche calcolare il rapporto di incidenze (rischio relativo). Tuttavia in uno
studio caso-controllo si pu calcolare la frequenza relativa dellesposizione nellambito dei casi e nellambito
dei controlli: tale rapporto chiamato Odds ratio (OR), pu essere considerato come una stima del rischio
relativo e si interpreta, infatti, allo stesso modo.
In formula: OR = (a/c)/(b/d) = ad/bc
Anche in questo caso valgono le considerazioni statistiche relative alla significativit dei risultati
ottenuti esposte precedentemente.
Infine opportuno ricordare che se le differenze osservate risultassero statisticamente significative,
ma non clinicamente importanti, il risultato potrebbe essere scarsamente utilizzabile nella pratica. Se invece
le differenze non risultassero statisticamente significative, ma esistessero forti evidenze cliniche che
indicassero il contrario, potrebbe essere necessario rivedere ladeguatezza delle dimensioni dei collettivi
esaminati.
STUDI SPERIMENTALI (TRIAL CLINICI)
Nellambito degli studi sperimentali, una particolare importanza rivestono le sperimentazioni
cliniche, pi note con la dizione anglosassone di clinical trials. Il termine trial deriva dall'anglo-francese
trier che significa provare. In generale si definisce clinical trial ogni test fatto sugli esseri umani al fine di
determinare il valore o la validit di un intervento terapeutico.
I trial clinici non sono altro che degli studi di coorte in cui lesposizione, previo consenso dei
soggetti studiati, viene imposta dal ricercatore. Quindi il ricercatore ha la possibilit di isolare il fattore
indagato tenendo sotto controllo eventuali altri fattori, in grado di controllare le condizioni in cui lo studio
viene condotto e valutarne quindi correttamente gli effetti.
Nella sua forma pi semplice il clinical trial implica l'applicazione della variabile sperimentale
(trattamento farmacologico, tipo di intervento chirurgico, dieta, intervento preventivo...) ad un gruppo di
persone e l'osservazione durante l'applicazione del trattamento. Il risultato di questo processo (outcome) pu
essere la guarigione, il decesso, il presentarsi di una forma morbosa oppure una variazione delle condizioni
generali dei soggetti trattati, come ad esempio una differenza della pressione sanguigna prima del trattamento
e ad un certo istante successivo al trattamento stesso.
Le sperimentazioni cliniche possono essere unicentriche, cio condotte da un unico centro, o
policentriche; le seconde offrono maggiori garanzie di oggettivit ed affidabilit, ma hanno il non
trascurabile difetto di richiedere una vasta ed efficiente organizzazione e limpiego di notevoli mezzi
finanziari.
FASI DELLA SPERIMENTAZIONE
Nel caso di sperimentazioni cliniche aventi per oggetto lintroduzione di un nuovo farmaco, prima di
effettuare prove di tollerabilit ed efficacia terapeutica di una sostanza sugli esseri umani, vengono effettuate
un gran numero di prove su animali di laboratorio, al fine di valutarne i principali effetti farmacologici,
farmacocinetici e tossicologici. Solo successivamente, se queste prove avranno portato a risultati

soddisfacienti, tali nuove sostanze saranno testate nelluomo. Schematicamente vengono distinte quattro fasi,
anche se i confini fra di esse non sono sempre ben definiti.
Fase I
Fornisce informazioni sulla dose massima tollerata. Il farmaco, preventivamente testato sugli
animali, viene somministrato a volontari sani iniziando da una dose molto piccola, in genere pari ad un
centesimo di quella che produce il primo effetto farmacologico evidenziabile sulla specie animale pi
sensibile (Cesama & Marubini 1994) e quindi utilizzando dosi crescenti in progressione geometrica con un
fattore pari a 1.5 o 2. Il numero dei soggetti trattati usualmente molto piccolo, non pi di 50. Tale fase non
fornisce informazioni sull'attivit del farmaco.
Fase II
L'obiettivo primario di questa fase determinare se una nuova terapia abbia la capacit di sviluppare
una attivit biologica sufficiente contro la malattia in esame, tale da poter garantire sviluppi futuri. Si
effettua su soggetti malati con studi comparativi e non comparativi di limitata numerosit, valutando inoltre
eventuali vantaggi rispetto a farmaci preesistenti e la tollerabilit a breve termine. Poich tali trial non sono
controllati non si pu determinare l'efficacia del trattamento o il ruolo del farmaco nel trattamento della
malattia.
Fase III
In questa fase si valuta lattinit terapeutica del farmaco nelle condizioni il pi possibile simili alla
pratica clinica. Si effettua su campioni di numerosit abbastanza elevata (alcune centinaia) con studi
comparativi in confronto a farmaci gi noti e/o placebo. In questa fase si valuta anche la tollerabilit a lungo
termine e linsorgenza di eventuali controindicazioni.
Fase IV
Si valuta il rapporto sicurezza/efficacia nelle condizioni di usuale utilizzazione del trattamento.
La commercializzazione del farmaco e quindi la somministrazione ad ampie fasce di popolazione,
consentono di valutare, in modo pi generale e completo di quanto fatto in fase III, lefficacia del farmaco e
soprattutto linsorgenza di reazioni avverse rare che non sarebbe stato possibile evidenziare con le limitate
casistiche utilizzate nelle fasi precedenti. A tal fine viene generalmente attivato un processo di
farmacosorveglianza, basato sulla rilevazione da parte dei medici di reazioni dannose non previste e della
loro notificazione alle autorit competenti.
MODELLI DI SPERIMENTAZIONE
La sperimentazione clinica nelluomo pu essere condotta seguendo tre distinti modelli sperimentali.
Sperimentazione non controllata
Il trattamento sperimentale viene assegnato a tutti i pazienti eligibili consecutivamente osservati.
Non c' un confronto diretto con un gruppo di controllo costituito con pazienti trattati in altro modo. Gli
effetti del trattamento sperimentale sono valutati in base al confronto con il decorso della malattia trattata
con terapia standard che si ritiene ben noto.
Possono avere un ruolo nella ricerca di trattamenti per malattie molto rare che non consentono quindi
un trial controllato e randomizzato, neppure multicentrico, oppure se sussistono tutte le seguenti condizioni:
- malattia a decorso prevedibile ed esito invariabilmente fatale
- efficacia terapeutica del nuovo trattamento esplicitamente evidente
- assenza di trattamenti alternativi utilizzabili per il confronto in una sperimentazione controllata
- presupposti fisopatologici e farmacologici sufficientemente forti, tali da rendere credibili i risultati
favorevoli della sperimentazione.
Sperimentazione controllata, non randomizzata
Il trattamento sperimentale viene assegnato a tutti o ad una parte dei pazienti eligibili
consecutivamente osservati. Esiste un gruppo di pazienti trattati in altro modo, che servono come controlli,
arruolati con procedure diverse:

controlli paralleli: esiste un gruppo trattato in modo alternativo, ma lattribuzione dei paziente al
gruppo non avviene in modo casuale;
- controlli storici;
- controlli da banche dati.
La perfetta comparabilit tra i pazienti cui viene somministrato il trattamento sperimentale ed i
controlli non pu mai essere del tutto accettata.
I problemi che nascono da tali tipi di controlli riguardano la combinazione di studi retrospettivi e
prospettivi a causa dei quali non in genere possibile eliminare i possibili bias dovuti a fattori variabili nel
tempo. L'utilizzazione di controlli storici produce risultati mediamente pi favorevoli rispetto al trial
randomizzato (SACKS et al. 1982); l'uso dei controlli storici pu essere giustificato solo in poche situazioni
controllate di condizioni relativamente rare, come ad esempio valutazione dei trattamenti per tumori in stadio
avanzato.
Un esempio ben noto di studio non randomizzato quello relativo ai possibili benefici di
supplementi di vitamine nel momento del concepimento in donne ad alto rischio di avere un bambino con
difetti alle tube neurali (SMITHELLS et al. 1980); i ricercatori trovarono che il gruppo che aveva assunto
vitamine ha avuto meno bambini con difetti neurali rispetto al gruppo di controllo con placebo. Il gruppo di
controllo includeva sia donne non eligibili per il trial sia donne che avevano rifiutato la partecipazione
Sperimentazione controllata e randomizzata (RCT)
Si tratta della sperimentazione pi frequentemente utilizzata e che fornisce le massime garanzie di
oggettivit ed attendibilit. Dopo aver individuato i pazienti eligibili si procede all'assegnazione ai gruppi in
modo randomizzato. Un gruppo, definito gruppo trattato, viene sottoposto al trattamento sperimentale; l'altro
gruppo, detto di controllo, viene trattato con metodi alternativi (trattamento gi noto o placebo). Al termine
di un periodo prestabilito si osserva il decorso clinico di entrambi i gruppi e si testano statisticamente i
risultati ottenuti.
Ladozione di un farmaco di confronto gi noto o di una sostanza farmacologicamente inerte
(placebo) dipende dalla natura della patologia studiata; ladozione di un placebo, in particolare, consente di
controllare gli effetti positivi dovuti al semplice fatto di effettuare un trattamento, il cosiddetto effetto
placebo, e di osservare, in condizioni di studio parallelo, le variazioni spontanee di un fenomeno morboso
(FAVILLI, 1988).
Il fatto che un gruppo di soggetti malati possa, a causa dellattribuzione casuale ad uno dei gruppi,
subire un trattamento con una sostanza inerte, o, comunque, non il migliore trattamento possibile, comporta
alcuni evidenti problemi etici. Viene infatti palesemente contraddetto il principio giuridico e deontologico
del neminem ledere, secondo il quale il medico non pu in alcun modo ledere lintegrit psicofisica del suo
paziente o consentire, con il suo mancato intervento, che ci possa accadere. Daltro canto, la
sperimentazione clinica trova origine dallesigenza etica del medico di acquisire nuove conoscienze
terapeutiche tali da consentirgli di curare in modo migliore i sui pazienti futuri.
La contrapposizione di questi due principi raggiunge una forma di equilibrio privilegiando,
nellambito della sperimentazione, una etica collettiva, cio un comportamento tale da consentirgli di
apportare notevoli miglioramenti al trattamento dei malati futuri, e, per quanto riguarda i pazienti trattati con
placebo, una etica individuale, consistente nellinterrompere il trattamento il pi tempestivamente possibile,
ovvero non appena appropriate analisi intermedie facciano comprendere la validit del nuovo trattamento
oppure la sua tossicit o non efficacia. Inoltre, nel caso le condizioni cliniche del paziente lo richiedano, il
medico sperimentatore in grado, in ogni momento, di venire a conoscienza del tipo di trattamento
somministrato e quindi di comportarsi di conseguenza.
Naturalmente il paziente deve essere informato di essere entrato a far parte di una sperimentazione
clinica; sar perci indispensabile che preventivamente il medico lo renda edotto del tipo di patologia di cui
affetto, della sua probabilit di guarigione, del tipo di sperimentazione cui dovr partecipare e quindi di tutti i
problemi ed i rischi che questa comporta. Il paziente dovr inoltre essere informato che ha la facolt di
interrompere in qualunque momento la sua partecipazione alla sperimentazione avviata. Solo a questo punto
il paziente potr, se vorr, firmare il modulo relativo al consenso informato.
La non conoscenza del tipo di trattamento che somministrato a ciascun paziente viene indicata con
il termine di cecit. Pu essere singola, ovvero il paziente ignora il trattamento che gli viene somministrato,
doppia, lo ignorano il paziente ed il medico o tripla, lo ignorano paziente, medico e statistico. La cecit
utilizzata per eliminare i bias psicologici dovuti alla conoscenza del trattamento e della sua assegnazione ed
uno degli indicatori utilizzati per valutare la qualit di un trial. La cecit indispensabile quando gli end-

point implicano un certo margine di soggettivit, come nel caso di interpretazione di imaging, oppure
l'intensit o la presenza di sintomi come il dolore.
In fase di progettazione della ricerca, un aspetto importante costituito dalla definizione a priori
della numerosit campionaria, stabilita sulla base degli errori di primo e secondo tipo, della risposta che ci
si attende e della variabilit. Tale numerosit deve essere stimata tenedo anche conto della necessit di
compensare le eventuali perdite al follow-up (drop-out).
La registrazione e la comunicazione delle sospensioni del trattamento e dei drop-out forniscono
informazioni essenziali sulla tollerabilit del trattamento stesso e sulla capacit degli sperimentatori di
mantenere la compliance dei pazienti.
La frequenza dei drop-out un problema importante, perch questi non si distribuiscono casualmente
allinterno dei gruppi considerati, ma, al contrario, si concentrano fra i soggetti che trovano meno
giovamento dal trattamento ricevuto; la valutazione finale perci, per essere corretta ed oggettiva,
opportuno che sia basata su tutti i soggetti che allinizio dello studio ci si era riproposto di trattare (intention
to treat principle), eventualmente considerando i drop-out come soggetti con risposta negativa.
Lesigenza di effettuare la randomizzazione deriva dalla necessit di prevenire bias di selezione dei
pazienti. Inoltre questa procedura consente di utilizzare le tecniche proprie dellinferenza statistica per
valutare, a fine follow-up, se le differenze osservate fra i risultati ottenuti con i vari trattamenti siano
attribuibili al caso o ad una reale diversa efficacia terapeutica.
Il termine random non significa "per caso" ma indica una precisa tecnica. Per allocazione casuale si
intende che ogni paziente ha una probabilit conosciuta, in genere costante ed uguale, di essere assegnato ad
un trattamento; ci pu avvenire secondo varie procedure gi in passato sommariamente trattate in questa
rubrica (v. NOFRONI 2000).
Randomizzazione casuale semplice
Si determina il trattamento per ogni paziente casualmente senza nessun vincolo (uguale allocazione
tra i gruppi). Se i gruppi sono due, tale procedura equivale ad assegnare i soggetti sulla base del lancio di una
moneta. E una procedura raramente applicabile, perch presuppone una estrema omogeneit del collettivo
campionato.
Randomizzazione in blocchi
Un blocco consiste in un numero specificato a priori di pazienti, tutti arruolati nello stesso tempo e
assegnati ai vari trattamenti in studio in modo da soddisfare il rapporto di allocazione prestabilito. Si utilizza
quando si vuole assicurare il bilanciamento nel numero di allocazioni fatte per i vari gruppi di trattamenti.
Per esempio, se consideriamo i soggetti in blocchi di 4, ci sono solo 6 modi in cui due soggetti potranno
venire assegnati al trattamento A e due al trattamento B:
AABB
ABAB
ABBA
BBAA
BABA
BAAB
Si scelgono i blocchi random per creare la sequenza delle allocazioni.
Il numero nei due gruppi in ogni tempo non pu differire di oltre la met della lunghezza del blocco.
La dimensione del blocco in genere un multiplo del numero dei trattamenti. Grandi blocchi dovrebbero
essere evitati, in quanto si controlla meno il bilanciamento
Randomizzazione stratificata
I fattori prognostici che verosimilmente condizionano l'esito terapeutico, possono essere bilanciati tra
i vari gruppi. Il metodo di produrre una lista randomizzata separata in blocchi per ogni sottogruppo (strato).
Per esempio in uno studio per comparare due trattamenti alternativi per il tumore della mammella potrebbe
essere importante stratificare secondo lo stato di menopausa.
Si devono costruire due liste separate di numeri casuali per le donne in premenopausa e
postmenopausa. E essenziale che l'allocazione stratificata del trattamento sia basata sulla randomizzazione
in blocchi all'interno di ogni strato piuttosto che la randomizzazione semplice, altrimenti non c' controllo del
bilanciamento.
Nellambito degli studi RCT, si possono individuare due grandi categorie di disegni sperimentali.
Entro pazienti
Negli studi entro pazienti (o cross-over) i soggetti trattati fanno parte di un unico gruppo
sperimentale e ad ogni paziente vengono somministrati alternativamente tutti i trattamenti. In questo caso
randomizzata la sequenza con cui ciascun trattamento viene somministrato a ciascun paziente.
Questo disegno in genere utilizzato quando la malattia cronica e relativamente stabile, ad
esempio asma, ipertensione, disturbi del sonno, angina, diabete, epilessia. Il vantaggio principale di questo
disegno di studio la sua efficienza, poich elimina la maggior parte degli errori dipendenti dalla variabilit

biologica individuale, infatti ogni soggetto il controllo di s stesso. Conseguenza diretta di questa
efficienza, la possibilit di poter utilizzare una numerosit campionaria ridotta rispetto al disegno tra
pazienti. Un altro potenziale vantaggio la possibilit di studiare le reazioni individuali al trattamento.
Le limitazioni di questi studi riguardano limpossibilit di essere utilizzati per processi patologici che
evolvono in tempi brevi e la possibile sommazione degli effetti farmacologici (carry-over); a tal fine
opportuno prevedere un periodo in cui verosimilmente l'effetto residuo del trattamento viene eliminato, detto
periodo di wash out (letteralmente: lavaggio).
Come conseguenza di tali vantaggi e svantaggi i disegni cross-over vengono usati prevalentemente
per studi di fase I e fase II, oppure per studi di bioequivalenza.
Tra pazienti
Il numero di gruppi sperimentali pari al numero dei trattamenti somministrati e ad ogni paziente
viene somministrato un solo trattamento.
Una particolare importanza riveste la definizione degli obiettivi dello studio (end-point) e la scelta
della variabile risposta. Lidentificazione della variabile risposta deve essere motivata in funzione delle
caratteristiche della patologia studiata, indicando il tipo di variabile, qualitativa o quantitativa, e la pertinente
legge di distribuzione.
Per trattamenti in pazienti con malattia clinicamente misurabile, possono scegliersi come end-point
primari alcune manifestazioni oggettive quali, ad esempio, frequenza delle risposte documentate, loro durata
ed entit, tempo intercorso tra inizio trattamento ed eventuale decesso, tempo libero da malattia, ecc.
Per malattie a decorso cronico l'efficacia del trattamento si misurata generalmente su end-point
secondari (tossicit, effetti collaterali, qualit della vita, valutazione dello stato di malattia).
PROTOCOLLO DELLO STUDIO
La pianificazione di una sperimentazione clinica comporta la stesura di un documento, detto
Protocollo dello studio, nel quale devono essere riportati, in dettaglio, tutti gli aspetti caratterizzanti la
ricerca che ci si ripropone di intraprendere, al fine di poter comunicare le caratteristiche della stessa ai vari
ricercatori e standardizzarne le procedure sperimentali.
Per sperimentazioni particolarmente complesse anche consigliabile la stesura di un manuale
operativo e la sintesi dellintero processo sperimentale in un diagramma di flusso (flow-chart).
Esemplificando, i punti che dovrebbero essere trattati in un protocollo completo e corretto, sono i
seguenti:
-

Introduzione
Valutazione dei risultati ottenuti sugli animali
Motivazione clinica
Obiettivi primari e secondari
Criteri di arruolamento dei pazienti
Eticit
Consenso informato
Durata del trattamento
Stima del numero di drop-out
Calcolo a priori della numerosit campionaria
Procedura di randomizzazione
Descrizione del trattamento
Definizione del disegno sperimentale
Definizione dei criteri di valutazione
Cecit
Schede di rilevazione
Gestione dei dati
Esami al tempo basale
Analisi intermedie
Analisi finali
Elaborazioni statistiche
Conclusioni finali

Bibliografia

VALUTAZIONE DELLA QUALIT


La qualit di un trial di ovvia rilevanza sia per lo studio in esame che per le revisioni sistematiche
(o metanalisi). Se i dati di base e il razionale scientifico della ricerca non sono consistenti, ne consegue che
anche linterpretazione dei risultati risulter distorta. La validit dei risultati generati di uno studio una
dimensione importante della qualit.
La qualit un concetto multidimensionale che pu riguardare il disegno, la conduzione e l'analisi di
un trial oppure la qualit del reporting. Spesso queste fasi non vengono descritte accuratamente dagli Autori
dello studio, a tal fine un gruppo internazionale di studiosi ha sviluppato, intorno agli anni 90, una
procedura, lo schema CONSORT (Consolidated Standards of Reporting Trial); tale schema comprende una
lista di controllo e un diagramma di flusso al quale dovrebbero adattarsi tutti i trial clinici. Questo strumento
in evoluzione poich viene sottoposto a continue revisioni, lultima apparsa nel 2001 (MOHER et al.). In
sintesi si dovrebbero controllare i seguenti items al fine di poter valutare se lo studio stato condotto in
modo adeguato oppure no:
- buon disegno dello studio con background scientifico e spiegazione del razionale;
- determinazione della numerosit campionaria;
- schema di randomizzazione;
- metodi statisticici;
- compliance dei soggetti;
- dati basali;
- outcome primari e secondari;
- eventi avversi;
- interpretazione e generalizzazione dei risultati;
- interpretazione generale in base alle evidenze correnti:
- per malattie a decorso cronico l'efficacia del trattamento misurata su end-point surrogati.
Campbell (1957) e Campbell & Stanley (1963) proposero una distinzione tra validit interna ed
esterna.
La validit interna riferita alla minimizzazione dei possibili bias di conduzione del trial,
individuabili nelle quattro seguenti categorie:
- bias di selezione: allocazione distorta dei soggetti in fase di randomizzazione;
- bias di performance: fruizione di cure non omogenee;
- bias di individuazione: valutazione errata dell'outcome;
- bias di attrito: deviazioni dal protocollo e perdite al follow-up.
La validit esterna basata sulla possibilit di generalizzare i risultati di un trial clinico ad altri
collettivi diversi da quello in studio. Le caratteristiche da considerare riguardano:
- i pazienti: et, sesso, gravit della malattia, fattori di rischio, comorbidit;
- il regime di trattamento: dosaggio, tempi e modi di somministrazione, tipo di trattamento all'interno
di una classe di trattamento, trattamenti concomitanti;
- il setting: livello delle cure, esperienza e specializzazione medica;
- la valutazione del
risultato: tipo di definizione dei risultati e durata del follow-up.
4) TEORIA E PRATICA DELLINFERENZA STATISTICA
Nellambito dellinferenza statistica, ovverosia, dell'insieme di tecniche statistiche che consentono
di estendere probabilisticamente i risultati parziali desunti dal campione allintera popolazione, si possono
individuare due principali problematiche:
a) verifica di ipotesi statistiche riguardanti la validit o meno di determinate assunzioni;
b) stima dei parametri ignoti di una popolazione.
VERIFICA DI POTESI

Concettualmente il processo di verifica delle ipotesi consiste nello stabilire se una assunzione fatta
possa essere considerata accettabile o meno, sulla base delle informazioni raccolte su una campione, ovvero
solo su una parte delle unit statistiche della popolazione oggetto di studio. Essa trova nel test statistico lo
strumento basilare intorno al quale ruota tutta la logica di questo tipo di studi.
Pu essere utile, schematicamente, individuare quattro distinte fasi operative:
1) DEFINIZIONE DELLE IPOTESI
2) DEFINIZIONE DEL RISCHIO DI ERRORE
3) SCELTA DEL TEST
4) DECISIONE FINALE
Analizziamole in dettaglio.
1) DEFINIZIONE DELLE IPOTESI
Lo studioso che vuole applicare i test statistici per prima cosa deve formulare lipotesi di partenza su
cui lavorare. Ma occorre precisare che tale ipotesi statistica , in genere, ben diversa dallipotesi sperimentale
che alla base della ricerca. Lipotesi statistica infatti basata sul presupposto che non ci sia alcuna
differenza fra i gruppi messi a confronto per il carattere oggetto di studio; per questo motivo viene appunto
indicata come Ipotesi nulla (H0). Se sussisteranno motivi per ritenere tale ipotesi non attendibile, si dovr
adottare una seconda ipotesi, alternativa alla prima, che viene appunto definita Ipotesi alternativa (H1),
secondo la quale i gruppi messi a confronto sono diversi tra loro per il carattere preso in esame.
Se, ad esempio, si volesse valutare quale fra due diverse diete possa dare migliori risultati a livello di
accrescimento ponderale, si potrebbero costituire due campioni omogenei cui somministrare le due diete, con
il presupposto di valutare, dopo un adeguato periodo di tempo, quale avr avuto migliore esito. Lipotesi
nulla di partenza sar che le due diete portano alle stesse variazioni ponderali medie (a meno di differenze
dovute a fattori casuali); se ci sar motivo per rifiutare tale ipotesi, si accetter lipotesi alternativa secondo
la quale le due variazioni medie sono diverse e quindi una dieta migliore dellaltra.
2) SCELTA DEL RISCHIO DI ERRORE
Poich in statistica inferenziale non potranno esserci conclusioni certe, ma solo probabilistiche, sar
necessario fissare a priori il rischio di errore che lo studioso disposto ad accettare nel respingere lipotesi
nulla quando questa in realt vera. Tale rischio di errore (detto errore di prima specie) viene
convenzionalmente indicato con e classicamente posto uguale a 0.05 (o un valore inferiore, come 0.025,
0.01...). In pratica lo studioso disposto a giungere ad una conclusione errata una volta su venti.
Definito lerrore di prima specie, in alcune ricerche pu essere necessario definire anche lerrore di
seconda specie () cio la probabilit di accettare lipotesi nulla quando questa errata; il valore di
generalmente fissato fra 0.10 e 0.20.
In realt, essendo gli errori e inversamente proporzionali tra loro, appare evidente che, fissato
luno, immediatamente determinato anche laltro. Entrambi per sono funzione della numerosit
campionaria e pertanto, laddove opportuno e possibile, si fissano a priori e ed in funzione di questi
rischi di errore e di altre informazioni a priori, si calcola con un processo inverso la numerosit
campionaria ideale, in grado cio di rendere significativa (v. fase 4) la differenza fra i gruppi che si sono
presi in considerazione.
3) SCELTA DEL TEST
I test statistici sono molteplici (v. Tab. 1) e al profano che legge una pubblicazione scientifica pu a
volte sembrare che lo statistico faccia una specie di slalon fra i test alla ricerca di quelli che meglio
supportino le teorie che vuole dimostrare. In realt non cos: la scelta del test basata su una molteplicit di
fattori e conoscenze a priori.
1) Tipo di verifica da effettuare: sulla dipendenza tra variabili, sul confronto tra medie, sul confronto tra
varianze, sulla simmetria della distribuzione dei dati, ecc.
E' necessario inoltre distinguere il caso di confronti tra campioni indipendenti (confronto tra gruppi
diversi, come nel caso di studi tra pazienti), e tra campioni dipendenti (quando cio un gruppo di soggetti
viene seguito e studiato in tempi diversi, come negli studi entro pazienti o crossover). In quest'ultima

situazione la variabile oggetto di studio generalmente data dalla differenza fra il valore che si riscontra al
tempo basale ed il corrispondente valore al tempo 1, al tempo 2, ecc. (test per dati appaiati).
2) Conoscenza, o meno, delle caratteristiche della distribuzione che la variabile oggetto di studio
presenta nella popolazione. Sono principalmente due le informazioni richieste: la conoscenza della forma
della distribuzione, se segue cio la distribuzione normale o meno, e la conoscenza della variabilit della
popolazione, calcolata con un opportuno indice detto standard deviation ().
Disponendo delle informazioni su queste caratteristiche della variabile oggetto di studio si potr
decidere quale tipo di test sia opportuno applicare:
se tali caratteristiche saranno conformi a determinati
assunti, si potranno applicare i cosiddetti test parametrici; in mancanza delle conoscenze a priori, o nel
caso queste non soddisfino i suddetti assunti, si potranno applicare i test non parametrici (anche detti
distribution free), meno potenti dei precedenti, ma che hanno il pregio di poter essere applicati facilmente e
senza il timore di basarsi su ipotesi non sufficientemente verificate.
3) Numerosit del campione.
A tutti noto che quanto pi il campione grande tanto pi il test fornisce risultati attendibili,
nondimeno esistono dei test particolarmente adatti a piccoli campioni come il test esatto di Fisher, il test t di
Student ecc. E opportuno precisare che vengono classicamente definiti piccoli campioni quelli che hanno
una numerosit inferiore alle 30 unit, ma la numerosit ideale dipende comunque dagli scopi della ricerca e
dalle caratteristiche delle tecniche statistiche utilizzate; ad es. applicando metodi statistici multivariati
necessaria come minimo una numerosit campionaria di alcune centinaia di unit statistiche.
4) Tipo di scala con cui espressa la variabile oggetto di studio.
Le scale pi comunemente utilizzate sono le tre seguenti:
a) scala nominale: il carattere qualitativo oggetto di studio si presenta secondo qualit diverse per le quali
non previsto un ordine di successione precostituito. Appartengono a questo gruppo ad esempio la
nazionalit (pu essere italiana, francese, spagnola), la professione (medico, avvocato, architetto ecc.), il
sesso (maschio o femmina), l'esito di un trattamento (guarito e non guarito) e cos via. Utilizzando tale scala
lunica relazione che pu essere instaurata tra le unit statistiche di uguaglianza o di diseguaglianza, senza
poter precisare n la grandezza n la direzione di tale diseguaglianza. E opportuno precisare che eventuali
codici numerici attribuiti convenzionalmente a tali qualit (come ad es. i codici attribuiti dallIstat alle varie
forme morbose) hanno solo la funzione di etichette e non possono in alcun modo essere elaborati
matematicamente.
Per questo tipo di variabili si possono utilizzare solo test che si basano sulle frequenze come ad
esempio confronto tra conteggi, confronto tra proporzioni, test chi quadro, test di Mc Nemar ecc.
b) scala ordinale: il carattere qualitativo oggetto di studio si presenta secondo modalit per le quali esiste
un ordine di successione precostituito; ne sono esempio i mesi dellanno (gennaio, febbraio, marzo), il
livello di scolarit (analfabeta, elementari, media inferiore, media superiore, laurea), una graduatoria (primo,
secondo, terzo ), il livello sociale (basso, medio, alto). Si possono avere anche caratteri quantitativi che
per, per comodit, vengono sintetizzati su scala ordinale: ad es. let, comunemente espressa in anni, pu
anche essere espressa come carattere qualitativo: neonato, adolescente, giovane, anziano ecc. Utilizzando
tale scala possibile classificare le unit statistiche con concetti di uguale, maggiore o minore, ma anche in
questo caso senza poter quantizzare lentit della diversit, infatti due posizioni successive non sono
necessariamente equidistanti tra loro; ad es. in una corsa ciclistica il secondo arrivato potr avere il distacco
di un minuto dal primo, ma il terzo potrebbe giungere a cinque minuti dal secondo.
Con variabili di questo tipo si possono utilizzare sia test che si basano sulle frequenze che sui ranghi
(posizione assunta in una graduatoria).
c) scala a intervalli: la variabile considerata si presenta con diversi valori numerici; ne sono esempi let, il
peso, il reddito, il volume toracico ecc. Tali valori per comodit vengono frequentemente raggruppati in
classi (60 70 kg.; 70 80 kg. ecc). Le scale ad intervalli godono di due propriet: esiste un ordinamento
naturale delle modalit in quanto queste sono espresse da valori numerici; esiste una unit di misura ed
quindi sempre possibile calcolare la distanza tra le unit statistiche, rispetto al carattere considerato,
semplicemente effettuando la differenza fra i valori assunti da tali unit.
Si tratta in questo caso di variabili che forniscono le maggiori informazioni sui fenomeni oggetto di
studio e pi gestibili dal punto di vista matematico formale; su queste pu essere applicato qualunque tipo di
test statistico.

4) DECISIONE FINALE
Lelaborazione del test statistico porter come risultato un valore del test stesso che a sua volta
individuer una probabilit (p): la probabilit che il risultato ottenuto si sia verificato per solo effetto del
caso; appare quindi logico pensare che se tale probabilit grande si possa attribuire appunto al caso la
diversit che si osservata fra i gruppi messi a confronto (plausibilmente a quanto affermato nell'ipotesi
nulla), mentre se molto piccola si possa ritenere che non sia stato il caso a determinare il risultato, ma
questo sia stato determinato da qualche altro fattore (come riportato nell'ipotesi alternativa).
Emerge quindi la necessit di un criterio oggettivo ed univoco per stabilire quando una probabilit
possa definirsi piccola o grande; il problema si risolve con il confronto del valore p trovato con la
probabilit dellerrore di prima specie ; se risulter p > , dove, come detto, generalmente = 0.05, si sar
ottenuto un risultato che probabile si sia verificato per effetto del caso ed quindi plausibile considerare
valida lipotesi nulla di eguaglianza. Al contrario, se risulter p < , si sar ottenuto un risultato che appare
poco probabile essere dovuto al caso e quindi non coerente con lipotesi nulla prefissata. L'ipotesi nulla verr
quindi rifiutata, lo studioso adotter lipotesi alternativa (secondo la quale la diversit tra i gruppi reale) ed
il risultato verr definito significativo.
Operativamente sar sufficiente, ricorrendo alle tavole relative al test utilizzato, confrontare il il
valore del test con il valore che, sulle tavole, individua la probabilit prefissata (valore soglia); se il
valore del test sar maggiore del valore soglia individuer una p inferiore ad per cui si respinger lipotesi
nulla.
Nel caso contrario, ovverosia quando il valore desunto dal test risulter inferiore al valore soglia, la
probabilit p sar superiore ad , quindi si sar ottenuto un risultato che probabile sia dovuto al caso, per
cui si accetter lipotesi nulla.
E' opportuno precisare che il valore del test inversamente proporzionale alla probabilit che il
valore stesso individua, ovvero quando il test fornir un valore grande individuer una p piccola e viceversa.
APPLICAZIONI
Esempio 1
Si vuol valutare se ci sia una diversa propensione al tabagismo nei due sessi; a tale scopo si sono
costituiti due gruppi (campioni in linguaggio statistico) di maschi (nM = 44) e di femmine (nF = 38),
omogenei tra di loro (se ci fossero rilevanti diversit di et, cultura, livello sociale ecc., leventuale diversa
propensione al tabagismo potrebbe essere attribuita a tali fattori).
Lipotesi nulla di partenza di indipendenza (la propensione al tabagismo non dipende dal sesso)
contro una ipotesi alternativa di dipendenza (la propensione al tabagismo dipende dal sesso). Il rischio di
errore fissato come di consueto al 5 % (= 0.05).
Volendo valutare la dipendenza tra due caratteri qualitativi, il test da adottare il Chi quadro; se la
casistica fosse stata poco numerosa (n < 40) o fossero risultate frequenze teoriche molto piccole (< 5),
sarebbe stato preferibile il test esatto di Fisher.
Il valore del Chi quadro calcolato risulta pari a 4.6; utilizzando le relative tavole si osserva che per
= 0.05 e gradi di libert = 1, il Chi quadro teorico pari a 3.841. Il nostro valore supera il valore soglia e di
conseguenza individua un risultato che presenta una probabilit di verificarsi inferiore ad . L'ipotesi nulla di
partenza non appare plausibile, quindi la respingiamo e adottiamo in sua vece l'ipotesi alternativa: i due sessi
sembrano avere una diversa propensione nei confronti del tabagismo; tale affermazione ha una probabilit
dello 0.05 di essere errata.
Esempio 2
Si vuole valutare se il quoziente di intelligenza (QI) degli studenti con maturit scientifica sia diverso
da quello degli studenti con maturit classica. A tale scopo si costituiscono due campioni omogenei, ciascuno
di 21 individui, estratti casualmente fra gli studenti che hanno conseguito la maturit nel 1998 nei due tipi di
scuola.
Viene misurata con un opportuno metodo il QI dei due campioni, ottenendo i seguenti risultati:
Maturit scientifica
Maturit classica
Media (QI)

108

114

Varianza (QI)

70

86

E' noto che il QI si distribuisce in modo approssimativamente normale. Il campione piccolo e


pertanto il test da adottare per il confronto delle due medie il test t di Student per campioni indipendenti.
Per poterlo utilizzare per necessario preliminarmente testare l'omogeneit delle varianze (verificare cio
che le varianze non siano significativamente diverse) tramite il test F di Fisher.
H0: le varianze sono uguali
H1: la varianza degli studenti provenienti dal classico maggiore di quella dei provenienti dallo
scientifico
Si pone inoltre = 0.05
Si ottiene

86
F = ---------- = 1.22
70

Essendo 1.22 < F = 2.12 (rispettivamente con 20 e 20 gradi di libert), si evince che il nostro
risultato cade nell'area di accettazione dell'ipotesi nulla e pertanto si pu concludere che le due varianze sono
omogenee tra loro: corretto l'uso del test t. Se cos non fosse stato sarebbe stato necessario effettuare una
trasformata della variabile o utilizzare un test non parametrico.
Si passa quindi al test t di Student per campioni indipendenti.
H0: le due medie sono uguali
H1: le due medie sono diverse
= 0.05
Si ottiene t = 2.201. Poich il valore del t teorico (per 40 gradi di libert) pari a 2.02, il valore da
noi trovato supera il valore soglia e ci induce a respingere l'ipotesi nulla. Il QI degli studenti con maturit
scientifica sembra essere diverso da quello degli studenti con maturit classica. Naturalmente da questi dati
non possibile stabilire se sia il tipo di liceo a determinare una modificazione del QI, o ci sia una
autoselezione all'origine, per cui i ragazzi con il QI maggiore optano con maggiore frequenza per il liceo
classico.
Esempio 3
Il questionario Faces II fu realizzato da Olson, Portner e Bell al fine di studiare le dinamiche
familiari; costituito da trenta domande, ciascuna delle quali prevede come risposta un punteggio da 1 a 5
che esprime la frequenza con cui, secondo l'intervistato, accade l'evento enunciato nella domanda (dove 1 =
quasi mai, , 5 = quasi sempre).
Selezionato nell'ambito di una ricerca infermieristica un campione di 200 famiglie, il Faces II fu
somministrato comparativamente a due membri di ciascuna famiglia, uno giovane (25 < et < 50) ed uno
anziano (> 65), al fine di evidenziare eventuali differenze di giudizio.
Considerata una singola domanda (ad es. la n. 7: "Nella nostra famiglia si fanno le cose insieme") si
pone il problema di come valutare statisticamente le risposte.
Un primo approccio pu consistere nel calcolare rispettivamente il punteggio medio fornito dai
giovani e dagli anziani e di testarne la relativa differenza:
Media (giovani) = 4.6

Media (anziani) = 5.3

Per la scelta del test occorre tener conto che:


1) le risposte ottenuti si presentano secondo una distribuzione non conforme alla distribuzione normale (o di
Gauss), ma sono anzi vistosamente asimmetriche; il campione comunque molto ampio, il che tende a
rendere normale la distribuzione campionaria delle medie.
2) i punteggi forniti non individuano una variabile quantitativa, ma soltanto una scala ordinale;
3) membri della stessa famiglia si pu presumere che forniscano risposte fondamentalmente simili, quindi si
sia di fronte a dati dipendenti (detti anche dati appaiati).

Alla luce di quanto sopra, si ritiene che il corretto test da adottare per confrontare le due medie sia il
test non parametrico di Wilcoxon che utilizza i ranghi (posizione assunta in una graduatoria).
H0: la media dei punteggi forniti dai giovani non diversa da quella dei punteggi forniti dagli
anziani.
H1: la media dei punteggi forniti dai giovani diversa da quella dei punteggi forniti dagli anziani.
= 0.05.
Poich il test di Wilcoxon fornisce un valore che non supera il valore soglia, si decide di accettare
l'ipotesi nulla e di affermare quindi che la media dei punteggi non sembra essere diversa fra giovani ed
anziani.
In alternativa si pu calcolare la Statistica K che calcola il livello di concordanza fra le risposte
fornite dai giovani e dagli anziani, con K compreso fra 0 (minimo) e 100 (massimo). Nel nostro caso si
trovato un valore pari al 47 % che sta ad indicare un discreto livello di concordanza. Tale risultato pu essere
testato utilizzando il test Z.
H0: K = 0
H1: K > 0
= 0.05.
Poich Z = 2.25 > Z = 1.65 si pu respingere l'ipotesi nulla, accettare l'ipotesi alternativa ed
affermare che il valore della concordanza espressa dalla statistica K non sembra dovuto al caso.
LA STIMA DEI PARAMETRI
Dopo la verifica di ipotesi, un'importante area dell'inferenza statistica quella relativa alla stima dei
parametri ignoti della popolazione. Lo studioso infatti si pone l'obiettivo di ottenere, con i dati parziali
ottenuti dal campione, informazioni attendibili in merito alla popolazione da cui il campione stesso stato
estratto; il valore che un certo fenomeno assume nella popolazione viene detto parametro e il
corrispondente risultato desunto dai dati campionari si pu considerare una sua stima.
Definita la variabile di interesse (ad esempio X = pressione arteriosa sistolica) e prendendo in
considerazione, a puro scopo esemplificativo, il parametro media aritmetica della popolazione,
convenzionalmente indicata con la lettera greca , la corrispondente stima sar fornita dalla media aritmetica
campionaria. Questa tipo di stima viene detta stima puntuale, in quanto rappresenta un valore preciso,
graficamente identificabile in un punto collocato sull'asse delle ascisse all'interno del range di dispersione dei
valori campionari.
Questa stima ha per il limite che lo studioso non ha alcun modo di valutarne l'attendibilit: potrebbe
infatti trattarsi di una stima molto vicina al valore ignoto , e quindi del tutto attendibile, oppure molto
lontana da esso, risultando quindi fuorviante.
Per superare questo problema, viene utilizzato un altro tipo di stima, detta stima intervallare (o
intervallo di confidenza); questo metodo consente di affermare che la media ignota compresa in un
intervallo noto con una probabilit prefissata.
Fissata infatti a priori la probabilit di errore , la stessa cha abbiamo visto nell'ambito della verifica
di ipotesi essere identificata come probabilit dell'errore di primo tipo, immediatamente definita la
probabilit che l'intervallo definito comprenda , pari ad 1 - . Pertanto se = 0.05 sar 1 - = 0.95.
Sar quindi
Prob { M - ES < < M + ES} = 0.95
Dove

M = media campionaria
ES = errore standard (errore medio che si commette stimando con la media
campionaria) dato dalla deviazione standard campionaria o della popolazione, se nota)
diviso radice di n (n = numerosit campionaria)
= valore della distribuzione Z o della distribuzione t (dipende dalle caratteristiche dello
studio) che delimita nelle due code della distribuzione un'area totale pari ad

Mi accorgo con orrore che ho bruscamente tradito il mio proposito, fin qui rispettato, di divulgare la
metodologia statistica senza appesantirla, per quanto possibile, con simboli e formule; credo per di dover
fare una eccezione in questo caso, perch la suddetta formula, peraltro non terribile, se ben compresa
consente importanti riflessioni.
Se ad esempio a seguito di uno studio risultasse che i soggetti trattati con un determinato farmaco
presentano, con la probabilit del 95 %, una pressione sistolica compresa tra un minimo 120 ed un massimo
di 160 mm di mercurio, lo studioso sarebbe giunto ad una conclusione del tutto ovvia e per nulla conclusiva.
Potrebbe riproporsi perci di modificare le caratteristiche dello studio per ottenere un intervallo meno ampio.
Un intervento potrebbe consistere nell'aumentare , perch cos facendo sarebbe minore (sia che si
utilizzi la distribuzione Z che la t) e quindi l'intervallo pi piccolo; questo comporterebbe per un aumento
del rischio di errore, appunto identificato da , e quindi si otterrebbe una maggiore precisione a scapito di
una minore sicurezza.
Altra soluzione potrebbe consistere nell'aumentare la numerosit campionaria n: infatti nella formula
dell'errore standard aumenterebbe il denominatore con conseguente diminuzione dell'errore standard stesso e
quindi della variabilit. E' questa naturalmente la soluzione ottimale, ma opportuno ricordare che un
aumento della dimensione del campione comporta quasi sempre costi e/o tempi maggiori. Inoltre nella
formula dell'errore standard n si trova sotto radice, quindi ad un eventuale raddoppio della numerosit
campionaria non corrisponde un dimezzamento dell'errore standard: se, ad esempio, con un campione di 25
unit si fosse ottenuto un ES = 20, raddoppiando il campione si otterrebbe un ES = 14.14 con una
diminuzione quindi di poco superiore al 25 %.
Non ritengo opportuno, in questa sede, precisare i passaggi logici e formali che consentono di
arrivare alla definizione dell'intervallo di confidenza, giover per ricordare che questa metodica, come
anche quella relativa alla verifica di ipotesi, basata sulla conoscenza della distribuzione normale (o di
Gauss) che svolge un ruolo fondamentale in gran parte delle tecniche relative all'inferenza statistica.
CALCOLO DELLA NUMEROSITA CAMPIONARIA
Posto che in uno studio clinico tendente a valutare dell'efficacia di un certo trattamento la risposta
terapeutica possa essere individuata nella variazione media (ad esempio: prima e dopo la cura) di una certa
variabile presa in esame, per poter stabilire a priori la numerosit campionaria necessaria per portare a
termine la ricerca in modo soddisfaciente, cio dimostrando la validit del trattamento, necessario disporre
di quattro informazioni:

errore (o errore di primo tipo): probabilit di ritenere efficace il trattamento mentre in realt la
variazione osservata solo casuale;
errore (o errore di secondo tipo): probabilit di ritenere la variazione dovuta al caso mentre in realt
conseguenza del trattamento;
differenza media clinicamente rilevante ();
deviazione standard () delle differenze prima/dopo.

Le prime due informazioni sono facilmente disponibili, in quanto le determina, a priori, il


ricercatore: l'errore classicamente viene posto pari a 0.05, mentre l'errore oscilla, in genere, tra 0.10 e
0.20.
Le ultime due informazioni creano qualche problema in pi perch sarebbero dati desumibili solo
dall'esperienza, cio dopo aver portato a termine la ricerca. Nella pratica viene preliminarmente condotto uno
studio pilota (cio su un numero limitato di soggetti) e sulla base dei risultati ottenuti vengono stimate le
due informazioni mancanti. E' inoltre possibile, in corso di sperimentazione, ritarare la numerosit
campionaria sulla base dei dati raccolti in itinere.
E' opportuno precisare che la differenza media individuata deve necessariamente essere
clinicamente rilevante, cio tale da costituire un risultato valido e soddisfacente dal punto di vista clinico,
sia in assoluto che in confronto di pratiche terapeutiche similari. Avrebbe poco senso, infatti, proporre una
terapia poco efficace o comunque meno valida di altre terapie note, a meno che in essa non si individuino
rilevanti vantaggi a livello di tempi e/o costi di produzione, nonch di controindicazioni ed effetti collaterali.

Vogliamo infine ricordare, dal punto di vista statistico, che quanto pi la variazione media ottenuta
modesta, tanto pi il campione tendente a dimostrare la validit del trattamento deve essere numeroso; la
necessit di dover disporre di una casistica particolarmente ampia pu peraltro comportare ulteriori problemi,
sia pratici che economici, per chi conduce la ricerca.
5) INTRODUZIONE ALLA META-ANALISI
Le revisioni sistematiche delle migliori evidenze disponibili concernenti i rischi e i benefici degli
interventi medici possono essere utili per prendere decisioni nella pratica clinica e nella sanit pubblica. Tali
revisioni sono, quando possibile, basate sulle meta-analisi. La meta-analisi una tecnica statistica per
combinare, o integrare, e quindi valutare complessivamente i risultati di pi studi indipendenti aventi un
oggetto comune.
Il termine meta indica qualcosa che avviene dopo e spesso viene utilizzato come suffisso per una
nuova disciplina collegata con una precedente per poterla trattare criticamente.
La meta-analisi potrebbe essere vista come uno studio osservazionale dellevidenza. Le fasi sono analoghe a
quelle di ogni ricerca statistica: formulazione del problema, raccolta dei dati, analisi, interpretazione e
pubblicazione dei risultati. I ricercatori dovrebbero predisporre prioritariamente un protocollo dettagliato di
ricerca che formuli chiaramente gli obiettivi, le ipotesi da saggiare, i sottogruppi di interesse, i metodi
proposti e i criteri per identificare e selezionare gli studi pi rilevanti (ad esempio si pu decidere di
includere, o meno, studi non pubblicati) e per estrarre ed analizzare le informazioni.
In alcuni settori clinici, in modo particolare nella valutazione dellefficacia di farmaci e trattamenti
antitumorali e delle malattie cardiache, consultando la letteratura possibile imbattersi in numerosi trials che
cercano di fornire risposte circa lefficacia di determinati trattamenti terapeutici.
La difficolt per i clinici consiste nellinterpretare una molteplicit di studi che alle volte forniscono
risultati discordanti. Accade spesso, ad esempio, che trial clinici forniscano risultati incerti a causa della loro
scarsa numerosit campionaria oppure ci siano studi in conflitto tra loro nella stima del beneficio netto,
anche perch alcuni studi mostrano i rischi ed altri illustrano i benefici.
In tale contesto si inseriscono le meta-analisi; queste forniscono una sintesi razionale della ricerca di
base valutando la qualit del disegno sperimentale e della sua esecuzione di tutti gli studi considerati,
combinando i risultati in modo non distorto. In tal modo si presentano le evidenze esistenti e viene
individuata una stima quantitativa del beneficio netto aggregato relativo a tutti gli studi.
La meta-analisi non consiste solo nella combinazione dei dati ma include lesplorazione
epidemiologica e la valutazione dei risultati (epidemiologia dei risultati) sostituendo questi ultimi
allindividuo come unit di analisi. Nelle meta-analisi, inoltre, si possono saggiare nuove ipotesi.
Limitazioni di uno studio singolo
Uno studio singolo spesso non riesce ad individuare (o ad escludere) una modesta differenza,
sebbene clinicamente rilevante, esistente tra due trattamenti. Un trial pu quindi mostrare assenza di effetto
anche quando in realt leffetto esiste, cio pu produrre un risultato falso negativo. In questo caso ci si
trova di fronte ad un errore di II tipo (accettazione dellipotesi nulla quando questa falsa), la cui
probabilit di verificarsi pu essere calcolata per una data differenza nelleffetto del trattamento, una
determinata dimensione campionaria e un prefissato livello di significativit.
In genere, negli studi clinici, si fa riferimento solo allerrore di I tipo per valutare differenze
statisticamente significative, la cui probabilit di verificarsi corrisponde al P value. Un esame dei clinical
trials che riportano differenze statisticamente non significative fra trattamento sperimentale e controllo ha
per mostrato che lerrore di II tipo molto comune nella ricerca clinica: per una differenza clinicamente
rilevante nellesito la probabilit a priori di mancare questo effetto a causa della modesta dimensione del
trial, pi grande del 20 % in 115 dei 136 trials esaminati (Freiman 1992).
Il numero dei pazienti spesso inadeguato in quanto, in alcuni casi, la dimensione campionaria ottimale
difficile da raggiungere. Un farmaco che riduca del 10 % il rischio di morte per infarto del miocardio
potrebbe, ad esempio, cancellare migliaia di morti ogni anno nella sola Inghilterra. Ma per rilevare un tale
effetto, con il 90 % di probabilit, cio con errore del II tipo non superiore al 10 %, ci sarebbe bisogno di pi
di 10.000 pazienti in ogni gruppo di trattamento (Collins 1992).

Lapproccio meta-analitico sembra fornire una interessante alternativa a tali studi troppo estesi,
estremamente costosi e logisticamente problematici.
La meta-analisi pu inoltre contribuire alla generalizzazione dei risultati: i risultati di un particolare
studio possono essere validi solo per una popolazione di pazienti con le stesse caratteristiche di quelli
indagati nel trial. Se invece esistono molti trials in differenti gruppi di pazienti, con risultati simili nei vari
trials, si portati a concludere che leffetto dellintervento sotto studio possa essere generalizzato.
Requisiti fondamentali della meta-analisi
Le meta-analisi dovrebbero essere pianificate attentamente cos come ogni altro progetto di ricerca,
con un protocollo dettagliato predisposto in anticipo. Una definizione a priori dei criteri di eligibilit degli
studi da prendere in considerazione, una ricerca attenta di tali studi, per valutarne il livello di qualit e
lutilizzo di dati non distorti, e una revisione sistematica ben eseguita, sono requisiti fondamentali per
unalta qualit della meta-analisi.
Vantaggi
1. Fornisce un quadro di riferimento pi chiaro di quanto possano studi di piccole dimensioni e quindi di
scarsa potenza.
2. Superamento di bias dovuti a revisioni descrittive (non sistematiche) che tendano ad includere solo studi
con risultati che mostrano benefici.
3. Maggiore precisione, in quanto la dimensione delleffetto stimato dipende dal numero di pazienti
studiati.
4. Trasparenza delle scelte effettuate, in quanto una buona meta-analisi consente di determinare la
decisione pi idonea.
Limiti
Come tutte le tecniche di ricerca ci possono essere distorsioni nella conduzione e nellinterpretazioni delle
meta-analisi. Anche se i dati provengono da studi randomizzati, le meta-analisi sono essenzialmente studi
osservazionali di evidenza, per cui sono soggette a diversi bias che possono indebolire i risultati trovati.
Bias di localizzazione e selezione degli studi
Al fine di evitare i bias di pubblicazione (si pubblicano maggiormente gli studi che raggiungono
risultati positivi) si devono utilizzare criteri univoci di inclusione o rifiuto degli studi da considerare.
Un modo semplice per valutare il bias di selezione quello di costruire un funnel-plot (vedi oltre)
che visualizzi la dimensione delleffetto stimato vs la dimensione campionaria degli studi inclusi nella metaanalisi. Il funnel plot basato sul fatto che la precisione nello stimare leffetto del trattamento sottostante si
incrementer allaumentare della dimensione campionaria.
I risultati provenienti da studi di piccole dimensioni si disperderanno ampiamente verso il basso del
grafico, con una diffusione limitata tra gli studi pi grandi. In assenza di bias il plot assomiglier ad un
funnel simmetrico. Al contrario, se ci sono errori, il funnel plot sar spesso asimmetrico.
Bias di eterogeneit
La casistica considerata si pu presentare disomogenea nei vari studi per alcune caratteristiche. Queste
possono riguardare:
Il gruppo di pazienti studiato in relazione a differenti stadi di gravit o diverse caratteristiche della
patologia.
Gli interventi applicati; una meta-analisi potrebbe includere lo studio di pi trattamenti piuttosto che di
un singolo trattamento (ad es. magnesio o streptochinasi oppure agenti anti-colesterolo).
Lobiettivo primario: questo pu differire tra gli studi e quindi una buona meta-analisi dovrebbe cercare
di aggregare studi con end-point comuni.
Luogo geografico diverso; spesso le meta-analisi combinano studi di differenti paesi, allinterno di
queste realt vi possono essere altri fattori (ad esempio cure concomitanti, caratteristiche genetiche, ecc.)
che contribuiscono al successo o al fallimento dellintervento terapeutico oggetto di studio.
Leterogeneit degli studi per inevitabile per la meta-analisi. La questione non se essa sia
presente o meno, ma se risulti cos estesa da minare le conclusioni che potrebbero essere tratte.

Se i risultati degli studi differiscono molto tra loro non appropriato combinare i risultati. In questa
situazione, come valutare le differenze?
Un approccio consiste nellesaminare statisticamente il grado di similarit nei risultati degli studi,
cio saggiarne leterogeneit. Con tali procedure si valuta se i risultati riflettono un singolo effetto oppure
una distribuzione di effetti. Se il test mostra omogeneit ne segue che le differenze possono essere assunte
come conseguenze di variazioni campionarie ed appropriato il modello ad effetti fissi. In caso contrario
pi idoneo il modello ad effetti casuali (vedi oltre).
Anche se esistono test statistici per valutare leterogeneit, di fatto hanno scarsa capacit di
individuare differenze sostanziali. Uno dei limiti principali di tali metodi la mancanza di potenza statistica:
infatti comunemente si accetta lipotesi nulla (H0) anche quando esistono differenze sostanziali.
Per esempio alcune meta-analisi hanno esaminato il ruolo delleparina con basso peso molecolare
(LMWHs) come agente tromboprofilattico post-intervento e nel trattamento delle trombosi venose profonde.
Mentre alcune grandi reviews hanno dimostrato lutilit di questa classe di farmaci, altre meta-analisi basate
su dati individuali sono state meno conclusive. Una possibilit interpretativa che non tutte le LMWHs
abbiano le stesse caratteristiche, e che gli effetti benefici dei maggiori componenti efficaci siano diluiti in
aggregazioni eterogenee inappropriate. In questo caso le differenti LMHWs dovrebbero essere considerate
come entit chimiche distinte e di conseguenza analizzate separatamente con la conduzione di meta-analisi
appropriate.
Ulteriori bias
Perdita di informazioni su obiettivi importanti. In genere le meta-analisi riguardano variabili dicotomiche
(es vivo/morto, guarito/malato, recidiva/non recidiva) e viene spesso trascurato lapproccio quantitativo
al problema.
Analisi dei sottogruppi non appropriate. Lesplorazione di risultati su sottogruppi spesso un obiettivo
della meta-analisi, talvolta per poter spiegare un insuccesso del trattamento. Si pu esaminare un subsets
di studi isolati (probabilmente quelli con metodologia migliore) oppure, se sono stati utilizzati i dati
individuali per condurre la meta-analisi, sottogruppi di pazienti (ad es. anziani oppure quelli con
patologie pi gravi). Questo approccio pu offrire nuove prospettive da testare in futuri studi ma
opportuno procedere con cautela nelle interpretazioni. Anche se gli studi sotto esame sono randomizzati,
questa randomizzazione e il conseguente bilanciamento tra gruppo trattato e gruppo di controllo
potrebbero non estendersi ai sottogruppi definiti successivamente. Tutto ci fonte di potenziali
confondenti e di interpretazioni errate, quindi indagare sugli effetti per sottogruppi dovrebbe essere visto
per ci che : esplorazione e non spiegazione.
Analisi di sensitivit non adeguate. Poich si possono prendere diverse decisioni circa la selezione,
linclusione e laggregazione dei dati e questo pu condizionare i risultati principali, in genere per le
meta-analisi vengono condotte analisi di sensitivit. Lanalisi di sensitivit esplora i modi in cui i
principali risultati possono cambiare variando lapproccio di aggregazione. Una buona analisi di
sensitivit sar in grado di valutare, tra le altre cose, leffetto dellesclusione di varie categorie di studi,
ad esempio trial non pubblicati o di scarsa qualit. Pu inoltre esaminare la consistenza dei risultati tra i
vari sottogruppi.
Conflitto con nuovi dati sperimentali. Le meta-analisi cercano nuove conoscenze partendo da dati
esistenti; un modo per saggiare la validit di queste nuove conoscenze quello di comparare i risultati
delle meta-analisi con i risultati dei cosiddetti mega-trials, studi randomizzati controllati condotti su larga
scala. Tali confronti in genere hanno un buon grado di accordo ma in alcuni casi vi possono essere
notevoli discrepanze. Ad esempio un tale esercizio ha condotto alla pubblicazione di un paper dal titolo
Lezioni da un intervento efficace, sicuro e semplice che non stato eseguito (Egger & Davey-Smith
1995) riferito al mancato uso del magnesio intravenoso dopo un attacco di cuore.
Metodi statistici per calcolare leffetto globale
Una semplice media aritmetica dei risultati di tutti i trials potrebbe dare risultati errati, infatti i
risultati che provengono da piccoli studi sono pi soggetti a variazioni casuali. Il principale metodo utilizzato
per compensare tale distorsione consiste nel ponderare i risultati in modo da assegnare un peso maggiore ai
trials pi grandi.
Le tecniche statistiche per la meta-analisi possono essere classificate secondo due distinti modelli, la
cui differenza consiste nel modo in cui trattata la variabilit dei risultati.

Modello ad effetti fissi: considera che la variabilit sia dovuta esclusivamente a variazione random;
quindi, teoricamente, se tutti gli studi fossero infinitamente grandi dovrebbero fornire risultati identici.
Modello ad effetti random: assume lesistenza di una componente della variabilit sottostante ai
dati e differente per ogni studio; considera tale componente come una fonte di variazione aggiuntiva che
conduce, talvolta, ad intervalli di confidenza pi ampi rispetto al modello ad effetti fissi. Gli effetti si
assumono distribuiti in modo random e il punto centrale di questa distribuzione il nucleo della stima
delleffetto combinato.
Sebbene nessuno dei due modelli possa definirsi corretto, si evidenzia una sostanziale differenza se gli studi
sono marcatamente eterogenei.
Interpretare i risultati principali
Per confrontare i risoltati ottenuti sono comunemente usate diverse misure di associazione tra
trattamento e risultato dello stesso, definite, come negli studi epidemiologici, misure di effetto. Queste
possono essere assolute e relative.
La pi utilizzata lOdds ratio (OR) che, come noto, si interpreta come un rischio relativo.
LOdds relativo ad un determinato evento patologico dato dal numero dei pazienti che sperimentano un
determinato end-point diviso il numero di pazienti che non lo sperimentano. Per esempio lodds di disturbi
gastrointestinale durante un trattamento antibiotico in un gruppo di 10 pazienti esposti, dei quali 4 con
disturbi e 6 senza disturbi, si ottiene con il rapporto 4 diviso 6 (0.66); nel gruppo di controllo lodds pu
essere 1 a 9 (0.11). Lodds ratio del trattamento rispetto al controllo sar quindi 6 (0.66/0.11).
In alternativa si pu utilizzare il Rischio relativo (RR). Conoscendo il rischio assoluto, dato dal
numero di pazienti che sperimentano un determinato end-point diviso il numero totale di pazienti, agevole
il calcolo del rischio relativo. Nellesempio precedente il rischio dovrebbe essere 4/10 nel gruppo trattato e
1/10 nel gruppo di controllo fornendo un rischio relativo di 4 (0.4/0.1).
Lodds ratio numericamente sar vicino al rischio relativo se lend-point si verifica non di frequente,
meno del 20%; se invece loutcome pi comune, lodds ratio sovrastima il rischio relativo.
Misure standardizzate
I risultati individuali devono essere espressi in forma standardizzata per consentire la comparazione
tra gli studi.
Se lend-point espresso da una variabile continua (ad es. livello di colesterolo, pressione arteriosa,
ecc.) si usa la differenza media tra il gruppo cui stato assegnato il trattamento ed il gruppo di controllo. Le
differenze vengono presentate in unit di deviazione standard.
E opportuno precisare che la dimensione della differenza influenzata dalla popolazione
sottostante. Ad esempio, un farmaco antiipertensivo avr probabilmente un effetto assoluto maggiore se
riferito ad una popolazione di pazienti ipertesi rispetto a soggetti borderline. Quando gli outcomes sono
molto differenti tra i gruppi a diversi livelli di rischio non appropriato condurre una meta-analisi in cui
calcolata la stima complessiva delleffetto del trattamento. Meglio effettuare una stratificazione in funzione
dei diversi livelli di rischio.
Se lend-point dicotomico (malato vs non malato, sintomo presente/assente...) si calcolano lodds ratio o il
rischio relativo. Lodds ratio ha propriet matematiche convenienti che consentono di combinare facilmente i
dati e saggiare leffetto globale.
Quando si applicano i risultati nella pratica clinica, si usano misure come la riduzione assoluta del
rischio o lNNT, numero minimo di pazienti da trattare per prevenire un singolo evento.
Rappresentazione grafica
I risultati dei trial valutati con la meta-analisi possono essere utilmente rappresentati graficamente insieme ai
loro intervalli di confidenza.
Generalmente si utilizza un grafico detto funnel plot; questo visualizza graficamente i risultati di
ciascuno studio individuale come una bolla o quadrato (leffetto misurato) con un segmento orizzontale
corrispondente agli estremi dellintervallo di confidenza (al 95 %) dellodds ratio intorno al risultato
principale. La dimensione delle bolla pu variare per riflettere lammontare dellinformazione nello studio
individuale; la lunghezza della linea orizzontale rappresenta lincertezza della stima delleffetto del
trattamento per quello studio.
Per rappresentare gli odds ratio si utilizza in genere una scala logaritmica ove la linea tratteggiata
verticale corrisponde ad un OR =1. Ci sono pi motivi per rappresentare le misure di rapporto su scala

logaritmica: la pi importante che il valore di un odds ratio e del suo reciproco, per esempio 0.5 e 2,
rappresentano odds di stessa grandezza ma di direzione opposta, e saranno equidistanti da 1.
Il rombo rappresenta lodds ratio combinato calcolato secondo il modello scelto (ad effetti fissi o ad effetti
random) della meta-analisi. Si pu anche mostrare sulla stessa figura la dimensione delleffetto aggregato per
alcuni sottogruppi. Questa tecnica consente peraltro soltanto una verifica visiva.
Conclusioni
Le meta-analisi offrono un approccio sistematico e quantitativo per la revisione di importanti
problemi terapeutici. Ci nonostante vi possono essere errori nellesecuzione delle meta-analisi che sono
dovuti fondamentalmente alla qualit degli studi sottostanti. Si ritiene che per i clinici e per i managers
sanitari unattenta revisione delle meta-analisi pubblicate, bilanciata da una valutazione delle loro mancanze,
possa contribuire a risolvere alcuni problemi relativi alle incertezze terapeutiche.
6) IL TEST DIAGNOSTICO
Il test diagnostico svolge un ruolo fondamentale nellambito delle decisioni cliniche, in quanto
costituisce un processo tramite il quale il medico, utilizzando opportune informazioni cliniche, giunge a
classificare gli individui che si presentano alla sua osservazione come sani o affetti da una determinata
patologia e quindi stabilire se trattarli o meno.
Il processo diagnostico, per un processo complesso che ben raramente conduce alla certezza di
aver correttamente diagnosticato, o escluso, una determinata patologia; pi spesso si giunge solo ad una
probabilit di malattia. Il test diagnostico ideale sarebbe in grado di classificare come positivi tutti i soggetti
realmente malati e come negativi tutti i sani. La maggior parte dei test diagnostici, per, sono strumenti
imperfetti, in quanto pu accadere che individui sani siano classificati come malati, mentre altri individui,
realmente malati, siano identificati come sani.
Per meglio trattare questi argomenti sar preferibile individuare due distinte fasi operative:
1) Costruzione e la validazione di un test diagnostico
2) Utilizzo di un test diagnostico nella pratica clinica
COSTRUZIONE E VALIDAZIONE DI UN TEST DIAGNOSTICO
Per essere definito tale, un test diagnostico dovr essere in grado di discriminare, nel miglior modo
possibile, tra i soggetti malati ed i soggetti sani; quindi necessario sottoporre allo stesso test sia gli uni che
gli altri.
Ovviamente per poter portare a termine tale esperimento, lo studioso dovr conoscere a priori sia i
soggetti sicuramente malati che quelli sicuramente sani, prendendo come riferimento un preesistente ed
affidabile metodo diagnostico, il cosiddetto gold standard.
Si potrebbe obiettare che, disponendo gi di un test in grado di garantire una grande affidabilit e
sicurezza diagnostica, sia del tutto inutile cercarne o proporne uno nuovo; in effetti, lintroduzione di un
nuovo test diagnostico pu risultare proficua soltanto se, rispetto al gold standard, presenter sostanziali
vantaggi. Se il gold standard, infatti, avesse alcuni limiti di utilizzo, quali, ad esempio, essere costoso,
invasivo, pericoloso, richiedere tempi lunghi o comunque risultare di difficile applicazione, lintroduzione di
un eventuale nuovo test risulterebbe sicuramente vantaggiosa.
Nel caso il risultato del test oggetto di studio sia identificabile con una risposta dicotomica
(positivo/negativo), i risultati relativi allapplicazione di tale test possono essere riportati in una tabella come
quella in figura 1.
La capacit del test di individuare malati e sani sar perci misurata tramite gli indici Sensibilit
(SE) e Specificit (SP):
SE

= VP/totale malati (proporzione di positivi al test fra i malati, ovvero proporzione dei soggetti che
sono correttamente identificati come malati);

SP

= VN/totale sani (proporzione di negativi al test fra i sani, ovvero proporzione dei soggetti che sono
correttamente identificati come sani).

Preso singolarmente, ciascuno dei due indici non potr avere valori inferiori a 0.50, perch in tal caso
si potrebbe affermare che il test inverta la risposta positiva con quella negativa e viceversa. Nella pratica
clinica per i due indici vengono presi in considerazione congiuntamente e quindi, in funzione delle varie
possibilit cliniche ed esigenze diagnostiche (vedi oltre), pu essere utile, ad esempio, disporre di un test con
SE molto elevata anche a scapito di una SP < 0.50, oppure il contrario. La validit globale del test
diagnostico pu essere giudicata con il cosiddetto indice di accuratezza:
Accuratezza = (VP + VN)/totale soggetti esaminati (proporzione dei soggetti classificati correttamente dal
test).
Perch il test diagnostico abbia senso, necessario che lindice di accuratezza sia almeno superiore a
0.50, fino ad un massimo, ideale, di 1.
Nel caso che il test oggetto di studio sia basato sui valori che pu assumere una variabile
quantitativa continua, come, ad esempio, il livello di una determinata analisi clinica (colesterolo, glicemia,
SGOT, pressione arteriosa sistolica ecc.), un problema pu essere costituito dalla scelta del cut-off: sar
infatti necessario individuare un livello del parametro che discrimini nel miglior modo possibile i soggetti
sani da quelli malati, ovverosia un valore oltre il quale tutti i soggetti siano da considerare patologici e sotto
il quale siano da considerare sani (o viceversa). Questo valore, questo livello, viene indicato con il termine di
cut-off (o valore soglia).
Il variare del valore del cut-off modificher ovviamente la proporzione di sani e di malati individuati
dal test. Il punto di cut-off ideale sar, teoricamente, quello che massimizza sia la SE che la SP; essendo per
questi indici inversamente proporzionali, sar necessario trovare un compromesso fra il valore delluno e
quello dellaltro.
A questo problema pu fornire una risposta, sia grafica che analitica, la cosiddetta Curva ROC
(Receiver Operating Characteristic curve). Tale curva viene costruita riportando per ogni valore del cut-off
rispettivamente i valori di 1 SP (proporzione di falsi positivi) sulla ascisse e di SE (proporzione di veri
positivi) sulle ordinate. In tal modo si ottiene, interpolando opportunamente i dati, una curva come quella in
fig. 2.
Se la curva trovata coincider con lasse delle ordinate e quindi con il segmento orizzontale in alto,
formando quindi un angolo di 90 gradi, si avr un test che discrimina in modo perfetto fra sani e malati. Nel
caso la curva coincida con la diagonale che unisce langolo in basso a sinistra con quello in alto a destra,
avremo un test nel quale SE = SP = 0.50, quindi con capacit discriminante nulla. Tutti i test comunemente
utilizzati danno luogo a curve che si collocano in una posizione intermedia fra questi due estremi.
In questa situazione, i valori ideali di SE e SP saranno quindi individuati dal punto dincontro del
segmento, parallelo alla diagonale, tangente alla curva, in quanto sono quelli che massimizzano larea del
quadrangolo sotteso alla curva stessa; il valore corrispondente della variabile oggetto di studio sar adottato
come valore discriminante.
Nella pratica clinica i punti teorici cos trovati non sono quasi mai adottati, perch si effettuano delle
scelte di priorit in funzione del tipo di patologia che si cerca di intercettare.
Nel caso di patologie molto gravi, ma curabili se prese in tempo (ed es. il melanoma), si priviliger al
massimo la SE anche a scapito di una bassa SP. In questo caso, infatti, il test classificher come patologici la
quasi totalit dei soggetti malati, pur se identificher come tali anche una ampia parte dei sani; si riuscir
per in tal modo ad individuare precocemente gran parte dei soggetti malati sui quali intervenire prima che la
patologia abbia raggiunto una fase troppo avanzata oltre la quale la terapia non avr efficacia.
Al contrario, nel caso di patologie parimenti gravi, ma per le quali non esista al momento una valida
cura (come la sclerosi multipla), si preferir adottare un alto valore di SP per individuare, e quindi escludere
da ulteriori controlli, i soggetti esenti dalla patologia, pur rischiando che sfuggano molti dei soggetti
realmente malati; a questi ultimi, comunque, una precoce diagnosi infausta non darebbe alcun vantaggio, ma
anzi costituirebbe soltanto unanticipazione dello stato dansia proprio del soggetto malato, senza che questo
possa comportare listaurazione di una adeguata ed efficace terapia.

La curva ROC pu anche essere utilizzata per il confronto di diversi test diagnostici, tutti relativi
ovviamente alla stessa patologia: per ciascuno dei test si costruisce, sullo stesso grafico, la relativa curva
ROC; quella che si colloca pi in alto e pi a sinistra individuer il test migliore in quanto risulter quello
che presenta i livelli maggiori di SE e SP. La differenza fra le curve pu anche essere saggiata con test
statistici simili a quelli comunemente utilizzati per il confronto tra medie campionarie.
Una volta calcolati i valori della sensibilit e della specificit, sar necessario valutare la loro
attendibilit: opportuno ricordare, infatti, che SE e SP sono desunti dalla casistica limitata costituita dai due
campioni (malati e sani) presi in considerazione. Sia per SE che per SP sar quindi necessario calcolare la
relativa stima intervallare per individuare entro quale intervallo sarebbero plausibilmente compresi i valori di
SE e di SP del nuovo test proposto, se questo fosse stato applicato allintera popolazione di soggetti sani e
malati.
Come noto, lampiezza della stima intervallare inversamente proporzionale alla numerosit
campionaria, quindi, quanto pi il campione ampio, tanto pi i veri valori di SE e SP saranno compresi in
un intervallo di ampiezza limitata.
Se ad esempio da un campione di numerosit 80 si fosse ottenuta una SE = 0.65, la corrispondente
stima intervallare, posto un rischio di errore pari a 0.05, sarebbe compresa fra 0.53 e 0.75; se il campione
fosse stato molto pi piccolo, ad esempio n = 40, la relativa stima intervallare sarebbe ben pi ampia,
risultando compresa fra 0.48 e 0.80 (1). Se questo accadesse anche per la SP, si avrebbero due indici che
entrambi presentano un limite inferiore che comprende il valore 0.50 e quindi un test sulla cui capacit
discriminante si potrebbero avanzare molti dubbi.
Di qui la necessit che un nuovo test diagnostico sia proposto sulla base su una casistica adeguata e,
soprattutto, sufficientemente numerosa.
UTILIZZO DI UN TEST DIAGNOSTICO NELLA PRATICA CLINICA
Una volta stabilite le caratteristiche del test diagnostico e trovate queste soddisfacenti, sorge il
problema di utilizzare tale test nel lavoro routinario del clinico.
Utilizzando ancora la tabella 1, si possono calcolare due ulteriori indici detti valori predittivi (o
probabilit post test):
VPP = VP/totale positivi (valore predittivo del test positivo = probabilit che un soggetto positivo al test sia
realmente malato);
VPN = VN/totale negativi (valore predittivo del test negativo = probabilit che un soggetto negativo al test
sia realmente sano).
E opportuno precisare che mentre i valori di SE e SP sono propri del test e costituiscono
informazioni caratterizzanti il test stesso, i valori predittivi sono strettamente legati alla proporzione di sani e
di malati presenti nella casistica presa in considerazione, ovvero dalla prevalenza di malattia (totale
malati/totale soggetti esaminati) propria della tabella sulla base della quale si costruito il test diagnostico. I
valori predittivi, pertanto, sono caratteristici della popolazione nella quale il test viene somministrato, e
quindi sono informazioni che portano a definire probabilisticamente la situazione clinica di un paziente
appartenente a quella popolazione.
La prevalenza di malattia costituisce, infatti, la probabilit pre test, cio la probabilit che un
individuo estratto a caso dalla popolazione oggetto di studio risulti malato. Il risultato del test diagnostico
costituisce una nuova informazione diagnostica tramite la quale si perviene alla probabilit post test (o
valore predittivo).
La relazione tra queste due probabilit espressa nelle figure 3 e 4 in una situazione teorica di SE =
0.80 e SP = 0.70. Come facile vedere, nel caso la probabilit pre test sia bassa, la positivit al test aumenta
notevolmente la probabilit di essere realmente malato (probabilit post test); nel caso di probabilit pre test
elevata, un test positivo in grado di incrementare solo di poco tale probabilit. Il massimo incremento di
informazione, indicato nella figura 3 con un asterisco e nella figura 4 con un segmento verticale, si ha in
genere in corrispondenza di valori centrali della prevalenza (0.4 0.6) cio quando la probabilit a priori
di avere una malattia prossima alla probabilit a priori di non esserne affetto.
Un ragionamento simile vale anche, mutatis mutandis, per il test negativo: con bassa probabilit pre
test una risposta negativa riduce di poco la probabilit di essere malato, mentre il decremento notevole nel
caso di probabilit pre test elevata.

La diagonale in figura 4 rappresenta il caso in cui il test non in grado di fornire ulteriori
informazioni diagnostiche e quindi la probabilit pre test coincide con quella post test.
Sulla base di quanto esposto evidente che utilizzando un test in un ambito diverso da quello in cui
stato validato, sar necessario ricalcolare i valori predittivi sulla base della nuova prevalenza. Tale
riproporzione avviene generalmente utilizzando la famosa formula di Bayes; prescindendo da una
dimostrazione formale, per la quale si rimanda a testi specifici (ad es. LINDLEY 1965), diamo qui le formule
che consentono il calcolo dei valori predittivi in funzione della nuova prevalenza:
(Prev. Mal.) SE
VPP =
(Prev. Mal.) SE + (1 Prev. Mal.) (1 SP)
(1 - Prev. Mal.) SP
VPN =
(1 - Prev. Mal.) SP + (Prev. Mal.) (1 - SE)
E opportuno a questo punto precisare che la prevalenza di malattia da prendere in considerazione
non , genericamente, la prevalenza presente nel territorio (regione, comune, ASL) in cui il test viene
utilizzato, ma quella desunta dallesperienza pregressa nellambito in cui il clinico si trova ad operare. Ad
esempio, gli individui che afferiscono ad una struttura ospedaliera sono autoselezionati rispetto alla
popolazione generale (per presenza di qualche disturbo, di sintomi o perch consigliati dal medico generico)
e quindi fra questi la presenza di soggetti malati sicuramente pi elevata che nella popolazione nel suo
complesso. Utilizzare la prevalenza di popolazione e non quella ricavata dai dati storici della struttura, vuol
dire sottostimare notevolmente la probabilit che un soggetto positivo al test sia realmente malato.
Un altro metodo per esprimere la probabilit di malattia, prescindendo dai valori della prevalenza,
dato dal calcolo dei cosiddetti Rapporti di verosimiglianza (likelihood ratios). Si hanno pertanto:
SE
LRP =
1 - SP
rapporto di verosimiglianza di un risultato positivo: esprime quante volte pi probabile che il test risulti
positivo in un soggetto malato rispetto ad un soggetto sano.
1 - SE
LRP =
SP
rapporto di verosimiglianza di un risultato negativo: esprime quante volte pi probabile che il test
risulti negativo in un soggetto malato rispetto ad un soggetto sano.
I rapporti di verosimiglianza sono particolarmente utili quando il risultato del test espresso secondo
una scala di valori e costituiscono un modo per comparare lutilit di diversi test diagnostici. Inoltre,
conoscendo la probabilit pre test ed il rapporto di verosimiglianza di un risultato positivo, si pu giungere,
con un metodo grafico, noto come nomogramma per i rapporti di verosimiglianza, al calcolo
approssimato del valore della probabilit post test.
TEST MULTIPLI
Generalmente il medico, non potendo disporre di un test diagnostico affidabile al 100%, utilizza,
sullo stesso paziente, pi test diagnostici. Si possono individuare due distinti metodi di somministrazione: in
parallelo ed in serie.
Test in parallelo
Pi test vengono somministrati contemporaneamente ed il paziente viene considerato malato quando
anche uno solo dei vari test risulata positivo. Si adotta tale procedura quando si ha la necessit di pervenire

ad una diagnosi in tempi brevi come, ad esempio, nel caso di pazienti ospedalizzati, e quando si dispone solo
di test con bassa SE; infatti, la combinazione di pi test in parallelo aumenta la SE complessiva cos come il
VPN, a scapito di SP e del VPP.
Test in serie
Si somministra al paziente il primo test: se questo risulta negativo il paziente viene considerato sano
ed il processo diagnostico ha fine; se al contrario il test risulta positivo, si somministra il secondo test.
Ancora una volta un risultato negativo porter a concludere che il paziente sano ed un risultato positivo
avr come conseguenza la somministrazione di un ulteriore test, e cos via fino al completamento dei test
disponibili. In conclusione un individuo sar considerato malato se sar risultato positivo a tutti i test.
Tale tipo di somministrazione risulta utile quando alcuni test sono eccessivamente costosi e/o la loro
somministrazione comporta un rischio per il soggetto. Pu essere inoltre adottata quando non c la necessit
di una diagnosi immediata.
La scelta dellordine di somministrazione dei vari test svolge un ruolo importante nella
funzionalit del processo: opportuno che il primo test sia quello caratterizzato dalla massima specificit,
onde rende minimo il numero dei soggetti cui somministrare i test restanti.
Lutilizzo di test in serie determina un aumento della SP e del VPP, cui si contrappone una
diminuzione della SE e del VPN.
BIBLIOGRAFIA RAGIONATA
I testi che trattano di statistica sono numerosi e tutti molto buoni; qui vengono riportati, con qualche parola
di commento per orientare il lettore, solo quelli pi rappresentativi nella loro categoria.
- Albertario C., Lusignani G. & Grugni E., (1989). 232 esercizi discussi e risolti di Statistica Medica. La
Goliardica Pavese, Pavia. 469 pp. La disponibilit di un libro con esercizi svolti fondamentale per la
comprensione della Statistica, anche se, per alcuni argomenti, questo testo appare un po' difficile.
- Armitage P. & Berry G., (1996). Statistica Medica: metodi statistici per la ricerca in Medicina. McGrawHill, Milano. 619 pp. Testo veramente ottimo e completo, ma certamente difficile per chi si trova ad
affrontare per la prima volta gli studi statistici.
- Bossi A. & Cortinovis I., (1990). Statistica medica: esercizi. Citt Studi Editore, Milano. 280 pp. Alcuni
esercizi svolti e molti da svolgere: l'ideale per incominciare a "fare statistica".
- Fraire R. & Rizzi A., (1990). Elementi di Statistica. Nuova Italia Scientifica, Roma. 348 pp. Buon testo per
la Statistica descrittiva, un po' troppo sintetico per quanto riguarda la Statistica inferenziale.
- Garlinton W. K. & Shimota H. E., (1968). A proposito di Statistica. Sigma Tau Ed., Roma. 1032 pp.
Simpatico libretto divulgativo, oggi purtroppo esaurito.
- Masciangelo R., (1994). Programmi statistici tutoriali. (con software didattico su floppy disk per PC IBM
compatibile). CISU Editore, Roma. 115 pp. Tutto il pregio di questa pubblicazione nell'originale software
didattico che consente, a chi dispone di un Personal Computer, di imparare la Statistica "giocando".
- Siegel S. & Castellon N.S., (1992). Statistica non parametrica. McGraw-Hill, Milano. 477 pp. Ottimo testo
che tratta escusivamente i metodi statistici non parametrici.