Edizione 2016
SOMMARIO
1
1. OBIETTIVI DEL CORSO - AREA METODOLOGICA
Il calcolo e l’interpretazione delle misure che saranno descritte durante il corso di formazione ci
aiuteranno nelle attività di valutazione della qualità dell’assistenza, rispondendo a domande quali:
• esistono alcune strutture ospedaliere o ASL di residenza in cui questi esiti sfavorevoli
avvengono con maggiore frequenza?
2
2. MISURE DI OCCORRENZA E DI ASSOCIAZIONE
Incidenza e prevalenza sono misure distinte, che non devono essere confuse. L’incidenza misura la
transizione dallo stato di non-malattia allo stato di malattia; la prevalenza misura la probabilità che
un soggetto, casualmente selezionato da una popolazione, abbia già la malattia di interesse.
L’incidenza è basata sull’insorgenza di nuovi casi di malattia; la prevalenza è basata sul numero
totale dei casi di malattia, indipendentemente da quando la malattia è cominciata.
Nelle valutazioni comparative, tuttavia, è necessario che il conteggio (per esempio, il numero di
complicanze dopo un intervento chirurgico) sia espresso in relazione alla dimensione della
popolazione da cui i casi hanno avuto origine.
Nell’Ospedale Andrea Costa di Porretta si sono verificati 5 decessi, a fronte di 62 decessi osservati
nell’Azienda Ospedaliero-Universitaria Careggi di Firenze. Trattandosi di nuovi casi di malattia,
avvenuti in un follow-up di 30 giorni a partire dalla data di ricovero, siamo di fronte a un conteggio
di incidenza. Tuttavia questa informazione non è sufficiente per effettuare una valutazione
comparativa tra le due strutture, perché non abbiamo tenuto in considerazione il numero totale dei
ricoveri per infarto del miocardio effettuati dalle due strutture, solo 54 nel caso dell’Ospedale
Andrea Costa di Porretta, ben 609 nel caso dell’Azienda Ospedaliero-Universitaria Careggi di
Firenze.
3
Per esprimere il conteggio dei casi in relazione alla dimensione della popolazione, è necessario
calcolare quelle grandezze che l’epidemiologia chiama misure di occorrenza: le proporzioni e i
tassi.
2.3. LE PROPORZIONI
La proporzione è un rapporto in cui il numeratore costituisce un sottoinsieme del denominatore.
Varia tra zero e uno ed è adimensionale, ovvero, priva di unità di misura. Infatti, le proporzioni
sono puri valori numerici poiché non vengono espresse in metri, anni o altre unità di misura.
Le proporzioni possono essere utilizzate per misurare sia la prevalenza sia l’incidenza. Ipotizziamo
che tra i 609 pazienti ricoverati per infarto miocardico acuto nell’Azienda ospedaliero-universitaria
Careggi di Firenze, al momento dall’ammissione ospedaliera, 105 erano affetti da diabete. Il
rapporto 105/609, che restituisce un valore percentuale pari a 17,2%, esprime la prevalenza di
diabete nella coorte di infartuati dell’Azienda ospedaliero-universitaria Careggi di Firenze,
calcolata alla data dell’ammissione ospedaliera. Il calcolo di queste prevalenze riveste un ruolo
fondamentale nelle valutazioni comparative di esito, perché ci permette di caratterizzare i pazienti
ricoverati nei diversi ospedali oggetto di analisi, in funzione di tutte le caratteristiche demografiche
e cliniche presenti nei sistemi informativi sanitari.
Ma vediamo adesso in che modo è possibile utilizzare le proporzioni come misura dell’incidenza.
L’incidenza cumulativa, anche nota come rischio, è una misura di incidenza basata sulle
proporzioni. E’ calcolata come rapporto tra il numero di nuovi casi di malattia avvenuti durante un
determinato periodo di osservazione e il numero di soggetti inizialmente esposti a rischio.
Calcoliamo, quindi, i rischi per ciascuna delle due strutture.
La tabella 1 riprende i dati del Programma Nazionale Esiti relativi alle due strutture prese a esempio
e mostra come calcolare il rischio e come esprimerlo.
4
Periodo di osservazione
Si noti come, per un corretto calcolo e una corretta interpretazione di questa misura è necessario che
tutti i soggetti siano stati osservati per un identico periodo di tempo (follow-up) e che questo sia
chiaramente esplicitato nella presentazione dei rischi.
Adesso è possibile confrontare le due strutture ospedaliere. Infatti, il ‘rischio’ tiene conto sia del
numero di decessi che del numero di ricoveri effettuati. Nell’esempio, l’Ospedale Andrea Costa di
Porretta ha un rischio di morte più basso rispetto all’Azienda ospedaliero-universitaria Careggi di
Firenze.
2.4. I TASSI
L’altra misura di occorrenza che consente di esprimere il conteggio dei casi in relazione alla
dimensione della popolazione è il tasso, che consente di sintetizzare in un’unica grandezza sia la
frequenza di una malattia (quanti pazienti sviluppano la malattia) sia la sua “velocità” (quando i
pazienti sviluppano la malattia).
Al contrario della proporzione, che può essere utilizzata per misurare sia l’incidenza sia la
prevalenza, il tasso può essere utilizzato soltanto per misurare l’incidenza.
Noto anche come densità di incidenza, il tasso viene calcolato rapportando il numero di nuovi casi
di malattia sviluppati durante il periodo di osservazione, al totale degli anni-persona. Può variare
tra 0 e infinito e, al contrario del rischio, ha unità di misura, ovvero il (tempo)-1.
A questo punto è necessario approfondire il concetto di anni-persona. Per ciascun individuo, gli
anni persona quantificano il periodo di esposizione al rischio, che inizia con l’ingresso del paziente
nello studio (la data di un ricovero, di un intervento chirurgico o di una diagnosi) e può terminare
nel momento in cui si verifica l’esito di interesse (in questo esempio, ipotizziamo che si tratti del
decesso per tutte le cause);
5
• nel momento in cui termina lo studio (in questo esempio, ipotizziamo che la durata dello studio
sia di quattro anni);
• nel momento in cui il paziente sia “perso al follow-up” (soggetti per i quali, da un certo momento
in poi, non è più possibile ottenere le informazioni necessarie per lo svolgimento dello studio,
per esempio i pazienti che emigrano verso zone non coperte dai sistemi informativi disponibili).
In figura 1 viene schematizzato il follow-up di uno studio di coorte cui partecipano tre pazienti. Il
paziente numero 1 conclude lo studio senza avere manifestato l’esito di interesse (quindi, dopo 4
anni di osservazione); gli altri due pazienti manifestano l’esito in tempi differenti, il paziente
numero 2 presenta l’esito dopo 2 anni mentre il paziente numero 3 presenta l’esito dopo 1 anno.
Tasso: 0,29
Rischio: 0,67
D
Il tasso viene calcolato dividendo la somma degli esiti per la somma degli anni-persona, ovvero:
2/(4+2+1) = 0,29 esiti per anno-persona. Eseguendo lo stesso calcolo per lo studio schematizzato in
figura 2, si ottiene un tasso pari a: 2/(4+3+3) = 0,20 esiti per anno-persona.
6
Figura 2. Follow-up di uno studio di coorte con tre pazienti, esempio 2
Tasso: 0,20
Rischio: 0,67
In entrambi gli studi, un paziente su tre manifesta l’esito di interesse (rischio) tuttavia, i pazienti
schematizzati in figura 2 hanno una maggiore sopravvivenza, che si traduce in un tasso di
mortalità più basso.
Adesso risulta più chiaro il motivo per cui l’unità di misura del tasso è il (tempo)-1. Semplicemente
perché il tempo (che nell’esempio è espresso in anni-persona) appare al denominatore della misura
di occorrenza.
Si noti, infine, come il rischio sia totalmente insensibile alla sopravvivenza dei pazienti deceduti: sia nello
studio schematizzato in figura 1 sia in quello schematizzato in figura 2, il rischio assume valore 2/3, cioè
0,67.
L’odds è una trasformata della proporzione Π, definita come segue: odds = Π/(1-Π). Molti autori
descrivono l’odds come una probabilità in termini di scommessa, poiché esprime la probabilità
che un determinato esito si verifichi (Π) rispetto alla probabilità che l’esito non si verifichi (1-Π). E’
adimensionale e può variare da 0 a infinito.
Quando l’esito in studio è raro (per esempio, nel caso di proporzioni minori o uguali al 10%) la
proporzione e il suo analogo odds saranno approssimativamente equivalenti.
L’odds trova la sua maggiore applicazione negli studi caso-controllo (Rothman K, Greenland S.
Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins, Philadelphia 1998) ed è la
misura di riferimento di uno dei più diffusi modelli di regressione, la regressione logistica,
utilizzata nel Programma Nazionale Esiti per la specificazione dei modelli predittivi (questo
argomento sarà ampiamente trattato nel capitolo 3 della guida metodologica).
7
2.6. LE MISURE DI VARIABILITÀ – I “MEDIAN ODDS RATIO”
Nel Programma Nazionale Esiti, gli indicatori di variabilità misurano le differenze tra strutture
ospedaliere o aree di residenza, in termini di qualità dell’assistenza sanitaria.
Queste valutazioni rivestono un notevole interesse. Infatti, un’elevata variabilità tra provider
sanitari potrebbe riflettere un problema di equità nell’accesso alle cure ottimali.
Uno degli indicatori maggiormente utilizzati per misurare l’eterogeneità tra unità statistiche (siano
esse Ospedali, aree di residenza o Primary care provider) è la varianza, che misura le differenze
calcolando la dispersione dei valori attorno ad un valore centrale, in genere la media aritmetica
dell’intero collettivo. All’aumentare della dispersione, aumenta l’eterogeneità tra le strutture
considerate. Recentemente, è stata proposta una misura alternativa alla varianza che ne supera
alcuni limiti, soprattutto nelle situazioni in cui le unità statistiche sono rappresentate da gruppi,
come nel caso delle strutture ospedaliere o delle aree di residenza, che costituiscono gruppi di
pazienti o di ricoveri. Questa misura prende il nome di Median Odds Ratio (MOR).
Vediamo adesso come si interpretano i MOR. Come abbiamo già detto, il MOR misura la
variabilità tra gruppi. Questa grandezza è sempre maggiore o uguale ad 1. Se il MOR è uguale
ad 1 vuol dire che non c’è variabilità tra i gruppi. Al contrario, se c’è variabilità tra i gruppi,
il MOR sarà elevato.
Seguendo un approccio più formale, il MOR può anche essere interpretato come l’incremento
«atteso» di rischio di un individuo che si sposta casualmente da un gruppo all’altro, nell’ipotesi in
cui lo spostamento avvenga sempre verso gruppi con un rischio più elevato.
Prima di passare ad alcuni esempi concreti, è opportuno sottolineare quali sono le caratteristiche del
MOR che lo distinguono dalla varianza. Infatti, il MOR è un indicatore di variabilità «corretto» che
tiene in considerazione diversi parametri, quali:
3. la differenza tra il risultato dei singoli gruppi e la media generale, ad esempio, la media
regionale;
8
Come primo esempio, analizziamo la variabilità a livello nazionale nel triennio 2013-2015.
L’indicatore oggetto di analisi è l’intervento chirurgico entro 2 giorni a seguito di frattura del collo
del femore. La mappa fa riferimento ai dati del 2015, le proporzioni aggiustate sono espresse in
valori percentuali.
La proporzione di interventi eseguiti entro 2 giorni dopo il ricovero era pari al 46% nel 2013, al
50% nel 2014 e al 55% nel 2015. L’indicatore di processo, pertanto, evidenzia un miglioramento
nelle performance a livello nazionale durante il triennio. L’analisi della variabilità attraverso i MOR
ha evidenziato una riduzione dell’eterogeneità tra le aree di residenza (MOR da 2.92 a 2.49 durante
il triennio) e una sostanziale stabilità in relazione alle differenze di risultato tra le strutture
ospedaliere.
9
La stessa tipologia di analisi è disponibile per tutte le Regioni italiane. Segue l’esempio dell’Emilia-
Romagna. La mappa fa riferimento ai dati del 2015.
In questa Regione, la proporzione di interventi eseguiti entro due giorni a seguito di frattura del
collo del femore è aumentata progressivamente durante il triennio di osservazione, passando dal
64% nel 2013, al 70% nel 2014, fino al 72% nel 2015. Considerando congiuntamente l’andamento
dell’indicatore nel tempo e la sua variabilità intra-regionale, questa Regione presenta un risultato
ottimale. Infatti, l’ordine medio di grandezza è aumentato, evidenziando una performance crescente
durante il triennio e, al tempo stesso, l’eterogeneità è diminuita, sia in relazione alle differenze di
risultato tra le strutture ospedaliere che in relazione alla variabilità tra le aree di residenza.
10
2.7. LE MISURE DI ASSOCIAZIONE
Le misure di associazione vengono calcolate per quantificare l’effetto di un’esposizione
sull’occorrenza di malattia.
• positiva, se l’esposizione è un fattore di rischio, ovvero gli esposti hanno una maggiore
incidenza di malattia rispetto ai non esposti;
• negativa, se l’esposizione è un fattore protettivo, ovvero gli esposti hanno una minore
incidenza di malattia rispetto ai non esposti;
Tuttavia, non sempre la popolazione in studio viene classificata in due gruppi, gli esposti e i non
esposti. Infatti, l’esposizione può essere a livelli multipli, come la stadiazione di una patologia, la
struttura ospedaliera in cui è avvenuto un ricovero o la ASL di residenza.
Le misure di associazione possono essere classificate in due tipi: misure assolute e misure
relative. Entrambe confrontano l’occorrenza di malattia tra esposti e non esposti, ciò che le
differenzia è la modalità con cui viene effettuato il confronto.
Differenza tra rischi = rischio negli esposti – rischio nei non esposti
Differenza tra tassi = tasso negli esposti – tasso nei non esposti
Queste misure, anche note come “misure di impatto”, consentono di calcolare quanti casi di
malattia sono attribuibili all’esposizione. Cerchiamo di chiarire questo concetto con un esempio,
tratto dall’epidemiologia occupazionale.
Si supponga che 20.000 lavoratori siano stati arruolati in uno studio di coorte. Al momento
dell’arruolamento (data in cui sono entrati a fare parte dello studio), gli individui sono stati
classificati in esposti e non esposti a una particolare sostanza chimica sulla base del tipo di lavoro
che svolgevano al momento dell’arruolamento. Tutti i lavoratori sono stati seguiti per un periodo di
cinque anni al fine di stabilire se i soggetti esposti avessero un incremento del rischio di morire per
cancro. I dati raccolti sono sintetizzati in tabella 2.
11
Tabella 2. Deceduti ed esposti a rischio per tipologia di esposizione
Deceduti 28 64
La differenza tra i rischi è: 7 per 1.000 - 4 per 1.000 = 3 per 1.000 lavoratori.
Pertanto, negli esposti, ogni 1.000 lavoratori, 3 decessi per cancro sono attribuibili all’esposizione e
avrebbero potuto essere evitati fornendo adeguate protezioni ai dipendenti.
• risk ratio o rischio relativo = rischio negli esposti/rischio nei non esposti
Torniamo al nostro confronto tra l’Ospedale Andrea Costa di Porretta e l’Azienda ospedaliero-
universitaria Careggi di Firenze. Nel paragrafo 2.3.1 abbiamo calcolato il rischio (l’incidenza
cumulativa) di mortalità nei due ospedali.
12
Per ottenere una misura relativa di effetto è sufficiente calcolare il rapporto tra i due rischi:
10,18%/9,26% = 1,10.
In questo caso, il rischio dell’Ospedale Andrea Costa (9,26%) si trova al denominatore del rapporto,
pertanto viene assunta come categoria di riferimento (reference category).
Il rischio relativo (risk ratio), generalmente abbreviato in RR, è dunque pari a 1,10. Si noti come,
trattandosi di un rapporto, il rischio relativo è un “numero puro” poiché non ha unità di misura.
Il calcolo del rischio relativo, in questo caso, ci dice che l’Azienda Ospedaliera Careggi di Firenze
ha un rischio di morte a 30 giorni dal ricovero in caso di infarto miocardico lievemente superiore
rispetto all’Ospedale Andrea Costa di Porretta. In altre parole, l’Azienda Ospedaliera Careggi ha un
rischio del 10% superiore rispetto a quello dell’Ospedale Andrea Costa. In questo caso,
l’incremento percentuale viene calcolato come segue:
13
2.7.3. ODDS RATIO E RISCHIO RELATIVO
Proviamo a vedere che cosa sarebbe successo se, nell’esempio precedente, invece di calcolare il
rischio relativo avessimo calcolato l’odds ratio.
Come descritto nel paragrafo 2.5, l’odds è definito come Π/(1-Π), dove Π rappresenta il rischio.
Dunque, gli odds di malattia nei due ospedali saranno:
9,26%
per l’Ospedale Andrea Costa di Porretta Terme, odds = 0,0926/(1 - 0,0926) = 0,1020
10,18%
Adesso sarà sufficiente calcolare il rapporto tra i due odds: 0,1133/0,1020 = 1,11.
Come si vede in questo caso, l’odds ratio (1,11) costituisce una buona approssimazione del
rischio relativo (1,10). Questo si verifica quando l’esito in studio è un evento raro, che può essere
definito come un evento il cui rischio è inferiore al 10%, anche se alcuni autori utilizzano la soglia
del 5%. Nell’esempio proposto, il rischio complessivo, per l’insieme delle due strutture, è pari a
(5+62)/(54+609) = 0,10 = 10%. Siamo, pertanto, in una situazione “limite”, anche perché una delle
due strutture, l’Azienda Ospedaliera Careggi, ha un rischio superiore al 10%.
Quando l’evento non è raro, gli odds ratio vanno interpretati alla luce del fatto che sono sempre
più estremi del rischio relativo, ovvero sempre più lontani dal valore 1,00.
Nel grafico di pagina seguente, viene riportata la variazione di un odds ratio all’aumentare della
frequenza dell’esito, in un esempio in cui il rischio relativo è pari a 2,00.
Come si vede, all’aumentare della frequenza dell’esito l’odds ratio si discosta molto dal rischio
relativo.
14
2.7.4. RISCHI RELATIVI PER ESPOSIZIONI SU PIÙ LIVELLI
Torniamo adesso al nostro confronto tra strutture ospedaliere e aggiungiamo altri due ospedali
nell’analisi.
In tabella 4, sono stati riportati i rischi relativi per ciascun ospedale. L’Ospedale Andrea Costa di
Porretta Terme, essendo stato assunto come categoria di riferimento, ha un valore pari a 1,00, a
indicare che tutte le altre strutture presenti nella tabella saranno confrontate con questo Ospedale.
Osservando i rischi relativi riportati nell’ultima colonna, si nota come questi abbiano diverse
direzioni e diverse intensità.
15
L’Ospedale di Martina Franca e l’Azienda Ospedaliera Careggi hanno la stessa direzione ma
diverse intensità. La direzione è la stessa perché entrambi i rischi relativi sono maggiori di 1, a
indicare una maggiore mortalità dei due ospedali rispetto alla categoria di riferimento, L’Ospedale
Andrea Costa di Porretta Terme. Tuttavia le intensità sono diverse: mentre l’Ospedale di Martina
Franca presenta un rischio del 33% maggiore rispetto all’Ospedale Andrea Costa, l’Azienda
Ospedaliera Careggi ha un rischio del 10% maggiore rispetto all’Ospedale Andrea Costa.
L’intensità è, pertanto, minore.
L’Azienda Ospedaliera Garibaldi si differenzia invece dagli altri perché ha una direzione diversa.
Infatti, il suo rischio relativo è inferiore all’unità, a indicare un rischio minore rispetto all’Ospedale
Andrea Costa, il 28% in meno, in questo caso.
E’ necessario prestare attenzione quando si ottengono rischi relativi inferiori all’unità. Infatti, il
rischio relativo può variare da 0 a infinito. Pertanto, i fattori protettivi avranno rischi relativi
compresi nel ristretto intervallo tra 0 e 1,00, mentre i fattori di rischio avranno rischi relativi
compresi nel più “ampio” intervallo tra 1,00 e infinito. Da questo deriva che i rischi relativi
maggiori di 1,00 non sono “direttamente confrontabili” con quelli minori di 1,00, perché la scala è
diversa.
Per esempio, un rischio relativo di 2,00 (raddoppio la probabilità di un evento) e un rischio relativo
di 0,50 (dimezzo la probabilità di un evento), che chiaramente presentano direzioni opposte, hanno
la stessa intensità. Eppure, nel primo caso gli esposti hanno un rischio del 100% in più rispetto ai
non esposti mentre nel secondo caso gli esposti hanno un rischio del 50% in meno rispetto ai non
esposti. Dunque, la scala è diversa ma l’intensità è la stessa. Infatti, generalizzando, dire che A è il
doppio di B (RR=2,00) contiene la medesima informazione che dire: B è la metà di A (RR=0,50).
Nel Programma Nazionale Esiti, oltre ai confronti “testa a testa”, già descritti nei paragrafi
precedenti, è possibile confrontare i risultati di ciascuna struttura e di ciascuna ASL di residenza
con la media nazionale, con i risultati dell’anno precedente e con un benchmark, costituito dalle
strutture o dalle ASL di residenza che presentano i risultati più favorevoli.
Per esempio, come abbiamo già riportato, l’Ospedale Andrea Costa di Porretta Terme presenta un
rischio di mortalità a 30 giorni dal ricovero per infarto miocardico acuto pari al 9,26%.
Il rischio calcolato a livello nazionale è pari al 9,03%, mentre il gruppo di strutture con i risultati più
favorevoli (il benchmark appunto), presenta un rischio pari al 5,78%.
16
Pertanto, il rischio relativo rispetto alla media nazionale per l’Ospedale Andrea Costa di Porretta
Terme sarà pari a 9,26% / 9,03% = 1,03 mentre il rischio relativo rispetto al benchmark sarà pari
a 9,26% / 5,78% = 1,60.
Nel paragrafo 2.7.4 abbiamo introdotto il concetto di direzione del rischio relativo. Osservando se il
rischio relativo è maggiore o minore di 1,00 è possibile capire se la struttura ospedaliera o la ASL di
residenza in studio presenta esiti più favorevoli o meno favorevoli rispetto alla categoria di
riferimento. Tuttavia, l’interpretazione dei rischi relativi non può prescindere dalla natura dell’esito
(outcome) in studio, che può essere “negativo” o “positivo”.
Per esempio, la mortalità a 30 giorni da un ricovero per infarto miocardico acuto costituisce
chiaramente un esito negativo. Al contrario, l’intervento chirurgico entro 48 ore a seguito di una
frattura del collo del femore costituisce senza dubbio un esito positivo.
Per chiarire con un esempio concreto, analizziamo i risultati del Policlinico Gemelli di Roma in
relazione a questi due indicatori (mortalità a 30 giorni dopo infarto e intervento chirurgico entro 48
ore dopo frattura di femore). I rischi relativi sono calcolati rispetto alla media nazionale.
Pur avendo direzioni opposte, entrambi i rischi relativi evidenziano una situazione favorevole per il
Policlinico Gemelli. Infatti, la mortalità a 30 giorni dall’infarto è del 25% inferiore rispetto alla
media nazionale mentre la probabilità di ricevere un intervento chirurgico entro due giorni è del
58% superiore rispetto alla media nazionale.
17
Prima di procedere con gli altri argomenti del corso, è opportuno puntualizzare che
i rischi e i rischi relativi che abbiamo presentato in questo capitolo possono essere
definiti “grezzi”, poiché su queste misure non sono state applicate le tecniche per il
controllo del confondimento che verranno descritte nei capitoli successivi.
18
3. LA VALIDITA’ DELLO STUDIO
La validità di uno studio fa riferimento alla sua capacità di ridurre al minimo tutte le possibili
distorsioni, ovvero tutti gli errori di misura che portano sistematicamente verso una sovrastima o
una sottostima delle misure oggetto di interesse.
E’ possibile classificare gli errori sistematici in tre grandi tipologie: bias di selezione, bias di
informazione e bias di confondimento. In questo manuale, le prime due tipologie saranno
presentate con pochi approfondimenti metodologici, limitandone la trattazione ad alcune definizioni
basilari. Ampio spazio sarà invece dedicato al concetto di confondimento, fondamentale per
l’interpretazione dei dati del Programma Nazionale Esiti.
Il bias di selezione è legato all’arruolamento dei soggetti in studio, nel caso in cui questi non
vengano selezionati in modo casuale. Pensiamo alle valutazioni comparative di esito e pensiamo,
19
per esempio, all’indicatore “mortalità a 30 giorni da un ricovero per infarto miocardico acuto”.
Potremmo trovarci di fronte a un bias di selezione se alcune delle strutture valutate avessero
codificato come infarto anche casi nei quali non erano pienamente soddisfatti tutti i criteri per porre
questa diagnosi, selezionando, come conseguenza, soggetti con una diversa condizione clinica, più
grave o meno grave rispetto a quella indicata dal protocollo dello studio. In queste strutture, i
risultati ottenuti non potranno essere considerati come rappresentativi di una popolazione di
pazienti con infarto del miocardio e i confronti con gli altri ospedali saranno necessariamente falsati
dal diverso criterio di selezione utilizzato.
Per una più ampia presentazione e discussione degli errori sistematici in epidemiologia, si rimanda
a: Rothman K, Greenland S. Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins,
Philadelphia 1998.
3.2. IL CONFONDIMENTO
Nel capitolo precedente abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette
di capire se una determinata struttura ospedaliera o ASL di residenza abbia esiti più favorevoli o
meno favorevoli rispetto a una categoria di riferimento, che può essere la media nazionale, un
benchmark o un’altra struttura ospedaliera.
Ipotizziamo di avere analizzato la mortalità a 30 giorni dal ricovero per infarto miocardico acuto in
una determinata struttura ospedaliera, l’Ospedale A, e di avere ottenuto un rischio relativo rispetto
alla media nazionale pari a 1,76. Pertanto, l’Ospedale A presenta una mortalità del 76% superiore
rispetto alla media nazionale. A che cosa può essere attribuibile questo risultato sfavorevole?
Questo eccesso di rischio esprime realmente una peggiore qualità dell’assistenza rispetto alla media
nazionale?
Per una valutazione più completa, si decide di confrontare le caratteristiche demografiche e cliniche
dei pazienti ricoverati nell’Ospedale A con quelle del totale dei pazienti ricoverati per infarto in
20
Italia. In tabella 5 sono riportate alcune delle caratteristiche di cui è possibile disporre attraverso il
sistema informativo ospedaliero (SIO).
Tabella 5. Mortalità a 30 giorni dal ricovero per infarto miocardico acuto: confronto tra le
caratteristiche demografiche e cliniche
Ospedale A Italia
Rischio grezzo (%) 15,93% 9,03%
Età in anni (media) 75 68
Diabete (%) 25 14
Pregresse malattie cerebrovascolari (%) 20 8
Come si vede dalla tabella, i pazienti trattati nell’Ospedale A hanno una situazione clinica più
sfavorevole rispetto alla media nazionale. Sono più anziani, hanno una maggiore prevalenza di
diabete e una maggiore proporzione di soggetti con pregresse malattie cerebrovascolari. Questo
rende più difficile il confronto tra i due gruppi perché non è possibile distinguere l’effetto
dell’Ospedale dall’effetto della diversa distribuzione delle patologie.
Perché, dunque, l’Ospedale A ha una mortalità maggiore rispetto alla media nazionale? Si tratta
realmente di un problema legato alla qualità dell’assistenza o dipende soltanto dalla maggiore
complessità clinica dei suoi pazienti?
Diamo a questo punto una definizione più formale di fattore confondente. Un fattore può essere
definito confondente se:
• è causalmente associato con l’esito; in altre parole, il fattore confondente deve essere associato
all’esito in studio come causa e non come effetto. Nell’esempio appena proposto, in base alle
conoscenze a priori, l’età avanzata, il diabete e le pregresse malattie cerebrovascolari sono causalmente
associati con la mortalità da ricovero per infarto. Queste caratteristiche vengono spesso definite fattori
di rischio, poiché, se presenti, aumentano la probabilità che si verifichi l’esito in studio;
• è associato con l’esposizione; ciò vuole dire che le distribuzioni dei fattori confondenti devono
essere diverse tra esposti e non esposti. Nell’esempio, la distribuzione dell’età (sintetizzata dal
suo valore medio), del diabete e delle pregresse malattie cerebrovascolari sono sostanzialmente
diverse tra esposti (i pazienti trattati nell’Ospedale A) e non esposti (il totale dei pazienti
ricoverati per infarto in Italia);
• non deve costituire un passaggio intermedio nel percorso causale tra l’esposizione e la
malattia; ciò significa che il fattore confondente non deve essere un effetto dell’esposizione.
Cerchiamo di chiarire meglio: se l’esposizione in studio fosse costituita dall’uso di un farmaco
antipertensivo e l’esito fosse la mortalità per infarto, la pressione arteriosa rilevata dopo l’inizio
21
del trattamento non può essere considerata un fattore confondente. Infatti, questo valore
pressorio sarebbe un effetto dell’esposizione, attraverso il quale il farmaco riduce, nel lungo
periodo, la mortalità per infarto.
Ospedale A Italia
Rischio grezzo (%) 15,93% 9,03%
Età in anni (media) 75 68
Diabete (%) 25 14
Pregresse malattie cerebrovascolari (%) 20 8
Età, diabete e pregressi eventi cerebrovascolari sono fattori di rischio per la mortalità (e soddisfano
quindi l’associazione causale con l’esito), sono associati all’esposizione e non possono certamente
essere un effetto dell’assistenza ospedaliera (non sono quindi un passaggio intermedio nel percorso
tra esposizione e malattia). Sono, pertanto, fattori confondenti.
Il rischio relativo grezzo di 1,76 è quindi sovrastimato dal confondimento, perché parte
dell’eccesso di rischio osservato nell’Ospedale A è spiegato dalla maggiore complessità clinica dei
suoi pazienti.
Questo rende necessario l’utilizzo di metodi statistici per il controllo del confondimento.
Nel Programma Nazionale Esiti il confondimento viene controllato mediante tecniche di risk-
adjustment. Questo metodo si articola in due fasi essenziali:
• la costruzione di una misura di gravità che descrive il rischio a priori, ovvero la “complessità
clinica” del paziente. Questa misura dipenderà dalle caratteristiche anagrafiche, dalla gravità
della patologia in studio e dalle patologie concomitanti dei pazienti;
• l’uso di tale misura per ottenere rischi e rischi relativi aggiustati, che consentono un confronto
valido anche tra gli ospedali o le ASL di residenza i cui pazienti hanno, come nell’esempio
presentato nella tabella 5, diversi livelli di gravità.
22
3.3.1. LA MISURA DELLA GRAVITÀ
La procedura analitica usata per la costruzione della misura di gravità prende il nome di modello
predittivo, un modello statistico finalizzato a predire l’esito sulla base delle caratteristiche misurate
sul paziente, alcune delle quali potranno essere fattori confondenti. Pertanto, le tecniche di risk
adjustment prevedono, nella fase iniziale, l’analisi della relazione tra i potenziali fattori confondenti
e l’esito in studio.
Nel Programma Nazionale Esiti, il modello predittivo segue un approccio empirico: alla base di
tale approccio sta la necessità, da sempre riconosciuta nell’ambito degli studi osservazionali di tipo
eziologico, di identificare i fattori confondenti e controllarne l’effetto con specifico riferimento
alla popolazione studiata.
L’approccio empirico prevede la costruzione di una misura di gravità specifica della popolazione in
studio, realizzata attraverso l’analisi della relazione multivariata tra le caratteristiche misurate sul
paziente (i predittori) e l’esito considerato. Lo strumento generalmente utilizzato per la costruzione
di una misura di gravità empirica è il modello di regressione multipla, come la regressione lineare,
la regressione logistica o la regressione di Cox, a seconda che l’esito in studio sia una variabile
continua (per esempio, la pressione arteriosa sistolica), dicotomica (per esempio, la mortalità a 30
giorni dopo ricovero per infarto miocardico acuto), un tempo di sopravvivenza o di attesa (per
esempio, il tempo di attesa per l’intervento di sostituzione del collo del femore a seguito di ricovero
per frattura).
I modelli predittivi empirici hanno un notevole vantaggio rispetto agli score prognostici come
l’euroSCORE (European System for Cardiac Operative Risk Evaluation) o il Charlson
comorbidity index. Infatti, l’uso di score o di modelli preconfezionati esterni presuppone che la
relazione tra predittori ed esito sia costante tra le popolazioni, assunto raramente verificato nella
realtà.
In tabella 6 vengono presentate alcune delle caratteristiche dei pazienti che il modello ha
identificato come potenziali fattori confondenti in base alla loro associazione multivariata con
l’esito. Nella seconda colonna della tabella viene riportato il numero dei pazienti con le singole
caratteristiche: per esempio i pazienti di genere femminile sono 30.585, quelli con pregresso tumore
maligno sono 5.089 e così via. Nella terza colonna sono riportati gli odds ratio grezzi, nella quarta
gli odds ratio aggiustati.
Infatti, abbiamo precedentemente definito il modello come multivariato; questo vuol dire che il
modello è in grado di analizzare contemporaneamente tutte le variabili misurate sul paziente. E’
grazie a questa caratteristica che l’odds ratio può essere aggiustato, per poter misurare l’effetto
23
indipendente dei singoli fattori di rischio, tenendo costanti i valori assunti da tutte le altre
variabili presenti nel modello.
Tabella 6. Modello predittivo. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero.
Proviamo a interpretare qualche odds ratio così ottenuto. Per ogni aumento di un anno di età, il
rischio di morire a 30 giorni dal ricovero per infarto aumenta dell’8% (odds ratio = 1,08). Al
contrario, le differenze di genere sono trascurabili perché l’odds ratio è prossimo al valore di 1,00
(odds ratio = 1,02) valore che, come descritto nel primo capitolo, esprime l’indipendenza tra
l’esposizione (in questo caso il genere del paziente) e l’esito in studio (in questo caso il decesso a 30
giorni).
I tumori maligni costituiscono invece un fattore di rischio: la loro presenza aumenta del 55% la
mortalità a 30 giorni (odds ratio = 1,55). Anche il diabete, lo scompenso cardiaco e le malattie
cerebrovascolari sono fattori di rischio. Infatti, tutte queste patologie concomitanti presentano un
odds ratio maggiore di 1,00. Il pregresso by-pass aorto-coronarico è invece un fattore protettivo,
essendo associato a una riduzione relativa del rischio pari al 52%, ottenuta come (1,00-0,48) x 100.
Valutazioni analoghe valgono per la pregressa angioplastica coronarica.
A questo punto, nel Programma Nazionale Esiti, il confronto tra le strutture ospedaliere e le ASL di
residenza avviene attraverso una metodologia chiamata standardizzazione diretta. Dal punto di
vista operativo, la standardizzazione diretta viene applicata mediante modelli statistici multivariati
in cui, oltre alle variabili selezionate come fattori di rischio, sono presenti alcune variabili speciali
(chiamate dummy) che rappresentano l’ospedale o la ASL di residenza. Questo metodo utilizza la
24
distribuzione dei fattori di rischio di una popolazione di riferimento come base per tutti i
confronti. Per ciascuno degli indicatori valutati, la popolazione di riferimento è costituita
dall’insieme di tutti i ricoveri osservati a livello nazionale.
Attraverso i parametri stimati dai modelli statistici, per ciascuna struttura e ASL di residenza
vengono calcolati i rischi aggiustati, denominati nel sito con la voce “rischi adj”. Questi rendono
ininfluente la diversa distribuzione dei fattori di rischio e consentono un confronto valido tra tutti i
gruppi oggetto di interesse. Infatti, dopo l’aggiustamento, i rischi possono essere interpretati come
se tutte le strutture e tutte le ASL presentassero la stessa distribuzione dei fattori di rischio (età,
sesso, gravità della patologia e comorbilità) della popolazione di riferimento.
Pertanto, dopo l’aggiustamento, le differenze osservate tra gli ospedali non potranno più essere
attribuibili alla diversa gravità dei pazienti e rifletteranno le reali differenze nella qualità delle cure.
Il rapporto tra due rischi aggiustati costituisce un rischio relativo aggiustato, che corrisponde nel
sito alla voce “RR adj”. Vediamo un esempio in relazione alla mortalità a 30 giorni dal ricovero per
infarto miocardico acuto.
Il Policlinico Umberto I di Roma ha un rischio grezzo di mortalità a 30 giorni dal ricovero per
infarto pari al 7,35%, che diventa 9,40% dopo l’aggiustamento per gravità. Questi pazienti, prima
dell’aggiustamento, non erano confrontabili con la media nazionale perché presentavano una
minore complessità clinica rispetto al totale dei pazienti ricoverati per infarto in Italia. Applicando
al Policlinico Umberto I la distribuzione nazionale delle caratteristiche-paziente, quali età, sesso e
patologie concomitanti, il rischio della struttura aumenta. Ricordando che la mortalità a livello
nazionale è pari al 9,03%, il rischio relativo aggiustato si ottiene dal rapporto 9,40% / 9,03% = 1,04.
Pertanto, dopo aver reso ininfluente l’effetto della diversa gravità dei pazienti, Il Policlinico
Umberto I di Roma presenta un rischio di mortalità del 4% superiore rispetto alla media nazionale.
Avendo applicato a tutti gli ospedali la stessa distribuzione per gravità (quella osservata a livello
nazionale), tutte le strutture ospedaliere sono confrontabili sia tra di loro sia con la media
nazionale.
25
3.3.3. LA STANDARDIZZAZIONE INDIRETTA
La standardizzazione indiretta (non usata nel Programma Nazionale Esiti) è una possibile
alternativa alla standardizzazione diretta. Anche questa metodologia prevede l’utilizzo di una
popolazione di riferimento e si basa sul calcolo del numero atteso di esiti in ciascuno dei gruppi
messi a confronto, ovvero il numero di esiti che ci si aspetterebbe in quell’ospedale o in quella ASL
di residenza sulla base della distribuzione, nel gruppo stesso, dei fattori di rischio considerati.
Questo valore atteso viene calcolato sulla base della relazione tra fattori di rischio ed esito che si
osserva nella popolazione di riferimento.
Una volta che per ciascuno dei gruppi a confronto si è derivato l’esito atteso, è possibile calcolare,
per ciascun ospedale o ASL di residenza, il rapporto standardizzato (RS):
Questo rapporto misura di quante volte l’esito nel gruppo considerato è più frequente (o meno
frequente) di quanto lo sarebbe sulla base della distribuzione, nel gruppo stesso, dei fattori di
rischio e sulla base della relazione tra i fattori di rischio e l’esito nella popolazione di riferimento. In
questo senso, valori di RS maggiori di 1 (o minori di 1) indicano una maggiore (o minore)
frequenza dell’esito considerato nel gruppo in studio rispetto al riferimento, al netto delle possibili
differenze nella distribuzione dei fattori di rischio.
La standardizzazione indiretta permette dunque un confronto risk-adjusted tra gli esiti osservati in
un gruppo e quelli osservati nella popolazione di riferimento. Tuttavia, nel Programma Nazionale
Esiti, si è preferito non utilizzare questa procedura poiché il confronto è valido solo se viene
effettuato tra ciascun gruppo e il riferimento ma non è possibile utilizzare i valori del rapporto
standardizzato per confrontare gli ospedali o le ASL di residenza tra loro.
Come descritto nel paragrafo 3.3.1, le tecniche di risk adjustment prevedono, nella prima fase delle
analisi, lo studio della relazione tra i potenziali fattori confondenti e l’esito.
Esiste un approccio alternativo e “simmetrico” a questa metodologia, noto col nome di propensity
adjustment (non usata nel Programma Nazionale Esiti) che nella prima fase si focalizza sulla
relazione tra i potenziali fattori confondenti e l’esposizione.
Una volta calcolata la probabilità di esposizione in base alle caratteristiche demografiche e cliniche
del paziente, tale misura, chiamata propensity score, viene opportunamente integrata nell’analisi
“finale”, quella che indaga la relazione tra esposizione ed esito. In altri termini, mentre la prima fase
è finalizzata a identificare i fattori predittivi dell’esposizione, la seconda si focalizza sulla relazione
tra esposizione ed esito, utilizzando il propensity score come unico fattore di aggiustamento.
Nel Programma Nazionale Esiti, questa tecnica per il controllo del confondimento non è stata
utilizzata perché di difficile applicazione nei casi in cui l’esposizione sia costituita da un elevato
26
numero di livelli, come nel caso delle strutture ospedaliere. Inoltre, le tecniche basate sul
propensity adjustment sono incentrate sulla sintesi di tutti i potenziali fattori confondenti in
un’unica variabile, il propensity score, da utilizzare nei processi di aggiustamento e trovano
maggiore applicazione nei casi in cui il numero dei fattori confondenti sia molto elevato rispetto al
numero degli esiti osservati. Tuttavia, nei contesti in cui si ha a disposizione un notevole numero di
esiti, come nelle valutazioni comparative a livello nazionale o regionale, le metodologie di risk
adjustment e propensity adjustment conducono a risultati praticamente identici.
• Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for
causal effects. Biometrika 1983;70:41-5.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3144483/
• D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to
a non-randomized control group. Statistics in Medicine 1998;17:2265-81.
http://www.ncbi.nlm.nih.gov/pubmed/9802183
Nell’ambito della valutazione comparativa degli esiti è importante definire a priori, sulla base delle
evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i fattori di cui si voglia indagare il
ruolo di possibile modificatore di effetto.
Infatti, nel caso di un modificatore di effetto, non ha senso interrogarsi sull’eventuale ruolo dello
stesso fattore come confondente e tanto meno proporsi di calcolare una misura di associazione
aggiustata, poiché questa stima, calcolata come media di misure troppo diverse tra loro, non
consentirebbe una corretta interpretazione dei risultati.
27
4. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA
Al contrario dell’errore sistematico, descritto nel paragrafo 3.1, l’errore casuale non ha una
direzione ben precisa e si distribuisce uniformemente intorno al vero valore del parametro di
interesse (per esempio, un rischio relativo). C’è un’altra differenza rilevante tra le due tipologie di
errore. Mentre l’errore sistematico è indipendente dalla numerosità campionaria (ovvero dal numero
delle osservazioni analizzate), l’errore casuale diminuisce all’aumentare del numero delle
osservazioni, consentendo di ottenere stime sempre più precise.
Nel secondo capitolo abbiamo introdotto le tecniche per il controllo del confondimento. Utilizzando
queste metodologie è possibile calcolare il rischio relativo aggiustato, che consente di operare
28
confronti tra ospedali o ASL di residenza rendendo statisticamente ininfluente l’effetto della diversa
distribuzione dei fattori di rischio.
In alcuni contesti, l’analisi di un campione di dati ha come obiettivo anche quello di “prendere una
decisione” sulla base delle informazioni contenute nei dati stessi. A tale proposito, i test statistici
possono fornire utili elementi di valutazione sulla base di tre grandezze fondamentali.
• La forza della misura di associazione: di quanto si allontana il rischio relativo rispetto al valore
1,00 di indifferenza?
• La frequenza dell’esito in studio (in genere desunta dalla media nazionale): l’esito che sto
valutando è raro, come per esempio la mortalità a 30 giorni dall’intervento di bypass aorto-
coronarico, o è comune (non raro), come per esempio la proporzione di parti con taglio cesareo
primario?
La verifica di ipotesi, che è una branca dell’inferenza statistica, attraverso la combinazione di questi
tre elementi consente di ottenere il valore della p (p-value), che esprime la probabilità di
sbagliare per effetto del caso se dichiariamo che il risultato dell’ospedale che stiamo analizzando è
diverso rispetto a una determinata categoria di riferimento.
Esistono relazioni ben definite che legano le tre grandezze fondamentali appena descritte col valore
del p-value, in particolare:
29
• tenendo costanti la media nazionale e il numero di osservazioni analizzate, il p-value diminuisce
all’aumentare della forza della misura di associazione (Tabella 7);
• tenendo costanti la media nazionale e il rischio relativo, il p-value diminuisce all’aumentare del
numero di osservazioni analizzate (Tabella 8);
Tabella 7. Variazione del p-value al variare della forza della misura di associazione
Numero di
Media Rischio
Ospedale ricoveri Rischio p-value
nazionale relativo
analizzati
Ospedale A 60 15% 10% 1,5 0,195
Ospedale B 60 20% 10% 2,0 0,016
Ospedale C 60 25% 10% 2,5 < 0,001
Numero di
Media Rischio
Ospedale ricoveri Rischio p-value
nazionale relativo
analizzati
Ospedale A 40 20% 10% 2,0 0,057
Ospedale B 50 20% 10% 2,0 0,030
Ospedale C 60 20% 10% 2,0 0,016
Media
Numero di
nazionale Rischio
Ospedale ricoveri Rischio p-value
(frequenza relativo
analizzati
dell’esito)
Ospedale A 60 10% 5% 2,0 0,125
Ospedale B 60 20% 10% 2,0 0,016
Ospedale C 60 70% 35% 2,0 < 0,001
30
Torniamo al nostro esempio sulla frattura del collo del femore: per l’Azienda Ospedaliera S.
Antonio e Biagio il test statistico produce un valore della p pari a 0,249 (esprimendolo in
percentuale 24,9%).
Il test mette a confronto il risultato dell’Azienda Ospedaliera (intervento tempestivo nel 49,20% dei
casi) col risultato medio nazionale (intervento tempestivo nel 54,64% dei casi).
Proviamo a interpretare il valore della p: la probabilità di sbagliare per effetto del caso, se
dichiariamo che in questo Ospedale la proporzione di pazienti operati entro due giorni è diversa
dalla media nazionale, è pari al 24,9%.
In altre parole, 24,9% è la probabilità di sbagliare per effetto del caso se si conclude che il risultato
dell’Azienda Ospedaliera S. Antonio e Biagio è veramente peggiore rispetto alla media nazionale.
In base 1) alla direzione del rischio relativo aggiustato e 2) al risultato del test statistico è
possibile classificare ogni ospedale in tre categorie:
1. strutture con esiti più favorevoli rispetto alla media nazionale (p≤0,05);
2. strutture con esiti non significativamente diversi dalla media nazionale (p>0,05);
3. strutture con esiti meno favorevoli rispetto alla media nazionale (p≤0,05).
31
Nell’esempio seguente, che vuole confrontare i risultati dell’Azienda Ospedaliera Villa Sofia, in
Sicilia, con quelli della Casa di cura S. Lucia, in Campania, è possibile evidenziare come il risultato
del test statistico sia strettamente legato al numero dei ricoveri analizzati.
Pur presentando rischi relativi rispetto alla media identici (rischio relativo aggiustato pari a 0,46), la
Casa di cura S. Lucia non raggiunge la significatività statistica (p>0,05) a causa del limitato numero
di osservazioni (58 ricoveri analizzati nel 2015) mentre l’Azienda Ospedaliera Villa Sofia (261
ricoveri analizzati nel 2015) presenta un valore della p (0,020) che indica una mortalità
significativamente inferiore rispetto alla media nazionale.
32
4.3. GLI INTERVALLI DI CONFIDENZA
Oltre ai test statistici sui rischi relativi, è possibile calcolare per ciascuna misura di associazione un
intervallo di valori tale da essere confidente, a un determinato livello di probabilità, che esso
includa il valore reale del rischio relativo.
Ipotizziamo di avere stimato per una data struttura ospedaliera un rischio relativo, rispetto alla
media nazionale, pari a 1,95 e di avere calcolato attorno a esso l’intervallo di confidenza al 95%
compreso tra 1,08 e 3,33.
Cosa significa? Siamo confidenti al 95% che questo intervallo (da 1,08 a 3,33) comprenda il
valore reale del rischio relativo, ovvero il valore che avremmo osservato per quella struttura
all’aumentare indefinito del numero delle prove (i ricoveri analizzati). L’ampiezza
dell’intervallo di confidenza fornisce, pertanto, un’indicazione sulla precisione della stima.
Ipotizziamo adesso di avere confrontato tra loro due strutture ospedaliere e di avere ottenuto un
rischio relativo pari a 2,00. In tabella 10 vengono proposti tre scenari in cui il rischio relativo
appena ottenuto viene calcolato a partire da diverse numerosità campionarie.
Numerosità Intervallo di
Rischio relativo Livello di confidenza
campionaria* confidenza
33
Analizziamo, adesso, la relazione tra ampiezza dell’intervallo e livello di confidenza. I risultati sono
presentati in tabella 11.
Numerosità Intervallo di
Rischio relativo Livello di confidenza
campionaria* confidenza
Dall’osservazione dei risultati presentati nella tabella emerge che l’ampiezza dell’intervallo
aumenta all’aumentare del livello di confidenza. Infatti, a parità di numerosità campionaria,
l’unico modo che abbiamo per incrementare il livello di confidenza è quello di aumentare
l’ampiezza dell’intervallo, che essendo più ampio avrà una maggiore probabilità di comprendere il
valore reale del rischio relativo.
Ebbene, esiste una relazione che lega l’ampiezza dell’intervallo di confidenza al risultato del test.
Infatti, se l’intervallo di confidenza al 95% comprende il valore 1,00, per esempio l’intervallo tra
0,74 e 5,43, allora il corrispondente test statistico non è significativo (p>0,05) e non è possibile
escludere con sufficiente evidenza empirica che le differenze osservate tra le due strutture siano da
attribuire all’effetto del caso.
Il valore 1,00 riveste una particolare importanza in questa valutazione perché, come descritto nel
paragrafo 2.7.2, esprime l’indipendenza tra l’esposizione e l’esito, ovvero la totale assenza di
qualsiasi effetto.
Tornando all’esempio, l’intervallo di confidenza tra 1,21 e 3,30 non sarebbe compatibile con il
risultato del test. Infatti il valore della p era maggiore di 0,05 ma l’intervallo di confidenza non
comprende il valore 1,00.
34
BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI
2. Amato L, Colais P, Davoli M, et al. Volume and health outcomes: evidence from Systematic
Reviews and from evaluation of Italian hospital data. Epidemiol Prev 2013;37:1-100.
http://www.ncbi.nlm.nih.gov/pubmed/23851286
4. D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to a
non-randomized control group. Statistics in Medicine 1998;17:2265-81.
http://www.ncbi.nlm.nih.gov/pubmed/9802183
5. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for
causal effects. Biometrika 1983;70:41-5.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3144483/
35