Sei sulla pagina 1di 142

INDICI DI TENDENZA CENTRALE E DI VARIABILITA

2 GLI INDICI DI TENDENZA CENTRALE


Gli INDICI DI TENDENZA CENTRALE permettono di sintetizzare in un unico dato landamento generale di un fenomeno.

3 GLI INDICI DI TENDENZA CENTRALE

La distribuzione gaussiana (curva blu simmetrica) lespressione di una distribuzione normale di osservazioni che si discostano in maniera casuale e secondo un definito modello matematico da un valore centrale o normale.

4 GLI INDICI DI TENDENZA CENTRALE

MEDIA ARITMETICA PONDERATA

M. A. P. = (X1*f1) + (X2*f2) + (X3*f3) +.(Xn * fn) (f1+f2+f3+fn)


Esempio: Supponiamo che in una classe vi sono 10 ragazzi alti 180 cm., 5 ragazzi alti 175 cm. e 3 ragazzi alti 160 cm. Se applicassimo la Media semplice otterremmo: M = 180 + 175 + 160 / 3 = cm. 171 In realt per non tutti i valori hanno la stessa frequenza (o peso). Bisogna quindi applicare la M. A. P. = (180*10) + (175*5) + (160*3) / 10+5+3 = cm. 175

5 GLI INDICI DI VARIABILITA

Le medie da sole non ci dicono se i valori esaminati sono molto discordanti fra di loro o sono, piuttosto, vicini alla media stessa, presentando scarti piccoli. Ad es. il numero 6 pu derivare dalla media di 5+7=12 o di 1+11=12. Il numero 6(media) nel Icaso deriva da numeri molto vicini alla stessa media, mentre nel II caso deriva da numeri molto discordanti (grande variabilit).

6 GLI INDICI DI VARIABILITA DEVIANZA =


E la sommatoria () del quadrato degli scarti fra ciascun valore (x) e la media (m).

( x m )2

VARIANZA =

E la vera media del quadrato degli scarti. Si ottiene dividendo la Devianza per il Numero n. di osservazioni 1 (gradi di libert).

( x m )2 n-1 (x m)2 n-1

Esprime la media degli scostamenti dalla Media e permette di osservare la dispersione dei valori intorno alla stessa Media.

DEVIAZIONE STANDARD()=

ERRORE STANDARD(ER)=

E una misura della variabilit dei valori nelluniverso dal quale estratto il campione: tanto pi piccolo lER quanto maggiore il grado di certezza che la Media Campionaria si avvicini a quella reale della popolazione di riferimento.

7 DEVIANZA VARIANZA DEVIAZIONE STANDARD


DEVIANZA

Statura cm 172 178 163 181 167 168 173 180


172,8
2

Scarti dalla Media


172 178 163 181 167 168 173 180 172,8 172,8 172,8 172,8 172,8 172,8 172,8 172,8 = = = = = = = = -0,8 5,3 -9,8 8,3 -5,8 -4,8 0,3 7,3

Quadrato degli Scarti


-0,8 5,3 -9,8 8,3 -5,8 -4,8 0,3 7,3
x x x x x x x x

Alunno X1 Alunno X2 Alunno X3 Alunno X4 Alunno X5 Alunno X6 Alunno X7 Alunno X8 (n) MEDIA = X1+X2+Xn / n

-0,8 5,3 -9,8 8,3 -5,8 -4,8 0,3 7,3

= = = = = = = =

0,6 27,6 95,1 68,1 33,1 22,6 0,1 52,6

SOMMA ALG.
= 299,5

0,0 SOMMATORIA

299,5

DEVIANZA = (x m )

VARIANZA = DEVIANZA / n 1 ovvero (x m )


2

/ n -1

quindi

299,5 / 7 = 42,8

DEVIAZIONE STANDARD =

(x m ) 2 / n -1 = 42,8 = 6,5

8 DEVIAZIONE STANDARD

Dati a distribuzione simmetrica: usare media e deviazione standard. Dati a distribuzione asimmetrica: usare mediana e percentili

9 DEVIAZIONE STANDARD

Proporzioni di valori compresi nellintervallo di +/- 1 Dev. St. = Proporzioni di valori compresi nellintervallo di +/- 2 Dev. St. = Proporzioni di valori compresi nellintervallo di +/- 3 Dev. St. =

68,27 % 95,45 % 99,73 %

10 ERRORE STANDARD

ERRORE STANDARD = DEVIAZIONE STANDARD =

6,5

= 2,3

L Errore Standard di una Media Campionaria quantifica il grado di certezza col quale la media, calcolata da un campione casuale, stima la vera media della popolazione dalla quale il campione stato tratto: tanto pi piccolo lES quanto maggiore il grado di certezza che la media del campione si avvicini a quella reale della popolazione di riferimento. E dunque legato a due fattori:

1) Al fatto che la variabilit del campione sia piccola (deviazione standard) 2) Al fatto che la numerosit del campione esaminato sia grande.

11 LIMITI FIDUCIALI (di una Media)


I limiti fiduciali esprimono lintervallo entro il quale pu ricadere la vera media ignota della popolazione di riferimento. Sono correlati allErrore Standard: quanto pi piccolo lER, quanto pi ristretti sono gli intervalli di confidenza dei limiti fiduciali. Il calcolo dei L.F. legato al livello di probabilit che si intende ottenere ( 95% o 99%). Ad ogni livello di probabilit corrisponde un coefficiente che va moltiplicato per lErrore Standard: a) 1,96 per il livello di probabilit del 95%; b) 2,57 per il livello di probabilit del 99%.

LF 95% = m +/- (1,96 * ES)


Dove m la media del campione, 196 il coefficiente del livello di probabilit prescelto (95%) ed ES lerrore standard.
Nellesempio della statura degli alunni: LF 95% = 172,8 +/- (1,96 * 2,3) = 172,8 + / - 4,53 cio LF s = 177,3 LF i = 168,2

PROVE DI SIGNIFICATIVITA STATISTICA

13 LE PROVE DI SIGNIFICATIVITA STATISTICA


L'osservazione epidemiologica porta spesso a riscontrare delle differenze nelle medie, nelle frequenze e in altre caratteristiche di gruppi di "popolazioni" messi a confronto. Di fronte a queste evenienze doveroso chiedersi se le differenze riscontrate siano dovute al puro caso o se scaturiscano da reali differenze delle "popolazioni" messe a confronto. Se ad esempio si somministrano due tipi di vaccini diversi a due gruppi di popolazioni e si riscontra una migliore risposta in uno dei due gruppi legittimo chiedersi se uno dei due vaccini realmente pi efficace o se, piuttosto: 1) le differenze siano dovute ad errori di campionamento; 2) le differenze siano dovute al caso. Infatti le differenze potrebbero essere dovute ad errori di campionamento, nel senso che i due gruppi di popolazione potrebbero non essere omogenei in qualche caratteristica importante (ad esempio l'et), ovvero potrebbero scaturire dalla pura casualit. Nel primo caso occorre accertarsi della correttezza delle tecniche di campionamento (di cui si gi trattato), nel secondo caso necessario ricorrere alle "Prove di Significativit Statistica".

14 - IPOTESI DI NULLITA E LIVELLI DI SIGNIFICATIVITA


L'ipotesi che le differenze osservate siano dovute al puro caso definita in epidemiologia "Ipotesi di Nullit". Dunque per poter accertare la significativit statistica di una osservazione occorre "rifiutare l'ipotesi di nullit". Per far ci si confrontano i valori ottenuti attraverso le Prove di Significativit con appositi valori "critici" predeterminati. Se i valori ottenuti superano i valori critici la differenza osservata statisticamente significativa e l'ipotesi di nullit rifiutata. Le Prove sono collegate a ben precisi Livelli di Significativit (di solito 5%), mentre la probabilit che le differenze osservate siano dovute al caso espressa dal valore di "p". Una prova condotta con un "p < 0.01 sta a significare che la probabilit che la differenza osservata sia dovuta al caso uguale a 1 su 100. Le Prove di Significativit pi utilizzate sono riferite a: a) Confronti tra Medie (T di Student, Analisi della Varianza) b) Confronti tra Proporzioni (Test z) c) Confronti tra frequenze (Chi quadro)

15 - TEST t DI STUDENT (Confronto tra 2 Medie)


Il Test t di Student permette di verificare la significativit statistica della differenza osservata tra le medie campionarie di due gruppi. E espresso da: t = differenza tra medie / errore standard differenza tra le medie. Il valore ottenuto viene confrontato con un apposito valore critico, superato il quale la differenza osservata da intendersi statisticamente significativa. Il calcolo della Differenza tra le medie non rappresenta un problema (m1-m2). Pi complesso il calcolo dell'Errore Standard della differenza tra le medie, che espresso dalla radice quadrata della sommatoria delle due varianze dei due gruppi. Traducendo il concetto in formula si ha: t = (m1 - m2) / RadQ { [(s1)2 / n1] + [(s2)2 / n2] } dove m1 ed m2 sono le medie dei due gruppi messi a confronto, s1 ed s2 sono le deviazioni standard dei due gruppi ed n1 ed n2 rappresentano la numerosit dei due gruppi. Dall'esame attento della formula si evince che il valore di t risulter grande se:

a) la differenza delle medie elevata (m1-m2); b) la deviazione standard delle due medie piccola; c) la numerosit dei due campioni elevata.

16 - TEST t DI STUDENT (La Tabella dei Valori Critici di t)


Il risultato ottenuto dovr essere confrontato coi valori critici dell'apposita Tabella di Student, dove, in rapporto al numero di gradi dei gradi di libert (n1-1 + n2-1), sono riportati i valori minimi che occorre raggiungere affinch si possa affermare, con una probabilit superiore al 95% o, rispettivamente, al 99%, che la differenza riscontrata "statisticamente significativa" (al livello del 95%), ovvero "altamente significativa" (al livello del 99%). ESEMPIO: Se i 2 gruppi sono Tabella dei Valori Critici di t composti rispettivamente da 4 e Gradi di p = 0.05 p = 0.01 Gradi di p = 0.05 p = 0.01 da 22 elementi, ed il risultato libert Liv. 95% Liv. 99% libert Liv. 95% Liv. 99% del "t" ottenuto di 2,5, 1 12,706 63,657 18 2,101 2,878 2 4,303 9,925 19 2,093 2,861 dovremo cercare i valori critici 3 3,182 5,841 20 2,086 2,845 di confronto nella riga dei 24 4 2,776 4,604 21 2,08 2,831 5 2,571 4,032 22 2,074 2,819 gradi di libert (cio 4-1 pi 226 2,447 3,707 23 2,069 2,807 1 = 24). Nella suddetta riga i 7 2,365 3,499 24 24 2,064 2,797 8 2,306 3,55 25 2,06 2,787 valori critici sono: 9 2,262 3,25 26 2,056 2,779
10 11 12 13 14 15 16 17 2,228 2,201 2,179 2,16 2,145 2,131 2,12 2,11 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 27 28 29 30 40 60 120 infinito 2,052 2,048 2,045 2,042 2,021 2 1,98 1,96 2,771 2,763 2,756 2,75 2,704 2,66 2,617 2,576

2,064 per un livello del 95%; 2,797 per un livello del 99%. Pertanto il valore di "t" ottenuto (2,5) > del valore del 95%.

17 - TEST t DI STUDENT (Un Esempio)


Ripartiamo un campione di sangue tra due Laboratori (A e B) ed eseguiamo 10 conteggi di leucociti in ognuno. Quindi calcoliamo Medie, Varianze e Gradi di Libert
L A B O R A T O R IO "A " n u m e ro co n te g g i 1 2 3 4 5 6 7 8 9 10 M e d ia "n " ( N u m e ro s it M e d ia ( s o m m a n u m e ro le u c o c iti 7 .3 2 8 7 .2 5 6 7 .1 9 8 7 .1 8 9 7 .2 2 3 7 .3 3 1 7 .5 3 2 7 .2 1 9 7 .4 0 9 7 .3 4 7
S c a rti d a lla M e d ia Q u a d ra to d e g li S ca rti

L A B O R A T O R IO "B " n u m e ro co n te g g i 1 2 3 4 5 6 7 8 9 10 M e d ia "n " ( N u m e ro s it M e d ia ( s o m m a n u m e ro le u c o c iti 6 .8 5 6 7 .6 5 4 6 .8 9 9 7 .0 1 9 6 .7 1 2 7 .5 7 8 6 .9 5 6 6 .7 7 9 7 .3 9 7 6 .8 7 1


S ca rti d a lla M e d ia Q u a d ra to d e g li S c a rti

25 -47 -105 -114 -80 28 229 -84 106 44 7 .3 0 3 S o m m a =


= =

61 5 2 .22 8 1 1 .06 7 1 3 .04 2 6 .43 2 77 3 5 2 .34 9 7 .09 0 1 1 .19 4 1 .91 8 10 6 .70 8


10 7 .30 3 10 6 .70 8
1 1 .8 5 6 109

## ## ## ## ## ## ## ## ## ##

4 6 .69 9 -216 33 8 .60 8 582 2 9 .96 4 -173 2 .82 0 -53 12 9 .67 2 -360 25 5 .93 5 506 1 3 .47 9 -116 8 5 .90 8 -293 10 5 .56 0 325 4 0 .44 1 -201 7 .0 7 2 S o m m a = 1 .04 9 .08 5
= =
10 7 .07 2 1 .04 9 .08 5
1 1 6 .5 6 5 341

d e l C a m p io n e ) d e i v a lo ri / n )

d e l C a m p io n e ) d e i va lo ri / n )

D e via n za ( s o m m a

q u a d ra to s c a rti ) / n -1 )

D e via n z a ( s o m m a

q u a d ra to s c a rti ) / n -1 )

V a ria n z a ( D e v ia n za

V a ria n za ( D e v ia n z a

D e v.S ta n d .( ra d ic .q u a d r.v a ria n z a ) = D iffe re n za tra le d u e M e d ie ( L a b G ra d i d i L ib e rt ( n .L a b .A -1


A e B)

D e v.S ta n d .( ra d ic .q u a d r.v a ria n z a ) =

231 18

p i n .L a b .B -1 )

18 - TEST t DI STUDENT (Un Esempio - 2/2)


A questo punto abbiamo i dati che ci servono per calcolare il "t" di Student e confrontarlo con i Valori Critici: la Differenza tra le due Medie, le due Varianze e i Gradi di Libert: t = (m1 m2) / RadQ { [(s1)2 / n1] + [(s2)2 / n2] }; t = (7.303 7.072) / RadQ [ (11.856 / 10) + (116.565 / 10) ] = 231 / RadQ (1.185,6 + 11.656,5) = 231 / RadQ 12.842,1 = 231 / 113,3 = 2,038. A questo punto si pu confrontare il valore di t ottenuto (2,038), con i valori critici della Tabella del t di Student nel rigo corrispondente a 18 gradi di libert (cio quelli derivanti dalla somma n-1 di A pi n-1 di B, e dunque 10-1 pi 10-1). Questi valori risultano essere 2,101 (95%) e 2,878 (99%). Pertanto si pu concludere affermando che la differenza non statisticamente significativa.
Nel Caso A la differenza tra le due medie (m1-m2) elevata (s da lasciare un intervallo tra il limite inferiore di m1 (-s ) e quello superiore di m2 (+s ). Nel Caso B, pur essendo uguale s ridotta m1-m2.

(+ s ) m1 (- s ) (+ s ) m1 (- s )

(m1-m2)

(+ s ) m2 (- s )

B (+ s ) m2 (- s )

19 - TEST t DI STUDENT
Differenza tra le medie e significativit

+s

m1

s
(m1- s) > (m2+s ) (m1- m2)

+s

m2

+s

m1

+s

(m1- s) < (m2+s )

m2

(m1- m2)

20 - ANALISI DELLA VARIANZA (Confronto tra pi di 2 Medie)


Dal punto di vista concettuale l'Analisi della Varianza consiste nel mettere a confronto tra loro le due varianze fondamentali dell'analisi: a) La Varianza "entro" i Gruppi; b) La Varianza "tra" i Gruppi. La Varianza entro gruppi determina il grado di variabilit interna ai gruppi in studio. Le osservazioni hanno maggiore probabilit di risultare statisticamente significative quanto pi ridotta la variabilit interna ai gruppi (cio fra i valori che compongono i gruppi e le loro medie). In caso contrario diventerebbe necessario incrementare il campione con un maggior numero di osservazioni. La Varianza tra gruppi, invece, misura il grado di diversificazione tra le singole medie dei diversi gruppi di valori. Al contrario di prima, dunque, le differenze osservate hanno maggiore probabilit di risultare significative, quanto maggiore la varianza tra i gruppi.

entro

tra

entro

tra

entro

21 - ANALISI DELLA VARIANZA (Un Esempio 1/8)


L'analisi della Varianza, dunque, consiste nel calcolare queste due Varianze e nel ricavare il rapporto Varianza "tra gruppi" / Varianza "entro gruppi" che esprime il valore "F". Se il valore F del suddetto rapporto alto e supera i Valori Critici di riferimento dell'apposita Tabella F, le differenze osservate risulteranno statisticamente significative. Per spiegare le formule, ricorriamo ad un esempio.

Supponiamo di somministrare un diuretico a tre gruppi di persone: il primo gruppo costituito da 9 persone sane, il secondo gruppo da 7 cardiopatici compensati il terzo gruppo da 5 nefropatici.

Supponiamo, inoltre, che nelle 24 ore successive alla somministrazione si sia osservato un incremento della diuresi, secondo i valori di seguito riportati (in ml):

22 - ANALISI DELLA VARIANZA (Un Esempio 2/8)


Soggetti Sani
numero persone Incremento Diuresi

Cardiopatici
numero persone Incremento Diuresi

Nefropatici
numero persone Incremento Diuresi

1 2 3 4 5 6 7 8 9 Totale T Media M

398 361 499 328 302 383 407 401 419 3.498 389

1 2 3 4 5 6 7 Totale T

698 627 679 593 765 743 701 4.806

1 2 3 4 5 Totale T

188 207 218 199 207 1.019

Media M

687

Media M

204

La migliore risposta viene osservata a carico dei Cardiopatici, quella intermedia a carico dei Sani, quella peggiore a carico dei Nefropatici. A questo punto ci prefiggiamo di verificare se le differenze osservate sono significative.

23 - ANALISI DELLA VARIANZA (Un Esempio 3/8)


Innanzitutto, occorre calcolare la Devianza "entro gruppi". Per far ci occorre calcolare le singole Devianze dei tre gruppi (Somma del quadrato degli scarti dalla Media) e sommarle. Otteniamo i seguenti risultati:
persone sane Incremento Diuresi Scarti dalla Media Quadrato degli Scarti
cardiopat. Incremento Diuresi Scarti dalla Media Quadrato degli Scarti

1 2 3 4 5 6 7 8 9 Media

398 361 499 328 302 383 407 401 419

9 -28 110 -61 -87 -6 18 12 30

87 765 12.173 3.680 7.511 32 336 152 920 25.658

1 2 3 4 5 6 7

698 627 679 593 765 743 701

11 -60 -8 -94 78 56 14

131 3.549 57 8.756 6.151 3.184 208

389 Somma =

Media

687 Somma =

22.036

nefropat.

Incremento Diuresi

Scarti dalla Media

Quadrato degli Scarti

DEVIANZA ENTRO GRUPPI

1 2 3 4 5

188 207 218 199 207

-16 3 14 -5 3

250 10 202 23 10

Dev. Sani Dev. Cardiopat. Dev. Nefropat. TOT. Devianze

25.658 22.036 495 48.189

Media

204 Somma =

495

24 - ANALISI DELLA VARIANZA (Un Esempio 4/8)


A questo punto occorre calcolare la Devianza "tra gruppi". Per far ci occorre costruire la classica formula composta da due termini. Il primo termine (o formula propriamente detta) dato dalla somma dei quadrati delle medie (M) di ciascun gruppo, rispettivamente moltiplicate per la numerosit N del proprio gruppo: 1 Termine = [(M1)2* N1 ] + [(M2 )2 * N2 ] + [(Mn )2 * Nn ] Il secondo termine (o fattore di correzione) dato dal quadrato della somma semplice dei Totali T dei valori di ogni gruppo diviso la somma semplice della numerosit N di ogni gruppo: 2 Termine = (T1 + T2 + Tn)2 / (N1 + N2 + Nn) Si procede ora a sottrarre il 2 dal 1 termine e si ottiene la devianza tra gruppi: Devianza Tra Gruppi = 1 Termine 2 Termine

25 - ANALISI DELLA VARIANZA (Un Esempio 5/8)


1 Termine Persone Sane Cardiopatici Nefropatici = (389)2 * 9 = (687)2 * 7 = (204)2 * 5 = = = = 1.359.556 3.299.662 207.672 4.866.890

Somma risultati ottenuti nei tre Gruppi 2 Termine Numeratore Persone Sane Cardiopatici Nefropatici Somma Totali ml Quadrato somma Denominat. Persone Sane Cardiopatici Nefropatici S Numerosit N Num./Deno. S T2 / S N Totale T in ml Totale T in ml Totale T in ml di tutti e tre i Gruppi dei Totali dei tre Gruppi Numerosit N Numerosit N Numerosit N di tutti e tre i Gruppi = 86.918.329 / 21

= = = = = = = = = =

3.498 4.806 1.019 9.323 86.918.329 9 7 5 21 4.138.968

26 - ANALISI DELLA VARIANZA (Un Esempio 6/8)


Una volta calcolati 1 e 2 Termine possibile calcolare la Dev. Tra Gruppi: D. Tra = 1Termine2Termine = 4.866.8904.138.968 = 727.922 Una volta calcolate le Devianze ("entro" e "tra) facile ottenere le Varianze. Per ottenere le Varianze basta dividere le Devianze per i rispettivi Gradi di Libert: I g.l. della Dev.entro la S di tutte le "n-1" dei 3 gruppi (9-1 + 7-1 + 5-1 = 18) I g.l. della Dev."tra" data dal numero di gruppi meno uno (3-1 = 2)
CALCOLO DELLE VARIANZE

Devianza Gradi Libert Varianza (Dev./G.L.) 727.922 48.189 2 18 363.961 2.677

Variabilit Tra Gruppi Variabilit Entro Gruppi

Ottenute le due Varianze si ricerca infine il Rapporto F (tra le due Varianze): F = VARIANZA TRA GRUPPI / VARIANZA ENTRO GRUPPI Applicando alla formula i numeri dellesempio si ha: F = 363.961 / 2.677 = 135,95 ; Confrontiamo il Valore con la Tabella F:

27 - ANALISI DELLA VARIANZA (Un Esempio 7/8)


GRADI DI LIBERTA' VARIANZA MAGGIORE (numeratore) 1 G R A D I L I B E R T A' V A R I A N Z A M I N O R E d e n o m i n a t o r e 1 2 3 4 5 6 8 10 12 15 18 20 25 30 35 40 50 60 70 80 100 120 Infinito 161 4052 18,51 98,49 10,13 34,12 7,71 21,20 6,61 16,26 5,99 13,74 5,32 11,26 4,96 10,04 4,75 9,33 4,54 8,68 4,41 8,28 4,35 8,10 4,24 7,77 4,17 7,56 4,11 7,39 4,08 7,31 4,03 7,17 4,00 7,08 3,98 7,01 3,96 6,96 3,94 6,90 3,92 6,85 3,84 6,63 2 200 4999 19,00 99,00 9,55 30,82 6,94 18,00 5,79 13,27 5,14 10,92 4,46 8,65 4,10 7,56 3,88 6,93 3,68 6,36 3,55 6,01 3,49 5,85 3,38 5,57 3,32 5,39 3,26 5,25 3,23 5,18 3,18 5,06 3,15 4,98 3,13 4,92 3,11 4,88 3,09 4,82 3,07 4,79 2,99 4,60 3 216 5403 19,16 99,17 9,28 29,46 6,59 16,69 5,41 12,06 4,76 9,78 4,07 7,59 3,71 6,55 3,49 5,95 3,29 5,42 3,16 5,09 3,10 4,94 2,99 4,68 2,92 4,51 2,86 4,38 2,84 4,31 2,79 4,20 2,76 4,13 2,74 4,08 2,72 4,04 2,70 3,86 2,68 3,95 2,60 3,78 4 225 5625 19,25 99,25 9,12 28,71 6,39 15,98 5,19 11,39 4,53 9,15 3,84 7,01 3,48 5,99 3,26 5,41 3,06 4,89 2,93 4,58 2,87 4,43 2,76 4,18 2,69 4,02 2,63 3,89 2,61 3,83 2,56 3,72 2,52 3,65 2,50 3,60 2,48 3,56 2,46 3,51 2,45 3,48 2,37 3,32 5 230 5764 19,30 99,30 9,01 28,24 6,26 15,52 5,05 10,97 4,39 8,75 3,69 6,63 3,33 5,64 3,11 5,06 2,90 4,56 2,77 4,25 2,71 4,10 2,60 3,86 2,53 3,70 2,48 3,58 2,45 3,51 2,40 3,41 2,37 3,34 2,35 3,29 2,33 3,25 2,30 3,20 2,29 3,17 2,21 3,02 100 253 6334 19,49 99,49 8,56 26,23 5,66 13,57 4,40 9,13 3,71 6,99 2,98 4,96 2,59 4,01 2,35 3,46 2,12 2,97 1,98 2,68 1,90 2,53 1,77 2,29 1,69 2,13 1,62 2,00 1,59 1,94 1,52 1,82 1,48 1,74 1,45 1,69 1,42 1,65 1,39 1,59 1,37 1,56 1,24 1,36 500 254 6361 19,50 99,50 8,54 26,14 5,64 13,48 4,37 9,04 3,68 6,90 2,94 4,88 2,55 3,93 2,31 3,38 2,08 2,89 1,93 2,59 1,85 2,44 1,72 2,19 1,64 2,03 1,56 1,90 1,53 1,84 1,46 1,71 1,41 1,63 1,37 1,56 1,35 1,52 1,30 1,46 1,28 1,42 1,11 1,15 Infinito 254 6366 19,50 99,50 8,53 26,12 5,63 13,46 4,36 9,02 3,67 6,88 2,93 4,86 2,54 3,91 2,30 3,36 2,07 2,87 1,92 2,57 1,84 2,42 1,71 2,17 1,62 2,01 1,55 1,87 1,51 1,81 1,44 1,68 1,39 1,60 1,35 1,53 1,32 1,49 1,28 1,43 1,25 1,38 1,00 1,00

Tabella dei Valori Critici di F In alto sono riportati i gradi di libert della Varianza Maggiore, che sta al numeratore (nel nostro esempio la Varianza "tra gruppi"). Di fianco a sinistra sono riportati i gradi di libert della Varianza Minore, che sta al denominatore(nel nostro esempio la Varianza "entro gruppi"). Il valore critico da confrontare con F va cercato nella casella individuata dalle coordinate dei gradi di libert delle due Varianze. Se ad esempio la Varianza Maggiore (tra gruppi) ha gradi di libert 2, mentre la Varianza Minore (entro gruppi) ha gradi di libert 18, la casella sar quella individuata da g.l. 2 verticalmente e g.l. 18 in orizzontale. Nella casella vi sono due valori: quello in grassetto esprime il valore critico per p<0.05, l'altro per p<0.01.

Nota: In grassetto i valori con p<0.05, in tondo i valori con p<0.01.

28 - ANALISI DELLA VARIANZA (Un Esempio 8/8)


Come si vede nella Tabella dei Valori Critici di F i valori corrispondenti a 2 gradi di libert al numeratore (G.L. della Varianza Tra Gruppi) e a 18 gradi di libert al denominatore (G.L. della Varianza Entro Gruppi) sono di: 3,55 6,01 Per il livello del 95% (p<0.05) Per il livello del 99% (p<0.01)

Siccome il risultato di "F" ottenuto (135,95) superiore ad entrambi i valori critici della Tabella F, per i corrispondenti gradi di libert, si pu concludere affermando che le differenze osservate sono altamente significative. Ci sta a significare che la Varianza "tra gruppi" molto pi alta di quella "entro gruppi", ed proprio per questo che la differenza delle medie osservate tra i gruppi significativa (a fronte di una bassa variabilit all'interno di ogni gruppo, indice di buona omogeneit dei campioni).

entro

tra

entro

tra

entro

29 - TEST z TRA PROPORZIONI


Analogamente al Test t (differenza tra medie) il Test z viene calcolato prendendo a riferimento la differenza tra due proporzioni (numeratore), dividendola per l'errore standard della differenza tra le due proporzioni (denominatore). z = Differenza tra proporzioni / Errore Standard diff. tra proporzioni Anche per questa prova, il valore ottenuto viene confrontato con un apposito valore critico (di solito la tabella dei valori di t), superato il quale la differenza osservata da intendersi statisticamente significativa. E, dunque, maggiore la differenza osservata tra le due proporzioni (ed al contempo minore l'errore standard della differenza tra le due proporzioni), e maggiore sar il valore di z e la significativit delle differenze. La formula del test z, pertanto, la seguente: z = (p1 p2) / RadQ { [ p1 * (1-p1) / n1 ] + [ p2 * (1-p2) / n2 ] } dove p1 e p2 sono le due proporzioni messe a confronto, n1 ed n2 sono le numerosit dei campioni delle due proporzioni ed infine 1-p rappresenta il complemento a uno della proporzione. In altri termini se p1, ad esempio, esprime la proporzione del 60 %, significa che il valore di p1 rapportato a 1 0,6, e che il complemento a uno (1-p1) 0,4.

30 - TEST DEL CHI QUADRO


Quando le differenze osservate riguardano delle Frequenze il Test di Significativit Statistica pi adeguato quello del Chi Quadrato. Questo test indica la misura in cui le frequenze Osservate differiscono dalle frequenze Attese, ovvero dalle frequenze che ci aspetteremmo, se non ci fosse alcuna associazione tra l'intervento che ha determinato le frequenze Osservate (ad esempio un trattamento farmacologico) e le stesse frequenze Osservate. Occorre quindi calcolare prima gli Attesi e poi applicare la formula del Chi Quadrato (che espressa dalla somma del quadrato della differenza OsservatiAttesi diviso gli Attesi). Passiamo, dunque, al primo esempio: Supponiamo di trattare alcuni pazienti con aspirina ed altri con un placebo. E supponiamo che alcuni di essi sviluppino trombi ed altri no.
CHI QUADRATO

Si Trombi

No Trombi

Totale a+b c+d

Test c2 con Casi Attesi da calcolare

Placebo Aspirina Totale

18 (a) 6 (c)
24

7 (b) 13 (d)
20

a+b+c+d

31 - TEST DEL CHI QUADRO


I pazienti trattati con aspirina sembrano sviluppare meno trombi. Per verificare se le differenze osservate sono significative, considerato che si tratta di un confronto tra due frequenze, occorre utilizzare il Chi Quadrato. Ma prima di procedere, necessario calcolare i Casi Attesi (cio i casi che ci aspetteremmo se il trattamento non fosse efficace). Per far ci necessario calcolare i totali per ogni riga ed ogni colonna. Calcolo dei Totali di Riga e di Colonna
CALCOLO TOTALI

Si Trombi

No Trombi

Trattati

Placebo Aspirina Totale

18 (a) 6 (c)

7 (b) 13 (d)

25 19 44

24

20

Ottenuti i totali necessario ricavare le percentuali di ogni singolo totale per riga o per colonna rispetto al totale globale (44).

32 - TEST DEL CHI QUADRO


Calcolo delle Percentuali dei Totali di Riga e di Colonna
CALCOLO PERCENT.

Si Trombi

No Trombi

Trattati 25 19

Placebo 25 su 44 = 57% Aspirina 19 su 44 = 43%

Placebo Aspirina Totale

18 (a) 6 (c)
24

7 (b) 13 (d)
20

57% 43%
Trombi Si 24 su 44 = 55% Trombi No 20 su 44 = 45%

44

55% 45%

Ad esempio, calcoliamo la percentuale di pazienti trattati con Placebo su Totale. Partendo dalla proporzione (25:44=y:100) si ottiene il valore di y=25*100/44=57%. Ripetendo loperazione con tutti i parziali (Aspirina su Totale, Si Trombi su Totale, No Trombi su Totale) si ottengono questi risultati: 43%, 55%, 45%.

33 - TEST DEL CHI QUADRO


Calcolo Casi Attesi tra i Si Trombi (con le percentuali)
CALCOLO ATTESI

Si Trombi

No Trombi

Trattati 25 19

Placebo 25*55/100= 13,64 Aspirina 19*55/100= 10,36

Placebo Aspirina Totale

13,64 10,36
24 20

57% 43%
Trombi Si 24 su 44 = 55% Trombi No 20 su 44 = 45%

44

55% 45%

Ora ipotizziamo che il trattamento con aspirina non abbia prodotto alcun effetto. Se ci fosse vero, e considerato che hanno sviluppato i trombi il 55% di 25 pazienti trattati con placebo, ci dovremmo aspettare che 13,64 pazienti trattati con placebo sviluppino trombi (e cio 25*55/100=13,64). Considerato, inoltre, che hanno avuto trombi il 55% di 19 pazienti trattati con aspirina, ci dovremmo aspettare che 10,36 pazienti trattati con aspirina sviluppino trombi (e cio 19*55/100=10,36).

34 - TEST DEL CHI QUADRO


Calcolo semplificato dei Casi Attesi tra i Si Trombi A(a) e A(c) In realt si possono calcolare gli attesi col prodotto dei marginali diviso il totale delle osservazioni: A(a) = (a+c)*(a+b)/(a+b+c+d) ; A(c) = (a+c)*(c+d)/(a+b+c+d) Calcolo Casi Attesi tra i No Trombi
CALCOLO DIFFER.

Si Trombi 13,6 (a) 10,3 (c) 24 (a+c)

No Trombi

Trattati 25 (a+b) 19 (c+d)

A(a) = 24*25/44 = 13,64 A(c) = 24*19/44 = 10,36

Placebo Aspirina Totale

11,36 8,64
20

57% 43%
Differ. Placebo 25 - 13,64 Differ. Aspirina 19 - 10,36

44

55% 45%

I restanti pazienti dovrebbero rimanere indenni da trombi e risulterebbero dalle differenze tra il totale dei trattati ed i pazienti che avrebero sviluppato i trombi. Abbiamo cos ricavato il numero di Casi Attesi nellipotesi in cui il trattamento non avesse alcun effetto. Riportiamo la Tabella di Confronto Osservati/Attesi:

35 - TEST DEL CHI QUADRO


CONFRONTO OSSERVATI / ATTESI

OSSER VATI

ATTESI

Trattati con Aspirina che hanno fatto Trombi

Placebo Si Trombi Placebo No Trombi Aspirina Si Trombi Aspirina No Trombi

18 7 6 13

13,64 11,36 10,36 8,64

6
OSSERVATI

10,36
ATTESI

Adesso possibile applicare la formula del Chi Quadrato:

C2 = S [(O A)2 / A]
C2 = Placebo Si Trombi Placebo No Trombi Aspirina Si Trombi Aspirina No Trombi SOMMATORIA S ( ( ( ( ( OSSERVATI 18 7 6 13 ATTESI 13,64 11,36 10,36 8,64 )2 )2 )2 )2 )2 / / / / / ATTESI 13,64 11,36 10,36 8,64 = = = = = 1,40 1,68 1,84 2,20 7,11

36 - TEST DEL CHI QUADRO


Ora si confronta il risultato di Chi ottenuto (7,11) con i Valori Critici della apposita Tabella del Chi Quadarato al corrispondente grado di libert.
Gradi di Libert 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 p<0.05 Liv. 95% 3,841 5,991 7,815 9,488 11,07 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 p<0.01 Liv. 99% 6,635 9,21 11,345 13,277 15,086 16,812 18,475 20,09 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32 33,409 Gradi di Libert 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 p<0.05 Liv. 95% 28,869 30,144 31,41 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 49,802 55,758 61,656 67,505 p<0.01 Liv. 99% 34,805 36,191 37,566 38,932 40,289 41,638 42,98 44,314 45,642 46,963 48,278 49,588 50,892 57,342 63,691 69,957 76,154

I gradi di libert si calcolano moltiplicando il numero di Righe meno uno (in questo caso 2-1) per il numero di Colonne meno 1 (in questo caso 2-1). Nelle Tabelle 2x2 i gradi di libert sono sempre 1 Con p<0.05 = 3,84 Con p<0.01 = 6,63

Pertanto il valore ottenuto (7,11) superiore ad entrambi i Valori Critici e le differenze osservate possono ritenersi altamente significative.

37 - TEST DEL CHI QUADRO con Casi Attesi gi noti


A volte i Casi Attesi sono gi disponibili. In tali casi non necessario ricorrere al calcolo dei casi attesi e si pu passare direttamente ad applicare la formula. Supponiamo che il Registro Territoriale di Patologia (RTP) ha osservato in una cittadina della Provincia di Siracusa un eccessivo numero di morti per neoplasie (25) in un anno rispetto al numero di morti per tutte le cause (82). Calcolando il numero di morti attese sulla base dei tassi di mortalit specifica osservata nello stesso periodo (attraverso metodi di standardizzazione indiretta) ci si aspettano 17 morti attese per tumori e 99 per tutte le cause. Organizzando i dati in una tabella di contingenza si ha:
CHI QUADRATO

OSSERVATI

ATTESI

C2= S (O-A)2/A

TUMORI TOTALE CAUSE

25 82

17 99

C2 = [ (25-17)2 / 17 ] + [ (82 99)2 / 99 ] = 6,7 Confrontando i Valori Critici sullapposita Tabella del Chi Quadrato per gradi di libert 1 (6,63 per p<0.01 e 3,84 per p<0.05), col valore ottenuto (6,7), si pu concludere che le differenze osservate sono altamente significative (p<0.01).

38 - TEST DEL C2 in Tabelle 2x2 (Sani-Malati / Esposti Si-No)


Il Test del Chi Quadrato, infine, rappresenta il test delezione nelle tabelle 2x2 dei confronti Sani-Malati / Esposti-Non Esposti.
C2 delle Tab.2x2 Esposti No Esp. Totale Malati Sani Totale a+b c+d a+b+c+d C2 delle Tab.2x2 Esposti No Esp. Totale Malati Sani Totale 69 253 322

a c
a+c

b d
b+d

41 28 120 133
161 161

C2 = { [ (a*d) (b*c) ]2 * (a+b+c+d) } / [ (a+b)*(c+d)*(a+c)*(b+d) ]

C2 = {[(41*133)(28*120)]2*(41+28+120+133)} / [(41+28)*(120+133)*(41+120)*(28+133)] = 1.432.353.505/452.025.691 = 3

MISURE DEI TEST DIAGNOSTICI

40 - LE MISURE DEI TEST DIAGNOSTICI: LATTENDIBILITA


Le misure di attendibilit e accuratezza dei test diagnostici In Medicina sempre necessario ricorrere allimpiego di test che ci consentano di distinguere i sani dai malati, le variazioni casuali da quelle significative, le misurazioni esatte dagli errori. E tutto ci allo scopo di porre una corretta diagnosi non solo in sanit pubblica e nella medicina preventiva, oggetto dellepidemiologia tradizionale (ad esempio un test di screening), ma anche in ambito clinico, prognostico e terapeutico, che poi rappresenta il campo dazione della epidemiologia clinica (ad esempio un esame di laboratorio). Un buon test deve presentare 2 importanti caratteristiche: deve essere valido e riproducibile. La Riproducibilit (o attendibilit) riguarda lassenza di variazione allorquando lesame venga ripetuto pi volte, coincide col concetto di stabilit dellosservazione ed influenzata, dunque, dalle divergenze nelle procedure di misurazione. Divergenze legate ovviamente, ai medici misuratori ovvero agli strumenti di misurazione o persino alloggetto stesso della misurazione (lesempio classico quello legato alla variabilit della pressione arteriosa). Il test statistico utilizzato per la misurazione della riproducibilit di un test lIndice di Concordanza o Coefficiente Kappa di Cohen.

41 - LANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA


Molto spesso in medicina ci si imbatte nellanalisi di misure derivanti dal giudizio soggettivo di pi medici. E spesso si riscontrano giudizi assai discordanti. In tali casi si ricorre allAnalisi della Concordanza dei dati. Supponiamo, ad esempio, che, in una campagna di screening mammografico, due radiologi debbano refertare, in doppio cieco, venti mammografie.
Mamm ografie
1 2 3 4 5 6 7 8 9 10 11

Radiol ogo A
SI NO NO NO NO NO SI NO NO NO SI

Radiol ogo B
SI NO NO SI NO NO NO NO NO NO SI

Concor danza
SI SI SI NO SI SI NO SI SI SI SI

Mamm ografie
12 13 14 15 16 17 18 19 20 Positivi Concor.

Radiol ogo A
NO NO NO NO NO SI NO SI SI 6 -

Radiol ogo B
NO SI NO SI NO SI NO NO SI 7 -

Concor danza
SI NO SI NO SI SI SI NO SI 15

42 - LANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA


Le diagnosi concordanti sono in tutto 15 su 20 (75%). E di queste, le concordanze positive sono 4 e le negative 11. Le diagnosi discordanti sono 5 su 20 (25%). E di queste, 3 sono dovute alla diagnosi positiva del radiologo B e 2 del radiologo A. LIndice di Concordanza, o Concordanza Osservata (C.O.) la proporzione di diagnosi concordanti sul totale:
C.O. = Diagnosi Concordanti / Diagnosi Totali * 100 = 15/20*100 = 75%

Radiologo A
POSITIVI NO
11
(55%)

SI
2
(10%)

Totale
13
(65%)

RadioSI logo Totale B

NO

3
(15%)

4
(20%)

7
(35%)

14
(70%)

6
(30%)

20
(100%)

43 a - LANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA


Tuttavia, questo indice non tiene conto di quella parte di concordanza (tra le diagnosi dei due radiologi) che potrebbe derivare puramente dal caso. Il Coefficiente Kappa rappresenta appunto lindice aggiustato per la concordanza attribuibile alleffetto del caso. Spieghiamo come si sviluppa. La regola del cosiddetto prodotto di probabilit: Concordanza Casuale su risposte No = 70% (No di A) * 65% (No di B) = 45,5% Concordanza Casuale su risposte Si = 30% (Si di A) * 35% (Si di B) = 10,5% In altri termini: Il 70% di 65 45,5. Ma anche il 65% di 70 45,5. Cio il 45,5% delle volte ci sarebbe stata ugualmente concordanza anche se le risposte No fossero state casuali (come quando si gioca ai dadi). Lo stesso vale per il Si Lesempio pi comprensibile se pensiamo al 50% del 70% (che 35%). Cio 35 volte su 70 i No concordano, ma solo per caso

43 b - LANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA


Tuttavia, questo indice non tiene conto di quella parte di concordanza (tra le diagnosi dei due radiologi) che potrebbe derivare puramente dal caso. Il Coefficiente Kappa rappresenta appunto lindice aggiustato per la concordanza attribuibile alleffetto del caso. Spieghiamo come si sviluppa. La regola del cosiddetto prodotto di probabilit: Concordanza Casuale su risposte No = 70% (No di A) * 65% (No di B) = 45,5% Concordanza Casuale su risposte Si = 30% (Si di A) * 35% (Si di B) = 10,5% Totale Concord. Casuale (C.C.) su risposte No e Si = 45,5% + 10,5% = 56% Concord. Effettiva Osservata = C.O. Concordanza Casuale = 75%-56% = 19% Concord. Massima Possibile = Totale Diagnosi C. Casuale =100%-56% =44% A questo punto possibile calcolare il Coefficiente Kappa con la seguente formula: kappa = (C. Osservata C. Casuale)/(C. Massima Possibile C. Casuale), cio: k = (PO PE) / (1 PE) I valori di kappa variano da 0 (nessuna concordanza a parte quella casuale) a 1.

44 - LANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA


Nel caso dellesempio preso in esame (lo screening), dunque, avremo: kappa = (C. Osservata C. Casuale)/(C. Massima Possibile C. Casuale), cio: k = (PO PE) / (1 PE) dove PO la Proporzione dei casi su cui i due osservatori concordano (Concordanza Osservata, che nel nostro caso 75%) e PE la Proporzione di casi per i quali la concordanza attribuibile al caso (Concordanza Casuale, che nel nostro caso 56%). Ritornando allesempio precedente, dunque: k = (0,75 0,56)/(1 0,56) = 0,19/0,44 = 0,43 E possibile confrontare il valore ottenuto (0,43) con una tabella convenzionale di valori di kappa elaborata da Landis e Koch nel 1977 (0,43 = Discreto). Valore di kappa: Valore di kappa: Valore di kappa: Valore di kappa: Valore di kappa: 0,81-1,00 0,61-0,80 0,41-0,60 0,21-0,40 < 0,20 Grado di Accordo: Grado di Accordo: Grado di Accordo: Grado di Accordo: Grado di Accordo: Ottimo Buono Discreto Debole Scarso

45 - LE MISURE DEI TEST DIAGNOSTICI: LACCURATEZZA


La Validit (o accuratezza) riguarda, invece, il grado di conformit del valore misurato nei confronti di quello vero. Dunque la validit di un test rappresenta la sua capacit di classificare correttamente le persone osservate. Generalmente si distingue una Validit Esterna, che riguarda la rappresentativit del campione osservato rispetto alla popolazione da cui esso estratto, ed una Validit Interna, costituita dal grado i conformit del risultato nei riguardi del campione osservato. La prima garantita dalle buone tecniche di campionamento (a cui si rimanda e che a loro volta prevedono ulteriori livelli di validit interna ed esterna), la seconda dai buoni risultati dei test di sensibilit e specificit, che sono le principali misure di accuratezza di un test diagnostico. Caratteristiche di un Test Riproducibilit Interna Validit
Nota: Tra queste anche i Valori Predittivi, lEfficacia del Test, ed il Test Bias

Indice K Sensibilit, 1-b Specificit, 1-a Campionam.

Esterna

46 - LE MISURE DEI TEST : RISULTATI DICOTOMICI


Le Misure di Validit Sensibilit e Specificit sono le principali misure di accuratezza, o di validit, e possono fornire risultati espressi in termini di variabili di tipo dicotomiche (positivi o negativi) o continue. Queste ultime implicano la scelta di un livello soglia, detto cut-off point, che possa fungere da spartiacque tra i valori da considerare positivi o negativi. Test Legati a Risultati di tipo dicotomico Per il calcolo dei Test di Sensibilit e Specificit legati a risultati di tipo dicotomico si pu ricorrere alla classica Tabella 2 x 2: Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d

a+b c+d a+b+c+d

(M-) c a+c

47 - LE MISURE DEI TEST : SENSIBILITA e SPECIFICITA


Sensibilit e Specificit Appare sin troppo ovvio che un test ideale dovrebbe avere la capacit di selezionare solo veri positivi (a) o veri negativi (d). Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d


Spe

a+b c+d a+b+c+d

(M-) c a+c
Sen

La Sensibilit esprime la capacit del test di classificare solo veri positivi, mentre la Specificit esprime la capacit di classificare solo veri negativi. Pertanto le due principali misure di accuratezza sono espresse da: Sensibilit (F) = Veri Positivi (Malati +) / Totale Malati = a / (a+c) Specificit (Y) = Veri Negativi (Sani -) / Totale Sani = d / (b+d) E dunque, una bassa Sensibilit comporta molti Falsi Negativi (c), mentre una bassa Specificit implica molti Falsi Positivi (b)

48 - LE MISURE DEI TEST : ERRORE ALFA ed ERRORE BETA


Tasso di errore falso-positivo (a) e falso-negativo (b) Partendo dalle formule della Sensibilit e della Specificit possibile calcolare dunque il Tasso di errore falso-positivo (che coincide con lerrore di tipo alfa) ed il Tasso di errore falso-negativo (che coincide con lerrore di tipo beta). Tasso Err. Falso Pos. (a) = Falsi Pos. (Sani +) / Tot. Sani = b/(b+d) Tasso Err. Falso Neg. (b) = Falsi Neg. (Malati -) / Tot. Malati = c/(a+c) Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d a

a+b c+d a+b+c+d

(M-) c a+c b

Lerrore di tipo alfa, dunque, il complemento a 1 della Specificit: a = 1-Y Lerrore di tipo beta , invece, il complemento a 1 della Sensibilit: b = 1-F

49 - LE MISURE DEI TEST : VALORI PREDITTIVI DEL TEST


Valori Predittivi del Test La Sensibilit risponde alla domanda: Quanti sono i Malati Positivi tra i Malati? La Specificit risponde alla domanda: Quanti sono i Sani Negativi tra i Sani?. Ma supponiamo di farci altre due domande: 1. 2. Qual la proporzione di realmente Malati tra tutti i Positivi al Test ? Qual la proporzione i realmente Sani tra tutti i Negativi al Test ?

A queste due domande rispondono i Valori Predittivi del Test Positivo-Negativo. Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d

a+b c+d a+b+c+d

(M-) c a+c

Val.Pred.Test Pos.(PV+) = Veri Pos. (Malati +)/Totale Pos. = a/(a+b) Val.Pred.Test Neg.(PV-) = Veri Neg. (Sani -) / Totale Neg. = d / (c+d)

50 - LE MISURE DEI TEST : VALORI PREDITTIVI e PREVALENZA


Valori Predittivi del Test e Prevalenza della Condizione in studio Dallattento esame delle formule si comprende chiaramente come i Valori Pred. Del PV+ siano largamente influenzati dalla Prevalenza della condizione in studio (ad esempio la malattia). Pertanto pi piccola la prevalenza della malattia (che sta tutta al numeratore, nella lettera a) e pi piccolo sar il Valore Predittivo del Test Positivo, la cui formula appunto a/(a+b) dove b sono i sani positivi. La Prevalenza della Malattia data dalla formula: P = (a+c) / (a+b+c+d) Attraverso la seguente formula possibile, anche, ricavare il Valore Predittivo Positivo anche senza conoscere il numero di persone sottoposte al test: PV+ = F*P / F*P + (1-Y)*(1-P) (vedi dopo Terorema di Bayes) Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d

a+b c+d a+b+c+d

(M-) c a+c

51 - LE MISURE DEI TEST : EFFICACIA DEL TEST e TEST BIAS


Efficacia del Test e Test Bias Vi sono, infine, altre due misure assai utili per saggiare la validit complessiva di un test: lEfficacia ed il Test Bias. LEfficacia del test esprime la proporzione tra veri negativi (d) e veri positivi (a) sul totale dei soggetti esaminati. In un buon test (che esclude falsi positivi e negativi) lEfficacia tende ad 1: Efficacia Test = (a+d)/(a+b+c+d) Il Test Bias esprime, invece, il rapporto tra i positivi al test ed i malati (cio lerrore insito nel test). Un valore superiore ad 1 indica sovrastima e viceversa: Test Bias = (a+b)/(a+c) Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi

Test Pos. + (M+) a Test Neg. Totale

(S+) b (S-) d b+d

a+b c+d a+b+c+d

(M-) c a+c

52 - LE MISURE DEI TEST : ESEMPI


ESEMPI con RISULTATI DICOTOMICI Supponiamo di sottoporre a screening 2 gruppi affetti da 2 differenti Malattie: Malati Pos. Neg. Sen. F Err. a Err. b PV(+) PV (-) Eff. T. Prev. (a) (c) a/(a+c) b/(b+d) c/(a+c) a/(a+b) d/(c+d) (a+d)/Tot. (a+c)/Tot. Sani (b) (d)
Mal.A

Malati 122 16

Sani 32 830 0,88 0,96 0,04 0,12 0,79 0,98 0,95 1,12 0,14

Mal.B

Malati 13 2

Sani 53 932 0,87 0,95 0,05 0,13 0,20 1,00 0,95 4,40 0,02

Pos. Neg.

Pos. Neg.

Sensibilit F Specificit Y Errore a Errore b Val. Pred. T.+ Val. Pred. T.Efficacia T. Test Bias Prevalenza M

Sensibilit F Specificit Y Errore a Errore b Val. Pred. T.+ Val. Pred. T.Efficacia T. Test Bias Prevalenza M

Spe. Y d/(b+d)

T.Bias (a+b)/(a+c)

Nella Malattia A, a maggior Prevalenza (0,14 contro 0,02), a parit di Sensibilit e Specificit, il PV(+) maggiore (0,79 contro 0,20) ed il T.Bias migliore (vicino 1)

53 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES


Il Teorema di Bayes (o delle probabilit a posteriori) Thomas Bayes era un pastore inglese del Settecento. Un suo articolo (1), pubblicato postumo nel 1763, fin col rivoluzionare i principi dellinferenza statistica tradizionale, tant che oggi si parla correntemente di inferenza bayesiana (2) e di statistici bayesiani. Il Teorema di Bayes rappresenta, in sintesi, una procedura per aggiornare la probabilit di un evento A sotto il condizionamento di un nuovo evento B. Il reverendo inglese, per descrivere il suo teorema, si fece artefice di una delle pi sontuose e complesse formule statistiche della storia della medicina. Formula di fronte alla quale si arrendono molti clinici. In realt, nella sua veste semplificata la formula questa: P(A|B) = P(B|A) * P(A) / P(B) Dove P(A|B) la Probabilit dellevento A condizionata (segno |) dallevento B, tale che pu considerarsi un aggiornamento della Probabilit semplice P(A).
(1) (2) Essay Towards Solving a Problem in the Doctrine of Chances negli Annali della Royal Society. LInferenza bayesiana un approccio allinferenza statistica in cui le probabilit non sono interpretate come frequenze o proporzioni, ma come livelli di fiducia nel verificarsi di un dato evento

54 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES


LEPIDEMIOLOGIA NELLA STORIA Thomas Bayes nacque a Londra nel 1702 e mor il 17 aprile 1761 a Tunbridge Wells, Kent. stato un matematico nonch pastore presbiteriano. noto in statistica per il suo Teorema di Bayes sulla probabilit condizionata pubblicato postumo nel 1763: Essay Towards Solving a

Problem in the Doctrine of Chances


(1763, pubblicato postumo in

Philosophical Transactions of the Royal Society of London). sepolto nel


cimitero Bunhill Fields di Londra.

55 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES


Il Teorema di Bayes e la sua applicazione ai Test diagnostici -a Il Teorema di Bayes ha trovato nei secoli innumerevoli applicazioni. Una delle pi note stata proprio quella delle misure dei test diagnostici. Ecco la formula: P(D+|T+) = P(T+|D+)*P(D+) / {[P(T+|D+)*P(D+)] + [P(T+|D-)*P(D-)]} Dove P indica la Probabilit, D+ il soggetto con la malattia, D- il soggetto senza malattia, T+ il test con esito positivo, T- il test con esito negativo ed il segno della linea verticale | significa condizionato da (ci che segue). In questo caso, dunque P(D+|T+) indica la Probabilit (di diagnosticare la Malattia) condizionata dallesito positivo del Test diagnostico impiegato. Sensibilit Specificit Test Pos. + Test Neg. Totale Malato Sano Totale In realt, al di l della sua apparente complessit, ad una pi attenta lettura il Teorema di Bayes non altro che la formula del Valore Predittivo Positivo PV(+), cio a/(a+b). Vediamo di capirne il motivo.

D+T+ a D+T- c a+c

D-T+ b D-T- d b+d

a+b c+d a+b+c+d

56 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES


Il Teorema di Bayes e la sua applicazione ai Test diagnostici -b Infatti, al numeratore P(T+|D+) la Sensibilit [a/(a+c)] e P(D+) la Prevalenza della Malattia [(a+c)/Tot.]. Il prodotto tra Sensibilit e Prevalenza il numero di Veri Positivi (la cella a), cio il numeratore del PV(+). Al Denominatore abbiamo di nuovo a (Sensibilit per Prevalenza) sommata al prodotto tra P(T+|D-), che il Tasso di Errore Falso-Positivo (1-Specificit), e P(D-), che la Prevalenza dei Non Malati (1-Prevalenza D+). Questo prodotto esprime il numero di Falsi Positivi (la cella b). Pertanto il denominatore dato dalla somma di a+b, lo stesso denominatore del PV(+). Dunque la formula pu essere scritta anche come segue: P(D+|T+) = P(T+|D+)*P(D+) / {[P(T+|D+)*P(D+)] + [P(T+|D-)*P(D-)]} P(D+|T+) = Sensibilit*Prevalenza/ / Sensibilit [Sensibilit*Prevalenza+(1-Specificit)*(1-Prevalenza)] Malato Sano Totale Specificit Che si pu scrivere pure: P(D+|T+) = F*P / F*P + (1-Y)*(1-P) ; E dunque: Test Pos. D+ T+ a D-T+ b Positivi+Falsi a+b P(D+|T+) =+ Veri Positivi/(Veri Positivi); E cio: P(D+|T+) = a/(a+b) ; Test Neg. - D+T- c D-T- d c+d Con la Formula di Bayes, pertanto, possibile ricavare il Valore Predittivo Positivo Totale a+c b+d a+b+c+d del test anche senza conoscere il numero di persone da screenare. Conoscendo la Prevalenza della malattia si pu decidere se conviene fare lo screening.

57 - LE MISURE DEI TEST : VARIABILI CONTINUE


TEST LEGATI A RISULTATI CON VARIABILI CONTINUE Nel caso in cui i risultati del test non sono espressi da variabili dicotomiche (malati e sani), ma da variabili quantitative continue (come i valori pressori o quelli glicemici) occorre stabilire un valore soglia (cutoff) sotto il quale il risultato del test da intendersi negativo e sopra il quale da intendersi invece positivo. Questo valore posto arbitrariamente sulla base di opportune valutazioni. Esempio: Supponiamo di rilevare i valori pressori di un gruppo di soggetti sani e di un gruppo di soggetti infartuati (prima di intraprendere le terapie antipertensive) e di riscontrare nei primi una distribuzione gaussiana di valori intorno alla media di 110 mmHg e nei secondi una distribuzione intorno ai 150 mmHg. Utilizziamo ora il rilevamento della pressione come test di screening per la prevenzione dellinfarto. 130 mmHg 110 mmHg 150 mmHg Se scegliessimo un cutoff vicino a 110 ridurremmo al minimo i falsi negativi, ma aumenteremmo i falsi positivi. Se scegliessimo un cutoff vicino a 150 accadrebbe il contrario. Con un cutoff intorno a 130, falsi positivi e negativi si equivarrebbero. La scelta del cutoff legata, dunque, alle implicazioni delle false positivit o negativit (nel Diabete opportuno ridurre i falsi negativi, ecc)

Pi Falsi Positivi

Pi Falsi Negativi

58 - LE MISURE DEI TEST : VARIABILI CONTINUE


TEST LEGATI A RISULTATI CON VARIABILI CONTINUE Il Test ideale: tutti i soggetti sani stanno al di sotto del punto di Cutoff e tutti i soggetti malati vi stanno al di sopra. Purtroppo nella pratica clinica questo non avviene quasi mai. E allora bisogna chiedersi dove andare a collocare il punto di Cutoff (si rimanda alla diapositiva precedente).

Sani

130 mmHg Cutoff

Malati

110 mmHg

150 mmHg

59 - LE MISURE DEI TEST : LE CURVE DI R.O.C.


LE CURVE DI ROC per la determinazione del CUTOFF Per scegliere un buon punto di cutoff opportuno costruire una Curva di ROC (acronimo di Receiver Operating Characteristic). Sulle ascisse si riportano i valori dellErrore Alfa, mentre sulle ordinate vanno disposti i valori della Sensibilit.
SPIEGAZIONE
Curva della Pressione Sistolica
120

100

120 mmHg 130 mmHg

110 mmHg

80

60

140 mmHg

40

150 mmHg
20

0 0 5 10 20 40 60 80 90 100

Riprendendo lesempio dei valori pressori, si individuano pi punti di cutoff (150, 140, 130, 120, 110 mmHg) e per ognuno di essi si calcolano la Sensibilit e lErrore Alfa. Poi si uniscono i punti per disegnare la curva. Il miglior punto di cutoff quello pi vicino allangolo superiore sinistro del grafico (Sensibilit 100% ed Errore Alfa 0%). Nel nostro esempio 130 mmHg.

S ensibilit (percentuale)

Tasso % di Errore Falso-Positivo (Errore Alfa o 1-Specificit)

60 - LE MISURE DEI TEST : LE CURVE DI R.O.C.


LE CURVE DI ROC Le curve ROC (che furono coniate per la prima volta dagli operatori radar inglesi) sono, dunque, la rappresentazione grafica del Rapporto tra Sensibilit (% di veri positivi) ed Errore Alfa (% di falsi positivi), detto Rapporto di Probabilit Positivo.
100

SPIEGAZIONE La Curva ROC ideale quella che sale quasi verticale verso langolo superiore sinistro per poi dirigersi verso langolo alto di destra orizzontalmente. E il caso della Curva Eccellente del grafico. Se invece la Sensibilit eguaglia sempre il tasso di Errore Alfa il risultato la diagonale della Curva inutile del grafico. Il test migliore quello che ha larea maggiore sotto la curva. Lanalisi delle Curve ROC sta diventando sempre pi frequente in medicina.

50

0 0 50 100

61 - MISURE DEI TEST: VALUTAZIONE ECONOMICA


Valutazione economica di un Programma di Screening Impiegare un test diagnostico per realizzare un programma di screening di popolazione ha certamente un suo costo. Pertanto necessario chiedersi qual lefficacia complessiva della campagna di screening attraverso lanalisi dei costi e dei benefici legati allimpiego su larga scala del test diagnostico. Cerchiamo di capire come realizzare questa valutazione ricorrendo ad un esempio pratico. ESEMPIO:

Nella citt di Siracusa dovr essere condotto un programma di screening mammografico. Su una popolazione bersaglio (et 50-69 anni) di circa 13.500 donne, tutte da invitare, si prevede un tasso di adesione intorno al 35% con 4.725 donne che si sottoporranno al test di 1 livello. Tutte le donne che risulteranno positive alla mammografia saranno sottoposte allapprofondimento diagnostico di 2 livello con stereotassi, agoaspirato ed ecografia. Considerato che la Sensibilit e la Specificit del test di 1 livello vengono stimate rispettivamente intorno al 95% e al 94% e che loccorrenza della malattia viene stimata intorno al 4,23 per mille, e supponendo infine che il costo medio unitario del test di 1 livello sia di 40 euro e quello del test di 2 livello di 80 euro, cerchiamo di prevedere il costo complessivo della campagna e, soprattutto, il costo per caso di tumore diagnosticato precocemente.

62 - MISURE DEI TEST: VALUTAZIONE ECONOMICA


Valutazione economica di un Programma di Screening: soluzione Cominciamo col riportare tutti i dati disponibili in una tabella di riepilogo, per vedere poi come riempire la tabella 2x2 del test diagnostico.
DATI DISPONIBILI Sensibilit F (x 100) Specificit Y (x 100) Prevalenza P (x 1.000) Totale Pop. screenata Costo Test 1 Livello . Costo Test 2 Livello . Malati (4,23x4725/1000) Formule a/(a+c) d/(b+d) (a+c)/Tot a+b+c+d (a+c) Dati 95 94 4,23 4.725 40 80 20 Tab.2x2 Test + Test Totale Tab.2x2 Test + Test Totale Mal. a c a+c Mal. a c 20 San. b d b+d San. b d b+d Totale a+b c+d a+b+c+d Totale a+b c+d 4.725

Come si pu notare gli unici dati disponibili da poter collocare nella tabella 2x2 sono il numero totale di popolazione screenata (4.725), che va nella casella del Totale Generale (a+b+c+d), ed il Totale dei Malati (a+c) che possibile ricavare conoscendo la Prevalenza della Malattia (4,23 x 1.000) e la Popolazione Generale con la formula: (a+c) = Prevalenza x Totale Generale.

63 - MISURE DEI TEST: VALUTAZIONE ECONOMICA


Valutazione economica di un Programma di Screening: soluzione Un altro dato che possibile ottenere il numero di malati positivi al test (a), che si pu ricavare dalla formula della Sensibilit [F=a/(a+c)], da cui: a= F x (a+c)
DATI DISPONIBILI Sensibilit F (x 100) Specificit Y (x 100) Prevalenza P (x 1.000) Totale Pop. screenata Costo Test 1 Livello . Costo Test 2 Livello . Veri Positivi (0,95 x 20) (a) Formule a/(a+c) d/(b+d) (a+c)/Tot a+b+c+d Dati 95 94 4,23 4.725 40 80 19 Tab.2x2 Test + Test Totale Tab.2x2 Test + Test Totale Mal. a c 20 Mal. 19 c 20 San. b d b+d San. b d b+d Totale a+b c+d 4.725 Totale a+b c+d 4.725

Per poter sviluppare la tabella 2x2 occorre un altro dato fondamentale: il Totale dei soggetti positivi (a+b). Questo dato si pu ricavare dal Valore Predittivo del Test Positivo, la cui formula : VP+=a/(a+b) ; da cui (a+b)=a/VP+. Siccome conosciamo a (19 casi) occorre calcolare PV+. Tuttavia, poich non conosciamo proprio il dato complessivo dei positivi (a+b), bisogna ricorrere al calcolo del VP+ ricavato dalla formula del Teorema di Bayes.

64 - MISURE DEI TEST: VALUTAZIONE ECONOMICA


Valutazione economica di un Programma di Screening: soluzione La formula del PV+ ricavata dal Teorema di Bayes la seguente: PV+ = F*P / F*P + (1-Y)*(1-P) Dove P la Prevalenza della malattia, F e Y sono Sensibilit e Specificit. Quindi: PV+ = 0,95x0,00423 / [0,95x0,00423 + (1-0,94)x(1-0,00423)] = 0,063 (6,3%). A questo punto si possono ricavare i Positivi: (a+b) = a/PV+ = 19/0,063 = 301
DATI DISPONIBILI Sensibilit F (x 100) Specificit Y (x 100) Prevalenza P (x 1.000) Totale Pop. screenata Costo Test 1 Livello . Costo Test 2 Livello . Tot. Positivi (19/0,063) Formule a/(a+c) d/(b+d) (a+c)/Tot a+b+c+d (a+b) Dati 95 94 4,23 4.725 40 80 301 Tab.2x2 Test + Test Totale Tab.2x2 Test + Test Totale Mal. 19 c 20 Mal. 19 1 20 San. b d b+d San. 282 4423 4705 Totale a+b 301 c+d 4.725 Totale 301 4424 4.725

A questo punto possibile ricavare tutti gli altri valori della tabella 2x2 con una serie coordinata di sottrazioni dai quattro valori gi noti.

65 - MISURE DEI TEST: VALUTAZIONE ECONOMICA


Valutazione economica di un Programma di Screening: soluzione A questo punto possibile calcolare il costo complessivo della campagna di screening che dato dal prodotto tra costo unitario del test di 1 livello (40 euro) e numero totale di soggetti screenati (4.725), sommato al prodotto tra costo unitario del test di 2 livello (80 euro) ed il totale dei soggetti risultati positivi al primo livello (301), per un costo globale di . 213.103. Il costo per caso diagnosticato precocemente dato dalla divisione tra il costo globale (. 213.103) ed il numero di Veri Positivi (19), per un costo di . 11.216.
DATI DISPONIBILI Costo Test 1 Livello . Costo Test 2 Livello . Formule Dati 40 80 Tab.2x2 Test + Test Totale
COSTI

Mal. 19 1 20
C.Unit.

San. 282 4423 4705


N.Esami

Totale 301 4424 4.725


Costo Totale

Possiamo concludere affermando che il costo per caso diagnosticato si aggirer intorno agli 11.216 euro per paziente. Disponendo di dati di sopravvivenza si potr stimare pure il costo per anni di vita guadagnati. Qualsiasi intervento di Sanit Pubblica deve sempre trovare le sue ragioni in motivazioni di ordine etico, scientifico e di economia sanitaria.

1 Liv. 2 Liv. Totale


COST

. 40 . 80 C.Tot.

4.725 301 Casi

. 189.000 . 24.103 . 213.103


C.Paziente

Caso

. 213.103

19

. 11.216

66 - MISURE DEI TEST: LANALISI DECISIONALE


LAnalisi Decisionale in Medicina I test diagnostici influenzano fortemente la decisione clinica. A volte per operare una scelta in medicina non cosa molto agevole. Tuttavia, oggi, il clinico pu servirsi delle tecniche della cosiddetta Analisi decisionale, uno strumento giunto da non molto tempo nel mondo della medicina e proveniente dalla scienza manageriale. Le fasi dellAnalisi decisionale sono: 1. 2. 3. 4. 5. 6. Identificazione delle decisioni e delle loro implicazioni Disegno dellalbero decisionale Stima delle convenienze legate ai nodi delle decisioni Stima delle probabilit legate ai nodi delle scelte Calcolo della convenienza per ciascuna decisione Identificazione della decisione pi utile

Le varie fasi possono essere rappresentate sinteticamente nel grafico del cosiddetto albero decisionale. In questo grafico i nodi delle decisioni sono raffigurati con quadrati, mentre le implicazioni delle decisioni (cio le conseguenze) sono rappresentate da cerchietti (i nodi delle probabilit). Ogni decisione, oltre a comportare delle conseguenze (probabilit di sviluppare la malattia), comporter anche degli ipotetici benefici.

67 - MISURE DEI TEST: LANALISI DECISIONALE


I benefici (o utilit) nellanalisi decisionale possono essere espressi in molti modi, anche in termini di tassi di mortalit o morbosit (con proporzionalit inversa) o di anni di vita guadagnati o di costi evitati, e cos via. Una volta stimati i benefici associati ai nodi delle decisioni e le probabilit associate ai nodi di probabilit, si possono calcolare i benefici attesi per ogni decisione (la media ponderata dei benefici pesati sulle differenti probabilit). La decisione ottimale quella con un maggiore beneficio atteso.
Test Pos. Trattare Fare Test Test Neg. Non Tratt. Sospetto della Malattia y
(Probabilit clinica del 20%)

Malattia SI Malattia NO Malattia SI Malattia NO Beneficio atteso n.1

Trattare

Malattia SI Malattia NO

Beneficio atteso n.2 Beneficio atteso n.3

Non Trattare

Malattia SI Malattia NO

INDICI DI CORRELAZIONE E REGRESSIONE

69 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON


Frequentemente in medicina possibile osservare fenomeni correlati tra di loro. Al crescere di una variabile ad esempio cresce parallelamente un'altra variabile collegata in qualche modo alla prima Ad esempio la Diastolica statura ed il peso mmHg corporeo di un 84 (Correlazione lineare positiva) 82 neonato, oppure la 80 pressione arteriosa 78 76 sistolica e diastolica, 74 ecc.), oppure al 72 70 crescere di una 68 66 variabile si osserva 64 contemporaneament 62 60 e il decrescere di 58 un'altra (ad esempio 56 54 l'aumento dell'et e 52 la diminuzione della 50 Sistolica mmHg forza muscolare 90 95 100 120 130 140 negli anziani).

70 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON


Il calcolo statistico che permette di misurare la tendenza alla variazione congiunta di due fenomeni il calcolo del "Coefficiente di Correlazione", che costituito da un valore che oscilla tra +1 e -1: Quando il Coefficiente si avvicina a +1 c' una correlazione positiva; Quando si avvicina a -1 c' una correlazione negativa o inversa; Quando si avvicina allo 0 non c' alcuna correlazione tra i fenomeni.
Forte Correlazione Positiva (r = 0,81)

Perfetta Correlazione Negativa (r = -1)

Correlazione Assente (r = 0)

Nella prima figura tutti i punti sono fortemente allineati (al crescere dei valori di x crescono i valori di y) nella seconda figura i punti sono perfettamente allineati (al crescere di x decresce y), nella terza non c' alcuna correlazione.

71 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON


Ecco la formula del Coefficiente di Correlazione r. I valori di x e y rappresentano le due variabili prese in esame (ad esempio pressione sistolica e diastolica):

r = Covarianza (x,y) / RadQ [ Devianza x * Devianza y ]


Per calcolare il Coefficiente di Correlazione r, dunque, necessario prima calcolare la Covarianza, che deriva dalla Somma dei prodotti fra gli scarti, dalle rispettive medie, di due serie di valori, denominati x e y. Facciamo un esempio. Supponiamo di voler misurare il Coefficiente di Correlazione tra le due seguenti serie di valori: Numero di sigarette al d (x) e kg di peso corporeo (y).
Serie X Valori (a) 23 32 19 37 24 Mediax (mx) 27 Scarti (c = a-mx) -4 5 -8 10 -3
Devianzax

1 2 3 4 5

Serie Y Valori (b) 50 91 94 90 75 Mediay (my) 80

Prodotti

Scarti (d = b-my) -30 11 14 10 -5


Devianzay

degli scarti

(c*d)

120 55 -112 100 15 Somma


(Covarianza)

( scarti ) 214

( scarti ) 1342

178

72 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON


Come si vede, occorre calcolare le due Devianze x e y (Sommatoria del quadrato degli scarti dalle rispettive medie) e quindi moltiplicare gli scarti di ogni singola coppia di valori x e y e poi sommare i prodotti ottenuti per ricavare la Covarianza. A questo punto possibile applicare la formula: r = Covarianza (x,y) / RadQ [ Devianza x * Devianza y ] , che equivale a scrivere: r = S [(x mx)*(y my)] / RadQ [S (x-mx)2] * [S (y my)2]
Serie X Valori (a) 23 32 19 37 24 Mediax (mx) 27 Scarti (c = a-mx) -4 5 -8 10 -3
Devianzax

1 2 3 4 5

Serie Y Valori (b) 50 91 94 90 75 Mediay (my) 80

Prodotti

Scarti (d = b-my) -30 11 14 10 -5


Devianzay

degli scarti

(c*d)

120 55 -112 100 15 Somma


(Covarianza)

( scarti ) 214

( scarti ) 1342

178

73 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON


Applicando alla formula i valori presi in esame si ha: r = 178 / RadQ ( 214 * 1342 ) = 0,3322 Confrontando il valore ottenuto con i valori tabellari di riferimento per gradi di libert 4 (cio un grado di libert ogni coppia di valori meno uno) possibile concludere che detto valore non raggiunge il valore minimo previsto per una significativit del 95% (0,8114 per p<0.05). Pertanto le due variabili non risultano correlate tra di loro (o il campione piccolo o non c correlazione).

Tab. Livelli Significativita' del coefficiente r


n.coppie meno una 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 p = 0.05 Liv. 95% p = 0.01 Liv. 99% n.coppie meno una 16 17 18 19 20 25 30 35 40 50 60 70 80 90 100 p = 0.05 Liv. 95% 0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2732 0,25 0,2319 0,2172 0,205 0,1946 p = 0.01 Liv. 99% 0,5807 0,5751 0,5614 0,5487 0,5368 0,4869 0,4487 0,4182 0,3932 0,3541 0,3248 0,3017 0,283 0,2673 0,254

0,99692 0,999877 0,95 0,99 0,8783 0,95873 0,8114 0,9172 0,7545 0,8745 0,7067 0,8343 0,6664 0,7977 0,6319 0,7646 0,6021 0,7348 0,576 0,7079 0,5529 0,6835 0,5324 0,6614 0,5139 0,6411 0,4973 0,6226 0,4821 0,6055

La Forza dellAssociazione data dal quadrato del Coefficiente di Correlazione (r2). Nellesempio r2=0,332=0,11=11% (l11% di y spiegata da x)

74 - IL COEFFICIENTE DI REGRESSIONE
La regressione lineare legata allanalisi di correlazione, sebbene abbia ben altri scopi. Essa tende a quantificare la relazione lineare che pu esistere tra una variabile indipendente x ed una dipendente y.
y (Ordinate ) Variabile Dipendente Frequenza polso b Inclinazione VariabileInaspettata y = a + bx

Perch aumenta la temperatura...? a intercetta Intercetta Temperatura Corporea Variabile Indipendente (Ascisse ) x

Come si pu notare lintercetta a sullasse della y pu assumere valori positivi o negativi (come in questo caso)

a intercetta

La formula per indicare una retta data da y = a + bx, dove y la variabile dipendente (sulle ordinate) e x la variabile indipendente (sulle ascisse), mentre a lintercetta sullasse delle y (cio il valore di y quando x pari a zero) e b il coefficiente di regressione (cio linclinazione della retta, che ci dice quale sar laumento di y per ogni incremento unitario di x).

75 - IL COEFFICIENTE DI REGRESSIONE
Conoscendo Covarianza e Devianza possibile predeterminare il valore che pu assumere una variabile quando l'altra, ad essa correlata, assume un valore noto. Ad esempio, possibile stimare l'incremento della frequenza del polso (variabile dipendente y) conoscendo l'aumento della temperatura corporea (variabile x). Per stimare lincremento di y allaumentare di x occorre conoscere lintercetta a (valore di solito gi noto), ma soprattutto occorre conoscere il Coefficiente di Regressione b (cio il valore dellinclinazione della retta). Si yparla di Coefficiente , quando si vuole misurare di quanto (Ordinate ) Variabile Dipendente di Regressione b y/xVariabileInaspettata Frequenzay polso aumenta per ogni aumento noto di una unit di x. Ecco la formula: b y/x = covarianza (x,y) / devianza (x) ; che equivale a scrivere: b y/x = S [(x mx)*(y m )] / [S (x-mx)2] lay temperatura...?
Temperatura Corporea Si parla di Coefficiente di Regressione b x/y, quando si vuole misurare di quanto Variabile Indipendente (Ascisse ) x Intercetta aumenta x per ogni aumento noto di una unit di y. Ecco la formula: a intercetta Perch aumenta b Inclinazione y = a + bx

b x/y = covarianza (x,y) / devianza (y) ; che equivale a scrivere: b x/y = S [(x mx)*(y my)] / [S (ymy)2]
a intercetta

76 - IL COEFFICIENTE DI REGRESSIONE
Ricorriamo ad un esempio. Misuriamo la frequenza del polso di un paziente nel corso di un rialzo febbrile. Attraverso 5 misurazioni successive la frequenza (misurata in numero di battiti al minuto) e la temperatura corporea (misurata in gradi centigradi) aumentano in modo strettamente correlato tra di loro, cos:

Serie X = Temperatura Valori Scarti (c = a-mx) (a) 1 2 3 4 5 36,0 36,7 37,5 38,3 38,6 Mediax (mx) 37,4 -1,4 -0,7 0,1 0,9 1,2
Devianzax

Serie Y = Frequenza Valori Scarti (d = b-my) (b) 50 55 60 65 70 Mediay -10,0 -5,0 0,0 5,0 10,0
Devianzay

Prodotti
degli scarti

(c*d)

14,2 3,6 0,0 4,4 11,8 Somma


(Codevian)

( scarti ) 4,7

(my) 60,0

( scarti ) 250,0

34,0

77 - IL COEFFICIENTE DI REGRESSIONE
Calcoliamo, adesso, il Coefficiente di Correlazione r (Cov.x,y/RadQ Dev.x*Dev.y), la Forza dellAssociazione r2 ed il Coefficiente di Regressione by/x (Cov.x,y/Dev.x):
Corr. r = Covarianza(x,y)/RadQ[Devianzax*Devianzay]=34/(4,7*250)=0,99 Forza dellAssociazione r2 = 0,992 = 0,98 = 98% Coeff. Regressione by/x = covarianza (x,y) / devianza (x) = 34/4,7 = 7,22

In conclusione, dunque, possiamo affermare che: 1 ) Esiste una fortissima correlazione lineare positiva, visto che r quasi uguale ad 1, raggiungendo il valore di 0,99;

Serie X = Temperatura Valori Scarti (c = a-mx) (a) 1 2 3 4 5 36,0 36,7 37,5 38,3 38,6 Mediax (mx) 37,4 -1,4 -0,7 0,1 0,9 1,2
Devianzax

Serie Y = Frequenza Valori Scarti (d = b-my) (b) 50 55 60 65 70 Mediay -10,0 -5,0 0,0 5,0 10,0
Devianzay

Prodotti
degli scarti

(c*d)

14,2 3,6 0,0 4,4 11,8 Somma


(Codevian)

( scarti ) 4,7

(my) 60,0

( scarti ) 250,0

34,0

2) Lassociazione molto forte, visto che il 98% della variazione della frequenza (y) spiegata dalla variazione della temperatura (x); 3) C un aumento della frequenza (y) di 7,22 battiti al minuto per ogni incremento di un grado centigrado di temperatura.

78 - IL COEFFICIENTE DI REGRESSIONE
Lanalisi di Regressione Lineare nota anche come Metodo dei Minimi Quadrati e consente di predire il valore di y (la frequenza) dai valori che prende la x (temperatura), con la classica formula y = a + bx. Nellesempio di prima il valore b (7,22) gi calcolato. Possiamo ricavare il valore di a partendo dai valori medi di y (60) e di x (37,5), essendo noto b (7,22), con la seguente equazione: a = y - bx = 60 (7,22*37,5) = -210,8. Adesso possiamo stimare il valore che assumer y quando x raggiunger un valore noto (ad esempio 40 gradi): y = a + bx = -210,8 + (7,22*40) = -210,8 + 288,9 = 78,1.

Quando loggetto dellanalisi non pi la relazione tra una variabile indipendente ed una dipendente (Analisi Bivariata), bens la relazione tra pi variabili contemporaneamente (dipendenti e indipendenti) ecco lAnalisi Multivariata.

LANALISI MULTIVARIATA E I MODELLI DI REGRESSIONE

80 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


Quasi mai una malattia risulta correlata ad un solo fattore di rischio. Ed allora occorre studiare in modo contemporaneo le associazioni tra la malattia ed i diversi fattori etiologici ad essa correlati, ivi compresi gli eventuali fattori di confondimento in grado di inficiare i risultati dello studio. Esempio: i fattori di rischio associati alle patologie cardiovascolari. Se, ad

esempio, volessimo stimare quale sia la forza dellassociazione tra linfarto miocardico acuto ed il fattore di rischio dellipertensione arteriosa, dovremmo tener presente lesistenza di ameno altri cinque fattori che risultano certamente associati alla stessa malattia, comportandosi come fattori di confondimento nei confronti dellipertensione: il fumo, lipercolesterolemia, lobesit, let ed il sesso.
Per poter quantificare il contributo indipendente di ciascuno di questi sei fattori al rischio complessivo di infarto del miocardio, necessario esaminare tutti e sei fattori contemporaneamente, ricorrendo allAnalisi Multivariata. Nella ricerca biomedica, infatti, sono molte le variabili che, generalmente, influenzano gli outcome (malattia o altro esito) che vogliamo studiare. Ed a seconda dellobiettivo dello studio, queste variabili saranno o i fattori di rischio di cui vogliamo valutare leffetto o i fattori di confondimento di cui vogliamo controllare leffetto.

81 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


Il Controllo dei Fattori di Confondimento uno dei problemi pi delicati nella impostazione di uno studio epidemiologico. Le principali strategie per il controllo del confondimento sono: 1. La Randomizzazione: quando non ci limitiamo ad osservare la distribuzione naturale dei fattori di esposizione (Studi Osservazionali), ma siamo noi a poter somministrare il fattore di esposizione (ci avviene solo negli Studi Sperimentali e consente di eliminare confondenti noti e non noti); 2. Il Matching: solo negli Studi Caso-Controllo, quando scegliamo controlli che hanno tutte le caratteristiche note (confondenti) uguali ai casi, tranne il fattore di esposizione che intendiamo studiare (possiamo eliminare solo confondenti noti); 3. LAggiustamento: quando il controllo del confondimento non avviene nelle fasi preliminari dellimpostazione dello studio prima della raccolta dei dati (come randomizzazione e matching), ma nelle fasi successive alla raccolta ed in particolare durante la fase dellanalisi dei dati (condotta su pi variabili).

82 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Il Confondimento e le soluzioni Il Confondimento e le

? ? ?

RANDOMIZZAZIONE MATCHING AGGIUSTAMENTO


1. 2. 3. Standardizzazione Analisi Stratificata Regressione Multipla

A sua volta lAggiustamento pu essere condotto attraverso tre metodiche: La Standardizzazione (diretta o indiretta: lesempio classico del caso in cui si voglia annullare leffetto del fattore di confondimento dellet); LAnalisi Stratificata (Mantel Haenszel: utilizzata nel caso in cui in uno studio caso-controllo si voglia calcolare lOR aggiustata per il confondente noto); La Regressione multipla (lineare, logistica, ecc.) che, rispetto alle prime due, presenta il vantaggio di poter aggiustare per molte pi variabili per volta.

83 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


PIRAMIDE DELLA POPOLAZIONE DI CARLENTINI (SR) Et >90 80-89 70-79 60-69 50-59 40-49 30-39 20-29 10-19 0-9 1.465 1.082 1.019 0 982 1.220 1.187 1.371 791 422 233 m aschi 22 38 250 528 875 948 1.237 1.328 1.367 1.489 fem m ine PIRAMIDE DELLA POPOLAZIONE DI PEDAGAGGI (SR) Et >90 80-89 70-79 60-69 50-59 40-49 30-39 20-29 10-19 0-9 110 64 68 73 74 0 99 78 65 68 71 95 99 46 30 m aschi 1 3 39 72 73 92 fem m ine

Numero di Persone

Numero di Persone

Si applicano i tassi specifici per et della popolazione in osservazione alle classi di et di una Popolazione Standard. Si applicano i tassi specifici per et di una Popolazione Standard alle classi di et di una popolazione in osservazione.

STANDARDIZZAZIONE DIRETTA

STANDARDIZZAZIONE INDIRETTA

84 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


LAnalisi Stratificata. Le metodiche di analisi multivariata fondate sullanalisi stratificata risultano facilmente comprensibili. Riprendiamo lesempio della associazione tra consumo di caff e sigarette e la mortalit cardiovascolare.
Caff (tazze al d) Mortalit per Cardiopatia Coronarica in maschi di 55-64 anni (morti/1000/anno)

0 1-5 >5
Sigarette (pacch. /d)

27 29 31
Mortalit per Cardiopatia Coronarica in maschi di 55-64 anni (morti/1000/anno)

0 1-2 >2

15 29 43

Esaminate singolarmente entrambe le variabili sembrano associate allaumento della patologia coronarica. Tuttavia ognuna di esse potrebbe comportarsi da confondente rispetto allaltra. E allora, per conoscere quale il reale contributo di ognuna di esse sullaumento del rischio occorre aggiustare i dati ricorrendo alla analisi stratificata.

85 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


LAnalisi Stratificata. Leggendo i dati del fumo stratificati nei tre livelli di rischio del caff (lettura orizzontale) i casi aumentano uniformemente con laumentare del numero di sigarette (4-9-14 nel primo strato di non bevitori; 610-13 nel secondo strato di bevitori; 5-10-16 nel terzo strato di superbevitori). Leggendo invece i dati del caff stratificati per i tre livelli delle sigarette (lettura verticale) non c aumento (4-6-5 nel primo strato di non fumatori; 9-10-10 nel secondo strato di fumatori; 14-13-16 nel terzo strato di superfumatori).
Mortalit per Cardiopatia Coronarica stratificata per caff e sigarette al d

Sigarette (pacchetti al d)

Caff (tazze al d)

0 4 6 5

1-2 9 10 10

>2
14 13 16
0 = 15 1-2 = 29 >2 = 43

0
0 = 27 1-5 = 29 >5 = 31

1-5

>5

Numero di morti/1000/anno per Cardiopatia Coronarica tra Maschi di 55-64 anni det (IL TOTALE E SEMPRE 87)

86 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


Pertanto, mentre lassociazione tra fumo e malattia coronarica di tipo causale, quella tra caff e coronaropatie solo unassociazione spuria. In altri termini, lassociazione tra caff e malattia solo apparente ed dovuta alla contemporanea presenza di un altro fattore (il fumo), che agisce come fattore di confondimento rispetto al caff (visto che spesso chi beve molto caff anche un forte fumatore). In questo caso stato possibile annullare leffetto del fattore confondente (fumo) rispetto al fattore di esposizione studiato (caff) suddividendo i bevitori di caff in tre strati di bevitori differenti tra loro (non fumatori, fumatori e superfumatori), ma omogenei al loro interno rispetto alle abitudini al fumo. Tutto ci stato possibile perch eravamo di fronte solo a due variabili (caff e fumo), ciascuna delle quali era suddivisa in 3 categorie di rischio (0, 1-5, >5 per il caff e 0, 1-2 e >2 per il fumo), cos da determinare solo 9 sottogruppi (3*3=9). Ma si pensi alle difficolt a cui andremmo incontro se ci trovassimo di fronte a pi variabili ed a pi categorie di rischio.

87 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


Tornando allesempio iniziale dei 6 fattori di rischio (FR) collegati allinfarto miocardico (IMA), potremmo trovarci di fronte alla seguente situazione:
FR di IMA CATEGOR. Sesso Maschi Femmine Et <35 35-39 40-44 45-49 50-54 55

VARIABILI
Fumo 0 1-2 p./d >2 p./d Ipertens. No Lieve Moderata Elevata Ipercolest No Si Obesit No Lieve Moderata Elevata

1 2 3 4 5 6

E dunque, 2 categorie per il sesso, 6 per le fasce det, 3 per i fumatori, 4 per i livelli di ipertensione, 2 per la presenza o meno di ipercolesterolemia e 4 per i livelli di obesit esaminati. Col metodo della Stratificazione dovremo suddividere il campione di popolazione studiato in tutte le possibili combinazioni. Per lesattezza dovremmo suddividere il campione in 1.152 sottogruppi (e cio 2*6*3*4*2*4=1.152). Se disponessimo dunque di un campione di 1.000 soggetti, avremo una media di 0,8 persone per ogni sottogruppo: inattendile!

88 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


Le metodiche fondate sulla Stratificazione, dunque, presentano gli svantaggi di non poter aggiustare i dati per pi di una o due variabili di confondimento per volta (anche perch possono essere influenzate dalla presenza di sottogruppi di dimensioni numeriche molto limitate) e di non poter presentare dati molto sintetici. I Vantaggi dei Modelli di Regressione (Lineare Multipla, Logistica, ecc.) risiedono nel fatto che trattasi di un modello in grado di studiare sinteticamente le relazioni tra diverse variabili (causali e/o confondenti) ed un outcome, elaborandole simultaneamente e senza essere influenzata dalla presenza di sottogruppi di dimensioni limitate.

89 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA


La scelta tra i Modelli di Regressione I Modelli di Regressione pi utilizzati in Epidemiologia sono quattro. La loro scelta dipende dalla variabile di esito (y) e dal disegno dello studio:
REGRESS. MULTIPLA LOGISTICA DI POISSON DI COX Variabile y Quantitativa Dicotomica Dicotomica Dicotomica Applicazioni principali Stime principali

Condizionate dalluso di variabili quantitative y

Condizionate dalluso di variabili quantitative y

Studi Caso-Controllo, ecc. Proporzioni e Odds Ratio Studi di Coorte Studi di Sopravvivenza Tassi di Incidenza e Rischi Relativi Tassi di Rischio e Hazard Ratio

La Regressione Logistica si pu utilizzare anche in Studi Trasversali e negli Studi di Coorte in cui non necessario ricorrere al calcolo persona-tempo. La Regressione di Poisson si utilizza soprattutto negli Studi di Coorte che presuppongono limpiego del calcolo persona-tempo. La Regressione di Cox tiene conto del tempo in cui si verificano gli eventi ma non delle persone-tempo.

90 LA REGRESSIONE LINEARE SEMPLICE


Per comprendere meglio le metodiche di Analisi Multivariata basate sul concetto di Regressione, necessario fare un passo indietro e tornare alla Regressione Lineare Semplice (che in realt fa parte delle metodiche di Analisi Bivariata). La Regressione Lineare Semplice, esprime landamento di una retta in cui la variabile quantitativa dipendente y sulle ordinate varia in funzione della variabile indipendente x sulle ascisse, secondo lequazione y=a+bx, dove a rappresenta la costante dellintercetta sullasse delle y (valore di y quando x uguale a zero), e b rappresenta il coefficiente di regressione.

La retta di regressione viene calcolata attraverso il metodo dei minimi quadrati, capace di tracciare la retta che minimizzi la somma dei quadrati delle distanze tra questa e tutti i punti del grafico (corrispondenti alle osservazioni).
y (Ordinate ) Variabile Dipendente

Regressione Lineare Semplice: y = a + bx Intercetta (valore y quando x=0): a=ybx Coefficiente di Regressione (inclinazione o incremento di y quando x aumenta di 1): b y/x = S [(x mx)*(y my)] / [S (x-mx)2]

Inclinazione b

a intercetta Variabile Indipendente (Ascisse ) x

91 LA REGRESSIONE LINEARE MULTIPLA


Quando loggetto dellanalisi non pi la relazione tra una variabile dipendente y (ad esempio la malattia) ed una variabile indipendente x (ad esempio il fattore di rischio), come nel caso della Regressione Lineare Semplice, bens la relazione simultanea tra una variabile dipendente y (ad esempio la malattia) e pi variabili indipendenti x (ad esempio i fattori di rischio e/o fattori di confondimento) si entra nellambito dellAnalisi Multivariata e si parla, in questo caso, di Regressione Lineare Multipla.

Malattia

Fatt. Rischio/ Confondenti

Fatt. Rischio/ Confondenti

Con la Regressione Lineare Multipla, dunque, possibile studiare lassociazione di ogni singola variabile x (fattore di esposizione) con la variabile y (la malattia), al netto degli effetti di tutte le altre variabili x (fattori di confondimento).

92 LA REGRESSIONE LINEARE MULTIPLA


La equazione della Regressione Lineare Multipla, in analogia con quella della Regressione Semplice (y=a+bx), data da: REGRESSIONE LINEARE MULTIPLA: y = a + b1x1 + b2x2 + b3x3 + + bnxn Ogni singolo coefficiente di regressione (b1, b2, b3, bn) indica quanto ogni singola variabile indipendente (x1, x2, x3, xn) influenzi la variabile dipendente y (in aumento o diminuzione a seconda del segno + o - del coefficiente). INTERCETTA a : valore di y quando x1, x2, x3, xn sono = 0 : a = y - b1x1 - b2x2 - b3x3 - - bnxn COEFF. DI REGRESSIONE b1: coincide con lincremento di y quando x1 aumenta di una unit e tutte le altre variabili (x2, x3, xn) rimangono costanti (stesso ragionamento per b2, b3, ecc): b1
y/x

= S [(x1 mx1)*(y my)] / [S (x1-mx1)2]

NB: Al numeratore la Covarianza al denominatore la Devianza

93 LA REGRESSIONE LINEARE MULTIPLA


Ricorriamo, ancora una volta ad un esempio. Supponiamo di studiare la variazione del tasso di incidenza decennale della patologia cardiovascolare (y) rispetto a quattro differenti variabili x (Sesso, Et, Fumo e Pressione Arteriosa) in un campione di 489 soggetti. Per ognuna delle variabili x abbiamo queste categorie di esposizione: Esempio:
CATEGORIE

VARIABILI Sesso x1
1 = Maschi 0 = Femmine Variabile Dicotomica Variabile n. Continua

Et x2
in anni

Fumo x3
1 = <15 sig./d 2 = 15-29 sig./d 3 = 30 sig./d Variabile Categorica

Pressione x4
Var. numerica Continua

1 2 3 4

0 = No Fumatore in mm Hg

Tipo di Variabile:

Il calcolo dellintercetta a e dei coefficienti di regressione (b1, b2, b3, b4) relativi alle quattro variabili (x1, x2, x3, x4) risulta di estrema complessit. Pertanto si ricorre solitamente al computer e ad appositi programmi (Epi-Info)

94 LA REGRESSIONE LINEARE MULTIPLA


La trasformazione delle variabili dicotomiche e categoriche in numeri consente di inserire, nellapposito software, semplici dati numerici. Cos, se ad esempio dovessimo inserire un record relativo ad un maschio di 45 anni, non fumatore, con una pressione di 120 mm Hg, dovremo inserire nei quattro campi (sesso, et, fumo e pressione) i seguenti numeri: 1, 45, 0, 120. Ed allo stesso modo se dovessimo inserire il record di una donna di 48 anni, fumatrice oltre le 30 sigarette al d, con un pressione sistolica di 115 mm Hg, dovremo inserire nei quattro campi (sesso, et, fumo e pressione) i seguenti numeri: 0, 48, 3, 115. E cos via per tutti i 489 soggetti reclutati nello studio. INPUT (Immissione Dati al Computer)
DATA BASE

CAMPI Sesso x1 1 0 ... 1 Et x2 45 48 ... 39 Fumo x3 0 3 ... 2 Pressione x4 120 115 ... 140

RECORDS 1 Soggetto 2 Soggetto ... 489 Sogg.

95 LA REGRESSIONE LINEARE MULTIPLA


Oltre ai dati sulle variabili indipendenti x (fattori di rischio e/o confondenti), nel data base dovranno essere inseriti anche i dati relativi alla variabile dipendente y (la presenza o assenza della malattia cardiovascolare) per ogni record (o soggetto). Al termine dellelaborazione, il computer calcola i coefficienti di a (intercetta) e di b1, b2, b3, b4 , nonch i valori di P (livelli di probabilit): OUTPUT (Risultati elaborati dal Computer) VARIABILI X1 Sesso X2 Et X3 Fumo X4 Press. Coefficiente a 0,0597 Coefficiente b b1 = 0,069 b2 = 0,003 b3 = 0,014 b4 = 0,001 P <0.001 <0.001 <0.001 <0.050

96 LA REGRESSIONE LINEARE MULTIPLA


I valori ottenuti ci consentono di raggiungere due OBIETTIVI: 1. Valutare leffetto di ogni singola esposizione aggiustata per leffetto dei confondenti: cio la possibilit di stimare il Rischio associato ad una singola variabile (ad esempio x1) ed aggiustato per tutte le altre variabili (x2, x3, x4). 2. Costruire modelli predittivi: cio la possibilit di stimare lIncidenza Cumulativa, o la percentuale del Rischio di ammalarsi, da parte di un singolo soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, x4).

AGGIUSTARE e PREDIRE

97 LA REGRESSIONE LINEARE MULTIPLA


OBIETTIVO DELLAGGIUSTAMENTO Ritornando al nostro esempio, per quanto riguarda il primo obiettivo possiamo valutare la percentuale di rischio associata ad ognuna delle quattro variabili (sesso, et, fumo e pressione arteriosa) aggiustata per le altre. A tal fine necessario moltiplicare ogni singolo coefficiente b ottenuto per la categoria di esposizione: 0 e 1 per il sesso; 0, 1, 2 e 4 per il fumo; il numero di anni per let; il numero di millimetri di Hg per la pressione

98 LA REGRESSIONE LINEARE MULTIPLA


VARIABILE: SESSO MASCHILE Riguardo alla variabile sesso maschile (x1=1), che una variabile dicotomica, il coefficiente b1 ottenuto (0,069) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cio aggiustando per et, fumo e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 6,9 % nei soggetti maschili rispetto a quelli femminili. Infatti per x1 (sesso) uguale a 1 (maschio) con coefficiente b1 di 0,069 si ha: 1 * 0,069 = 0,069 = 6,9 % (cio il 6,9 % in pi rispetto alle donne dove il calcolo dar ovviamente 0).

99 LA REGRESSIONE LINEARE MULTIPLA


VARIABILE: ETA di 40 ANNI Riguardo alla variabile et di 40 anni (x2=40), che invece una variabile continua, il coefficiente b2 ottenuto (0,003) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cio aggiustando per sesso, fumo e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 12 % nei soggetti di 40 anni. Infatti per x2 (et) uguale a 40 con coefficiente b2 di 0,003 si ha: 40 * 0,003 = 0,12 = 12 %.

40

100 LA REGRESSIONE LINEARE MULTIPLA


VARIABILE: FUMO 30 SIGARETTE Riguardo alla variabile fumo 30 sigarette al d (x3=3), che una variabile categorica, il coefficiente b3 ottenuto (0,014) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cio aggiustando per et, sesso e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 4,2 % nei fumatori oltre le 30 sigarette al giorno rispetto ai non fumatori. Infatti per x3 (fumo) uguale a 3 ( 30 sigarette al d) con coefficiente b3 di 0,014 si ha: 3 * 0,014 = 0,042 = 4,2 % (cio il 4,2 % in pi rispetto ai non fumatori dove il calcolo dar 0).

101 LA REGRESSIONE LINEARE MULTIPLA


VARIABILE: PRESSIONE di 140 mm Hg Riguardo alla variabile pressione arteriosa di 140 mm Hg (x4=140), che una variabile continua, il coefficiente b4 ottenuto (0,001) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cio aggiustando per sesso, et e fumo) il rischio di ammalarsi (di cardiopatia) aumenta del 14 % nei soggetti con 140 mm Hg di pressione arteriosa. Infatti per x4 (pressione arteriosa) uguale a 140 con coefficiente b4 di 0,001 si ha: 140 * 0,001 = 0,14 = 14 %.

Il valore di P calcolato dal computer, infine, assai prezioso, perch ci consente di valutare la significativit statistica dei valori ottenuti.

102 LA REGRESSIONE LINEARE MULTIPLA


OBIETTIVO DEL MODELLO PREDITTIVO Il secondo degli obiettivi della Regressione Lineare Multipla quello di costruire modelli predittivi, cio di poter stimare lincidenza (ad esempio decennale, ventennale, ecc.), ovvero la percentuale del Rischio di ammalarsi dopo un certo lasso di tempo (ad esempio 10 anni) da parte di un soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, x4). Nel nostro esempio possiamo supporre di voler stimare il rischio di incidenza decennale per malattie cardiovascolari (y), di un soggetto di sesso maschile (x1), di anni 45 (x2), non fumatore (x3), con una pressione arteriosa di 150 mm Hg (x4). Applichiamo i valori allequazione della Regressione Lineare Multipla: y = a + b1x1 + b2x2 + b3x3 + b4x4 , da cui: y = 0,0597 + (0,069*1) + (0,003*45) + (0,014*0) + (0,001*150) y = 0,0597 + 0,069 + 0,135 + 0 + 0,15 = 0,4137 = 41,37 % Il soggetto con le suddette caratteristiche, dunque, avr un rischio di ammalarsi (incidenza decennale) del 41,37 %.

103 LA REGRESSIONE LINEARE MULTIPLA


ASSUNTI In conclusione, dunque, in un modello di Regressione Lineare Multipla: 1. La relazione tra y ed x deve essere Lineare (lincremento di y per x1 che passa da 1 a 2 sempre uguale allincremento di y per x che passa da 10 a 11); Non deve esserci Interazione tra le variabili indipendenti (gli effetti di x1, x2, xn sono indipendenti. Se c Interazione occorre studiarla con lAnalisi Stratificata); Le variabili indipendenti x possono essere parametri numerici continui (1, 2, 3, ecc.), variabili dicotomiche (Si o No), o variabili categoriche (fasce det, ecc.); Ma la variabile dipendente y sempre numerica continua (in realt
nellesempio, solo per motivi didattici si riportata una variabile dicotomica).

2.

3.

4.

Quando la variabile dipendente y esprime, invece, una variabile dicotomica (Malati o Sani) e non numerica continua, occorre far ricorso alla Regressione Logistica

104 LA REGRESSIONE LOGISTICA


Levenienza che la variabile dipendente in studio (y) non sia continua, ma dicotomica (assenza o presenza della malattia o dellesposizione), cosa assai frequente nelle indagini epidemiologiche. E per questo che la Regressione Logistica il modello di Analisi Multivariata in atto pi utilizzata dagli epidemiologi, ed in particolare in tutti i maggiori studi fondati su outcome dicotomici (Malati/Sani, Casi/Controlli, Esposti/Non Esposti, Esito/Non Esito): gli Studi Trasversali, Caso-Controllo e di Coorte. Cos come la Multipla, anche la Regressione Logistica presenta alcune caratteristiche: VANTAGGI 1. Possibilit di studiare le relazioni tra diverse variabili causali e/o confondenti, ed un outcome, ad esempio la malattia, elaborandole simultaneamente e senza essere influenzati dalla presenza di sottogruppi di dimensioni limitate Possibilit di presentare dati molto sintetici e di mettere in evidenza eventuali interazioni

2.

105 LA REGRESSIONE LOGISTICA


OBIETTIVI 1. Valutare leffetto di ogni singola esposizione aggiustata per leffetto dei confondenti, cio la possibilit, di stimare gli Odds Ratio (OR) di ogni singola variabile x1, aggiustati per tutte le altre variabili x2, x3, xn Costruire modelli predittivi, cio la possibilit di stimare lOdds Ratio, ovvero il rischio di ammalarsi, da parte di un singolo soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, xn).

2.

ASSUNTI 1. 2. 3. 4. La relazione tra y ed x deve essere Lineare (lincremento di y per x1 che passa da 1 a 2 uguale allincremento di y per x che passa da 10 a 11); Non deve esserci interazione tra le variabili indipendenti (gli effetti di x1, x2, xn sono indipendenti. Se c interazione occorre lAnalisi Stratificata); Le variabili indipendenti x possono essere parametri numerici continui (1, 2, 3, ecc.), variabili dicotomiche (Si o No) o variabili categoriche (fasce det); La variabile dipendente y sempre dicotomica (unica sostanziale differenza rispetto alla Regressione Lineare Multipla).

106 LA REGRESSIONE LOGISTICA


Variabile Dicotomica Variabile Continua

da 0 a 1
Restituzione del Valore di P

P
Y

Odds = P/(1-P)
Trasformazione di P in Odds

+
da 0 a + Infinito
Trasformazione di Odds in Logaritmo di Odds (Log Odds)

LA REGRESSIONE LOGISTICA ed IL GIOCO DELL DELLOCA Il procedimento logico della Regressione Logistica viene rappresentato in questa immagine come il percorso di una sorta di Gioco delloca. La 1 tappa la trasformazione di y da dicotomica a continua (con gli Odds). La 2 la trasformazione degli Odds di y nei corrispondenti logaritmi. La 3, ottenuto il risultato di y, la restituzione del valore di Odds La 4 la restituzione del valore di p.

P = Odds/ (1+Odds)

Odds = e

Variabile Continua

Restituzione del Valore di Odds

+ Y
Risultato

Log Odds = LogeOdds

da Inf. a + Inf.

107 LA REGRESSIONE LOGISTICA


1a - Trasformazione di y da dicotomica a continua (con gli Odds) Al fine di poter applicare gli stessi principi e le stesse metodiche della Regressione Lineare Multipla (dove y sempre una variabile numerica continua), nella Regressione Logistica, in via preliminare, occorre ridurre la variabile dicotomica y ad una variabile continua. La suddetta trasformazione possibile attraverso il ricorso agli Odds. LOdds (termine inglese, diffuso tra gli scommettitori di difficile traduzione in italiano) di un evento espresso dal rapporto tra la probabilit del verificarsi dellevento (P) e la probabilit che esso non si verifichi (1-P): Odds = P/(1-P). Tutto ci necessario perch la distribuzione di una Probalit (che una variabile dicotomica) oscilla sempre tra 0 e 1, senza mai superare lunit.
Una probalit P di 0,4 , ad esempio, indica che quellevento ha il 40% di probabilit di verificarsi, mentre la probabilit che non si verifichi del 60% (cio 0,6 , il complemento a 1 di P).

108 LA REGRESSIONE LOGISTICA


1b - Trasformazione di y da dicotomica a continua (con gli Odds) La distribuzione del relativo Odds, invece, una variabile continua perch non va da 0 a 1, ma da 0 a pi infinito. Facciamo qualche esempio:

Per una Probabilit P 0,1: Odds = P/(1-P) = 0,1/(1-0,1) = 0,1/0,9 = Per una Probabilit P 0,5: Odds = P/(1-P) = 0,5/(1-0,5) = 0,5/0,5 = Per una Probabilit P 0,9: Odds = P/(1-P) = 0,9/(1-0,9) = 0,9/0,1 =

0,11 1 9

Per una Probabilit P 0,99: Odds = P/(1-P) = 0,99/(1-0,99) = 0,99/0,01 = 99

E dunque, ancora, per un P uguale a 0,999 il relativo Odds sar di 999, e cos via di seguito fino a +. In questo modo abbiamo trasformato la variabile dipendente y da un valore dicotomico ad un valore numerico continuo.

109 LA REGRESSIONE LOGISTICA


2a Trasformazione degli Odds di y nei corrispondenti Logaritmi La semplice trasformazione degli esiti P della variabile dicotomica y nei relativi Odds consente di trasformare y in una variabile continua, ma solo per i valori positivi (da 0 a +). Per trasformare y in una variabile continua copresa da - a + occorre utilizzare non gli Odds, bens i Logaritmi naturali degli Odds. Il Logaritmo di un numero reale positivo n rispetto alla base e, reale positiva e diversa da uno, lesponente z che occorre attribuire alla base e per ottenere n, e si scrive: z = Logen Dunque in una equazione (data da: n = ez ) il Logaritmo di n proprio lesponente z.
Eulero

E quindi il calcolo del Logaritmo in un certo senso loperazione inversa dellelevamento a potenza. Nei cosiddetti Logaritmi Naturali di un numero n si assume per base e il cosiddetto Numero di Eulero, che equivale ad e = 2,71828.

110 LA REGRESSIONE LOGISTICA


2b Trasformazione degli Odds di y nei corrispondenti Logaritmi Ecco qualche esempio. Per Odds 0,11: Per Odds 1: Per Odds 9: Log Odds = Log e Odds Log Odds = Log e Odds Log Odds = Log e Odds = = = Log Log Log
2,71828 2,71828 2,71828

0,11 1 9

= -2,21 = 0 =+2,20

Spiegazione: Nel primo esempio su riportato, il Logaritmo Naturale dellOdds 0,11 (scaturente a sua volta da una P di 0,1 , come si ricorder) rappresenta lesponente che occorre dare alla base e (per la quale si assume il numero di Eulero 2,71828) al fine di ottenere il valore di Odds (0,11), secondo lequazione: Odds = e Log Odds (da cui appunto: Log Odds = Log e Odds). In questo caso, dunque, se il Logaritmo Naturale di Odds 0,11 -2,21, lequazione inversa (Odds = e Log Odds) sar: Odds = 2,71828 -2,21 = 0,11.

111 LA REGRESSIONE LOGISTICA


2c Trasformazione degli Odds di y nei corrispondenti Logaritmi Attraverso la trasformazione logaritmica degli Odds, siamo riusciti ad avere anche valori negativi. Pi in particolare: 1. Per tutti i valori di Odds inferiori a 1 (e cio 0,11 , come nel caso del primo esempio) i corrispondenti Logaritmi naturali assumeranno valori negativi fino a -; Per il valore di Odds uguale a 1 il corrispondente Logaritmo naturale assumer il valore di 0; Per tutti i valori di Odds superiori a 1 i corrispondenti Logaritmi naturali assumeranno valori positivi fino a +.

2. 3.

Pertanto, con la trasformazione degli esiti dicotomici P della variabile y, prima nei rispettivi Odds e poi nei corrispondenti Logaritmi naturali di Odds, siamo riusciti a trasformare la variabile dipendente y da una variabile dicotomica ad una variabile numerica continua compresa da meno infinito a pi infinito.

112 LA REGRESSIONE LOGISTICA


3 Elaborazione della retta di regressione A questo punto possiamo elaborare lequazione della retta di regressione: Regressione Logistica: y = log odds = a + b1x1 + b2x2 + b3x3 + + bnxn In pratica pressocch impossibile calcolare i parametri dellintercetta a e dei coefficienti di regressione b1 , b2 , b3 , bn , senza lausilio di un computer e di un apposito software. Tuttavia, una volta ottenuti con lelaborazione informatica i suddetti dati, linterpretazione dellequazione del tutto simile a quella della Regressione Lineare Multipla, con lunica differenza che i risultati (di y) saranno espressi in termini di Log Odds (o Logit). Pertanto, ai fini di riportare nuovamente i valori di y dal formato di Log Odds a quello di Probabilit P (ovvero di Rischio di malattia, ad esempio) necessario ripercorrere i precedenti passaggi in senso inverso. Vediamo come.

113 LA REGRESSIONE LOGISTICA


4a Restituzione del valore di P dai risultati Log Odds di y Una volta ottenuti i risultati dellequazione della variabile dipendente y, in termini di log odds, occorre calcolare lOdds. Partendo dallequazione: y = log odds = log e odds possibile ricavare lodds attraverso la seguente formula: odds = antilog y = e y = 2,71828 y dove antilog sta per antilogaritmo . LAntilogaritmo (antilog) di un Logaritmo naturale (log) consente di ritrovare il Numero n (incognito) da cui si generato il Logaritmo naturale, e si calcola elevando la base e del numero di Eulero (2,71828) per il valore stesso del Logaritmo (che funge da esponente), con la formula: n = antilog di log = e log

114 LA REGRESSIONE LOGISTICA


4b Restituzione del valore di P dai risultati Log Odds di y In questo caso si tratta dellantilogaritmo del risultato di y, ottenuto, appunto, sotto forma di logaritmo (log odds). Lantilogaritmo di y (cio lodds) si ottiene elevando a potenza il valore della base e del numero di Eulero (2,71828) per lo stesso valore y ( esponente). Una volta ricavato lodds si pu calcolare la probabilit P, partendo da: odds = P / (1-P) da cui si ottiene: P = odds / (1+odds) Riassumendo, pertanto, una volta ottenuto il valore di y in formato logaritmico, possibile ritornare al suo originario formato dicotomico della proporzione (P): - Dato il risultato logaritmico di y (y = log odds), si ha - Odds = e
log odds

= 2,71828

; e ricavato Odds si ha la P:

- P=Odds/(1+Odds)

115 LA REGRESSIONE LOGISTICA


5 - Calcolo degli OR delle singoli variabili x (aggiustate) Per quanto riguarda, invece, i valori delle variabili indipendenti (x1, x2, x3, xn) preferibile calcolare gli Odds Ratio (OR), cio i Rischi Relativi Approssimati di ogni singola variabile, aggiustati per tutte le altre (cio mantenendo costanti tutte le altre variabili). Analogamente al calcolo della Probabilit P del valore di y, gi illustrato, il valore dellOdds Ratio di ogni variabile x si ricava dallantilogaritmo del corrispondente coefficiente di regressione b. In altri termini, se volessimo calcolare lOR della variabile x1 dovremmo calcolare lantilogaritmo del corrispondente coefficiente di regressione b1 , e dunque dovremmo elevare a potenza la base e del numero di Eulero per il coefficiente b1 (che si comporta da esponente), secondo il seguente schema: OR x1 = antilog b1 = e b1 = 2,71828 b1 Lo stesso ragionamento vale per tutte le altre variabili indipendenti prese in esame (x2, x3, xn), i cui OR saranno stimabili dagli antilogaritmi dei rispettivi coefficienti b.

116 LA REGRESSIONE LOGISTICA


6a - Utilizzo del Computer ed Esempi Immaginiamo che il R.T.P. di Siracusa conduca uno Studio Caso-Controllo, tra un campione di donne siracusane abitanti nellarea del polo petrolchimico di Priolo (il 50% con bambini malformati ed il rimanente 50% con bambini sani), riguardante i principali fattori di rischio associati, secondo la letteratura medica, alla probabilit (P) di avere un figlio affetto da malformazione congenita. In questo caso la variabile dipendente y la probabilit P di avere un figlio malformato, mentre le variabili indipendenti x, prese in esame, riguardano alcune abitudini di vita delle gestanti durante la gravidanza: fumo di sigaretta, uso di estroprogestiici, consumo di alcolici, di acqua minerale commercializzata (cio non proveniente dalle falde idriche locali) e pesce.

117 LA REGRESSIONE LOGISTICA


6b - Utilizzo del Computer ed Esempi I dati, raccolti con questionari, sono inseriti nel PC, ed ecco i risultati:
VARIABILI X1 Fumo X2 Estroprog. X3 Alcolici X4 Acqua Min. X5 Pesce
0=Non Fumatore 1= 1 pacch./d 2= > 1 pacch./d 0= No 1= Si 0= No 1= 1 bicch./d 2= > 1 bicch./d 0= No 1= Si 0= No 1= 1 pasto/sett. 2= > 1 pasto/sett.

Categorie

Coefficiente a - 4,793 -

Coefficiente b b1 = 0,058 b2 = 1,244 b3 = 0,457 b4 = - 0,713 B5 = 0,307

OR 1,06 3,47 1,58 0,49 1,36

Lim. Fi. 0,53-2,91 1,53-6,34 0,92-2,61 0,36-0,98 0,69-3,24

Gli OR di ogni variabile x sono gli antilogaritmi dei rispettivi coefficienti b: OR x1 (fumo) = antilog b1 = e b1 = 2,71828 b1 = 2,71828 0,058 = 1,06

118 LA REGRESSIONE LOGISTICA


6c - Utilizzo del Computer ed Esempi I valori di OR (che, grazie alluso della Regressione Logistica, risultano gi aggiustati nellesempio riportato) rappresentano, come noto, il maggior rischio di avere figli malformati, se si esposti a quel fattore di rischio. Negli esempi riportati, il fumo appare svolgere un ruolo ininfluente visto che il suo OR si attesta intorno allunit (1,06), mentre un maggior rischio sembra essere collegato alluso di progestinici in gravidanza, visto che il suo OR supera abbondantemente lunit (3,47), ed in minor misura anche al consumo di alcolici (1,58) e di pesce fresco (1,36). Laver consumato, invece, acque minerali commercializzate (e dunque di converso, non aver consumato le acque delle falde locali) sembra aver rappresentato un fattore protettivo, visto che il suo OR si attesta al di sotto dellunit (0,49). Lelaborazione al computer ci ha restituito anche i Limiti Fiduciali collegati ai singoli OR. I dati pi significativi sono quelli legati agli estroprogestinici (visto che entrambi i limiti, superiore e inferiore, stanno al di sopra di 1), ed al consumo di acque minerali (visto che entrambi i limiti, superiore e inferiore, stanno al di sotto di 1). Le altre variabili presentano, invece, OR dotate di Limiti Fiduciali ampi che stanno a cavaliere dell1, e dunque non sono significativi.

119 LA REGRESSIONE LOGISTICA


6d - Utilizzo del Computer ed Esempi Ma oltre alla stima degli OR possibile anche risalire a Stime predittive di rischio per il singolo individuo. Immaginiamo, infatti, di voler conoscere la probabilit P di avere figli malformati in una donna del luogo con le seguenti caratteristiche: fuma pi di un pacchetto di sigarette al giorno (x1=2), fa uso di estoprogestinici (x2=1), non assume alcolici (x3=0), beve solo acqua minerale (x4=1) e consuma pi di due pasti a settimana di pesce fresco (x5=2). E dunque: y (log odds) = a + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 Y (log odds) = - 4,793 + (0,058*2)+(1,244*1)+(0,457*0)+(0,713*1)+(0,307*2) Y (log odds) = - 4,793 + (0,116)+(1,244)+(0)+(0,713)+(0,614) = - 2,106 Ottenuto il valore di y sotto formato logistico (log odds) ricaviamo prima lodds: Odds = e y = 2,71828
-2,106

= 0,122

E quidi ricaviamo la probabilit P: P = odds / (1+odds) = 0,122/(1+0,122) = 0,122/1,122 = 0,109 = 10,9 % In conclusione, dunque, abbiamo potuto stimare che il rischio di avere un figlio malformato nella donna con quelle caratteristiche del 10,9 %

120 LA REGRESSIONE DI POISSON


DEFINIZIONE: La Regressione di Poisson, cos come la Regressione Logistica, indicata nellanalisi di esiti dicotomici e presenta tutte le principali caratteristiche della Logistica, ma, a differenza di questa (che usata soprattutto negli Studi Caso-Controllo, dove lesito una Proporzione), si usa quando lesito (variabile y) una Frequenza, in genere un Tasso di Incidenza (che tiene conto degli Anni-Persona). Pertanto in epidemiologia si usa solitamente negli Studi di Coorte. Pertanto, mentre la Regressione Logistica consente la stima degli OR (Odds Ratio), quella di Poisson si lascia preferire nella stima dei RR (Rischi Relativi). ASSUNTI: 1. 2. 3. Il tasso di incidenza uguale per tutti i soggetti con le stesse caratteristiche Gli eventi si distribuiscono nel tempo senza aggregati (epidemie) Gli eventi si verificano casualmente nel tempo

121 LA REGRESSIONE DI POISSON - NO


FORMULE: Cos come nella Regressione Logistica lequazione : Log (odds) = a + b1x1 + b2x2 + b3x3 + + bnxn , nella Regressione di Poisson lequazione : Equazione di Poisson : Log

m = a + b1x1 + b2x2 + b3x3 + + bnxn ;

Dove m il numero medio di eventi ed espresso da m = l T , dove a sua volta l il tasso di incidenza e T il tempo di osservazione. Pertanto per ricavare il Tasso di Incidenza m dal suo Logaritmo Naturale occorre calcolarne il corrispondente Antilogaritmo m = e (a + b1x1 + b2x2 + b3x3 + + bnxn ), cio: Tasso di Incidenza :

m = e (a + S bx) ;
b1),

Dove e il Numero di Eulero e lesponente la somma di a e dei prodotti bx. In analogia all OR della Logistica (dato da ORx1 = e Rischio Relativo : RRx1 = e
b1

il RR nella Poisson sar:

Dove RRx1 il RR collegato ad un determinato fattore x1 mentre e b1 il Numero di Eulero elevato al coefficiente di regressione (b1) di x1. Analogamente lesponenziale di a (e a) il Tasso di Incidenza tra i Non Esposti.

LANALISI DI SOPRAVVIVENZA

123 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE


LE TAVOLE DI MORTALITA : Definizione Diversi studi epidemiologici si fondano sul confronto della sopravvivenza tra gruppi esposti a differenti fattori di rischio (studi di coorte) o a differenti trattamenti medici (trial clinici). Quando questi studi sono condotti su di una intera popolazione si soliti ricorrere alle Tavole di Mortalit, che rappresentano una descrizione minuziosa di mortalit e speranza di vita per ogni singolo anno di et. In realt le Tavole di mortalit complete includono ogni singola et da zero fino allet massima osservata tra gli individui della data popolazione. Le Tavole di Mortalit ridotte, invece, raccolgono gli anni per fasce quinquennali det (tranne che per i primi 5 anni di vita). In questo caso alle tradizionali 6 colonne se ne aggiunge una 7 con lintervallo di anni racchiuso in ogni singola fascia.

x
Et (anni)
0 1 5

lx
N. Vivi

dx
N. Morti
25.437 6.692

px
Prob. Vita x1000
745,6 910,3

qx
Prob. Morte x1000
254,4 89,7

ex
Sper. Vita (anni)
26,9 35,0

n
Interv. (anni)
1 4

100.000 74.563

124 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE


LE TAVOLE DI MORTALITA : Descrizione 1. 2. 3. 4. 5. 6. La 1 Colonna (x) = E let per singoli anni La 2 Colonna (lx) = Sono i Vivi allet esatta x (partendo da 100.000) La 3 Colonna (dx) = Sono i Morti tra let esatta x e let successiva x+1 La 4 Colonna (px) = E la Probabilit di Sopravvivere tra let x e let x+1 La 5 Colonna (qx) = E la Probabilit di morire tra let x e let x+1 La 6 Colonna (ex) = E la speranza di vita allet x
A 1 B C D E F

La Speranza di Vita E il numero medio di anni che resta da vivere ad un soggetto che ha raggiunto let x. Il suo calcolo comporta luso dei tassi di mortalit di tutte le et successive

x
Et (anni)

lx
N. Vivi

dx
N. Morti
25.437 6.692 3.960

px
Prob. Vita x1000
745,6 910,3 941,7

qx
Prob. Morte x1000
254,4 89,7 58,3

ex
Sper. Vita (anni)
26,9 35,0 37,5

2 3 4 5

0 1 2

100.000 74.563 67.871

125 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE


A 1 B C D E F

x
Et (anni)

lx
N. Vivi

dx
N. Morti
25.437

px
Prob. Vita x1000
745,6

qx
Prob. Morte x1000
254,4

ex
Sper. Vita (anni)
26,9

Tavole di Mortalit: Le Formule

lx = lx-1 dx-1
Excel (b3=b2-c2)

2 3 4 5 6 7 8 9 10 11 12 94 95 96 97

0 1 2 3 4 5 6 7 8 9 10 11-91 92 93 94 95

100.000

74.563
67.871 63.911 61.327 59.946 58.784 57.939 57.107 56.540 56.091 2.072.698 21 9 4 1

6.692
3.960 2.584 1.381 1.162 845 832 567 449 -

910,3
941,7 959,6 977,5 980,6 985,6 985,6 990,1 992,1 -

89,7
58,3 40,4 22,5 19,4 14,4 14,4 9,9 7,9 -

35,0
37,5 38,8 39,4 39,4 39,1 38,7 38,3 37,7 37,0

dx = lx lx+1
Excel (c3=b3-b4)

px = lx+1/lx *1000
Excel (d3=b4/b3*1000)

qx = dx / lx *1000
Excel (e3=c3/b3*1000)

La fascia 11-91 anni raccolta in un unico rigo


12 5 3 1 428,6 444,4 250,0 0,0 571,4 555,6 750,0 1.000,0 0,7 0,6 0,3 0,0

ex = (lx+1+lx+2+)/lx
Excel (f3=b4+b5+/b3)

126 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)


Negli studi di Follow up di un singolo risultato dicotomico come la morte un serio problema rappresentato dal fatto che alcuni soggetti possono essere persi o esclusi. Per gli studi di follow up pertanto si ricorre a due metodi (quello Attuariale e quello di Kaplan-Meier) in cui le Tavole di Mortalit sono depurate dai casi persi. IL METODO ATTUARIALE : Definizione Il Metodo Attuariale si sviluppato inizialmente per calcolare i rischi ed i premi delle compagnie di assicurazione. In questo metodo ai singoli anni di et della popolazione (presenti nelle Tavole di Mortalit) vengono sostituiti gli intervalli di anni trascorsi dalla diagnosi (colonna t). Inoltre viene introdotta una colonna coi soggetti persi (troncati) al follow up (w) ed unaltra coi vivi aggiustati (n) cio depurati del numero di soggetti persi. Lultima colonna quella che indica le Proporzioni di Sopravvissuti a determinati intervalli di tempo dalla diagnosi (St).
A 1 B C D E F G H

t
Anni dalla diagn.

n
Vivi ad inizio interval.

d
Morti durante interval.

w
Troncati durante interval.

n
Vivi ad inizio aggiustati

q
Proporz. Morti in interval.

p
Proporz. Vivi in interval.

S(t)
Proporz. Vivi da diagn.

127 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)


1

t
Anni dalla diagn.

n
Vivi ad inizio interval.

d
Morti durante interval.

w
Troncati durante interval.

n
Vivi ad inizio aggiustati

q
Proporz. Morti in interval.

p
Proporz. Vivi in interval.

S(t)
Proporz. Vivi da diagn.

2 3

1 2

98 60

24 14

14 13

91 53,5

0,26 0,26

0,74 0,74

0,74 0,54

IL METODO ATTUARIALE - DESCRIZIONE: t = Intervallo di tempo trascorso dalla diagnosi (1anno=da 0 a 1; 2anno=da 1 a 2; ecc.) n = Pazienti vivi ad inizio intervallo (differenza dei vivi del precedente intervallo meno i morti ed i troncati del precedente intervallo; ad esempio nel 2 anno: 60 = 98-24-14) d = Pazienti morti nellintervallo preso in esame (ad esempio nel 2 anno: 14) w = Pazienti troncati, cio persi prima della fine dellintervallo di follow up (ritirati, ecc.) n = Vivi ad inizio intervallo (cio Esposti) aggiustato per leffetto di persi al follow up. E la differenza tra n (vivi ad inizio intervallo) e di w (troncati). Ad esempio: 91=98-0,5*14 q = Probabilit di morire nellintervallo. Deriva da d (morti) diviso n (aggiustati). 0,26=24/91 p = Probabilit di sopravvivere nellintervallo. Deriva da 1 q (Prob. Morte). 0,74=1-0,26 S(t) = Probabilit di sopravvivere da inizio diagnosi. Si calcola moltiplicando q per tutte le q precedenti. Ad es. alla fine del 2 anno: 0,54 = 0,74*0,74 (perch c un solo anno prima)

128 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)


A 1 B C D E F G H

t
Anni dalla diagn.

n
Vivi ad inizio interval.

d
Morti durante interval.

w
Troncati durante interval.

n
Vivi ad inizio aggiustati (n-0,5w)

q
Proporz. Morti durante interval.

p
Proporz. Vivi durante interval.

S(t)
Proporz. Vivi da diagn. a fine int.

2 3 4 5 6 7

1 2 3 4 5 6

98

24 14 2 1 0 0

14 13 11 7 6 4

91

0,26

0,74

0,74

60
33 20 12 6

53,5
27,5 16,5 9 -

0,26
0,07 0,06 0,00 -

0,74
0,93 0,94 1,00 -

0,54
0,50 0,47 0,47 -

METODO ATTUARIALE Calcolo del Rischio di Sopravvivenza S(t): Le Formule

n = (n-1) (d-1) (w-1) ; Excel (B3 = B2 C2 D2) ; n = n 0,5*w ; Excel (E3 = B3 0,5*D3) ; q = d / n ; Excel (F3 = C3 / E3) ; p = 1 q ; Excel (G3 = 1 F3) ; S(t) = (p) * (p-1) * (p-2) * ; Excel (H3 = G3 * G2 *)

129 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)


METODO ATTUARIALE - Calcolo di Varianza, ES e LF95% di S(t)

NO

Var(St) = (St)2 * S [di / ni * (ni di)] ; pertanto coi dati dellesempio:

Varianza di S(t) t 1 (0-1) 2 (1-2) 3 (2-3) 4 (3-4) 5 (4-5) d 24 14 2 1 0 / / / / / / ( ( ( ( ( ( n' 91,0 53,5 27,5 16,5 9,0 * (n'-d) ) = * 67,0 ) = 0,003936 * 39,5 ) = 0,006625 * 25,5 ) = 0,002852 * 15,5 ) = 0,00391 * 9,0 ) = 0 S(t)2 * Somma 0,22 * 0,017323 =

(Formula di Greenwood)

Risultato Finale

0,003884

ES = RadQ [Var(St)] ; LF95% = (St)* +/- 1,96 * ES ; (ES=s) quindi:


ES=RadQ(0,0038)=0,06; e dunque LF95% St= 0,47 +/- 0,12 (da 35% a 59%)

130 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)


METODO di KAPLAN MEIER (del prodotto limite) : Definizione Il Metodo Attuariale continua ad essere usato quando si ha un numero elevato di soggetti in studio, sebbene oggi il Metodo di Kaplan-Meier sia diventato lo studio di sopravvivenza pi usato in medicina (specie nei piccoli campioni). Il metodo fu illustrato per la prima volta da Kaplan e Meier nel 1958 e differisce dal metodo Attuariale perch calcola una nuova riga della tabella di vita ogni volta che si verifica una morte, sicch gli intervalli non sono pochi e regolari come nel metodo Attuariale, bens molti ed irregolari, visto che le morti si distribuiscono nel tempo in maniera irregolare. Infatti nel Metodo di Kaplan e Meier gli intervalli non raccolgono pi morti e non si mostrano uniformi (come ad esempio gli intervalli di un anno per volta del metodo Attuariale), poich gli intervalli dipendono dal tempo intercorso tra una morte e laltra (e dunque non contengono morti e sono di durata variabile). Ogni morte, pertanto, tronca lintervallo precedente e d inizio ad un nuovo intervallo che si attesta ad un tasso di sopravvivenza pi basso. E per questo che il Grafico della curva di Kaplan-Meier si presenta come una scala dagli scalini irregolari.

131 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)


A 1 B C D E F G H

t
Mesi alla morte

nt
Vivi prima della morte 14 14

dt
Morti al tempo t

wt
Persi al follow up nello interval. 0 0

nt-dt
Vivi dopo aver tolto i morti 14 13

pt
Probabil. Sopravv. in interv. t 1,000 0,929

Int. pt
Interval. tra due morti 0 <3 3 <8

S(t)
Probabil. Sopravv. al tempo t 1,000 0,929

2 3

0 3

0 1

Metodo KAPLAN-MEIER Descrizione:

t = Tempi completi di sopravvivenza dallinizio dello studio (0) per ogni deceduto nt = Numero di pazienti vivi al tempo t. dt = Num. decessi osservati al tempo t, di solito 1 (o pi di 1 con pari tempo t) wt = Soggetti persi al follow up (si tolgono dal num. di vivi della riga successiva) nt-dt = Pazienti rimasti dopo aver tolto i morti da nt (escludendo i tempi troncati) pt = Probabilit condizionata di sopravvivenza al tempo t (del singolo intervallo t) Int. pt = Intervallo di tempo intercorrente tra due morti successive S(t) = Probabilit non condizionata di sopravvivenza al tempo t (o cumulativa)

132 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)


A 1 B C D E F G H

t
Mesi alla morte

nt
Vivi prima della morte 14 14 13 11 9 6 -

dt
Morti al tempo t

wt
Persi al follow up nello interval. 0 0 1 0 2 0 5

nt-dt
Vivi dopo aver tolto i morti 14 13 12 9 8 5 -

pt
Probabil. Sopravv. in interv. t 1,000 0,929 0,923 0,818 0,889 0,833 -

Int. pt
Interval. tra due morti 0 <3 3 <8 8 <14 14 <21 21 <25 25 >25 -

S(t)
Probabil. Sopravv. al tempo t 1,000 0,929 0,857 0,701 0,623 0,519 -

2 3 4 5 6 7 8

0 3 8 14 21 25 -

0 1 1 2 1 1 -

Metodo KAPLANMEIER: Le Formule NB: Tra i persi al follow up il primo esce a 8 mesi, altri due a 21 mesi e altri 5 vanno oltre i tempi dello studio con mesi: 29, 34, 37, 42, 49 (Tot. 241).

n = (n-1) (d-1) (w-1) ; Excel (B3 = B2 C2 D2) ; n - d = n d ; Excel (E3 = B3 C3) ; p = (n d) / n ; Excel (F3 = (B3-C3) / B3) ; S(t) = (p) * (p-1) * (p-2) * ; Excel (H3 = F3 * F2 *)

133 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)


Rappresentazione Grafica del Metodo KAPLAN-MEIER (con Excel)
t 0 3 8 14 21 25 St 1,000 0,929 0,857 0,701 0,623 0,519
t 0 3 3 8 8 14 14 21 21 25 25 St 1,000 1,000 0,929 0,929 0,857 0,857 0,701 0,701 0,623 0,623 0,519

Studio di Sopravvivenza con Metodo di Kaplan Meier


1,200

P ro p o rz io n e d i S o p ravvissu ti

1,000

0,800

0,600

Il Grafico con Excel


E possibile costruire con Excel il Grafico di KaplanMeier. Occorre prima organizzare i dati come illustrato nella tabella di destra. Poi si seleziona lopzione Dispers.(xy) dei Grafici di Excel.

0,400

0,200

0,000 0 5 10 15 20 25 30

Tempo dal Ricovero

134 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)


Elaborazioni Statistiche del Metodo KAPLAN-MEIER TASSO di RISCHIO h
Detto anche tasso stimato di fallimento, dato dal rapporto tra i decessi osservati ed il numero totale di tutti i tempi di sopravvivenza (troncati o no): h = S (d) / S (td+tw) Esempio: h = 6 / [(3+8+14+14+21+25) + (241)] = 0,0184 per mese

NO

VARIANZA STIMATA di h
Var(h) = h2 / S (d) Esempio: Var(h) = 0,0184
2

/ 6 = 0,00005646

ERRORE STANDARD di h
ES(h) = RadQ [Var(h)] Esempio: ES(h) = RadQ 0,00005646 = 0,0075 per mese

STIMA del TEMPO MEDIO di SOPRAVVIVENZA


T.M.S. = 1/h (reciproco del Tasso di Rischio) Esempio: T.M.S. = 1/0,0184 = 54,3 mesi

135 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)


TEST del LOG-RANK (applicato al Metodo di Kaplan-Meier) Il Test Log-Rank (che, nonostante il nome, non si occupa n di logaritmi, n di dati classificati) usato per saggiare la significativit statistica in studi di sopravvivenza condotti col Metodo di Kaplan-Meier comparando i risultati di gruppi trattati e gruppi di controllo. La logica quella del Chi Quadro. Dunque occorre preliminarmente calcolare i Casi Attesi, cio il numero di Decessi (d) che ci aspetteremmo qualora non ci fosse differenza nellefficacia del trattamento riservato al Gruppo A (in studio) ed al Gruppo B (di controllo).
Morti Gruppo A Gruppo B Totale Soprav. Trattati

Calcolo degli Attesi Il Calcolo degli Attesi, come in ogni tabella 2x2 uguale al prodotto dei marginali diviso il totale delle osservazioni (vedi Test C quadro): A(d A( 1) = d*n d* 1/n ; A(d A( 2) = d*n d* 2/n

d1 d2 d

n1-d1 n2-d2 n-d

n1 n2 n

Calcolo della Varianza di d1 Per inciso il Calcolo della Varianza sar: Var(d Var( 1) = [d*(n-d)*n d)* 1*n2]/[(n-1)*n 1)* 2]

136 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)


Gruppo A (in studio) Calcolo Attesi t
A B Tot.

NO

TEST L-R: Sviluppo

t
0 3 8 14 21 25

nt
14 14 13 11 9 6

dt
0 1 1 2 1 1

dt
d1 d2 d

Sopr. n1-d1 n2-d2 n-d Sopr. 13 12 25 Sopr. 12 11 23

nt
n1 n2 n

t3
A B Tot.

dt
1 2 3

nt
14 14 28

Supponiamo dunque di confrontare il gruppo A (trattati) ed il gruppo B (di controllo) entrambi di 14 soggetti e di osservare al tempo t (3, 8, 14, 21 e 25 mesi) i decessi (dt) della Tabelle (con nt depurati dai persi al follow up). Il Calcolo degli Attesi va fatto per ogni strato di t: t : A(d A( 1) = d*n d* 1/n t3: A(d1) = 3*14/28= 1,50 t3: A(d2) = 3*14/28= 1,50 t8: A(d1) = 2*13/25= 1,04 t8: A(d2) = 2*12/25= 0,96

Gruppo B (controllo)

t
0 3 8 14 21 25

nt
14 14 12 10 8 6

dt
0 2 1 1 2 1

t8
A B Tot.

dt
1 1 2

nt
13 12 25

Ecc., ecc.

137 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)


Gruppo A in studio Gruppo B controllo TEST L-R: Sviluppo

NO

t
0 3 8 14 21 25

Calcolo Attesi
3*14/28 2*13/25 3*11/21 3*9/17 2*6/12 1,50 1,04 1,57 1,59 1,00 6,70

t
0 3 8 14 21 25

Calcolo Attesi
3*14/28 2*12/25 3*10/21 3*8/17 2*6/12 1,50 0,96 1,43 1,41 1,00 6,30

Calcolando separatamente i Casi Attesi di A e di B (per ogni intervallo t) per poi sommarli otteniamo i valori riassunti nelle Tabelle. Il calcolo semplificato dal fatto che i gruppi hanno la stessa numerosit ed i decessi sono stati rilevati agli stessi tempi t. In realt ci non accade quasi mai ed il calcolo pi difficile (si ricorrere al PC)

Somma Attesi A t 0-25

Somma Attesi B t 0-25

Casi Osservati
6,00

Casi Osservati
7,00

Somma Osser. A

Somma Osser. B

Calcolo del LOG-RANK col C2

Allora se C2=S(O-A)2/A la formula C2= S(OA-AA)2/AA + S(OB-AB)2/AB e cio: C2= [Sd1SA(d1)]2/SA(d1) + [Sd2SA(d2)]2/SA(d2) Dove Sd1 e Sd2 sono il numero totale di decessi Osservati nei 2 gruppi OA e OB, mentre SA(d1) e SA(d2) sono la somma di tutti i decessi Attesi in AA e in AB

138 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)


Calcolo del LOG-RANK col C2 - Esempio: Applicando alla formula i dati dellesempio, pertanto, avremo: C2= [ 6,00 - 6,70 ]2 / 6,70 + [ 7,00 - 6,30 ]2 / 6,30 = 0,15

NO

Il risultato, come per qualsiasi test di significativit statistica, va confrontato con i relativi valori critici tabellari per stabilire se le differenze osservate sono o meno statisticamente significative. Nel caso in specie la differenza osservata non significativa. Calcolo del LOG-RANK con la deviata normale standard Il calcolo del test di Log-Rank si pu effettuare anche con la formula della deviata normale standardizzata (Approssimata Z), che si scrive: Z = S d1 A(d1)/RadQ [S Var(d1)] che, riprendendo le formule di A(d1) e di Var(d1), si pu scrivere pure: Z = S (d1 d*n1/n) / RadQ {[S d*(n-d)*n1*n2]/[n-1)*n2]} dove con la sommatoria S si intende la somma di tutti gli strati corrispondenti agli intervalli di tempo t presi in esame. Per il calcolo del Log-Rank si ricorre di solito ad appositi software statistici.

139 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)


MODELLO di COX (dei Rischi Proporzionali) e Analisi Multivariata I Metodi di Analisi della Sopravvivenza finora illustrati (Metodo Attuariale e di Kaplan-Meier) consentono di valutare un solo fattore per volta (Analisi Bivariata). Quando vogliamo indagare leffetto simultaneo di pi fattori sulla sopravvivenza dei soggetti in studio occorre ricorrere alla Analisi Multivariata (Modello di Cox). La Regressione di Cox si utilizza negli studi di sopravvivenza quando lesito y da valutare una variabile dicotomica (Morti/Sopravvissuti) e le variabili indipendenti x sono pi di una. Essa consente di stimare hazard ratio (rapporti di rischio) e non rischi relativi. Partendo dalla formula della Regressione Lineare Multipla: y = a + b1x1 + b2x2 + b3x3 + + bnxn ; assumiamo che: y uguale al Logaritmo del Rischio al tempo t ; y = Ln h(t) a una costante uguale al Log. del Rischio quando le x valgono 0 ; a=Ln h0(t) x1 , x2 , ecc., sono le variabili indipendenti che influenzano y b1 , b2 , ecc., sono gli incrementi medi di y ad ogni incremento unitario delle x

140 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)


MODELLO di COX Pertanto la formula del Modello di Cox va scritta come segue: Equazione di Cox : Ln h(t) = Ln h0(t) + b1x1 + b2x2 + b3x3 + + bnxn dove Ln h(t) sta per Logaritmo Naturale (su base e) della funzione rischio al tempo t. Inoltre h0(t) la cosiddetta funzione rischio basale, che una funzione arbitraria del tempo che non va esplicitata. Dunque, per ottenere la funzione rischio dal suo logaritmo naturale occorre calcolarne il corrispondente antilogaritmo (vedi capitolo su Regressione Logistica): h(t) = h0(t) * e
(b1x1 + b2x2 + b3x3 + + bnxn)

NO

; che equivale a scrivere:


(S bx)

Tasso di Rischio : h(t) = h0(t) * e

Dove e la base del numero di Eulero (2,71828) ed il suo esponente la sommatoria di tutti i prodotti bx (b1x1 + b2x2 + b3x3 + + bnxn). In questultima equazione, pertanto, h(t) esprime il rischio o tasso di evento (per esempio di mortalit) in funzione dei diversi fattori x1 , x2 , x3 , xn , mentre h0(t) esprime la parte di evento influenzata solo dal trascorrere del tempo.

141 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)


MODELLO di COX Inoltre, analogamente al Modello della Regressione Logistica, dove lesponenziale dei coefficienti di regressione b rappresenta lOdds Ratio (ovvero il Rischio Relativo Approssimato, che stima il rapporto tra le incidenze di esposti e non esposti), per cui si ha: ORx1 = e
b1

nel Modello di Cox lesponenziale dei coefficienti di regressione b rappresenta il rapporto di rischio o hazard ratio (HR) ed esprime (cos come il Rischio Relativo o lOdds Ratio) laumento del rischio di morte corrispondente allincremento unitario del fattore di rischio x in esame: Rapporto di Rischio (o Hazard Ratio) : HRx1 = e
b1 b1

Dove HRx1 l Hazard Ratio relativa ad un determinato fattore x1 mentre e Numero di Eulero (2,71828) elevato al coefficiente di regressione (b1) di x1.

il

Cos come per la Regressione Logistica i software statistici calcolano di solito le principali funzioni utili: i coefficienti b, l Errore Standard di b (ESb), gli HR (e b) ed i relativi Intervalli di Confidenza.