Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
La distribuzione gaussiana (curva blu simmetrica) lespressione di una distribuzione normale di osservazioni che si discostano in maniera casuale e secondo un definito modello matematico da un valore centrale o normale.
Le medie da sole non ci dicono se i valori esaminati sono molto discordanti fra di loro o sono, piuttosto, vicini alla media stessa, presentando scarti piccoli. Ad es. il numero 6 pu derivare dalla media di 5+7=12 o di 1+11=12. Il numero 6(media) nel Icaso deriva da numeri molto vicini alla stessa media, mentre nel II caso deriva da numeri molto discordanti (grande variabilit).
( x m )2
VARIANZA =
E la vera media del quadrato degli scarti. Si ottiene dividendo la Devianza per il Numero n. di osservazioni 1 (gradi di libert).
Esprime la media degli scostamenti dalla Media e permette di osservare la dispersione dei valori intorno alla stessa Media.
DEVIAZIONE STANDARD()=
ERRORE STANDARD(ER)=
E una misura della variabilit dei valori nelluniverso dal quale estratto il campione: tanto pi piccolo lER quanto maggiore il grado di certezza che la Media Campionaria si avvicini a quella reale della popolazione di riferimento.
Alunno X1 Alunno X2 Alunno X3 Alunno X4 Alunno X5 Alunno X6 Alunno X7 Alunno X8 (n) MEDIA = X1+X2+Xn / n
= = = = = = = =
SOMMA ALG.
= 299,5
0,0 SOMMATORIA
299,5
DEVIANZA = (x m )
/ n -1
quindi
299,5 / 7 = 42,8
DEVIAZIONE STANDARD =
(x m ) 2 / n -1 = 42,8 = 6,5
8 DEVIAZIONE STANDARD
Dati a distribuzione simmetrica: usare media e deviazione standard. Dati a distribuzione asimmetrica: usare mediana e percentili
9 DEVIAZIONE STANDARD
Proporzioni di valori compresi nellintervallo di +/- 1 Dev. St. = Proporzioni di valori compresi nellintervallo di +/- 2 Dev. St. = Proporzioni di valori compresi nellintervallo di +/- 3 Dev. St. =
10 ERRORE STANDARD
6,5
= 2,3
L Errore Standard di una Media Campionaria quantifica il grado di certezza col quale la media, calcolata da un campione casuale, stima la vera media della popolazione dalla quale il campione stato tratto: tanto pi piccolo lES quanto maggiore il grado di certezza che la media del campione si avvicini a quella reale della popolazione di riferimento. E dunque legato a due fattori:
1) Al fatto che la variabilit del campione sia piccola (deviazione standard) 2) Al fatto che la numerosit del campione esaminato sia grande.
a) la differenza delle medie elevata (m1-m2); b) la deviazione standard delle due medie piccola; c) la numerosit dei due campioni elevata.
2,064 per un livello del 95%; 2,797 per un livello del 99%. Pertanto il valore di "t" ottenuto (2,5) > del valore del 95%.
## ## ## ## ## ## ## ## ## ##
4 6 .69 9 -216 33 8 .60 8 582 2 9 .96 4 -173 2 .82 0 -53 12 9 .67 2 -360 25 5 .93 5 506 1 3 .47 9 -116 8 5 .90 8 -293 10 5 .56 0 325 4 0 .44 1 -201 7 .0 7 2 S o m m a = 1 .04 9 .08 5
= =
10 7 .07 2 1 .04 9 .08 5
1 1 6 .5 6 5 341
d e l C a m p io n e ) d e i v a lo ri / n )
d e l C a m p io n e ) d e i va lo ri / n )
D e via n za ( s o m m a
q u a d ra to s c a rti ) / n -1 )
D e via n z a ( s o m m a
q u a d ra to s c a rti ) / n -1 )
V a ria n z a ( D e v ia n za
V a ria n za ( D e v ia n z a
231 18
p i n .L a b .B -1 )
(+ s ) m1 (- s ) (+ s ) m1 (- s )
(m1-m2)
(+ s ) m2 (- s )
B (+ s ) m2 (- s )
19 - TEST t DI STUDENT
Differenza tra le medie e significativit
+s
m1
s
(m1- s) > (m2+s ) (m1- m2)
+s
m2
+s
m1
+s
m2
(m1- m2)
entro
tra
entro
tra
entro
Supponiamo di somministrare un diuretico a tre gruppi di persone: il primo gruppo costituito da 9 persone sane, il secondo gruppo da 7 cardiopatici compensati il terzo gruppo da 5 nefropatici.
Supponiamo, inoltre, che nelle 24 ore successive alla somministrazione si sia osservato un incremento della diuresi, secondo i valori di seguito riportati (in ml):
Cardiopatici
numero persone Incremento Diuresi
Nefropatici
numero persone Incremento Diuresi
1 2 3 4 5 6 7 8 9 Totale T Media M
398 361 499 328 302 383 407 401 419 3.498 389
1 2 3 4 5 6 7 Totale T
1 2 3 4 5 Totale T
Media M
687
Media M
204
La migliore risposta viene osservata a carico dei Cardiopatici, quella intermedia a carico dei Sani, quella peggiore a carico dei Nefropatici. A questo punto ci prefiggiamo di verificare se le differenze osservate sono significative.
1 2 3 4 5 6 7 8 9 Media
1 2 3 4 5 6 7
11 -60 -8 -94 78 56 14
389 Somma =
Media
687 Somma =
22.036
nefropat.
Incremento Diuresi
1 2 3 4 5
-16 3 14 -5 3
250 10 202 23 10
Media
204 Somma =
495
Somma risultati ottenuti nei tre Gruppi 2 Termine Numeratore Persone Sane Cardiopatici Nefropatici Somma Totali ml Quadrato somma Denominat. Persone Sane Cardiopatici Nefropatici S Numerosit N Num./Deno. S T2 / S N Totale T in ml Totale T in ml Totale T in ml di tutti e tre i Gruppi dei Totali dei tre Gruppi Numerosit N Numerosit N Numerosit N di tutti e tre i Gruppi = 86.918.329 / 21
= = = = = = = = = =
Ottenute le due Varianze si ricerca infine il Rapporto F (tra le due Varianze): F = VARIANZA TRA GRUPPI / VARIANZA ENTRO GRUPPI Applicando alla formula i numeri dellesempio si ha: F = 363.961 / 2.677 = 135,95 ; Confrontiamo il Valore con la Tabella F:
Tabella dei Valori Critici di F In alto sono riportati i gradi di libert della Varianza Maggiore, che sta al numeratore (nel nostro esempio la Varianza "tra gruppi"). Di fianco a sinistra sono riportati i gradi di libert della Varianza Minore, che sta al denominatore(nel nostro esempio la Varianza "entro gruppi"). Il valore critico da confrontare con F va cercato nella casella individuata dalle coordinate dei gradi di libert delle due Varianze. Se ad esempio la Varianza Maggiore (tra gruppi) ha gradi di libert 2, mentre la Varianza Minore (entro gruppi) ha gradi di libert 18, la casella sar quella individuata da g.l. 2 verticalmente e g.l. 18 in orizzontale. Nella casella vi sono due valori: quello in grassetto esprime il valore critico per p<0.05, l'altro per p<0.01.
Siccome il risultato di "F" ottenuto (135,95) superiore ad entrambi i valori critici della Tabella F, per i corrispondenti gradi di libert, si pu concludere affermando che le differenze osservate sono altamente significative. Ci sta a significare che la Varianza "tra gruppi" molto pi alta di quella "entro gruppi", ed proprio per questo che la differenza delle medie osservate tra i gruppi significativa (a fronte di una bassa variabilit all'interno di ogni gruppo, indice di buona omogeneit dei campioni).
entro
tra
entro
tra
entro
Si Trombi
No Trombi
18 (a) 6 (c)
24
7 (b) 13 (d)
20
a+b+c+d
Si Trombi
No Trombi
Trattati
18 (a) 6 (c)
7 (b) 13 (d)
25 19 44
24
20
Ottenuti i totali necessario ricavare le percentuali di ogni singolo totale per riga o per colonna rispetto al totale globale (44).
Si Trombi
No Trombi
Trattati 25 19
18 (a) 6 (c)
24
7 (b) 13 (d)
20
57% 43%
Trombi Si 24 su 44 = 55% Trombi No 20 su 44 = 45%
44
55% 45%
Ad esempio, calcoliamo la percentuale di pazienti trattati con Placebo su Totale. Partendo dalla proporzione (25:44=y:100) si ottiene il valore di y=25*100/44=57%. Ripetendo loperazione con tutti i parziali (Aspirina su Totale, Si Trombi su Totale, No Trombi su Totale) si ottengono questi risultati: 43%, 55%, 45%.
Si Trombi
No Trombi
Trattati 25 19
13,64 10,36
24 20
57% 43%
Trombi Si 24 su 44 = 55% Trombi No 20 su 44 = 45%
44
55% 45%
Ora ipotizziamo che il trattamento con aspirina non abbia prodotto alcun effetto. Se ci fosse vero, e considerato che hanno sviluppato i trombi il 55% di 25 pazienti trattati con placebo, ci dovremmo aspettare che 13,64 pazienti trattati con placebo sviluppino trombi (e cio 25*55/100=13,64). Considerato, inoltre, che hanno avuto trombi il 55% di 19 pazienti trattati con aspirina, ci dovremmo aspettare che 10,36 pazienti trattati con aspirina sviluppino trombi (e cio 19*55/100=10,36).
No Trombi
11,36 8,64
20
57% 43%
Differ. Placebo 25 - 13,64 Differ. Aspirina 19 - 10,36
44
55% 45%
I restanti pazienti dovrebbero rimanere indenni da trombi e risulterebbero dalle differenze tra il totale dei trattati ed i pazienti che avrebero sviluppato i trombi. Abbiamo cos ricavato il numero di Casi Attesi nellipotesi in cui il trattamento non avesse alcun effetto. Riportiamo la Tabella di Confronto Osservati/Attesi:
OSSER VATI
ATTESI
18 7 6 13
6
OSSERVATI
10,36
ATTESI
C2 = S [(O A)2 / A]
C2 = Placebo Si Trombi Placebo No Trombi Aspirina Si Trombi Aspirina No Trombi SOMMATORIA S ( ( ( ( ( OSSERVATI 18 7 6 13 ATTESI 13,64 11,36 10,36 8,64 )2 )2 )2 )2 )2 / / / / / ATTESI 13,64 11,36 10,36 8,64 = = = = = 1,40 1,68 1,84 2,20 7,11
I gradi di libert si calcolano moltiplicando il numero di Righe meno uno (in questo caso 2-1) per il numero di Colonne meno 1 (in questo caso 2-1). Nelle Tabelle 2x2 i gradi di libert sono sempre 1 Con p<0.05 = 3,84 Con p<0.01 = 6,63
Pertanto il valore ottenuto (7,11) superiore ad entrambi i Valori Critici e le differenze osservate possono ritenersi altamente significative.
OSSERVATI
ATTESI
C2= S (O-A)2/A
25 82
17 99
C2 = [ (25-17)2 / 17 ] + [ (82 99)2 / 99 ] = 6,7 Confrontando i Valori Critici sullapposita Tabella del Chi Quadrato per gradi di libert 1 (6,63 per p<0.01 e 3,84 per p<0.05), col valore ottenuto (6,7), si pu concludere che le differenze osservate sono altamente significative (p<0.01).
a c
a+c
b d
b+d
41 28 120 133
161 161
Radiol ogo A
SI NO NO NO NO NO SI NO NO NO SI
Radiol ogo B
SI NO NO SI NO NO NO NO NO NO SI
Concor danza
SI SI SI NO SI SI NO SI SI SI SI
Mamm ografie
12 13 14 15 16 17 18 19 20 Positivi Concor.
Radiol ogo A
NO NO NO NO NO SI NO SI SI 6 -
Radiol ogo B
NO SI NO SI NO SI NO NO SI 7 -
Concor danza
SI NO SI NO SI SI SI NO SI 15
Radiologo A
POSITIVI NO
11
(55%)
SI
2
(10%)
Totale
13
(65%)
NO
3
(15%)
4
(20%)
7
(35%)
14
(70%)
6
(30%)
20
(100%)
Esterna
(M-) c a+c
(M-) c a+c
Sen
La Sensibilit esprime la capacit del test di classificare solo veri positivi, mentre la Specificit esprime la capacit di classificare solo veri negativi. Pertanto le due principali misure di accuratezza sono espresse da: Sensibilit (F) = Veri Positivi (Malati +) / Totale Malati = a / (a+c) Specificit (Y) = Veri Negativi (Sani -) / Totale Sani = d / (b+d) E dunque, una bassa Sensibilit comporta molti Falsi Negativi (c), mentre una bassa Specificit implica molti Falsi Positivi (b)
(M-) c a+c b
Lerrore di tipo alfa, dunque, il complemento a 1 della Specificit: a = 1-Y Lerrore di tipo beta , invece, il complemento a 1 della Sensibilit: b = 1-F
A queste due domande rispondono i Valori Predittivi del Test Positivo-Negativo. Sensibilit Specificit Malato Sano Totale a (M+): Veri Positivi b (S+): Falsi Positivi c (M-): Falsi Negativi d (S-): Veri Negativi
(M-) c a+c
Val.Pred.Test Pos.(PV+) = Veri Pos. (Malati +)/Totale Pos. = a/(a+b) Val.Pred.Test Neg.(PV-) = Veri Neg. (Sani -) / Totale Neg. = d / (c+d)
(M-) c a+c
(M-) c a+c
Malati 122 16
Sani 32 830 0,88 0,96 0,04 0,12 0,79 0,98 0,95 1,12 0,14
Mal.B
Malati 13 2
Sani 53 932 0,87 0,95 0,05 0,13 0,20 1,00 0,95 4,40 0,02
Pos. Neg.
Pos. Neg.
Sensibilit F Specificit Y Errore a Errore b Val. Pred. T.+ Val. Pred. T.Efficacia T. Test Bias Prevalenza M
Sensibilit F Specificit Y Errore a Errore b Val. Pred. T.+ Val. Pred. T.Efficacia T. Test Bias Prevalenza M
Spe. Y d/(b+d)
T.Bias (a+b)/(a+c)
Nella Malattia A, a maggior Prevalenza (0,14 contro 0,02), a parit di Sensibilit e Specificit, il PV(+) maggiore (0,79 contro 0,20) ed il T.Bias migliore (vicino 1)
Pi Falsi Positivi
Pi Falsi Negativi
Sani
Malati
110 mmHg
150 mmHg
100
110 mmHg
80
60
140 mmHg
40
150 mmHg
20
0 0 5 10 20 40 60 80 90 100
Riprendendo lesempio dei valori pressori, si individuano pi punti di cutoff (150, 140, 130, 120, 110 mmHg) e per ognuno di essi si calcolano la Sensibilit e lErrore Alfa. Poi si uniscono i punti per disegnare la curva. Il miglior punto di cutoff quello pi vicino allangolo superiore sinistro del grafico (Sensibilit 100% ed Errore Alfa 0%). Nel nostro esempio 130 mmHg.
S ensibilit (percentuale)
SPIEGAZIONE La Curva ROC ideale quella che sale quasi verticale verso langolo superiore sinistro per poi dirigersi verso langolo alto di destra orizzontalmente. E il caso della Curva Eccellente del grafico. Se invece la Sensibilit eguaglia sempre il tasso di Errore Alfa il risultato la diagonale della Curva inutile del grafico. Il test migliore quello che ha larea maggiore sotto la curva. Lanalisi delle Curve ROC sta diventando sempre pi frequente in medicina.
50
0 0 50 100
Nella citt di Siracusa dovr essere condotto un programma di screening mammografico. Su una popolazione bersaglio (et 50-69 anni) di circa 13.500 donne, tutte da invitare, si prevede un tasso di adesione intorno al 35% con 4.725 donne che si sottoporranno al test di 1 livello. Tutte le donne che risulteranno positive alla mammografia saranno sottoposte allapprofondimento diagnostico di 2 livello con stereotassi, agoaspirato ed ecografia. Considerato che la Sensibilit e la Specificit del test di 1 livello vengono stimate rispettivamente intorno al 95% e al 94% e che loccorrenza della malattia viene stimata intorno al 4,23 per mille, e supponendo infine che il costo medio unitario del test di 1 livello sia di 40 euro e quello del test di 2 livello di 80 euro, cerchiamo di prevedere il costo complessivo della campagna e, soprattutto, il costo per caso di tumore diagnosticato precocemente.
Come si pu notare gli unici dati disponibili da poter collocare nella tabella 2x2 sono il numero totale di popolazione screenata (4.725), che va nella casella del Totale Generale (a+b+c+d), ed il Totale dei Malati (a+c) che possibile ricavare conoscendo la Prevalenza della Malattia (4,23 x 1.000) e la Popolazione Generale con la formula: (a+c) = Prevalenza x Totale Generale.
Per poter sviluppare la tabella 2x2 occorre un altro dato fondamentale: il Totale dei soggetti positivi (a+b). Questo dato si pu ricavare dal Valore Predittivo del Test Positivo, la cui formula : VP+=a/(a+b) ; da cui (a+b)=a/VP+. Siccome conosciamo a (19 casi) occorre calcolare PV+. Tuttavia, poich non conosciamo proprio il dato complessivo dei positivi (a+b), bisogna ricorrere al calcolo del VP+ ricavato dalla formula del Teorema di Bayes.
A questo punto possibile ricavare tutti gli altri valori della tabella 2x2 con una serie coordinata di sottrazioni dai quattro valori gi noti.
Mal. 19 1 20
C.Unit.
Possiamo concludere affermando che il costo per caso diagnosticato si aggirer intorno agli 11.216 euro per paziente. Disponendo di dati di sopravvivenza si potr stimare pure il costo per anni di vita guadagnati. Qualsiasi intervento di Sanit Pubblica deve sempre trovare le sue ragioni in motivazioni di ordine etico, scientifico e di economia sanitaria.
. 40 . 80 C.Tot.
Caso
. 213.103
19
. 11.216
Le varie fasi possono essere rappresentate sinteticamente nel grafico del cosiddetto albero decisionale. In questo grafico i nodi delle decisioni sono raffigurati con quadrati, mentre le implicazioni delle decisioni (cio le conseguenze) sono rappresentate da cerchietti (i nodi delle probabilit). Ogni decisione, oltre a comportare delle conseguenze (probabilit di sviluppare la malattia), comporter anche degli ipotetici benefici.
Trattare
Malattia SI Malattia NO
Non Trattare
Malattia SI Malattia NO
Correlazione Assente (r = 0)
Nella prima figura tutti i punti sono fortemente allineati (al crescere dei valori di x crescono i valori di y) nella seconda figura i punti sono perfettamente allineati (al crescere di x decresce y), nella terza non c' alcuna correlazione.
1 2 3 4 5
Prodotti
degli scarti
(c*d)
( scarti ) 214
( scarti ) 1342
178
1 2 3 4 5
Prodotti
degli scarti
(c*d)
( scarti ) 214
( scarti ) 1342
178
0,99692 0,999877 0,95 0,99 0,8783 0,95873 0,8114 0,9172 0,7545 0,8745 0,7067 0,8343 0,6664 0,7977 0,6319 0,7646 0,6021 0,7348 0,576 0,7079 0,5529 0,6835 0,5324 0,6614 0,5139 0,6411 0,4973 0,6226 0,4821 0,6055
La Forza dellAssociazione data dal quadrato del Coefficiente di Correlazione (r2). Nellesempio r2=0,332=0,11=11% (l11% di y spiegata da x)
74 - IL COEFFICIENTE DI REGRESSIONE
La regressione lineare legata allanalisi di correlazione, sebbene abbia ben altri scopi. Essa tende a quantificare la relazione lineare che pu esistere tra una variabile indipendente x ed una dipendente y.
y (Ordinate ) Variabile Dipendente Frequenza polso b Inclinazione VariabileInaspettata y = a + bx
Perch aumenta la temperatura...? a intercetta Intercetta Temperatura Corporea Variabile Indipendente (Ascisse ) x
Come si pu notare lintercetta a sullasse della y pu assumere valori positivi o negativi (come in questo caso)
a intercetta
La formula per indicare una retta data da y = a + bx, dove y la variabile dipendente (sulle ordinate) e x la variabile indipendente (sulle ascisse), mentre a lintercetta sullasse delle y (cio il valore di y quando x pari a zero) e b il coefficiente di regressione (cio linclinazione della retta, che ci dice quale sar laumento di y per ogni incremento unitario di x).
75 - IL COEFFICIENTE DI REGRESSIONE
Conoscendo Covarianza e Devianza possibile predeterminare il valore che pu assumere una variabile quando l'altra, ad essa correlata, assume un valore noto. Ad esempio, possibile stimare l'incremento della frequenza del polso (variabile dipendente y) conoscendo l'aumento della temperatura corporea (variabile x). Per stimare lincremento di y allaumentare di x occorre conoscere lintercetta a (valore di solito gi noto), ma soprattutto occorre conoscere il Coefficiente di Regressione b (cio il valore dellinclinazione della retta). Si yparla di Coefficiente , quando si vuole misurare di quanto (Ordinate ) Variabile Dipendente di Regressione b y/xVariabileInaspettata Frequenzay polso aumenta per ogni aumento noto di una unit di x. Ecco la formula: b y/x = covarianza (x,y) / devianza (x) ; che equivale a scrivere: b y/x = S [(x mx)*(y m )] / [S (x-mx)2] lay temperatura...?
Temperatura Corporea Si parla di Coefficiente di Regressione b x/y, quando si vuole misurare di quanto Variabile Indipendente (Ascisse ) x Intercetta aumenta x per ogni aumento noto di una unit di y. Ecco la formula: a intercetta Perch aumenta b Inclinazione y = a + bx
b x/y = covarianza (x,y) / devianza (y) ; che equivale a scrivere: b x/y = S [(x mx)*(y my)] / [S (ymy)2]
a intercetta
76 - IL COEFFICIENTE DI REGRESSIONE
Ricorriamo ad un esempio. Misuriamo la frequenza del polso di un paziente nel corso di un rialzo febbrile. Attraverso 5 misurazioni successive la frequenza (misurata in numero di battiti al minuto) e la temperatura corporea (misurata in gradi centigradi) aumentano in modo strettamente correlato tra di loro, cos:
Serie X = Temperatura Valori Scarti (c = a-mx) (a) 1 2 3 4 5 36,0 36,7 37,5 38,3 38,6 Mediax (mx) 37,4 -1,4 -0,7 0,1 0,9 1,2
Devianzax
Serie Y = Frequenza Valori Scarti (d = b-my) (b) 50 55 60 65 70 Mediay -10,0 -5,0 0,0 5,0 10,0
Devianzay
Prodotti
degli scarti
(c*d)
( scarti ) 4,7
(my) 60,0
( scarti ) 250,0
34,0
77 - IL COEFFICIENTE DI REGRESSIONE
Calcoliamo, adesso, il Coefficiente di Correlazione r (Cov.x,y/RadQ Dev.x*Dev.y), la Forza dellAssociazione r2 ed il Coefficiente di Regressione by/x (Cov.x,y/Dev.x):
Corr. r = Covarianza(x,y)/RadQ[Devianzax*Devianzay]=34/(4,7*250)=0,99 Forza dellAssociazione r2 = 0,992 = 0,98 = 98% Coeff. Regressione by/x = covarianza (x,y) / devianza (x) = 34/4,7 = 7,22
In conclusione, dunque, possiamo affermare che: 1 ) Esiste una fortissima correlazione lineare positiva, visto che r quasi uguale ad 1, raggiungendo il valore di 0,99;
Serie X = Temperatura Valori Scarti (c = a-mx) (a) 1 2 3 4 5 36,0 36,7 37,5 38,3 38,6 Mediax (mx) 37,4 -1,4 -0,7 0,1 0,9 1,2
Devianzax
Serie Y = Frequenza Valori Scarti (d = b-my) (b) 50 55 60 65 70 Mediay -10,0 -5,0 0,0 5,0 10,0
Devianzay
Prodotti
degli scarti
(c*d)
( scarti ) 4,7
(my) 60,0
( scarti ) 250,0
34,0
2) Lassociazione molto forte, visto che il 98% della variazione della frequenza (y) spiegata dalla variazione della temperatura (x); 3) C un aumento della frequenza (y) di 7,22 battiti al minuto per ogni incremento di un grado centigrado di temperatura.
78 - IL COEFFICIENTE DI REGRESSIONE
Lanalisi di Regressione Lineare nota anche come Metodo dei Minimi Quadrati e consente di predire il valore di y (la frequenza) dai valori che prende la x (temperatura), con la classica formula y = a + bx. Nellesempio di prima il valore b (7,22) gi calcolato. Possiamo ricavare il valore di a partendo dai valori medi di y (60) e di x (37,5), essendo noto b (7,22), con la seguente equazione: a = y - bx = 60 (7,22*37,5) = -210,8. Adesso possiamo stimare il valore che assumer y quando x raggiunger un valore noto (ad esempio 40 gradi): y = a + bx = -210,8 + (7,22*40) = -210,8 + 288,9 = 78,1.
Quando loggetto dellanalisi non pi la relazione tra una variabile indipendente ed una dipendente (Analisi Bivariata), bens la relazione tra pi variabili contemporaneamente (dipendenti e indipendenti) ecco lAnalisi Multivariata.
esempio, volessimo stimare quale sia la forza dellassociazione tra linfarto miocardico acuto ed il fattore di rischio dellipertensione arteriosa, dovremmo tener presente lesistenza di ameno altri cinque fattori che risultano certamente associati alla stessa malattia, comportandosi come fattori di confondimento nei confronti dellipertensione: il fumo, lipercolesterolemia, lobesit, let ed il sesso.
Per poter quantificare il contributo indipendente di ciascuno di questi sei fattori al rischio complessivo di infarto del miocardio, necessario esaminare tutti e sei fattori contemporaneamente, ricorrendo allAnalisi Multivariata. Nella ricerca biomedica, infatti, sono molte le variabili che, generalmente, influenzano gli outcome (malattia o altro esito) che vogliamo studiare. Ed a seconda dellobiettivo dello studio, queste variabili saranno o i fattori di rischio di cui vogliamo valutare leffetto o i fattori di confondimento di cui vogliamo controllare leffetto.
? ? ?
A sua volta lAggiustamento pu essere condotto attraverso tre metodiche: La Standardizzazione (diretta o indiretta: lesempio classico del caso in cui si voglia annullare leffetto del fattore di confondimento dellet); LAnalisi Stratificata (Mantel Haenszel: utilizzata nel caso in cui in uno studio caso-controllo si voglia calcolare lOR aggiustata per il confondente noto); La Regressione multipla (lineare, logistica, ecc.) che, rispetto alle prime due, presenta il vantaggio di poter aggiustare per molte pi variabili per volta.
Numero di Persone
Numero di Persone
Si applicano i tassi specifici per et della popolazione in osservazione alle classi di et di una Popolazione Standard. Si applicano i tassi specifici per et di una Popolazione Standard alle classi di et di una popolazione in osservazione.
STANDARDIZZAZIONE DIRETTA
STANDARDIZZAZIONE INDIRETTA
0 1-5 >5
Sigarette (pacch. /d)
27 29 31
Mortalit per Cardiopatia Coronarica in maschi di 55-64 anni (morti/1000/anno)
0 1-2 >2
15 29 43
Esaminate singolarmente entrambe le variabili sembrano associate allaumento della patologia coronarica. Tuttavia ognuna di esse potrebbe comportarsi da confondente rispetto allaltra. E allora, per conoscere quale il reale contributo di ognuna di esse sullaumento del rischio occorre aggiustare i dati ricorrendo alla analisi stratificata.
Sigarette (pacchetti al d)
Caff (tazze al d)
0 4 6 5
1-2 9 10 10
>2
14 13 16
0 = 15 1-2 = 29 >2 = 43
0
0 = 27 1-5 = 29 >5 = 31
1-5
>5
Numero di morti/1000/anno per Cardiopatia Coronarica tra Maschi di 55-64 anni det (IL TOTALE E SEMPRE 87)
VARIABILI
Fumo 0 1-2 p./d >2 p./d Ipertens. No Lieve Moderata Elevata Ipercolest No Si Obesit No Lieve Moderata Elevata
1 2 3 4 5 6
E dunque, 2 categorie per il sesso, 6 per le fasce det, 3 per i fumatori, 4 per i livelli di ipertensione, 2 per la presenza o meno di ipercolesterolemia e 4 per i livelli di obesit esaminati. Col metodo della Stratificazione dovremo suddividere il campione di popolazione studiato in tutte le possibili combinazioni. Per lesattezza dovremmo suddividere il campione in 1.152 sottogruppi (e cio 2*6*3*4*2*4=1.152). Se disponessimo dunque di un campione di 1.000 soggetti, avremo una media di 0,8 persone per ogni sottogruppo: inattendile!
Studi Caso-Controllo, ecc. Proporzioni e Odds Ratio Studi di Coorte Studi di Sopravvivenza Tassi di Incidenza e Rischi Relativi Tassi di Rischio e Hazard Ratio
La Regressione Logistica si pu utilizzare anche in Studi Trasversali e negli Studi di Coorte in cui non necessario ricorrere al calcolo persona-tempo. La Regressione di Poisson si utilizza soprattutto negli Studi di Coorte che presuppongono limpiego del calcolo persona-tempo. La Regressione di Cox tiene conto del tempo in cui si verificano gli eventi ma non delle persone-tempo.
La retta di regressione viene calcolata attraverso il metodo dei minimi quadrati, capace di tracciare la retta che minimizzi la somma dei quadrati delle distanze tra questa e tutti i punti del grafico (corrispondenti alle osservazioni).
y (Ordinate ) Variabile Dipendente
Regressione Lineare Semplice: y = a + bx Intercetta (valore y quando x=0): a=ybx Coefficiente di Regressione (inclinazione o incremento di y quando x aumenta di 1): b y/x = S [(x mx)*(y my)] / [S (x-mx)2]
Inclinazione b
Malattia
Con la Regressione Lineare Multipla, dunque, possibile studiare lassociazione di ogni singola variabile x (fattore di esposizione) con la variabile y (la malattia), al netto degli effetti di tutte le altre variabili x (fattori di confondimento).
VARIABILI Sesso x1
1 = Maschi 0 = Femmine Variabile Dicotomica Variabile n. Continua
Et x2
in anni
Fumo x3
1 = <15 sig./d 2 = 15-29 sig./d 3 = 30 sig./d Variabile Categorica
Pressione x4
Var. numerica Continua
1 2 3 4
0 = No Fumatore in mm Hg
Tipo di Variabile:
Il calcolo dellintercetta a e dei coefficienti di regressione (b1, b2, b3, b4) relativi alle quattro variabili (x1, x2, x3, x4) risulta di estrema complessit. Pertanto si ricorre solitamente al computer e ad appositi programmi (Epi-Info)
CAMPI Sesso x1 1 0 ... 1 Et x2 45 48 ... 39 Fumo x3 0 3 ... 2 Pressione x4 120 115 ... 140
AGGIUSTARE e PREDIRE
40
Il valore di P calcolato dal computer, infine, assai prezioso, perch ci consente di valutare la significativit statistica dei valori ottenuti.
2.
3.
4.
Quando la variabile dipendente y esprime, invece, una variabile dicotomica (Malati o Sani) e non numerica continua, occorre far ricorso alla Regressione Logistica
2.
2.
ASSUNTI 1. 2. 3. 4. La relazione tra y ed x deve essere Lineare (lincremento di y per x1 che passa da 1 a 2 uguale allincremento di y per x che passa da 10 a 11); Non deve esserci interazione tra le variabili indipendenti (gli effetti di x1, x2, xn sono indipendenti. Se c interazione occorre lAnalisi Stratificata); Le variabili indipendenti x possono essere parametri numerici continui (1, 2, 3, ecc.), variabili dicotomiche (Si o No) o variabili categoriche (fasce det); La variabile dipendente y sempre dicotomica (unica sostanziale differenza rispetto alla Regressione Lineare Multipla).
da 0 a 1
Restituzione del Valore di P
P
Y
Odds = P/(1-P)
Trasformazione di P in Odds
+
da 0 a + Infinito
Trasformazione di Odds in Logaritmo di Odds (Log Odds)
LA REGRESSIONE LOGISTICA ed IL GIOCO DELL DELLOCA Il procedimento logico della Regressione Logistica viene rappresentato in questa immagine come il percorso di una sorta di Gioco delloca. La 1 tappa la trasformazione di y da dicotomica a continua (con gli Odds). La 2 la trasformazione degli Odds di y nei corrispondenti logaritmi. La 3, ottenuto il risultato di y, la restituzione del valore di Odds La 4 la restituzione del valore di p.
P = Odds/ (1+Odds)
Odds = e
Variabile Continua
+ Y
Risultato
da Inf. a + Inf.
Per una Probabilit P 0,1: Odds = P/(1-P) = 0,1/(1-0,1) = 0,1/0,9 = Per una Probabilit P 0,5: Odds = P/(1-P) = 0,5/(1-0,5) = 0,5/0,5 = Per una Probabilit P 0,9: Odds = P/(1-P) = 0,9/(1-0,9) = 0,9/0,1 =
0,11 1 9
E dunque, ancora, per un P uguale a 0,999 il relativo Odds sar di 999, e cos via di seguito fino a +. In questo modo abbiamo trasformato la variabile dipendente y da un valore dicotomico ad un valore numerico continuo.
E quindi il calcolo del Logaritmo in un certo senso loperazione inversa dellelevamento a potenza. Nei cosiddetti Logaritmi Naturali di un numero n si assume per base e il cosiddetto Numero di Eulero, che equivale ad e = 2,71828.
0,11 1 9
= -2,21 = 0 =+2,20
Spiegazione: Nel primo esempio su riportato, il Logaritmo Naturale dellOdds 0,11 (scaturente a sua volta da una P di 0,1 , come si ricorder) rappresenta lesponente che occorre dare alla base e (per la quale si assume il numero di Eulero 2,71828) al fine di ottenere il valore di Odds (0,11), secondo lequazione: Odds = e Log Odds (da cui appunto: Log Odds = Log e Odds). In questo caso, dunque, se il Logaritmo Naturale di Odds 0,11 -2,21, lequazione inversa (Odds = e Log Odds) sar: Odds = 2,71828 -2,21 = 0,11.
2. 3.
Pertanto, con la trasformazione degli esiti dicotomici P della variabile y, prima nei rispettivi Odds e poi nei corrispondenti Logaritmi naturali di Odds, siamo riusciti a trasformare la variabile dipendente y da una variabile dicotomica ad una variabile numerica continua compresa da meno infinito a pi infinito.
= 2,71828
; e ricavato Odds si ha la P:
- P=Odds/(1+Odds)
Categorie
Coefficiente a - 4,793 -
Gli OR di ogni variabile x sono gli antilogaritmi dei rispettivi coefficienti b: OR x1 (fumo) = antilog b1 = e b1 = 2,71828 b1 = 2,71828 0,058 = 1,06
= 0,122
E quidi ricaviamo la probabilit P: P = odds / (1+odds) = 0,122/(1+0,122) = 0,122/1,122 = 0,109 = 10,9 % In conclusione, dunque, abbiamo potuto stimare che il rischio di avere un figlio malformato nella donna con quelle caratteristiche del 10,9 %
Dove m il numero medio di eventi ed espresso da m = l T , dove a sua volta l il tasso di incidenza e T il tempo di osservazione. Pertanto per ricavare il Tasso di Incidenza m dal suo Logaritmo Naturale occorre calcolarne il corrispondente Antilogaritmo m = e (a + b1x1 + b2x2 + b3x3 + + bnxn ), cio: Tasso di Incidenza :
m = e (a + S bx) ;
b1),
Dove e il Numero di Eulero e lesponente la somma di a e dei prodotti bx. In analogia all OR della Logistica (dato da ORx1 = e Rischio Relativo : RRx1 = e
b1
Dove RRx1 il RR collegato ad un determinato fattore x1 mentre e b1 il Numero di Eulero elevato al coefficiente di regressione (b1) di x1. Analogamente lesponenziale di a (e a) il Tasso di Incidenza tra i Non Esposti.
LANALISI DI SOPRAVVIVENZA
x
Et (anni)
0 1 5
lx
N. Vivi
dx
N. Morti
25.437 6.692
px
Prob. Vita x1000
745,6 910,3
qx
Prob. Morte x1000
254,4 89,7
ex
Sper. Vita (anni)
26,9 35,0
n
Interv. (anni)
1 4
100.000 74.563
La Speranza di Vita E il numero medio di anni che resta da vivere ad un soggetto che ha raggiunto let x. Il suo calcolo comporta luso dei tassi di mortalit di tutte le et successive
x
Et (anni)
lx
N. Vivi
dx
N. Morti
25.437 6.692 3.960
px
Prob. Vita x1000
745,6 910,3 941,7
qx
Prob. Morte x1000
254,4 89,7 58,3
ex
Sper. Vita (anni)
26,9 35,0 37,5
2 3 4 5
0 1 2
x
Et (anni)
lx
N. Vivi
dx
N. Morti
25.437
px
Prob. Vita x1000
745,6
qx
Prob. Morte x1000
254,4
ex
Sper. Vita (anni)
26,9
lx = lx-1 dx-1
Excel (b3=b2-c2)
2 3 4 5 6 7 8 9 10 11 12 94 95 96 97
0 1 2 3 4 5 6 7 8 9 10 11-91 92 93 94 95
100.000
74.563
67.871 63.911 61.327 59.946 58.784 57.939 57.107 56.540 56.091 2.072.698 21 9 4 1
6.692
3.960 2.584 1.381 1.162 845 832 567 449 -
910,3
941,7 959,6 977,5 980,6 985,6 985,6 990,1 992,1 -
89,7
58,3 40,4 22,5 19,4 14,4 14,4 9,9 7,9 -
35,0
37,5 38,8 39,4 39,4 39,1 38,7 38,3 37,7 37,0
dx = lx lx+1
Excel (c3=b3-b4)
px = lx+1/lx *1000
Excel (d3=b4/b3*1000)
qx = dx / lx *1000
Excel (e3=c3/b3*1000)
ex = (lx+1+lx+2+)/lx
Excel (f3=b4+b5+/b3)
t
Anni dalla diagn.
n
Vivi ad inizio interval.
d
Morti durante interval.
w
Troncati durante interval.
n
Vivi ad inizio aggiustati
q
Proporz. Morti in interval.
p
Proporz. Vivi in interval.
S(t)
Proporz. Vivi da diagn.
t
Anni dalla diagn.
n
Vivi ad inizio interval.
d
Morti durante interval.
w
Troncati durante interval.
n
Vivi ad inizio aggiustati
q
Proporz. Morti in interval.
p
Proporz. Vivi in interval.
S(t)
Proporz. Vivi da diagn.
2 3
1 2
98 60
24 14
14 13
91 53,5
0,26 0,26
0,74 0,74
0,74 0,54
IL METODO ATTUARIALE - DESCRIZIONE: t = Intervallo di tempo trascorso dalla diagnosi (1anno=da 0 a 1; 2anno=da 1 a 2; ecc.) n = Pazienti vivi ad inizio intervallo (differenza dei vivi del precedente intervallo meno i morti ed i troncati del precedente intervallo; ad esempio nel 2 anno: 60 = 98-24-14) d = Pazienti morti nellintervallo preso in esame (ad esempio nel 2 anno: 14) w = Pazienti troncati, cio persi prima della fine dellintervallo di follow up (ritirati, ecc.) n = Vivi ad inizio intervallo (cio Esposti) aggiustato per leffetto di persi al follow up. E la differenza tra n (vivi ad inizio intervallo) e di w (troncati). Ad esempio: 91=98-0,5*14 q = Probabilit di morire nellintervallo. Deriva da d (morti) diviso n (aggiustati). 0,26=24/91 p = Probabilit di sopravvivere nellintervallo. Deriva da 1 q (Prob. Morte). 0,74=1-0,26 S(t) = Probabilit di sopravvivere da inizio diagnosi. Si calcola moltiplicando q per tutte le q precedenti. Ad es. alla fine del 2 anno: 0,54 = 0,74*0,74 (perch c un solo anno prima)
t
Anni dalla diagn.
n
Vivi ad inizio interval.
d
Morti durante interval.
w
Troncati durante interval.
n
Vivi ad inizio aggiustati (n-0,5w)
q
Proporz. Morti durante interval.
p
Proporz. Vivi durante interval.
S(t)
Proporz. Vivi da diagn. a fine int.
2 3 4 5 6 7
1 2 3 4 5 6
98
24 14 2 1 0 0
14 13 11 7 6 4
91
0,26
0,74
0,74
60
33 20 12 6
53,5
27,5 16,5 9 -
0,26
0,07 0,06 0,00 -
0,74
0,93 0,94 1,00 -
0,54
0,50 0,47 0,47 -
n = (n-1) (d-1) (w-1) ; Excel (B3 = B2 C2 D2) ; n = n 0,5*w ; Excel (E3 = B3 0,5*D3) ; q = d / n ; Excel (F3 = C3 / E3) ; p = 1 q ; Excel (G3 = 1 F3) ; S(t) = (p) * (p-1) * (p-2) * ; Excel (H3 = G3 * G2 *)
NO
Varianza di S(t) t 1 (0-1) 2 (1-2) 3 (2-3) 4 (3-4) 5 (4-5) d 24 14 2 1 0 / / / / / / ( ( ( ( ( ( n' 91,0 53,5 27,5 16,5 9,0 * (n'-d) ) = * 67,0 ) = 0,003936 * 39,5 ) = 0,006625 * 25,5 ) = 0,002852 * 15,5 ) = 0,00391 * 9,0 ) = 0 S(t)2 * Somma 0,22 * 0,017323 =
(Formula di Greenwood)
Risultato Finale
0,003884
t
Mesi alla morte
nt
Vivi prima della morte 14 14
dt
Morti al tempo t
wt
Persi al follow up nello interval. 0 0
nt-dt
Vivi dopo aver tolto i morti 14 13
pt
Probabil. Sopravv. in interv. t 1,000 0,929
Int. pt
Interval. tra due morti 0 <3 3 <8
S(t)
Probabil. Sopravv. al tempo t 1,000 0,929
2 3
0 3
0 1
t = Tempi completi di sopravvivenza dallinizio dello studio (0) per ogni deceduto nt = Numero di pazienti vivi al tempo t. dt = Num. decessi osservati al tempo t, di solito 1 (o pi di 1 con pari tempo t) wt = Soggetti persi al follow up (si tolgono dal num. di vivi della riga successiva) nt-dt = Pazienti rimasti dopo aver tolto i morti da nt (escludendo i tempi troncati) pt = Probabilit condizionata di sopravvivenza al tempo t (del singolo intervallo t) Int. pt = Intervallo di tempo intercorrente tra due morti successive S(t) = Probabilit non condizionata di sopravvivenza al tempo t (o cumulativa)
t
Mesi alla morte
nt
Vivi prima della morte 14 14 13 11 9 6 -
dt
Morti al tempo t
wt
Persi al follow up nello interval. 0 0 1 0 2 0 5
nt-dt
Vivi dopo aver tolto i morti 14 13 12 9 8 5 -
pt
Probabil. Sopravv. in interv. t 1,000 0,929 0,923 0,818 0,889 0,833 -
Int. pt
Interval. tra due morti 0 <3 3 <8 8 <14 14 <21 21 <25 25 >25 -
S(t)
Probabil. Sopravv. al tempo t 1,000 0,929 0,857 0,701 0,623 0,519 -
2 3 4 5 6 7 8
0 3 8 14 21 25 -
0 1 1 2 1 1 -
Metodo KAPLANMEIER: Le Formule NB: Tra i persi al follow up il primo esce a 8 mesi, altri due a 21 mesi e altri 5 vanno oltre i tempi dello studio con mesi: 29, 34, 37, 42, 49 (Tot. 241).
n = (n-1) (d-1) (w-1) ; Excel (B3 = B2 C2 D2) ; n - d = n d ; Excel (E3 = B3 C3) ; p = (n d) / n ; Excel (F3 = (B3-C3) / B3) ; S(t) = (p) * (p-1) * (p-2) * ; Excel (H3 = F3 * F2 *)
P ro p o rz io n e d i S o p ravvissu ti
1,000
0,800
0,600
0,400
0,200
0,000 0 5 10 15 20 25 30
NO
VARIANZA STIMATA di h
Var(h) = h2 / S (d) Esempio: Var(h) = 0,0184
2
/ 6 = 0,00005646
ERRORE STANDARD di h
ES(h) = RadQ [Var(h)] Esempio: ES(h) = RadQ 0,00005646 = 0,0075 per mese
Calcolo degli Attesi Il Calcolo degli Attesi, come in ogni tabella 2x2 uguale al prodotto dei marginali diviso il totale delle osservazioni (vedi Test C quadro): A(d A( 1) = d*n d* 1/n ; A(d A( 2) = d*n d* 2/n
d1 d2 d
n1 n2 n
Calcolo della Varianza di d1 Per inciso il Calcolo della Varianza sar: Var(d Var( 1) = [d*(n-d)*n d)* 1*n2]/[(n-1)*n 1)* 2]
NO
t
0 3 8 14 21 25
nt
14 14 13 11 9 6
dt
0 1 1 2 1 1
dt
d1 d2 d
nt
n1 n2 n
t3
A B Tot.
dt
1 2 3
nt
14 14 28
Supponiamo dunque di confrontare il gruppo A (trattati) ed il gruppo B (di controllo) entrambi di 14 soggetti e di osservare al tempo t (3, 8, 14, 21 e 25 mesi) i decessi (dt) della Tabelle (con nt depurati dai persi al follow up). Il Calcolo degli Attesi va fatto per ogni strato di t: t : A(d A( 1) = d*n d* 1/n t3: A(d1) = 3*14/28= 1,50 t3: A(d2) = 3*14/28= 1,50 t8: A(d1) = 2*13/25= 1,04 t8: A(d2) = 2*12/25= 0,96
Gruppo B (controllo)
t
0 3 8 14 21 25
nt
14 14 12 10 8 6
dt
0 2 1 1 2 1
t8
A B Tot.
dt
1 1 2
nt
13 12 25
Ecc., ecc.
NO
t
0 3 8 14 21 25
Calcolo Attesi
3*14/28 2*13/25 3*11/21 3*9/17 2*6/12 1,50 1,04 1,57 1,59 1,00 6,70
t
0 3 8 14 21 25
Calcolo Attesi
3*14/28 2*12/25 3*10/21 3*8/17 2*6/12 1,50 0,96 1,43 1,41 1,00 6,30
Calcolando separatamente i Casi Attesi di A e di B (per ogni intervallo t) per poi sommarli otteniamo i valori riassunti nelle Tabelle. Il calcolo semplificato dal fatto che i gruppi hanno la stessa numerosit ed i decessi sono stati rilevati agli stessi tempi t. In realt ci non accade quasi mai ed il calcolo pi difficile (si ricorrere al PC)
Casi Osservati
6,00
Casi Osservati
7,00
Somma Osser. A
Somma Osser. B
Allora se C2=S(O-A)2/A la formula C2= S(OA-AA)2/AA + S(OB-AB)2/AB e cio: C2= [Sd1SA(d1)]2/SA(d1) + [Sd2SA(d2)]2/SA(d2) Dove Sd1 e Sd2 sono il numero totale di decessi Osservati nei 2 gruppi OA e OB, mentre SA(d1) e SA(d2) sono la somma di tutti i decessi Attesi in AA e in AB
NO
Il risultato, come per qualsiasi test di significativit statistica, va confrontato con i relativi valori critici tabellari per stabilire se le differenze osservate sono o meno statisticamente significative. Nel caso in specie la differenza osservata non significativa. Calcolo del LOG-RANK con la deviata normale standard Il calcolo del test di Log-Rank si pu effettuare anche con la formula della deviata normale standardizzata (Approssimata Z), che si scrive: Z = S d1 A(d1)/RadQ [S Var(d1)] che, riprendendo le formule di A(d1) e di Var(d1), si pu scrivere pure: Z = S (d1 d*n1/n) / RadQ {[S d*(n-d)*n1*n2]/[n-1)*n2]} dove con la sommatoria S si intende la somma di tutti gli strati corrispondenti agli intervalli di tempo t presi in esame. Per il calcolo del Log-Rank si ricorre di solito ad appositi software statistici.
NO
Dove e la base del numero di Eulero (2,71828) ed il suo esponente la sommatoria di tutti i prodotti bx (b1x1 + b2x2 + b3x3 + + bnxn). In questultima equazione, pertanto, h(t) esprime il rischio o tasso di evento (per esempio di mortalit) in funzione dei diversi fattori x1 , x2 , x3 , xn , mentre h0(t) esprime la parte di evento influenzata solo dal trascorrere del tempo.
nel Modello di Cox lesponenziale dei coefficienti di regressione b rappresenta il rapporto di rischio o hazard ratio (HR) ed esprime (cos come il Rischio Relativo o lOdds Ratio) laumento del rischio di morte corrispondente allincremento unitario del fattore di rischio x in esame: Rapporto di Rischio (o Hazard Ratio) : HRx1 = e
b1 b1
Dove HRx1 l Hazard Ratio relativa ad un determinato fattore x1 mentre e Numero di Eulero (2,71828) elevato al coefficiente di regressione (b1) di x1.
il
Cos come per la Regressione Logistica i software statistici calcolano di solito le principali funzioni utili: i coefficienti b, l Errore Standard di b (ESb), gli HR (e b) ed i relativi Intervalli di Confidenza.