Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
06 68417 35013 15529 72765 85089 57067 50211 47487 31 05007 16632 81194 14873 04197 85576 45195 96565
07 82739 57890 20807 47511 81676 55300 94383 14893 32 68732 55259 84292 08796 43165 93739 31685 97150
08 60940 72024 17868 24943 61790 90656 87964 18883 33 45740 41807 65561 33302 07051 93623 18132 09547
09 36009 19365 15412 39638 85453 46816 83485 41979 34 27816 78416 18329 21337 35213 37741 04312 68508
10 38448 48789 18338 24697 39364 42006 76688 08708 35 66925 55658 39100 78458 11206 19876 87151 31260
11 81486 69487 60513 09297 00412 71238 27649 39950 36 08421 44753 77377 28744 75592 08563 79140 92454
12 59636 88804 04634 71197 19352 73089 84898 45785 37 53645 66812 61421 47836 12609 15373 98481 14592
13 62568 70206 40325 03699 71080 22553 11486 11776 38 66831 68908 40772 21558 47781 33586 79177 06928
14 45149 32992 75730 66280 03819 56202 02938 70915 39 55588 99404 70708 41098 43563 56934 48394 51719
15 61041 77684 94322 24709 73698 14526 31893 32592 40 12975 13258 13048 45144 72321 81940 00360 02428
16 14459 26056 31424 80371 65103 62253 50490 61181 41 96767 35964 23822 96012 94591 65194 50842 53372
17 38167 98532 62183 70632 23417 26185 41448 75532 42 72829 50232 97892 63408 77919 44575 24870 04178
18 73190 32533 04470 29669 84407 90785 65956 86382 43 88565 42628 17797 49376 61762 16953 88604 12724
19 95857 07118 87664 92099 58806 66979 98624 84826 44 62964 88145 83083 69453 46109 59505 69680 00900
20 35476 55972 39421 65850 04266 35435 43742 11937 45 19687 12633 57857 95806 09931 02150 43163 58636
21 71487 09984 29077 14863 61683 47052 62224 51025 46 37609 59057 66967 83401 60705 02384 90597 93600
22 13873 81598 95052 90908 73592 75186 87136 95761 47 54973 86278 88737 74351 47500 84552 19909 67181
23 54580 81507 27102 56027 55892 33063 41842 81868 48 00694 05977 19664 65441 20903 62371 22725 53340
24 71035 09001 43367 49497 72719 96758 27611 91596 49 71546 05233 53946 68743 72460 27601 45403 88692
2596746 12149 37823 71868 18442 35119 62103 39244 50 07511 88915 41267 16853 84569 79367 32337 03316
Effetto placebo, cieco e doppio
cieco
Essere a conoscenza del trattamento può
influire sulla risposta al trattamento
Soluzioni:
• Il paziente non conosce il trattamento (cieco)
• Il paziente e il ricercatore non conoscono il
trattamento (doppio cieco)
Studi osservazionali
Gli studi osservazionali si pongono l obiettivo di fotografare in un
dato tempo le dimensioni di parametri definiti, in un gruppo di
soggetti selezionati in funzione di ampi criteri di inclusione.
Uno studio osservazionale è uno studio in cui i soggetti e le variabili
non sono in alcun modo manipolate ma vengono semplicemente
osservate al fine di studiare la relazione tra una caratteristica ed un
evento
•La caratteristica può essere
–un trattamento
–un fattore demografico ( età, sesso…)
–un fattore comportamentale (n. sigarette, ore attività fisica….)
–un fattore ambientale (esposizione sostanze tossiche, polline…)
–dati di laboratorio, fattori genetici…
• L evento può essere:
– l insorgenza o la diagnosi della malattia o la sua
recrudescenza
– la guarigione
– la presenza di sintomi
– il verificarsi di effetti collaterali
– la morte
– ………..
• Una caratteristica capace di modificare
l insorgenza o il decorso di una malattia in
maniera prevedibile e riproducibile si
definisce fattore prognostico
• Se il fattore prognostico agisce in maniera
positiva è detto fattore di protezione
• Se il fattore prognostico agisce in maniera
negativa è detto fattore di rischio
Tipologie di studi osservazionali k
• Studi trasversali
• Studi prospettici (studi di coorte)
• Studi retrospettivi (studi caso-controllo)
Studi trasversali o di sorveglianza
coorte degli esposti seguita nel tempo coorte dei non esposti seguita nel tempo
evento presente (malati) evento assente (non malati) evento presente (malati) evento assente (non malati)
• Studi retrospettivi (studi caso-controllo):
– Si selezionano due campioni casuali di soggetti
tra le categorie della variabile risposta: un
campione costituito da soggetti che presentano
la caratteristica in studio (casi) e un altro
campione costituito da soggetti che non
presentano la caratteristica in studio (controlli)
– Lo studioso guarda retrospettivamente ai
soggetti valutando chi presenta o presentava e
chi non presenta o non presentava il fattore di
rischio
Studio retrospettivo
casi (malati) studiati nel passato controlli (non malati) studiati nel passato
2. Rilevazione
3. Elaborazione
4. Presentazione
5. Interpretazione
Pianificazione
• obiettivo dello studio
• ipotesi operative
• unità statistica e di rilevazione
• modalità di rilevazione
• caratteri da rilevare
• tipo di studio
• tipo di campionamento
• estensione territoriale
• estensione temporale
Pianificazione
• obiettivo dello studio
di
che mi
incertezza che va
quantificata
con la probabilità .
Fasi elaborazione
Si estrae un campione dalla popolazione
descrivono
80
60 staz.1
descrittiva
40 staz.2
staz.3
20
Statistica
0
t1 t2 t3 t4
100
80
st1
60
st2
40
st3
20
,4 0
,3
t1 t2 t3 t4
,3
,2
,2
,1 ,1
95% CI O2
O2 3
0,0 0,0
N= 9 9 9 9 N= 9 9 9 9
12 18 24 30
12 18 24 30
inferenziale
Statistica
Schemi di campionamento
• Campionamento casuale semplice
11 • Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione e sono selezionate
indipendentemente una alla volta.
• Si assegna ad ogni unità un numero
• Si estrae una certa quantità n di numeri
• Si selezionano le unità con numero
corrispondente.
selezione una unità non influisce
sulla scelta dell' alta
• Campionamento sistematico
– Le unità della popolazione hanno tutte la
stessa probabilità di far parte del campione,
si estrae la prima unità e si procede in
sequenza.
– Si assegna ad ogni unità un numero
– Si stabilisce l intervallo di campionamento
k=N/n (ad es. 10)
– Si estrae un numero tra 1 e k (ad es. 5)
– Si selezionano le unità con numero
corrispondente a 5, 15, 25, 35 ……
– Se la lista delle unità è ordinata casualmente
il campione è equivalente al campione
casuale semplice
F- E l' intervallo di campionamento
ad esempio tra 1 a 10 ,
Ne popolazione D= campione .
• Campionamento stratificato
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• si stratifica la popolazione in gruppi
omogenei
• Si estrae un campione casuale da ogni
strato
• Il campione da ogni strato può essere
proporzionale allo strato
• Garantisce la rappresentatività di ogni
strato
• Per strati molto omogenei si ottengono
stime molto precise
• Campionamento a cluster o a grappoli
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• La popolazione è naturalmente divisa in
gruppi o cluster
• Si assegna ad ogni cluster un numero
• Si estrae un campione casuale di cluster
• Si includono nel campione tutte le unità del
cluster oppure
• Si estrae un campione casuale da ogni
cluster
• Più semplice ma meno preciso del
campionamento stratificato
• Campionamento a stadi
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• La popolazione è naturalmente divisa in
stadi (es.:regioni – province – comuni)
• Si estraggono le unità di I stadio
• Da queste si estraggono le unità di II
stadio
• Si procede così sino alle unità finali
• Adatto a campionamenti su larga scala
• Utile quando non è possibile numerare le
unità della popolazione
Variabili
• La variabile
III
stadio
II
n .casi
• Grafici a torta
I
III
II
• Dot-plot
80
60
• Istogramma 40
20
0
10 20 30 40
classi di biomassa
100
90
80
• Poligono di frequenza 70
60
50
40
30
20
10
0
10 classi20
di biomassa30 40
60
50
• Scatter plot 40
30
y
20
10
0
0 5 10 15 20 25 30 35
x
,4
,3
26
20
22
24
• Box-plot ,2
,1
O2
0,0
N= 12 12 12
15 35 92
IRRADIA
Grafici a barre
Distribuzione dei casi di adenocarcinoma dell'endometrio Distribuzione dei casi di adenocarcinoma dell'endometrio
per stadio per stadio
III
III 150 I
III
II 100
II
II
50
I
I
0
0 20 40 60 80 100 120 140 160 I II III
Distribuzione dei casi di adenocarcinoma dell'endometrio Distribuzione dei casi di adenocarcinoma dell'endometrio
per stadio per stadio
I I
III III
II II
80
70
60
n. case di cura
50
40
30
20
10
0
fino a 50 50-100 100-150 150-200 200-250 0ltre 250
n.posti letto
80
70
60
n. case di cura
50
40
30
20
10
0
fino a 50 50-100 100-150 150-200 200-250 0ltre 250
n.posti letto
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
000111223344444
55667778999999
02223333344444
9,00 0. 223333344
55556778889
55566667899
14,00 0. 55667778999999
223333344
566778899
Stem & Leaf
14,00 1. 02223333344444
1111224
9,00 1. 566778899
0113
15,00 2. 000111223344444
11,00 2. 55556778889
9
0
7,00 3. 1111224
0.
1.
2.
0.
1.
3.
4.
4.
5.
2.
3.
11,00 3. 55566667899
Frequency
4,00 4. 0113
14,00
14,00
15,00
11,00
11,00
9,00
9,00
7,00
4,00
1,00
1,00
1,00 4. 9
1,00 5. 0
60
50
40
30
y
20
10
0
0 5 10 15 20 25 30 35
x
40
80
30
84
7
30
20
79
20
6 583
78
22
2
10 77
1
10
0 0
PHAE ANT
d .s. = S = Var ( x) = S 2
Coefficiente di variazione S
C.V . = 100
x
CL
SESS AB ALTEZZ MMK
NUM ID O ANNI BMI MI PESO A G GRKG BMCKG
1 15 F 40 24,7 1 54,1 148,0 34,8 17,2 2,1
2 27 M 19 18,6 1 57,0 175,0 48,2 6,2 2,5
3 44 F 47 22,0 1 50,1 151,0 34,2 13,9 2,0
4 54 F 45 24,0 1 58,5 156,0 36,9 19,2 2,3
5 57 F 45 24,6 1 55,3 150,0 36,0 17,3 2,0
6 128 F 49 31,2 3 77,0 157,0 44,4 29,5 2,8
7 139 F 48 32,5 3 78,0 155,0 39,2 36,5 2,4
8 231 F 58 27,9 2 64,3 152,0 37,9 24,0 2,4
9 248 F 55 29,2 2 66,5 151,0 37,4 26,7 2,4
10 252 F 53 29,4 2 63,5 147,0 39,4 22,0 2,1
11 258 F 52 29,6 2 77,6 162,0 43,3 32,0 2,4
12 263 F 57 29,8 2 69,7 153,0 40,8 26,4 2,4
13 301 F 58 31,9 3 72,6 151,0 38,9 31,8 2,0
14 314 F 57 33,2 3 73,6 149,0 37,2 34,0 2,4
15 326 M 59 28,4 2 87,0 175,0 59,2 24,6 3,1
16 331 F 67 21,4 1 48,7 151,0 37,9 9,1 1,7
17 345 F 70 23,4 1 53,3 151,0 33,9 21,5 2,2
18 374 F 68 26,4 2 60,2 151,0 39,1 18,9 2,1
19 439 F 65 31,3 3 72,2 152,0 40,7 29,2 2,4
20 447 F 64 32,1 3 80,0 158,0 41,4 36,5 2,1
21 458 F 62 33,0 3 77,5 151,0 36,6 36,4 2,3
Costruiamo la distribuzione di frequenza
per sesso
350
300 M
250
200
150
100 F
50
0
F M 0 50 100 150 200 250 300 350
M
M
28%
28%
F F
72% 72%
Calcoliamo media, moda e mediana del
peso NUM
1
PESO
45,6
∑ x i 1169.9 2 48,6
Media x= = = 58.495 3 48,7
n 20 4 50,1
5 53,3 Q1
6 54,1
Moda=nessuna 7 55,3
8 55,9
9 57,0
Q1=x(5)=53.3 14 62,1
15 63,5 Q3
16 63,6
17 64,3
Q3=x(15)=63.5 18 66,5
19 69,7
20 72,2
Calcoliamo range, varianza, dev.standard
e c.v. del peso 1 45,6 -12,90 166,28
NUM PESO x-x (x-x) 2
R=72.2-45.6=26.6
2 48,6 -9,90 97,91
3 48,7 -9,79 95,94
4 50,1 -8,40 70,48
Q3-Q1=63.5-53.3=10.2 5 53,3 -5,20 26,99
6 54,1 -4,40 19,32
7 55,3
2 -3,20 10,21
2 ∑ (x − x )
i
8 55,9
S = = 9 57,0
-2,60 6,73
n −1 10 58,5
-1,50
0,01
2,24
0,00
11 59,1
984.27 0,61 0,37
= = 51.8 12 60,2
1,71 2,91
19 13
14
61,6
62,1
3,11 9,64
3,61 13,00
15 63,5
5,01 25,05
S = 51.8 = 7.20 16
17
63,6
64,3
5,11 26,06
5,81 33,70
18 66,5
C.V.=12.31% 19 69,7
8,01 64,08
11,21 125,55
20 72,2
13,71 187,83
Calcoliamo media, moda e mediana
dell età
NUM ANNI
∑ x 459 1 19
Media x= i
= = 45.9
n 10 2 40
Moda=45 3 45 Q1
4 45
5 47
Mediana=(47+48)/2=47.5 median
6 48
a
7 49
Q1=45 8 53 Q3
9 55
Q3=53 10 58
totale 459
Calcoliamo range, varianza, dev.standard
dell età x-x (x-x)
2
NUM ANNI
R=58-19=39 1 19
2 40
3 45
Q3-Q1=8 4 45
5 47
6 48
2 7 49
2 ∑ (x − x )
i
S = = 117.211 8 53
n −1 9 55
10 58
totale 459
S = 117.211 = 10.83
Inferenza statistica
• Nell estendere i risultati dal campione
alla popolazione si passa da una
condizione di certezza ad una di
incertezza
• I risultati ottenuti nel campione sono solo
una variante di tutti i possibili risultati
degli infiniti campioni che si possono
estrarre da una popolazione
• Occorre quantificare la probabilità che
ogni deduzione basata sui dati sia
corretta
x1 = 12 x 2 = 14
S1 = 3
S2 = 3
x1 = 12
x3 = 11 S1 = 3
S3 = 2 x 4 = 14
S 4 = 3.5
Quale di questi
campioni
descrive meglio
x7 = 18 x5 = 10
x150 = 12 x6 = 13 la popolazione?
S150 = 3 S 6 = 1,8 S 7 = 2,4 S5 = 1
x 200 = 17
S 200 = 4 x n = 16
Sn = 2
30 25
25 20
20
15
15
10
10
5
5
0 0
• funzione di densità di probabilità
2
1 & 1,x−µ) #
f ( x) = exp $− * ' !
-¥ £ x £ +¥ σ 2π $
% 2 + σ ( !"
• parametri µ = media
s = deviazione standard
Caratteristiche della curva
normale
• ha una forma a campana
2
1 ( z %
f ( z) = exp'− $
2π & 2#
− ∞
• Parametri µ=0
< z < +∞
s=1
standardizzazione
• da una variabile qualsiasi si ottiene la
variabile z mediante la trasformazione
x−µ
z=
σ
Utilità della normale standard
• consente di determinare agevolmente la
probabilità relativa a qualsiasi intervallo
• ci evita il calcolo integrale
• esistono delle tavole relative alla
probabilità di z compreso in qualsiasi
intervallo
Esempio 1
• Facendo riferimento all esempio
precedente, determiniamo la probabilità
che un soggetto scelto a caso abbia
1. un livello di LDL > 6 mmol/L
2. un livello di LDL < 4 mmol/L
3. un livello di LDL compreso tra 4 e 6
mmol/L
Come si procede
praticamente?
Primo quesito:
• P(x>6) I area da 6 a +¥
• si trasforma la x in z
• poiché P(x>6) =P(z>(x-µ)/s)=
=P(z>(6-4.8)/0.6)=
=P(z>2)
3. si determina sulle tavole il valore della
probabilità in corrispondenza di 2
4. P(x>6)=P(z>2)=0.0228
secondo quesito:
1. P(x<4) I area da -¥ ad x=4
2. si trasforma la x in z
3. poiché P(x<4)=P(z<(x -µ)/s)=
4. = P(z<(4 -4.8)/0.6)=P(z<-1.33)
5. si determina sulle tavole il valore della
probabilità in corrispondenza di 1.33
6. P(x<4)=P(z<-1.33)=0.0912
terzo quesito:
1. P(4<x<6) I area da x1=4 ad x2= 6
2. si trasforma la x1 in z1 e la x2 in z2
3. poiché P(4<x<6)=P((x1-µ)/s <z<(x2 -µ)/s)=
4. = P((4-4.8)/0.6 <z<(6 -4.8)/0.6)=
=P(-1.33<z<2)
5. si determina sulle tavole il valore della
probabilità in corrispondenza -1.33 e di 2
6. P(4<x<6)=1- (P(z<-1.33)+ P(z>2))=1-
(0.0228+0.0912)=0.886
Esempio 2
• Ipotizziamo che il peso in una popolazione di
uomini adulti si distribuisca secondo una
Gauss con media 75 Kg e d.s. 8,
determinare la probabilità di avere:
1. Un soggetto con un peso >80
2. Un soggetto con un peso <65
3. Un soggetto con un peso compreso tra 65 e
80
Come si procede
praticamente?
Primo quesito:
• P(x>80) I area da 80 a +¥
• si trasforma la x in z
• poiché P(x>80) =P(z>(x-µ)/s)=
=P(z>(80-75)/8)=
=P(z>0.625)
3. si determina sulle tavole il valore della
probabilità in corrispondenza di 0.625
4. P(x>80)=P(z>0.625)=0.266
secondo quesito:
1. P(x<65) I area da -¥ ad x=65
2. si trasforma la x in z
3. poiché P(x<65)=P(z<(x -µ)/s)=
4. = P(z<(65-75)/8)=P(z<-1.25)
5. si determina sulle tavole il valore della
probabilità in corrispondenza di 1.25
6. P(x<65)=P(z<-1.25)=0.106
terzo quesito:
1. P(70<x<90) I area da x1=70 ad x2= 90
2. si trasforma la x1 in z1 e la x2 in z2
3. poiché P(70<x<90)=P((x1-µ)/s <z<(x2 -µ)/s)=
4. = P((70-75)/8 <z<(90-75)/8)=
=P(-0.6<z<1.92)
5. si determina sulle tavole il valore della
probabilità in corrispondenza -0.6 e di 1.92
6. P(70<x<90)=1- (P(z<-0.6)+
P(z>1.92))=0.106
A volte una variabile con una
distribuzione chiaramente asimmetrica
può essere matematicamente
trasformata così da renderne normale la
distribuzione
0,18
0,16
0,14
0,12
0,10
p
0,08
0,06
0,04
0,02
0,00
0 1 2 3 4 5 6 7
risultati di un lancio
Distribuzione teorica dei risultati di un
lancio del dado e Distribuzione di Gauss
Guardiamo invece la distribuzione teorica
della somma dei risultati di due dadi ed il
relativo istogramma
n.di
Probabilit
eventi
à di
che
somma avere
danno
tale
tale
somma
somma
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
somma di due dadi
9 4 4/36
10 3 3/36
• Cosa succede empiricamente con 10,
100, 1000 e 10000 lanci
Distribuzioni di
campionamento
• La distribuzione di campionamento di un
valore caratteristico (media, varianza..) è
la distribuzione dei valori di tali
statistiche calcolate su campioni casuali
della stessa dimensione
Distribuzione della media
campionaria
• Ipotizziamo di estrarre tutti i possibili
campioni di una determinata dimensione
da una popolazione
• Ipotizziamo di calcolare per ogni
campione la media
• Se costruissimo una distribuzione di
frequenza di tutti i valori medi ottenuti dai
campioni avremmo una distribuzione
normale (teorema del limite centrale)
• Per qualsiasi x si ha & σ #
x ≈ N $ µ, !
% n"
• con media pari alla media della popolazione µ
• con varianza pari alla varianza della
popolazione, s2, diviso la numerosità del
campione.
• E la z si ottiene standardizzando la
media campionaria:
x−µ
z=
σ
n
x1 = 12 x 2 = 14
S1 = 3
S2 = 3
x1 = 12
x3 = 11 S1 = 3
S3 = 2 x 4 = 14
S 4 = 3.5
Quale di questi
campioni
descrive meglio
x7 = 18 x5 = 10
x150 = 12 x6 = 13 la popolazione?
S150 = 3 S 6 = 1,8 S 7 = 2,4 S5 = 1
x 200 = 17
S 200 = 4 x n = 16
Sn = 2
1 − α = P&$ − L σ ≤ x − µ ≤ Lσ #
!
% n n"
1 − α = P&$ − L σ − x ≤ −µ ≤ − x + L σ #
!
% n n"
1 − α = P&$ x − L σ ≤ µ ≤ x + Lσ #
!
% n n"
1 − α = P&$ x − z σ ≤ µ ≤ x + zσ #
!
% n n"
• per 1-a=0,95 (cioè a = 0,05) z è pari a
1,96
&
1 − α = P$ x − t s ≤ µ ≤ x +t s #
!
% n n"
Intervallo di confidenza per una
media
&
1 − α = P$ x − t s ≤ µ ≤ x +t s #
!
% n n"
Il valore di t si determina in corrispondenza di
a=0.05 o 0.01 e dei gradi di libertà n-1
Esempio 1: intervallo di confidenza
peso medio di bambini maschi di 8
anni
• Ipotizziamo di disporre dei seguenti valori
relativi al peso di 10 bambini maschi di 8 anni
30 28 38 36 40 29 34 35 41
37
• Costruiamo l intervallo di confidenza per µ
ipotizzando:
1.di conoscere la dev. standard s=2
2.di non conoscere la dev. standard
1. dev. standard nota
• Calcoliamo nel campione la media
• media=34.8
• z=1.96
• s=2
(
1 − α = P& x − z σ ≤µ≤x+z σ %
#
' n n$
H0: µ=50
H1: µ>50
H0: µ= 1
H1: µ> 1
3. Si effettuano nel campione i calcoli
necessari per la verifica
• Si calcola il diametro medio dei noduli
• Si calcola l età media delle donne operate al
seno
• ………..
• Si valutano le differenze nelle misure dei due
operatori
• ………
• Si descrive il campione in relazione alle ipotesi
che si vogliono verificare
Per la media:
x ≈ N &$ µ , σ #
!
% n"
H0 H1
µ=1.5 µ>1.5
x=2 x=2
S = 0.2 S = 0.2
H0 H1
b a
VALORE SOGLIA
µ=1.5 x=2 µ>1.5
• A questo punto per verificare l ipotesi:
H0: µ=1.5 H1: µ>1.5
occorre:
x−µ
z=
σ
n
• posto a=0.05 il valore soglia è 1.645
• la regola di decisione sarà che se z
calcolato >1.645 si rifiuta H0
• Nel nostro esempio di un campione di 500
noduli con diametro medio=2, ipotizzando
di conoscere la deviazione standard s=0.4,
la statistica test da utilizzare è:
x−µ 2 − 1.5
z= = = 27.95
σ 0.4
n 500
0,3
normale
t (nu=1)
0,2 t (nu=2)
t (nu=5)
0,1
0,0
-4 -3 -2 -1 0 1 2 3 4
H0 H1
1-a 1-b
a
b
Valore soglia tcal
a:probabilità di rifiutare H0 quando è vera (errore I tipo)
b:probabilità di accettare H0 quando è falsa (errore II tipo)
1-a: probabilità di accettare H0 quando è vera
1-b: probabilità di rifiutare H0 quando è falsa
(potenza del test)
0,05
0,045 H H00 H1 H 1
0,04
0,035
Sani Malati Potenza del test:
Probabilità di rifiutare
0,03
l’ipotesi nulla falsa
1-a
0,025
0,02 1-b
0,015
0,01
b a
0,005
0
0 10 20 30 40 50 60 70 80 90
ETA’
Valore critico
Falsi negativi Falsi positivi
Errore di secondo tipo: Errore di primo tipo:
rischio di non rifiutare rischio di rifiutare
l’ipotesi nulla falsa l’ipotesi nulla vera
Livello di significatività a e p value
Test di verifica su medie: un
gruppo
• Si formulano le ipotesi
H0: µ=µ0
H1: µ>µ0 oppure H1: µ<µ
H1: µ≠µ
• Si fanno delle assunzioni circa:
– La distribuzione (di Gauss?)
– La varianza (nota?)
x−µ
• Si costruisce la statistica test t=
s
n
• Si effettuano i calcoli e si prende la decisione: se
t calcolato>t tabulato si rifiuta H0, il test è
significativo
Ancora sulla significatività
Dire che un test è significativo vuol dire
che:
• il nostro risultato è più verosimile che sia
stato ottenuto da un campione estratto
da una popolazione ipotizzata in H1 che
in H0
• la differenza tra quello che otteniamo nel
campione e quello ipotizzato in H0 non è
ottenuto per caso ma al fatto che il
campione appartiene ad una
popolazione ipotizzata in H1
Confronto fra due gruppi
• Quando si vogliono confrontare due
gruppi occorre valutare se:
1. i campioni sono indipendenti o
dipendenti
2. la distribuzione della variabile è di
Gauss
3. altre condizioni
1. Campioni indipendenti o
dipendenti?
• Campioni indipendenti: si tratta di unità
distinte classificate in
– diversi trattamenti
– diverso sesso
– diverse classi di età
– diversi luoghi
– diverse condizioni sperimentali
• Campioni dipendenti: si tratta delle
stesse unità misurate
H0: µ1= µ2
H1: µ1> µ2 oppure H1: µ1<µ2
H1: µ1≠µ2
• Il test da utilizzare è:
( x1 − x2 ) − ( µ1 − µ 2 )
t=
S p2 S p2
+
n1 n2
µ1 µ3
s1 s3
n1=11 n3=8
x1=12.78 x3=33.30
S1=5.72 S3=3.04
1.Si estrae un campione dalla popolazione di
soggetti sottopeso (Classe BMI=1) ed uno
di soggetti sovrappeso (Classe BMI=3)
2.Si tratta di due campioni indipendenti
3.Si assume la normalità della massa grassa
4.Si assume l omogeneità delle varianze
5.Si stimano i parametri media e dev.
standard
6.L ipotesi da verificare è
H0: µ1= µ3
H1: µ1≠µ3
• Il test da utilizzare è:
( x1 − x2 ) − ( µ1 − µ 2 ) (12.78 − 33.3) − 0
t= = = −9.20
S p2 S p2 23.05 23.05
+ +
n1 n2 11 8
• L ipotesi da verificare è
H0: i due gruppi sono uguali
H1: i due gruppi sono diversi
• Come si procede?
• si crea un campione combinato ponendo le
osservazioni in ordine non decrescente
• si assegna il rango a tutte le osservazioni
• si calcola la somma dei ranghi distinta per i
due campioni
• si confronta la somma dei ranghi del
campione più piccolo con l intervallo
tabulato
• Si rifiuta H se il valore è esterno
Esempio 1:confronto massa grassa
H0: µd= 0
H1: µd> 0 oppure H1: µd<0
H1: µd≠0
• Il test da utilizzare è:
d − µd
t=
S d2
n
Che si distribuisce come un t-Student con
n-1 gradi di libertà
con d
d=
∑ i
S d2 =
∑ (d i −d)
n −1
µd
sd
n=15
d=0.3
S2d=2.38
1. Si estrae un campione di soggetti da una
popolazione e si fa misurare il diametro
dei noduli da due operatori
2. Si tratta di due campioni dipendenti o
appaiati
3. Si effettuano le differenze (op.1-op.2)
4. Si verifica la normalità della differenza dei
diametri
5. Si stimano i parametri media e dev.
Standard della differenza
6. L ipotesi da verificare è
H0: µd= 0
H1: µd ≠ 0
Calcoliamo media e dev.standard
op.1 op.2 diff.
50 49,3 0,7
80 81,8 -1,8 ∑d i 5
d= = = 0.3
15 13,6 1,4 n 15
20 20,0 0,0 2
S d2 =
∑ (d − d ) = 2.38
i
40 43,1 -3,1 n −1
30 29,5 0,5
15 12,9 2,1
10 11,4 -1,4
10 9,1 0,9 Calcoliamo la statistica test
12 11,2 0,8
15 14,6 0,4 d − µd 0.3 − 0
t= = = 0.75
15 15,3 -0,3 S d2 2.38
18 17,7 0,3 n 15
18 15,0 3,0
8 6,5 1,5
• posto a=0.05 e g.l.= 14, si determina il valore soglia
(ttab)=2.145
• essendo t calcolato <ttab si accetta H0
• in questo caso il test non è significativo
Test non parametrico per campioni appaiati: tes
dei ranghi con segno di Wilcoxon
• L ipotesi da verificare è
S ranghi + =70
in questo caso si accetta
S ranghi - =35 H0
n op.1 op.2 diff. diff.ass. ranghi
1 50 49,3 0,7 0,7 5,0
2 80 81,8 -1,8 1,8 11,0
3 15 13,6 1,4 1,4 8,5
4 20 20,0 0,0
5 40 43,1 -3,1 3,1 14,0
6 30 29,5 0,5 0,5 4,0
7 15 12,9 2,1 2,1 12,0
8 10 11,4 -1,4 1,4 8,5
9 10 9,1 0,9 0,9 7,0
10 12 11,2 0,8 0,8 6,0
11 15 14,6 0,4 0,4 3,0
12 15 15,3 -0,3 0,3 1,5
13 18 17,7 0,3 0,3 1,5
14 18 15,0 3,0 3,0 13,0
15 8 6,5 1,5 1,5 10,0
d=
∑d i
=
0.69
= 0.069
n 10
S d2 =
∑ (d −d) i
= 0.05
n −1
d − µd 0.069 − 0
t= = = 0.962
S d2 0.05
n 10
• L ipotesi da verificare è
H0= indipendenza
H1= dipendenza
2a 1 2 … j … c Tot.
variabil
e
1 O11 O12 … O1j … O1 N1.
c
2 O2 O22 … O2j … O2 N2.
1 c
… … … … … … … …
i Oi1 Oi2 … Oij … Oic Ni.
… … … … … … … …
r Or1 Or1 … Orj … Or Nr.
• Con Oij =valore osservato (n. di soggetti
con le caratteristiche i e jc delle due
Tot. N.1 N.2 … N.j … N. N
variabili)
c
Esempio: Valutare se esiste una relazione
tra quantità di vitamina C assunta
giornalmente e episodi di raffreddore
Quantità di vitamina C giornaliera
Episodi di 0 500 mg 1000 totale
raffreddor mg
e
nessuno 57 26 17 100
Ni ⋅ N j
Eij =
N
• dove per ogni cella
Ni=totale di riga
Nj=totale di colonna
N=totale
2 1 2 … j … c Tot.
variabil
e
1 E11 E12 … E1j … E1c N1.
… … … … … … … …
… … … … … … … …
χ2 = ∑
(O
ij − Eij )
2
ij Eij
Χ2 = ∑
(Oij − Eij )
2
=
( 2
57 − 62.2) (26 − 24.4)
+
2
+ ...
(43 − 46.6)
2
= 1.99
ij Eij 62.2 24.4 46.6
• Fissato a=0.05 e g.l.=2 il valore tabulato è
5.99
• Essendo il c2 calcolato< c2 tabulato si accetta
H0
• Il test non è significativo
• Le variabili sono indipendenti
• In questo caso si poteva anche porre
H0=p1=p2=p3
H1=almeno due p diverse
Tabelle di contingenza 2x2
• Quando la tabella è del 1a variabile
tipo 1 2 Tot.
2a variabile 1 a b a+b
2 c d c+d
2
2 N (ad − bc )
χ =
(a + b) × (c + d ) × (a + c) × (b + d )
2
2 N (ad − bc − 0,5 N )
χ =
(a + b) × (c + d ) × (a + c) × (b + d )
• La regola di decisione è sempre la stessa:
se c2 calc.>c2 tabulato si rifiuta H0
• In questo caso
H0=p1=p2
H1=p1≠p2
In uno studio sull efficacia dei caschi protettivi per bicicletta
nella prevenzione dei traumi cranici sono stati rilevati i seguenti
dati:
trauma Casc Casco TOTAL
cranic osi no E
o Valutare se le percentuali
di trauma cranico sono le
si 17 218 235 stesse tra chi aveva il
no 130 428 558 casco e chi no
TOTAL 147 646 793
H0=p
E 1=p2
H1=p1≠p2
2 2
2 N (ad − bc ) 793(17 x 428 − 218 x130)
Χ = = = 28.26
(a + b) × (c + d ) × (a + c) × (b + d ) (235) × (558) × (147) × (646)