Sei sulla pagina 1di 201

OBIETTIVO DEL CORSO

• ACQUISIRE ALCUNE NOZIONI BASILARI


DI STATISTICA UTILI A:
– comprendere e valutare criticamente la letteratura
medica ed epidemiologica nei suoi aspetti
metodologico-statistici;
– interagire in maniera costruttiva con esperti in
statistica;
– essere coscienti della necessità di una assistenza
statistica ;
– partecipare a progetti di ricerca nell ambito della
sperimentazione clinica e dell indagine
epidemiologica.
Studi statistici
• Studi osservazionali
Si osservano diversi aspetti di una situazione
esistente e si interpretano i dati per dare una
spiegazione sull’origine della situazione
osservata
• Studi sperimentali
Si compie un’azione (somministrazione di un
farmaco) e si osservano e si interpretano gli
effetti di tale azione
Studi sperimentali
• Possono essere condotti
– in vitro
– su animali
– su volontari
– su pazienti
– su soggetti sani
• Gli studi di trattamenti condotti su soggetti
umani si dicono studi clinici
Come verificare se un nuovo
trattamento (sperimentale) è
più efficace di quello in uso?
• Confrontare i risultati ottenuti con il trattamento
sperimentale con i risultati ottenuti NO
precedentemente con il trattamento standard
recuperati da eventuali registri?
• Confrontare i nostri pazienti (trattamento NO
sperimentale) con pazienti di altro ospedale
(trattamento standard)?
• Somministrare il trattamento sperimentale a
pazienti che lo accettano volontariamente e il NO
trattamento tradizionale ai pazienti che non lo
accettano?
• Allocare i pazienti al trattamento sperimentale
o a quello tradizionale in modo alternato? NO
• Allocare i pazienti al trattamento sperimentale
o a quello tradizionale seguendo un
procedimento casuale? SI
Tavola dei numeri casuali
01 19223 95034 05756 28713 96409 12531 42544 82853 26 96927 19931 36809 74192 77567 88741 48409 41903
02 73676 47150 99400 01927 27754 42648 82425 36290 27 43909 99477 25330 64359 40085 16925 85117 36071
03 45467 71709 77558 00095 32863 29485 82226 90056 28 15689 14227 06565 14374 13352 49367 81982 87209
04 52711 38889 93074 60227 40011 85848 48767 52573 29 36759 58984 68288 22913 18638 54303 00795 08727
05 95592 94007 69971 91481 60779 53791 17297 59335 30 69051 81717 40951 78453 4004 89872 87201 97245

06 68417 35013 15529 72765 85089 57067 50211 47487 31 05007 16632 81194 14873 04197 85576 45195 96565
07 82739 57890 20807 47511 81676 55300 94383 14893 32 68732 55259 84292 08796 43165 93739 31685 97150
08 60940 72024 17868 24943 61790 90656 87964 18883 33 45740 41807 65561 33302 07051 93623 18132 09547
09 36009 19365 15412 39638 85453 46816 83485 41979 34 27816 78416 18329 21337 35213 37741 04312 68508
10 38448 48789 18338 24697 39364 42006 76688 08708 35 66925 55658 39100 78458 11206 19876 87151 31260

11 81486 69487 60513 09297 00412 71238 27649 39950 36 08421 44753 77377 28744 75592 08563 79140 92454
12 59636 88804 04634 71197 19352 73089 84898 45785 37 53645 66812 61421 47836 12609 15373 98481 14592
13 62568 70206 40325 03699 71080 22553 11486 11776 38 66831 68908 40772 21558 47781 33586 79177 06928
14 45149 32992 75730 66280 03819 56202 02938 70915 39 55588 99404 70708 41098 43563 56934 48394 51719
15 61041 77684 94322 24709 73698 14526 31893 32592 40 12975 13258 13048 45144 72321 81940 00360 02428

16 14459 26056 31424 80371 65103 62253 50490 61181 41 96767 35964 23822 96012 94591 65194 50842 53372
17 38167 98532 62183 70632 23417 26185 41448 75532 42 72829 50232 97892 63408 77919 44575 24870 04178
18 73190 32533 04470 29669 84407 90785 65956 86382 43 88565 42628 17797 49376 61762 16953 88604 12724
19 95857 07118 87664 92099 58806 66979 98624 84826 44 62964 88145 83083 69453 46109 59505 69680 00900
20 35476 55972 39421 65850 04266 35435 43742 11937 45 19687 12633 57857 95806 09931 02150 43163 58636

21 71487 09984 29077 14863 61683 47052 62224 51025 46 37609 59057 66967 83401 60705 02384 90597 93600
22 13873 81598 95052 90908 73592 75186 87136 95761 47 54973 86278 88737 74351 47500 84552 19909 67181
23 54580 81507 27102 56027 55892 33063 41842 81868 48 00694 05977 19664 65441 20903 62371 22725 53340
24 71035 09001 43367 49497 72719 96758 27611 91596 49 71546 05233 53946 68743 72460 27601 45403 88692
2596746 12149 37823 71868 18442 35119 62103 39244 50 07511 88915 41267 16853 84569 79367 32337 03316
Effetto placebo, cieco e doppio
cieco
Essere a conoscenza del trattamento può
influire sulla risposta al trattamento
Soluzioni:
• Il paziente non conosce il trattamento (cieco)
• Il paziente e il ricercatore non conoscono il
trattamento (doppio cieco)
Studi osservazionali
Gli studi osservazionali si pongono l obiettivo di fotografare in un
dato tempo le dimensioni di parametri definiti, in un gruppo di
soggetti selezionati in funzione di ampi criteri di inclusione.
Uno studio osservazionale è uno studio in cui i soggetti e le variabili
non sono in alcun modo manipolate ma vengono semplicemente
osservate al fine di studiare la relazione tra una caratteristica ed un
evento
•La caratteristica può essere
–un trattamento
–un fattore demografico ( età, sesso…)
–un fattore comportamentale (n. sigarette, ore attività fisica….)
–un fattore ambientale (esposizione sostanze tossiche, polline…)
–dati di laboratorio, fattori genetici…
• L evento può essere:
– l insorgenza o la diagnosi della malattia o la sua
recrudescenza
– la guarigione
– la presenza di sintomi
– il verificarsi di effetti collaterali
– la morte
– ………..
• Una caratteristica capace di modificare
l insorgenza o il decorso di una malattia in
maniera prevedibile e riproducibile si
definisce fattore prognostico
• Se il fattore prognostico agisce in maniera
positiva è detto fattore di protezione
• Se il fattore prognostico agisce in maniera
negativa è detto fattore di rischio
Tipologie di studi osservazionali k

• Studi trasversali
• Studi prospettici (studi di coorte)
• Studi retrospettivi (studi caso-controllo)
Studi trasversali o di sorveglianza

– sono studi fatti su una popolazione


in un determinato momento
– consentono di valutare la prevalenza
di fattori prognostici (di rischio o di
protezione), di casi di una malattia,
ma non consentono di stabilire delle
relazioni di causa-effetto
Studi prospettici (studi di coorte)

– Si selezionano due campioni casuali di


soggetti: un campione costituito da
soggetti che presentano il fattore di
rischio e un altro campione costituito da
soggetti che non presentano il fattore di
rischio
– I soggetti sono seguiti nel tempo e si
registra il numero di soggetti in ogni
campione che, alla fine dell osservazione,
sarà classificato in ciascuna delle categorie
della variabile risposta
Studio prospettico

popolazione a rischio e popolazione non a rischio

coorte degli esposti seguita nel tempo coorte dei non esposti seguita nel tempo

evento presente (malati) evento assente (non malati) evento presente (malati) evento assente (non malati)
• Studi retrospettivi (studi caso-controllo):
– Si selezionano due campioni casuali di soggetti
tra le categorie della variabile risposta: un
campione costituito da soggetti che presentano
la caratteristica in studio (casi) e un altro
campione costituito da soggetti che non
presentano la caratteristica in studio (controlli)
– Lo studioso guarda retrospettivamente ai
soggetti valutando chi presenta o presentava e
chi non presenta o non presentava il fattore di
rischio
Studio retrospettivo

popolazione dei casi e popolazione dei controlli

casi (malati) studiati nel passato controlli (non malati) studiati nel passato

esposizione presente esposizione assente esposizione presente esposizione assente


Studi ecologici
La patologia è studiata in relazione alle
caratteristiche della comunità in cui le
persone vivono
Fasi di uno studio statistico
1. Pianificazione

2. Rilevazione

3. Elaborazione

4. Presentazione

5. Interpretazione
Pianificazione
• obiettivo dello studio

• ipotesi operative
• unità statistica e di rilevazione
• modalità di rilevazione
• caratteri da rilevare
• tipo di studio
• tipo di campionamento
• estensione territoriale
• estensione temporale
Pianificazione
• obiettivo dello studio

Studio della composizione corporea (massa


magra, massa grassa, contenuto minerale
osseo) in un gruppo di pazienti ultrasessantenni
sani
• ipotesi operative (differenze )
•Esiste una differente composizione corporea
tra i due sessi?
•La composizione corporea dipende dall età?
•La composizione corporea è legata al peso ed
2
• l obesità è un fattore di rischio nella involuzione
muscolare senile?
•La composizione corporea distrettuale (arti
superiori, tronco, arti inferiori) mette in luce
maggiori differenze tra i sessi?
•La composizione corporea dipende dalla
patologia?
•ecc
• unità statistica
• paziente
• unità di rilevazione
• Paziente e medico
• modalità di rilevazione
• Rilevazioni dirette
• Cartella clinica
• caratteri da rilevare
• sesso
• Massa magra
• Massa grassa
• Contenuto minerale osseo
• Età
• Peso
• Altezza
• BMI
• Massa magra (arti superiori, tronco, arti inferiori)
• Massa grassa (arti superiori, tronco, arti inferiori)
• Contenuto minerale osseo (arti superiori, tronco, arti
inferiori)
• tipo di campionamento
• Campione casuale sistematico pazienti
ricoverati
• estensione territoriale
– Reparto di geriatria di un certo ospedale
• estensione temporale
– Gennaio 2003-dicembre 2004
Rilevazione

• Si predispone una griglia di rilevazione dei diversi


caratteri per ogni unità osservata. Generalmente
ogni riga corrisponde ad una osservazione ed ogni
colonna ad un carattere osservato

• I dati raccolti vengono inseriti in un data base o


semplicemente in un foglio excel che corrisponde
alla griglia di rilevazione
Elaborazione
E la fase in cui si passa dai dati grezzi ai risultati dello
studio.
Si distinguono due fasi:
•Statistica descrittiva: metodi sintetici -

• metodi per organizzare, sintetizzare e


rappresentare i dati rilevati su un campione
• produzione di tabelle, grafici e misure di sintesi
numerica
•Statistica inferenziale: generalizzare
• metodi per generalizzare i risultati ottenuti dai
dati raccolti nel campione alla popolazione da cui
il campione è stato estratto
•verifica delle ipotesi di ricerca
i
deve essere in
grado estendere
di
risultati ottenuta dall' unità stella
all' intera popolazione
Statistica indifferenziata
muovo in ambito
significa
=

di
che mi
incertezza che va
quantificata
con la probabilità .
Fasi elaborazione
Si estrae un campione dalla popolazione

Si rilevano i dati nel campione, si analizzano e si


100

descrivono
80
60 staz.1

descrittiva
40 staz.2
staz.3
20

Statistica
0
t1 t2 t3 t4

100
80
st1
60
st2
40
st3
20
,4 0
,3
t1 t2 t3 t4
,3

,2
,2

,1 ,1

95% CI O2
O2 3

0,0 0,0
N= 9 9 9 9 N= 9 9 9 9

12 18 24 30
12 18 24 30

Si estendono i risultati del campione alla popolazione


TEMP
TEMP

inferenziale
Statistica
Schemi di campionamento
• Campionamento casuale semplice
11 • Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione e sono selezionate
indipendentemente una alla volta.
• Si assegna ad ogni unità un numero
• Si estrae una certa quantità n di numeri
• Si selezionano le unità con numero
corrispondente.
selezione una unità non influisce
sulla scelta dell' alta
• Campionamento sistematico
– Le unità della popolazione hanno tutte la
stessa probabilità di far parte del campione,
si estrae la prima unità e si procede in
sequenza.
– Si assegna ad ogni unità un numero
– Si stabilisce l intervallo di campionamento
k=N/n (ad es. 10)
– Si estrae un numero tra 1 e k (ad es. 5)
– Si selezionano le unità con numero
corrispondente a 5, 15, 25, 35 ……
– Se la lista delle unità è ordinata casualmente
il campione è equivalente al campione
casuale semplice
F- E l' intervallo di campionamento
ad esempio tra 1 a 10 ,

però non posso scegliere sempre


il numero 1 altrimenti si
perderebbe la casualità .

Ne popolazione D= campione .
• Campionamento stratificato
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• si stratifica la popolazione in gruppi
omogenei
• Si estrae un campione casuale da ogni
strato
• Il campione da ogni strato può essere
proporzionale allo strato
• Garantisce la rappresentatività di ogni
strato
• Per strati molto omogenei si ottengono
stime molto precise
• Campionamento a cluster o a grappoli
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• La popolazione è naturalmente divisa in
gruppi o cluster
• Si assegna ad ogni cluster un numero
• Si estrae un campione casuale di cluster
• Si includono nel campione tutte le unità del
cluster oppure
• Si estrae un campione casuale da ogni
cluster
• Più semplice ma meno preciso del
campionamento stratificato
• Campionamento a stadi
• Le unità della popolazione hanno tutte la
stessa probabilità di far parte del
campione.
• La popolazione è naturalmente divisa in
stadi (es.:regioni – province – comuni)
• Si estraggono le unità di I stadio
• Da queste si estraggono le unità di II
stadio
• Si procede così sino alle unità finali
• Adatto a campionamenti su larga scala
• Utile quando non è possibile numerare le
unità della popolazione
Variabili
• La variabile

Quando un carattere assume valori o aspetti


diversi su diverse persone, animali, organismi,
luoghi, tempi, tale carattere è una variabile. La
variabile è semplicemente ciò che viene
osservato o misurato.
• variabili quantitative: riguardano
caratteristiche misurabili nel senso usuale:
• lunghezza
• peso
• altezza
• colesterolo
• glicemia
• temperatura corporea
– Si dividono in
• discrete (assumono solo valori interi)
• continue (assumono tutti i valori di un
intervallo continuo)
• variabili qualitative: riguardano
caratteristiche che non possono essere
misurate nel senso usuale ma sono
espresse mediante un attributo che
consente una classificazione:
• sesso
• tipo di allattamento
• tempo (ora, giorno, mese, anno…)
• presenza/assenza
• patologia
• reparto
• livello di istruzione
• stadio tumore
• grado istologico
• sede neoplasia
Scale di misura
• nominale: variabili qualitative con modalità
non ordinabili
• Maschio/femmina
• Vivo/morto
• Presenza/assenza (patologia, fattore di rischio…)
• terapia
• Patologia
• ordinale: variabili qualitative con modalità
ordinabili
• Stato (peggiorato, stazionario, migliorato)
• Livello di istruzione
• Stadio tumore
•numerica:
– variabili quantitative discrete
• N. parti
• N. episodi febbrili
• N. ricoveri
• N. interventi chirurgici
– variabili quantitative continue
• Temperatura corporea
• Età
• Peso
• Altezza
• Durata
Da una scala numerica si può passare ad
una scala nominale, non viceversa!
Statistica descrittiva
• La descrizione dei dati del campione
avviene mediante la costruzione di
• Distribuzioni di frequenza e tabelle
• Rappresentazioni grafiche (istogrammi,
boxplot, steam and leaf, dot-plot ecc)
• Indici di tendenza centrale ed indici di
variabilità
Distribuzioni di frequenza
• Contare quante volte si presenta un
determinato valore o una classe di valori
o una modalità della variabile
• Per variabili quantitative e qualitative
• Per singole variabili o per due o più
variabili insieme
• Frequenze assolute, relative, cumulative
Distribuzione di frequenza dei casi di
adenocarcinoma endometrio per
stadio
stadio n.casi f. relativa f. %
(variabile) (f. assoluta)
I 130 0,40 40%
II 45 0,14 14%
III 150 0,46 46%
totale 325
Distribuzione di frequenza del numero
di ricoveri in un campione di 76
pazienti
n. ricoveri freq. f. relativa
f. % f. cum.f. cum.%
1 10 0,13 13% 10 13%
2 14 0,18 18% 24 32%
3 20 0,26 26% 44 58%
4 16 0,21 21% 60 79%
5 10 0,13 13% 70 92%
oltre 5 6 0,08 8% 76 100%
totale 76
Distribuzione di frequenza di 250 case
di cura private per numero di posti
letto
posti letto freq. f. relativa
f. % f. cum.f. cum.%
fino a 50 25 0,10 10% 25 10%
50-100 30 0,12 12% 55 22%
100-150 35 0,14 14% 90 36%
150-200 50 0,20 20% 140 56%
200-250 75 0,30 30% 215 86%
oltre 250 35 0,14 14% 250 100%
totale 250
Rappresentazioni grafiche
• Per variabili qualitative
• Grafici a barre Distribuzione dei casi di adenocarcinoma dell'endometrio
per stadio

III

stadio
II

0 20 40 60 80 100 120 140 160

n .casi

• Grafici a torta

Distribuzione dei casi di adenocarcinoma dell'endometrio


per stadio

I
III

II

• Dot-plot

• Grafici a linee 100


80
60
40
20
0
G F M A M G L A S O N D
•Per variabili quantitative
100

80

60

• Istogramma 40

20

0
10 20 30 40
classi di biomassa

100
90
80

• Poligono di frequenza 70
60
50
40
30
20
10
0
10 classi20
di biomassa30 40

ROD Stem-and-Leaf Plot


Frequency Stem & Leaf
9,00 0 . 223333344
14,00 0 . 55667778999999
14,00 1 . 02223333344444
9,00 1 . 566778899
15,00 2 . 000111223344444

• Steam and Leaf


11,00 2 . 55556778889
7,00 3 . 1111224
11,00 3 . 55566667899
4,00 4 . 0113
1,00 4. 9
1,00 5. 0

60

50

• Scatter plot 40

30
y

20

10

0
0 5 10 15 20 25 30 35
x

,4

,3
26
20
22
24

• Box-plot ,2

,1
O2

0,0
N= 12 12 12

15 35 92

IRRADIA
Grafici a barre
Distribuzione dei casi di adenocarcinoma dell'endometrio Distribuzione dei casi di adenocarcinoma dell'endometrio
per stadio per stadio

III
III 150 I
III

II 100
II
II
50
I
I
0
0 20 40 60 80 100 120 140 160 I II III

• adeguati per variabili qualitative


• ogni barra rappresenta una modalità della variabile
• la lunghezza della barra rappresenta la frequenza
• rappresentano distribuzioni di frequenza ad una o più vie
• barre in ordine decrescente o crescente (variabili nominali)
• barre orizzontali da preferire a verticali
• facili da excel
Grafici a torta

Distribuzione dei casi di adenocarcinoma dell'endometrio Distribuzione dei casi di adenocarcinoma dell'endometrio
per stadio per stadio

I I
III III

II II

• Adeguati per variabili qualitative


• Ogni fetta rappresenta una modalità
• L ampiezza delle fette proporzionale alla frequenza
• Facili da excel
Grafici a linee
100
80
60
40
20
0
G F M A M G L A S O N D

• Utili per le serie temporali


• Una o più serie insieme
• Facili da excel
istogramma

Distribuzione di frequenza di 250 case di cura private per n.


di posti letto

80

70

60
n. case di cura

50

40

30

20

10

0
fino a 50 50-100 100-150 150-200 200-250 0ltre 250

n.posti letto

• Solo per variabili quantitative


• Classi di valori in ascissa
• Frequenza assoluta o relativa (%) in ordinata
• Classi contigue
• Da excel si modifica il grafico a barre
• Da tutti i software statistici
Poligono di frequenza

Distribuzione di frequenza di 250 case di cura private per n.


di posti letto

80

70

60
n. case di cura

50

40

30

20

10

0
fino a 50 50-100 100-150 150-200 200-250 0ltre 250

n.posti letto

• Si uniscono i punti medi dei rettangoli


dell istogramma
• Dà continuità al fenomeno
Poligono di frequenza cumulativa
100

90

80

70

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90 100

•Spezzata che congiunge le frequenze cumulative


•Consente di individuare:
• Mediana
• Percentili
• Quartili
ROD Stem-and-Leaf Plot
Steam and Leaf
Frequency Stem & Leaf

000111223344444
55667778999999
02223333344444
9,00 0. 223333344

55556778889

55566667899
14,00 0. 55667778999999

223333344

566778899
Stem & Leaf
14,00 1. 02223333344444

ROD Stem-and-Leaf Plot

1111224
9,00 1. 566778899

0113
15,00 2. 000111223344444
11,00 2. 55556778889

9
0
7,00 3. 1111224

0.
1.

2.
0.

1.

3.

4.
4.
5.
2.

3.
11,00 3. 55566667899

Frequency
4,00 4. 0113

14,00
14,00

15,00
11,00

11,00
9,00

9,00

7,00

4,00
1,00
1,00
1,00 4. 9
1,00 5. 0

• Utilissimo nella fase esplorativa


• Simile all istogramma
• Dettaglio dei singoli valori
• Consente di valutare:
• Il range
• La forma
• La asimmetria
• Gli outliers
Scatter plot ovvero diagramma a
punti
y

60

50

40

30
y

20

10

0
0 5 10 15 20 25 30 35
x

• Ogni punto ha per coordinate x ed y


• Punti di diversa dimensione per rappresentare la
frequenza
• Utile per rappresentare due variabili
• Consente di valutare relazioni
• Due o tre assi
Box-plot
50 96 40

40
80
30
84

7
30

20
79
20
6 583
78
22
2
10 77
1
10

0 0

PHAE ANT

• Altezza scatola: Q3-Q1 distanza interquartile


• Linea orizzontale =mediana
• Linee verticali (baffi) max 1.5 volte altezza box
• Pallino=outlier debole (tra 1.5 e 3 volte il box)
• Asterisco=outlier estremo (oltre 3 volte il box)
• Consente di valutare:
• L asimmetria della distribuzione
• Gli outliers
• La variabilità del fenomeno
• Disponibile su software statistici
INDICI DI POSIZIONE O DI
TENDENZA CENTRALE
MEDIA ∑ x i
x=
n

La moda è il valore che in una serie di


MODA dati si presenta con la massima
frequenza

La mediana è il valore che in una


serie di dati posti in ordine crescente
MEDIANA o decrescente si trova esattamente
al centro, lasciando un ugual numero
di termini da entrambi i lati.
Altri indici di posizione
• Percentili
– Dato un insieme di n osservazioni ordinate x1, x2,
x3,…, xn, il p-esimo percentile (P) è quel valore tale
che il p% o meno delle osservazioni sono inferiori a
P (ossia a sinistra) ed il (100-p)% delle osservazioni
sono superiori a P (ossia a destra).
• Quartili

25 percentile = primo quartile=Q1

50 percentile = secondo quartile=Q2=mediana

75 percentile = terzo quartile=Q3


Indici di variabilità o di
dispersione
Range = Max-Min

Differenza interquartilica= Q3-Q1


2
2 ∑ (x − x )i
Var ( x) = S =
n −1

d .s. = S = Var ( x) = S 2

Coefficiente di variazione S
C.V . = 100
x
CL
SESS AB ALTEZZ MMK
NUM ID O ANNI BMI MI PESO A G GRKG BMCKG
1 15 F 40 24,7 1 54,1 148,0 34,8 17,2 2,1
2 27 M 19 18,6 1 57,0 175,0 48,2 6,2 2,5
3 44 F 47 22,0 1 50,1 151,0 34,2 13,9 2,0
4 54 F 45 24,0 1 58,5 156,0 36,9 19,2 2,3
5 57 F 45 24,6 1 55,3 150,0 36,0 17,3 2,0
6 128 F 49 31,2 3 77,0 157,0 44,4 29,5 2,8
7 139 F 48 32,5 3 78,0 155,0 39,2 36,5 2,4
8 231 F 58 27,9 2 64,3 152,0 37,9 24,0 2,4
9 248 F 55 29,2 2 66,5 151,0 37,4 26,7 2,4
10 252 F 53 29,4 2 63,5 147,0 39,4 22,0 2,1
11 258 F 52 29,6 2 77,6 162,0 43,3 32,0 2,4
12 263 F 57 29,8 2 69,7 153,0 40,8 26,4 2,4
13 301 F 58 31,9 3 72,6 151,0 38,9 31,8 2,0
14 314 F 57 33,2 3 73,6 149,0 37,2 34,0 2,4
15 326 M 59 28,4 2 87,0 175,0 59,2 24,6 3,1
16 331 F 67 21,4 1 48,7 151,0 37,9 9,1 1,7
17 345 F 70 23,4 1 53,3 151,0 33,9 21,5 2,2
18 374 F 68 26,4 2 60,2 151,0 39,1 18,9 2,1
19 439 F 65 31,3 3 72,2 152,0 40,7 29,2 2,4
20 447 F 64 32,1 3 80,0 158,0 41,4 36,5 2,1
21 458 F 62 33,0 3 77,5 151,0 36,6 36,4 2,3
Costruiamo la distribuzione di frequenza
per sesso

freq. freq. freq.perce


SESSO assoluta relativa nt

F 335 0,72 72,04

M 130 0,28 27,96


Costruiamo degli adeguati grafici per la
distribuzione di frequenza per sesso

350
300 M
250
200
150
100 F
50
0
F M 0 50 100 150 200 250 300 350

M
M
28%
28%

F F
72% 72%
Calcoliamo media, moda e mediana del
peso NUM
1
PESO
45,6

∑ x i 1169.9 2 48,6
Media x= = = 58.495 3 48,7
n 20 4 50,1
5 53,3 Q1
6 54,1
Moda=nessuna 7 55,3
8 55,9
9 57,0

Mediana=(58.5+59.1)/2=58.8 10 58,5 median


11 59,1 a
12 60,2
13 61,6

Q1=x(5)=53.3 14 62,1
15 63,5 Q3
16 63,6
17 64,3
Q3=x(15)=63.5 18 66,5
19 69,7
20 72,2
Calcoliamo range, varianza, dev.standard
e c.v. del peso 1 45,6 -12,90 166,28
NUM PESO x-x (x-x) 2

R=72.2-45.6=26.6
2 48,6 -9,90 97,91
3 48,7 -9,79 95,94
4 50,1 -8,40 70,48
Q3-Q1=63.5-53.3=10.2 5 53,3 -5,20 26,99
6 54,1 -4,40 19,32
7 55,3
2 -3,20 10,21

2 ∑ (x − x )
i
8 55,9
S = = 9 57,0
-2,60 6,73

n −1 10 58,5
-1,50
0,01
2,24
0,00
11 59,1
984.27 0,61 0,37
= = 51.8 12 60,2
1,71 2,91
19 13
14
61,6
62,1
3,11 9,64
3,61 13,00
15 63,5
5,01 25,05
S = 51.8 = 7.20 16
17
63,6
64,3
5,11 26,06
5,81 33,70
18 66,5
C.V.=12.31% 19 69,7
8,01 64,08
11,21 125,55
20 72,2
13,71 187,83
Calcoliamo media, moda e mediana
dell età
NUM ANNI

∑ x 459 1 19
Media x= i
= = 45.9
n 10 2 40

Moda=45 3 45 Q1

4 45

5 47
Mediana=(47+48)/2=47.5 median
6 48
a

7 49

Q1=45 8 53 Q3

9 55

Q3=53 10 58

totale 459
Calcoliamo range, varianza, dev.standard
dell età x-x (x-x)
2
NUM ANNI

R=58-19=39 1 19

2 40

3 45
Q3-Q1=8 4 45

5 47

6 48

2 7 49

2 ∑ (x − x )
i
S = = 117.211 8 53

n −1 9 55

10 58

totale 459

S = 117.211 = 10.83
Inferenza statistica
• Nell estendere i risultati dal campione
alla popolazione si passa da una
condizione di certezza ad una di
incertezza
• I risultati ottenuti nel campione sono solo
una variante di tutti i possibili risultati
degli infiniti campioni che si possono
estrarre da una popolazione
• Occorre quantificare la probabilità che
ogni deduzione basata sui dati sia
corretta
x1 = 12 x 2 = 14
S1 = 3
S2 = 3

x1 = 12
x3 = 11 S1 = 3
S3 = 2 x 4 = 14
S 4 = 3.5
Quale di questi
campioni
descrive meglio
x7 = 18 x5 = 10
x150 = 12 x6 = 13 la popolazione?
S150 = 3 S 6 = 1,8 S 7 = 2,4 S5 = 1

x 200 = 17
S 200 = 4 x n = 16
Sn = 2

Nessun campione mi da la µ=?


certezza dei valori della
popolazione, ma mi è utile s=?
conoscere la probabilità con cui
si possono verificare i risultati
campionari per prendere una
decisione
• È necessario conoscere la probabilità
associata ai diversi risultati possibili
• I valori caratteristici ottenibili dai possibili
campioni sono delle variabili poiché
variano al variare dei campioni ed hanno
una propria distribuzione empirica
• Occorre conoscere la distribuzione
teorica di probabilità di tali valori
caratteristici per poter fare inferenza
Il minimo indispensabile di
probabilità
• Evento E= risultato di un esperimento
• p=P(E)=(x/n) x=casi favorevoli ad E
n=casi possibili
• 0<p<1
• q=1-p
• Sp=1
• Principio della somma
– P(A o B)= P(AÈB)= P(A) + P(B)
con A e B non compatibili (disgiunti)
– P(A o B)= P(AÈB)=P(A)+P(B)- P(AÇB)
con A e B compatibili

• Principio del prodotto


– P(A e B)= P(AÇB)= P(A) x P(B)
con A e B indipendenti
– P(A e B)= P(AÇB)= P(A) x P(B/A)
con A e B non indipendenti
• A noi interessa la probabilità non di un singolo
evento ma di una sequenza di possibili eventi
ovvero la distribuzione di probabilità di una
variabile casuale

• Variabile casuale: è una variabile che può


assumere diversi valori di volta in volta
determinati dal caso
• Variabile casuale discreta: può assumere un
numero finito o numerabile di risultati (n. di
casi di malattia, n. episodi febbrili, presenza o
assenza di alcune condizioni ecc.)
• Variabile casuale continua: può assumere
qualsiasi valore in uno specifico intervallo
(altezza e peso di bambini di uguale età e
sesso)
Distribuzioni teoriche di probabilità

• Ogni variabile casuale ha una


distribuzione teorica di probabilità
– Variabili discrete: a ciascun risultato
possibile si associa la probabilità che
questo si verifichi
– Variabili continue: ad ogni intervallo di valori
si associa la probabilità che si verifichi un
valore dell intervallo
Distribuzioni empiriche e teoriche

• La distribuzione teorica di probabilità è il


risultato dell applicazione di concetti
matematici (la probabilità)
• La distribuzione empirica (in termini di
frequenze relative) è calcolata in base ai
dati ottenuti come risultato di un
campionamento
Parametri
• Anche le distribuzioni teoriche hanno dei
valori caratteristici quali media e
varianza che sono detti parametri
• Ogni distribuzione di probabilità ha i suoi
parametri
Distribuzioni continue di probabilità
• La curva che descrive una distribuzione
di probabilità di una variabile continua è
detta funzione di densità di probabilità
• L area totale sotto la curva è pari ad 1
• Per una variabile continua x può
assumere un numero infinito di valori,
per cui la probabilità che x sia pari ad un
determinato valore è pari a zero
• La probabilità che x sia compreso tra x1
ed x2 è pari all area sotto la curva
nell intervallo x1 ed x2
La distribuzione Normale o di
Gauss
• È la distribuzione legata alla teoria degli errori
• È sicuramente la distribuzione più importante
perché:
– Diversi set di dati hanno, almeno
approssimativamente, una distribuzione normale
– La distribuzione delle medie è sempre normale
– La maggior parte delle procedure statistiche
necessitano di tale distribuzione
– è sempre possibile utilizzare le proprietà
della normale grazie a:
• Trasformazioni di variabili
• Teorema del limite centrale
70 45
60 40
35
50
30
40
25
30 20
20 15
10 10
5
0
<2 2- 5 >5 0
<1,5 1,5 2,5 3,5 4,5 5,5 6,5 > 6,5
albumina (g/100 dl)
albumina (g/100 dl)

30 25

25 20
20
15
15
10
10
5
5
0 0
• funzione di densità di probabilità
2
1 & 1,x−µ) #
f ( x) = exp $− * ' !
-¥ £ x £ +¥ σ 2π $
% 2 + σ ( !"
• parametri µ = media
s = deviazione standard
Caratteristiche della curva
normale
• ha una forma a campana

• è simmetrica intorno alla sua media

• la media, la moda e la mediana coincidono


µ

• l area sotto la curva è uguale ad 1 (100%)


• è completamente determinata da µ e s, in
corrispondenza di ogni µ e s si ha una diversa
curva normale
• tre distribuzioni Normali con stessa
dev.standard e diversa media

• tre distribuzioni Normali con stessa


media e diversa deviazione standard
per qualsiasi valore di µ e di s l area sotto
la curva compresa negli intervalli:
•µ-s ed µ+s è sempre pari al 68% dell area
totale
• µ-2 s e µ+2 s è sempre pari al 95% del
totale
• µ-3 s ed µ+3 s è sempre pari al 99,7%
del totale
• Ipotizzando che il colesterolo LDL si
distribuisca secondo una Gauss con
media 4.8 mmol/L e dev. standard 0.6
mmol/L possiamo automaticamente dire
che:
• Il 68% dei soggetti di tale popolazione
hanno un livello di LDL tra 4.2 e 5.4

• Il 95% dei soggetti di tale popolazione


hanno un livello di LDL tra 3.6 e 6

• Il 99.7% dei soggetti di tale popolazione


hanno un livello di LDL tra 3 e 6.6
Distribuzione normale standard
• esiste una famiglia di distribuzioni
gaussiane in base alle diverse
combinazioni dei valori di µ e s
• la più importante è la distribuzione di
Gauss standard che ha µ = 0 e s = 1
• funzione di densità di probabilità

2
1 ( z %
f ( z) = exp'− $
2π & 2#

− ∞
• Parametri µ=0
< z < +∞
s=1
standardizzazione
• da una variabile qualsiasi si ottiene la
variabile z mediante la trasformazione

var iabile − media


z=
deviazione s tan dard
• se la variabile è x=N(µ,s) allora

x−µ
z=
σ
Utilità della normale standard
• consente di determinare agevolmente la
probabilità relativa a qualsiasi intervallo
• ci evita il calcolo integrale
• esistono delle tavole relative alla
probabilità di z compreso in qualsiasi
intervallo
Esempio 1
• Facendo riferimento all esempio
precedente, determiniamo la probabilità
che un soggetto scelto a caso abbia
1. un livello di LDL > 6 mmol/L
2. un livello di LDL < 4 mmol/L
3. un livello di LDL compreso tra 4 e 6
mmol/L
Come si procede
praticamente?
Primo quesito:
• P(x>6) I area da 6 a +¥
• si trasforma la x in z
• poiché P(x>6) =P(z>(x-µ)/s)=
=P(z>(6-4.8)/0.6)=
=P(z>2)
3. si determina sulle tavole il valore della
probabilità in corrispondenza di 2
4. P(x>6)=P(z>2)=0.0228
secondo quesito:
1. P(x<4) I area da -¥ ad x=4
2. si trasforma la x in z
3. poiché P(x<4)=P(z<(x -µ)/s)=
4. = P(z<(4 -4.8)/0.6)=P(z<-1.33)
5. si determina sulle tavole il valore della
probabilità in corrispondenza di 1.33
6. P(x<4)=P(z<-1.33)=0.0912
terzo quesito:
1. P(4<x<6) I area da x1=4 ad x2= 6
2. si trasforma la x1 in z1 e la x2 in z2
3. poiché P(4<x<6)=P((x1-µ)/s <z<(x2 -µ)/s)=
4. = P((4-4.8)/0.6 <z<(6 -4.8)/0.6)=
=P(-1.33<z<2)
5. si determina sulle tavole il valore della
probabilità in corrispondenza -1.33 e di 2
6. P(4<x<6)=1- (P(z<-1.33)+ P(z>2))=1-
(0.0228+0.0912)=0.886
Esempio 2
• Ipotizziamo che il peso in una popolazione di
uomini adulti si distribuisca secondo una
Gauss con media 75 Kg e d.s. 8,
determinare la probabilità di avere:
1. Un soggetto con un peso >80
2. Un soggetto con un peso <65
3. Un soggetto con un peso compreso tra 65 e
80
Come si procede
praticamente?
Primo quesito:
• P(x>80) I area da 80 a +¥
• si trasforma la x in z
• poiché P(x>80) =P(z>(x-µ)/s)=
=P(z>(80-75)/8)=
=P(z>0.625)
3. si determina sulle tavole il valore della
probabilità in corrispondenza di 0.625
4. P(x>80)=P(z>0.625)=0.266
secondo quesito:
1. P(x<65) I area da -¥ ad x=65
2. si trasforma la x in z
3. poiché P(x<65)=P(z<(x -µ)/s)=
4. = P(z<(65-75)/8)=P(z<-1.25)
5. si determina sulle tavole il valore della
probabilità in corrispondenza di 1.25
6. P(x<65)=P(z<-1.25)=0.106
terzo quesito:
1. P(70<x<90) I area da x1=70 ad x2= 90
2. si trasforma la x1 in z1 e la x2 in z2
3. poiché P(70<x<90)=P((x1-µ)/s <z<(x2 -µ)/s)=
4. = P((70-75)/8 <z<(90-75)/8)=
=P(-0.6<z<1.92)
5. si determina sulle tavole il valore della
probabilità in corrispondenza -0.6 e di 1.92
6. P(70<x<90)=1- (P(z<-0.6)+
P(z>1.92))=0.106
A volte una variabile con una
distribuzione chiaramente asimmetrica
può essere matematicamente
trasformata così da renderne normale la
distribuzione

Distribuzione dei valori di trigliceridi nel


sangue di una popolazione di soggetti
diabetici

Distribuzione del logaritmo dei valori di


trigliceridi nel sangue di una popolazione
di soggetti diabetici

L’uso del logaritmo o della radice


quadrata o di altre funzioni matematiche
può essere utile per ottenere la
normalità che, come vedremo, è
necessario per l’uso dei test statistici
parametrici
Teorema del limite centrale
• Il teorema centrale limite afferma che,
in condizioni abbastanza generali,
somme e medie di misurazioni casuali
ricavate da una popolazione tendono a
possedere approssimativamente una
distribuzione normale
• La distribuzione teorica del risultato del
lancio di un dado è una distribuzione
uniforme (tutti i risultati hanno p=1/6=0.17),
la cui rappresentazione grafica sarebbe

0,18
0,16
0,14
0,12
0,10
p

0,08
0,06
0,04
0,02
0,00
0 1 2 3 4 5 6 7
risultati di un lancio
Distribuzione teorica dei risultati di un
lancio del dado e Distribuzione di Gauss
Guardiamo invece la distribuzione teorica
della somma dei risultati di due dadi ed il
relativo istogramma
n.di
Probabilit
eventi
à di
che
somma avere
danno
tale
tale
somma
somma
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
somma di due dadi
9 4 4/36
10 3 3/36
• Cosa succede empiricamente con 10,
100, 1000 e 10000 lanci
Distribuzioni di
campionamento
• La distribuzione di campionamento di un
valore caratteristico (media, varianza..) è
la distribuzione dei valori di tali
statistiche calcolate su campioni casuali
della stessa dimensione
Distribuzione della media
campionaria
• Ipotizziamo di estrarre tutti i possibili
campioni di una determinata dimensione
da una popolazione
• Ipotizziamo di calcolare per ogni
campione la media
• Se costruissimo una distribuzione di
frequenza di tutti i valori medi ottenuti dai
campioni avremmo una distribuzione
normale (teorema del limite centrale)
• Per qualsiasi x si ha & σ #
x ≈ N $ µ, !
% n"
• con media pari alla media della popolazione µ
• con varianza pari alla varianza della
popolazione, s2, diviso la numerosità del
campione.
• E la z si ottiene standardizzando la
media campionaria:

x−µ
z=
σ
n
x1 = 12 x 2 = 14
S1 = 3
S2 = 3

x1 = 12
x3 = 11 S1 = 3
S3 = 2 x 4 = 14
S 4 = 3.5
Quale di questi
campioni
descrive meglio
x7 = 18 x5 = 10
x150 = 12 x6 = 13 la popolazione?
S150 = 3 S 6 = 1,8 S 7 = 2,4 S5 = 1

x 200 = 17
S 200 = 4 x n = 16
Sn = 2

Nessun campione mi da la µ=?


certezza dei valori della
popolazione, ma mi è utile s=?
conoscere la probabilità con cui
si possono verificare i risultati
campionari per prendere una
decisione
Inferenza statistica
• Stima dei parametri
• Verifica delle ipotesi
Stima dei parametri
• Stima puntuale: si calcola un singolo
valore numerico per stimare il
corrispondente parametro. Es.:una
media, una proporzione, una deviazione
standard.
• Stima intervallare: si calcola un
intervallo di valori che, con un certo
grado di probabilità, conterrà il
parametro da stimare
Stima puntuale
• Consistono nel calcolo dei valori
caratteristici di una distribuzione nel
campione
• Non danno informazioni circa
l attendibilità della stima
• Non tengono conto della variabilità
campionaria
Stima intervallare
• Le stime di intervallo forniscono informazioni
sia sul valore numerico del parametro
incognito che sul grado di attendibilità della
stima
• occorre determinare, a partire dalle
informazioni campionarie, due limiti entro i
quali, con una probabilità 1-a, sarà contenuto
il parametro
• 1-a = P(L1 £ q £ L2) con 0£ a £1
• con L1 e L2 dipendenti dalle informazioni e
dimensione del campione
• 1-a livello di confidenza
• Intervallo di confidenza per una media
• Si parte dalla variabile standardizzata
x−µ
z=
σ
n
& #
$ x−µ !
1 − α = P$ L1 ≤ ≤ L2 !
$ σ !
% n "
& #
$ x−µ !
1 − α = P$ − L ≤ ≤ +L !
$ σ !
% n "

1 − α = P&$ − L σ ≤ x − µ ≤ Lσ #
!
% n n"

1 − α = P&$ − L σ − x ≤ −µ ≤ − x + L σ #
!
% n n"

1 − α = P&$ x − L σ ≤ µ ≤ x + Lσ #
!
% n n"

1 − α = P&$ x − z σ ≤ µ ≤ x + zσ #
!
% n n"
• per 1-a=0,95 (cioè a = 0,05) z è pari a
1,96

• per 1-a=0,99 (cioè a = 0,01) z è pari a


2,58
• Intervallo di confidenza per una media con
varianza incognita:
– Non si può utilizzare s ma la sua stima s
– Per cui la distribuzione della statistica non è più una
gauss standard ma una t-Student

– Si procede come prima e si giunge a:

&
1 − α = P$ x − t s ≤ µ ≤ x +t s #
!
% n n"
Intervallo di confidenza per una
media

&
1 − α = P$ x − t s ≤ µ ≤ x +t s #
!
% n n"
Il valore di t si determina in corrispondenza di
a=0.05 o 0.01 e dei gradi di libertà n-1
Esempio 1: intervallo di confidenza
peso medio di bambini maschi di 8
anni
• Ipotizziamo di disporre dei seguenti valori
relativi al peso di 10 bambini maschi di 8 anni
30 28 38 36 40 29 34 35 41
37
• Costruiamo l intervallo di confidenza per µ
ipotizzando:
1.di conoscere la dev. standard s=2
2.di non conoscere la dev. standard
1. dev. standard nota
• Calcoliamo nel campione la media
• media=34.8
• z=1.96
• s=2
(
1 − α = P& x − z σ ≤µ≤x+z σ %
#
' n n$

0.95 = P(& 34.8 − 1.96 2 ≤ µ ≤ 34.8 + 1.96 2 %


#
' 10 10 $
0.95 = P(34.8 − 1.24 ≤ µ ≤ 34.8 + 1.24)
0.95 = P(33.56 ≤ µ ≤ 36.04)
2. dev. standard incognita
• Calcoliamo nel campione la media e la
dev. standard
• media=34.8 s=4.54
• con a=0.05 e n-1=9 si determina t=2.262
(
1 − α = P& x − t s ≤ µ ≤ x +t s %
#
' n n$

0.95 = P(& 34.8 − 2.262 4.54 ≤ µ ≤ 34.8 + 2.262 4.54 %


#
' 10 10 $
0.95 = P(34.8 − 3.25 ≤ µ ≤ 34.8 + 3.25)
0.95 = P(31.55 ≤ µ ≤ 38.05)
Verifica di ipotesi
1.Si formulano delle ipotesi sulla popolazione:
• Il diametro medio dei noduli tiroidei in una
popolazione di pazienti con gozzo plurinodulare è
pari a 1.5 (cm)
• L età media delle donne operate al seno è pari 50
• La dimensione media del tumore è pari ad 1 cm

• Le misure del nodulo ottenute da due operatori


sono uguali
• Il rischio di tumore alla tiroide è maggiore in
presenza di alone intorno al nodulo
2. Si traducono tali ipotesi in ipotesi
statistiche:

• H0: ipotesi nulla (ipotesi di uguaglianza)


• H1: ipotesi alternativa (ipotesi di diversità)
esempi:
H0: µ=1.5
H1: µ>1.5

H0: µ=50
H1: µ>50

H0: µ= 1
H1: µ> 1
3. Si effettuano nel campione i calcoli
necessari per la verifica
• Si calcola il diametro medio dei noduli
• Si calcola l età media delle donne operate al
seno
• ………..
• Si valutano le differenze nelle misure dei due
operatori
• ………
• Si descrive il campione in relazione alle ipotesi
che si vogliono verificare

x=2 diametro medio dei


S = 0.2 noduli nel campione
Da una popolazione si possono
estrarre infiniti campioni.
x = 1.3
x = 1.6
S = 0.8
S = 0.2
x = 0.8 Ogni ipotetico campione ha dei
S = 0.5 valori caratteristici (es. media,
x = 1.9 varianza) differenti.
S = 1.1

Media e varianza sono variabili con


una determinata distribuzione.

Per la media:

x ≈ N &$ µ , σ #
!
% n"
H0 H1

µ=1.5 µ>1.5
x=2 x=2
S = 0.2 S = 0.2

Prendere una decisione significa capire se il risultato


ottenuto dal campione è rappresentativo di una
popolazione per la quale sia vera l ipotesi nulla o di una
popolazione per la quale sia vera l ipotesi alternativa,
ovviamente tale decisione è di tipo probabilistico perché
consideriamo un solo campione e non tutti i possibili
campioni o l intera popolazione, e la decisione presa
può essere affetta da errori.
4. Si conduce il TEST STATISTICO appropriato
che, tenendo conto che il risultato ottenuto dal
campione estratto è uno dei tanti possibili
risultati che si potevano ottenere dai tanti
possibili campioni, consente di prendere la
decisione:
– rifiutare H0 ossia dire che il risultato ottenuto dal
campione è significativamente diverso da quello
ipotizzato in H0, ossia che non è un caso aver avuto
un risultato così diverso; il test è significativo
– non rifiutare H0 ossia dire che non vi è evidenza di
una differenza significativa da quanto ipotizzato in H0,
l eventuale differenza osservata è da attribuire al
caso o a fluttuazioni campionarie; il test non è
significativo
x = 1.3
x = 1.6
S = 0.8
S = 0.2
x = 0.8
S = 0.5 x ≈ N &$ µ , σ #
!
x = 1.9 % n"
S = 1.1

La decisione statistica deve tener conto della variabilità dei


campioni, da qui la necessità di costruire una statistica
test che, sfruttando le caratteristiche della sua
distribuzione di probabilità, consenta di decidere in favore
di H0 o di H1 sapendo di poter commettere due errori:
a: probabilità di rifiutare H0 quando è vera (errore I tipo)
b: probabilità di accettare H0 quando è falsa (errore II
tipo)
Esempio diametro medio dei noduli: partendo
dal risultato campionario e dalla distribuzione
della media campionaria, ci chiediamo se 2 è
più probabile che sia ottenuta da una
popolazione con µ=1.5 oppure con µ>1.5

H0 H1

b a

VALORE SOGLIA
µ=1.5 x=2 µ>1.5
• A questo punto per verificare l ipotesi:
H0: µ=1.5 H1: µ>1.5

occorre:

– costruire una statistica test

– stabilire un valore soglia in


corrispondenza di un determinato a
(0.05, 0.01, 0.001 ecc.)

– prendere una decisione


• Nel caso di verifica su una media,
ipotizzando di conoscere la deviazione
standard, la statistica test da utilizzare è:

x−µ
z=
σ
n
• posto a=0.05 il valore soglia è 1.645
• la regola di decisione sarà che se z
calcolato >1.645 si rifiuta H0
• Nel nostro esempio di un campione di 500
noduli con diametro medio=2, ipotizzando
di conoscere la deviazione standard s=0.4,
la statistica test da utilizzare è:

x−µ 2 − 1.5
z= = = 27.95
σ 0.4
n 500

• Posto a=0.05, il valore soglia è 1.645


• Essendo z=27.95 >1.645 si rifiuta H0, il test è
significativo
• La media della popolazione è
significativamente diversa da 1.5 (>1.5)
• Nel caso più concreto di deviazione
standard incognita, sfruttando la stima
s=0.2 la statistica test da utilizzare è:
x−µ 2 − 1.5
t= = = 55.9
s 0.2
n 500

• Posto a=0.05, e g.l.=499 il valore soglia t è


1.677
• Essendo t=55.9 >1.677 si rifiuta H0, il test è
significativo
• Il diametro medio dei tumori è
significativamente > di 1.5
Distribuzione normale e distribuzione t
0,4

0,3

normale
t (nu=1)
0,2 t (nu=2)
t (nu=5)

0,1

0,0
-4 -3 -2 -1 0 1 2 3 4
H0 H1

1-a 1-b

a
b
Valore soglia tcal
a:probabilità di rifiutare H0 quando è vera (errore I tipo)
b:probabilità di accettare H0 quando è falsa (errore II tipo)
1-a: probabilità di accettare H0 quando è vera
1-b: probabilità di rifiutare H0 quando è falsa
(potenza del test)
0,05

0,045 H H00 H1 H 1

0,04

0,035
Sani Malati Potenza del test:
Probabilità di rifiutare
0,03
l’ipotesi nulla falsa

1-a
0,025

0,02 1-b
0,015

0,01

b a
0,005

0
0 10 20 30 40 50 60 70 80 90
ETA’
Valore critico
Falsi negativi Falsi positivi
Errore di secondo tipo: Errore di primo tipo:
rischio di non rifiutare rischio di rifiutare
l’ipotesi nulla falsa l’ipotesi nulla vera
Livello di significatività a e p value
Test di verifica su medie: un
gruppo
• Si formulano le ipotesi
H0: µ=µ0
H1: µ>µ0 oppure H1: µ<µ
H1: µ≠µ
• Si fanno delle assunzioni circa:
– La distribuzione (di Gauss?)
– La varianza (nota?)
x−µ
• Si costruisce la statistica test t=
s
n
• Si effettuano i calcoli e si prende la decisione: se
t calcolato>t tabulato si rifiuta H0, il test è
significativo
Ancora sulla significatività
Dire che un test è significativo vuol dire
che:
• il nostro risultato è più verosimile che sia
stato ottenuto da un campione estratto
da una popolazione ipotizzata in H1 che
in H0
• la differenza tra quello che otteniamo nel
campione e quello ipotizzato in H0 non è
ottenuto per caso ma al fatto che il
campione appartiene ad una
popolazione ipotizzata in H1
Confronto fra due gruppi
• Quando si vogliono confrontare due
gruppi occorre valutare se:
1. i campioni sono indipendenti o
dipendenti
2. la distribuzione della variabile è di
Gauss
3. altre condizioni
1. Campioni indipendenti o
dipendenti?
• Campioni indipendenti: si tratta di unità
distinte classificate in
– diversi trattamenti
– diverso sesso
– diverse classi di età
– diversi luoghi
– diverse condizioni sperimentali
• Campioni dipendenti: si tratta delle
stesse unità misurate

– in diversi tempi (prima e dopo)


– con diversi strumenti
– da diversi operatori
– in diverse condizioni sperimentali
2. Distribuzione di Gauss
• Se la distribuzione è di Gauss, o è
possibile effettuare una
trasformazione normalizzante o
comunque, se il campione è
sufficientemente grande, si può
procedere con un test parametrico,
altrimenti sarà preferibile optare per
un test non parametrico.
3. Altre condizioni da verificare

• Quando si fanno dei confronti fra gruppi


(due o più gruppi) è necessario verificare
preliminarmente se le varianze sono
omogenee oppure no e tenerne conto
nel test.
Test T-Student per campioni
indipendenti
• L ipotesi da verificare è

H0: µ1= µ2
H1: µ1> µ2 oppure H1: µ1<µ2
H1: µ1≠µ2

• Il test da utilizzare è:
( x1 − x2 ) − ( µ1 − µ 2 )
t=
S p2 S p2
+
n1 n2

Che si distribuisce come un t-Student con


n1+n2-2 gradi di libertà
S12 (n1 − 1) + S 22 (n2 − 1)
con 2
S =
p
n1 + n2 − 2
=

Quando le due varianze sono uguali, altrimenti S2p è


sostituito dalle due varianze singole e cambiano i
g.l.

• posto a=0.05 e g.l.= n1+n2-2, si determina il valore


soglia (ttab)
• la regola di decisione sarà che se t calcolato >ttab si
rifiuta H0
• in questo caso il test è significativo
Esempio 1: dati composizione corporea verifica su età

Si vuole verificare se la massa grassa dei


soggetti sottopeso (classe BMI=1) è uguale alla
massa grassa dei soggetti sovrappeso (classe
BMI=3)

µ1 µ3

s1 s3

n1=11 n3=8
x1=12.78 x3=33.30
S1=5.72 S3=3.04
1.Si estrae un campione dalla popolazione di
soggetti sottopeso (Classe BMI=1) ed uno
di soggetti sovrappeso (Classe BMI=3)
2.Si tratta di due campioni indipendenti
3.Si assume la normalità della massa grassa
4.Si assume l omogeneità delle varianze
5.Si stimano i parametri media e dev.
standard
6.L ipotesi da verificare è
H0: µ1= µ3
H1: µ1≠µ3
• Il test da utilizzare è:
( x1 − x2 ) − ( µ1 − µ 2 ) (12.78 − 33.3) − 0
t= = = −9.20
S p2 S p2 23.05 23.05
+ +
n1 n2 11 8

• Che si distribuisce come un t-Student


con 17 gradi di libertà

• posto a=0.05 e g.l.= 17, si determina il valore


soglia (ttab)=2.11
• essendo t calcolato >ttab si rifiuta H0
• il test è significativo
• La quantità di massa grassa è
siginficativamente diversa nei due gruppi
Test non parametrici

• Non necessitano di assunzioni sulla


distribuzione
• Non sfruttano i parametri
• Generalmente si basano sui ranghi
• Sono di semplice calcolo ed interpretazione
• Sono consigliabili su campioni piccoli
Test non parametrico per campioni indipendenti:
test somma dei ranghi di Wilcoxon

• L ipotesi da verificare è
H0: i due gruppi sono uguali
H1: i due gruppi sono diversi

• Come si procede?
• si crea un campione combinato ponendo le
osservazioni in ordine non decrescente
• si assegna il rango a tutte le osservazioni
• si calcola la somma dei ranghi distinta per i
due campioni
• si confronta la somma dei ranghi del
campione più piccolo con l intervallo
tabulato
• Si rifiuta H se il valore è esterno
Esempio 1:confronto massa grassa

1. Si estrae un campione dalla popolazione


dei soggetti sottopeso ed uno dalla
popolazione dei sovrappeso
2. Si tratta di due campioni indipendenti
3. Si verifica la non normalità
4. Si crea il campione combinato:
CLABM RANGH
S ranghi BMI1=66
I GRKG I
1 3,1 1 S ranghi BMI2=124
1 6,2 2
1 9,1 3
1 9,6 4 Si confronta 124 con l intervallo
tabulato 55-105, in questo caso si
1 9,9 5
rifiuta H0
1 13,6 6
1 13,9 7
1 17,2 8
1 17,3 9
1 19,2 10
1 21,5 11
3 29,2 12
3 29,5 13
3 31,8 14
3 32,6 15
3 34,0 16
3 36,4 17
3 36,5 18,5
3 36,5 18,5
Il caso di campioni appaiati
• Come prima valutiamo se:
1. i campioni sono indipendenti o dipendenti
2. la distribuzione della variabile è di Gauss
• Campioni dipendenti: si tratta delle stesse
unità misurate due volte
– in due condizioni sperimentali
– in diversi tempi (prima e dopo)
– con due strumenti
– da due operatori

• Trattandosi di stessi individui ha senso


valutare le differenze dei valori
– Tra le due condizioni sperimentali
– Tra prima e dopo
– Tra i due strumenti
– ….
• Ciò che vogliamo verificare e se le due
situazioni sono sovrapponibili o meno
• Pertanto lavoreremo sulle differenze e ci
chiederemo se in media le due serie di dati
sono uguali oppure no
Test T-Student per campioni
dipendenti
• L ipotesi da verificare è

H0: µd= 0
H1: µd> 0 oppure H1: µd<0
H1: µd≠0

• Il test da utilizzare è:
d − µd
t=
S d2
n
Che si distribuisce come un t-Student con
n-1 gradi di libertà
con d
d=
∑ i

S d2 =
∑ (d i −d)
n −1

• posto a=0.05 e g.l.= n-1, si determina il valore soglia


(ttab)
• la regola di decisione sarà che se t calcolato >ttab si
rifiuta H0
• in questo caso il test è significativo
Esempio 1: diametro nodulo
Si vuole verificare se le misure del diametro del
nodulo effettuate da due operatori diversi sono
le stesse oppure no

µd

sd

n=15
d=0.3
S2d=2.38
1. Si estrae un campione di soggetti da una
popolazione e si fa misurare il diametro
dei noduli da due operatori
2. Si tratta di due campioni dipendenti o
appaiati
3. Si effettuano le differenze (op.1-op.2)
4. Si verifica la normalità della differenza dei
diametri
5. Si stimano i parametri media e dev.
Standard della differenza
6. L ipotesi da verificare è
H0: µd= 0
H1: µd ≠ 0
Calcoliamo media e dev.standard
op.1 op.2 diff.
50 49,3 0,7
80 81,8 -1,8 ∑d i 5
d= = = 0.3
15 13,6 1,4 n 15

20 20,0 0,0 2

S d2 =
∑ (d − d ) = 2.38
i
40 43,1 -3,1 n −1
30 29,5 0,5
15 12,9 2,1
10 11,4 -1,4
10 9,1 0,9 Calcoliamo la statistica test
12 11,2 0,8
15 14,6 0,4 d − µd 0.3 − 0
t= = = 0.75
15 15,3 -0,3 S d2 2.38
18 17,7 0,3 n 15
18 15,0 3,0
8 6,5 1,5
• posto a=0.05 e g.l.= 14, si determina il valore soglia
(ttab)=2.145
• essendo t calcolato <ttab si accetta H0
• in questo caso il test non è significativo
Test non parametrico per campioni appaiati: tes
dei ranghi con segno di Wilcoxon
• L ipotesi da verificare è

H0: i due gruppi sono sovrapponibili


H1: i due gruppi non sono sovrapponibili
• Come si procede?
• Si effettuano le differenze tra le coppie di valori
• Si eliminano le differenze nulle
• si assegna il rango alle differenze private del
segno
• si calcola la somma dei ranghi assegnati alle
differenze positive
• si calcola la somma dei ranghi assegnati alle
differenze negative
• si confrontano le somme dei ranghi ottenute con i
valori tabulati
• Si rifiuta H se le somme sono esterne
Esempio 1: diametro noduli
1. Si estrae un campione di soggetti da una popolazione e si fa
misurare il diametro dei noduli da due operatori
2. Si tratta di due campioni dipendenti o appaiati
3. Si effettuano le differenze (op.1-op.2)
4. Si verifica la non normalità delle differenze
5. Si assegnano i ranghi alle differenze senza segno
6. Si effettua la somma dei ranghi assegnati a differenze positive ed
a quelle negative
7. si confrontano entrambe le somme con i valori tabulati
8. se le somme cadono nell intervallo si accetta H0

S ranghi + =70
in questo caso si accetta
S ranghi - =35 H0
n op.1 op.2 diff. diff.ass. ranghi
1 50 49,3 0,7 0,7 5,0
2 80 81,8 -1,8 1,8 11,0
3 15 13,6 1,4 1,4 8,5
4 20 20,0 0,0
5 40 43,1 -3,1 3,1 14,0
6 30 29,5 0,5 0,5 4,0
7 15 12,9 2,1 2,1 12,0
8 10 11,4 -1,4 1,4 8,5
9 10 9,1 0,9 0,9 7,0
10 12 11,2 0,8 0,8 6,0
11 15 14,6 0,4 0,4 3,0
12 15 15,3 -0,3 0,3 1,5
13 18 17,7 0,3 0,3 1,5
14 18 15,0 3,0 3,0 13,0
15 8 6,5 1,5 1,5 10,0

SR+=70 Essendo le somme interne all intervallo 21-84 si accetta H0


SR-=35
Esempio sul diametro del tumore delle prime 10 donne del data-set.

Calcoliamo media e dev.standard

d=
∑d i
=
0.69
= 0.069
n 10

S d2 =
∑ (d −d) i
= 0.05
n −1

Calcoliamo la statistica test

d − µd 0.069 − 0
t= = = 0.962
S d2 0.05
n 10

• posto a=0.05 e g.l.= 9, si determina il valore soglia (ttab)=2.262


• essendo t calcolato <ttab si accetta H0
• in questo caso il test non è significativo
• Le misurazioni effettuate dai due operatori sono uguali
Relazione tra variabili
Possiamo distinguere 2 casi:
• Relazione tra variabili qualitative (o
quantitative divise in classi)
• Relazione tra variabili quantitative
Relazione tra variabili qualitative
(o quantitative divise in classi)

• L ipotesi da verificare è
H0= indipendenza
H1= dipendenza

• In questo caso i dati possono essere


riassunti in una tabella di frequenza a
doppia entrata, detta Tabella di
Contingenza, del tipo:
1a variabile

2a 1 2 … j … c Tot.
variabil
e
1 O11 O12 … O1j … O1 N1.
c
2 O2 O22 … O2j … O2 N2.
1 c
… … … … … … … …
i Oi1 Oi2 … Oij … Oic Ni.
… … … … … … … …
r Or1 Or1 … Orj … Or Nr.
• Con Oij =valore osservato (n. di soggetti
con le caratteristiche i e jc delle due
Tot. N.1 N.2 … N.j … N. N
variabili)
c
Esempio: Valutare se esiste una relazione
tra quantità di vitamina C assunta
giornalmente e episodi di raffreddore
Quantità di vitamina C giornaliera
Episodi di 0 500 mg 1000 totale
raffreddor mg
e
nessuno 57 26 17 100

almeno 1 223 84 43 350

totale 280 110 60 450


• Quello che dobbiamo verificare è se la distribuzione
osservata rispecchia una situazione di indipendenza o
di dipendenza tra le variabili
• a tal fine si costruisce una tabella analoga ma ottenuta
in condizioni di indipendenza, calcolando per ogni
cella i valori attesi

Ni ⋅ N j
Eij =
N
• dove per ogni cella
Ni=totale di riga
Nj=totale di colonna
N=totale

• e si confrontano le due distribuzioni


1a variabile

2 1 2 … j … c Tot.
variabil
e
1 E11 E12 … E1j … E1c N1.

2 E21 E22 … E2j … E2c N2.

… … … … … … … …

i Ei1 Ei2 … Eij … Eic Ni.

… … … … … … … …

r Er1 Er1 … Erj … Erc Nr.

Tot. N.1 N.2 … N.j … N.c N


• Il confronto tra le due distribuzioni si
effettua mediante la statistica test chi-
quadro

χ2 = ∑
(O
ij − Eij )
2

ij Eij

• che sotto l ipotesi nulla di indipendenza, si


distribuisce come un c2 con g.l. pari a
(r-1)X(c-1)
• fissato a=0.05 ed i g.l. la regola di
decisione sarà che se c2 calcolato>c2
tabulato si rifiuterà H0
• Calcoliamo i valori attesi per l esempio (valori
in parentesi)

Quantità di vitamina C giornaliera


Episodi di 0 500 mg 1000 totale
raffreddor mg
e
nessuno 57 26 17 100
(62.2) (24.4) (13.4)
almeno 1 223 84 43 350
(217.8 (85.6) (46.6)
)
totale 280 110 60 450
• Calcoliamo la statistica test

Χ2 = ∑
(Oij − Eij )
2

=
( 2
57 − 62.2) (26 − 24.4)
+
2
+ ...
(43 − 46.6)
2
= 1.99
ij Eij 62.2 24.4 46.6
• Fissato a=0.05 e g.l.=2 il valore tabulato è
5.99
• Essendo il c2 calcolato< c2 tabulato si accetta
H0
• Il test non è significativo
• Le variabili sono indipendenti
• In questo caso si poteva anche porre
H0=p1=p2=p3
H1=almeno due p diverse
Tabelle di contingenza 2x2
• Quando la tabella è del 1a variabile
tipo 1 2 Tot.

2a variabile 1 a b a+b

2 c d c+d

Tot. a+c b+d N


•La statistica test c2 diventa

2
2 N (ad − bc )
χ =
(a + b) × (c + d ) × (a + c) × (b + d )

che sotto l ipotesi nulla, si distribuisce come un


c2 con g.l. pari a 1
• Quando N<30 o una delle celle ha frequenza
<5 si utilizza una statistica test corretta
secondo Yates

2
2 N (ad − bc − 0,5 N )
χ =
(a + b) × (c + d ) × (a + c) × (b + d )
• La regola di decisione è sempre la stessa:
se c2 calc.>c2 tabulato si rifiuta H0
• In questo caso
H0=p1=p2
H1=p1≠p2
In uno studio sull efficacia dei caschi protettivi per bicicletta
nella prevenzione dei traumi cranici sono stati rilevati i seguenti
dati:
trauma Casc Casco TOTAL
cranic osi no E
o Valutare se le percentuali
di trauma cranico sono le
si 17 218 235 stesse tra chi aveva il
no 130 428 558 casco e chi no
TOTAL 147 646 793
H0=p
E 1=p2
H1=p1≠p2

2 2
2 N (ad − bc ) 793(17 x 428 − 218 x130)
Χ = = = 28.26
(a + b) × (c + d ) × (a + c) × (b + d ) (235) × (558) × (147) × (646)

•Fissato a=0.05 e g.l.=1 il valore tabulato è 3.84


•Essendo il c2 calcolato> c2 tabulato si rifiuta H0
•Il test è significativo: la percentuale di traumi è diversa
Relazione tra variabili
quantitative
•Si distinguono due metodi
1.La regressione
2.La correlazione

La regressione si utilizza quando si può


individuare una variabile dipendente ed una o
più variabili indipendenti
La correlazione si utilizza quando si vuole
valutare l interazione tra le variabili
Esercitazione n. 1
• 1. Si dispone dei punteggi ottenuti ad un test atto a misurare la
fiducia in se stessi somministrato ad un gruppo di 8 studenti
all’inizio del primo anno accademico ed alla fine:

inizio a.a. fine a.a.


22 21
28 24
30 28
38 40
32 33
33 27
35 25
27
• Verificare l’ipotesi che vi sia 26
una differenza significativa tra i due
tempi di osservazione con il metodo parametrico, specificando:
• 1.a ipotesi nulla
• 1.b statistica test (formula e risultato)
• 1.c decisione statistica (valori tabulati +/- 2,365)
2. Verificare l’ipotesi relativa al problema precedente con il
procedimento non parametrico
3. Calcolare l’intervallo di confidenza per il punteggio medio
relativo all’inizio dell’a.a.
4. I gradi di libertà della statistica chi-quadro sono pari a:
a. N-1
b. Num.righe x num.colonne (rxc)
c. (r-1)(c-1)
5. Quando il test è “non significativo” vuol dire che:
a. Rifiuto l’ipotesi nulla
b. Accetto l’ipotesi nulla
c. Accetto l’ipotesi alternativa
d. Non è un risultato degno di attenzione
6. Il termine parametro indica:
a. Un valore caratteristico di una distribuzione ad es. la media
b. Una caratteristica valutata in un gruppo di pazienti ad es. il peso
c. Il tipo di analisi che si vuole eseguire ad. es. parametrica
7. Scrivere la formula del test da utilizzare per verificare l’ipotesi
H0:µ1=µ2.
8. Volendo valutare l’esistenza di una relazione tra attività sportiva
praticata (nessuna, saltuaria, abituale) e livelli di colesterolo HDL
(basso, normale, alto), quale metodo sarebbe più corretto?
a. Il test t student per dati appaiati
b. le tabelle di contingenza
c. il test dei ranghi con segno
9. Descrivere il procedimento del campionamento a stadi
10. La statistica test corrisponde a:
a. Test t-Student per campioni appaiati;
N ( ad − bc)
2

b. Test del chi-quadro ∑ ( a + b) ( c + d ) ( a + c) ( b + b)


c. Test del chi-quadro con correzione di Yates
Tabella Gauss
Tabella Gauss
Tabella t Student
Tabella c2
Tabella Wilcoxon camp. indipendenti
Tabella Wilcoxon camp. Appaiati

Potrebbero piacerti anche