Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CORSO DI
STATISTICA E INFORMATICA MEDICA
Docente: Pasquale Dolce
pasquale.dolce@unina.it
Testi di riferimento:
Daniel W. Biostatistica. Edises Universitaria
Ricevimento studenti:
Lunedi, dalle 14 alle 16,
Stanza Prof. Dario Bruzzese, Edificio 18, piano terra.
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Modalità di accertamento del profitto
• Esame scritto sulla base di domande aperte.
• Lavoro di gruppo
• Esame orale
PREREQUISITI PROPEDEUTICITÀ
Nessuno Nessuna
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Statistica Descrittiva vs Statistica Inferenziale
Statistica Descrittiva:
Statistica Inferenziale:
Insieme di metodi e tecniche che utilizzano lo strumento
probabilistico per poter indurre le caratteristiche di una intera
popolazione dall’analisi dei risultati osservati su una parte della
popolazione (il campione osservato). Essa permette quindi di stimare
una caratteristica relativa a tutta una popolazione o di prendere una
data decisione riguardante un’intera popolazione a partite
dall’analisi dei dati campionari che sono stati osservati
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Definizione
del problema
e delle ipotesi
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Variabili Statistiche -
Rappresentazioni Tabellari e Grafiche
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)
Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)
Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione
Variabile
Qualunque fenomeno oggetto di studio che è rilevato sulle unità
statistiche e che è suscettibile di assumere valori differenti nelle
differenti unità statistiche
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)
Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione
Variabile
Qualunque fenomeno oggetto di studio che è rilevato sulle unità
statistiche e che è suscettibile di assumere valori differenti nelle
differenti unità statistiche
Modalità
I valori assunti da ciascuna variabile nelle singole unità statistiche
Variabili
Variabili
Qualitative Quantitative
Variabili
Variabili
Qualitative Quantitative
Variabili qualitative
Variabili che assumono come modalità
etichette linguistiche
Genere (Maschio femmina)
Intensità del dolore (Assente,
Moderata, Lieve, Forte)
Grado di Istruzione
...
Variabili
Variabili
Qualitative Quantitative
Qualitative Quantitative
Variabili
Variabili
Qualitative Quantitative
Qualitative Quantitative
Variabili
Variabili
Qualitative Quantitative
Qualitative Quantitative
Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili
Variabili
1 Quantitative Continue
2 Quantitative Discrete
3 Qualitative Ordinali
4 Qualitative nominali
Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili
Variabili
1 Quantitative Continue
2 Quantitative Discrete
3 Qualitative Ordinali
4 Qualitative nominali
Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili
Rappresentazioni Grafiche
Diagrammi a barra e a torta
Istogrammi
...
Esempio
Unità Valore
1 Modalità 1
2 Modalità 1
3 Modalità 2
4 Modalità 1
5 Modalità 2
6 Modalità 3
7 Modalità 3
Esempio
Unità Valore
1 Modalità 1 Modalità Frequenza
2 Modalità 1 Modalità 1 3
3 Modalità 2 Modalità 2 2
4 Modalità 1 Modalità 3 2
5 Modalità 2
6 Modalità 3 Totale 7
7 Modalità 3
Rappresentazioni Tabellari
Rappresentazioni Tabellari
Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108 Distribuzione di frequenza del
14 23 F 104 genere
15 24 F 138 Genere Frequenza
16 22 M 129
17 21 M 134 M 9
18 21 M 108 F 11
19 20 F 123
20 23 F 137 Totale 20
Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108 Distribuzione di frequenza del
14 23 F 104 genere
15 24 F 138 Genere Frequenza
16 22 M 129
17 21 M 134 M 9
18 21 M 108 F 11
19 20 F 123
20 23 F 137 Totale 20
Rappresentazioni Tabellari
Distribuzione di frequenza Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età della durata della fase REM
1 25 F 103
Età Frequenza Durata Frequenza
2 25 F 115
3 25 F 125 Fase REM
20 4
4 20 F 107 21 3 103 1
5 25 M 112 22 3 104 1
6 23 M 125 23 3 107 1
7 22 M 114 24 3 108 3
8 21 M 111 25 4 111 1
9 20 F 138 112 1
10 20 M 125 Totale 20 114 1
11 24 M 108 115 1
12 22 F 130 123 1
13 24 F 108 Distribuzione di frequenza del
125 3
14 23 F 104 genere
129 1
15 24 F 138 Genere Frequenza 130 1
16 22 M 129 134 1
17 21 M 134 M 9 137 1
18 21 M 108 F 11 138 2
19 20 F 123
20 23 F 137 Totale 20 Totale 20
Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza
Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza
Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza
Rappresentazioni Tabellari
Tabelle di contingenza
La tabelle di contingenza consentono di incrociare le
distribuzioni di frequenza relative a due o più variabili allo
scopo di evidenziare la presenza di relazioni e associazioni
La frequenze interne sono dette frequenze congiunte dal momento che indicano il numero
di unità statistiche che congiuntamente presentano quelle specifiche modalità di riga e di
colonna
Rappresentazioni Tabellari
Tabelle di contingenza
La tabelle di contingenza consentono di incrociare le
distribuzioni di frequenza relative a due o più variabili allo
scopo di evidenziare la presenza di relazioni e associazioni
I totali di riga e di colonna sono invece le frequenze marginali. Esse indicano il numero di
soggetti che presentano una specifica modalità di una variabile indipendentemente da
quanto accade per l’altra variabile considerata
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129 Distribuzione di frequenza congiunta del
17 21 M 134 genere e della durata della fase REM
18 21 M 108
Genere
19 20 F 123
Pressione F M Totale
20 23 F 137
100 -| 110 4 2 6
110 -| 120 1 3 4
120 -| 130 3 3 6
130 -| 140 3 1 4
Totale 11 9 20
Rappresentazioni tabellari
Qualora si debbano confrontare collettivi di numerosità differenti è opportuno ricorrere a
frequenze relative o percentuali.
Maschi Femmine
Freq. Freq.
Tipologia di incidente Tipologia di incidente
Ass. Ass.
Rappresentazioni tabellari
Qualora si debbano confrontare collettivi di numerosità differenti è opportuno ricorrere a
frequenze relative o percentuali.
Rappresentazioni Grafiche
I diagrammi a Torta, quelli a Barre e altre rappresentazioni analoghe si
utilizzano con variabili di tipo qualitativo; in questi grafici l’unica
informazione numerica è contenuta nelle frequenze (spesso espresse in
termini relativi o percentuali)
Femmine=53%
Maschi=47%
Femmine=53% Maschi=47%
Femmine=53%
Maschi=47%
Femmine=53% Maschi=47%
Rappresentazioni Grafiche
I diagrammi a Torta, quelli a Barre e altre rappresentazioni analoghe si
utilizzano con variabili di tipo qualitativo; in questi grafici l’unica
informazione numerica è contenuta nelle frequenze (spesso espresse in
termini relativi o percentuali)
Femmine=53%
Maschi=47%
Femmine=53% Maschi=47%
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.
Durata fase
Freq. Ass Freq. Rel.
REM
Freq. Rel.
Durata fase
Freq. Ass Freq. Rel.
REM
Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate...
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.
Freq. Rel.
Durata fase
Freq. Ass Freq. Rel.
REM
Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate...
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.
Durata fase
Freq. Ass Freq. Rel. Densità
REM
Frequenza Relativa
Densità di Frequenza =
Ampiezza della classe
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.
Densità
Durata fase
Freq. Ass Freq. Rel. Densità
REM
Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate, è riportata la densità di frequenza
che pesa la frequenza relativa di ciascuna classe per la sua
ampiezza.
Esempio di variabile su scala ad intervallo
Temperatura in gradi
• Lo zero della prima scala è solo una convenzione che equivale nella
seconda a 32 gradi.
Scala Kelvin
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Esempio di variabile su scala di rapporto
Peso
(20×4)+(21×3)+...+(25×4) 450
µ= (4+3+...+4
= 20
= 22.5 anni
Indici Sintetici di Posizione: la media aritmetica
N.B. Nel caso in cui n è pari e quindi esistono due posizioni mediane, se si è in
presenza di variabili quantitative la mediana è ottenuta come semi-somma dei due
valori corrispondenti; se la variabile è qualitativa ordinale allora si dice che la
distribuzione è caratterizzata da due valori mediani.
Un esempio: n pari
Valore Posizione
19 1
22 2
25 3
26 4
27 5
41 6
Un esempio: n pari
Valore Posizione
19 1
22 2 P
Me =
n n
25 3
2 = 3, 2 + 1 = 4
26 4
27 5
41 6
Indici Sintetici di Posizione: la mediana
Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
Me = 25
27 5
Un esempio: n pari
Valore Posizione
19 1
22 2 P
Me =
n n
25 3
2 = 3, 2 + 1 = 4
26 4
27 5 25+26
41 6
Me = 2 = 25.5
I dati
Sono stati analizzati 19 bambini con
idrocefalo e per ciascuno di essi è stato
misurato il tempo di latenza (ottenuto
attraverso una operazione di averaging,
la quale permette di ottenere la risposta
media del cervello allo stimolo) ad uno
stimolo acustico (click).
X
µ
Indici Sintetici di Variabilità: Varianza
La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento (valore centrale) e si basa sulle distanze di
ciascuna osservazione dal centro assunto come riferimento.
X
µ
X
µ
rP
√ n
i=1 (xi − µ)2
σ= σ2 =
n
Pn
i=1 (xi − µ)2
σ2 =
n
Pn
i=1 (xi − µ)2
σ2 =
n
Indici Sintetici di Variabilità: Varianza
Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...
Età Frequenza
26 5
27 3
28 7
29 11
30 14
Totale 40
Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40
Indici Sintetici di Variabilità: Varianza
Distribuzione di frequenza dell’età al primo parto per un collettivo di 40
donne italiane.
Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40
Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40
√ p
σ= σ2 = 1.83 anni2 = 1.35 anni
Esercizio
Distribuzione di frequenza del tempo (in secondi) impiegato per il
completamento di un test di lettura in un colletivo di 20 soggetti
dislessici prima e dopo lo svolgimento di una terapia logopedica.
Mediana=Media Mediana=Media
2
Mediana<Media Mediana>Media
Il boxplot
Permette di studiare graficamente l’intensità, la variabilità e la forma di una
distribuzione
Q1 Me Q3
3. Si calcolano i valori a e b:
a = Q1 − 1,5 ( Q3 − Q1 ) ; b = Q3 + 1,5 ( Q3 − Q1 )
4. Si calcolano i valori a e b:
a = massimo(min e a)
Continua …
b = minimo(max e b)
4
Continua …
Distribuzione simmetrica
Distribuzione
asimmetrica
negativa
5 10 15 20 25
Distribuzione
asimmetrica
positiva
Definizione classica:
il rapporto tra il numero dei casi favorevoli all'evento e il numero
dei casi possibili, purché tutti i casi sono egualmente possibili
(Ad esempio, nel lancio della moneta le due facce devono avere
eguale possibilità di presentarsi)
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Definizioni Operative vs calcolo delle probabilità
Definizione soggettivista:
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Performance Diagnostica
La performance di Afasia
un’indagine diagnostica Diagnosi AAT Sì No Totale
corrisponde + 250 550 800
complessivamente al suo - 150 1450 1600
grado di accuratezza,
ovvero alla “capacità” di Totale 400 2000 2400
identificare come positivi
all’indagine i soggetti
affetti da una data
malattia e come negativi Patologia
all’indagine i soggetti Diagnosi Presente Assente Totale
che, invece, non ne sono + Veri Positivi Positivi
affetti. - Veri negativi Negativi
Totale Malati Sani Totale
Gold standard
Una procedura diagnostica infallibile è tale se tutti i soggetti sani ricevono una diagnosi
negativa e, contemporaneamente, se in tutti i soggetti malati viene diagnosticata la
patologia. Tale procedura è detta Gold Standard
Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”
Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”
Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”
Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Indicatori di Performance
Sensibilità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Sensibile quanto più è - 150 1450 1600
alta la probabilità che un Totale 400 2000 2400
soggetto “malato” riceva
una diagnosi “positiva”
Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Veri Positivi Veri Positivi
P(Diagnosi + | Patologia presente) = Malati
= Veri Positivi + Falsi Negativi
Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”
Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”
Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”
Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi
Indicatori di Performance
Specificità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Specifica tanto più è alta - 150 1450 1600
la probabilità che un Totale 400 2000 2400
soggetto “sano” riceva
una diagnosi “negativa”
Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi
Indicatori di Performance
Specificità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Specifica tanto più è alta - 150 1450 1600
la probabilità che un Totale 400 2000 2400
soggetto “sano” riceva
una diagnosi “negativa”
Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)
Sensibilità e Specificità
Una procedura poco sensibile classificherà come Sani molti soggetti che in realtà
presentano la patologia. Produrrà quindi un numero elevato di Falsi Negativi. Infatti ciò
che manca ad una procedura per raggiungere una sensibilità perfetta, uguale cioè a 1,
può essere ottenuto come :
Sensibilità e Specificità
D’altra parte una procedura poco specifica classificherà come malati molti soggetti che in
realtà non presentano la patologia, producendo di conseguenza un numero elevato di
Falsi Positivi. Infatti :
Sensibilità
P(Diagnosi + | Patologia Presente)
Specificità
P(Diagnosi - | Patologia Assente)
Sensibilità
P(Diagnosi + | Patologia Presente)
Specificità
P(Diagnosi - | Patologia Assente)
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 190 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 12
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12
Specificità - 45 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12 157
Specificità - 45 198 243
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12 157
Specificità - 45 198 243
P(Diagnosi - | Patologia Assente) Totale 190 210 400
Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità= 145
190
= 0.76
Specificità= 198
210
= 0.94
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)
Sensibilità e Specificità
I due indicatori di Sensibilità e Specificità forniscono indicazioni fondamentali sull’
affidabilità di una procedura diagnostica ma sono del tutto inutili a fini predittivi.
Perché ???
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)
Sensibilità e Specificità
I due indicatori di Sensibilità e Specificità forniscono indicazioni fondamentali sull’
affidabilità di una procedura diagnostica ma sono del tutto inutili a fini predittivi.
Perché ???
Perchè ai fini predittivi (leggi diagnostici) ciò che interessa conoscere non è la probabilità
che un soggetto sano (risp. malato) risulti negativo (risp. positivo) alla procedura
diagnostica, ma esattamente il contrario...
Indicatori di Performance
Valore Predittivo Patologia
Positivo Diagnosi Presente Assente Totale
Il Valore Predittivo + Veri Positivi Falsi Positivi Positivi
Positivo (VPP) di una - Falsi Negativi Veri negativi Negativi
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura
Indicatori di Performance
Valore Predittivo Patologia
Positivo Diagnosi Presente Assente Totale
Il Valore Predittivo + Veri Positivi Falsi Positivi Positivi
Positivo (VPP) di una - Falsi Negativi Veri negativi Negativi
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura
Indicatori di Performance
Valore Predittivo Afasia
Positivo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Positivo (VPP) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura
Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura
Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura
Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura
Indicatori di Performance
Valore Predittivo Afasia
Negativo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Negativo (VPN) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura
CURVE ROC
Diametro mm Sani Malati
5.0 4 0
Distribuzione di frequenza del diametro
5.1 6 0
5.2 2 0 esterno dell’appendice vermiforme in
5.3 6 1 un collettivo di 314 soggetti classificati
5.4 13 0 in base alla presenza o assenza di un
5.5 11 1 processo di infiammazione.
5.6 20 1
5.7 29 2
5.8 18 8
5.9 14 3
6.0 13 6 Qualora si decida di utilizzare il valore
6.1 7 14 di 6mm (incluso) come cut-off per la
6.2 3 12
6.3 5 8 diagnosi di appendicite calcolare
6.4 2 8 sensibilità e specificità della procedura
6.5 2 9 diagnostica. Ripetere la procedura
6.6 1 15 utilizzando un cut-off pari a 6.5mm
6.7 0 18
6.8 0 19
(incluso).
6.9 0 21
7.0 0 12
Totale 156 158
35
30
Malati
Sani
25
20
15
10
0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
35
20
Specificità=0.79
15
10
0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
35
20
Specificità=0.99
15
10
0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
CURVE ROC
Curva ROC
1.00
Al variare del valore di cut- 0.90
off si modificano i valori di 0.80 Per assicurarmi un
sensibilità e specificità di 0.70 valore di sensibilità
una procedura diagnostica. del 90% devo
0.60
Le curve ROC consentono
Sensibilità
accettare una
di valutare l’attendibilità
0.50
percentuale di falsi
del test al variare del punto 0.40
positivi del 21%
di taglio 0.30
0.20
0.10
Probabilità di un vero positivo
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
1.00
Le curve ROC possono 0.90
essere utilizzate per
confrontare l’attendibilità
0.80
Sensibilità
scegliere quella ottimale 0.50
0.40
0.30
0.20
Quale delle tre procedure 0.10
è più attendibile???
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
CURVE ROC
Curva ROC
1.00
0.90
La procedura è 0.80
equivalente al lancio di
0.70
una monetina dal
momento che la 0.60
Sensibilità
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
CURVE ROC
Curva ROC
1.00
0.90
La procedura è ottimale. 0.80
Consente di ottenere
0.70
una sensibilità pari ad 1
senza correre il rischio di 0.60
Sensibilità
un falso positivo. 0.50
0.40
0.30
0.20
0.10
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
CURVE ROC
Curva ROC
1.00
0.90
Tra i due casi estremi si 0.80
collocano tutte le
0.70
situazioni reali. Tanto più
la curva ROC di un test 0.60
Sensibilità
0.20
0.10
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
JUST FOR FUN
https://kennis-
research.shinyapps.io/ROC-Curves/
Teorema di Bayes
Sintomo
???
Problema diretto
So che un paziente presenta una determinata
Patologia
patologia e mi domando qual è la probabilità di
osservare uno specifico quadro sintomatologico
Sintomo
Problema inverso
Osservo in un paziente uno
E1 E2 specifico quadro
Patologia 2
sintomatologico e mi
Patologia 1 interrogo su quale patologia
??? ??? sia la più verosimile
Teorema di Bayes
Teorema di Bayes
P(H1 E) Definizione di Probabilità
P(H1|E)=
P(E) Condizionata
P(H1 E)=P(H1|E)*P(E)
H1 H2
P(E | H1 )P(H1 )
P(H1|E)=
P(E)
P(E)=P(E H1 ) + P(E H2 )
Teorema di Bayes
H1 H2
Teorema di Bayes
P(E | H1 )P(H1 )
P(H1 E)
P(H1|E)=
P(E)
P(E | H1 )*P(H1 ) + P(E | H2 )*P(H2 )
P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
Teorema di Bayes
P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
E = Positività all’elettroencefalogramma (EEG)
H1 = Sindrome Epilettica
H2 =¬H1 = Assenza di Sindrome Epilettica
Teorema di Bayes
P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
E = Positività all’elettroencefalogramma (EEG)
H1 = Sindrome Epilettica
H2 =¬H1 = Assenza di Sindrome Epilettica
P (A) P (A)
ODD ( A ) = = Odd=1 → La probabilità che l’evento si verifichi è
1- P ( A ) P (ØA ) uguale a quella che non si verifichi
O ( A ) (1- P ( A )) = P ( A ) 8
O ( A ) -O ( A )P ( A ) = P ( A ) 6
O ( A ) = O ( A )P ( A ) + P ( A ) 4
3
O ( A ) = P ( A ) (1+ O ( A ))
2
1
O (A)
= P (A )
1+ O ( A ) 0
0 0,2 0,4 0,6 0,8 1
P(A)
Odds Condizionali
Le odds condizionali misurano le odds
di un evento (ipotesi) condizionate al
verificarsi di una data condizione
(Evidenza).
P (H | E ) P (H | E )
ODD ( H | E ) = =
1- P ( H | E ) P (ØH | E )
P (E Ç H ) P (E | H )P (H )
P (H | E ) = =
P (E ) P (E )
P (E | H )P ( H )
P (H | E ) =
P (E )
P ( E |ØH ) P (ØH )
P (ØH | E ) =
P (E )
P (E | H )P ( H ) P (E | H )
O (H | E ) = = O (H )
P ( E |ØH ) P (ØH ) P ( E |ØH )
Odds Condizionali
P (E | H )
O (H | E ) = O (H )
P ( E |ØH )
Rapporto di Verosimiglianza
Likelihood Ratio
Fattore Bayesiano
Odds Condizionali
P (T + | M )
O ( M | T +) = O (M )
P (T + |ØM )
P (T + | M )
O ( M | T +) = O (M )
1- P (T - |ØM )
Sensibilità
O ( M | T +) = O (M )
1- Specificità
Likelihood Ratio
Sensibilità
LR =
1-Specificità
Il LR è un rapporto tra due probabilità e di conseguenza è un
numero sempre maggiore di 0
Likelihood Ratio
47 49
Sensibilità Optimal= = 0.887 Sensibilità = 0.924
53 ICT=
53
Specificità Optimal= 178 = 0.994 Specificità 175
ICT= = 0.978
179 179
0.887 0.924
LROptimal= =147.8 LR = 42
1- 0.994 ICT=
1- 0.978
Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.9
LR=0.05
Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.9
LR=2
Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.05
LR=10
Introduzione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Arruolamento
Randomizzazione
Esposizione Sì Esposizione No
Gruppo di Intervento Gruppo di Controllo
tempo
Studi RCT
Il processo di randomizzazione evita che l’attribuzione dei soggetti ai
due bracci (intervento e controllo) possa essere viziata da scelte
soggettive dei ricercatori.
I due gruppi devono infatti essere simili rispetto a potenziali variabili di
confondimento poiché solo così le differenze osservate sono attribuibili
alla presenza o assenza del fattore di esposizione.
Studi di Coorte
Un gruppo di soggetti dei quali è nota la storia di esposizione viene seguita
prospetticamente per valutare l’insorgenza dell’evento.
Arruolamento
Osservazione
Esposizione Sì Esposizione No
tempo
Pros Cons
Meno soggetti ad errori sistematici Dispendiosi in termini di costo e di tempo
Possibilità di stimare l’incidenza della malattia Non adatti nelle situazioni in cui la
(numero di nuovi casi in un dato intervallo di tempo) probabilità di sviluppare la malattia è bassa
(malattie rare)
Studi Osservazionali Caso Controllo
Arruolamento
Osservazione
Evento Sì Evento No
Casi Controlli
Pros Cons
Adatti nelle situazioni in cui la probabilità di Risultati meno affidabili rispetto agli studi
sviluppare la malattia è bassa (malattie rare) prospettici
Adatti quando l’intervallo che separa l’esposizione
dall’insorgenza dell’evento è molto lungo
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
b
Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No) =
b+d
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
a
P(Evento Sì | Esposizione Sì) a+c
RR = =
P(Evento Sì | Esposizione No) b
b+d
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
E’ possibile sostenere che l’Apnea Ostruttiva del Sonno sia responsabile dell’insorgenza
di aritmia cardiaca ?
Disegno prospettico (Studio di Coorte)
Fattore di Esposizione: Presenza di OSAS (Obstructive Sleep Apnea Syndrome).
Evento di interesse: Aritmia
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942
0.14
RR = = 1.4
0.10
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca
Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085
160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942
0.14 I soggetti che soffrono di Apnea ostruttiva del sonno presentano un rischio di Aritmia cardiaca circa
RR = = 1.4 una volta e mezzo più grande dei soggetti senza OSAS
0.10
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
Esempi
L’odd dell’uscita di testa nel lancio di una moneta (non truccata) :
E= Uscita di testa
P(E)= 0.5
1-P(E)= 0.5
P(E) 0.5
Odd(E)= = =1
1 − P(E) 0.5
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
Esempi
L’odd che esca un numero strettamente maggiore di 4 lanciando un dado:
E= Uscita di un numero > 4, {5, 6}
2
P(E)= 6
= 0.33
4
1-P(E)= 6
= 0.66
P(E) 0.33
Odd(E)= = = 0.5
1 − P(E) 0.66
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
0 ≤ Odd < 1
E’ meno probabile che l’evento si
verifichi piuttosto che non si verifichi
In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
P(E)
Odd(E) =
1 − P(E)
In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Esempi
L’odd di Evento Sì:
E= Evento Sì
a+b c+d
P(Evento Sì)= n
; 1-P(E)=P(Evento No)= n
a+b
P(Evento Sì) n a+b
Odd(Evento Sì)= = c+d
= c+d
P(Evento No) n
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
Odd(Evento Sì | Esposizione Sì) =
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì)
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì)
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì) c/(a + c)
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
a/c ad
Odds Ratio = =
b/d bc
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
a/c ad
Odds Ratio = =
b/d bc
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
a/c ad
Odds Ratio = =
b/d bc
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
a/c ad
Odds Ratio = =
b/d bc
In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
a/c ad
Odds Ratio = =
b/d bc
In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione
In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo. E’ però fondamentale, ai fini della sua interpretazione, ricordare il
modo con cui esso è calcolato...
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
In presenza di complicanze ostetriche la probabilità che un soggetto presenti schizofrenia in età adulta è in un rapporto
di 35 a mille (0.035) rispetto alla probabilità che invece non insorga schizofrenia.
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
In assenza di complicanze ostetriche la probabilità che un soggetto presenti schizofrenia in età adulta è in un rapporto di
23 a mille (0.023) rispetto alla probabilità che invece non insorga schizofrenia.
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
0.035
OR = = 1.52
0.023
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
0.035 L’odd della Schizofrenia in presenza di complicanze ostetrica è una volta e mezzo l’odd di
OR = = 1.52 schizofrenia in assenza di complicanze ostetriche che rappresenta quindi un fattore di
0.023
rischio rispetto all’insorgenza di schizofrenia in età adulta
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
19
P(Schizofrenia)= ≈ 0.026
728
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
0.002
OR = = 1.52,
0.003
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
0.002
OR = = 1.52, RR =
0.003
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Odds ratio
Esercizio...
In una ricerca scientifica si intende valutare l’associazione tra lo svolgimento di servizio
militare e l’insorgenza di indebolimento dell’udito. A tale scopo 200 soggetti di età
compresa tra i 20 ed i 25 anni in servizio militare volontario e 140 adulti della stessa fascia
di età sono inclusi nello studio al termine del quale si osserva che 15 militari presentano
un indebolimento dell’udito che è invece presente in solo 2 dei soggetti che non avevano
svolto il servizio militare.
1 Di che tipo di studio si tratta (Caso Controllo, Coorte, RCT)
2 Quale tra le due dimensioni considerate è il fattore di esposizione e quale l’evento di
interesse?
3 Utilizzando l’indice opportuno, misurare l’associazione tra le due dimensioni e
commentare i risultati.
Teoria delle Variabili Casuali
Statistica Descrittiva e
Inferenziale
La Statistica descrittiva si
“limita” a descrivere,
Dati = attraverso opportuni
Elaborazione Risultati
Popolazione indicatori, le caratteristiche
osservate sugli individui
oggetto di indagine
Statistica Descrittiva e
Inferenziale
L’obiettivo ultimo
Dati = dell’Inferenza Statistica
Popolazione (dal latino Inferre, portare
dentro) è quello di ottenere
informazioni su una
popolazione a partire dai
dati raccolti attraverso una
indagine campionaria
Dati =
Campione Elaborazione Risultati
Popolazione e Campioni
Un parametro statistico è un indicatore sintetico
che, per definizione, è riferito ad una intera
popolazione
L’unico modo per conoscere esattamente il valore
assunto da un parametro è quello di condurre
un’indagine esaustiva
In quasi tutte le scienze. le uniche indagini
realizzabili sono campionarie. L’unica possibilità è
quindi quella sfruttare le informazioni “contenute”
nel campione per risalire
Principi di Inferenza Statistica
Stima Puntuale
Stima Puntuale
Malati (200) Sani (1400)
Stima Puntuale
Malati (200) Sani (1400)
Le variabili casuali
Una variabile casuale (V.C) è una corrispondenza tra gli eventi
dello spazio campione e l’insieme dei numeri reali.
X P(x)
TTT 3 ⅛
X P(x)
TTC 2 ⅛ P(x)
0 ⅛
TCT 2 ⅛
1 ⅜
CTT 2 ⅛
2 ⅜
TCC 1 ⅛
3 ⅛
CTC 1 ⅛ 0 1 2 3 X
CCT 1 ⅛
CCC 0 ⅛
Variabili casuali discrete
Così come accade per le variabili statistiche anche per le variabili casuali
è possibile calcolare il valore medio e la varianza di una V.C. discreta X.
Nella costruzione di questi indicatori è però necessario considerare la
probabilità con cui ciascuno dei valori può presentarsi.
n
m = E(X) = å xi ´ pi
i=1
n
s = Var(X) = å( xi - E(X)) ´ pi
2 2
i=1
1 3 3 1
X P(x) m º E(X) = 0 ´ + 1´ + 2 ´ + 3 ´ = 1.5
0 ⅛
8 8 8 8
1 ⅜ Il valore atteso indica il risultato che in media dovrei attendermi se
ripetessi l’esperimento un numero infinite di volte
2 ⅜
3 ⅛
1 1
s 2 º Var(X) = (0 - 1.5) ´ + ...( 3 - 1.5) ´ = 0.75
2 2
8 8
La varianza è come al solito un indicatore di variabilità. E’ tanto più grande
quanto più la variabile può assumere valori distanti dalla media e quanto più è
alta la probabilità che ciò accada
Variabili casuali discrete
Vi vengono proposti due differenti investimenti i cui profitti dipendono
dalle possibili fasi economiche in cui verserà l’economia italiana nel
prossimo anno.
A B
Condizioni P Risultato Risultato
Espansione 0.2 +2000 € +5000 €
Stasi 0.5 +100€ +100 €
Recessione 0.3 -1000 € -3000 €
I due investimenti
E(A) = 2000 ´ 0.2 +100 ´ 0.5 + (-1000 ´ 0.3) = 150 sono equivalenti in
termini di valore
E(B) = 5000 ´ 0.2 +100 ´ 0.5 + (-3000 ´ 0.3) = 150 atteso
P (X = a) P (a £ X £ b )
Esempio:
Estraggo a caso dalla popolazione degli uomini italiani di età compresa tra i
25 ed i 44 anni un individuo. Qual è la probabilità che l’altezza di questo
individuo sia maggiore di 175 cm? Oppure sia compresa tra 170 cm e 172
cm? Oppure sia minore di 172 cm?
Richiamo… Istogramma
Infatti:
Richiamo… Istogramma
P(155 £ X £ 160) = ?
P(155 X 160)
P(160 £ X £ 161) = ?
f(x1)
x1 x
La funzione f(●) viene definita funzione di densità di probabilità (f.d.p.) o
densità di probabilità di X e caratterizza le V.C. Continue. Rappresenta
l’analogo della legge di probabilità del caso discreto. In questo caso,
tuttavia, la funzione non può essere interpretata come la P(X=x), in
quanto tale probabilità sarà sempre nulla, per v.c. di tipo continuo. Tuttavia
è possibile associare probabilità ad intervalli e calcolare tali probabilità come
aree sottese alla curva.
Variabili casuali continue
f(x)
x1 x2 x
La funzione f(●) viene definita funzione di densità di probabilità (f.d.p.) o
densità di probabilità di X e caratterizza le V.C. Continue. Rappresenta
l’analogo della legge di probabilità del caso discreto. In questo caso,
tuttavia, la funzione non può essere interpretata come la P(X=x), in
quanto tale probabilità sarà sempre nulla, per v.c. di tipo continuo. Tuttavia
è possibile associare probabilità ad intervalli e calcolare tali probabilità come
aree sottese alla curva.
f(x)
La sua funzione di densità ha la seguente
espressione:
2
1 1 (x−µ)
2
f (x; µ, σ ) = √ e 2 σ 2
σ 2 2π
f(x)
µ
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
µ
µ1
X
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
µ
µ2 µ1
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
µ
X
σ12 < σ 2
f(x) A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
µ
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.
σ12 < σ 2
f(x) A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
µ
X
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
Qualunque siano i valori dei parametri, ad
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
X competono probabilità determinate
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
Qualunque siano i valori dei parametri, ad
95%
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
µ − 2σ µ + 2σ X competono probabilità determinate
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.
f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
99.9%
Qualunque siano i valori dei parametri, ad
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
µ − 3σ µ + 3σ X competono probabilità determinate
f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?
µ = 170 X
Variabile Casuale Normale
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?
f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?
µ = 170 X
175
f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?
+∞ 2
1 1 (x−µ)
Z
√ e2 σ2
175 σ 2 2π
µ = 170 X
175
Variabile Casuale Normale - Standardizzazione
Qualsiasi distribuzione Normale (qualunque sia cioè la sua media e/o la sua varianza) può
essere ricondotta ad una distribuzione normale con media nulla e varianza unitaria
mediante la trasformazione della Standardizzazione
f(x)
f(x)
f(z)
Standardizzazione Z = X −µ
σ
X 0 Z
Variabile Casuale Normale - Standardizzazione
Qualsiasi distribuzione Normale (qualunque sia cioè la sua media e/o la sua varianza) può
essere ricondotta ad una distribuzione normale con media nulla e varianza unitaria
mediante la trasformazione della Standardizzazione
f(x)
f(z)
Standardizzazione Z = X −µ
σ
X 0 Z
La nuova V.C. Z ottenuta attraverso l’operazione di
standardizzazione presenta tutte le caratteristiche di una E(Z ) = 0
V.C. Normale ma ha il vantaggio di essere svincolata dal
valore specifico dei due parametri µ e σ 2 Var (Z ) = σZ2 = 1
f(x)
µ = 170 175 X
X ∼ N(µ = 170cm, σ = 8cm)
P(X ≥ 175) =?
f(x)
Standardizzazione
Z = X −µ
σ
= 175−170
8
= 0.62
µ = 170 175 X
X ∼ N(µ = 170cm, σ = 8cm)
P(X ≥ 175) =?
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità cheun individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?
f(x)
f(z)
Standardizzazione
Z = X −µ
σ
= 175−170
8
= 0.62
0.01, l’area sottesa alla curva nell’intervallo da 0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
−∞ a quello specifico valore 0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
Il valore di ascissa a cui si è interessati si legge 0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
scorrendo le righe e le colonne; le prime riportano il 0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
valore fino alla prima cifra decimale; la seconda 0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
cifra decimale si recupera invece attraverso 0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
colonne. 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
Così, ad esempio, se si è interessati al valore di 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
ascissa 1.43, si identifica dapprima sulle righe il 1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
valore 1.40 e successivamente il valore 0.03 sulle 1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
colonne (1.43=1.40+0.03). Il dato che si ottiene 1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
incrociando la riga e la colonna così individuate, 1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
0.924 nell’esempio, rappresenta l’area sottesa alla 1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
curva e compresa nell’intervallo da −∞ a +1.43
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
La tavola riporta le aree solo per valori di ascissa 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
positiva; sfruttando però la simmetria della
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
distribuzione normale e le proprietà generali di una 2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
densità di probabilità sarà possibile risolvere 2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
qualunque tipo di problema... 2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
f(x)
f(z)
P(X ≥ 175cm) = P(Z ≥ 0.62)
µ = 170cm175cm X 00.62 Z
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
f(x)
f(z)
P(X ≥ 175cm) = P(Z ≥ 0.62)
µ = 170cm175cm X 00.62 Z
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0
f(x)
f(z)
Standardizzazione
Z = X −µ
σ
= 160−170
8
= −1.25
f(z) f(z)
−1.25 0 Z 0 1.25 Z
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Tavola Z
Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Tavola Z
Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894
0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
f(x)
160cm µ = 170cm X
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?
f(x)
f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25)
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?
f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?
f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Stimatori campionari
3.0
0.6
2.5
0.5
2.0
0.4
Density
Density
1.5
0.3
1.0
0.2
0.5
0.1
0.0
0.0
0 2 4 6 8 10 12 0.4 0.6 0.8 1.0 1.2 1.4 1.6
Numero di figli per famiglia nella popolazione Numero medio di figli per famiglia (n=40; nr. campioni=10000)
7
0.6
6
0.5
5
0.4
4
Density
Density
0.3
3
0.2
2
0.1
1
0.0
La valutazione della affidabilità di una stima non può basarsi sul singolo
valore ottenuto (rispetto al quale nulla può dirsi) ma deve avvenire
necessariamente analizzando le proprietà del corrispondente stimatore
µ m µ m µ m
µ m µ m µ m
Stimatore Corretto Stimatore Corretto Stimatore non corretto
Stimatore Non efficiente Stimatore Efficiente Stimatore efficiente
Inferenza Statistica - Media e Proporzione
Campionaria
E’ possibile dimostrare analiticamente che Media e Proporzione Campionaria sono
stimatori corretti, efficienti e consistenti. In particolare si dimostra che:
n > 30
Media Campionaria
Proprozione Campionaria
2
2 = σ
π × (1 − π)
M ∼ N µ, σM 2
P ∼ N π, σP =
n n
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
X ∼?(µ = 16, σ = 3)
n = 36
P(M ≥ 17)=?
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?
X ∼?(µ = 16, σ = 3) 3
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
X ∼?(µ = 16, σ = 3) 3
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?
f(m)
µ = 16 17 M
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?
X ∼?(µ = 16, σ = 3) 3
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?
f(m)
Standardizzazione
Z = M−µ
σ
√
= 17−16
3 =2
n √
36 µ = 16 17 M
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
X ∼?(µ = 16, σ = 3) 3
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)= P(Z ≥ 1.33)
f(m)
f(z)
Standardizzazione
Z = M−µ
σ
√
= 17−16
3 =2
0 2 Z n √
36 µ = 16 17 M
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Intervalli di Confidenza
Cui prodest?!?
σ σ
P µ − 1.96 × √ ≤ M ≤ µ + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ, σM = √
n
m
σ σ
P µ − 1.96 × √ ≤ M ≤ µ + 1.96 × √ = 0.95
n n a
Campioni
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n µ
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
σ σ
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
X ∼?(µ =?, σ)
M−µ
−1.96 ≤
P σ ≤ +1.96
= 0.95
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m
σ σ
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n µ
σ σ
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni
Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ
M − 1.96 × √ , M + 1.96 × √
n n
Campioni
Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ
M − 1.96 × √ , M + 1.96 × √
n n
Campioni
Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ
M − 1.96 × √ , M + 1.96 × √
n n
m
Rispetto al singolo intervallo di confidenza è allora solo possibile
parlare di fiducia che esso copra, ovvero contenga, il parametro
incognito della popolazione.
Campioni
I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria
Intervalli di Confidenza - Il caso della Media
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ σ σ
M − 1.96 × √ , M + 1.96 × √ m − 1.96 × √ , m + 1.96 × √
n n n n
I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria
Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025
f(z)
0.95
0.025 0.025
I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria
Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025
f(z)
E’ possibile generalizzare la precedente
notazione indicando con 1 − α il livello di
confidenza e con z α quel valore di
2
ascissa di una normale standardizzata che
lascia alla sua destra un’area pari ad α
2
0.95
0.025 0.025
I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria
Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025
f(z) f(z)
E’ possibile generalizzare la precedente
notazione indicando con 1 − α il livello di
confidenza e con z α quel valore di
2
ascissa di una normale standardizzata che
lascia alla sua destra un’area pari ad α
2
0.95 1-α
α α
0.025 0.025 2 2
Assunzioni necessarie
Per superare l’empasse è possibile sostituire al parametro incognito la sua stima rappresentata dalla
Proporzione campionaria
Intervalli di Confidenza - Il caso della Proporzione
???
π =? Per poter costruire l’intervallo di confidenza è
q necessario conoscere il parametro incognito
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=? oggetto di inferenza!
Per superare l’empasse è possibile sostituire al parametro incognito la sua stima rappresentata dalla
Proporzione campionaria
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Cosa sarebbe successo, a parità di tutte le altre condizioni, se il numero di soggetti selezionati nel campione
fosse stato pari a 25?
Cosa sarebbe successo, a parità di tutte le altre condizioni, se il numero di soggetti effettivamente malati e
risultati positivi al test fosse stato pari a 32?
Intervalli di Confidenza - Il caso della Proporzione
Esercizio
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2
p = 52
64
= 0.81
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2
p = 52
64
= 0.81
1 − α = 0.95 → z α = 1.96
2
Intervalli di Confidenza - Il caso della Proporzione
Esercizio
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
p = 52
64
= 0.81
1 − α = 0.95 → z α = 1.96
2
Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.
Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Intervalli di Confidenza - Il caso della Media con σ 2 incognita
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n
Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Qualora questa ultima assunzione non possa essere considerata realistica si pone il problema di
stimare la varianza σ 2 della popolazione.
Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Qualora questa ultima assunzione non possa essere considerata realistica si pone il problema di
stimare la varianza σ 2 della popolazione.
Per valorizzare il Coefficiente di Attendibilità è necessario ipotizzare che lo Stimatore Media
campionaria, opportunamente standardizzato, M−µ q
σ
segua (anche approssimativamente) una
n
distribuzione normale standard
Stima Puntuale - Metodo del Plug-In
Dal momento che il parametro incognito oggetto di inferenza è spesso una sintesi (leggi
funzione matematica) dei dati della popolazione, per ottenerne una stima si applica ai dati
campionari la stessa funzione che lo definisce a livello di popolazione
Assunzioni necessarie
Assunzioni necessarie
Assunzioni necessarie
0 T
0 T
Variabile Casuale T di Student
La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)
0 T
I Gradi di libertà sono, nello specifico contesto inferenziale, pari alla numerosità
campionaria meno 1 (n-1). Ciò vuol dire che man mano che aumenta la dimensione del
campione gli effetti della sostituzione del parametro σ con la sua stima s diventano
sempre più trascurabili
Tavola della V.C. T di Student
Gradi di Area nella coda di sinistra
libertà 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
La tavola della T di Student riporta lungo le righe i 3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
Gradi di libertà e lungo le colonne valori di 5 1.4759 2.0150 2.5706 3.3649 4.0321
In generale...
Stima ± Coefficiente di attendibilità × (Stima dello) Scarto quadratico medio dello stimatore
σ 2 nota - Prima aver estratto il campione... σ 2 incognita - Prima di aver estratto il campione...
σ S
M ± zα × √ M ± tα × √
2 n 2 n
In generale...
Stimatpre ± Coefficiente di attendibilità × (Stimatore dello) Scarto quadratico medio dello stimatore
Intervalli di Confidenza - Il caso della Media
Esercizio...
Si vuole stimare il numero medio annuo di visite specialistiche nella popolazione dei
bambini in età pediatrica nella città di Napoli. A tale scopo si estrae un campione di
numerosità pari a 36 al cui interno di osserva un valore medio a 2.3 (visite per anno). La
varianza campionaria corretta è risultata pari a 0.64
Costruire un intervallo di confidenza al 95% per il parametro di interesse .
Cosa succede all’intervallo se il livello di confidenza viene posto pari a 0.99
(1 − α = 0.99, α = 0.01, α 2
= 0.005)?
Cosa succede se la numerosità del campione si riduce a 25?
Cosa succede se la variabilità campionaria è pari a 1.2?
Distribuzione simulata
dello stimatore OR
basata su 3000 campioni
di numerosità 200.
OR=4.4
ln(OR) → Parametro
𝑜𝑟) → Stima
ln(ෞ
→ Stimatore
𝑙𝑛(𝑂𝑅)
1 1 1 1
𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22
− ln 𝑂𝑅
𝑙𝑛 𝑂𝑅
~𝑍
1 1 1 1
+ + +
𝑛11 𝑛12 𝑛21 𝑛22
1 1 1 1
𝑙𝑛(ෞ
𝑜𝑟) ± 𝑧𝛼ൗ + + +
2 𝑛11 𝑛12 𝑛21 𝑛22
Una volta ottenuti gli estremi dell’intervallo su scala logaritmica si ritorna alla scala
originaria utilizzando la funzione inversa del logaritmo (exp)
1 1 1 1
𝐸𝐼 = exp 𝑙𝑛 𝑜
ෞ𝑟 − 𝑧𝛼ൗ2 + + +
𝑛11 𝑛12 𝑛21 𝑛22
1 1 1 1
𝐸𝑆 = exp 𝑙𝑛 𝑜
ෞ𝑟 + 𝑧𝛼ൗ2 + + +
𝑛11 𝑛12 𝑛21 𝑛22
Assunzioni statistiche
Popolazione 1 - Trattati X N ( 1 , 1 )
Popolazione 2 – Controlli X N ( 2 , 2 )
Parametro di interesse
m1 - m2
Evidenza campionaria
Evidenza campionaria n1
åx 1
Campione 1 - Trattati m1 = i =1
x1, x2,…,xn1
n1 m1 - m2
n2
Stima naturale del
åy 1 parametro di interesse
Campione 2 – Controlli m2 = i =1
y1, y2,…,yn2 n2
Popolazione 1 X N ( 1 , 1 )
Popolazione 2 X N ( 2 , 2 )
12 2 2
M1 − M 2 N 1 − 2 , +
n1 n2
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti
Popolazione 1 X ?( 1 , 1 )
Popolazione 2 X ?(2 , 2 )
12 2 2
M1 − M 2 N 1 − 2 , +
n1 n2
12 2 2 ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N 1 − 2 , +
n n 2
2 2
1 2 1
+
n1 n2
Standardizzando
p − z /2
( 1 2 ) 1 2 +z = 1−
M − M − ( − )
/2
2
2
1
+ 2
n1 n2
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti
12 2 2 ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N 1 − 2 , +
n n 2
2 2
1 2 1
+
n1 n2
Standardizzando
æ 2 ö
s 2
s 2
s 2
s
( ) ( )
p ç M 1 - M 2 - za /2 1 + 2 £ (m1 - m2 ) £ M 1 - M 2 + za /2 1 + 2 ÷ = 1- a
ç n1 n2 n1 n2 ÷ø
è
12 2 2 ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N 1 − 2 , +
n n 2
2 2
1 2 1
+
n1 n2
Standardizzando
s 12 s 22 s 12 s 22
M 1 - M 2 ± za /2 + m1 - m2 ± za /2 +
n1 n2 n1 n2
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti
(M ) (
- M 2 - m1 - m2 ) ∼N Si assume di conoscere la
1
(0,1) varianza della V.C. di interesse
nelle due popolazioni
s s
2 2
1
+ 2
n1 n2
Quando ciò non accade è
necessario stimarla
Assunzione fondamentale
!
Per poter procedere si assume che, anche
12 = 22 = 2 se non note, le varianze che
caratterizzano la V.C. di interesse nelle
due popolazioni siano identiche.
å( xi - m1 )
2
å( y )
2
- m2
Campione 2 y1, y2,…,yn2 i
s22 = i =1
n2 -1
(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) ( M 1 − M 2 ) − (1 − 2 )
s 12 s 22 æ1 1ö 1 1
+ s2ç + ÷ +
2
S pooled
n1 n2 è n1 n2 ø n1 n2
12 = 22 = 2 Stima di 2
P −t / 2, n1 + n2 − 2
( 1
M − M 2) − ( 1 − 2 )
+ t / 2, n1 + n2 − 2 = 1 −
1 1
S2 +
n1 n2
(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 )
s 12 s 22 æ1 1ö æ1 1ö
+ s2ç + ÷ S2ç + ÷
n1 n2 è n1 n2 ø è n1 n2 ø
12 = 22 = 2 Stima di 2
1
2 1 1 2 1
P ( M 1 − M 2 ) − t /2,n1 + n2 −2 S + ( 1 − 2 ) ( M 1 − M 2 ) + t /2,n1 + n2 −2 S + = 1 −
n1 n2 n1 n2
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti
(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 )
s 12 s 22 æ1 1ö æ1 1ö
+ s2ç + ÷ s2 ç + ÷
n1 n2 è n1 n2 ø è n1 n2 ø
12 = 22 = 2 Stima di 2
1 1 1 1
M 1 − M 2 tn1 + n2 − 2, /2 S +
2
p m1 − m2 tn1 + n2 − 2, /2 s +
2
p
n1 n2 n1 n2
Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali
Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali
æ1 1ö
5.9 - 6.4 ± 2.026 0.22 ç + ÷ = [-0.81;-0.19]
è 17 22 ø
Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali
æ1 1ö
5.9 - 6.4 ± 2.145 0.22 ç + ÷ = [-1.01;+0.01]
è6 6ø
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti
Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali
æ 1 1 ö
6.2 - 6.4 ±1.96 0.22 ç + ÷ = [-0.29;-0.11]
è 200 200 ø
Evidenza campionaria
Proporzione di persone con GERD
Campione 1 - Fumatori p1
nel campione dei fumatori
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 N p 1 − p 2 , +
n1 n2
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 N p 1 − p 2 , +
n1 n2
Standardizzando
( P1 − P2 ) − (p1 − p 2 ) N ( 0,1)
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 N p 1 − p 2 , +
n1 n2
Standardizzando
( P1 − P2 ) − (p1 − p 2 ) N ( 0,1)
P1 (1 − P1 ) P2 (1 − P2 )
+
n1 n2
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 N p 1 − p 2 , +
n1 n2
Inferenza statistica
✓ 1) Teoria della stima puntuale
Determinazione di un valore numerico per il parametro incognito
che caratterizza la popolazione sulla base delle informazioni
campionarie raccolte
P(AÇ B)=P(A)P(B)
A=Essere un fumatore
P(AÇ B)=P(A)P(B)
B=Essere un Controllo
66 60
P(FumatoreÇ Trattato)=P(Fumatore)P(Trattato)= = 0.202
140 140
Questo valore rappresenta la probabilità che estraendo a caso da
una popolazione di 140 soggetti, di cui 66 fumatori e 60 Trattati, io
possa osservare un soggetto con entrambe le caratteristiche
assumendo l’indipendenza statistica tra le due variabili
66 60
P(Fumatore Ç Trattato)=P(Fumatore)P(Trattato)= = 0.202
140 140
66 60
#(Fumatore Ç Trattato)=P(Fumatore Ç Trattato) ´ n= ´ ´140
140 140
66 ´ 60
= = 28.29
140
74 60
P(Non Fumatore Ç Trattati)=P(Non Fumatore)P(Trattati)= = 0.227
140 140
74 60
#(Non Fumatore Ç Trattati)=P(Non Fumatore Ç Trattati) ´ n= ´140
140 140
74 ´ 60
= = 31.71
140
Test del Chi quadrato
Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 (31.71) 60
Controlli 24 (37.71) 56 (42.29) 80
Totale 66 74 140
y1 y2 … yj … yh Totale
x1 n11 n12 n1j n1h n1.
x2 n21 n22 n2j n2h n2.
…
xi ni1 ni2 nij nih ni.
…
xk nk1 nk2 nkj nkh nk.
Totale n.1 n.2 n.j n.h n..
Test del Chi quadrato
y1 y2 … yj … yh Totale A partire dalla tabella delle
x1 n11 n12 n1j n1h n1. frequenze osservate è
x2 n21 n22 n2j n2h n2. possibile “costruire” la tabelle
… delle frequenze attese
xi ni1 ni2 nij nih ni. (assumendo l’indipendenza
… statistica tra il carattere di
xk nk1 nk2 nkj nkh nk. riga e quello di colonna). In
Totale n.1 n.2 n.j n.h n.. corrispondenza di ogni
incrocio riga/colonna la
frequenza attesa si ottiene
y1 y2 … yj … yh Totale
moltiplicando i relativi
x1 ñ11 ñ12 ñ1j ñ1h n1.
marginali e dividendo per il
x2 ñ21 ñ22 ñ2j ñ2h n2.
totale complessivo:
…
xi ñi1 ñi2 ñij ñih ni.
…
xk ñk1 ñk2 ñkj ñkh nk.
Totale n.1 n.2 n.j n.h n..
X2 = + + + = 22.02
28.3 31.7 37.7 42.3
X2 =0?
Ipotesi Statistica
Nella popolazione degli adolescenti italiani di età
compresa tra i 14 ed i 18 anni il numero medio di
visite specialistiche annue è pari a 0.5.
μ = 0.5
Oppure... Nella popolazione femminile italiana, le
donne di nazionalità straniera hanno un “rischio” di
ricorrere al parto cesareo inferiore a quelle di
nazionalità Italiana:
RR < 1
Oppure... La sensibilità della metodica diagnostica A
è superiore a quella della metodica diagnostica B:
A > B
La verifica delle ipotesi
Ipotesi Statistica
Una qualunque supposizione riguardante una
caratteristica di una popolazione che viene considerata
vera a meno che l’evidenza empirica porti ad avere seri
dubbi sulla sua validità e suggerisca che essa è falsa
IPOTESI NULLA:
H0: Vi è Indipendenza Statistica tra le due variabili
→ P(A and B)=P(A)P(B)
IPOTESI ALTERNATIVA:
H1: Non vi è Indipendenza Statistica tra le due variabili
→ P(A and B)≠P(A)P(B)
Accetto H1 ma è vera H0
Accetto H0
H0 Decisione errata
popolazione
Accetto H1 ma è vera H0
Accetto H0 Decisione errata
H0
popolazione
X2 =0?
X2 = + + + = 22.02
28.3 31.7 37.7 42.3
Per stabilire quanto “estremo” è il valore osservato della Statistica
test è quindi necessario conoscere la sua distribuzione probabilistica
(pre-campionamento) assumendo vera l’ipotesi nulla…
Solo in questo modo sarà possibile individuare una regione di
accettazione, costituita da quei valori della statistica compatibili con
il modello descritto dall’ipotesi nulla, e la complementare regione di
rifiuto.
Test del Chi quadrato
La distribuzione
della Statistica
test X2 sotto
l’ipotesi di 1 g.d.l
1 g.d.l
indipendenza è 2 g.d.l
2 g.d.l
quella di una
V.C. c2 che
dipende da un
parametro
rappresentato
dai Gradi di
Libertà. Nel caso
del test di
Indipendenza i 5 g.d.l 20 g.d.l
Gradi di Libertà
si ottengono
come (nr di
righe-1)(nr di
colonne -1)
Stabilisco a priori la
regione di accettazione e
di rifiuto selezionando un
opportuno valore critico
(cut-point)
Cut-point=4
Accettazione Rifiuto
Stabilisco a priori la
regione di accettazione e
di rifiuto selezionando un
opportuno cut-point
Cut-point=4 alpha
Accettazione Rifiuto
Test del Chi quadrato
Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…
alpha=0.05
Accettazione Rifiuto
Cut-point alpha=0.05
Accettazione Rifiuto
Test del Chi quadrato
Il valore osservato,
sebbene sia possibile
che provenga da un
“mondo” in cui è vera
H0, difficilmente
22.02 potrebbe essere
spiegato solo attraverso
il fenomeno della
3.84
variabilità campionaria.
Si preferisce considerare
non plausibile l’ipotesi
Nulla
Accettazione Rifiuto
Test del Chi quadrato
åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n
f (m ) H0
s M = 0.79 78
1.2
M
In linea teorica qualunque evidenza campionaria (stima) potrebbe
provenire da un “mondo” in cui è vera H0
f (m ) H0
s M = 0.79 78
1.04 1.2
M
La differenza tra 1.04 (stima) e 1.2 (parametro sotto H0) può essere
“spiegata” solo attraverso il fenomeno della variabilità campionaria???
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi
f (m ) H0
s M = 0.79 78
1.2
M
Come nel caso del test del Chi quadrato, devo definire una opportuna
regola decisionale…
f (m ) Valore critico H0
s M = 0.79 78
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi
f (m ) Valore critico H0
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
f (m )Valore critico H0
s M = 0.79 78
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi
f (m )Valore critico H0
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
f (m )Valore critico H0
s M = 0.79 78
a
1.2
M
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi
f (m ) H0
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n
åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n
H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto H0
H 0 : m ³ 1.2h
f (m ) H0 H0
H1 : m < 1.2h
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
H 0 : m ³ 1.2h
f (m ) H0 H0
H1 : m < 1.2h
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto H0
H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico
s M = 0.79 78
a
1.2
M
Rifiuto H0 Accetto H0
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
z
0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6
Zc=1.645
0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
-z 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6
Zc=-1.645
0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
La verifica delle ipotesi
Conclusioni:
zcrit
Se zo>zc allora accetto H0
0
Rifiuto H0 AccettoH0
m - m0
zo = Statistica Test =
Stimatore-Parametro
H0 : 0 x 0 Se zo≥zc Accetta H0
zo
H1 : 0 n Se zo< zc Accetta H1
Le ipotesi
H0 : 0 x 0 Se zo≤ zc Accetta H0
zo
H1 : 0 n Se zo> zc Accetta H1
H0
f (x )
Questo implica che la
probabilità associata all’errore a 2 a 2
di I° tipo sia ripartita
ugualmente nelle due code.
X
Regione di rifiuto
0 Regione di rifiuto
Regione di accettazione
Le ipotesi
H 0 : 0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 : 0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.
H0
f (x )
Come nel caso di ipotesi
alternative unidirezionali a 2 a 2
dovrei individuare quei valori
di ascissa della distribuzione
della media campionaria che X
delimitano la regione di 0
accettazione x1 x2
Anche in questo caso è però possibile tradurre il problema in
termini di punteggi standard
Le ipotesi
H 0 : 0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 : 0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.
f ( z)
Considerate le caratteristiche della
distribuzione normale
a 2 a 2 standardizzata la regione di
accettazione è compresa tra due
valori simmetrici rispetto allo 0
Z
(uguali in valore assoluto ma di
0
segno opposto).
z1 z2
Le ipotesi
H 0 : 0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 : 0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.
f ( z)
Considerate le caratteristiche della
distribuzione normale
0.025 0.025 standardizzata la regione di
accettazione è compresa tra due
valori simmetrici rispetto allo 0
Z
(uguali in valore assoluto ma di
0
segno opposto).
1.96 1.96
a 2 a 2
Accetto H1 0 Accetto H1
zc Accetto H0 zc
x 0 Se –zc ≤ zo ≤ +zc Accetta H0
zo
n Se zo<-zc oppure zo>+zc Accetta H1
Alcune considerazioni…
n
m - m0
å ( xi - m ) L’individuazione del valore
2
to = critico deve avvenire
s2 = i =1 s n utilizzando la tavola della
n -1 Statistica Test V.C. T di Student
Il valore critico deve essere letto in corrispondenza di un numero di
gradi di libertà pari a n-1 e del livello di significatività prescelto
H 0 : m ³ m0 m - m0 Se to≥tc Accetta H0
to =
H1 : m < m0 s n Se to< tc Accetta H1
n
m - m0
å ( xi - m ) L’individuazione del valore
2
to = critico deve avvenire
s2 = i =1 s n utilizzando la tavola della
n -1 Statistica Test V.C. T di Student
Il valore critico deve essere letto in corrispondenza di un numero di
gradi di libertà pari a n-1 e del livello di significatività prescelto
H 0 : m £ m0 m - m0 Se to≤tc Accetta H0
to =
H1 : m > m0 s n Se to> tc Accetta H1
H0 : p p 0 p p0 Se zo ≤ zc accetto H0
zo N (0,1)
H1 : p p 0 p 0 (1 p 0 ) / n Se zo > zc accetto H1
H0 : p p 0 p p0 Se zo ≥ zc accetto H0
zo N (0,1)
H1 : p p 0 p 0 (1 p 0 ) / n Se zo < zc accetto H1
Un esempio…
p p0
zo f ( z)
Accetto H0
p 0 (1 p 0 ) / n
a =0.05
0.16 0.21
0.87
0.21(1 0.21) / 50 Z
zc =-1.645
Statistica Test Osservata
Distribuzione simulata
dello stimatore OR
basata su 3000 campioni
di numerosità 200.
OR=4.4
Misure di Associazione, Odds e Odds ratio
La trasformazione logaritmica consente di riportare la
distribuzione dello stimatore a condizioni di “regolarità”
ln(OR) Parametro
ln(𝑜𝑟) Stima
𝑙𝑛(𝑂𝑅) Stimatore
1 1 1 1
𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22
L’errore standard dello stimatore 𝑙𝑛(𝑂𝑅) dipende non solo dalla numerosità
campionaria complessiva (n) ma anche dalla disposizione di n all’interno delle celle
della tabella di contingenza
Misure di Associazione, Odds e Odds ratio
1 1 1 1
𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22
𝑙𝑛 𝑂𝑅 − ln 𝑂𝑅
~𝑍
1 1 1 1
𝑛11 + 𝑛12 + 𝑛21 + 𝑛22
𝐻𝑂 : 𝑂𝑅 = 1 𝐻𝑂 : ln(𝑂𝑅) = 0
𝐻1 : 𝑂𝑅 ≠ 1 𝐻1 : ln(𝑂𝑅) ≠ 0
Stima(tore) 𝑙𝑛 𝑜𝑟 − 0
Statistica test
1 1 1 1 Valore del parametro osservata
+ + +
𝑛11 𝑛12 𝑛21 𝑛22 sotto H0
Assunzioni statistiche
Popolazione 1 - Trattati X N ( 1 , 1 )
Popolazione 2 – Controlli X N ( 2 , 2 )
Sistema di Ipotesi
Parametro di interesse
Evidenza campionaria
Evidenza campionaria n1
x 1
Campione 1 - Trattati m1 i 1
x1, x2,…,xn1
n1 m1 - m2
n2
Stima naturale del
y 1 parametro di interesse
Campione 2 – Controlli m2 i 1
y1, y2,…,yn2 n2
Popolazione 1 X N ( 1 , 1 )
Popolazione 2 X N ( 2 , 2 )
12 2 2
M1 M 2 N 1 2 ,
n1 n2
12 2 2
M1 M 2 N 1 2 ,
n1 n2
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti
Sistema di Ipotesi
H 0 : m1 ³ m2 ® m1 - m2 ³ 0
H1 : m1 < m2 ® m1 - m2 < 0
Statistica Test
12 2 2 Sotto H0
M1 M 2 N 1 2 ,
n1 n2
M1 M 2 0 N 0,1 12 2 2
M1 M 2 N 0,
12 22 n n2
1
n1 n2 Standardizzando
Sotto H0:
M1 M 2 0 =
( m -m )-0
N 0,1
1 2
zo
12 22 s 12 s 22
+
n1 n2 n1 n2
Statistica Osservata
Si assume di conoscere la
M1 M 2 0 N 0,1
varianza della V.C. di interesse
nelle due popolazioni
2
2 2
1
n1 n2
Quando ciò non accade è
necessario stimarla
Assunzione fondamentale
!
Per poter procedere si assume che, anche
12 22 2 se non note, le varianze che
caratterizzano la V.C. di interesse nelle
due popolazioni siano identiche.
x m
2
i 1
Campione 1 x1, x2,…,xn1 s12 i 1
n1 1
n2
y m
2
i 1
Campione 2 y1, y2,…,yn2
s
2 i 1
n2 1
2
(M 1 )
- M 2 -0 M1 M 2 0 M1 M 2 0
s 12 s 22 1 1 1 1
+ 2 S pooled 2
n1 n2 1 n2
n n1 n2
12 22 2 Stima di 2
Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali
H 0 : m1 ³ m2 ® m1 - m2 ³ 0
H1 : m1 < m2 ® m1 - m2 < 0
f (t )
Statistica Test Osservata:
to
5.9 6.4 0 3.3
a =0.05
1 1
0.22 tc =-1.6871
T
17 22 RIFIUTO H0
Sistema di Ipotesi
d rappresenta la media di tutte le differenze che
posso definire tra il valore assunto da ciascuna
H 0 : d 0
unità della popolazione prima del trattamento
H1 : d 0 con quello riferito allo stesso individuo ma
misurato dopo il trattamento.
Evidenza campionaria
N 0, n
Md
Md 2
N 0,1
d
Standardizzando d n
di md
2
n 1
d
Md Md 0
N 0,1 Tn 1
d n Sd n
Stima di d
Una volta calcolato il valore campionario della statistica test lo confronto con il
valore critico e stabilisco quale delle due ipotesi accettare (esattamente come nel
caso della verifica dell’ipotesi per una media quando non è nota la varianza nella
popolazione)
Verifica delle ipotesi: confronto tra le medie di due
popolazioni dipendenti
Sistema di Ipotesi
Parametro di interesse:
H0 : p1 p 2 =p p1 p 2 0 Differenza di proporzioni
H1 : p1 p 2 p1 p 2 0
Evidenza campionaria
Proporzione di persone con GERD
Campione 1 - Fumatori p1
nel campione dei fumatori
Quanto più grande sarà tale differenza, quanto più cioè nei fumatori del campione la
proporzione di soggetti con GERD sarà maggiore di quello osservato nei non fumatori tanto
più dovrò ritenere verosimile l’ipotesi alternativa. Per capire quanto “più grande” devo
determinare la distribuzione della statistica sotto H0
Standardizzando
P1 P2 p1 p2
N 0,1
1 1 1 1
P(1 P) p(1 p)
Valore osservato n1 n2
n1 n2 della statistica test
Problema
Accetto H1 ma è vera H0
Accetto H0
H0 Decisione errata
popolazione
Accetto H1 ma è vera H0
Accetto H0 Decisione errata
H0
popolazione
1.6 "H1"
1.4
1.2
0.8
1.79/√48 1.79/√48
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h
f(m)
1.8
"H0"
1.6 "H1"
1.4
1.2
0.8
0.6
0.4
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
zc = -1.645
mc - m 0 s s
zc = Û mc - m 0 = zc ´ Û mc = zc ´ + m0
s n n
n
1.79
mc = -1.645´ +1.2 = 0.775
48
f(m)
1.8
"H0"
1.6 "H1"
1.4
1.2
0.8
0.6
0.4
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
1.6 "H1"
1.4
1.2
0.8
0.6 =???
0.4
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
b = P(Accettare H0|H0 è falsa)
b = P(M > 0.775 | H0 è falsa)
æ 1.79 ö
H0 è falsa Þ M ~ N ç 0.9, ÷
è 48 ø
æ ö
ç 0.775 - 0.9 ÷
b = P(M > 0.775 | H0 è falsa) Û Pç Z > ÷
çç 1.79 ÷
÷
è 48 ø
b = P ( Z > -0.456) = 0.676
f(m)
1.8
"H0"
1.6 "H1"
1.4
1.2
0.8
0.6 =0.676
0.4
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
f(m)
1.8
"H0"
1.6 "H1"
1.4
1.2
0.8
0.6 =0.676
0.4 1=0.324
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
Problema
1.6 "H1"
1.4
1.2
0.8
1.79/√48 1.79/√48
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h
f(m)
3
"H0"
"H1"
2.5
1.5
1.79/√148 1.79/√148
0.5
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h
zc = -1.645
mc - m 0 s s
zc = Û mc - m 0 = zc ´ Û mc = zc ´ + m0
s n n
n
1.79
mc = -1.645´ +1.2 = 0.958
148
f(m)
3
"H0"
"H1"
2.5
1.5
0.5
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958
f(m) b = P(Accettare H0|H0 è falsa)
3
"H0"
"H1"
2.5
1.5
1 =???
0.5
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958
"H1"
2.5
1.5
1 1=0.645
=0.355
0.5
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958
f(m)
1.8
"H0"
1.6 "H1"
1.4
1.2
0.8
0.6 =0.676
0.4 1=0.324
0.2
0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
Calcolo della Numerosità
Campionaria
Sotto H0 : M N (1.2,1.79 48)
Ipotesi
H 0 : m =1.2h
H1 : m = 0.9h Sotto H1 : M N (0.9,1.79 48)
Ipotesi
H 0 : m =m0 Nell’esempio 0 è pari a 1.2h e il
valore di D è 0.3
H1 : m = m0 - D
Si rifiuta H0 quando si osserva un
1- b = P(Rifiutare H0 | H0 è falsa) valore della statistica Test inferiore
al valore di z critico
æ ö æ ö
çM -m +D D ÷ ç M - (m - D) D ÷
1- b = Pç 0
< z1-a + | H0 è falsa ÷ 1- b = Pç 0
< z1-a + | H0 è falsa ÷
çç s s n ÷÷ çç s s n ÷÷
è n ø è n ø
M - (m0 - D)
~ N(0,1) Sotto H1 la media dello
H0 è Falsa (H1 è vera) s stimatore M è pari a 0-D
n
Rappresenta il valore di ascissa
æ D ö D di una normale standardizzata
1- b = Pç Z < z1-a + ÷ z1-a +
è s nø s n che lascia alla sua sinistra
un’area pari a 1- e alla sua
destra un’area pari a
Calcolo della Numerosità
Campionaria
Rappresenta il valore di ascissa
æ D ö D di una normale standardizzata
1- b = Pç Z < z1-a + ÷ z1-a + che lascia alla sua sinistra
è s nø s n
un’area pari a 1- e alla sua
destra un’area pari a
D D D n
z1-a + = zb z1-a - zb = - =-
s n s n s
( z1-a - zb )s = -D n -
( z a - zb ) s
1-
= n
D
é ( z1-a - zb ) s ù
2
z è generalmente positivo (<0.5)
n=ê ú mentre z1- è generalmente negativo
(<<0.5)
êë D úû
é ( z1-a - zb ) s ù é ( za + zb ) s ù
2 2
n=ê ú =ê ú
êë D úû êë D úû
Problema
I dati:
=0.05 z = 1.645
1-=0.8 z = 0.842
D=0.3
=1.79
é ( za + zb ) s ù é (1.645+ 0.842)1.79 ù2
2
1.79
mc 1.645 1.2 1.00
221
Problema
H 0 : mT =mC Û mT -mC = 0
H1 : mT =mC + D Û mT -mC = D con D Î R
nT = nC
( za + zb ) (s T2 + s C2 ) ( za + zb )
2 2
s2
nT = =2 Se s T2 = s C2
D2 D2
1-β, la potenza desiderata
, Il livello di significatività
funzione decrescente di Δ la differenza, clinicamente significativa, tra le
medie delle due popolazioni (|T - C|) che si
intende evidenziare
Esempio…
A randomized, double-blind, clinical trial comparing the efficacy
and safety of Crocus sativus L. with fluoxetine for improving mild
to moderate depression in post percutaneous coronary
intervention patients 2014. The Lancet 377(9762) pp 312—320
Objectives: A significant correlation exists between coronary
artery diseases and depression. The aim of this trial was to
compare the efficacy and safety of saffron versus fluoxetine in
improving depressive symptoms of patients who were suffering
from depression after performing percutaneous coronary
intervention (PCI).
Primary endpoints and hypotheses. HDRS was the efficacy
assessment measure used in this study. The primary outcome
measure with respect to efficacy was the mean decrease in HDRS
score from baseline to the study endpoint which was compared
between two groups.
Power Analysis: Assuming a clinically significant difference of 3.5
on the HDRS with a standard deviation (SD) of 3.5, a power of
80%, and 2-sided significance level of 5%, a minimal sample size
of 32 was calculated.
Sample size per un test su una
singola proporzione
H 0 : p =p 0
H1 : p =p 1 = p 0 + D con D Î R
é z p (1- p ) + z p (1- p ) ù
2
n=ê a 0 0 b 1 1
ú
êë D úû
α, Il livello di significatività
funzione decrescente di Δ la differenza tra la proporzione di soggetti che
presenta la caratteristica nelle due popolazioni
Correlazione lineare
Y
X Y
x1 y1
x2 y2
yi
… …
xi yi
… …
xn yn X
xi
Correlazione lineare
Relazione diretta lineare Relazione inversa lineare Relazione diretta non lineare
Correlazione lineare
xi - x
yi - y
y
yk - y
xk - x
X
x
In caso di relazione lineare diretta la “maggior parte” delle
differenze tra i valori individuali e le rispettive medie (scarti)
avranno segni algebrici concordi (+,+) o (-,-)
Correlazione lineare
Y
xk - x
yk - y
y
yi - y
xi - x
X
x
Correlazione lineare
Y
X
x
X
x
Correlazione lineare
x x y y
i i
Cov( X , Y ) i 1
n
Correlazione lineare
560
Pressione Volume
(mmHg) (cm3) 550
470
80 90 100 110 120 130 140 150 160
Pressione (mmHg)
Correlazione lineare
Scarti Algebrici
Prodotto degli
Pressione (mmHg) Volume (cm3) Pressione (mmHg) Volume (cm3)
scarti
110 500 -20 -15 300
130 510 0 -5 0
130 510 0 -5 0
150 550 20 35 700
150 540 20 25 500
140 540 10 25 250
110 480 -20 -35 700
120 490 -10 -25 250
Valore Medio 130 515 0 0 337.5
Correlazione lineare
Scarti Algebrici
Prodotto degli
Pressione (mmHg) Volume (m3) Pressione (mmHg) Volume (cm3)
scarti
110 0.0005 -20 -0.000015 0.0003
130 0.00051 0 -5E-06 0
130 0.00051 0 -5E-06 0
150 0.00055 20 0.000035 0.0007
150 0.00054 20 0.000025 0.0005
140 0.00054 10 0.000025 0.00025
110 0.00048 -20 -0.000035 0.0007
120 0.00049 -10 -2.5E-05 0.00025
Valore Medio 130 0.000515 0 -3.38813E-20 0.0003375
Correlazione lineare
n
è il prodotto delle unità di misure delle due
variabili.
Cambiando l’unità di misura di una (o di
entrambe) le variabili cambia, in misura
proporzionale, anche il valore della Covarianza.
Correlazione lineare
Cov( X , Y ) X Y
L’uguaglianza vale solo e soltanto nel caso in cui
tra le due variabili esista una proporzionalità
diretta (i punti giacciono su un segmento di
retta)
Correlazione lineare
Correlazione lineare
r varia tra -1 e +1
r=1 se e soltanto se i punti giacciono su un segmento di
retta con pendenza positiva (qualunque essa sia)
r=-1 se e soltanto se i punti giacciono su un segmento di
retta con pendenza negativa(qualunque essa sia)
r non cambia se i valori di X e di Y sono moltiplicati per
una costante o sono traslati di una costante
r misura il grado di collinearità dei punti
r tende ad essere prossimo allo 0 in caso di assenza di
relazione lineare tra i punti
Correlazione lineare
Correlazione lineare
Scarti Algebrici al
Scarti Algebrici Prodotto quadrato
Pressione Volume Pressione Volume degli scarti Pressione Volume
3
(mmHg) (m ) (mmHg) (cm3) (mmHg) (cm3)
110 500 -20 -15 300 400 225
130 510 0 -5 0 0 25
130 510 0 -5 0 0 25
150 550 20 35 700 400 1225
150 540 20 25 500 400 625
140 540 10 25 250 100 625
110 480 -20 -35 700 400 1225
120 490 -10 -25 250 100 625
Valore Medio 130 515 0 0 337.5 225 575
N.B. I calcoli usano la massima precisione ma per questione di comodità i valori mostrati sono arrotondati
Correlazione lineare
Scarti Algebrici al
Scarti Algebrici Prodotto quadrato
Pressione Volume Pressione Volume degli scarti Pressione Volume
3
(mmHg) (m ) (mmHg) (cm3) (mmHg) (cm3)
110 0.0005 -20 -0.000015 0.0003 400 2.25E-10
130 0.00051 0 -0.000005 0 0 2.5E-11
130 0.00051 0 -0.000005 0 0 2.5E-11
150 0.00055 20 0.000035 0.0007 400 1.225E-09
150 0.00054 20 0.000025 0.0005 400 6.25E-10
140 0.00054 10 0.000025 0.00025 100 6.25E-10
110 0.00048 -20 -0.000035 0.0007 400 1.225E-09
120 0.00049 -10 -2.5E-05 0.00025 100 6.25E-10
Valore Medio 130 0.000515 0 0 0.0003375 225 5.75E-10
Correlazione lineare
r = 0.90
r = 0.04
Correlazione lineare
r <0
ri > 0
Correlazione lineare
E’ possibile definire la
V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e
dalle varianze delle due
V.C. ma anche dalla loro
correlazione
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P
0.08
popolazione. La z 0.06 4
funzione di densità della 0.04
y
dalle varianze delle due
−2
−2
0
correlazione
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P
Correlazione lineare
Il sistema di ipotesi “naturale” è il seguente:
H0 : r 0 Assenza di correlazione lineare
H1 : r 0 Presenza di correlazione lineare
(positiva o negativa)
Esempio
Regressione lineare
N.B. I valori assunti dalla variabile X sono sotto controllo del ricercatore
(non sono cioè grandezze aleatorie)
Regressione lineare
Y In corrispondenza di ogni
valore (fisso) di X esiste una
distribuzione di valori della Y
Yi=α+βxi+εi che può essere descritta
attraverso una V.C.
μY|xi=α+βxi Normale centrata sul valore
medio μY|xi=α+βxi e con una
variabilità costante pari a
x1 x2 … xn X s2
Yi ~ N(mY|xi , s )
Regressione lineare
Y La caratterizzazione
probabilistica del modello può
essere fatta anche in termini
Yi=α+βxi+εi di errore: I singoli valori della
variabile Y sono pari ad una
μY|xi=α+βxi costante (cioè a un termine
non casuale) più una
oscillazione casuale ei che ha
x1 x2 … xn X media 0 e varianza s2.
ei ~ N(0, s )
Regressione lineare
Y ei ~ N(0, s )
Yi=α+βxi+εi
Yi ~ N(mY|xi , s )
μY|xi=α+βxi La variabilità dei valori
individuali delle
sottopopolazioni intorno al
x1 x2 … xn X proprio valor medio non
dipende dal valore della
variabile indipendente
(OMOSCHEDASTICITA’)
Regressione lineare
Regressione lineare
X
xi
Regressione lineare
{ a , b} { a , b}
i 1 i 1
Cov(X,Y)
b =
* a* e b* sono le stime dei parametri
α e β che rappresentano il reale obiettivo
Var(X) conoscitivo.
a* = y - b* x
Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100 1
128 3.7
40
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9
Cov(X,Y) 11.48
b* = = = 3.92 punti QIT/ mcg/dl
Var(X) 2.92
Regressione lineare
QIT (Y) T4 (X) Y-my X-mx (Y-my)(X-mx) (Y-my)2 (X-mx)2
74 2.7 -24.6 -0.115 2.829 605.16 0.013
95 2 -3.6 -0.815 2.934 12.96 0.664
93 0.6 -5.6 -2.215 12.404 31.36 4.906
108 2.2 9.4 -0.615 -5.781 88.36 0.378
111 3.7 12.4 0.885 10.974 153.76 0.783
91 4.5 -7.6 1.685 -12.806 57.76 2.839
122 6.8 23.4 3.985 93.249 547.56 15.880
83 1.8 -15.6 -1.015 15.834 243.36 1.030
77 0.1 -21.6 -2.715 58.644 466.56 7.371
91 4.1 -7.6 1.285 -9.766 57.76 1.651
100 1 1.4 -1.815 -2.541 1.96 3.294
128 3.7 29.4 0.885 26.019 864.36 0.783
96 3.7 -2.6 0.885 -2.301 6.76 0.783
105 3.6 6.4 0.785 5.024 40.96 0.616
106 3.3 7.4 0.485 3.589 54.76 0.235
99 0.2 0.4 -2.615 -1.046 0.16 6.838
85 1.5 -13.6 -1.315 17.884 184.96 1.729
117 2.2 18.4 -0.615 -11.316 338.56 0.378
108 5.7 9.4 2.885 27.119 88.36 8.323
83 2.9 -15.6 0.085 -1.326 243.36 0.007
Media di Colonna 98.6 2.81 0 0 11.48 204.44 2.92
Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100
128
1
3.7
40
ŷ = 87.55+ 3.92x
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9
ns X
deterministica che sottopopolazioni
quindi non richiede caratterizzate dai
“stima”) diversi valori di X
x1 x2 … xn X x1 x2 … xn X
minore variabilità della X maggiore variabilità della X
Effetto di s2x sulla variabilità di B
y=a+bx+e; b>0 y=a+bx+e; b>0
y=a+bx; b<0
x1 x2 … xn X x1 x2 … xn X
x1 x2 … xn X x1 x2 … xn X
Effetto di s2 sulla variabilità di B
y=a+bx+e; b>0 y=a+bx+e; b>0
Y Y
x1 x2 … xn X x1 x2 … xn X
Minore variabilità della Y Maggiore variabilità della Y
Y Y
x1 x2 … xn X x1 x2 … xn X
Minore variabilità della Y Maggiore variabilità della Y
Proprietà dello stimatore B
s2
~ N b, La varianza s2 che caratterizza le
ns X sottopopolazioni della Y non è
generalmente nota. Essa misura la
dispersione dei valori della Y rispetto al
loro valor medio (condizionato).
yi yˆi
2
sY2 i 1
n2
E’ possibile utilizzare
B-b
~ Tn-2
questo risultato per la 2
costruzione di intervalli di
SY
confidenza e per la ns X
verifica delle ipotesi su b
Inferenza su b
B-b Intervallo di confidenza al livello 1-a
~ Tn-2
S 2
Y sY2
b± t1-a /2;n-2
ns X ns 2X
QIT T4
74 2.7
95 2
93 0.6
108 2.2
111 3.7
91 4.5
122 6.8 95.0% Confidence Interval
83 1.8 B Std. Error t Sig. Lower Bound Upper Bound
77 0.1 Intercept 87.552 5.731 15.278 0 75.512 99.591
91 4.1 T4 3.925 1.74 2.256 0.037 0.27 7.58
100 1
128 3.7
96 3.7
105 3.6
106 3.3
99 0.2
85 1.5
117 2.2
108 5.7
83 2.9
Inferenza su b NPW
Se si intende tenere sotto controllo anche la probabilità associata
all’errore di II tipo è allora necessario formulare un’ipotesi
alternativa semplice:
E’ più agevole derivare la
H0 : b 0 numerosità campionaria H0 : 0
traducendo il problema in
H1 : b b * H1 : *
termini di correlazione
Inferenza su b NPW
E’ più agevole derivare la
H0 : b 0 numerosità campionaria H0 : 0
traducendo il problema in
H1 : b b * termini di correlazione
H1 : *
z zb
2
z z 1 1
2
* * a
n 3
n
a b 2
* 1 1 *
ln
4 1 *
Scuola di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirurgia
Regressione Multipla
Regressione Multipla
𝑌𝑖 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜀𝑖
Regressione Multipla
Regressione Multipla
℘𝑎
𝑋1 = 𝑥 1 𝜇𝑌𝑎|𝑥1 ,𝑥2 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2
𝑋2 = 𝑥 2
℘𝑏
𝜇𝑌𝑏|𝑥1 ,(𝑥2 +1) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 (𝑥2 +1)
𝑋1 = 𝑥1
𝑋2 = 𝑥2 + 1 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽2
Il metodo dei “minimi quadrati” cerca tra tutti gli infiniti piani, e
quindi tra tutte le infinite triple (a,b1,b2) quello che minimizza la
somma dei residui al quadrato 𝑛
𝑎∗ = 𝑦 − 𝑏1∗ 𝑥1 − 𝑏2∗ 𝑥2
Regressione Multipla – Stima dei parametri
Analisi di sopravvivenza: il
metodo Kaplan-Meier
1
Analisi della sopravvivenza
L’analisi della sopravvivenza è una famiglia di
metodi statistici per l’analisi di dati in cui la
variabile di interesse è dipendente dal tempo
Censoring
Evento
ingresso Censura
tempo
7
Censoring
I metodi dell’analisi della sopravvivenza sono corretti sotto l’ipotesi
che il tempo di censura e quello dell’evento siano tra loro
indipendenti.
9
15 soggetti osservati in 20 mesi
15
12
6
11
9
4
Coorte
14
5
7
13
3
8
10
1
2 Mesi (Follow-up)
5 10 15 20
14
5
7
13
3
8
10
1
2 Mesi (Follow-up)
5 10 15 20
14
Esempio
ID time stato
1 1 5 0
2 2 4.5 1
3 3 5 0
Individuals
4 4 1.5 1
5 5 5 0
6 6 3.5 1
7 7 5 0
8 8 2.5 0
9 9 5 0
10 10 0.5 1
0 1 2 3 4 5
Totale
Follow-up (years)
40 anni-persona
event 4 eventi
censoring
Tasso incidenza = 4/40=0.1 eventi per anno
Tasso non costante
Il tasso (medio) di incidenza non è una misura appropriata in questa
situazione in cui tutti gli eventi si verificano nel primo anno.
Anni persona
1 5
2 0.5
3 5
Individuals
4 0.5
5 5
6 1
7 5
8 5
9 5
0.8
10
_______
0 1 2 3 4 5 32.8
Follow-up (years)
event
censoring Tasso incidenza = 4/32.8=0.12 eventi per anno
17
Mediana di Sopravvivenza
Sopravvivenza al tempo t
20
Curve di sopravvivenza
(metodo KM)
Tempo in remissione (in settimane) per due gruppi di
soggetti con leucemia
21
Curve di sopravvivenza
(metodo KM)
Tempo di remissione (in settimane) per due gruppi di
soggetti con leucemia
Id t d X1
1 6 1 1
2 6 1 1
3 6 1 1
4 6 0 1
… … … …
42 23 1 2
Curve di sopravvivenza
(metodo KM)
Tempo di remissione (in settimane) per due gruppi di
soggetti con leucemia Group 1 Group 2
t(f) mf qf nf t(f) mf qf nf
0 0 0 21 0 0 0 21
6 3 1 21 1 2 0 21
7 1 1 17 2 2 0 19
10 1 2 15 3 1 0 17
… … … … … … … …
23 1 5 6 22 1 0 2
… 23 1 0 1
p(1) Probabilità che un individuo sopravviva oltre il tempo t(1) dato che era
sopravvissuto oltre il tempo t(0)
p(2) Probabilità che un individuo sopravviva oltre il tempo t(2) dato che era
sopravvissuto oltre il tempo t1
p(3) Probabilità che un individuo sopravviva oltre il tempo t(3) dato che era
sopravvissuto oltre il tempo t(2)
p(last) Probabilità che un individuo sopravviva oltre l’ultimo tempo registrato dato che
era sopravvissuto oltre il tempo immediatamente precedente
KM (product-limit) estimator,
formally
Group 1
p(0) àProbabilità che un individuo
sopravviva oltre il tempo t(0) t(f) mf qf nf p
t(0) 0 0 0 21 (21-0)/21=1
p(1) àProbabilità che un individuo
sopravviva oltre il tempo t(1) dato che t(1) 6 3 1 21 (21-3)/21=0.857
era sopravvissuto oltre il tempo t(0)
t(2) 7 1 1 17 (17-1)/17=0.941
p(2) à Probabilità che un individuo
sopravviva oltre il tempo t(2) dato che t(3) 10 1 2 15 (15-1)/15=0.933
era sopravvissuto oltre il tempo t(1)
… … … …
p(3) à Probabilità che un individuo 23 1 5 6 (6-1)/6=0.833
sopravviva oltre il tempo t(3) dato che
era sopravvissuto oltre il tempo t(2) >23 0 2 0
S(t)=p(0)*p(1)*p(2)*….+p(t)
26
Curve di sopravvivenza
(metodo KM)
Group 1
t(f) mf qf nf p S
0 0 0 21 (21-0)/21=1 p(0)=1
6 3 1 21 (21-3)/21=0.857 p(1)*p(0)=0.857*1=0.857
7 1 1 17 (17-1)/17=0.941 p(2)*p(1)*p(0)=0.941*0.857*1=0.807
10 1 2 15 (15-1)/15=0.933 p(3)*p(2)*p(1)*p(0)=0.753
… … … …
23 1 5 6 (6-1)/6=0.833 P(last)*…*p(2)*p(1)*p(0)=0.448
>23 0 2 0
27
Curve di sopravvivenza
(metodo KM)
28
29
Curve di sopravvivenza Log-
rank test
t(f) mf qf nf t(f) mf qf nf
0 0 0 21 0 0 0 21
6 3 1 21 1 2 0 21
7 1 1 17 2 2 0 19
10 1 2 15 3 1 0 17
… … … … … … … …
23 1 5 6 22 1 0 2
>2 0 2 0 23 1 0 1
3
Gruppo 1 Gruppo 2
30
31
Curve di sopravvivenza Log-
rank test
Se le esperienze di sopravvivenza dei due gruppi fossero uguali, il
numero di eventi si dovrebbe distribuire in misura proporzionale
all’insieme di soggetti a rischio nei due gruppi…
Questo vuol dire che il 50% del totale di eventi osservati al tempo 1
dovrebbero essere stati osservati nel gruppo 1 e il rimanente 50% nel
gruppo 2
32
33
Curve di sopravvivenza Log-
rank test
Maggiore è la differenza tra l’osservato e l’atteso (sotto l’ipotesi che
le due curve siano uguali) maggiore è il dubbio che l’evidenza
osservato possa provenire dall’ipotesi nulla
La differenza, opportunamente standardizzata, produce un pvalue
che si interpreta alla luce dell’ipotesi formulata.
34
H1 : 0
m - m0
M
0
zo = Regione di accettazione Regione di rifiuto
s n
f ( z)
Verifico la posizione di zo
rispetto alle regioni di
accettazione e di rifiuto e Z
decido di conseguenza 0
Regione di accettazione Regione di rifiuto
H0 : 0 P-Value
H1 : 0 f ( z)
p-value (valore p)
m - m0
zo =
s n zo 0
Z
Se tale probabilità è molto elevata allora vuol dire che “non è poi così
strano” quanto abbiamo osservato supponendo vera l’ipotesi nulla
Il p-value viene confrontato con gli usuali valori di allo scopo di
prendere una decisione. Se p≥ allora accetto H0 altrimenti accetto H1
P-Value
Nel caso di ipotesi alternative bidirezionali, si considera l’area a destra
del valore assoluto di zo e la si moltiplica per due.
H 0 : m = m0 f ( z)
p-value (valore p)
H1 : m ¹ m0
Z
-|zo| 0 |zo|
m - m0
zo =
s n