Sei sulla pagina 1di 371

Università di Napoli Federico II

Corso di Laurea Magistrale in Medicina e Chirurgia


Anno accademico 2017-2018

CORSO DI
STATISTICA E INFORMATICA MEDICA
Docente: Pasquale Dolce
pasquale.dolce@unina.it
Testi di riferimento:
Daniel W. Biostatistica. Edises Universitaria

Ricevimento studenti:
Lunedi, dalle 14 alle 16,
Stanza Prof. Dario Bruzzese, Edificio 18, piano terra.
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Per avvisi, informazioni, materiale didattico…

Presto sarà attivo il sito:


www.docenti.unina.it/pasquale.dolce

Una volta attivo il sito, le diapositive delle lezioni e il


materiale didattico del corso saranno resi disponibili nella
sezione Didattica - Materiale didattico, parallelamente
allo svolgersi delle lezioni.

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Modalità di accertamento del profitto
• Esame scritto sulla base di domande aperte.
• Lavoro di gruppo
• Esame orale

La preparazione all'esame richiede frequenza assidua del


corso e regolare impegno nello studio a casa. Oltre agli
appunti presi in aula, utili per completare le diapositive delle
lezioni, la preparazione andrà comunque costruita sui testi di
riferimento consigliati.

PREREQUISITI PROPEDEUTICITÀ
Nessuno Nessuna
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Obiettivi formativi dell’insegnamento


Acquisire una mentalità scientifica:

- spirito critico per rigettare credenze ingiustificate non suffragate


da dati e test statistici
- abilità in merito alla descrizione di dati statistici, comprendere i
fondamenti del concetto di probabilità e dell’inferenza statistica.
- conoscere, applicare e saper interpretare alcuni metodi e test
statistici
- leggere testi ed articoli scientifici di interesse medico con spirito
critico, valutando i risultati proposti e proponendo metodi e test
alternativi ed interpretazioni alternative dei risultati.
- l’interpretazione di test clinici collegandoli agli aspetti statistici
- lavorare costruttivamente in gruppo
- formulare un piano di ricerca statistica elementare

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Statistica Descrittiva vs Statistica Inferenziale
Statistica Descrittiva:

Insieme di metodi e tecniche per la rilevazione, la sintesi,


l’interpretazione e la presentazione di un insieme di dati e
informazioni che riguardano una specifica popolazione osservata.

Statistica Inferenziale:
Insieme di metodi e tecniche che utilizzano lo strumento
probabilistico per poter indurre le caratteristiche di una intera
popolazione dall’analisi dei risultati osservati su una parte della
popolazione (il campione osservato). Essa permette quindi di stimare
una caratteristica relativa a tutta una popolazione o di prendere una
data decisione riguardante un’intera popolazione a partite
dall’analisi dei dati campionari che sono stati osservati

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Fasi di un piano di ricerca statistica

Definizione
del problema
e delle ipotesi

Conclusioni e Raccolta dei


decisioni dati

Analisi dei Codifica e


dati e Scelta del
interpretazion metodo di
e dei risultati analisi

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Variabili Statistiche -
Rappresentazioni Tabellari e Grafiche

Corso di Laurea Magistrale in Medicina e Chirurgia

C ORSO DI S TATISTICA E I NFORMATICA M EDICA


( P. DOLCE )

Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)

Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione

Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)

Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione

Variabile
Qualunque fenomeno oggetto di studio che è rilevato sulle unità
statistiche e che è suscettibile di assumere valori differenti nelle
differenti unità statistiche
Vocabolario Essenziale
Unità Statistica
Unità elementare su cui vengono osservati i caratteri oggetto di
studio (persone o esseri viventi, oggetti, territori, tempi, ..)

Popolazione
Insieme di unità statistiche omogenee su cui si vuole condurre la
rilevazione

Variabile
Qualunque fenomeno oggetto di studio che è rilevato sulle unità
statistiche e che è suscettibile di assumere valori differenti nelle
differenti unità statistiche

Modalità
I valori assunti da ciascuna variabile nelle singole unità statistiche

Variabili
Variabili

Qualitative Quantitative
Variabili
Variabili

Qualitative Quantitative

Variabili qualitative
Variabili che assumono come modalità
etichette linguistiche
Genere (Maschio femmina)
Intensità del dolore (Assente,
Moderata, Lieve, Forte)
Grado di Istruzione
...

Variabili
Variabili

Qualitative Quantitative

Variabili qualitative Variabili quantitative


Variabili che assumono come modalità Variabili che assumono come modalità
etichette linguistiche valori numerici:
Genere (Maschio femmina) Altezza
Intensità del dolore (Assente, Durata della fase REM del
Moderata, Lieve, Forte) sonno
Grado di Istruzione Numero di episodi febbrili per
... paziente
...
Variabili
Variabili

Qualitative Quantitative

Nominali Ordinali Su scala di Su scala di


Intervallo Rapporto

Variabili
Variabili

Qualitative Quantitative

Nominali Ordinali Su scala di Su scala di


Intervallo Rapporto
Variabili qualitative Nominali
Le differenti modalità consento solo di
classificare una unità statistica e di valutarne
l’uguaglianza o la differenza rispetto ad
un’altra unità
Variabili
Variabili

Qualitative Quantitative

Nominali Ordinali Su scala di Su scala di


Intervallo Rapporto
Variabili qualitative Ordinali
Le differenti modalità presentano un
ordinamento naturale (e non arbitrario) che
consente di stabilire una relazione d’ordine
tra le diverse unità statistiche.
L’eventuale attribuzione di valori numerici alle
modalità ha il solo scopo di codificarle e non
quello di consentire operazioni aritmetiche.

Variabili
Variabili

Qualitative Quantitative

Nominali Ordinali Su scala di Su scala di


Intervallo Rapporto
Variabili quantitative su scala
di Intervallo
Lo 0 non è un riferimento assoluto ma
relativo.
Temperatura in gradi centigradi
Pressione sistolica, diastolica
Variabili
Variabili

Qualitative Quantitative

Nominali Ordinali Su scala di Su scala di


Intervallo Rapporto
Variabili quantitative su scala
di Rapporto
Lo 0 indica la totale assenza di quel
fenomeno sull’unità statistica

Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili

Variabili
1 Quantitative Continue
2 Quantitative Discrete
3 Qualitative Ordinali
4 Qualitative nominali
Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili

Variabili
1 Quantitative Continue
2 Quantitative Discrete
3 Qualitative Ordinali
4 Qualitative nominali

Il passaggio da un livello ad un altro è ammissibile solo in senso discendente. Ad es.


trasformare una variabile quantitativa discreta in una variabile qualitativa ordinale oppure
in una nominale

Variabili
E’ possibile individuare una scala gerarchica di complessità tra le
diverse tipologie di variabili

Variabili Frequenza cardiaca


1 Quantitative Continue 1 ...
2 Quantitative Discrete 2 Numero di battiti al minuto
3 Qualitative Ordinali 3 Bassa – Normale – Elevata
4 Qualitative nominali 4 Anormale - Normale

Il passaggio da un livello ad un altro è ammissibile solo in senso discendente. Ad es.


trasformare una variabile quantitativa discreta in una variabile qualitativa ordinale oppure
in una nominale
Rappresentazione dei dati
Rappresentazioni Tabellari
Distribuzioni di frequenza
Tabelle di contingenza
...

Rappresentazioni Grafiche
Diagrammi a barra e a torta
Istogrammi
...

Rappresentazione dei dati


Distribuzioni di Frequenza
I dati sono raggruppati in base alle diverse modalità
osservate ed ad ognuna di queste è associata la
corrispondente frequenza. Si utilizza generalmente per
variabili qualitative e quantitative discrete.
Rappresentazione dei dati
Distribuzioni di Frequenza
I dati sono raggruppati in base alle diverse modalità
osservate ed ad ognuna di queste è associata la
corrispondente frequenza. Si utilizza generalmente per
variabili qualitative e quantitative discrete.

Esempio

Unità Valore
1 Modalità 1
2 Modalità 1
3 Modalità 2
4 Modalità 1
5 Modalità 2
6 Modalità 3
7 Modalità 3

Rappresentazione dei dati


Distribuzioni di Frequenza
I dati sono raggruppati in base alle diverse modalità
osservate ed ad ognuna di queste è associata la
corrispondente frequenza. Si utilizza generalmente per
variabili qualitative e quantitative discrete.

Esempio

Unità Valore
1 Modalità 1 Modalità Frequenza
2 Modalità 1 Modalità 1 3
3 Modalità 2 Modalità 2 2
4 Modalità 1 Modalità 3 2
5 Modalità 2
6 Modalità 3 Totale 7
7 Modalità 3
Rappresentazioni Tabellari

Paziente Età Genere Durata fase REM


1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137

Rappresentazioni Tabellari

Paziente Età Genere Durata fase REM


1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137

Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108 Distribuzione di frequenza del
14 23 F 104 genere
15 24 F 138 Genere Frequenza
16 22 M 129
17 21 M 134 M 9
18 21 M 108 F 11
19 20 F 123
20 23 F 137 Totale 20

Rappresentazioni Tabellari
Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età
1 25 F 103
Età Frequenza
2 25 F 115
3 25 F 125 20 4
4 20 F 107 21 3
5 25 M 112 22 3
6 23 M 125 23 3
7 22 M 114 24 3
8 21 M 111 25 4
9 20 F 138
10 20 M 125 Totale 20
11 24 M 108
12 22 F 130
13 24 F 108 Distribuzione di frequenza del
14 23 F 104 genere
15 24 F 138 Genere Frequenza
16 22 M 129
17 21 M 134 M 9
18 21 M 108 F 11
19 20 F 123
20 23 F 137 Totale 20
Rappresentazioni Tabellari
Distribuzione di frequenza Distribuzione di frequenza
Paziente Età Genere Durata fase REM dell’età della durata della fase REM
1 25 F 103
Età Frequenza Durata Frequenza
2 25 F 115
3 25 F 125 Fase REM
20 4
4 20 F 107 21 3 103 1
5 25 M 112 22 3 104 1
6 23 M 125 23 3 107 1
7 22 M 114 24 3 108 3
8 21 M 111 25 4 111 1
9 20 F 138 112 1
10 20 M 125 Totale 20 114 1
11 24 M 108 115 1
12 22 F 130 123 1
13 24 F 108 Distribuzione di frequenza del
125 3
14 23 F 104 genere
129 1
15 24 F 138 Genere Frequenza 130 1
16 22 M 129 134 1
17 21 M 134 M 9 137 1
18 21 M 108 F 11 138 2
19 20 F 123
20 23 F 137 Totale 20 Totale 20

Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza
Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza

Distribuzione di frequenza della durata Distribuzione di frequenza in classi della durata


della fase REM della fase REM

Durata fase REM Durata Fase REM


Frequenza Frequenza
(min.) (min.)

103 1 100 -| 110 6


104 1 110 -| 120 4
107 1 120 -| 130 6
108 3 130 -| 140 4
111 1
... ... Totale 20
129 1
130 1
134 1
137 1
138 2
Totale 20

Rappresentazione Tabellari
Spesso, nel caso di variabili quantitative continue, l’impiego di distribuzioni di frequenza
non è utile a causa dell’elevato numero di differenti modalità che possono essere
osservate. In questo caso si ricorre ad una distribuzione di frequenza in classi. Essa si
ottiene raggruppando in intervalli consecutivi e disgiunti (classi - le modalità devono
appartenere ad una ed una sola classe) i valori osservati e associando a ciascuna di
questi la corrispondente frequenza

Distribuzione di frequenza della durata Distribuzione di frequenza in classi della durata


della fase REM della fase REM

Durata fase REM Durata Fase REM


Frequenza Frequenza
(min.) (min.)

103 1 100 -| 110 6


104 1 110 -| 120 4
107 1 120 -| 130 6
108 3 130 -| 140 4
111 1
... ... Totale 20
129 1
130 1
134 1
137 1 La scelta delle classi può avvenire utilizzando
138 2
criteri semi-automatici (classi equi-ampie, classi
Totale 20 equi-frequenti) o ricorrendo a conoscenza esperta
Rappresentazioni Tabellari
Tabelle di contingenza
La tabelle di contingenza consentono di incrociare le
distribuzioni di frequenza relative a due o più variabili allo
scopo di evidenziare la presenza di relazioni e associazioni

Unità Variabile X Variabile Y x1 x2 Totale


1 x1 y1 y1 1 2 3
2 x1 y2 y2 2 2 4
3 x2 y2
4 x1 y2 Totale 3 4 7
5 x2 y2
6 x2 y1
7 x2 y1

Rappresentazioni Tabellari
Tabelle di contingenza
La tabelle di contingenza consentono di incrociare le
distribuzioni di frequenza relative a due o più variabili allo
scopo di evidenziare la presenza di relazioni e associazioni

Unità Variabile X Variabile Y x1 x2 Totale


1 x1 y1 y1 1 2 3
2 x1 y2 y2 2 2 4
3 x2 y2
4 x1 y2 Totale 3 4 7
5 x2 y2
6 x2 y1
7 x2 y1

La frequenze interne sono dette frequenze congiunte dal momento che indicano il numero
di unità statistiche che congiuntamente presentano quelle specifiche modalità di riga e di
colonna
Rappresentazioni Tabellari
Tabelle di contingenza
La tabelle di contingenza consentono di incrociare le
distribuzioni di frequenza relative a due o più variabili allo
scopo di evidenziare la presenza di relazioni e associazioni

Unità Variabile X Variabile Y x1 x2 Totale


1 x1 y1 y1 1 2 3
2 x1 y2 y2 2 2 4
3 x2 y2
4 x1 y2 Totale 3 4 7
5 x2 y2
6 x2 y1
7 x2 y1

I totali di riga e di colonna sono invece le frequenze marginali. Esse indicano il numero di
soggetti che presentano una specifica modalità di una variabile indipendentemente da
quanto accade per l’altra variabile considerata

Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115
3 25 F 125
4 20 F 107
5 25 M 112
6 23 M 125
7 22 M 114
8 21 M 111
9 20 F 138
10 20 M 125
11 24 M 108
12 22 F 130
13 24 F 108
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137

Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137
Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129
17 21 M 134
18 21 M 108
19 20 F 123
20 23 F 137

Rappresentazioni tabellari
Paziente Età Genere Durata fase REM
1 25 F 103
2 25 F 115 Distribuzione di frequenza congiunta del
3 25 F 125 genere e dell’età
4 20 F 107
5 25 M 112 Genere
6 23 M 125 Età F M Totale
7 22 M 114 20 3 1 4
8 21 M 111 21 0 3 3
9 20 F 138 22 1 2 3
10 20 M 125 23 2 1 3
11 24 M 108 24 2 1 3
12 22 F 130 25 3 1 4
13 24 F 108 Totale 11 9 20
14 23 F 104
15 24 F 138
16 22 M 129 Distribuzione di frequenza congiunta del
17 21 M 134 genere e della durata della fase REM
18 21 M 108
Genere
19 20 F 123
Pressione F M Totale
20 23 F 137
100 -| 110 4 2 6
110 -| 120 1 3 4
120 -| 130 3 3 6
130 -| 140 3 1 4
Totale 11 9 20
Rappresentazioni tabellari
Qualora si debbano confrontare collettivi di numerosità differenti è opportuno ricorrere a
frequenze relative o percentuali.

Maschi Femmine
Freq. Freq.
Tipologia di incidente Tipologia di incidente
Ass. Ass.

Incidente automobilistico 123 Incidente automobilistico 62


Caduta 85 Caduta 23
Investimento pedonale 32 Investimento pedonale 12
Osteoporosi 18 Osteoporosi 4
Totale 258 Totale 101

Rappresentazioni tabellari
Qualora si debbano confrontare collettivi di numerosità differenti è opportuno ricorrere a
frequenze relative o percentuali.

Maschi Femmine L’incidente


Freq. Freq.
Tipologia di incidente
Ass.
Tipologia di incidente
Ass.
automobilistico è causa
di ricovero al pronto
Incidente automobilistico 123 Incidente automobilistico 62 soccorso più frequente
Caduta 85 Caduta 23
Investimento pedonale 32 Investimento pedonale 12 negli uomini che nelle
Osteoporosi 18 Osteoporosi 4 donne???
Totale 258 Totale 101
Rappresentazioni tabellari
Qualora si debbano confrontare collettivi di numerosità differenti è opportuno ricorrere a
frequenze relative o percentuali.

Maschi Femmine L’incidente


Freq. Freq.
Tipologia di incidente
Ass.
Tipologia di incidente
Ass.
automobilistico è causa
di ricovero al pronto
Incidente automobilistico 123 Incidente automobilistico 62 soccorso più frequente
Caduta 85 Caduta 23
Investimento pedonale 32 Investimento pedonale 12 negli uomini che nelle
Osteoporosi 18 Osteoporosi 4 donne???
Totale 258 Totale 101
Le frequenze relative
(percentuali), ottenute dividendo
le frequenze assolute per la
Maschi Femmine
Freq. Freq. numerosità del collettivo
Tipologia di incidente Tipologia di incidente esaminato (moltiplicando poi il
Rel. Rel.
risultato per 100), consentono di
Incidente automobilistico 0.48 Incidente automobilistico 0.61 annullare l’effetto della diversa
Caduta 0.33 Caduta 0.23 numerosità poiché esprimono
Investimento pedonale 0.12 Investimento pedonale 0.12 ciascuna frequenza come quota
Osteoporosi 0.07 Osteoporosi 0.04 di uno stesso totale (1 nel caso di
frequenze relative e 100 in quello
Totale 1 Totale 1 di frequenze percentuali)

Rappresentazioni Grafiche
I diagrammi a Torta, quelli a Barre e altre rappresentazioni analoghe si
utilizzano con variabili di tipo qualitativo; in questi grafici l’unica
informazione numerica è contenuta nelle frequenze (spesso espresse in
termini relativi o percentuali)

Femmine=53%

Maschi=47%

Femmine=53% Maschi=47%

Diagramma a Torta Diagramma a Barre


Rappresentazioni Grafiche
I diagrammi a Torta, quelli a Barre e altre rappresentazioni analoghe si
utilizzano con variabili di tipo qualitativo; in questi grafici l’unica
informazione numerica è contenuta nelle frequenze (spesso espresse in
termini relativi o percentuali)

Femmine=53%

Maschi=47%

Femmine=53% Maschi=47%

Diagramma a Torta Diagramma a Barre

Rappresentazioni Grafiche
I diagrammi a Torta, quelli a Barre e altre rappresentazioni analoghe si
utilizzano con variabili di tipo qualitativo; in questi grafici l’unica
informazione numerica è contenuta nelle frequenze (spesso espresse in
termini relativi o percentuali)

Femmine=53%

Maschi=47%

Femmine=53% Maschi=47%

Diagramma a Torta Diagramma a Barre


Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Durata fase
Freq. Ass Freq. Rel.
REM

100 -| 105 3 0.11


105 -| 110 6 0.22
110 -| 115 7 0.26
115 -| 120 3 0.11
120 -| 130 7 0.26
130 -| 140 1 0.04
Totale 27 1
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Freq. Rel.
Durata fase
Freq. Ass Freq. Rel.
REM

100 -| 105 3 0.11


105 -| 110 6 0.22
110 -| 115 7 0.26
115 -| 120 3 0.11
120 -| 130 7 0.26
130 -| 140 1 0.04
Totale 27 1

Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate...

Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Freq. Rel.
Durata fase
Freq. Ass Freq. Rel.
REM

100 -| 105 3 0.11


105 -| 110 6 0.22
110 -| 115 7 0.26
115 -| 120 3 0.11
120 -| 130 7 0.26
130 -| 140 1 0.04
Totale 27 1

Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate...
Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Durata fase
Freq. Ass Freq. Rel. Densità
REM

100 -| 105 3 0.11 0.22


105 -| 110 6 0.22 0.44
110 -| 115 7 0.26 0.52
115 -| 120 3 0.11 0.22
120 -| 130 7 0.26 0.26
130 -| 140 1 0.04 0.04
Totale 27 1

Frequenza Relativa
Densità di Frequenza =
Ampiezza della classe

Rappresentazioni Grafiche
Nel caso di variabili quantitative, e in particolare quando queste sono
state suddivise in classi, lo strumento di rappresentazione idoneo è
l’istogramma; sebbene molto simile al diagramma a barre esso presenta
sostanziali elementi di distinzione.

Densità
Durata fase
Freq. Ass Freq. Rel. Densità
REM

100 -| 105 3 0.11 0.22


105 -| 110 6 0.22 0.44
110 -| 115 7 0.26 0.52
115 -| 120 3 0.11 0.22
120 -| 130 7 0.26 0.26
130 -| 140 1 0.04 0.04
Totale 27 1

Sull’asse delle ascisse, che a differenza del diagramma a 100 105 110 115 120 125 130 135 140
barre è un asse metrico, sono riportati gli intervalli disgiunti
e consecutivi in cui la variabile è stata suddivisa. Durata fase REM
Sull’asse delle ordinate, è riportata la densità di frequenza
che pesa la frequenza relativa di ciascuna classe per la sua
ampiezza.
Esempio di variabile su scala ad intervallo
Temperatura in gradi

• La misurazione su scala Celsius o Fahrenheit.

• Lo zero della prima scala è solo una convenzione che equivale nella
seconda a 32 gradi.

• In entrambe le scale l’origine della misurazione (i.e. il livello zero


che esprime intensità nulla) non sono assolute ma convenzionali.

• In questo caso si possono confrontare le differenze tra


temperature ma non i rapporti.

Altro esempio: intelligenza misurata attraverso test sul Q.I.


CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Scala Kelvin

Lo zero della scala kelvin non è convenzionale ma assoluto.

Lo zero assoluto è la temperatura più bassa che


teoricamente si possa ottenere e corrisponde a 0 K.

La scala Kelvin è una scala di rapporti, il cui zero (–273.15°C)


è lo zero assoluto della temperatura.

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Esempio di variabile su scala di rapporto
Peso

La misurazione può avvenire con diverse unità di misura (kg, g,


quintali, tonnellate).

Se tra due individui il primo pesa il doppio del secondo ciò


sarà vero per ognuna delle unità di misura utilizzate.

Tizio peso 100kg equivalente a 1 quintali


Caio peso 50kg equivalente a 0,5 quintali

Tizio pesa il doppio di Caio a prescindere della scala


utilizzata!!!
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Indicatori di Posizione e di Variabilità

Corso di Laurea Magistrale in Medicina e Chirurgia

C ORSO DI S TATISTICA E I NFORMATICA M EDICA


( P. DOLCE )
Indici Sintetici

Consentono il passaggio da una pluralità di informazioni ad


un’unica misura numerica;

Sintetizzano l’intera distribuzione in un singolo valore, con-


sentendo così confronti nel tempo, nello spazio o tra
circostanze differenti;

In alcuni casi, consentono di verificare se le conseguen-


ze di una determinata azione abbiano prodotto il risultato
desiderato, in quale direzione e con quale intensità.

Indici Sintetici di Posizione: la media aritmetica


La Media aritmetica, di seguito indicata con µ, è quel valore che,
sostituito a tutte le osservazioni, lascia invariata la loro somma.

Se i dati sono organizzati in forma di serie, Esempio: Durata della


x1 , x2 , ..., xn essa si ottiene sommando tutti i valori fase REM
osservati e dividendo per il numero di osservazioni: Osservazione 1 103
Osservazione 2 115
Pn Osservazione 3 125
i=1 xi Osservazione 4 107
µ=
n Osservazione 5 112
Osservazione 6 125
Osservazione 7 114
... ...
103+115+...+107 2394 Osservazione 19 123
µ= = = 119.7
20 20 Osservazione 20 137
Indici Sintetici di Posizione: la media aritmetica
La Media aritmetica, di seguito indicata con µ, è quel valore che,
sostituito a tutte le osservazioni, lascia invariata la loro somma.

Se i dati sono organizzati in forma di distribuzione Distribuzione di


di frequenza, (x1 , n1 ), (x2 , n2 ), ..., (xk , nk ) essa si frequenza dell’età
ottiene moltiplicando ciascun valore per la Età Frequenza
corrispondente frequenza, sommando tutti questi
20 4
prodotti e dividendo quindi per la somma delle 21 3
frequenze: 22 3
23 3
Pk 24 3
j=1 xj × nj 25 4
µ= Pk
j=1 nj Totale 20

Indici Sintetici di Posizione: la media aritmetica


La Media aritmetica, di seguito indicata con µ, è quel valore che,
sostituito a tutte le osservazioni, lascia invariata la loro somma.

Se i dati sono organizzati in forma di distribuzione Distribuzione di


di frequenza, (x1 , n1 ), (x2 , n2 ), ..., (xk , nk ) essa si frequenza dell’età
ottiene moltiplicando ciascun valore per la Età Frequenza
corrispondente frequenza, sommando tutti questi
20 4
prodotti e dividendo quindi per la somma delle 21 3
frequenze: 22 3
23 3
Pk 24 3
j=1 xj × nj 25 4
µ= Pk
j=1 nj Totale 20

(20×4)+(21×3)+...+(25×4) 450
µ= (4+3+...+4
= 20
= 22.5 anni
Indici Sintetici di Posizione: la media aritmetica

Proprietà della Media aritmetica


La media aritmetica è sempre compresa tra il minimo e il
massimo della distribuzione osservata;

Indici Sintetici di Posizione: la media aritmetica

Proprietà della Media aritmetica


La media aritmetica è sempre compresa tra il minimo e il
massimo della distribuzione osservata;
La media aritmetica è espressa nella stessa unità di
misura dei dati originali;
Indici Sintetici di Posizione: la media aritmetica

Proprietà della Media aritmetica


La media aritmetica è sempre compresa tra il minimo e il
massimo della distribuzione osservata;
La media aritmetica è espressa nella stessa unità di
misura dei dati originali;
La somma degli scarti dalla media aritmetica è nulla;

Indici Sintetici di Posizione: la media aritmetica

Proprietà della Media aritmetica


La media aritmetica è sempre compresa tra il minimo e il
massimo della distribuzione osservata;
La media aritmetica è espressa nella stessa unità di
misura dei dati originali;
La somma degli scarti dalla media aritmetica è nulla;
La media aritmetica è una sintesi di tutti i valori ed è quindi
influenzata da eventuali outliers; è cioè un indicatore poco
robusto
Indici Sintetici di Posizione: la mediana
La Mediana, di seguito indicata con Me, è il valore assunto dall’unità
statistica che occupa la posizione centrale della distribuzione ordinata in
modo non decrescente; quel valore cioè che lascia alla sua sinistra il
50% delle osservazioni più piccole e alla sua destra il 50% delle
osservazioni più grandi

Indici Sintetici di Posizione: la mediana


La Mediana, di seguito indicata con Me, è il valore assunto dall’unità
statistica che occupa la posizione centrale della distribuzione ordinata in
modo non decrescente; quel valore cioè che lascia alla sua sinistra il
50% delle osservazioni più piccole e alla sua destra il 50% delle
osservazioni più grandi

Calcolo della mediana


1 Si ordina la distribuzione in modo non decrescente;
2 Si determina la posizione mediana
Se il numero di osservazioni n è dispari allora PosMe = n+1
 2
Se il numero di osservazioni n è pari allora PosMe = n2 , n2 + 1

3 Si osserva il valore che occupa la posizione mediana


Indici Sintetici di Posizione: la mediana
La Mediana, di seguito indicata con Me, è il valore assunto dall’unità
statistica che occupa la posizione centrale della distribuzione ordinata in
modo non decrescente; quel valore cioè che lascia alla sua sinistra il
50% delle osservazioni più piccole e alla sua destra il 50% delle
osservazioni più grandi

Calcolo della mediana


1 Si ordina la distribuzione in modo non decrescente;
2 Si determina la posizione mediana
Se il numero di osservazioni n è dispari allora PosMe = n+1
 2
Se il numero di osservazioni n è pari allora PosMe = n2 , n2 + 1

3 Si osserva il valore che occupa la posizione mediana

N.B. Nel caso in cui n è pari e quindi esistono due posizioni mediane, se si è in
presenza di variabili quantitative la mediana è ottenuta come semi-somma dei due
valori corrispondenti; se la variabile è qualitativa ordinale allora si dice che la
distribuzione è caratterizzata da due valori mediani.

Indici Sintetici di Posizione: la mediana


Un esempio: n dispari
Valore Posizione
19 1
22 2
25 3
26 4
27 5
Indici Sintetici di Posizione: la mediana
Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
27 5

Indici Sintetici di Posizione: la mediana


Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
Me = 25
27 5
Indici Sintetici di Posizione: la mediana
Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
Me = 25
27 5

Un esempio: n pari
Valore Posizione
19 1
22 2
25 3
26 4
27 5
41 6

Indici Sintetici di Posizione: la mediana


Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
Me = 25
27 5

Un esempio: n pari
Valore Posizione
19 1
22 2 P
 Me =
n n

25 3
2 = 3, 2 + 1 = 4
26 4
27 5
41 6
Indici Sintetici di Posizione: la mediana
Un esempio: n dispari
Valore Posizione
19 1
22 2 n+1 5+1
PMe = 2 = 2 =3
25 3
26 4
Me = 25
27 5

Un esempio: n pari
Valore Posizione
19 1
22 2 P
 Me =
n n

25 3
2 = 3, 2 + 1 = 4
26 4
27 5 25+26
41 6
Me = 2 = 25.5

Indici Sintetici di Posizione: la mediana


Esempio: Analisi dei potenziali evocati
La latenza è il tempo (espresso abitualmente in millesecondi) che
intercorre tra stimolo periferico e potenziale registrato sopra il cervello
(le risposte del sistema nervoso centrale)
Indici Sintetici di Posizione: la mediana
Esempio: Analisi dei potenziali evocati
La latenza è il tempo (espresso abitualmente in millesecondi) che
intercorre tra stimolo periferico e potenziale registrato sopra il cervello
(le risposte del sistema nervoso centrale)

I dati
Sono stati analizzati 19 bambini con
idrocefalo e per ciascuno di essi è stato
misurato il tempo di latenza (ottenuto
attraverso una operazione di averaging,
la quale permette di ottenere la risposta
media del cervello allo stimolo) ad uno
stimolo acustico (click).

Indici Sintetici di Posizione: la mediana


Unità Tempo di
Latenza
Unità 1 160
Unità 2 154
Unità 3 123
Unità 4 125
Unità 5 154
Unità 6 133
Unità 7 152
Unità 8 159
Unità 9 92
Unità 10 150
Unità 11 146
Unità 12 120
Unità 13 138
Unità 14 152
Unità 15 137
Unità 16 131
Unità 17 146
Unità 18 139
Unità 19 157
Indici Sintetici di Posizione: la mediana
Unità Tempo di Unità Tempo di Pos.
Latenza Latenza
Unità 1 160 Unità 9 92 1
Unità 2 154 Unità 12 120 2
Unità 3 123 Unità 3 123 3
Unità 4 125 Unità 4 125 4
Unità 5 154 Unità 16 131 5
Unità 6 133 Unità 6 133 6
Unità 7 152 Unità 15 137 7
Unità 8 159 Unità 13 138 8
Unità 9 92 Unità 18 139 9
Unità 10 150 Unità 11 146 10
Unità 11 146 Ordinamento Unità 17 146 11
Unità 12 120 Unità 10 150 12
Unità 13 138 Unità 7 152 13
Unità 14 152 Unità 14 152 14
Unità 15 137 Unità 2 154 15
Unità 16 131 Unità 5 154 16
Unità 17 146 Unità 19 157 17
Unità 18 139 Unità 8 159 18
Unità 19 157 Unità 1 160 19

Indici Sintetici di Posizione: la mediana


Unità Tempo di Unità Tempo di Pos.
Latenza Latenza
Unità 1 160 Unità 9 92 1 n = 19
Unità 2 154 Unità 12 120 2
Unità 3 123 Unità 3 123 3 n+1
Unità 4 125 Unità 4 125 4 PMe = 2 = 10
Unità 5 154 Unità 16 131 5
Unità 6 133 Unità 6 133 6
Unità 7 152 Unità 15 137 7
Unità 8 159 Unità 13 138 8
Unità 9 92 Unità 18 139 9
Unità 10 150 Unità 11 146 10
Unità 11 146 Ordinamento Unità 17 146 11
Unità 12 120 Unità 10 150 12
Unità 13 138 Unità 7 152 13
Unità 14 152 Unità 14 152 14
Unità 15 137 Unità 2 154 15
Unità 16 131 Unità 5 154 16
Unità 17 146 Unità 19 157 17
Unità 18 139 Unità 8 159 18
Unità 19 157 Unità 1 160 19
Indici Sintetici di Posizione: la mediana
Unità Tempo di Unità Tempo di Pos.
Latenza Latenza
Unità 1 160 Unità 9 92 1 n = 19
Unità 2 154 Unità 12 120 2
Unità 3 123 Unità 3 123 3 n+1
Unità 4 125 Unità 4 125 4 PMe = 2 = 10
Unità 5 154 Unità 16 131 5
Unità 6 133 Unità 6 133 6
Me = 146 ms.
Unità 7 152 Unità 15 137 7
Unità 8 159 Unità 13 138 8
Unità 9 92 Unità 18 139 9
Unità 10 150 Unità 11 146 10
Unità 11 146 Ordinamento Unità 17 146 11
Unità 12 120 Unità 10 150 12
Unità 13 138 Unità 7 152 13
Unità 14 152 Unità 14 152 14
Unità 15 137 Unità 2 154 15
Unità 16 131 Unità 5 154 16
Unità 17 146 Unità 19 157 17
Unità 18 139 Unità 8 159 18
Unità 19 157 Unità 1 160 19

Indici Sintetici di Posizione: la mediana

Proprietà della Mediana


La mediana è sempre compresa tra il minimo e il massimo
della distribuzione osservata;
Indici Sintetici di Posizione: la mediana

Proprietà della Mediana


La mediana è sempre compresa tra il minimo e il massimo
della distribuzione osservata;
La mediana è espressa nella stessa unità di misura dei
dati originali;

Indici Sintetici di Posizione: la mediana

Proprietà della Mediana


La mediana è sempre compresa tra il minimo e il massimo
della distribuzione osservata;
La mediana è espressa nella stessa unità di misura dei
dati originali;
La mediana può essere calcolata sia per variabili
quantitative che per variabili qualitative ordinali (Attenzione
però al caso in cui n è pari!)
Indici Sintetici di Posizione: la mediana

Proprietà della Mediana


La mediana è sempre compresa tra il minimo e il massimo
della distribuzione osservata;
La mediana è espressa nella stessa unità di misura dei
dati originali;
La mediana può essere calcolata sia per variabili
quantitative che per variabili qualitative ordinali (Attenzione
però al caso in cui n è pari!)
La mediana non risente della presenza di eventuali outliers
perché si “disinteressa” di ciò che accade nelle code della
distribuzione dei dati;

Indici Sintetici di Posizione: I quartili


I quartili sono indicatori di posizione che, al pari della mediana, si
calcolano rilevando il valore assunto dalle unità statistiche che
occupano posizioni cruciali nella serie ordinata (in senso non
decrescente) dei dati
Il primo quartile (di seguito indicato con Q1 ) è quel valore che
lascia alla sua sinistra il 25 % delle osservazioni più piccole e alla
sua destra il 75 % delle osservazioni più grandi
Il secondo quartile è quel valore che lascia alla sua sinistra il 50 %
delle osservazioni più piccole e alla sua destra il 50 % delle
osservazioni più grandi. Esso quindi coincide con la Mediana
Il terzo quartile (di seguito indicato con Q3 è quel valore che lascia
alla sua sinistra il 75 % delle osservazioni più piccole e alla sua
destra il 25 % delle osservazioni più grandi
Indici Sintetici di Variabilità

La variabilità di un fenomeno è la sua attitudine ad assumere


differenti modalità.

Indici Sintetici di Variabilità

La variabilità di un fenomeno è la sua attitudine ad assumere


differenti modalità.
Un indice di variabilità è una misura di tale attitudine, e dovrebbe
possedere le seguenti caratteristiche:
1 Deve essere non negativo
2 Deve essere nullo se e solo se tutte le unità presentano la
stessa modalità del carattere;
3 Deve aumentare all’aumentare della diversità tra le unità.
Indici Sintetici di Variabilità

La variabilità di un fenomeno è la sua attitudine ad assumere


differenti modalità.
Un indice di variabilità è una misura di tale attitudine, e dovrebbe
possedere le seguenti caratteristiche:
1 Deve essere non negativo
2 Deve essere nullo se e solo se tutte le unità presentano la
stessa modalità del carattere;
3 Deve aumentare all’aumentare della diversità tra le unità.
La variabilità può essere calcolata rispetto ad un centro (misure di
dispersione) o valutando le differenze tra tutte le possibili coppie di
unità osservate (misure di diseguaglianza)

Indici Sintetici di Variabilità: Varianza


La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento (valore centrale) e si basa sulle distanze di
ciascuna osservazione dal centro assunto come riferimento.

X
µ
Indici Sintetici di Variabilità: Varianza
La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento (valore centrale) e si basa sulle distanze di
ciascuna osservazione dal centro assunto come riferimento.

X
µ

X
µ

Indici Sintetici di Variabilità: Varianza


La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento e si basa sulle distanze di ciascuna osservazione
dal centro assunto come riferimento.

Razionale della Varianza


n
X
(xi − µ)
i=1
Indici Sintetici di Variabilità: Varianza
La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento e si basa sulle distanze di ciascuna osservazione
dal centro assunto come riferimento.

Razionale della Varianza


n
X
(xi − µ) Il risultato è sempre uguale a 0
i=1

Indici Sintetici di Variabilità: Varianza


La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento e si basa sulle distanze di ciascuna osservazione
dal centro assunto come riferimento.

Razionale della Varianza


n
X
(xi − µ) Il risultato è sempre uguale a 0
i=1
n
X
(xi − µ)2
i=1
Indici Sintetici di Variabilità: Varianza
La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento e si basa sulle distanze di ciascuna osservazione
dal centro assunto come riferimento.

Razionale della Varianza


n
X
(xi − µ) Il risultato è sempre uguale a 0
i=1
n
X
(xi − µ)2 Dipende dal numero di osservazioni
i=1

Indici Sintetici di Variabilità: Varianza


La Varianza (di seguito indicata con σ 2 ) è una delle misure di
dispersione più utilizzate in statistica. Utilizza la Media aritmetica come
valore di riferimento e si basa sulle distanze di ciascuna osservazione
dal centro assunto come riferimento.

Razionale della Varianza


n
X
(xi − µ) Il risultato è sempre uguale a 0
i=1
n
X
(xi − µ)2 Dipende dal numero di osservazioni
i=1
Pn
i=1 (xi − µ)2
= σ 2 Media di scarti al quadrato
n
Indici Sintetici di Variabilità: Varianza
Durata Fase REM
Sindrome Controlli
di Down Sani
105 124
98 133
104 127
103 126
107 139
93 133
99 134
94 130
94 124
96 123
103 138
110 137
97 131
90 135
100 122
110 140
98 131
90 122
104 134

Indici Sintetici di Variabilità: Varianza


Durata Fase REM 105 + 98 + ... + 104
Sindrome Controlli µdown = = 99.7 min.
19
di Down Sani
105 124 124 + 133 + ... + 134
µcontr = = 130.7 min.
98 133 19
104 127
103 126
107 139
93 133
99 134
94 130
94 124
96 123
103 138
110 137
97 131
90 135
100 122
110 140
98 131
90 122
104 134
Indici Sintetici di Variabilità: Varianza
Durata Fase REM 105 + 98 + ... + 104
Sindrome Controlli µdown = = 99.7 min.
19
di Down Sani
105 124 124 + 133 + ... + 134
µcontr = = 130.7 min.
98 133 19
104 127
103 126
107 139 (105-99.7)2 + (98-99.7)2 + ... + (104-99.7)2
2
σdown = = 35.7
93 133
99 134 19
94 130 (124-130.7)2 + (133-130.7)2 + ... + (134-130.7)2
94 124 2
σcontr = = 33.5
96 123 19
103 138
110 137
97 131
90 135
100 122
110 140
98 131
90 122
104 134

Indici Sintetici di Variabilità: Varianza


Durata Fase REM 105 + 98 + ... + 104
Sindrome Controlli µdown = = 99.7 min.
19
di Down Sani
105 124 124 + 133 + ... + 134
µcontr = = 130.7 min.
98 133 19
104 127
103 126
107 139 (105-99.7)2 + (98-99.7)2 + ... + (104-99.7)2
2
σdown = = 35.7
93 133
99 134 19
94 130 (124-130.7)2 + (133-130.7)2 + ... + (134-130.7)2
94 124 2
σcontr = = 33.5
96 123 19
103 138
110 137 Conclusioni
97 131
90 135 I soggetti affetti da Sindrome di Down presentano una durata media
100 122 della fase REM del sonno inferiore a quella dei controlli sani. Tra le
110 140 due popolazioni non vi è però una sostanziale differenza in termini di
98 131 dispersione. Cosa si sarebbe potuto concludere se invece la disper-
90 122 sione dei dati fosse stata maggiore nei soggetti affetti da sindrome
104 134 di Down???
Indici Sintetici di Variabilità: Varianza

Proprietà della Varianza


La varianza non può assumere valori negativi;
E’ nulla se e solo se tutte le osservazioni sono uguali tra di
loro (e quindi la media coincide con esse);
Attribuisce lo stesso peso ad osservazioni distanti dalla
media in una direzione piuttosto che nell’altra;
E’ espressa in una unità di misura che è il quadrato di
quella dei dati originali.

Indici Sintetici di Variabilità: Scarto quadratico medio


Al fine di riportare la misura di variabilità all’unità di misura originale si
estrae la radice quadrata della Varianza ottenendo un indice noto come
Scarto quadratico medio (abbreviato con s.q.m) o Deviazione standard
e di seguito indicato con σ

rP
√ n
i=1 (xi − µ)2
σ= σ2 =
n

Lo s.q.m possiede le stesse caratteristiche della varianza ed ha in più il


vantaggio di misurare la variabilità di un fenomeno utilizzando la stessa
lingua dei dati
Indici Sintetici di Variabilità: Varianza
Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie


Pn
i=1 xi
µ=
n

Pn
i=1 (xi − µ)2
σ2 =
n

Indici Sintetici di Variabilità: Varianza


Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie


Pn
i=1 xi
µ=
n

Pn
i=1 (xi − µ)2
σ2 =
n
Indici Sintetici di Variabilità: Varianza
Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie Dati in forma di distribuzione


Pn Pk
i=1 xi j=1 xj × nj
µ= µ = Pk
n
j=1 nj
Pn
i=1 (xi − µ)2
σ2 =
n

Indici Sintetici di Variabilità: Varianza


Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie Dati in forma di distribuzione


Pn Pk
i=1 xi j=1 xj × nj
µ= µ = Pk
n
j=1 nj
Pn
i=1 (xi − µ)2
σ2 =
n
Indici Sintetici di Variabilità: Varianza
Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie Dati in forma di distribuzione


Pn Pk
i=1 xi j=1 xj × nj
µ= µ = Pk
n
j=1 nj
Pn
i=1 (xi − µ)2
σ2 = Pk
− µ)2 × nj
n j=1 (xj
σ2 = Pk
j=1 nj

Indici Sintetici di Variabilità: Varianza


Quando i dati sono espressi sotto forma di distribuzione è necessario
tener conto delle frequenze con cui ciascun valore è stato osservato.
Ricordando che la Varianza è una media di scarti al quadrato allora...

Dati in forma di serie Dati in forma di distribuzione


Pn Pk
i=1 xi j=1 xj × nj
µ= µ = Pk
n
j=1 nj
Pn
i=1 (xi − µ)2
σ2 = Pk
− µ)2 × nj
n j=1 (xj
σ2 = Pk
j=1 nj
Indici Sintetici di Variabilità: Varianza
Distribuzione di frequenza dell’età al primo parto per un collettivo di 40
donne italiane.

Età Frequenza
26 5
27 3
28 7
29 11
30 14
Totale 40

Indici Sintetici di Variabilità: Varianza


Distribuzione di frequenza dell’età al primo parto per un collettivo di 40
donne italiane.

Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40
Indici Sintetici di Variabilità: Varianza
Distribuzione di frequenza dell’età al primo parto per un collettivo di 40
donne italiane.

Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40

(26 − 28.6)2 × 5 + (27 − 28.6)2 × 3 + ... + (30 − 28.6)2 × 14


σ2 = = 1.83 anni2
40

Indici Sintetici di Variabilità: Varianza


Distribuzione di frequenza dell’età al primo parto per un collettivo di 40
donne italiane.

Età Frequenza
26 5
27 3
28 7
29 11
30 14 (26 × 5) + (27 × 3) + ... + (30 × 14)
µ= = 28.6 anni
Totale 40 40

(26 − 28.6)2 × 5 + (27 − 28.6)2 × 3 + ... + (30 − 28.6)2 × 14


σ2 = = 1.83 anni2
40

√ p
σ= σ2 = 1.83 anni2 = 1.35 anni
Esercizio
Distribuzione di frequenza del tempo (in secondi) impiegato per il
completamento di un test di lettura in un colletivo di 20 soggetti
dislessici prima e dopo lo svolgimento di una terapia logopedica.

Durata Prima Dopo


60 6 14
70 4 3
80 4 3
90 6 0
Totale 20 20

Utilizzando gli opportuni indici di posizione e di variabilità confrontare le


due distribuzioni e commentare i risultati ottenuti.

CdL Magistrale in Medicina e Chirurgia


La forma di una distribuzione
Posizione
Variabilità
Forma

Distribuzione simmetrica Distribuzione simmetrica


rettangolare campanulare

Mediana=Media Mediana=Media
2

La forma di una distribuzione


Posizione
Variabilità
Forma

La forma di una distribuzione asimmetrica non è speculare rispetto alla


posizione centrale Per che negativa e positiva
Distribuzione asimmetrica Distribuzione asimmetrica
positiva o a destra (coda negativa o a sinistra (coda
allungata verso destra) allungata verso sinistra)

Mediana<Media Mediana>Media
Il boxplot
Permette di studiare graficamente l’intensità, la variabilità e la forma di una
distribuzione

Costruzione del boxplot:

1. Si determinano i punti: min, Q1, Me, Q3, max


2. Si disegna una scatola di estremi Q1 e Q3 tagliata sulla mediana

Q1 Me Q3
3. Si calcolano i valori a e b:

a = Q1 − 1,5 ( Q3 − Q1 ) ; b = Q3 + 1,5 ( Q3 − Q1 )

4. Si calcolano i valori a e b:
a = massimo(min e a)
Continua …
b = minimo(max e b)
4

Continua …

5. Si disegnano i baffi sui valori a e b

6. I valori esterni all’intervallo [a, b] sono disegnati con dei puntini e


rappresentano “valori anomali”

Modulo2 - Statistica Descrittiva 5


Box-plot e simmetria

3.5 4.0 4.5 5.0 5.5 6.0 6.5

Distribuzione simmetrica

-25 -20 -15 -10 -5

Distribuzione
asimmetrica
negativa

5 10 15 20 25

Distribuzione
asimmetrica
positiva

Modulo2 - Statistica Descrittiva 6

Definizioni Operative vs Definizione Assiomatica della Probabilità

Le definizioni operative forniscono un’interpretazione della


probabilità e indicazioni su come calcolare la probabilità:
• definizione classica
• definizione frequentista
• definizione soggettivista.

La definizione assiomatica non fornisce un’interpretazione


operativa della probabilità. Non definisce, per esempio, le
probabilità in termini di frequenze, ma attraverso una funzione che
deve soddisfare degli assiomi
È una definizione utilizzabile sia nell'ambito di un approccio
oggettivista (classico e frequentista) che nell'ambito di un approccio
soggettivista, purché questi rispettino le proprietà fondamentali,
assunte come assiomi.
CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Definizioni Operative vs calcolo delle probabilità

Le definizioni operative forniscono un metodo per il calcolo delle


probabilità.

Definizione classica:
il rapporto tra il numero dei casi favorevoli all'evento e il numero
dei casi possibili, purché tutti i casi sono egualmente possibili
(Ad esempio, nel lancio della moneta le due facce devono avere
eguale possibilità di presentarsi)

Un esempio dove non si può applicare:


- la probabilità che un nuovo medicinale dia esiti positivi nella cura
di una malattia.

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Definizioni Operative vs calcolo delle probabilità


Definizione frequentista:

Per conoscere la probabilità di un evento si deve ricorrere


all’esperimento. Si eseguono quante più prove possibili sull’evento.

La probabilità di un evento è il limite della frequenza relativa


dell'evento, quando il numero delle prove tende all'infinito.
La frequenza relativa «tende» quindi ad assumere valori prossimi
alla vera probabilità dell’evento all’aumentare delle prove eseguite,
ma non coincide con il valore vero. Essa è quindi una stima della
probabilità dell’evento.

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)
Definizioni Operative vs calcolo delle probabilità
Definizione soggettivista:

La probabilità di un evento è la misura del grado di fiducia che un


individuo razionale, in base alle sue informazioni e alle sue opinioni,
attribuisce al verificarsi dell’evento.

Una definizione più operativa:

La probabilità di un evento è il prezzo che un individuo razionale


ritiene equo pagare per ricevere 1 se l'evento si verifica e 0
altrimenti.

CdL Magistrale in Medicina e Chirurgia, Anno accademico 2017-’18, Corso di Statistica e Informatica (P. Dolce)

Indicatori di performance diagnostica

Corso di Laurea Magistrale in Medicina e Chirurgia


Statistica Medica
Performance Diagnostica
La performance di Afasia
un’indagine diagnostica Diagnosi AAT Sì No Totale
corrisponde + 250 550 800
complessivamente al suo - 150 1450 1600
grado di accuratezza,
ovvero alla “capacità” di Totale 400 2000 2400
identificare come positivi
all’indagine i soggetti
affetti da una data
malattia e come negativi Patologia
all’indagine i soggetti Diagnosi Presente Assente Totale
che, invece, non ne sono
+ Veri Positivi Falsi Positivi Positivi
affetti.
- Falsi Negativi Veri negativi Negativi
Totale Malati Sani Totale

Performance Diagnostica
La performance di Afasia
un’indagine diagnostica Diagnosi AAT Sì No Totale
corrisponde + 250 550 800
complessivamente al suo - 150 1450 1600
grado di accuratezza,
ovvero alla “capacità” di Totale 400 2000 2400
identificare come positivi
all’indagine i soggetti
affetti da una data
malattia e come negativi Patologia
all’indagine i soggetti Diagnosi Presente Assente Totale
che, invece, non ne sono + Veri Positivi Positivi
affetti. - Veri negativi Negativi
Totale Malati Sani Totale

Gold standard
Una procedura diagnostica infallibile è tale se tutti i soggetti sani ricevono una diagnosi
negativa e, contemporaneamente, se in tutti i soggetti malati viene diagnosticata la
patologia. Tale procedura è detta Gold Standard
Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”

Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”

Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Indicatori di Performance
Sensibilità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Sensibile quanto più è - Falsi Negativi Veri negativi Negativi
alta la probabilità che un Totale Malati Sani Totale
soggetto “malato” riceva
una diagnosi “positiva”

Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.

Veri Positivi Veri Positivi


P(Diagnosi + | Patologia presente) = Malati
= Veri Positivi + Falsi Negativi

Indicatori di Performance
Sensibilità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Sensibile quanto più è - 150 1450 1600
alta la probabilità che un Totale 400 2000 2400
soggetto “malato” riceva
una diagnosi “positiva”

Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.

Veri Positivi Veri Positivi


P(Diagnosi + | Patologia presente) = Malati
= Veri Positivi + Falsi Negativi
Indicatori di Performance
Sensibilità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Sensibile quanto più è - 150 1450 1600
alta la probabilità che un Totale 400 2000 2400
soggetto “malato” riceva
una diagnosi “positiva”

Sensibilità
Essa si ottiene calcolando la probabilità che un individuo malato risulti positivo al test.
Veri Positivi Veri Positivi
P(Diagnosi + | Patologia presente) = Malati
= Veri Positivi + Falsi Negativi

Veri Positivi 250


P(Diagnosi AAT + | Afasia Sì) = Malati
= 400
= 0.625

Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”
Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”

Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.

Indicatori di Performance
Specificità Patologia
Una procedura Diagnosi Presente Assente Totale
diagnostica è tanto più + Veri Positivi Falsi Positivi Positivi
Specifica tanto più è alta - Falsi Negativi Veri negativi Negativi
la probabilità che un Totale Malati Sani Totale
soggetto “sano” riceva
una diagnosi “negativa”

Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi
Indicatori di Performance
Specificità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Specifica tanto più è alta - 150 1450 1600
la probabilità che un Totale 400 2000 2400
soggetto “sano” riceva
una diagnosi “negativa”

Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi

Indicatori di Performance
Specificità Afasia
Una procedura Diagnosi AAT Sì No Totale
diagnostica è tanto più + 250 550 800
Specifica tanto più è alta - 150 1450 1600
la probabilità che un Totale 400 2000 2400
soggetto “sano” riceva
una diagnosi “negativa”

Specificità
Essa si ottiene calcolando la probabilità che un individuo sano risulti negativo al test.
Veri Negativi Veri Negativi
P(Diagnosi - | Patologia assente) = Sani
= Veri Negativi + Falsi Positivi

Veri Negativi 1450


P(Diagnosi AAT - | Afasia No) = Sani
= 2000
= 0.725
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)

Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)

Sensibilità e Specificità
Una procedura poco sensibile classificherà come Sani molti soggetti che in realtà
presentano la patologia. Produrrà quindi un numero elevato di Falsi Negativi. Infatti ciò
che manca ad una procedura per raggiungere una sensibilità perfetta, uguale cioè a 1,
può essere ottenuto come :

1 − P(Diagnosi + | Patologia Presente) = P(Diagnosi - | Patologia Presente)


Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)

Sensibilità e Specificità
D’altra parte una procedura poco specifica classificherà come malati molti soggetti che in
realtà non presentano la patologia, producendo di conseguenza un numero elevato di
Falsi Positivi. Infatti :

1 − P(Diagnosi - | Patologia Assente) = P(Diagnosi +| Patologia Assente)

Sensibilità
P(Diagnosi + | Patologia Presente)

Specificità
P(Diagnosi - | Patologia Assente)
Sensibilità
P(Diagnosi + | Patologia Presente)

Specificità
P(Diagnosi - | Patologia Assente)

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 190 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità -
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 12
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12
Specificità - 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12
Specificità - 45 198
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12 157
Specificità - 45 198 243
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.
Sensibilità Oncocerosi
P(Diagnosi + | Patologia Presente) Diagnosi ELISA Sì No Totale
+ 145 12 157
Specificità - 45 198 243
P(Diagnosi - | Patologia Assente) Totale 190 210 400

Esercizio...
L’oncocercosi (o cecità fluviale) è una malattia infettiva causata dall’infestazione da parte
di un nematode filariforme: Onchocerca volvulus. Allo scopo di valutare l’attendibilità di
una nuova procedura diagnostica basata su una metodica ELISA viene condotto uno
studio statistico reclutando 400 soggetti di cui 190 affetti dalla patologia. Dei soggetti sani,
198 vengono correttamente identificati come tali, mentre i soggetti malati che risultano
positivi sono 145. Calcolare Sensibilità e Specificità della procedura.

Sensibilità= 145
190
= 0.76

Specificità= 198
210
= 0.94

Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)
Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)

Sensibilità e Specificità
I due indicatori di Sensibilità e Specificità forniscono indicazioni fondamentali sull’
affidabilità di una procedura diagnostica ma sono del tutto inutili a fini predittivi.
Perché ???

Indicatori di Performance
Sensibilità Specificità
Una procedura diagnostica è tanto più Una procedura diagnostica è tanto più
Sensibile quanto più è alta la Specifica tanto più è alta la probabilità
probabilità che un soggetto “malato” che un soggetto “sano” riceva una
riceva una diagnosi “positiva” diagnosi “negativa”
P(Diagnosi + | Patologia Presente) P(Diagnosi - | Patologia assente)

Sensibilità e Specificità
I due indicatori di Sensibilità e Specificità forniscono indicazioni fondamentali sull’
affidabilità di una procedura diagnostica ma sono del tutto inutili a fini predittivi.
Perché ???
Perchè ai fini predittivi (leggi diagnostici) ciò che interessa conoscere non è la probabilità
che un soggetto sano (risp. malato) risulti negativo (risp. positivo) alla procedura
diagnostica, ma esattamente il contrario...
Indicatori di Performance
Valore Predittivo Patologia
Positivo Diagnosi Presente Assente Totale
Il Valore Predittivo + Veri Positivi Falsi Positivi Positivi
Positivo (VPP) di una - Falsi Negativi Veri negativi Negativi
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura

Indicatori di Performance
Valore Predittivo Patologia
Positivo Diagnosi Presente Assente Totale
Il Valore Predittivo + Veri Positivi Falsi Positivi Positivi
Positivo (VPP) di una - Falsi Negativi Veri negativi Negativi
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura

Valore Predittivo Positivo


Esso si ottiene calcolando la probabilità che un individuo con esito positivo al test risulti
effettivamente malato.
Indicatori di Performance
Valore Predittivo Patologia
Positivo Diagnosi Presente Assente Totale
Il Valore Predittivo + Veri Positivi Falsi Positivi Positivi
Positivo (VPP) di una - Falsi Negativi Veri negativi Negativi
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura

Valore Predittivo Positivo


Esso si ottiene calcolando la probabilità che un individuo con esito positivo al test risulti
effettivamente malato.

Veri Positivi Veri Positivi


P(Patologia presente | Diagnosi +) = Positivi
= Veri Positivi + Falsi Positivi

Indicatori di Performance
Valore Predittivo Afasia
Positivo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Positivo (VPP) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura

Valore Predittivo Positivo


Esso si ottiene calcolando la probabilità che un individuo con esito positivo al test risulti
effettivamente malato.

Veri Positivi Veri Positivi


P(Patologia presente | Diagnosi +) = Positivi
= Veri Positivi + Falsi Positivi
Indicatori di Performance
Valore Predittivo Afasia
Positivo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Positivo (VPP) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
positivo della procedura

Valore Predittivo Positivo


Esso si ottiene calcolando la probabilità che un individuo con esito positivo al test risulti
effettivamente malato.
Veri Positivi Veri Positivi
P(Patologia presente | Diagnosi +) = Positivi
= Veri Positivi + Falsi Positivi
Veri Positivi 250
P(Afasia Sì | Diagnosi AAT +) = Positivi
= 800
= 0.3125

Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura
Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura

Valore Predittivo Negativo


Essa si ottiene calcolando la probabilità che un individuo che risulti negativo al test sia
effettivamente sano.

Indicatori di Performance
Valore Predittivo Patologia
Negativo Diagnosi Presente Assente Totale
+ Veri Positivi Falsi Positivi Positivi
Il Valore Predittivo
- Falsi Negativi Veri negativi Negativi
Negativo (VPN) di una
procedura diagnostica Totale Malati Sani Totale
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura

Valore Predittivo Negativo


Essa si ottiene calcolando la probabilità che un individuo che risulti negativo al test sia
effettivamente sano.
Veri Negativi Veri Negativi
P(Patologia assente | Diagnosi -) = Negativi
= Veri Negativi + Falsi Negativi
Indicatori di Performance
Valore Predittivo Afasia
Negativo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Negativo (VPN) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura

Valore Predittivo Negativo


Essa si ottiene calcolando la probabilità che un individuo che risulti negativo al test sia
effettivamente sano.
Veri Negativi Veri Negativi
P(Patologia assente | Diagnosi -) = Negativi
= Veri Negativi + Falsi Negativi

Indicatori di Performance
Valore Predittivo Afasia
Negativo Diagnosi AAT Sì No Totale
+ 250 550 800
Il Valore Predittivo
- 150 1450 1600
Negativo (VPN) di una
procedura diagnostica Totale 400 2000 2400
misura quanto è
affidabile, in termini
diagnostici, un esito
negativo della procedura

Valore Predittivo Negativo


Essa si ottiene calcolando la probabilità che un individuo che risulti negativo al test sia
effettivamente sano.
Veri Negativi Veri Negativi
P(Patologia assente | Diagnosi -) = Negativi
= Veri Negativi + Falsi Negativi

Veri Negativi 1450


P(Afasia No | Diagnosi AAT -) = Negativi
= 1600
= 0.725
Indicatori di Performance

Il passaggio dai valori di Sensibilità e Specificità


a quelli di Valori Predittivi Positivi e Negativi si
realizza ricorrendo al teorema di Bayes

CdL Magistrale in Medicina e Chirurgia


Alcuni richiami
Patologia Patologia
Sì No
Veri Falsi
Test +
Positivi Positivi
Falsi Veri
Test -
Negativi Negativi

Sensibilità = p(Test Positivo| Patologia Sì ) VP/(VP+FN)

Specificità=p(Test Negativo | Patologia No) VN/(FP+VN)

Valore PP=p(Patologia Sì | Test Positivo) VP/(VP+FP)

Valore PN=p(Patologia No | Test Negativo) VN/(FN+VN)

CURVE ROC
Diametro mm Sani Malati
5.0 4 0
Distribuzione di frequenza del diametro
5.1 6 0
5.2 2 0 esterno dell’appendice vermiforme in
5.3 6 1 un collettivo di 314 soggetti classificati
5.4 13 0 in base alla presenza o assenza di un
5.5 11 1 processo di infiammazione.
5.6 20 1
5.7 29 2
5.8 18 8
5.9 14 3
6.0 13 6 Qualora si decida di utilizzare il valore
6.1 7 14 di 6mm (incluso) come cut-off per la
6.2 3 12
6.3 5 8 diagnosi di appendicite calcolare
6.4 2 8 sensibilità e specificità della procedura
6.5 2 9 diagnostica. Ripetere la procedura
6.6 1 15 utilizzando un cut-off pari a 6.5mm
6.7 0 18
6.8 0 19
(incluso).
6.9 0 21
7.0 0 12
Totale 156 158
35

30
Malati

Sani
25

20

15

10

0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0

35

Diagnosi Negativa Diagnosi Positiva


30
Malati Cut-off=6mm
Sani Sensibilità=0.90
25

20

Specificità=0.79
15

10

0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
35

Diagnosi Negativa Diagnosi Positiva


30
Malati Cut-off=6.5mm
Sani Sensibilità=0.54
25

20

Specificità=0.99
15

10

0
5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0

CURVE ROC
Curva ROC

1.00
Al variare del valore di cut- 0.90
off si modificano i valori di 0.80 Per assicurarmi un
sensibilità e specificità di 0.70 valore di sensibilità
una procedura diagnostica. del 90% devo
0.60
Le curve ROC consentono
Sensibilità

accettare una
di valutare l’attendibilità
0.50
percentuale di falsi
del test al variare del punto 0.40
positivi del 21%
di taglio 0.30

0.20

0.10
Probabilità di un vero positivo
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità

Probabilità di un falso positivo


CURVE ROC
Curva ROC

1.00
Le curve ROC possono 0.90
essere utilizzate per
confrontare l’attendibilità
0.80

di diverse procedure 0.70

diagnostiche così da 0.60

Sensibilità
scegliere quella ottimale 0.50

0.40

0.30

0.20
Quale delle tre procedure 0.10
è più attendibile???
0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità

CURVE ROC
Curva ROC

1.00

0.90
La procedura è 0.80
equivalente al lancio di
0.70
una monetina dal
momento che la 0.60
Sensibilità

probabilità di un vero 0.50


positivo è uguale a 0.40
quella di un falso
0.30
positivo. Se esce testa
dichiaro il soggetto 0.20

malato altrimenti sano. 0.10

0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
CURVE ROC
Curva ROC

1.00

0.90
La procedura è ottimale. 0.80
Consente di ottenere
0.70
una sensibilità pari ad 1
senza correre il rischio di 0.60

Sensibilità
un falso positivo. 0.50

0.40

0.30

0.20

0.10

0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità

CURVE ROC
Curva ROC

1.00

0.90
Tra i due casi estremi si 0.80
collocano tutte le
0.70
situazioni reali. Tanto più
la curva ROC di un test 0.60
Sensibilità

si avvicina all’estremo 0.50


superiore tanto più la 0.40
procedura è affidabile.
0.30

0.20

0.10

0.00
0.00 0.20 0.40 0.60 0.80 1.00
1- Specificità
JUST FOR FUN

https://kennis-
research.shinyapps.io/ROC-Curves/

Jpn J Clin Oncol 2000;30(8)337–342


Teorema di Bayes
??? Problema diretto: date due urne
contenenti in misura nota biglie
di colore arancione e verde,
quale è la probabilità di estrarre
una biglia di colore arancione
dall’una o dall’altra?

Problema inverso: avendo


osservato l’estrazione di una
biglia di colore arancione, quale
è la probabilità che essa sia stata
estratta da un’urna piuttosto che
E1 E2 dall’altra?
??? ???

Teorema di Bayes
Sintomo
???
Problema diretto
So che un paziente presenta una determinata
Patologia
patologia e mi domando qual è la probabilità di
osservare uno specifico quadro sintomatologico

Sintomo

Problema inverso
Osservo in un paziente uno
E1 E2 specifico quadro
Patologia 2
sintomatologico e mi
Patologia 1 interrogo su quale patologia
??? ??? sia la più verosimile
Teorema di Bayes

 In termini più generali il teorema di bayes consente di


calcolare la probabilità di una ipotesi data l’evidenza,
una volta che sia nota la probabilità dell’evidenza
data l’ipotesi e la probabilità a priori dell’ipotesi.

H= Ipotesi Sindrome Epilettica

E= Evidenza Positività al test diagnostico

P(H)=Probabilità a Priori dell’ipotesi H

P(E|H)=Verosimiglianza dell’evidenza data l’ipotesi H

P(H|E)=Probabilità a Posteriori dell’ipotesi H data l’evidenza E IGNOTA

Teorema di Bayes
P(H1  E) Definizione di Probabilità
P(H1|E)=
P(E) Condizionata

P(H1  E)=P(H1|E)*P(E)

P(H1  E)=P(E  H1 )=P(H1|E)*P(E)=P(E|H1 )*P(H1 )

H1 H2
P(E | H1 )P(H1 )
P(H1|E)=
P(E)

P(E)=P(E  H1 ) + P(E  H2 )
Teorema di Bayes
H1 H2

P(E  H1 )=P(E|H1 )*P(H1 )


P(E)=P(E  H1 ) + P(E  H2 )
P(E  H2 )=P(E|H2 )*P(H2 )

P(E)=P(E | H1 )*P(H1 ) + P(E | H2 )*P(H2 )

Teorema di Bayes

P(E | H1 )P(H1 )
P(H1  E)
P(H1|E)=
P(E)
P(E | H1 )*P(H1 ) + P(E | H2 )*P(H2 )

P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
Teorema di Bayes
P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
E = Positività all’elettroencefalogramma (EEG)
H1 = Sindrome Epilettica
H2 =¬H1 = Assenza di Sindrome Epilettica

P(H1 ) = Probabilità a priori della sindrome epilettica


P(H2 )=P(H1 ) = 1 − P(H1 )
P(E | H1 ) = Sensibilità del test
P(E | H2 )=1-P(E|H2 ) = 1- Specificità

P(H1 | E) = Probabilità a posteriore della sindrome epilettica

Teorema di Bayes
P(E | H1 )P(H1 )
P(H1|E)=
P(E | H1 ) * P(H1 ) + P(E | H 2 ) * P(H 2 )
E = Positività all’elettroencefalogramma (EEG)
H1 = Sindrome Epilettica
H2 =¬H1 = Assenza di Sindrome Epilettica

P(H1 ) = Probabilità a priori della sindrome epilettica =0.12

P(H2 )=P(H1 ) = 1 − P(H1 ) =1-0.12=0.88

P(E | H1 ) = Sensibilità del test =0.93

P(E | H2 )=1-P(E|H2 ) = 1- Specificità =1-0.94=0.06

P(H1 | E) = Probabilità a posteriore della sindrome epilettica = 0.68


Esercizio su un’applicazione del
Teorema di Bayes

Il tasso di diffusione di una patologia è pari


all’1%. Un test di laboratorio impiegato per la
rilevazione precoce della malattia fornisce esito
positivo nel 99% dei soggetti malati e nel 3% dei
soggetti sani. Supponiamo che il test dia risultato
positivo su un individuo scelto a caso, qual è la
probabilità che l’individuo sia affetto dalla
patologia?

Soluzione all’esercizio sul Teorema di


Bayes
ODDS e ODDS CONDIZONALI

Corso di Laurea Magistrale in


Medicina e Chirurgia
Statistica Medica

Odds e Odds Condizionali

 Il processo di aggiornamento della


conoscenza, formalizzato nel Teorema
di Bayes, può essere descritto
utilizzando il linguaggio dell Odds
Odd>1 → La probabilità che l’evento si verifichi è
maggiore di quella che non si verifichi

P (A) P (A)
ODD ( A ) = = Odd=1 → La probabilità che l’evento si verifichi è
1- P ( A ) P (ØA ) uguale a quella che non si verifichi

Odd<1 → La probabilità che l’evento si verifichi è


minore di quella che non si verifichi
Odds e Probabilità
O(A)
11
P (A)
O (A ) = 10
1- P ( A )
9

O ( A ) (1- P ( A )) = P ( A ) 8

O ( A ) -O ( A )P ( A ) = P ( A ) 6

O ( A ) = O ( A )P ( A ) + P ( A ) 4

3
O ( A ) = P ( A ) (1+ O ( A ))
2

1
O (A)
= P (A )
1+ O ( A ) 0
0 0,2 0,4 0,6 0,8 1

P(A)

Odds Condizionali
 Le odds condizionali misurano le odds
di un evento (ipotesi) condizionate al
verificarsi di una data condizione
(Evidenza).
P (H | E ) P (H | E )
ODD ( H | E ) = =
1- P ( H | E ) P (ØH | E )

P (E Ç H ) P (E | H )P (H )
P (H | E ) = =
P (E ) P (E )

P ( E ÇØH ) P ( E |ØH ) P (ØH )


P (ØH | E ) = =
P (E ) P (E )
Odds Condizionali
P (H | E ) P (H | E )
ODD ( H | E ) = =
1- P ( H | E ) P (ØH | E )

P (E | H )P ( H )
P (H | E ) =
P (E )
P ( E |ØH ) P (ØH )
P (ØH | E ) =
P (E )

P (E | H )P ( H ) P (E | H )
O (H | E ) = = O (H )
P ( E |ØH ) P (ØH ) P ( E |ØH )

Odds Condizionali

P (E | H )
O (H | E ) = O (H )
P ( E |ØH )

Odds a posteriori Odds a priori

Rapporto di Verosimiglianza
Likelihood Ratio
Fattore Bayesiano
Odds Condizionali

 Se la presenza della patologia rappresenta


l’ipotesi H e il risultato positivo della procedura
diagnostica l’evidenza E si ottiene:

P (T + | M )
O ( M | T +) = O (M )
P (T + |ØM )
P (T + | M )
O ( M | T +) = O (M )
1- P (T - |ØM )
Sensibilità
O ( M | T +) = O (M )
1- Specificità

Likelihood Ratio

Sensibilità
LR =
1-Specificità
Il LR è un rapporto tra due probabilità e di conseguenza è un
numero sempre maggiore di 0

Esso indica di quanto è più (meno) probabile che un test


diagnostico per una persona “malata” sia positivo rispetto al fatto
che un test diagnostico di una persona “sana” sia positivo

Esempio: sensibilità=0.83, specificità=0.93 -> LR=0.83/0.07≈12


Likelihood Ratio
Nella tabella seguente è riportata la distribuzione di un collettivo di
232 soggetti arruolati in uno studio volto a valutare l’efficacia di
due differenti procedure diagnostiche per la diagnosi di malaria. La
presenza effettiva della patologia è stata stabilita attraverso un
gold standard.

Likelihood Ratio

47 49
Sensibilità Optimal= = 0.887 Sensibilità = 0.924
53 ICT=
53
Specificità Optimal= 178 = 0.994 Specificità 175
ICT= = 0.978
179 179
0.887 0.924
LROptimal= =147.8 LR = 42
1- 0.994 ICT=
1- 0.978
Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.9
LR=0.05

Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.9
LR=2
Nomogramma
Il nomogramma è uno strumento
grafico che consente di evitare i
calcoli contenuti nell’espressione
matematica del teorema di Bayes.
Esso consente di ottenere la
probabilità post-test una volta che
sia nota la probabilità pre-test e il
Likelihood Ratio
Il valore di probabilità post-test si
ottiene congiungendo con un
segmento i valori della probabilità
pre-test e del Likelihood Ratio e
proseguendo il segmento fino a
raggiungere l’asse della probabilità
post-test.
Esempio
Probabilità Pre-test=0.05
LR=10

Disegni Sperimentali e Misure di Associazione

Corso di Laurea Magistrale in Medicina e Chirurgia


Statistica Medica
Introduzione
Uno dei principali obbiettivi conoscitivi in campo medico consiste nel valutare la presenza
ed eventualmente l’intensità della relazione tra un fattore di esposizione ed un
evento di interesse

Fattore di Esposizione Evento di Interesse


Qualunque caratteristica che può Qualunque end-point di natura medico
avere un potenziale effetto sulla salute sanitaria che si intende esaminare

Complicanze ostetriche Schizofrenia

Stati epilettici non convulsivi Coma

Introduzione
La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Studi Sperimentali Studi Osservazionali


(randomized controlled trial - RCT) (Studi di Coorte Studi Caso Controllo)
Studi RCT

Arruolamento

Randomizzazione
Esposizione Sì Esposizione No
Gruppo di Intervento Gruppo di Controllo

Evento Sì Evento No Evento Sì Evento No

tempo

Studi RCT
Il processo di randomizzazione evita che l’attribuzione dei soggetti ai
due bracci (intervento e controllo) possa essere viziata da scelte
soggettive dei ricercatori.
I due gruppi devono infatti essere simili rispetto a potenziali variabili di
confondimento poiché solo così le differenze osservate sono attribuibili
alla presenza o assenza del fattore di esposizione.

Sebbene gli RCT rappresentino lo standard di riferimento dei disegni


sperimentali sono spesso irrealizzabili per questioni di natura etica.

L’alternativa è rappresentata dagli studi osservazionali nei quali


l’esposizione non è un elemento sotto il controllo del ricercatore ma un
dato solo osservabile
Studi Osservazionali di Coorte

Studi di Coorte
Un gruppo di soggetti dei quali è nota la storia di esposizione viene seguita
prospetticamente per valutare l’insorgenza dell’evento.

Studi Osservazionali di Coorte

Arruolamento

Osservazione
Esposizione Sì Esposizione No

Evento Sì Evento No Evento Sì Evento No

tempo

Pros Cons
Meno soggetti ad errori sistematici Dispendiosi in termini di costo e di tempo
Possibilità di stimare l’incidenza della malattia Non adatti nelle situazioni in cui la
(numero di nuovi casi in un dato intervallo di tempo) probabilità di sviluppare la malattia è bassa
(malattie rare)
Studi Osservazionali Caso Controllo

Studi Caso Controllo


E’ nota l’insorgenza o meno dell’end-point e retrospettivamente vengono raccolte
informazioni sull’esposizione.

Studi Osservazionali Caso Controllo

Arruolamento

Osservazione
Evento Sì Evento No
Casi Controlli

Esposizione Esposizione Esposizione Esposizione


Sì No Sì No
tempo

Pros Cons
Adatti nelle situazioni in cui la probabilità di Risultati meno affidabili rispetto agli studi
sviluppare la malattia è bassa (malattie rare) prospettici
Adatti quando l’intervallo che separa l’esposizione
dall’insorgenza dell’evento è molto lungo
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì)

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c

Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c

Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c

Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No)

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
Probabilità che l’evento si verifichi in presenza del fattore di esposizione = P(Evento Sì | Esposizione Sì) =
a+c

b
Probabilità che l’evento si verifichi in assenza del fattore di esposizione = P(Evento Sì | Esposizione No) =
b+d
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

a
P(Evento Sì | Esposizione Sì) a+c
RR = =
P(Evento Sì | Esposizione No) b
b+d

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

0 ≤ RR < 1 L’esposizione è un fattore di protezione


a
P(Evento Sì | Esposizione Sì) a+c
RR = =
P(Evento Sì | Esposizione No) b
b+d

In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

0 ≤ RR < 1 L’esposizione è un fattore di protezione


a
P(Evento Sì | Esposizione Sì) a+c RR = 1 Esposizione ed Evento sono indipendenti
RR = =
P(Evento Sì | Esposizione No) b
b+d

In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞

Rischio relativo
Il rischio relativo è una misura di associazione che deriva dal confronto delle probabilità
che l’evento di interesse si verifichi (rischio) nelle due differenti condizioni di assenza o
presenza di esposizione (relativo)

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

0 ≤ RR < 1 L’esposizione è un fattore di protezione


a
P(Evento Sì | Esposizione Sì) a+c RR = 1 Esposizione ed Evento sono indipendenti
RR = =
P(Evento Sì | Esposizione No) b
b+d 1 < RR ≤ +∞ L’esposizione è un fattore di rischio

In quanto rapporto di due probabilità, il RR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

E’ possibile sostenere che l’Apnea Ostruttiva del Sonno sia responsabile dell’insorgenza
di aritmia cardiaca ?
Disegno prospettico (Studio di Coorte)
Fattore di Esposizione: Presenza di OSAS (Obstructive Sleep Apnea Syndrome).
Evento di interesse: Aritmia
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì)

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì)


Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì)

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No)

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No)


Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No)

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942
Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942

0.14
RR = = 1.4
0.10

Rischio relativo
Un esempio...
Distribuzione di frequenza di 2085 soggetti classificati in base alla presenza di apnea
ostruttiva del sonno ed all’insorgenza di aritmia cardiaca

Esposizione
Evento OSAS No OSAS Sì Totale
Aritmia Sì 94 160 254
Aritmia No 848 983 1831
Totale 942 1143 2085

160
P(Evento Sì | Esposizione Sì) =P(Aritmia Sì | OSAS Sì) = = 0.14
1143

94
P(Evento Sì | Esposizione No) =P(Aritmia Sì | OSAS No) = = 0.10
942

0.14 I soggetti che soffrono di Apnea ostruttiva del sonno presentano un rischio di Aritmia cardiaca circa
RR = = 1.4 una volta e mezzo più grande dei soggetti senza OSAS
0.10
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

Esempi
L’odd dell’uscita di testa nel lancio di una moneta (non truccata) :
E= Uscita di testa
P(E)= 0.5
1-P(E)= 0.5
P(E) 0.5
Odd(E)= = =1
1 − P(E) 0.5

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

Esempi
L’odd che esca un numero strettamente maggiore di 4 lanciando un dado:
E= Uscita di un numero > 4, {5, 6}
2
P(E)= 6
= 0.33
4
1-P(E)= 6
= 0.66
P(E) 0.33
Odd(E)= = = 0.5
1 − P(E) 0.66
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

0 ≤ Odd < 1
E’ meno probabile che l’evento si
verifichi piuttosto che non si verifichi

In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

0 ≤ Odd < 1 Odd = 1


E’ meno probabile che l’evento si La probabilità che l’evento si verifichi è
verifichi piuttosto che non si verifichi uguale a quella che non si verifichi

In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

L’Odd di un evento è il rapporto tra la probabilità


che l’evento si verifichi e la probabilità che l’evento
non si verifichi:

P(E)
Odd(E) =
1 − P(E)

0 ≤ Odd < 1 Odd = 1 1 < Odd ≤ +∞


E’ meno probabile che l’evento si La probabilità che l’evento si verifichi è E’ più probabile che l’evento si verifichi
verifichi piuttosto che non si verifichi uguale a quella che non si verifichi piuttosto che non si verifichi

In quanto rapporto di due probabilità, l’Odd è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Esempi
L’odd di Evento Sì:
E= Evento Sì
a+b c+d
P(Evento Sì)= n
; 1-P(E)=P(Evento No)= n
a+b
P(Evento Sì) n a+b
Odd(Evento Sì)= = c+d
= c+d
P(Evento No) n
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
Odd(Evento Sì | Esposizione Sì) =

Odd(Evento Sì | Esposizione No) =


Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì)

Odd(Evento Sì | Esposizione No) =

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì)

Odd(Evento Sì | Esposizione No) =


Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c)
Odd(Evento Sì | Esposizione Sì) = =
P(Evento No | Esposizione Sì) c/(a + c)

Odd(Evento Sì | Esposizione No) =

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

Odd(Evento Sì | Esposizione No) =


Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No)


Odd(Evento Sì | Esposizione No) = =
P(Evento No | Esposizione No)

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d)


Odd(Evento Sì | Esposizione No) = =
P(Evento No | Esposizione No)
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d)


Odd(Evento Sì | Esposizione No) = =
P(Evento No | Esposizione No) d/(b + d)

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d) b


Odd(Evento Sì | Esposizione No) = = =
P(Evento No | Esposizione No) d/(b + d) d
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d) b


Odd(Evento Sì | Esposizione No) = = =
P(Evento No | Esposizione No) d/(b + d) d

Odd(Evento Sì | Esposizione Sì)


Odds Ratio =
Odd(Evento Sì | Esposizione No)

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d) b


Odd(Evento Sì | Esposizione No) = = =
P(Evento No | Esposizione No) d/(b + d) d

Odd(Evento Sì | Esposizione Sì) a/c


Odds Ratio = =
Odd(Evento Sì | Esposizione No) b/d
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati
Esposizione
Evento Sì No Totale
Sì a b a+b
No c d c+d
Totale a+c b+d n

Odds Condizionati
P(Evento Sì | Esposizione Sì) a/(a + c) a
Odd(Evento Sì | Esposizione Sì) = = =
P(Evento No | Esposizione Sì) c/(a + c) c

P(Evento Sì | Esposizione No) b/(b + d) b


Odd(Evento Sì | Esposizione No) = = =
P(Evento No | Esposizione No) d/(b + d) d

Odd(Evento Sì | Esposizione Sì) a/c ad


Odds Ratio = = =
Odd(Evento Sì | Esposizione No) b/d bc

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

a/c ad
Odds Ratio = =
b/d bc
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

a/c ad
Odds Ratio = =
b/d bc

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

a/c ad
Odds Ratio = =
b/d bc
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

a/c ad
Odds Ratio = =
b/d bc

In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

0 ≤ OR < 1 L’esposizione è un fattore di protezione

a/c ad
Odds Ratio = =
b/d bc

In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

0 ≤ OR < 1 L’esposizione è un fattore di protezione

a/c ad OR = 1 Esposizione ed Evento sono indipendenti


Odds Ratio = =
b/d bc

In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.

Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

0 ≤ OR < 1 L’esposizione è un fattore di protezione

a/c ad OR = 1 Esposizione ed Evento sono indipendenti


Odds Ratio = =
b/d bc
1 < OR ≤ +∞ L’esposizione è un fattore di rischio

In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo.
Odds ratio
L’Odds Ratio è una misura di associazione che deriva dal confronto delle odds dell’evento
nelle due differenti condizioni di assenza o presenza del fattore di esposizione

La struttura dati L’ Odds Ratio è anche noto come


Rapporto de prodotti crociati
Esposizione
perché può essere calcolato come
Evento Sì No Totale rapporto dei prodotti dei termini
Sì a b a+b lungo le due diagonali incrociate
No c d c+d della tabella
Totale b+d n

0 ≤ OR < 1 L’esposizione è un fattore di protezione

a/c ad OR = 1 Esposizione ed Evento sono indipendenti


Odds Ratio = =
b/d bc
1 < OR ≤ +∞ L’esposizione è un fattore di rischio

In quanto rapporto di due odds, l’OR è un indicatore che può assumere tutti gli infiniti valori tra 0 e +∞. La sua
interpretazione è analoga a quella del Rischio relativo. E’ però fondamentale, ai fini della sua interpretazione, ricordare il
modo con cui esso è calcolato...

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

E’ possibile sostenere che il verificarsi di complicanze ostetriche durante il parto sia


responsabile dell’insorgenza di schizofrenia in età adulta ?
Disegno retrospettivo (Studio Caso Controllo)
Fattore di Esposizione: Complicanze Ostetriche
Evento di interesse: Schizofrenia

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì)


Odd(Schizofrenia Sì | Complicanze Sì) = =
P(Schizofrenia No | Complicanze Sì)
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì)


Odd(Schizofrenia Sì | Complicanze Sì) = =
P(Schizofrenia No | Complicanze Sì)

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234


Odd(Schizofrenia Sì | Complicanze Sì) = =
P(Schizofrenia No | Complicanze Sì)
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234


Odd(Schizofrenia Sì | Complicanze Sì) = =
P(Schizofrenia No | Complicanze Sì)

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234


Odd(Schizofrenia Sì | Complicanze Sì) = =
P(Schizofrenia No | Complicanze Sì) 226/234
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

In presenza di complicanze ostetriche la probabilità che un soggetto presenti schizofrenia in età adulta è in un rapporto
di 35 a mille (0.035) rispetto alla probabilità che invece non insorga schizofrenia.
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No)


Odd(Schizofrenia Sì | Complicanze No) = =
P(Schizofrenia No | Complicanze No)

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No)


Odd(Schizofrenia Sì | Complicanze No) = =
P(Schizofrenia No | Complicanze No)
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494


Odd(Schizofrenia Sì | Complicanze No) = =
P(Schizofrenia No | Complicanze No)

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494


Odd(Schizofrenia Sì | Complicanze No) = =
P(Schizofrenia No | Complicanze No)
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494


Odd(Schizofrenia Sì | Complicanze No) = =
P(Schizofrenia No | Complicanze No) 483/494

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494 11


Odd(Schizofrenia Sì | Complicanze No) = = = =0.023
P(Schizofrenia No | Complicanze No) 483/494 483
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494 11


Odd(Schizofrenia Sì | Complicanze No) = = = =0.023
P(Schizofrenia No | Complicanze No) 483/494 483

In assenza di complicanze ostetriche la probabilità che un soggetto presenti schizofrenia in età adulta è in un rapporto di
23 a mille (0.023) rispetto alla probabilità che invece non insorga schizofrenia.

Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494 11


Odd(Schizofrenia Sì | Complicanze No) = = = =0.023
P(Schizofrenia No | Complicanze No) 483/494 483

0.035
OR = = 1.52
0.023
Odds ratio
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base allo sviluppo di schizofrenia
in età adulta ed alla insorgenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

P(Schizofrenia Sì | Complicanze Sì) 8/234 8


Odd(Schizofrenia Sì | Complicanze Sì) = = = =0.035
P(Schizofrenia No | Complicanze Sì) 226/234 226

P(Schizofrenia Sì | Complicanze No) 11/494 11


Odd(Schizofrenia Sì | Complicanze No) = = = =0.023
P(Schizofrenia No | Complicanze No) 483/494 483

0.035 L’odd della Schizofrenia in presenza di complicanze ostetrica è una volta e mezzo l’odd di
OR = = 1.52 schizofrenia in assenza di complicanze ostetriche che rappresenta quindi un fattore di
0.023
rischio rispetto all’insorgenza di schizofrenia in età adulta

Odds ratio e Rischio Relativo


Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

19
P(Schizofrenia)= ≈ 0.026
728

Odds ratio e Rischio Relativo


Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002
OR = = 1.52,
0.003
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002
OR = = 1.52, RR =
0.003

Odds ratio e Rischio Relativo


Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002 P(Schizofrenia Sì | Complicanze Sì) 8/234


OR = = 1.52, RR = =
0.003
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002 P(Schizofrenia Sì | Complicanze Sì) 8/234


OR = = 1.52, RR = =
0.003 P(Schizofrenia Sì | Complicanze No) 11/494

Odds ratio e Rischio Relativo


Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002 P(Schizofrenia Sì | Complicanze Sì) 8/234


OR = = 1.52, RR = = = 1.53
0.003 P(Schizofrenia Sì | Complicanze No) 11/494
Odds ratio e Rischio Relativo
Un esempio...
Distribuzione di frequenza di 728 soggetti classificati in base alla insorgenza di
schizofrenia ed alla presenza di complicanze ostetriche durante il parto.

Complicanze Schizofrenia
Ostetriche Sì No Totale
Sì 8 226 234
No 11 483 494
Totale 19 709 728

Qualora l’evento considerato è molto raro (ha una bassa probabilità di presentarsi) le due
misure tendono a coincidere e si può utilizzare il Rischio Relativo (la cui interpretazione è
più agevole) anche in caso di studi retrospettivi.

0.002 P(Schizofrenia Sì | Complicanze Sì) 8/234


OR = = 1.52, RR = = = 1.53
0.003 P(Schizofrenia Sì | Complicanze No) 11/494

Odds ratio
Esercizio...
In una ricerca scientifica si intende valutare l’associazione tra lo svolgimento di servizio
militare e l’insorgenza di indebolimento dell’udito. A tale scopo 200 soggetti di età
compresa tra i 20 ed i 25 anni in servizio militare volontario e 140 adulti della stessa fascia
di età sono inclusi nello studio al termine del quale si osserva che 15 militari presentano
un indebolimento dell’udito che è invece presente in solo 2 dei soggetti che non avevano
svolto il servizio militare.
1 Di che tipo di studio si tratta (Caso Controllo, Coorte, RCT)
2 Quale tra le due dimensioni considerate è il fattore di esposizione e quale l’evento di
interesse?
3 Utilizzando l’indice opportuno, misurare l’associazione tra le due dimensioni e
commentare i risultati.
Teoria delle Variabili Casuali

Corso di Laurea Magistrale in Medicina e


Chirurgia
Statistica Medica

Statistica Descrittiva e
Inferenziale
La Statistica descrittiva si
“limita” a descrivere,
Dati = attraverso opportuni
Elaborazione Risultati
Popolazione indicatori, le caratteristiche
osservate sugli individui
oggetto di indagine
Statistica Descrittiva e
Inferenziale

L’obiettivo ultimo
Dati = dell’Inferenza Statistica
Popolazione (dal latino Inferre, portare
dentro) è quello di ottenere
informazioni su una
popolazione a partire dai
dati raccolti attraverso una
indagine campionaria
Dati =
Campione Elaborazione Risultati

Il “salto logico” dal particolare (campione) all’universale (popolazione) ha


un prezzo necessario rappresentato dal margine di incertezza associato ai
risultati ottenuti…

Principi di Inferenza Statistica

 Un Parametro Statistico è un valore numerico che


descrive una caratteristica di una (o più)
popolazione (popolazioni) di interesse e che
deriva da una opportuna sintesi dei valori assunti
da una (o più) variabile (variabili) nelle unità
statistiche che la compongono
Il tempo medio di guarigione a seguito dell’assunzione del
farmaco “F” in tutti i soggetti di origine caucasica affetti dalla
patologia “P”
La differente prevalenza dell’HIV nella popolazione italiana
maschile e femminile
I principali parametri e la loro
notazione

 Media di una variabile numerica X


◼ μX
 Varianza di una variabile numerica X
◼ σ2X
 Proporzione di casi con una determinata
caratteristica qualitativa
◼ π
 Rischio Relativo
◼ RR
 Odds Ratio
◼ OR
 …

Popolazione e Campioni
 Un parametro statistico è un indicatore sintetico
che, per definizione, è riferito ad una intera
popolazione
 L’unico modo per conoscere esattamente il valore
assunto da un parametro è quello di condurre
un’indagine esaustiva
 In quasi tutte le scienze. le uniche indagini
realizzabili sono campionarie. L’unica possibilità è
quindi quella sfruttare le informazioni “contenute”
nel campione per risalire
Principi di Inferenza Statistica

 Un processo di Inferenza Statistica può essere


idealmente suddiviso in tre momenti distinti.
1. Stima Puntuale
2. Stima per Intervalli (Intervalli di Confidenza)
3. Verifica delle Ipotesi
 Con i primi due si sfruttano le informazioni
campionarie per assegnare al parametro un solo
(stima puntuale) o un intervallo (Stima per
Intervalli) di plausibili valori. Con il terzo le
informazioni campionarie sono utilizzate per
accettare o meno una congettura (ipotesi) sul
valore assunto dal parametro

Stima Puntuale

 La Stima Puntuale di un parametro statistico può


essere considerata come come la sua immagine
riflessa nello specifico campione osservato.

➢ Metodo dei Momenti


➢ Metodo della Massima Verosimiglianza
➢ Metodo dei Minimi quadrati
➢ Metodo Bayesiano

 Nel caso di problemi “banali”, i diversi metodi di


stima producono risultati simili che possono essere
descritti attraverso il principio della stima naturale.
Stima puntuale

 Il principio della Stima Naturale (plug-in principle)


consiste nello stimare un parametro applicando ai
dati campionari la stessa sintesi che lo definisce
nella popolazione di riferimento
Esempi:

Per stimare la media che la variabile numerica X


assume in una popolazione di riferimento si calcola
la media dei soli dati campionari

Per stimare la proporzione di soggetti con una


determinata caratteristica qualitativa nell’intera
popolazione di riferimento divido il numero di
soggetti del campione con quella caratteristica per
la numerosità campionaria.

Stima Puntuale
Malati (200) Sani (1400)

Prevalenza (parametro) della patologia


=
200/1600= 0.125 (12.5%)
Ipotetica popolazione
di riferimento

Malati (15) Sani (85)


Prevalenza campionaria (stima) della patologia
=
15/100= 0.15 (15%)

Ipotetico campione (n=100)


estratto dalla popolazione
di riferimento
Stima Puntuale
Malati (200) Sani (1400)

Prevalenza (parametro) della patologia


=
200/1600= 0.125 (12.5%)
Ipotetica popolazione
di riferimento

Malati (75) Sani (25)


Prevalenza campionaria (stima) della patologia
=
75/100= 0.75 (75%)

Ipotetico campione (n=100)


estratto dalla popolazione
di riferimento

Stima Puntuale
Malati (200) Sani (1400)

Prevalenza (parametro) della patologia


=
200/1600= 0.125 (12.5%)
Ipotetica popolazione
di riferimento

Malati (0) Sani (100)


Prevalenza campionaria (stima) della patologia
=
0/100= 0.00 (0%)

Ipotetico campione (n=100)


estratto dalla popolazione
di riferimento
Variabili Casuali e Inferenza

 La teoria della Probabilità e delle


Variabili Casuali costituisce l’anello di
congiunzione tra il livello della
Popolazione e quello del Campione.
Essa è cioè indispensabile per
ragionare “scientificamente”
sull’incertezza che caratterizza ogni
procedura inferenziale

Le variabili casuali
Una variabile casuale (V.C) è una corrispondenza tra gli eventi
dello spazio campione e l’insieme dei numeri reali.

Esperimento: lancio di tre monete non truccate

V.C = Numero di “Teste”



TTT X
TTC 3
TCT 2
CTT 1
TCC 0
CTC
CCT
CCC
Le variabili casuali
Ad una variabile casuale è poi associata una regola che stabilisce
la corrispondenza tra i valori che la V.C. assume e una misura di
probabilità. A tale riguardo è però opportuno distinguere tra:

Variabili Casuali Discrete

Assumono un insieme numerabile, finito o infinito, di valori


x1, x2, …, xn, con probabilità p1, p2, …, pn

Variabili Casuali Continue

Assumono un numero infinito (non numerabile) di valori compresi in


un intervallo di ampiezza finita o infinita.

Le variabili casuali discrete

Ad una variabile casuale discreta è possibile associare a


ciascun valore del suo supporto la rispettiva probabilità. Tali
valori di probabilità definiscono la sua Legge di probabilità

 X P(x)
TTT 3 ⅛
X P(x)
TTC 2 ⅛ P(x)
0 ⅛
TCT 2 ⅛
1 ⅜
CTT 2 ⅛
2 ⅜
TCC 1 ⅛
3 ⅛
CTC 1 ⅛ 0 1 2 3 X
CCT 1 ⅛
CCC 0 ⅛
Variabili casuali discrete
Così come accade per le variabili statistiche anche per le variabili casuali
è possibile calcolare il valore medio e la varianza di una V.C. discreta X.
Nella costruzione di questi indicatori è però necessario considerare la
probabilità con cui ciascuno dei valori può presentarsi.

n
m = E(X) = å xi ´ pi
i=1
n
s = Var(X) = å( xi - E(X)) ´ pi
2 2

i=1

Variabili casuali discrete


Così come accade per le variabili statistiche anche per le variabili casuali
è possibile calcolare il valore medio e la varianza di una V.C. discreta X.
Nella costruzione di questi indicatori è però necessario considerare la
probabilità con cui ciascuno dei valori può presentarsi.

1 3 3 1
X P(x) m º E(X) = 0 ´ + 1´ + 2 ´ + 3 ´ = 1.5
0 ⅛
8 8 8 8
1 ⅜ Il valore atteso indica il risultato che in media dovrei attendermi se
ripetessi l’esperimento un numero infinite di volte
2 ⅜
3 ⅛

1 1
s 2 º Var(X) = (0 - 1.5) ´ + ...( 3 - 1.5) ´ = 0.75
2 2

8 8
La varianza è come al solito un indicatore di variabilità. E’ tanto più grande
quanto più la variabile può assumere valori distanti dalla media e quanto più è
alta la probabilità che ciò accada
Variabili casuali discrete
Vi vengono proposti due differenti investimenti i cui profitti dipendono
dalle possibili fasi economiche in cui verserà l’economia italiana nel
prossimo anno.

A B
Condizioni P Risultato Risultato
Espansione 0.2 +2000 € +5000 €
Stasi 0.5 +100€ +100 €
Recessione 0.3 -1000 € -3000 €

In base alle informazioni disponibili, quale dei due investimenti è


preferibile?

Variabili casuali discrete


A B
Condizioni P Risultato Risultato
Espansione 0.2 +2000 € +5000 €
Stasi 0.5 +100€ +100 €
Recessione 0.3 -1000 € -3000 €

I due investimenti
E(A) = 2000 ´ 0.2 +100 ´ 0.5 + (-1000 ´ 0.3) = 150 sono equivalenti in
termini di valore
E(B) = 5000 ´ 0.2 +100 ´ 0.5 + (-3000 ´ 0.3) = 150 atteso

Var(A) = (2000 -150) ´ 0.2 + ...(-1000 -150) ´ 0.3 = 1'082'500


2 2

Var(B) = (5000 -150) ´ 0.2 + ...(-3000 -150) ´ 0.3 = 7'142'500


2 2

L’investimento B è molto più variabile e quindi più rischioso


Variabili casuali continue
Esempio:
Estraggo a caso dalla popolazione degli uomini italiani di età compresa
tra i 25 ed i 44 anni un individuo. Qual è la probabilità che l’altezza di
questo individuo sia uguale a 175 cm?

L’esperimento definisce una variabile casuale X che associa ad ogni


soggetto estratto dalla popolazione la sua altezza misurata in
centimetri (passaggio dallo spazio degli eventi a quello dei numeri
reali).

Dom.: Quanti Millimetri? Risp.: 0!

Dom.: Quanti Decimillimetri? Risp.: 0!


..
P( X = 175) = ??? .
Dom.: Quanti Micrometri? Risp.: 0!
..
.
Dom.: Quanti Nanometri? Risp.: 0!
..
.

Variabili casuali continue


A differenza di quanto accade nel caso discreto, non è possibile
ottenere la probabilità che la variabile assuma un preciso valore per il
semplice motivo che non è possibile elencare i possibili valori che essa
può assumere.
Il c.d. paradosso della continuità viene risolto assegnando probabilità
a singoli intervalli piuttosto che a singoli punti.

P (X = a) P (a £ X £ b )
Esempio:
Estraggo a caso dalla popolazione degli uomini italiani di età compresa tra i
25 ed i 44 anni un individuo. Qual è la probabilità che l’altezza di questo
individuo sia maggiore di 175 cm? Oppure sia compresa tra 170 cm e 172
cm? Oppure sia minore di 172 cm?
Richiamo… Istogramma

L’altezza delle barre dell’Istogramma è uguale alla


Densità di frequenza:

Densità di Frequenza=Frequenza Relativa


Ampiezza della Base

Infatti:

L’informazione sulla frequenza Base=Ampiezza della classe


relativa è contenuta nelle aree Altezza=Densità di frequenza
delle singole barre
Area=Base*Altezza=Frequenza Relativa

Richiamo… Istogramma

Qualora i dati sui cui


l’Istogramma è stato costruito
siano riferiti ad una intera
popolazione, la frequenza
relativa associata ad una
specifica classe
dell’Istogramma, diventa, in
una prospettiva “sperimentale”
una misura della probabilità di
estrarre un individuo la cui
altezza sia compresa in quella
classe.
Variabili casuali continue

P(155 £ X £ 160) = ?

P(155  X 160)

Ma se volessi la probabilità che l’altezza di un individuo sia compreso tra 160 cm e


161 cm?

Variabili casuali continue

P(160 £ X £ 161) = ?

Ma se volessi la probabilità che l’altezza di un individuo sia compreso tra 160.1 cm e


160.2 cm?
Variabili casuali continue

y= “Densità” associata al y=f(x)


valore x attraverso la funzione
f(.)

x= Valore assunto dalla variabile

Variabili casuali continue


f(x)

f(x1)

x1 x
La funzione f(●) viene definita funzione di densità di probabilità (f.d.p.) o
densità di probabilità di X e caratterizza le V.C. Continue. Rappresenta
l’analogo della legge di probabilità del caso discreto. In questo caso,
tuttavia, la funzione non può essere interpretata come la P(X=x), in
quanto tale probabilità sarà sempre nulla, per v.c. di tipo continuo. Tuttavia
è possibile associare probabilità ad intervalli e calcolare tali probabilità come
aree sottese alla curva.
Variabili casuali continue
f(x)

x1 x2 x
La funzione f(●) viene definita funzione di densità di probabilità (f.d.p.) o
densità di probabilità di X e caratterizza le V.C. Continue. Rappresenta
l’analogo della legge di probabilità del caso discreto. In questo caso,
tuttavia, la funzione non può essere interpretata come la P(X=x), in
quanto tale probabilità sarà sempre nulla, per v.c. di tipo continuo. Tuttavia
è possibile associare probabilità ad intervalli e calcolare tali probabilità come
aree sottese alla curva.

Variabili casuali continue

 Anche nel caso di una V.C. Continua X,


caratterizzata da funzione di densità f(x),
è possibile definire il suo Valore Atteso e
la sua Varianza.
E(X) = ò xf (x)dx
À
s = ò ( x - E(X))
2 2
X f (x)dx
À
L’operazione di Integrazione “svolge” lo stessa funzione dell’operatore
Sommatoria nel caso di variabili casuali discrete; il prodotto f(x)dx
rappresenta, intuitivamente, l’analogo delle probabilità puntuali pi della
legge di probabilità di una V.C. discreta
Variabile Casuale Normale

Corso di Laurea Magistrale in Medicina e Chirurgia


Statistica e Informatica Medica

Variabile Casuale Normale


Il “modello” più utilizzato in Statistica è quello della Variabile Casuale Normale, “scoperto”
da Karl Friedrich Gauss studiando il moto dei corpi celesti.
Le ragioni dell’importanza della Curva di Gauss risiedono nel fatto che essa è in grado di
descrivere la distribuzione di molti fenomeni naturali, dalle altezze degli individui, alla
larghezza delle foglie e così via.
Variabile Casuale Normale
Il “modello” più utilizzato in Statistica è quello della Variabile Casuale Normale, “scoperto”
da Karl Friedrich Gauss studiando il moto dei corpi celesti.
Le ragioni dell’importanza della Curva di Gauss risiedono nel fatto che essa è in grado di
descrivere la distribuzione di molti fenomeni naturali, dalle altezze degli individui, alla
larghezza delle foglie e così via.

f(x)
La sua funzione di densità ha la seguente
espressione:

2
1 1 (x−µ)
2
f (x; µ, σ ) = √ e 2 σ 2
σ 2 2π

Essa dipende dal valore assunto dalla


variabile e da due ulteriori parametri µ e σ 2
che rappresentano, rispettivamente, la media
µ e la varianza della V.C.
X

Variabile Casuale Normale


Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)

µ
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.

µ
µ1
X

Variabile Casuale Normale


Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.

µ
µ2 µ1
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.

µ
X

Variabile Casuale Normale


Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

σ12 < σ 2
f(x) A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.

µ
X
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

σ12 < σ 2
f(x) A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.

σ22 > σ 2 A parità di altre condizioni, una variazione


della varianza determina un allungamento o
un appiattimento dell’intera curva.

µ
X

Variabile Casuale Normale


Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
Qualunque siano i valori dei parametri, ad
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
X competono probabilità determinate
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.

65% A parità di altre condizioni, una variazione


della varianza determina un allungamento o
un appiattimento dell’intera curva.
Qualunque siano i valori dei parametri, ad
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
µ−σ µ+σ X competono probabilità determinate

Variabile Casuale Normale


Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
Qualunque siano i valori dei parametri, ad
95%
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
µ − 2σ µ + 2σ X competono probabilità determinate
Variabile Casuale Normale
Ha una tipica forma campanulare ed è simmetrica rispetto alla media che coincide con la
mediana e la moda. Le code della curva di densità non toccano mai l’asse delle ascisse
ma si avvicinano sempre di più (la funzione presenta cioè due asintoti orizzontali).
Ciò vuol dire che il modello assegna probabilità non nulle (ma infinitesime) anche ad
intervalli di valori molto piccoli o molto grandi.

f(x)
A parità di altre condizioni, una variazione
della media determina uno slittamento
dell’intera curva lungo l’asse delle ascisse.
A parità di altre condizioni, una variazione
della varianza determina un allungamento o
un appiattimento dell’intera curva.
99.9%
Qualunque siano i valori dei parametri, ad
intervalli simmetrici rispetto alla media e di
µ
ampiezza proporzionale alla varianza,
µ − 3σ µ + 3σ X competono probabilità determinate

Variabile Casuale Normale


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?

µ = 170 X
Variabile Casuale Normale
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?

µ = 170 X
175

Variabile Casuale Normale


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
X ∼ N(µ = 170 cm, σ = 8 cm)
P(X ≥ 175) =?

+∞ 2
1 1 (x−µ)
Z
√ e2 σ2
175 σ 2 2π

µ = 170 X
175
Variabile Casuale Normale - Standardizzazione
Qualsiasi distribuzione Normale (qualunque sia cioè la sua media e/o la sua varianza) può
essere ricondotta ad una distribuzione normale con media nulla e varianza unitaria
mediante la trasformazione della Standardizzazione

f(x)

Variabile Casuale Normale - Standardizzazione


Qualsiasi distribuzione Normale (qualunque sia cioè la sua media e/o la sua varianza) può
essere ricondotta ad una distribuzione normale con media nulla e varianza unitaria
mediante la trasformazione della Standardizzazione

f(x)
f(z)

Standardizzazione Z = X −µ
σ

X 0 Z
Variabile Casuale Normale - Standardizzazione
Qualsiasi distribuzione Normale (qualunque sia cioè la sua media e/o la sua varianza) può
essere ricondotta ad una distribuzione normale con media nulla e varianza unitaria
mediante la trasformazione della Standardizzazione

f(x)
f(z)

Standardizzazione Z = X −µ
σ

X 0 Z
La nuova V.C. Z ottenuta attraverso l’operazione di
standardizzazione presenta tutte le caratteristiche di una E(Z ) = 0
V.C. Normale ma ha il vantaggio di essere svincolata dal
valore specifico dei due parametri µ e σ 2 Var (Z ) = σZ2 = 1

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità cheun individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità cheun individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)

µ = 170 175 X
X ∼ N(µ = 170cm, σ = 8cm)

P(X ≥ 175) =?

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità cheun individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)

Standardizzazione

Z = X −µ
σ
= 175−170
8
= 0.62

µ = 170 175 X
X ∼ N(µ = 170cm, σ = 8cm)

P(X ≥ 175) =?
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità cheun individuo estratto a
caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
f(z)
Standardizzazione

Z = X −µ
σ
= 175−170
8
= 0.62

µ = 170 175 X 0 0.62 Z


X ∼ N(µ = 170cm, σ = 8cm) Z ∼ N(µ = 0, σ = 1)

P(X ≥ 175) =? P(Z ≥ 0.62) =?


N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Variabile Casuale Normale - Tavola Z


Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
La tavola della Normale standard riporta, per valori
di ascissa successivi e campionati con un passo di Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.01, l’area sottesa alla curva nell’intervallo da 0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
−∞ a quello specifico valore 0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
Il valore di ascissa a cui si è interessati si legge 0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
scorrendo le righe e le colonne; le prime riportano il 0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
valore fino alla prima cifra decimale; la seconda 0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
cifra decimale si recupera invece attraverso 0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
colonne. 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
Così, ad esempio, se si è interessati al valore di 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
ascissa 1.43, si identifica dapprima sulle righe il 1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
valore 1.40 e successivamente il valore 0.03 sulle 1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
colonne (1.43=1.40+0.03). Il dato che si ottiene 1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
incrociando la riga e la colonna così individuate, 1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
0.924 nell’esempio, rappresenta l’area sottesa alla 1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
curva e compresa nell’intervallo da −∞ a +1.43
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

La tavola riporta le aree solo per valori di ascissa 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
positiva; sfruttando però la simmetria della
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
distribuzione normale e le proprietà generali di una 2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
densità di probabilità sarà possibile risolvere 2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
qualunque tipo di problema... 2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
f(z)
P(X ≥ 175cm) = P(Z ≥ 0.62)

µ = 170cm175cm X 00.62 Z

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?

f(x)
f(z)
P(X ≥ 175cm) = P(Z ≥ 0.62)

µ = 170cm175cm X 00.62 Z

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0


1.1 0.864 0.867 0.869 0.871 0.873 0.875 0
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0
Variabile Casuale Normale - Standardizzazione 2.6
2.7
0.995
0.997
0.995
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0
0
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0


1.1 0.864 0.867 0.869 0.871 0.873 0.875 0
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0


0.732 = P(−∞ ≤ Z ≤ 0.62) 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0
Variabile Casuale Normale - Standardizzazione 2.6
2.7
0.995
0.997
0.995
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0
0
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0


0.732 = P(−∞ ≤ Z ≤ 0.62) 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0
1 = P(−∞ ≤ Z ≤ +∞) 1.3 0.903 0.905 0.907 0.908 0.910 0.911 0
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che l’altezza di un individuo
estratto a caso dalla popolazione abbia una altezza superiore ai 175 cm?
Area sottesa alla curva di densità normale standardizzata calc
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.0
f(x)
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0
f(z)
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0
P(X ≥ 175cm) = P(Z ≥ 0.62)
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0
µ = 170cm175cm X 00.62 Z 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0


0.732 = P(−∞ ≤ Z ≤ 0.62) 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0
1 = P(−∞ ≤ Z ≤ +∞) 1.3 0.903 0.905 0.907 0.908 0.910 0.911 0
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0
P(Z ≥ 0.62) = 1 − P(−∞ ≤ Z ≤ 0.62) = 1 − 0.732 = 0.268 1.5 0.933 0.934 0.936 0.937 0.938 0.939 0
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0
N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0
Variabile Casuale Normale - Standardizzazione 2.6
2.7
0.995
0.997
0.995
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0.996
0.997
0
0
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z)
Standardizzazione

Z = X −µ
σ
= 160−170
8
= −1.25

160cm µ = 170cm X −1.25 0 Z


X ∼ N(µ = 170cm, σ = 8cm) Z ∼ N(µ = 0, σ = 1)

P(X ≤ 160) =? P(Z ≤ −1.25) =?


N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La V.C. Normale è caratterizzata dalla simmetria rispetto al punto medio che, nel caso di
una Normale Standard, coincide con l’origine. Ciò vuol dire che ad intervalli simmetrici
rispetto allo 0 competono aree uguali sottese alla curva.

f(z) f(z)

−1.25 0 Z 0 1.25 Z

P(−∞ ≤ Z ≤ −z) = P(+z ≤ Z ≤ +∞)

Variabile Casuale Normale - Tavola Z


Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Tavola Z
Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999

Variabile Casuale Normale - Tavola Z


Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
Variabile Casuale Normale - Tavola Z
Area sottesa alla curva di densità normale standardizzata calcolata tra - ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894
0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)

160cm µ = 170cm X

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25)

160cm µ = 170cm X −1.25 0 Z

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)

160cm µ = 170cm X −1.25 0 Z 0 1.25 Z

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)

160cm µ = 170cm X −1.25 0 Z 0 1.25 Z

0.894 = P(−∞ ≤ Z ≤ +1.25)

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Variabile Casuale Normale - Standardizzazione


La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)

160cm µ = 170cm X −1.25 0 Z 0 1.25 Z

0.894 = P(−∞ ≤ Z ≤ +1.25)

P(−∞ ≤ Z ≤ −1.25) = P(+1.25 ≤ Z ≤ +∞)

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Variabile Casuale Normale - Standardizzazione
La variabile casuale Altezza nella popolazione degli uomini italiani di età compresa tra i 25
ed i 44 anni si distribuisce secondo una V.C. Normale con media (µ) pari a 170 cm e
Scarto Quadratico Medio (σ) pari a 8 cm. Qual è la probabilità che un individuo estratto a
caso dalla popolazione abbia una altezza inferiore ai 160 cm?

f(x)
f(z) f(z)
P(X ≤ 160cm)=P(Z ≤ -1.25) P(Z ≤ -1.25)=P(Z ≥ +1.25)

160cm µ = 170cm X −1.25 0 Z 0 1.25 Z

0.894 = P(−∞ ≤ Z ≤ +1.25)

P(−∞ ≤ Z ≤ −1.25) = P(+1.25 ≤ Z ≤ +∞)

P(+1.25 ≤ Z ≤ +∞) = 1 − P(−∞ ≤ Z ≤ +1.25) = 1 − 0.894 = 0.106

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Stimatori campionari

Corso di Laurea Magistrale in Medicina e Chirurgia


Statistica Medica
Inferenza Statistica - Stimatori
Stima del numero medio di figli per famiglia
0.7

3.0
0.6

2.5
0.5

2.0
0.4
Density

Density
1.5
0.3

1.0
0.2

0.5
0.1
0.0

0.0
0 2 4 6 8 10 12 0.4 0.6 0.8 1.0 1.2 1.4 1.6
Numero di figli per famiglia nella popolazione Numero medio di figli per famiglia (n=40; nr. campioni=10000)

A partire da una data L’insieme di tutte le possibili


popolazione, la procedura di stime che possono essere
estrazione campionaria ottenute definisce una V.C.
definisce un esperimento i cui detta Stimatore. Le
differenti esiti sono probabilità con cui lo
rappresentati dai possibili A seconda del campione estratto, differente sarà la Stimatore può assumere le
campioni che possono stima del parametro oggetto di inferenza (la media sue differenti determinazioni
presentarsi in questo caso) definiscono la sua
distribuzione campionaria

Inferenza Statistica - Stimatori


Stima della proporzione di famiglie con almeno un figlio
0.7

7
0.6

6
0.5

5
0.4

4
Density

Density
0.3

3
0.2

2
0.1

1
0.0

0 2 4 6 8 10 12 0.0 0.1 0.2 0.3 0.4 0.5 0.6


Numero di figli per famiglia nella popolazione Proporzione di famiglie con almeno un figlio (n=40; nr. campioni=10000)

A partire da una data L’insieme di tutte le possibili


popolazione, la procedura di stime che possono essere
estrazione campionaria ottenute definisce una V.C.
definisce un esperimento i cui detta Stimatore. Le
differenti esiti sono probabilità con cui lo
rappresentati dai possibili A seconda del campione estratto, differente sarà la Stimatore può assumere le
campioni che possono stima del parametro oggetto di inferenza (la sue differenti determinazioni
presentarsi proporzione in questo caso) definiscono la sua
distribuzione campionaria
Inferenza Statistica - Stimatori
Terminologia
Parametro
Valore caratteristico di una popolazione obiettivo della procedura inferenziale
Stima
Valore puntuale ottenuto in corrispondenza di uno specifico campione
Stimatore
Variabile Casuale che descrive l’insieme delle possibili stime al variare del campione estratto

La valutazione della affidabilità di una stima non può basarsi sul singolo
valore ottenuto (rispetto al quale nulla può dirsi) ma deve avvenire
necessariamente analizzando le proprietà del corrispondente stimatore

p(m) p(m) p(m)

µ m µ m µ m

Quali tra questi tre stimatori è preferibile???

Inferenza Statistica - Proprietà degli Stimatori


Correttezza
Uno stimatore è detto corretto se il suo valore atteso coincide con il parametro che intende
stimare
Efficienza
Uno stimatore è efficiente (rispetto ad un altro stimatore) se la sua variabilità è inferiore
Consistenza
Uno stimatore è consistente se all’aumentare di n (la numerosità campionaria) cresce la
probabilità che il parametro stimato coincida con quello della popolazione di riferimento. Detta
in altri termini, all’aumentare della numerosità del campione la variabilità dello stimatore tende
a 0 e la distribuzione di probabilitd̀ello stimatore si concentra in corrispondenza del valore del
parametro da stimare.

p(m) p(m) p(m)

µ m µ m µ m
Stimatore Corretto Stimatore Corretto Stimatore non corretto
Stimatore Non efficiente Stimatore Efficiente Stimatore efficiente
Inferenza Statistica - Media e Proporzione
Campionaria
E’ possibile dimostrare analiticamente che Media e Proporzione Campionaria sono
stimatori corretti, efficienti e consistenti. In particolare si dimostra che:

Media campionaria Proporzione campionaria


Sia X una variabile numerica che nella Sia X una caratteristica qualitativa che
popolazione di riferimento presenta nella popolazione di riferimento è
Media pari a µ e Varianza pari a σ 2 . presente con una proporzione pari a π
Estraendo dalla popolazione di Estraendo dalla popolazione di
riferimento “infiniti” campioni di ampiezza riferimento “infiniti” campioni di ampiezza
pari a n, lo Stimatore Media Campionaria pari a n, lo Stimatore Proporzione
σ2 Campionaria avrà media pari a π e
avrà media pari a µ e Varianza pari a n π×(1−π)
Varianza pari a n

Inferenza Statistica - Proprietà degli Stimatori


La conoscenza di una Variabile casuale non si esaurisce nella conoscenza del suo valore
atteso e della sua varianza ma è necessario conoscere anche la forma della distribuzione
di probabilità della V.C. A tale esiste un teorema fondamentale, il Teorema centrale del
limite che assicura che....

Teorema Centrale del limite


una versione molto ma molto semplificata, quasi non sembra più lui

Qualunque sia la distribuzione della variabile nella popolazione di interesse, all’aumentare


della numerosità campionaria le V.C. Media e Proporzione campionaria si avvicinano
sempre di più ad una V.C. Normale. Operativamente è sufficiente considerare una
numerosità campionaria (n) maggiore di 30 perché l’approssimazione sia valida.

n > 30

Media Campionaria
Proprozione Campionaria
2
 
2 = σ 
π × (1 − π)

M ∼ N µ, σM 2
P ∼ N π, σP =
n n
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Teorema Centrale del Limite


L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

I dati del problema

X ∼?(µ = 16, σ = 3)
n = 36
P(M ≥ 17)=?

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

Teorema Centrale del Limite


I dati del problema I dati del problema

X ∼?(µ = 16, σ = 3) 3
 
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Teorema Centrale del Limite


L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

Teorema Centrale del Limite


I dati del problema I dati del problema

X ∼?(µ = 16, σ = 3) 3
 
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?
f(m)

µ = 16 17 M

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Teorema Centrale del Limite
L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

Teorema Centrale del Limite


I dati del problema I dati del problema

X ∼?(µ = 16, σ = 3) 3
 
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)=?
f(m)

Standardizzazione

Z = M−µ
σ

= 17−16
3 =2
n √
36 µ = 16 17 M

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala

Teorema Centrale del Limite


L’emoglobina si distribuisce nella popolazione maschile adulta con media (µ) 16 e scarto
quadratico medio (σ) pari a 3. Qual è la probabilità che in 36 soggetti selezionati
casualmente dalla popolazione di riferimento il livello medio di emoglobina risulti superiore
a 17?

Teorema Centrale del Limite


I dati del problema I dati del problema

X ∼?(µ = 16, σ = 3) 3
 
M ∼ N µ = 16, σM = √ = 0.5
n = 36 36
n = 36 > 30
P(M ≥ 17)= P(Z ≥ 1.33)
f(m)

f(z)
Standardizzazione

Z = M−µ
σ

= 17−16
3 =2
0 2 Z n √
36 µ = 16 17 M

N.B. La rappresentazione della Normale Standard non è coerente rispetto ai suoi parametri (in confronto con quella che descrive il
problema originario). Per ragioni di comodità si trascurerà questo errore di scala
Intervalli di Confidenza

Corso di Laurea Magistrale in Medicina e Chirugia


Statistica Medica

Noti i parametri di una V.C è possibile calcolare la probabilità che la


media o la proporzione campionaria, calcolata su un numero
sufficientemente elevato di individui estratti a caso dalla popolazione,
assuma valori compresi in un certo intervallo.

Cui prodest?!?

Noti i valori assunti dagli individui estratti dalla popolazione - e quindi il


valore della media o della proporzione campionaria - è possibile risalire
ad un intervallo di valori in cui, con una prefissata fiducia, siano
compresi i parametri della variabile casuale?
Intervalli di Confidenza - Il caso della Media
X ∼?(µ, σ)
 
σ
n > 30 → M ∼ N µ, σM = √
n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ, σM = √
n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ, σM = √
n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ, σM = √
n

σ σ
 
P µ − 1.96 × √ ≤ M ≤ µ + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ, σM = √
n
m

σ σ
 
P µ − 1.96 × √ ≤ M ≤ µ + 1.96 × √ = 0.95
n n a

Campioni

Supponendo di estrarre un numero sufficientemente


elevato di campioni dalla popolazione di riferimento, la
Variabile Casuale M (media campionaria) risulterebbe
compresa nell’intervallo
σ σ
 
µ − 1.96 × √ , µ + 1.96 × √ nel 95% delle
n n
volte

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n

Intervalli di Confidenza - Il caso della Media


 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n µ

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

σ σ
 
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95
n n
Intervalli di Confidenza - Il caso della Media
 
X ∼?(µ =?, σ)
 M−µ 
−1.96 ≤
P σ ≤ +1.96
 = 0.95
 
√ σ
n n > 30 → M ∼ N µ =?, σM = √
n
m

σ σ
 
P −1.96 × √ ≤ M − µ ≤ +1.96 × √ = 0.95
n n µ

σ σ
 
P −M − 1.96 × √ ≤ −µ ≤ −M + 1.96 × √ = 0.95
n n Campioni

Supponendo di estrarre un numero sufficientemente


elevato di campioni dalla popolazione di riferimento,
l’intervallo casuale
σ σ
 

σ σ
 M − 1.96 × √ , M + 1.96 × √ , costruito
P M − 1.96 × √ ≤ µ ≤ M + 1.96 × √ = 0.95 n n
n n simmetricamente intorno alla media campionaria
coprirà il parametro incognito nel 95% delle volte

Intervalli di Confidenza - Il caso della Media


Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

Campioni

Intervalli di Confidenza - Il caso della Media


Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

Campioni

Intervalli di Confidenza - Il caso della Media


Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

Campioni
Intervalli di Confidenza - Il caso della Media
Realisticamente si ha a disposizione un solo campione e quindi una sola determinazione dell’intervallo casuale
σ σ

M − 1.96 × √ , M + 1.96 × √
n n

Tale determinazione è chiamata Intervallo


 di Confidenza ed è definita dalla coppia di valori
σ σ

m − 1.96 × √ , m + 1.96 × √ dove m è il valore della media campionaria ottenuta in corrispondenza del
n n
campione estratto.

m
Rispetto al singolo intervallo di confidenza è allora solo possibile
parlare di fiducia che esso copra, ovvero contenga, il parametro
incognito della popolazione.

Tale livello di fiducia (detto livello di confidenza è, in questo


esempio, pari al 95% dal momento che, per quanto visto, il 95%
dei campioni estratti dalla popolazione determinerà un intervallo
che comprende il valore vero del parametro. Ma essa non può
essere interpretata come una probabilità.

Infatti qual’è la probabilità che un intervallo di valori contenga un


numero (il parametro) ignoto ma certo???

Campioni

Intervalli di Confidenza - Il caso della Media


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ σ σ
   
M − 1.96 × √ , M + 1.96 × √ m − 1.96 × √ , m + 1.96 × √
n n n n

I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria
Intervalli di Confidenza - Il caso della Media
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ σ σ
   
M − 1.96 × √ , M + 1.96 × √ m − 1.96 × √ , m + 1.96 × √
n n n n

I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria

Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025

f(z)

0.95

0.025 0.025

−1.96 µ=0 +1.96 Z

Intervalli di Confidenza - Il caso della Media


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ σ σ
   
M − 1.96 × √ , M + 1.96 × √ m − 1.96 × √ , m + 1.96 × √
n n n n

I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria

Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025

f(z)
E’ possibile generalizzare la precedente
notazione indicando con 1 − α il livello di
confidenza e con z α quel valore di
2
ascissa di una normale standardizzata che
lascia alla sua destra un’area pari ad α
2
0.95

0.025 0.025

−1.96 µ=0 +1.96 Z


Intervalli di Confidenza - Il caso della Media
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ σ σ
   
M − zα × √ ,M + zα × √ m − zα × √ ,m + zα × √
2 n 2 n 2 n 2 n

I limiti di confidenza sono in realtà variabili casuali I limiti di confidenza diventano due numeri reali.
dal momento che non è noto quale sarà il valore
assunto dalle V.C. Media Campionaria

Il valore 1.96 che compare nelle espressioni dipende dal livello di confidenza indicato nel problema (pari a 0.95). 1.96 è
infatti quel valore di ascissa di una normale standardizzata che lascia alla sua destra un’area pari a 0.025

f(z) f(z)
E’ possibile generalizzare la precedente
notazione indicando con 1 − α il livello di
confidenza e con z α quel valore di
2
ascissa di una normale standardizzata che
lascia alla sua destra un’area pari ad α
2
0.95 1-α

α α
0.025 0.025 2 2

−1.96 µ=0 +1.96 Z −z α µ=0 zα Z


2 2

Intervalli di Confidenza - Il caso della Media


Prima di aver estratto il campione...
σ
M ± zα × √
2 n

Stimatore ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


Intervalli di Confidenza - Il caso della Media
Prima di aver estratto il campione...
σ
M ± zα × √
2 n

Stimatore ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore

Dopo di aver estratto il campione...


σ
m ± zα × √
2 n

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore

Intervalli di Confidenza - Il caso della Media


Prima di aver estratto il campione...
σ
M ± zα × √
2 n

Stimatore ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore

Dopo di aver estratto il campione...


σ
m ± zα × √
2 n

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore

Assunzioni necessarie

Per valorizzare il Coefficiente di Attendibilità è necessario ipotizzare che lo Stimatore abbia


una distribuzione normale
Per calcolare lo S.Q.M. dello Stimatore è necessario conoscere la varianza della popolazione
Intervalli di Confidenza - Il caso della Media
Esercizio...
Si vuole stimare il numero medio annuo di visite specialistiche nella popolazione dei
bambini in età pediatrica nella città di Napoli. A tale scopo si estrae un campione di
numerosità pari a 100 al cui interno di osserva un valore medio a 2.3 (visite per anno).
Ipotizzando che nella popolazione di interesse lo scarto quadratico medio sia di 0.8
costruire un intervallo di confidenza al 95% per il parametro di interesse .
Cosa succede all’intervallo se il livello di confidenza viene posto pari a 0.99
(1 − α = 0.99, α = 0.01, α 2
= 0.005)?
Cosa succede se la numerosità del campione si riduce a 64?
Cosa succede se la variabilità ipotizzata è pari a 1.2?

Intervalli di Confidenza - Il caso della Proporzione


π =?
 q 
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=?

Prima di aver estratto il campione...

Stimatore ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


Intervalli di Confidenza - Il caso della Proporzione
π =?
 q 
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=?

Prima di aver estratto il campione...

Stimatore ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


q
π(1−π)
P ± zα × n
2

Intervalli di Confidenza - Il caso della Proporzione


π =?
 q 
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=?

Dopo aver estratto il campione...

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


q
π(1−π)
p ± zα × n
2
Intervalli di Confidenza - Il caso della Proporzione
???
π =? Per poter costruire l’intervallo di confidenza è
 q  necessario conoscere il parametro incognito
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=? oggetto di inferenza!

Dopo aver estratto il campione...

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


q
π(1−π)
p ± zα × n
2

Intervalli di Confidenza - Il caso della Proporzione


???
π =? Per poter costruire l’intervallo di confidenza è
 q  necessario conoscere il parametro incognito
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=? oggetto di inferenza!

Dopo aver estratto il campione...

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


q
π(1−π)
p ± zα × n
2

Per superare l’empasse è possibile sostituire al parametro incognito la sua stima rappresentata dalla
Proporzione campionaria
Intervalli di Confidenza - Il caso della Proporzione
???
π =? Per poter costruire l’intervallo di confidenza è
 q  necessario conoscere il parametro incognito
π(1−π)
n > 30 → P ∼ N π =?, σp = n
=? oggetto di inferenza!

Dopo aver estratto il campione...

Stima ± Coefficiente di Attendibilità × Scarto Quadratico Medio dello Stimatore


q
π(1−π)
p ± zα × n
2

Per superare l’empasse è possibile sostituire al parametro incognito la sua stima rappresentata dalla
Proporzione campionaria

Dopo aver estratto il campione...

Stima ± Coefficiente di Attendibilità × (Stima) Scarto Quadratico Medio dello Stimatore


q
p(1−p)
p ± zα × n
2

Intervalli di Confidenza - Il caso della Proporzione


Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.
Cosa sarebbe successo, a parità di tutte le altre condizioni, se il numero di soggetti selezionati nel campione
fosse stato pari a 25?
Cosa sarebbe successo, a parità di tutte le altre condizioni, se il numero di soggetti effettivamente malati e
risultati positivi al test fosse stato pari a 32?
Intervalli di Confidenza - Il caso della Proporzione
Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2

Intervalli di Confidenza - Il caso della Proporzione


Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2

I dati del problema...


 q 
π(1−π)
n = 64 > 30 → P ∼ N π, σP = n
Intervalli di Confidenza - Il caso della Proporzione
Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2

I dati del problema...


 q 
π(1−π)
n = 64 > 30 → P ∼ N π, σP = n

p = 52
64
= 0.81

Intervalli di Confidenza - Il caso della Proporzione


Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza
q
p(1−p)
p ± zα × n
2

I dati del problema...


 q 
π(1−π)
n = 64 > 30 → P ∼ N π, σP = n

p = 52
64
= 0.81

1 − α = 0.95 → z α = 1.96
2
Intervalli di Confidenza - Il caso della Proporzione
Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza Intervallo di Confidenza


q q
p(1−p) 0.81(0.19)
p ± zα × n
0.8125 ± 1.96 × 64
= [0.71, 0.91]
2

I dati del problema...


 q 
π(1−π)
n = 64 > 30 → P ∼ N π, σP = n

p = 52
64
= 0.81

1 − α = 0.95 → z α = 1.96
2

Intervalli di Confidenza - Il caso della Proporzione


Esercizio

Si intende stimare la sensibilità di un test diagnostico (la proporzione di soggetti malati che il test identifica correttamente
come malati). Si seleziona quindi un campione tra la popolazione di persone affette dalla specifica patologia (n=64) e si
valuta su ciascuno di essi l’esito del test. Delle 64 persone effettivamente malate solo 52 risultano positive al test.

Costruire un intervallo di confidenza al 95% per il valore di sensibilità della procedura diagnostica.

Intervallo di Confidenza Intervallo di Confidenza


q q
p(1−p) 0.81(0.19)
p ± zα × n
0.8125 ± 1.96 × 64
= [0.71, 0.91]
2

I dati del problema... Interpretazione


 
Ho una fiducia del 95% che il valore di sensibilità
q
π(1−π)
n = 64 > 30 → P ∼ N π, σP = n della procedura diagnostica, nell’ipotetica
popolazione di tutti i soggetti malati, sia compreso
p = 52
64
= 0.81 nell’intervallo [0.71, 0.91]. Tale fiducia deriva dal
fatto che se estraessi infiniti campioni dalla
1 − α = 0.95 → z α = 1.96 popolazione di riferimento, nel 95% di questi
2
l’intervallo coprirebbe il parametro oggetto di
inferenza.
Intervalli di Confidenza - Il caso della Media con σ 2 incognita
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n

Intervalli di Confidenza - Il caso della Media con σ 2 incognita


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n

Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Intervalli di Confidenza - Il caso della Media con σ 2 incognita
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n

Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Qualora questa ultima assunzione non possa essere considerata realistica si pone il problema di
stimare la varianza σ 2 della popolazione.

Intervalli di Confidenza - Il caso della Media con σ 2 incognita


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n

Assunzioni necessarie
σ ) è necessario conoscere la varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Qualora questa ultima assunzione non possa essere considerata realistica si pone il problema di
stimare la varianza σ 2 della popolazione.
Per valorizzare il Coefficiente di Attendibilità è necessario ipotizzare che lo Stimatore Media
campionaria, opportunamente standardizzato, M−µ q
σ
segua (anche approssimativamente) una
n
distribuzione normale standard
Stima Puntuale - Metodo del Plug-In
Dal momento che il parametro incognito oggetto di inferenza è spesso una sintesi (leggi
funzione matematica) dei dati della popolazione, per ottenerne una stima si applica ai dati
campionari la stessa funzione che lo definisce a livello di popolazione

Stima Puntuale - Metodo del Plug-In


Dal momento che il parametro incognito oggetto di inferenza è spesso una sintesi (leggi
funzione matematica) dei dati della popolazione, per ottenerne una stima si applica ai dati
campionari la stessa funzione che lo definisce a livello di popolazione

Stima Plug-in Stima Plug-in


Quando l’obiettivo della procedura inferenziale è Parametro → σ 2
quello di stimare una Varianza, la stima plug-in Pn 2
i=1 (xi −m)
si ottiene calcolando la varianza sui valori del Stima → ŝ2 = n
campione estratto
Stima Puntuale - Metodo del Plug-In
Dal momento che il parametro incognito oggetto di inferenza è spesso una sintesi (leggi
funzione matematica) dei dati della popolazione, per ottenerne una stima si applica ai dati
campionari la stessa funzione che lo definisce a livello di popolazione

Stima Plug-in Stima Plug-in


Quando l’obiettivo della procedura inferenziale è Parametro → σ 2
quello di stimare una Varianza, la stima plug-in Pn 2
i=1 (xi −m)
si ottiene calcolando la varianza sui valori del Stima → ŝ2 = n
campione estratto

Varianza corretta Varianza corretta


Nel caso della varianza, il metodo del Plug-In Parametro → σ 2
non porta a stimatori corretti. E’ però possibile Pn 2
i=1 (xi −m)
correggere lo stimatore utilizzando a Stima → s2 = n−1
denominatore n − 1 invece di n

Intervalli di Confidenza - Il caso della Media con σ 2 incognita


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ σ
M ± zα × √ m ± zα × √
2 n 2 n

Assunzioni necessarie

Per valorizzare il Coefficiente di Attendibilità è necessario ipotizzare che lo Stimatore Media


campionaria, opportunamente standardizzato ( M−µ q
σ
) segua (approssimativamente) una distribuzione
n
normale standard
σ ) è necessario conoscere la Varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = √
n
popolazione (σ 2 )
Qualora questa ultima assunzione non possa essere considerata realistica. si pone il problema di
stimare lo Scarto quadratico medio dello Stimatore Media Campionaria.
Intervalli di Confidenza - Il caso della Media con σ 2 incognita
Prima di aver estratto il campione... Dopo aver estratto il campione...
σ
S σs

M ±z
zαα ×
× √
√ m ± zα × √
2
2 nn 2 n

Assunzioni necessarie

Per valorizzare il Coefficiente di Attendibilità è necessario


! ipotizzare che lo Stimatore Media
campionaria, opportunamente standardizzato ( M−µ ) segua (approssimativamente) una distribuzione
campionaria, opportunamente standardizzato M−µ
q
qσ segua (approssimativamente) una

normale standard n
distribuzione normale standard
Per calcolare lo S.Q.M. dello Stimatore, (σM = √ σ ) è necessario conoscere la Varianza della
Per calcolare lo S.Q.M. dello Stimatore, (σM = σ n
)n è necessario conoscere la Varianza della
2
popolazione (σ
popolazione (σ ) 2)
Qualora
Qualora questa
questa ultima
ultima assunzione
assunzione non
non possa
possa essere
essere considerata
considerata realistica.
realistica. si
si pone
pone ilil problema
problema di
di
stimare lo Scarto quadratico medio dello Stimatore Media Campionaria.
stimare lo Scarto quadratico medio dello Stimatore Media Campionaria.

Intervalli di Confidenza - Il caso della Media con σ 2 incognita


Prima di aver estratto il campione... Dopo aver estratto il campione...
σ
S σs

M ±z
zαα ×
× √
√ m ± zα × √
2
2 nn 2 n

Assunzioni necessarie

Per valorizzare il Coefficiente di Attendibilità è necessario


! ipotizzare che lo Stimatore Media
campionaria, opportunamente standardizzato ( M−µ qM−µ
σ
) segua (approssimativamente) una distribuzione
campionaria, opportunamente standardizzato q segua (approssimativamente) una
nS
normale standard n
distribuzione normale standard
σ
Per calcolare lo S.Q.M. dello Stimatore, (σM = σ ) è necessario conoscere la Varianza della

Per calcolare lo S.Q.M. dello Stimatore, (σM = n )n è necessario conoscere la Varianza della
2
popolazione
popolazione (σ(σ 2 ))
Qualora
Qualora questa ultima
questa ultima assunzione
assunzione non
non possa
possa essere
essere considerata
considerata realistica.
realistica. si
si pone
pone ilil problema
problema di
di
stimare lo Scarto quadratico medio dello Stimatore Media Campionaria.
stimare lo Scarto quadratico medio dello Stimatore Media Campionaria.
Variabile Casuale T di Student
La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.

0 T

Variabile Casuale T di Student


La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.
Si differenzia dalla Normale standardizzata
perché è più schiacciata

0 T
Variabile Casuale T di Student
La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.
Si differenzia dalla Normale standardizzata
perché è più schiacciata

0 T

Variabile Casuale T di Student


La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.
Si differenzia dalla Normale standardizzata
perché è più schiacciata

Dipende da un unico parametro, i gradi di


libertà, all’aumentare dei quali la funzione di
densità della T di Student si avvicina sempre
0 T
più a quella di una normale
Variabile Casuale T di Student
La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.
Si differenzia dalla Normale standardizzata
perché è più schiacciata
g.d.l=3

Dipende da un unico parametro, i gradi di


libertà, all’aumentare dei quali la funzione di
densità della T di Student si avvicina sempre
0 T
più a quella di una normale

Variabile Casuale T di Student


La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
assume tutti gli infiniti valori tra −∞ e +∞.
g.d.l=10 Si differenzia dalla Normale standardizzata
perché è più schiacciata
g.d.l=3

Dipende da un unico parametro, i gradi di


libertà, all’aumentare dei quali la funzione di
densità della T di Student si avvicina sempre
0 T
più a quella di una normale
Variabile Casuale T di Student
La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
g.d.l=40
assume tutti gli infiniti valori tra −∞ e +∞.
g.d.l=10 Si differenzia dalla Normale standardizzata
perché è più schiacciata
g.d.l=3

Dipende da un unico parametro, i gradi di


libertà, all’aumentare dei quali la funzione di
densità della T di Student si avvicina sempre
0 T
più a quella di una normale

Variabile Casuale T di Student


La sostituzione del parametro σ con il suo stimatore S 2 determina una nuova V.C. M−µ
q nota come T di Student
S
n
f(t)

Al pari della variabile normale standardizzata


la variabile casuale T di Student ha forma
campanulare, è simmetrica rispetto allo 0 ed
g.d.l=40
assume tutti gli infiniti valori tra −∞ e +∞.
g.d.l=10 Si differenzia dalla Normale standardizzata
perché è più schiacciata
g.d.l=3

Dipende da un unico parametro, i gradi di


libertà, all’aumentare dei quali la funzione di
densità della T di Student si avvicina sempre
0 T
più a quella di una normale

I Gradi di libertà sono, nello specifico contesto inferenziale, pari alla numerosità
campionaria meno 1 (n-1). Ciò vuol dire che man mano che aumenta la dimensione del
campione gli effetti della sostituzione del parametro σ con la sua stima s diventano
sempre più trascurabili
Tavola della V.C. T di Student
Gradi di Area nella coda di sinistra
libertà 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
La tavola della T di Student riporta lungo le righe i 3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
Gradi di libertà e lungo le colonne valori di 5 1.4759 2.0150 2.5706 3.3649 4.0321

probabilità di uso comune 6 1.4398 1.9432 2.4469 3.1427 3.7074


7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
All’intersezione di ogni riga con ogni colonna è 10 1.3722 1.8125 2.2281 2.7638 3.1693

riportato il valore di ascissa che, in corrispondenza 11


12
1.3634
1.3562
1.7959
1.7823
2.2010
2.1788
2.7181
2.6810
3.1058
3.0545
di quel numero di gradi di libertà, lascia alla sua 13 1.3502 1.7709 2.1604 2.6503 3.0123
14 1.3450 1.7613 2.1448 2.6245 2.9768
sinistra l’area indicata nella corrispondente colonna 15 1.3406 1.7531 2.1314 2.6025 2.9467

16 1.3368 1.7459 2.1199 2.5835 2.9208


17 1.3334 1.7396 2.1098 2.5669 2.8982
18 1.3304 1.7341 2.1009 2.5524 2.8784
Ad esempio, se si è interessati a conoscere quel 19 1.3277 1.7291 2.0930 2.5395 2.8609
valore di ascissa di una v.c. T di Student con 31 20 1.3253 1.7247 2.0860 2.5280 2.8453

21 1.3232 1.7207 2.0796 2.5176 2.8314


g.d.l. che lascia alla sua sinistra un’area pari a 22 1.3212 1.7171 2.0739 2.5083 2.8188
0.975 ... 23
24
1.3195
1.3178
1.7139
1.7109
2.0687
2.0639
2.4999
2.4922
2.8073
2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787


27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
30 1.3104 1.6973 2.0423 2.4573 2.7500

31 1.3095 1.6955 2.0395 2.4528 2.7440


32 1.3086 1.6939 2.0369 2.4487 2.7385
33 1.3077 1.6924 2.0345 2.4448 2.7333
34 1.3070 1.6909 2.0322 2.4411 2.7284
35 1.3062 1.6896 2.0301 2.4377 2.7238

36 1.3055 1.6883 2.0281 2.4345 2.7195


37 1.3049 1.6871 2.0262 2.4314 2.7154
38 1.3042 1.6860 2.0244 2.4286 2.7116
39 1.3036 1.6849 2.0227 2.4258 2.7079
40 1.3031 1.6839 2.0211 2.4233 2.7045

Tavola della V.C. T di Student


Gradi di Area nella coda di sinistra
libertà 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
La tavola della T di Student riporta lungo le righe i 3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
Gradi di libertà e lungo le colonne valori di 5 1.4759 2.0150 2.5706 3.3649 4.0321

probabilità di uso comune 6 1.4398 1.9432 2.4469 3.1427 3.7074


7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
All’intersezione di ogni riga con ogni colonna è 10 1.3722 1.8125 2.2281 2.7638 3.1693

riportato il valore di ascissa che, in corrispondenza 11


12
1.3634
1.3562
1.7959
1.7823
2.2010
2.1788
2.7181
2.6810
3.1058
3.0545
di quel numero di gradi di libertà, lascia alla sua 13 1.3502 1.7709 2.1604 2.6503 3.0123
14 1.3450 1.7613 2.1448 2.6245 2.9768
sinistra l’area indicata nella corrispondente colonna 15 1.3406 1.7531 2.1314 2.6025 2.9467

16 1.3368 1.7459 2.1199 2.5835 2.9208


17 1.3334 1.7396 2.1098 2.5669 2.8982
18 1.3304 1.7341 2.1009 2.5524 2.8784
Ad esempio, se si è interessati a conoscere quel 19 1.3277 1.7291 2.0930 2.5395 2.8609
valore di ascissa di una v.c. T di Student con 31 20 1.3253 1.7247 2.0860 2.5280 2.8453

21 1.3232 1.7207 2.0796 2.5176 2.8314


g.d.l. che lascia alla sua sinistra un’area pari a 22 1.3212 1.7171 2.0739 2.5083 2.8188
0.975 ... 23
24
1.3195
1.3178
1.7139
1.7109
2.0687
2.0639
2.4999
2.4922
2.8073
2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787


27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
30 1.3104 1.6973 2.0423 2.4573 2.7500

31 1.3095 1.6955 2.0395 2.4528 2.7440


32 1.3086 1.6939 2.0369 2.4487 2.7385
33 1.3077 1.6924 2.0345 2.4448 2.7333
34 1.3070 1.6909 2.0322 2.4411 2.7284
35 1.3062 1.6896 2.0301 2.4377 2.7238

36 1.3055 1.6883 2.0281 2.4345 2.7195


37 1.3049 1.6871 2.0262 2.4314 2.7154
38 1.3042 1.6860 2.0244 2.4286 2.7116
39 1.3036 1.6849 2.0227 2.4258 2.7079
40 1.3031 1.6839 2.0211 2.4233 2.7045
Tavola della V.C. T di Student
Gradi di Area nella coda di sinistra
libertà 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
La tavola della T di Student riporta lungo le righe i 3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
Gradi di libertà e lungo le colonne valori di 5 1.4759 2.0150 2.5706 3.3649 4.0321

probabilità di uso comune 6 1.4398 1.9432 2.4469 3.1427 3.7074


7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
All’intersezione di ogni riga con ogni colonna è 10 1.3722 1.8125 2.2281 2.7638 3.1693

riportato il valore di ascissa che, in corrispondenza 11


12
1.3634
1.3562
1.7959
1.7823
2.2010
2.1788
2.7181
2.6810
3.1058
3.0545
di quel numero di gradi di libertà, lascia alla sua 13 1.3502 1.7709 2.1604 2.6503 3.0123
14 1.3450 1.7613 2.1448 2.6245 2.9768
sinistra l’area indicata nella corrispondente colonna 15 1.3406 1.7531 2.1314 2.6025 2.9467

16 1.3368 1.7459 2.1199 2.5835 2.9208


17 1.3334 1.7396 2.1098 2.5669 2.8982
18 1.3304 1.7341 2.1009 2.5524 2.8784
Ad esempio, se si è interessati a conoscere quel 19 1.3277 1.7291 2.0930 2.5395 2.8609
valore di ascissa di una v.c. T di Student con 31 20 1.3253 1.7247 2.0860 2.5280 2.8453

21 1.3232 1.7207 2.0796 2.5176 2.8314


g.d.l. che lascia alla sua sinistra un’area pari a 22 1.3212 1.7171 2.0739 2.5083 2.8188
0.975 ... 23
24
1.3195
1.3178
1.7139
1.7109
2.0687
2.0639
2.4999
2.4922
2.8073
2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787


27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
30 1.3104 1.6973 2.0423 2.4573 2.7500

31 1.3095 1.6955 2.0395


2.0395 2.4528 2.7440
32 1.3086 1.6939 2.0369 2.4487 2.7385
33 1.3077 1.6924 2.0345 2.4448 2.7333
34 1.3070 1.6909 2.0322 2.4411 2.7284
35 1.3062 1.6896 2.0301 2.4377 2.7238

36 1.3055 1.6883 2.0281 2.4345 2.7195


37 1.3049 1.6871 2.0262 2.4314 2.7154
38 1.3042 1.6860 2.0244 2.4286 2.7116
39 1.3036 1.6849 2.0227 2.4258 2.7079
40 1.3031 1.6839 2.0211 2.4233 2.7045

Intervalli di Confidenza - Il caso della Media


σ 2 nota - Dopo aver estratto il campione... σ 2 incognita - Dopo aver estratto il campione...
σ s
m ± zα × √ m ± tα × √
2 n 2 n

In generale...

Stima ± Coefficiente di attendibilità × (Stima dello) Scarto quadratico medio dello stimatore

σ 2 nota - Prima aver estratto il campione... σ 2 incognita - Prima di aver estratto il campione...
σ S
M ± zα × √ M ± tα × √
2 n 2 n

In generale...

Stimatpre ± Coefficiente di attendibilità × (Stimatore dello) Scarto quadratico medio dello stimatore
Intervalli di Confidenza - Il caso della Media
Esercizio...
Si vuole stimare il numero medio annuo di visite specialistiche nella popolazione dei
bambini in età pediatrica nella città di Napoli. A tale scopo si estrae un campione di
numerosità pari a 36 al cui interno di osserva un valore medio a 2.3 (visite per anno). La
varianza campionaria corretta è risultata pari a 0.64
Costruire un intervallo di confidenza al 95% per il parametro di interesse .
Cosa succede all’intervallo se il livello di confidenza viene posto pari a 0.99
(1 − α = 0.99, α = 0.01, α 2
= 0.005)?
Cosa succede se la numerosità del campione si riduce a 25?
Cosa succede se la variabilità campionaria è pari a 1.2?

Intervalli di Confidenza - Il caso della Media


Misure di Associazione, Odds e Odds ratio
l’OR (parametro) di una popolazione può essere stimato
utilizzando il principio della stima naturale
෢ non ha la proprietà della
Lo stimatore 𝑂𝑅
OR → Parametro
correttezza e presenta una distribuzione che
𝑜ෞ𝑟 → Stima
෢ → Stimatore si allontana dal modello normale
𝑂𝑅

Distribuzione simulata
dello stimatore OR
basata su 3000 campioni
di numerosità 200.
OR=4.4

Misure di Associazione, Odds e Odds ratio


La trasformazione logaritmica consente di riportare la
distribuzione dello stimatore a condizioni di “regolarità”

Distribuzione simulata dello


stimatore ln(OR) basata su
3000 campioni di
numerosità 200. OR=4.4
Misure di Associazione, Odds e Odds ratio
La trasformazione logaritmica consente di riportare la
distribuzione dello stimatore a condizioni di “regolarità”

ln(OR) → Parametro
𝑜𝑟) → Stima
ln(ෞ
෢ → Stimatore
𝑙𝑛(𝑂𝑅)

1 1 1 1

𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22

෢ dipende non solo dalla numerosità


L’errore standard dello stimatore 𝑙𝑛(𝑂𝑅)
campionaria complessiva (n) ma anche dalla disposizione di n all’interno delle celle
della tabella di contingenza

Misure di Associazione, Odds e Odds ratio


1 1 1 1

𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22

෢ − ln 𝑂𝑅
𝑙𝑛 𝑂𝑅
~𝑍
1 1 1 1
+ + +
𝑛11 𝑛12 𝑛21 𝑛22

E’ possibile utilizzare questo risultato per la costruzione di


intervalli di confidenza e per la verifica delle ipotesi sull’OR
Inferenza sull’Odds Ratio
• Intervallo di confidenza
෢ è possibile costruire intervalli di
Sfruttando la normalità dello stimatore 𝑙𝑛(𝑂𝑅)
confidenza utilizzando il modello normale standardizzato

1 1 1 1
𝑙𝑛(ෞ
𝑜𝑟) ± 𝑧𝛼ൗ + + +
2 𝑛11 𝑛12 𝑛21 𝑛22

Una volta ottenuti gli estremi dell’intervallo su scala logaritmica si ritorna alla scala
originaria utilizzando la funzione inversa del logaritmo (exp)

1 1 1 1
𝐸𝐼 = exp 𝑙𝑛 𝑜
ෞ𝑟 − 𝑧𝛼ൗ2 + + +
𝑛11 𝑛12 𝑛21 𝑛22

1 1 1 1
𝐸𝑆 = exp 𝑙𝑛 𝑜
ෞ𝑟 + 𝑧𝛼ൗ2 + + +
𝑛11 𝑛12 𝑛21 𝑛22

Facoltà di Medicina e Chirurgia


Corso di Laurea Magistrale
Medicina e Chirurgia

Corso di Statistica Medica


Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Supponiamo che si intenda studiare l’efficacia della Stimolazione


elettrica transcranica (tDCS) nell’alleviare il dolore cronico in soggetti
con trauma della colonna vertebrale. A tale scopo si seleziona un
campione di soggetti dalla popolazione di riferimento (???) che viene
suddiviso attraverso meccanismi di assegnazione casuale in due gruppi.
Al primo viene somministrato la tDCS mentre al secondo una
stimolazione “placebo” (SHAM). Al termine dello studio viene valutata
l’efficacia della terapia misurando l’intensità del dolore su scala VAS.

L’obiettivo può essere tradotto dal punto di vista statistico in quello di


stabilire se il punteggio VAS risulti, in media, minore tra coloro a cui è
stato somministrato il trattamento attivo rispetto a quanti hanno avuto
la Stimolazione fantasma.

Teoricamente è come se vi fossero due popolazioni: quella trattata e


quella non trattata e volessimo stimare la differenza tra le medie della
variabile X Punteggio su scala VAS del dolore nelle due popolazioni

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

Assunzioni statistiche

Popolazione 1 - Trattati X N ( 1 ,  1 )
Popolazione 2 – Controlli X N ( 2 ,  2 )

Parametro di interesse

m1 - m2

Evidenza campionaria

Campione 1 - Trattati x1, x2,…,xn1

Campione 2 – Controlli y1, y2,…,yn2


Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Evidenza campionaria n1

åx 1
Campione 1 - Trattati m1 = i =1

x1, x2,…,xn1
n1 m1 - m2
n2
Stima naturale del
åy 1 parametro di interesse
Campione 2 – Controlli m2 = i =1

y1, y2,…,yn2 n2

Per poter fare inferenza è necessario conoscere la distribuzione dello


Stimatore “Differenza tra le medie campionarie” M1 – M2

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

Se X1 e X2 sono due variabili casuali normali (indipendenti) di media


1 e 2 e s.q.m. 1 e 2 , allora estraendo due campioni di
numerosità n1 e n2 dalle rispettive popolazioni’ la variabile casuale
Differenza delle Medie Campionarie M1-M2 segue anch’essa una
distribuzione normale con media pari alla differenza tra le due medie
e varianza pari alla somma delle varianze delle due v.c Media
Campionaria

Popolazione 1 X N ( 1 ,  1 )
Popolazione 2 X N ( 2 ,  2 )

  12  2 2 
M1 − M 2 N  1 −  2 , + 
 n1 n2 

Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Se X1 e X2 sono due variabili casuali (indipendenti) di media 1 e 2 e


s.q.m. 1 e 2 , allora estraendo due campioni di numerosità n1 e n2
dalle rispettive popolazioni e tali che n1 >>30 e n2 >>30, la variabile
casuale Differenza delle Medie Campionarie M1-M2 può essere
approssimata da una distribuzione normale con media pari alla
differenza tra le due medie e varianza pari alla somma delle varianze
delle due v.c Media Campionaria

Popolazione 1 X ?( 1 ,  1 )
Popolazione 2 X ?(2 ,  2 )

  12  2 2 
M1 − M 2 N  1 −  2 , + 
 n1 n2 

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

  12  2 2  ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N  1 −  2 , + 
 n n   2
2 2
 1 2  1
+
n1 n2
Standardizzando

 
 
p  − z /2 
( 1 2 ) 1 2  +z  = 1− 
M − M − (  −  )
 /2 
  2
 2


1
+ 2

 n1 n2 
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

  12  2 2  ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N  1 −  2 , + 
 n n   2
2 2
 1 2  1
+
n1 n2
Standardizzando

æ 2 ö
s 2
s 2
s 2
s
( ) ( )
p ç M 1 - M 2 - za /2 1 + 2 £ (m1 - m2 ) £ M 1 - M 2 + za /2 1 + 2 ÷ = 1- a
ç n1 n2 n1 n2 ÷ø
è

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

  12  2 2  ( M 1 − M 2 ) − ( 1 − 2 ) N ( 0,1)
M1 − M 2 N  1 −  2 , + 
 n n   2
2 2
 1 2  1
+
n1 n2
Standardizzando

Intervallo casuale Intervallo di confidenza

s 12 s 22 s 12 s 22
M 1 - M 2 ± za /2 + m1 - m2 ± za /2 +
n1 n2 n1 n2
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

(M ) (
- M 2 - m1 - m2 ) ∼N Si assume di conoscere la
1
(0,1) varianza della V.C. di interesse
nelle due popolazioni
s s
2 2
1
+ 2
n1 n2
Quando ciò non accade è
necessario stimarla

Assunzione fondamentale
!
Per poter procedere si assume che, anche
12 =  22 =  2 se non note, le varianze che
caratterizzano la V.C. di interesse nelle
due popolazioni siano identiche.

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti
n1

å( xi - m1 )
2

Campione 1 x1, x2,…,xn1 s12 = i =1


n1 -1
n1

å( y )
2
- m2
Campione 2 y1, y2,…,yn2 i
s22 = i =1
n2 -1

(n1 − 1) s12 + (n2 − 1) s22


s 2
=
n1 + n2 − 2
pooled

Stima combinata (pooled) della varianza unica ma sconosciuta che


caratterizza la v.c. di interesse nelle due popolazioni ottenuta come
media artimetica ponderata delle stime della varianza in ciascuno dei
due campioni
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) ( M 1 − M 2 ) − (1 − 2 )
s 12 s 22 æ1 1ö 1 1
+ s2ç + ÷  + 
2
S pooled
n1 n2 è n1 n2 ø  n1 n2 
12 =  22 =  2 Stima di 2

Segue una distribuzione Segue una distribuzione T di


normale standardizzata Student con n1+n2-2 g.d.l.

 
 

P  −t / 2, n1 + n2 − 2 
( 1
M − M 2) − ( 1 −  2 ) 
+ t / 2, n1 + n2 − 2  = 1 − 
  1 1  
S2  + 
  n1 n2  
 

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 )
s 12 s 22 æ1 1ö æ1 1ö
+ s2ç + ÷ S2ç + ÷
n1 n2 è n1 n2 ø è n1 n2 ø
12 =  22 =  2 Stima di 2

Segue una distribuzione Segue una distribuzione T di


normale standardizzata Student con n1+n2-2 g.d.l.

 1 
2 1 1 2 1
P  ( M 1 − M 2 ) − t /2,n1 + n2 −2 S  +   ( 1 − 2 )  ( M 1 − M 2 ) + t /2,n1 + n2 −2 S  +   = 1 − 
  n1 n2   n1 n2  

Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

(M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 ) (M 1 )
- M 2 - (m1 - m 2 )
s 12 s 22 æ1 1ö æ1 1ö
+ s2ç + ÷ s2 ç + ÷
n1 n2 è n1 n2 ø è n1 n2 ø
12 =  22 =  2 Stima di 2

Segue una distribuzione Segue una distribuzione T di


normale standardizzata Student con n1+n2-2 g.d.l.

Intervallo casuale Intervallo di confidenza

1 1 1 1
M 1 − M 2  tn1 + n2 − 2, /2 S  + 
2
p m1 − m2  tn1 + n2 − 2, /2 s  + 
2
p
 n1 n2   n1 n2 

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

Supponiamo che si intenda studiare l’efficacia della Stimolazione


elettrica transcranica (tDCS) nell’alleviare il dolore cronico in soggetti
con trauma della colonna vertebrale. A tale scopo si seleziona un
campione di soggetti dalla popolazione di riferimento (???) che viene
suddiviso attraverso meccanismi di assegnazione casuale in due gruppi.
Al primo viene somministrato la tDCS mentre al secondo una
stimolazione “placepo” (SHAM). Al termine dello studio viene valutata
l’efficacia della terapia misurando l’intensità del dolore su scala VAS.
I dati campionari ottenuti sono i seguenti:

n1=17; n2=22 Costruire un intervallo di confidenza al


95% sulla differenza tra le medie VAS
m1=5.9 pt; m2=6.4 pt nelle due popolazioni

s21=0.21 pt2; s22=0.23 pt2

(17 -1) ´ 0.21+ (22 -1)´ 0.23


s2p = = 0.22
(17 + 22 - 2 )
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali

n1=17; n2=22 Intervallo di confidenza

m1=5.9 pt; m2=6.4 pt 1 1


m1 − m2  tn1 + n2 − 2, /2 s 2p  + 
s2p = 0.22  n1 n2 

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali

n1=17; n2=22 Intervallo di confidenza

m1=5.9 pt; m2=6.4 pt æ1 1ö


m1 - m2 ± t n 1+n 2-1,a /2 s çç + ÷÷
2
p
s = 0.22
2
p
è n1 n2 ø

æ1 1ö
5.9 - 6.4 ± 2.026 0.22 ç + ÷ = [-0.81;-0.19]
è 17 22 ø

Intervallo di confidenza sulla differenza tra le


medie di due popolazioni indipendenti

Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali

n1=6; n2=6 Intervallo di confidenza

m1=5.9 pt; m2=6.4 pt æ1 1ö


m1 - m2 ± t n 1+n 2-1,a /2 s çç + ÷÷
2
p
s = 0.22
2
p
è n1 n2 ø

æ1 1ö
5.9 - 6.4 ± 2.145 0.22 ç + ÷ = [-1.01;+0.01]
è6 6ø
Intervallo di confidenza sulla differenza tra le
medie di due popolazioni indipendenti

Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali

n1=200; n2=200 Intervallo di confidenza

m1=6.2 pt; m2=6.4 pt æ1 1ö


m1 - m2 ± t n 1+n 2-1,a /2 s çç + ÷÷
2
p
s = 0.22
2
p
è n1 n2 ø

æ 1 1 ö
6.2 - 6.4 ±1.96 0.22 ç + ÷ = [-0.29;-0.11]
è 200 200 ø

Intervallo di confidenza sulla differenza tra le


proporzioni di due popolazioni indipendenti

Intendete stimare la differenza di incidenza del GERD nella popolazione


dei fumatori e in quella dei non fumatori.

Di nuovo l’assunzione implicita è che esistano due ipotetiche popolazioni


(fumatori e non fumatori) ciascuna caratterizzata da una propria
prevalenza di GERD. L’obiettivo è dimostrare che nei fumatori la
prevalenza è maggiore.

Siano p1 e p2 i parametri (proporzioni) riferiti alle due popolazioni.

Evidenza campionaria
Proporzione di persone con GERD
Campione 1 - Fumatori p1
nel campione dei fumatori

Campione 2 – non Fumatori p2 Proporzione di persone con GERD


nel campione dei non fumatori
Intervallo di confidenza sulla differenza tra le
proporzioni di due popolazioni indipendenti

Intendete stimare la differenza di incidenza del GERD nella popolazione


dei fumatori e in quella dei non fumatori.

Di nuovo l’assunzione implicita è che esistano due ipotetiche popolazioni


(fumatori e non fumatori) ciascuna caratterizzata da una propria
prevalenza di GERD. L’obiettivo è dimostrare che nei fumatori la
prevalenza è maggiore.

Siano p1 e p2 i parametri (proporzioni) riferiti alle due popolazioni.

p1-p2 Differenza tra le proporzioni campionarie

Distribuzione campionaria dello stimatore P1-P2


(Differenza tra proporzioni campionarie)

Intervallo di confidenza sulla differenza tra le


proporzioni di due popolazioni indipendenti

Se le numerosità campionarie sono sufficientemente elevate, in


virtù del teorema centrale del limite, le due V.C. P1 e P2
possono essere approssimate da una distribuzione normale con
media pari a p1 e p2 e varianza pari a p1(1-p1)/n1 e p1(1-p1)/n2.
La differenza tra i due stimatori sarà allora caratterizzata dalle
seguente funzione di densità:

 p1 (1 − p1 ) p 2 (1 − p 2 ) 
P1 − P2 N  p 1 − p 2 , + 
 n1 n2 

N.B. Il simbolo ~ è da intendersi come: “segue approssimativamente”


Intervallo di confidenza sulla differenza tra le
proporzioni di due popolazioni indipendenti

 p1 (1 − p1 ) p 2 (1 − p 2 ) 
P1 − P2 N  p 1 − p 2 , + 
 n1 n2 
Standardizzando

( P1 − P2 ) − (p1 − p 2 ) N ( 0,1)
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2

N.B. Il simbolo ~ è da intendersi come: “segue approssimativamente”

Intervallo di confidenza sulla differenza tra le


proporzioni di due popolazioni indipendenti

 p1 (1 − p1 ) p 2 (1 − p 2 ) 
P1 − P2 N  p 1 − p 2 , + 
 n1 n2 
Standardizzando

( P1 − P2 ) − (p1 − p 2 ) N ( 0,1)
P1 (1 − P1 ) P2 (1 − P2 )
+
n1 n2

N.B. Il simbolo ~ è da intendersi come: “segue approssimativamente”


Intervallo di confidenza sulla differenza tra le
proporzioni di due popolazioni indipendenti

 p1 (1 − p1 ) p 2 (1 − p 2 ) 
P1 − P2 N  p 1 − p 2 , + 
 n1 n2 

Intervallo casuale Intervallo di confidenza

P1 (1- P1 ) P2 (1- P2 ) p (1- p1 ) p2 (1- p2 )


P1 - P2 ± za /2 + p1 - p2 ± za /2 1 +
n1 n2 n1 n2

N.B. Il simbolo ~ è da intendersi come: “segue approssimativamente”

Intervallo di confidenza sulla differenza tra le


proporzioni di due popolazioni indipendenti

Intendete verificare se la proporzione di soggetti con GERD è maggiore


nella popolazione dei fumatori che in quella dei non fumatori.

A tale scopo estraete un campione di 45 fumatori e 37 non fumatori ed


osservate quanti di questi soggetti presentano GERD. Nel campione dei
fumatori il numero di persone con GERD è pari a 32, mentre in quello dei
non fumatori esso risulta 23. Costruire un intervallo di confidenza al 95%
per la differenza di prevalenza di GERD nelle due popolazioni
Scuola di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica

Inferenza statistica
✓ 1) Teoria della stima puntuale
Determinazione di un valore numerico per il parametro incognito
che caratterizza la popolazione sulla base delle informazioni
campionarie raccolte

✓ 2) Teoria della stima per intervalli


Determinazione di un intervallo di valori che comprende, con una
certa fiducia, il parametro di interesse della popolazione

3) Teoria dei test statistici


Valutazione di quale tra due ipotesi complementari possa essere
ritenuta più verosimile sulla base del campione estratto dalla
popolazione
Test del Chi quadrato

 Le misure di associazione Rischio Relativo e


Odds ratio assumono implicitamente che le due
variabili qualitative da analizzare (Fattore di
Esposizione e Evento di Interesse) abbiano un
ruolo asimmetrico.
 Rischio relativo e Odds Ratio presuppongono
una codifica dicotomica (Sì/No) delle due
dimensioni coinvolte.
 A volte può essere utile utilizzare una misura di
associazione simmetrica

Test del Chi quadrato

Fumatore Non fumatore Totale


Trattati 42 18 60
Controlli 24 56 80
Totale 66 74 140

 Esiste associazione tra l’abitudine al fumo e il gruppo di


trattamento? (ad esempio: i fumatori sono maggiormente
rappresentati nel gruppo dei Trattati rispetto al gruppo di
controllo?) Oppure vi è indipendenza tra le due variabili
(l’essere un Trattato o un Controllo è indipendente dal fumare
o meno?)
Test del Chi quadrato
L’obiettivo è quello di definire una misura sintetica che quantifichi il
grado di associazione presente tra le due variabili analizzate. La
logica che si segue è quella di misurare la “distanza” tra le
frequenze realmente osservate e quelle che avrei dovuto osservare
se tra le due variabili vi fosse indipendenza statistica

L’indipendenza statistica si traduce operativamente nella


relazione che lega la probabilità congiunta di due eventi con
le probabilità marginali dei singoli eventi

B=Esce Testa al primo lancio di una moneta

A=Esce Testa al secondo lancio di una moneta

P(AÇ B)=P(A)P(B)

Test del Chi quadrato


A=Essere un fumatore
P(AÇ B)=P(A)P(B)
B=Essere un Trattato

A=Essere un non fumatore


P(AÇ B)=P(A)P(B)
B=Essere un Trattato

A=Essere un fumatore
P(AÇ B)=P(A)P(B)
B=Essere un Controllo

A=Essere un non fumatore


P(AÇ B)=P(A)P(B)
B=Essere un Controllo
Test del Chi quadrato
Fumatore Non fumatore Totale
Trattati 42 18 60
Controlli 24 56 80
Totale 66 74 140

Se tra Abitudine al fumo e Braccio di trattamento vi fosse


indipendenza statistica quale sarebbe la probabilità di osservare un
soggetto Fumatore e Trattato

66 60
P(FumatoreÇ Trattato)=P(Fumatore)P(Trattato)= = 0.202
140 140
Questo valore rappresenta la probabilità che estraendo a caso da
una popolazione di 140 soggetti, di cui 66 fumatori e 60 Trattati, io
possa osservare un soggetto con entrambe le caratteristiche
assumendo l’indipendenza statistica tra le due variabili

Test del Chi quadrato


Fumatore Non fumatore Totale
Trattati 42 18 60
Controlli 24 56 80
Totale 66 74 140

Ciò che interessa è però la frequenza “attesa” che si potrebbe


osservare nell’ipotesi di Indipendenza Statistica…

Se la probabilità che esca testa lanciando una moneta non truccata


è di 0.5, quale è il numero di “teste” che devo attendermi se il
lancio viene ripetuto 100 volte???
Test del Chi quadrato
Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 60
Controlli 24 56 80
Totale 66 74 140

Ciò che interessa è però la frequenza “attesa” che si potrebbe


osservare nell’ipotesi di Indipendenza Statistica…

66 60
P(Fumatore Ç Trattato)=P(Fumatore)P(Trattato)= = 0.202
140 140
66 60
#(Fumatore Ç Trattato)=P(Fumatore Ç Trattato) ´ n= ´ ´140
140 140
66 ´ 60
= = 28.29
140

Test del Chi quadrato


Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 (31.71) 60
Controlli 24 56 80
Totale 66 74 140

Ciò che interessa è però la frequenza “attesa” che si potrebbe


osservare nell’ipotesi di Indipendenza Statistica…

74 60
P(Non Fumatore Ç Trattati)=P(Non Fumatore)P(Trattati)= = 0.227
140 140
74 60
#(Non Fumatore Ç Trattati)=P(Non Fumatore Ç Trattati) ´ n= ´140
140 140
74 ´ 60
= = 31.71
140
Test del Chi quadrato
Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 (31.71) 60
Controlli 24 (37.71) 56 (42.29) 80
Totale 66 74 140

Procedendo in maniera analoga con le successive combinazioni di


riga e colonna, si ottiene la distribuzione delle frequenze attese
sotto l’ipotesi di indipendenza.

I marginali di riga e colonna sono uguali nella tabella delle


frequenze osservate (nere) e in quella delle frequenze attese
(rosse). Cambia il modo in cui i soggetti si distribuiscono all’interno
delle celle della tabella.
L’indipendenza o l’associazione non coinvolge infatti i totali di riga
e di colonna ma le frequenze congiunte.

Test del Chi quadrato


Frequenze congiunte osservate su un collettivo di n.. unità
statistiche classificate in base ad una variabile (qualitativa) X con k
modalità e una variabile (qualitativa) Y con h modalità

y1 y2 … yj … yh Totale
x1 n11 n12 n1j n1h n1.
x2 n21 n22 n2j n2h n2.

xi ni1 ni2 nij nih ni.

xk nk1 nk2 nkj nkh nk.
Totale n.1 n.2 n.j n.h n..
Test del Chi quadrato
y1 y2 … yj … yh Totale A partire dalla tabella delle
x1 n11 n12 n1j n1h n1. frequenze osservate è
x2 n21 n22 n2j n2h n2. possibile “costruire” la tabelle
… delle frequenze attese
xi ni1 ni2 nij nih ni. (assumendo l’indipendenza
… statistica tra il carattere di
xk nk1 nk2 nkj nkh nk. riga e quello di colonna). In
Totale n.1 n.2 n.j n.h n.. corrispondenza di ogni
incrocio riga/colonna la
frequenza attesa si ottiene
y1 y2 … yj … yh Totale
moltiplicando i relativi
x1 ñ11 ñ12 ñ1j ñ1h n1.
marginali e dividendo per il
x2 ñ21 ñ22 ñ2j ñ2h n2.
totale complessivo:

xi ñi1 ñi2 ñij ñih ni.

xk ñk1 ñk2 ñkj ñkh nk.
Totale n.1 n.2 n.j n.h n..

Test del Chi quadrato


Una misura della distanza tra le frequenze osservate e le frequenze
attese è data dalla statistica del Chi quadrato

• Ciascun termine della sommatoria (contingenza) misura la


distanza al quadrato tra la frequenza osservata e la
corrispondente frequenza attesa, normalizzata per la frequenza
attesa.
• Un valore della statistica uguale a 0 indica perfetta coincidenza
tra l’osservato e l’atteso e quindi una condizione di indipendenza
statistica tra la dimensione di riga e quella di colonna.
• All’aumentare del valore assunto dalla statistica aumenta la
discrepanza tra l’evidenza osservata e quella attesa sotto l’ipitesi
di indipendenza
Test del Chi quadrato
Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 (31.71) 60
Controlli 24 (37.71) 56 (42.29) 80
Totale 66 74 140

( 42 - 28.3) (18 - 31.7) ( 24 - 37.7) ( 56 - 42.3)


2 2 2 2

X2 = + + + = 22.02
28.3 31.7 37.7 42.3

Il valore della statistica diverso da 0 indica che, nel gruppo di 140


unità su cui essa è calcolata, non si può parlare di indipendenza…

Test del Chi quadrato


Il campione estratto è uno degli infiniti campioni che potrebbero
essere estratti dalla popolazione di riferimento

Fumatore Non fumatore Totale


Trattati 15000 25000 50000
Controlli 15000 25000 50000
Totale 30000 50000 100000

X2 =0?

Per stabilire se l’eventuale associazione riscontrata nel campione è


statisticamente significativa è necessario ricorrere ad una
procedura di Verifica delle Ipotesi…
La verifica delle ipotesi
Ipotesi Statistica
Una qualunque supposizione riguardante una
caratteristica di una popolazione che viene considerata
vera a meno che l’evidenza empirica porti ad avere seri
dubbi sulla sua validità e suggerisca che essa è falsa

Ipotesi Statistica
Nella popolazione degli adolescenti italiani di età
compresa tra i 14 ed i 18 anni il numero medio di
visite specialistiche annue è pari a 0.5.
μ = 0.5
Oppure... Nella popolazione femminile italiana, le
donne di nazionalità straniera hanno un “rischio” di
ricorrere al parto cesareo inferiore a quelle di
nazionalità Italiana:
RR < 1
Oppure... La sensibilità della metodica diagnostica A
è superiore a quella della metodica diagnostica B:
A >  B
La verifica delle ipotesi
Ipotesi Statistica
Una qualunque supposizione riguardante una
caratteristica di una popolazione che viene considerata
vera a meno che l’evidenza empirica porti ad avere seri
dubbi sulla sua validità e suggerisca che essa è falsa

IPOTESI NULLA:
H0: Vi è Indipendenza Statistica tra le due variabili
→ P(A and B)=P(A)P(B)

IPOTESI ALTERNATIVA:
H1: Non vi è Indipendenza Statistica tra le due variabili
→ P(A and B)≠P(A)P(B)

La verifica delle ipotesi


Test Statistico
Regola che consente di discriminare tra i risultati
campionari quelli che portano ad accettare l’ipotesi e
quelli che portano a rifiutarla

Le informazioni del campione (i dati campionari) sono sintetizzate


attraverso una opportuna funzione (Statistica Test) che dipende dalla
caratteristica su cui si sta facendo inferenza (Principio della
Statistica Naturale).
La Statistica test, in quanto funzione di dati campionari è una Variabile
Casuale di cui si studia il comportamento assumendo vera l’ipotesi
Nulla.
Se il valore osservato della statistica test, calcolata in base all’evidenza
campionaria, è troppo estremo rispetto al comportamento atteso si
decide di rifiutare H0.
La struttura di un test statistico

Decisione assunta in base alla regola di


decisione
Ipotesi vera nella H0 H1

Accetto H1 ma è vera H0
Accetto H0
H0 Decisione errata
popolazione

Decisione corretta Errore di I° Tipo

Accetto H0 ma è vera H1 Accetto H1


H1 Decisione errata
Errore di II° Tipo Decisione corretta

Si tratta (come al solito) di uno schema teorico dal


momento che l’informazione contenuta sulle righe
! non è a disposizione del ricercatore

La struttura di un test statistico


1 - a = P(Accettare H0 | H0 è vera) a = P (Rifiutare H0 | H0 è vera)
Decisione assunta in base alla regola di
decisione Livello di Significatività
H0 H1
Ipotesi vera nella

Accetto H1 ma è vera H0
Accetto H0 Decisione errata
H0
popolazione

Decisione corretta Errore di I° Tipo

Accetto H0 ma è vera H1 Accetto H1


H1 Decisione errata
Decisione corretta
Errore di II° Tipo

b = P (Accettare H0 | H0 è falsa)1- b = P (Rifiutare H0 | H0 è falsa)

Potenza del test


Test del Chi quadrato
Il campione estratto è uno degli infiniti campioni che potrebbero
essere estratti dalla popolazione di riferimento

Fumatore Non fumatore Totale


Trattati 15000 25000 40000
Controlli 15000 25000 40000
Totale 30000 50000 80000

X2 =0?

Test del Chi quadrato


Fumatore Non fumatore Totale
Trattati 42 (28.29) 18 (31.71) 60
Controlli 24 (37.71) 56 (42.29) 80
Totale 66 74 140

( 42 - 28.3) (18 - 31.7) ( 24 - 37.7) ( 56 - 42.3)


2 2 2 2

X2 = + + + = 22.02
28.3 31.7 37.7 42.3
Per stabilire quanto “estremo” è il valore osservato della Statistica
test è quindi necessario conoscere la sua distribuzione probabilistica
(pre-campionamento) assumendo vera l’ipotesi nulla…
Solo in questo modo sarà possibile individuare una regione di
accettazione, costituita da quei valori della statistica compatibili con
il modello descritto dall’ipotesi nulla, e la complementare regione di
rifiuto.
Test del Chi quadrato
La distribuzione
della Statistica
test X2 sotto
l’ipotesi di 1 g.d.l
1 g.d.l
indipendenza è 2 g.d.l
2 g.d.l
quella di una
V.C. c2 che
dipende da un
parametro
rappresentato
dai Gradi di
Libertà. Nel caso
del test di
Indipendenza i 5 g.d.l 20 g.d.l
Gradi di Libertà
si ottengono
come (nr di
righe-1)(nr di
colonne -1)

Test del Chi quadrato


Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…
Test del Chi quadrato
Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…

Stabilisco a priori la
regione di accettazione e
di rifiuto selezionando un
opportuno valore critico
(cut-point)

Cut-point=4

Accettazione Rifiuto

Test del Chi quadrato


Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…

Stabilisco a priori la
regione di accettazione e
di rifiuto selezionando un
opportuno cut-point

Cut-point=4 alpha

Accettazione Rifiuto
Test del Chi quadrato
Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…

Stabilisco a priori il livello


di alpha…

alpha=0.05

Accettazione Rifiuto

Test del Chi quadrato


Una volta nota il modello probabilistico che descrive la distribuzione
della Statistica Test sotto l’ipotesi Nulla si procede a individuare una
regione di accettazione ed una regione di rifiuto…

Stabilisco a priori il livello


di alpha…

Cut-point alpha=0.05

Accettazione Rifiuto
Test del Chi quadrato

Il valore critico rappresenta


quel valore che separa la
regione di accettazione da
quella di rifiuto. Nel test del
chi-quadrato è il valore di
ascissa della variabile casuale
c2 che lascia alla sua destra
un’area pari ad alpha (livello di
significatività).

Test del chi-quadrato


Il valore osservato della statistica test è risultato, nel campione
selezionato, 22.02. Esso si trova a destra del valore critico e quindi
conduce a rifiutare H0 e ad accettare H1.

Il valore osservato,
sebbene sia possibile
che provenga da un
“mondo” in cui è vera
H0, difficilmente
22.02 potrebbe essere
spiegato solo attraverso
il fenomeno della
3.84
variabilità campionaria.
Si preferisce considerare
non plausibile l’ipotesi
Nulla

Accettazione Rifiuto
Test del Chi quadrato

 L’approccio descritto è quello dei test di


significatività (approccio alla Fisher) e non
consente di gestire in modo esplicito la
probabilità di commettere l’errore di II tipo. Gli
scenari compatibili con l’ipotesi alternativa
sono infatti infiniti ma per poter calcolare b, ho
bisogno di conoscere il modello probabilistico
della statistica test associato all’ipotesi
alternativa.

Test del Chi quadrato

 Affinché l’uso del modello di V.C. Chi quadrato


sia appropriato è necessario che tutte le
frequenze attese siano maggiori di 5
 La statistica del Chi quadrato è funzione diretta
della numerosità campionaria. Ciò significa che
in presenza di campioni molto numerosi il
valore della statistica test tende ad essere
molto grande anche in presenza di modesti
allontanamenti dall’ipotesi di indipendenza
Esercizio
Uno studio ha voluto valutare l’associazione tra l’uso di
diuretici e l’insorgenza di artrite gottosa. A tale scopo sono
stati selezionati 224 soggetti affetti da artrite e 145 soggetti
sani. E’ stato quindi valutato per ciascuno di questi se avesse
fatto uso o meno di diuretici nei 5 anni precedenti. L’uso
continuativo di diuretici è stato riscontrato in
187 soggetti affetti da artrite e 31 soggetti sani.
E’ possibile rifiutare l’ipotesi H0 di indipendenza fra l’uso di
diuretici e l’insorgenza di artrite gottosa, ad un livello di
significatività  pari a 0.05?
Supponiamo che, sulla base del risultato campionario, io
decida comunque di rifiutare l’ipotesi di indipendenza e
concluda per l’associazione tra l’uso di diuretici e l’insorgenza
di artrite gottosa. Qual è la probabilità che stia commettendo
un errore?

Scuola di Medicina e Chirurgia


Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica


Problema

Un gruppo di ricercatori sostiene che l'essere affetti da sindrome


epilettica induca una riduzione significativa della fase REM del
sonno. Quest'ultima nella popolazione dei soggetti "sani" e
normordormienti è in media pari a 1.2 ore, con uno scarto quadratico
medio pari a 0.79 ore. A tale scopo seleziona un campione di 78
soggetti affetti da epilessia i quali vengono sottoposti ad una
polisonnografia. Al termine dello studio la durata media della fase
REM nel campione risulta essere pari ad 1.04 ore.

La verifica delle ipotesi – un esempio


Assunzioni:
H 0 : m =1.2h Lo scarto quadratico medio è pari a 0.79h
Ipotesi
H1 : m < 1.2h N>>30  Teorema Centrale del limite

Campione: x1, x2, … , xn,


n

åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n

Se nel mio campione la media campionaria è


Regola di decisione: molto più piccola del valore ipotizzato sotto
l’ipotesi nulla sono portato a ritenere più plausibile
l’ipotesi alternativa.
La verifica delle ipotesi
Distribuzione della media campionaria sotto l’Ipotesi Nulla

f (m ) H0

s M = 0.79 78

1.2
M
In linea teorica qualunque evidenza campionaria (stima) potrebbe
provenire da un “mondo” in cui è vera H0

La verifica delle ipotesi


Distribuzione della media campionaria sotto l’ipotesi nulla

f (m ) H0

s M = 0.79 78

1.04 1.2
M
La differenza tra 1.04 (stima) e 1.2 (parametro sotto H0) può essere
“spiegata” solo attraverso il fenomeno della variabilità campionaria???
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi

f (m ) H0

s M = 0.79 78

1.2
M
Come nel caso del test del Chi quadrato, devo definire una opportuna
regola decisionale…

La verifica delle ipotesi


Distribuzione della media campionaria sotto le due ipotesi

f (m ) Valore critico H0

s M = 0.79 78

1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi

f (m ) Valore critico H0

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …

La verifica delle ipotesi


Distribuzione della media campionaria sotto le due ipotesi

f (m )Valore critico H0

s M = 0.79 78

1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi

f (m )Valore critico H0

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …

La verifica delle ipotesi


Distribuzione della media campionaria sotto le due ipotesi

f (m )Valore critico H0

s M = 0.79 78

a
1.2
M

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto le due ipotesi

f (m ) H0

Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …

La verifica delle ipotesi – un esempio


Assunzioni:
H 0 : m =1.2h Lo scarto quadratico medio è pari a 0.79h
Ipotesi
H1 : m < 1.2h N>>30  Teorema Centrale del limite

Campione: x1, x2, … , xn,


n

åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n

Se nel mio campione la media campionaria è


Regola di decisione: molto più piccola del valore ipotizzato sotto
l’ipotesi nulla sono portato a ritenere più plausibile
l’ipotesi alternativa.
La verifica delle ipotesi – un esempio
Assunzioni:
H 0 : m ³ 1.2h Lo scarto quadratico medio è pari a 0.79h
Ipotesi
H1 : m < 1.2h N>>30  Teorema Centrale del limite

Campione: x1, x2, … , xn,


n

åx i
Stima naturale m= i =1
= 1.04
del parametro
Sotto H0 M ∼N (1.2,0.79 78)
n

Se nel mio campione la media campionaria è


Regola di decisione: molto più piccola del valore ipotizzato sotto
l’ipotesi nulla sono portato a ritenere più plausibile
l’ipotesi alternativa.

La verifica delle ipotesi


Distribuzione della media campionaria sotto H0

H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto H0

H 0 : m ³ 1.2h
f (m ) H0 H0
H1 : m < 1.2h
Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …

La verifica delle ipotesi


Distribuzione della media campionaria H0

H 0 : m ³ 1.2h
f (m ) H0 H0
H1 : m < 1.2h
Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Come nel caso del test del Chi quadrato, devo definire una regola
decisionale …
La verifica delle ipotesi
Distribuzione della media campionaria sotto H0

H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

L’individuazione del valore critico dovrebbe avvenire ricorrendo ad una


integrazione definita: quale è il valore di una normale di media 1.2 e
deviazione standard pari a 0.79/√78 che lascia alla sua sinistra un’area
pari a alpha

La verifica delle ipotesi


Distribuzione della media campionaria sotto H0

H 0 : m ³ 1.2h
f (m ) H0
H1 : m < 1.2h
Valore critico

s M = 0.79 78

a
1.2
M
Rifiuto H0 Accetto H0

Tuttavia conosciamo il modo


Standardizzazione
di evitare simili “grattacapi”
analitici
La verifica delle ipotesi
f(z) Area sottesa alla curva di densità normale standardizzata calcolata tra -¥ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
z
0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6
Zc=1.645
0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999

La verifica delle ipotesi


f(z) Area sottesa alla curva di densità normale standardizzata calcolata tra -¥ez
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722

-z 0
0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
1.6
Zc=-1.645
0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
La verifica delle ipotesi

Il valore critico zc, utilizzando a=0.05, è pari (in termini di punteggio)


standard a -1.645
La regola di decisione prevede allora di trasformare in punteggio
standard la media campionaria osservata e confrontarlo con il valore
critico.
m - m0 Standardizzazione della media
zo = campionaria utilizzando come
f(z)
s n parametri quelli specificati sotto
l’ipotesi nulla

Conclusioni:

Se zo≤zc allora rifiuto H0

zcrit
Se zo>zc allora accetto H0
0
Rifiuto H0 AccettoH0

Verifica delle ipotesi


Formulo il sistema di ipotesi sul parametro di interesse

Fisso la probabilità di commettere un errore di primo tipo a

Definisco la Statistica Test  Principio della Stima Naturale


Sotto H0
Definisco la distribuzione della Statistica Test sotto H0

m - m0
zo = Statistica Test =
Stimatore-Parametro

s n Errore standard della Stimatore

Identifico la regione di accettazione e quella di rifiuto

Verifico se la statistica test osservata “cade” nella regione di


accettazione o in quella di rifiuto
Le ipotesi

H0 :   0 Sarò portato a ritenere più aderenti


H1 :   0 all’ipotesi alternativa i valori che si
discosteranno in misura eccezionale
da quello specificato sotto l’ipotesi
H0 :   0 nulla, facendo attenzione alla
direzione lungo la quale considerare
H1 :   0 “eccezionali” gli spostamenti.

H0 :   0 x  0 Se zo≥zc Accetta H0
zo 
H1 :   0  n Se zo< zc Accetta H1

Ipotesi Statistica Regola di decisione

Le ipotesi

H0 :   0 Sarò portato a ritenere più aderenti


H1 :   0 all’ipotesi alternativa i valori che si
discosteranno in misura eccezionale
da quello specificato sotto l’ipotesi
H0 :   0 nulla, facendo attenzione alla
direzione lungo la quale considerare
H1 :   0 “eccezionali” gli spostamenti.

H0 :   0 x  0 Se zo≤ zc Accetta H0
zo 
H1 :   0  n Se zo> zc Accetta H1

Ipotesi Statistica Regola di decisione


Le ipotesi
H 0 :   0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 :   0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.

H0
f (x )
Questo implica che la
probabilità associata all’errore a 2 a 2
di I° tipo sia ripartita
ugualmente nelle due code.
X
Regione di rifiuto
0 Regione di rifiuto

Regione di accettazione

La regione di accettazione viene così a definirsi come un intervallo


simmetrico rispetto al valore specificato sotto l’ipotesi nulla.

Le ipotesi
H 0 :   0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 :   0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.

H0
f (x )
Come nel caso di ipotesi
alternative unidirezionali a 2 a 2
dovrei individuare quei valori
di ascissa della distribuzione
della media campionaria che X
delimitano la regione di 0
accettazione x1 x2
Anche in questo caso è però possibile tradurre il problema in
termini di punteggi standard
Le ipotesi
H 0 :   0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 :   0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.

f ( z)
Considerate le caratteristiche della
distribuzione normale
a 2 a 2 standardizzata la regione di
accettazione è compresa tra due
valori simmetrici rispetto allo 0
Z
(uguali in valore assoluto ma di
0
segno opposto).
z1 z2

Le ipotesi
H 0 :   0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 :   0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori eccezionalmente più piccoli.

f ( z)
Considerate le caratteristiche della
distribuzione normale
0.025 0.025 standardizzata la regione di
accettazione è compresa tra due
valori simmetrici rispetto allo 0
Z
(uguali in valore assoluto ma di
0
segno opposto).
1.96 1.96

Ad esempio utilizzando un a pari a 0.05 i due valori che


delimitano la regione di accettazione sono -1.96 e +1.96
Le ipotesi
H 0 :   0 In questo caso devo ritenere più compatibili con
l’ipotesi alternativa sia valori eccezionalmente più
H1 :   0 grandi rispetto a quello specificato sotto l’ipotesi
nulla sia valori
f ( z ) eccezionalmente più piccoli.

a 2 a 2

Accetto H1 0 Accetto H1
 zc Accetto H0 zc
x  0 Se –zc ≤ zo ≤ +zc Accetta H0
zo 
 n Se zo<-zc oppure zo>+zc Accetta H1

Statistica Regola di decisione

Alcune considerazioni…

 La procedura descritta è valida sotto le


seguenti assunzioni:
 E’ nota la varianza 2 della popolazione

 La variabile X si distribuisce come una normale nella


popolazione di riferimento…

 … oppure la numerosità campionaria è sufficiente per


poter invocare il Teorema Centrale del Limite
Problema

Un gruppo di ricercatori sostiene che l'essere affetti da sindrome


epilettica induca una riduzione significativa della fase REM del
sonno. Quest'ultima nella popolazione dei soggetti "sani" e
normordormienti è in media pari a 1.2 ore. A tale scopo seleziona un
campione di 78 soggetti affetti da epilessia i quali vengono sottoposti
ad una polisonnografia. Al termine dello studio la durata media della
fase REM nel campione risulta essere pari ad 1.04 ora con uno
scarto quadratico medio corretto pari a 0.79 ore..

Verifica delle ipotesi –  non nota

Qualora non si conosca la varianza della popolazione è


necessario stimarla utilizzando le informazioni campionarie:

n
m - m0
å ( xi - m ) L’individuazione del valore
2
to = critico deve avvenire
s2 = i =1 s n utilizzando la tavola della
n -1 Statistica Test V.C. T di Student
Il valore critico deve essere letto in corrispondenza di un numero di
gradi di libertà pari a n-1 e del livello di significatività prescelto

H 0 : m ³ m0 m - m0 Se to≥tc Accetta H0
to =
H1 : m < m0 s n Se to< tc Accetta H1

Ipotesi Statistica Regola di decisione


Verifica delle ipotesi –  non nota

Qualora non si conosca la varianza della popolazione è


necessario stimarla utilizzando le informazioni campionarie:

n
m - m0
å ( xi - m ) L’individuazione del valore
2
to = critico deve avvenire
s2 = i =1 s n utilizzando la tavola della
n -1 Statistica Test V.C. T di Student
Il valore critico deve essere letto in corrispondenza di un numero di
gradi di libertà pari a n-1 e del livello di significatività prescelto

H 0 : m £ m0 m - m0 Se to≤tc Accetta H0
to =
H1 : m > m0 s n Se to> tc Accetta H1

Ipotesi Statistica Regola di decisione

Verifica delle ipotesi sulla proporzione


Qualora il parametro su cui si intende fare inferenza è rappresentato
dalla proporzione p e se si dispone di un campione sufficientemente
numeroso (n>30) è possibile invocare il teorema centrale del limite
e procedere alla verifica delle ipotesi utilizzando il modello di
riferimento della Variabile Casuale Normale Standard.

H0 : p  p 0 p p0 Se zo ≤ zc accetto H0
zo  N (0,1)
H1 : p  p 0 p 0 (1  p 0 ) / n Se zo > zc accetto H1

Ipotesi Statistica Test Decisione


f ( z)

Il valore zc è quell’ascissa della a


distribuzione Normale
Standardizzata che lascia alla sua
destra un area pari ad a Z
zc
Verifica delle ipotesi sulla proporzione
Qualora il parametro su cui si intende fare inferenza è rappresentato
dalla proporzione p e se si dispone di un campione sufficientemente
numeroso (n>30) è possibile invocare il teorema centrale del limite
e procedere alla verifica delle ipotesi utilizzando il modello di
riferimento della Variabile Casuale Normale Standard.

H0 : p  p 0 p p0 Se zo ≥ zc accetto H0
zo  N (0,1)
H1 : p  p 0 p 0 (1  p 0 ) / n Se zo < zc accetto H1

Ipotesi Statistica Test Decisione


f ( z)

Il valore zc è quell’ascissa della a


distribuzione Normale
Standardizzata che lascia alla sua
sinistra un area pari ad a Z
zc

Verifica delle ipotesi sulla proporzione


Qualora il parametro su cui si intende fare inferenza è rappresentato
dalla proporzione p e se si dispone di un campione sufficientemente
numeroso (n>30) è possibile invocare il teorema centrale del limite
e procedere alla verifica delle ipotesi utilizzando il modello di
riferimento della Variabile Casuale Normale Standard.

H0 : p  p 0 p p0 Se -zc ≤ zo ≤ zc accetto H0


zo  N (0,1)
H1 : p  p 0 p 0 (1  p 0 ) / n Altrimenti accetto H1

Ipotesi Statistica Test Decisione


f ( z)

Il valore zc è quell’ascissa della a 2 a 2


distribuzione Normale
Standardizzata che lascia alla sua
destra un area pari ad a/2 Z
-zc zc
Un esempio…

Intendete dimostrare che l’attività fisica rappresenta un


fattore di protezione per l’insorgenza di GERD. A tale
scopo estraete un campione di 50 individui che svolgono
regolare attività fisica e valutate la prevalenza della
patologia nel campione considerato. La proporzione
campionaria risulta pari a 0.16. Da studi precedenti siete
a conoscenza che la prevalenza nella popolazione che non
svolge attività fisica è invece pari a 0.21. Alla luce delle
informazioni campionarie acquisite è possibile, ad un
livello di significatività del 5%, concludere che
l’associazione ipotizzata esiste realmente?

Un esempio…

H0 rappresenta l’ipotesi che il ricercatore vuole


confutare a favore di quella alternativa. Nel
presente studio l’obiettivo è quello di H 0 : p  0.21
dimostrare che il regolare svolgimento di
attività fisica riduce il rischio di Malattia da H1 : p  0.21
Reflusso Gastroesofageo e quindi che la
prevalenza della patologia nella popolazione dei Ipotesi
soggetti che svolge attività fisica è minore di
quella che caratterizza la popolazione che non
ha “abitudini sportive”

Livello di significatività a=0.05

Statistica Test da Utilizzare = V.C. Proporzione Campionaria standardizzata

Distribuzione della Statistica Test: Sotto H0 P ha una distribuzione


normale di media 0.21 e varianza (0.21*0.79)/50
Un esempio…
H0
f ( p) p critico
Distribuzione della Stimatore: Sotto
H0 P ha una distribuzione normale a
di media 0.21 e varianza
(0.21*0.79)/50
P
0.21
Regione di rifiuto Regione di accettazione

p p0
zo   f ( z)
Accetto H0
p 0 (1  p 0 ) / n
a =0.05
0.16  0.21
  0.87
0.21(1  0.21) / 50 Z
zc =-1.645
Statistica Test Osservata

Misure di Associazione, Odds e Odds ratio


l’OR (parametro) di una popolazione può essere stimato
utilizzando il principio della stima naturale

Lo stimatore 𝑂𝑅 non ha la proprietà della


OR  Parametro
correttezza e presenta una distribuzione che
𝑜𝑟  Stima
si allontana dal modello normale
𝑂𝑅  Stimatore

Distribuzione simulata
dello stimatore OR
basata su 3000 campioni
di numerosità 200.
OR=4.4
Misure di Associazione, Odds e Odds ratio
La trasformazione logaritmica consente di riportare la
distribuzione dello stimatore a condizioni di “regolarità”

Distribuzione simulata dello


stimatore ln(OR) basata su
3000 campioni di
numerosità 200. OR=4.4

Misure di Associazione, Odds e Odds ratio


La trasformazione logaritmica consente di riportare la
distribuzione dello stimatore a condizioni di “regolarità”

ln(OR)  Parametro
ln(𝑜𝑟)  Stima
𝑙𝑛(𝑂𝑅)  Stimatore

1 1 1 1
𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22

L’errore standard dello stimatore 𝑙𝑛(𝑂𝑅) dipende non solo dalla numerosità
campionaria complessiva (n) ma anche dalla disposizione di n all’interno delle celle
della tabella di contingenza
Misure di Associazione, Odds e Odds ratio
1 1 1 1
𝑙𝑛(𝑂𝑅)~𝑁 ln 𝑂𝑅 , + + +
𝑛11 𝑛12 𝑛21 𝑛22

𝑙𝑛 𝑂𝑅 − ln 𝑂𝑅
~𝑍
1 1 1 1
𝑛11 + 𝑛12 + 𝑛21 + 𝑛22

E’ possibile utilizzare questo risultato per la costruzione di


intervalli di confidenza e per la verifica delle ipotesi sull’OR

Inferenza sull’Odds Ratio


• Verifica delle Ipotesi

Sistema di ipotesi Sistema di ipotesi


“naturale” su OR “naturale” su OR

𝐻𝑂 : 𝑂𝑅 = 1 𝐻𝑂 : ln(𝑂𝑅) = 0
𝐻1 : 𝑂𝑅 ≠ 1 𝐻1 : ln(𝑂𝑅) ≠ 0

Stima(tore) 𝑙𝑛 𝑜𝑟 − 0
Statistica test
1 1 1 1 Valore del parametro osservata
+ + +
𝑛11 𝑛12 𝑛21 𝑛22 sotto H0

Errore Standard dello


Stimatore
Facoltà di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirugia

Corso di Statistica Medica

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti

Supponiamo che si intenda studiare l’efficacia della Stimolazione


elettrica transcranica (tDCS) nell’alleviare il dolore cronico in soggetti
con trauma della colonna vertebrale. A tale scopo si seleziona un
campione di soggetti dalla popolazione di riferimento (???) che viene
suddiviso attraverso meccanismi di assegnazione casuale in due gruppi.
Al primo viene somministrato la tDCS mentre al secondo una
stimolazione “placebo” (SHAM) Al termine dello studio viene valutata
l’efficacia della terapia misurando l’intensità del dolore su scala VAS.

L’obiettivo può essere tradotto dal punto di vista statistico in quello di


stabilire se il punteggio VAS risulti, in media, minore tra coloro a cui è
stato somministrato il trattamento attivo rispetto a quanti hanno avuto
la Stimolazione fantasma.

Teoricamente è come se vi fossero due popolazioni: quella trattata e


quella non trattata e volessimo verificare se la media della variabile X
Punteggio su scala VAS del dolore è differente nelle due popolazioni ed
in particolare se in quella trattata essa risulta avere una media inferiore
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti

Assunzioni statistiche

Popolazione 1 - Trattati X N ( 1 ,  1 )
Popolazione 2 – Controlli X N ( 2 ,  2 )
Sistema di Ipotesi

H 0 : m1 ³ m2 ® m1 - m2 ³ 0 L’ipotesi nulla è quella che intendiamo


confutare e cioè che la tDCS non ha
H1 : m1 < m2 ® m1 - m2 < 0 effetti terapeutici.

Parametro di interesse
Evidenza campionaria

Campione 1 - Trattati x1, x2,…,xn1

Campione 2 – Controlli y1, y2,…,yn2

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti

Evidenza campionaria n1

x 1

Campione 1 - Trattati m1  i 1

x1, x2,…,xn1
n1 m1 - m2
n2
Stima naturale del
y 1 parametro di interesse
Campione 2 – Controlli m2  i 1

y1, y2,…,yn2 n2

Quanto più piccola sarà la differenza tra le medie campionarie nel


gruppo dei trattati e in quello dei controlli tanto più dovrò ritenere vera
l’ipotesi nulla. Per valutare quanto “più piccola” deve essere la
differenza (fermo restando il livello di significatività prescelto) devo
conoscere la distribuzione della statistica test
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti
Se X1 e X2 sono due variabili casuali normali (indipendenti) di media
1 e 2 e s.q.m. 1 e 2 , allora estraendo due campioni di
numerosità n1 e n2 dalle rispettive popolazioni’ la variabile casuale
Differenza delle Medie Campionarie M1-M2 segue anch’essa una
distribuzione normale con media pari alla differenza tra le due medie
e varianza pari alla somma delle varianze delle due v.c Media
Campionaria

Popolazione 1 X N ( 1 ,  1 )
Popolazione 2 X N ( 2 ,  2 )

  12  2 2 
M1  M 2 N  1  2 ,  
 n1 n2 

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti
Se X1 e X2 sono due variabili casuali (indipendenti) di media 1 e 2 e
s.q.m. 1 e 2 , allora estraendo due campioni di numerosità n1 e n2
dalle rispettive popolazioni, se n1 e n2 sono entrambi
sufficientemente grandi (>>30), in virtù del Teorema Centrale del
Limite, la variabile casuale Differenza delle Medie Campionarie
M1-M2 può essere approssimata da una distribuzione normale con
media pari alla differenza tra le due medie e varianza pari alla
somma delle varianze delle due v.c Media Campionaria
Popolazione 1 X ?( 1 ,  1 )
Popolazione 2 X ?( 2 ,  2 )

  12  2 2 
M1  M 2 N  1  2 ,  
 n1 n2 
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti

Sistema di Ipotesi
H 0 : m1 ³ m2 ® m1 - m2 ³ 0
H1 : m1 < m2 ® m1 - m2 < 0

Statistica Test
  12  2 2  Sotto H0
M1  M 2 N  1  2 ,  
 n1 n2  

 M1  M 2   0 N  0,1   12  2 2 
M1  M 2 N 0,  
 12  22  n n2 
 1 
n1 n2 Standardizzando

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti

Sotto H0:

 M1  M 2   0 =
( m -m )-0
N  0,1
1 2
zo
 12  22 s 12 s 22
 +
n1 n2 n1 n2
Statistica Osservata

Una volta calcolata la statistica osservata si confronta tale valore


con quello critico individuato tenendo conto della probabilità di
commettere un errore di primo tipo e della struttura del sistema
di ipotesi. La regola di decisione è identica a quella stabilita per la
verifica delle ipotesi su una singola popolazione
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti

Si assume di conoscere la
 M1  M 2   0 N  0,1
varianza della V.C. di interesse
nelle due popolazioni
 2
2 2
1

n1 n2
Quando ciò non accade è
necessario stimarla

Assunzione fondamentale
!
Per poter procedere si assume che, anche
12   22   2 se non note, le varianze che
caratterizzano la V.C. di interesse nelle
due popolazioni siano identiche.

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti
n1

 x  m 
2
i 1
Campione 1 x1, x2,…,xn1 s12  i 1

n1  1
n2

 y  m 
2
i 1
Campione 2 y1, y2,…,yn2
s 
2 i 1

n2  1
2

(n1  1) s12  (n2  1) s22


s pooled 2

n1  n2  2

Stima combinata (pooled) della varianza unica ma sconosciuta che


caratterizza la v.c. di interesse nelle due popolazioni ottenuta come
media artimetica ponderata delle stime della varianza in ciascuno dei
due campioni
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti

(M 1 )
- M 2 -0  M1  M 2   0  M1  M 2   0
s 12 s 22 1 1  1 1 
+ 2    S pooled 2   
n1 n2  1 n2 
n  n1 n2 
12   22   2 Stima di 2

Sotto H0 segue una Sotto H0 segue una


distribuzione normale distribuzione T di Student
standardizzata con n1+n2-2 g.d.l.

Una volta calcolata la statistica osservata si confronta tale valore con


quello critico individuato tenendo conto della probabilità a, della
struttura del sistema di ipotesi e del numero di g.d.l.. La regola di
decisione è identica a quella stabilita per la verifica delle ipotesi su una
singola media con 2 non nota

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti

Supponiamo che si intenda studiare l’efficacia della Stimolazione


elettrica transcranica (tDCS) nell’alleviare il dolore cronico in soggetti
con trauma della colonna vertebrale. A tale scopo si seleziona un
campione di soggetti dalla popolazione di riferimento (???) che viene
suddiviso attraverso meccanismi di assegnazione casuale in due gruppi.
Al primo viene somministrato la tDCS mentre al secondo una
stimolazione “placepo” (SHAM) Al termine dello studio viene valutata
l’efficacia della terapia misurando l’intensità del dolore su scala VAS.
I dati campionari ottenuti sono i seguenti:

n1=17; n2=22 Ad un livello di significatività del 5% è


possibile concludere che il nuovo
m1=5.9 pt; m2=6.4 pt trattamento è efficace nel ridurre il
dolore cronico in soggetti con trauma
s21=0.21 pt2; s22=0.23 pt2 della colonna vertebrale?

(17  1)  0.21  (22  1)  0.23


s 2p   0.22
17  22  2 
Verifica delle ipotesi: confronto tra le medie di due
popolazioni indipendenti

L’obiettivo è dimostrare che la


popolazione trattata (popolazione 1)
ha in media un punteggio VAS H 0 : m1 ³ m2 ® m1 - m2 ³ 0
inferiore alla popolazione trattata
con Stimolazione fantasma
(popolazione 2). Come sempre
H1 : m1 < m2 ® m1 - m2 < 0
l’obiettivo si traduce nella ipotesi
alternativa.

Livello di significatività a=0.05

Statistica Test da Utilizzare = V.C. Differenza delle Medie Campionarie

Assunzioni:
I. La V.C. Punteggio VAS nella popolazione dei trattati ed in quella dei
non trattati segue una distribuzione normale
II. Le varianze della V.C. Punteggio VAS nella popolazione dei trattati ed
in quella dei non trattati sono uguali

Verifica delle ipotesi: confronto tra le medie di due


popolazioni indipendenti

H 0 : m1 ³ m2 ® m1 - m2 ³ 0
H1 : m1 < m2 ® m1 - m2 < 0
f (t )
Statistica Test Osservata:

to 
 5.9  6.4   0  3.3
a =0.05

1 1
0.22    tc =-1.6871
T
17 22  RIFIUTO H0

Identificazione del valore critico:

a=0.05; g.d.l=37; Test unidirezionale a sinistra tc=-1.6871


Verifica delle ipotesi: confronto tra le medie di due
popolazioni dipendenti

Si intende studiare l’efficacia della Stimolazione elettrica transcranica


(tDCS) nell’alleviare il dolore cronico in soggetti con trauma della
colonna vertebrale. A tale scopo si seleziona un campione di soggetti
con trauma della colonna vertebrale su cui viene inizialmente valutata
l’intensità del dolore utilizzando una scala VAS. Al termine del periodo di
trattamento si procede ad una nuova valutazione. Cosa è cambiato?

Non vi sono più due (ipotetiche) popolazioni indipendenti (Trattati e non


Trattati) ma una stessa (ipotetica) popolazione prima e dopo un
trattamento. Ciascun elemento della popolazione prima del trattamento
ha il suo naturale corrispettivo nella popolazione dopo il trattamento.

Il parametro di interesse non è più la differenza tra le medie ma la


media delle differenze. Ciò su cui si fa inferenza non è quindi la
differenza tra le medie delle due popolazioni ma la media delle
differenze di ciascun valore della popolazione “prima” con il
corrispondente elemento della popolazione “dopo”.

Verifica delle ipotesi: confronto tra le medie di due


popolazioni dipendenti

Sistema di Ipotesi
d rappresenta la media di tutte le differenze che
posso definire tra il valore assunto da ciascuna
H 0 : d  0
unità della popolazione prima del trattamento
H1 : d  0 con quello riferito allo stesso individuo ma
misurato dopo il trattamento.

Evidenza campionaria

Campione 1 - Prima x1, x2,…,xn


d1=(x1-y1), d2=(x2-y2),…,dn=(xn-yn)
Campione 2 – Dopo y1, y2,…,yn
Verifica delle ipotesi: confronto tra le medie di due
popolazioni dipendenti

Definisco la Statistica Test  Principio della Stima Naturale

1 n Come nel caso di due popolazioni indipendenti,


md   di quanto più prossimo al valore 0 sarà la stima
n i 1 tanto più propenderemo per l’ipotesi nulla.

Distribuzione della Statistica Test sotto H0

Assumendo che le differenze tra coppie di valori corrispondenti si


distribuiscano normalmente nella popolazione, sotto H0 la V.C. Md si
distribuisce come una normale di media 0 e varianza 2d/n

N  0,  n
Md
Md 2
N  0,1
d
Standardizzando d n

Verifica delle ipotesi: confronto tra le medie di due


popolazioni dipendenti

E’ inverosimile ipotizzare di conoscere la varianza delle differenze 2d


che deve quindi essere stimata utilizzando la varianza campionaria
corretta calcolata non sui dati originari ma sulle differenze d1,d2,…,dn
n

  di  md 
2

Stima corretta della varianza 2d


s 
2 i 1

n 1
d

Md Md  0
N  0,1 Tn 1
d n Sd n
Stima di d
Una volta calcolato il valore campionario della statistica test lo confronto con il
valore critico e stabilisco quale delle due ipotesi accettare (esattamente come nel
caso della verifica dell’ipotesi per una media quando non è nota la varianza nella
popolazione)
Verifica delle ipotesi: confronto tra le medie di due
popolazioni dipendenti

Si intende studiare l’efficacia della Stimolazione elettrica transcranica


(tDCS) nell’alleviare il dolore cronico in soggetti con trauma della
colonna vertebrale. A tale scopo si seleziona un campione di 15 soggetti
con trauma della colonna vertebrale su cui viene inizialmente valutata
l’intensità del dolore utilizzando una scala VAS. Al termine del periodo di
trattamento si procede ad una nuova valutazione.
Soggetto Prima Dopo Differenze H 0 : d  0
1 5.7 5.2 -0.5
2 4.6 4.7 0.1 H1 : d  0
3 5.2 4.8 -0.4
4 4.8 5.2 0.4
5 5.4 4.7 -0.7 -0.5+ 0.1- 0.4...- 0.1
6 6.0 5.2 -0.8 md = = -0.31
7 5.3 4.9 -0.4 15
8 5.6 5.0 -0.6
9 5.6 5.1 -0.5 (0.5  (0.31)) 2  ...  (0.1  (0.31)) 2
10 5.7 5.7 0 s 
2
d  0.11
11 5.6 5.2 -0.4 14
12 5.1 4.6 -0.5
13 5.0 4.6 -0.4
0.31  0
14
15
4.8
4.8
4.9
4.7
0.1
-0.1 to   3.6 tc  ???
0.11/15

Tavola della distribuzione T di Student


Gradi di Area nella coda di sinistra
libertà 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
5 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.7074


7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
10 1.3722 1.8125 2.2281 2.7638 3.1693

Valore critico per un test 11 1.3634 1.7959 2.2010 2.7181 3.1058

unidirezionale a sinistra con un


12 1.3562 1.7823 2.1788 2.6810 3.0545
13 1.3502 1.7709 2.1604 2.6503 3.0123

livello di significatività pari al


14 1.3450 1.7613 2.1448 2.6245 2.9768
15 1.3406 1.7531 2.1314 2.6025 2.9467

5% ed un numero di g.d.l pari a 16


17
1.3368
1.3334
1.7459
1.7396
2.1199
2.1098
2.5835
2.5669
2.9208
2.8982
14 18
19
1.3304
1.3277
1.7341
1.7291
2.1009
2.0930
2.5524
2.5395
2.8784
2.8609
20 1.3253 1.7247 2.0860 2.5280 2.8453
-1.7613 21 1.3232 1.7207 2.0796 2.5176 2.8314
22 1.3212 1.7171 2.0739 2.5083 2.8188
23 1.3195 1.7139 2.0687 2.4999 2.8073
24 1.3178 1.7109 2.0639 2.4922 2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787


27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
30 1.3104 1.6973 2.0423 2.4573 2.7500
Verifica delle ipotesi: confronto tra le medie di due
popolazioni dipendenti

Si intende studiare l’efficacia della Stimolazione elettrica transcranica


(tDCS) nell’alleviare il dolore cronico in soggetti con trauma della
colonna vertebrale. A tale scopo si seleziona un campione di 15 soggetti
con trauma della colonna vertebrale su cui viene inizialmente valutata
l’intensità del dolore utilizzando una scala VAS. Al termine del periodo di
trattamento si procede ad una nuova valutazione.
Soggetto Prima Dopo Differenze H 0 : d  0
1 5.7 5.2 -0.5
2 4.6 4.7 0.1 H1 : d  0
3 5.2 4.8 -0.4
4 4.8 5.2 0.4
5 5.4 4.7 -0.7 0.5  0.1  0.4...  0.1
6 6.0 5.2 -0.8 xd   0.31
7 5.3 4.9 -0.4 15
8 5.6 5.0 -0.6
9 5.6 5.1 -0.5 (0.5  (0.31)) 2  ...  (0.1  (0.31)) 2
10 5.7 5.7 0 s 
2
d  0.11
11 5.6 5.2 -0.4 14
12 5.1 4.6 -0.5
13 5.0 4.6 -0.4
0.31  0
14
15
4.8
4.8
4.9
4.7
0.1
-0.1 to   3.6 tc  1.76
0.11/15

Verifica delle ipotesi: confronto tra le medie di due


popolazioni dipendenti

Si intende studiare l’efficacia della Stimolazione elettrica transcranica


(tDCS) nell’alleviare il dolore cronico in soggetti con trauma della
colonna vertebrale. A tale scopo si seleziona un campione di 15 soggetti
con trauma della colonna vertebrale su cui viene inizialmente valutata
l’intensità del dolore utilizzando una scala VAS. Al termine del periodo di
trattamento si procede ad una nuova valutazione.
Soggetto Prima Dopo Differenze H 0 : d  0 0.31  0
1 5.7 5.2 -0.5 to   3.6 tc  1.76
2 4.6 4.7 0.1 H1 : d  0 0.11/15
3 5.2 4.8 -0.4
f(t)
4 4.8 5.2 0.4
5 5.4 4.7 -0.7
6 6.0 5.2 -0.8
7 5.3 4.9 -0.4
8 5.6 5.0 -0.6
9 5.6 5.1 -0.5
10 5.7 5.7 0
11 5.6 5.2 -0.4
12 5.1 4.6 -0.5
tc t
13
14
5.0
4.8
4.6
4.9
-0.4
0.1
0
15 4.8 4.7 -0.1 Rifiuto H0 Accetto H0
Verifica delle ipotesi: confronto tra due proporzioni

Intendete dimostrare che la proporzione di soggetti con almeno una carie


è maggiore nella popolazione dei fumatori che in quella dei non fumatori.

Di nuovo l’assunzione implicita è che esistano due ipotetiche popolazioni


(fumatori e non fumatori) ciascuna caratterizzata da una propria
prevalenza della carie. L’obiettivo è dimostrare che nei fumatori la
prevalenza è maggiore. A tale scopo si estraggono due campioni di
numerosità n1 e n2 dalle rispettive popolazioni.

Siano p1 e p2 i parametri (proporzioni) riferiti alle due popolazioni. In


termini statistici il sistema di ipotesi che intendete verificare è:

Sistema di Ipotesi
Parametro di interesse:
H0 : p1  p 2 =p  p1  p 2  0 Differenza di proporzioni

H1 : p1  p 2  p1  p 2  0

Verifica delle ipotesi: confronto tra due proporzioni

Intendete dimostrare che la proporzione di soggetti con GERD è


maggiore nella popolazione dei fumatori che in quella dei non fumatori.

Di nuovo l’assunzione implicita è che esistano due ipotetiche popolazioni


(fumatori e non fumatori) ciascuna caratterizzata da una propria
prevalenza di GERD. L’obiettivo è dimostrare che nei fumatori la
prevalenza è maggiore.

Siano p1 e p2 i parametri (proporzioni) riferiti alle due popolazioni.

Evidenza campionaria
Proporzione di persone con GERD
Campione 1 - Fumatori p1
nel campione dei fumatori

Campione 2 – non Fumatori p2 Proporzione di persone con GERD


nel campione dei non fumatori
Verifica delle ipotesi: confronto tra due proporzioni

Intendete dimostrare che la proporzione di soggetti con GERD è


maggiore nella popolazione dei fumatori che in quella dei non fumatori.

Di nuovo l’assunzione implicita è che esistano due ipotetiche popolazioni


(fumatori e non fumatori) ciascuna caratterizzata da una propria
prevalenza di GERD. L’obiettivo è dimostrare che nei fumatori la
prevalenza è maggiore.

Siano p1 e p2 i parametri (proporzioni) riferiti alle due popolazioni.

Definisco la Statistica Test  Principio della Stima Naturale

p1-p2 Differenza tra le proporzioni campionarie

Quanto più grande sarà tale differenza, quanto più cioè nei fumatori del campione la
proporzione di soggetti con GERD sarà maggiore di quello osservato nei non fumatori tanto
più dovrò ritenere verosimile l’ipotesi alternativa. Per capire quanto “più grande” devo
determinare la distribuzione della statistica sotto H0

Verifica delle ipotesi: confronto tra due proporzioni

Definisco la distribuzione della Statistica Test sotto H0

Sotto l’ipotesi nulla in cui le due proporzioni sono entrambe


uguali al valore p, la V.C. P1-P2 segue una distribuzione normale
di media 0 e varianza pari a p(1-p)[(1/n1)+(1/n2)]

La proporzione comune p è però ignota ed è necessaria stimarla


utilizzando l’evidenza campionaria

numero di eventi osservati in entrambi i campioni


p=
numerosità complessiva dei due campioni

Sotto l’ipotesi nulla in cui le due proporzioni sono entrambe uguali al


valore p, la V.C. P1-P2 segue (approssimativamente) una distribuzione
normale di media 0 e varianza pari a p(1-p)[(1/n1)+(1/n2)]
Verifica delle ipotesi: confronto tra due proporzioni

Definisco la distribuzione della Statistica Test sotto H0


Una volta calcolata la statistica osservata si
  1 1  confronta tale valore con quello critico
P1  P2 N 0, P (1  P )     individuato tenendo conto della probabilità
  n1 n2   a e della struttura del sistema di ipotesi. La
regola di decisione è identica a quella
stabilita per la verifica delle ipotesi su una
singola proporzione

Standardizzando

P1  P2 p1  p2
N  0,1
1 1  1 1 
P(1  P)    p(1  p)   
Valore osservato  n1 n2 
 n1 n2  della statistica test

Verifica delle ipotesi: confronto tra due proporzioni

Intendete dimostrare che la proporzione di soggetti con GERD è


maggiore nella popolazione dei fumatori che in quella dei non fumatori.

A tale scopo estraete un campione di 45 fumatori e 37 non fumatori ed


osservate quanti di questi soggetti presentano GERD. Nel campione dei
fumatori il numero di persone con GERD è pari a 32, mentre in quello dei
non fumatori esso risulta 23. Ad un livello di significatività del 5% è
possibile affermare che il fumo è un fattore di rischio per l’insorgenza di
GERD?
Scuola di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica

Problema

Un gruppo di ricercatori sostiene che l'essere affetti da sindrome


epilettica induca una riduzione significativa della fase REM del
sonno. Quest'ultima nella popolazione dei soggetti "sani" e
normordormienti è in media pari a 1.2 ore, con uno scarto quadratico
medio pari a 1.79 ore. Si vuole invece verificare che nella
popolazione dei soggetti epilettici si abbia una riduzione del 25%
della durata della fase REM. A tale scopo si progetta di arruolare un
campione di 48 soggetti affetti da epillessia i quali verranno sottoposti
ad una polisonnografia…..
La verifica delle ipotesi – un esempio
Assunzioni:
H 0 : m =1.2h Lo scarto quadratico medio è pari a 1.79h
Ipotesi
H1 : m = 0.9h N>>30  Teorema Centrale del limite

Sotto H0 : M N (1.2,1.79 48)

Sotto H1 : M N (0.9,1.79 48)

Se nel mio campione la media campionaria è


Regola di decisione: molto più piccola del valore ipotizzato sotto
l’ipotesi nulla sono portato a ritenere più plausibile
l’ipotesi alternativa.

La struttura di un test statistico

Decisione assunta in base alla regola di


decisione
H0 H1
Ipotesi vera nella

Accetto H1 ma è vera H0
Accetto H0
H0 Decisione errata
popolazione

Decisione corretta Errore di I° Tipo

Accetto H0 ma è vera H1 Accetto H1


H1 Decisione errata
Errore di II° Tipo Decisione corretta

Si tratta (come al solito) di uno schema teorico dal


momento che l’informazione contenuta sulle righe
! non è a disposizione del ricercatore
La struttura di un test statistico
1    P(Accettare H 0 | H 0 è vera)   P(Accettare H1 | H 0 è vera)
Decisione assunta in base alla regola di
decisione Livello di Significatività
Ipotesi vera nella H0 H1

Accetto H1 ma è vera H0
Accetto H0 Decisione errata
H0
popolazione

Decisione corretta Errore di I° Tipo

Accetto H0 ma è vera H1 Accetto H1


H1 Decisione errata
Decisione corretta
Errore di II° Tipo

  P(Accettare H 0 | H1 è vera) 1    P(Rifiutare H 0 | H1 è vera)

Potenza del test

f(m) Funzione d densità dello Stimatore Media Campionaria


1.8
"H0"

1.6 "H1"

1.4

1.2

0.8
1.79/√48 1.79/√48
0.6

0.4

0.2

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h
f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6

0.4

0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M

zc = -1.645
mc - m 0 s s
zc = Û mc - m 0 = zc ´ Û mc = zc ´ + m0
s n n
n
1.79
mc = -1.645´ +1.2 = 0.775
48
f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6

0.4

0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775

f(m) b = P(Accettare H0|H0 è falsa)


1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6 =???
0.4

0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
b = P(Accettare H0|H0 è falsa)
b = P(M > 0.775 | H0 è falsa)
æ 1.79 ö
H0 è falsa Þ M ~ N ç 0.9, ÷
è 48 ø
æ ö
ç 0.775 - 0.9 ÷
b = P(M > 0.775 | H0 è falsa) Û Pç Z > ÷
çç 1.79 ÷
÷
è 48 ø
b = P ( Z > -0.456) = 0.676

f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6 =0.676
0.4

0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6 =0.676
0.4 1=0.324
0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775

Problema

Un gruppo di ricercatori sostiene che l'essere affetti da sindrome


epilettica induca una riduzione significativa della fase REM del
sonno. Quest'ultima nella popolazione dei soggetti "sani" e
normordormienti è in media pari a 1.2 ore, con uno scarto quadratico
medio pari a 1.79 ore. Si vuole invece verificare che nella
popolazione dei soggetti epilettici si abbia una riduzione del 25%
della durata della fase REM. A tale scopo si progetta di arruolare un
campione di 148 soggetti affetti da epillessia i quali verranno
sottoposti ad una polisonnografia…..
f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8
1.79/√48 1.79/√48
0.6

0.4

0.2

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h

f(m)
3
"H0"

"H1"
2.5

1.5
1.79/√148 1.79/√148

0.5

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
0.9h 1.2h
zc = -1.645
mc - m 0 s s
zc = Û mc - m 0 = zc ´ Û mc = zc ´ + m0
s n n
n
1.79
mc = -1.645´ +1.2 = 0.958
148

f(m)
3
"H0"

"H1"
2.5

1.5

0.5

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958
f(m) b = P(Accettare H0|H0 è falsa)
3
"H0"

"H1"
2.5

1.5

1 =???

0.5

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958

b = P(Accettare H0|H0 è falsa)


b = P(M > 0.958 | H0 è falsa)
æ 1.79 ö
H0 è falsa Þ M ~ N ç 0.9, ÷
è 148 ø
æ ö
ç 0.958 - 0.9 ÷
b = P(M > 0.958 | H0 è falsa) Û Pç Z > ÷
çç 1.79 ÷
÷
è 148 ø
b = P ( Z > 0.371) = 0.355
f(m) b = P(Accettare H0|H0 è falsa)
3
"H0"

"H1"
2.5

1.5

1 1=0.645
=0.355

0.5

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.958

f(m)
1.8
"H0"

1.6 "H1"

1.4

1.2

0.8

0.6 =0.676
0.4 1=0.324
0.2

0.05
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 M
valore critico=0.775
Calcolo della Numerosità
Campionaria
Sotto H0 : M N (1.2,1.79 48)
Ipotesi
H 0 : m =1.2h
H1 : m = 0.9h Sotto H1 : M N (0.9,1.79 48)

Ipotesi
H 0 : m =m0 Nell’esempio 0 è pari a 1.2h e il
valore di D è 0.3
H1 : m = m0 - D
Si rifiuta H0 quando si osserva un
1- b = P(Rifiutare H0 | H0 è falsa) valore della statistica Test inferiore
al valore di z critico

  z1- è il valore di ascissa di una


M   
1   P  0
z | H0 è falsa  normale standardizzata che lascia
1
   alla sua destra un’area pari a 1-
 n  alla sua sinistra un’area pari ad 
(ad esempio -1.645 se =0.05)

Calcolo della Numerosità


Campionaria
 
M    Aggiungiamo ad entrambi i termini
1   P  0
z | H0 è falsa  D
1
   della diseguaglianza la quantità s n
 n 

æ ö æ ö
çM -m +D D ÷ ç M - (m - D) D ÷
1- b = Pç 0
< z1-a + | H0 è falsa ÷ 1- b = Pç 0
< z1-a + | H0 è falsa ÷
çç s s n ÷÷ çç s s n ÷÷
è n ø è n ø

M - (m0 - D)
~ N(0,1) Sotto H1 la media dello
H0 è Falsa (H1 è vera) s stimatore M è pari a 0-D
n
Rappresenta il valore di ascissa
æ D ö D di una normale standardizzata
1- b = Pç Z < z1-a + ÷ z1-a +
è s nø s n che lascia alla sua sinistra
un’area pari a 1- e alla sua
destra un’area pari a 
Calcolo della Numerosità
Campionaria
Rappresenta il valore di ascissa
æ D ö D di una normale standardizzata
1- b = Pç Z < z1-a + ÷ z1-a + che lascia alla sua sinistra
è s nø s n
un’area pari a 1- e alla sua
destra un’area pari a 

D D D n
z1-a + = zb z1-a - zb = - =-
s n s n s

( z1-a - zb )s = -D n -
( z a - zb ) s
1-
= n
D
é ( z1-a - zb ) s ù
2
z è generalmente positivo (<0.5)
n=ê ú mentre z1- è generalmente negativo
(<<0.5)
êë D úû

Calcolo della Numerosità


Campionaria
z è generalmente positivo (<0.5)  rappresenta la deviazione standard
mentre z1- è generalmente negativo della variabile X (la cui media è
(<<0.5). Il primo consente di oggetto di inferenza) all’interno della
tenere sotto controllo l’errore di popolazione. Compare all’interno della
primo tipo mentre il secondo formula perché è presente nella
consente di controllare l’errore di II variabilità dello Stimatore Media
tipo. Campionaria M

é ( z1-a - zb ) s ù é ( za + zb ) s ù
2 2

n=ê ú =ê ú
êë D úû êë D úû

D rappresenta la differenza clinicamente rilevante rispetto alla stato


attuale della conoscenza che la ricerca intende evidenziare. Minore è
il valore di D, maggiore è la numerosità campionaria richiesta…
Problema

Un gruppo di ricercatori sostiene che l'essere affetti da sindrome


epilettica induca una riduzione significativa della fase REM del
sonno. Quest'ultima nella popolazione dei soggetti "sani" e
normordormienti è in media pari a 1.2 ore, con uno scarto quadratico
medio pari a 1.79 ore. Si vuole invece verificare che nella
popolazione dei soggetti epilettici si abbia una riduzione del 25%
della durata della fase REM. Quale è la numerosità campionaria
necessaria per poter costruire una regola decisionalea cui sia
associata una probabilità  pari a 0.05 e un potenza (1-) pari a 0.8?

Problema

 I dati:
 =0.05 z = 1.645

 1-=0.8 z = 0.842

 D=0.3
 =1.79

é ( za + zb ) s ù é (1.645+ 0.842)1.79 ù2
2

n=ê ú =ê ú = 220.2 » 221


êë D úû ë 0.3 û
Problema
 I dati:
 =0.05 z = 1.645

 1-=0.8 z = 0.842 n = 221


 D=0.3
 =1.79
La regola decisionale sarà quella di rifiutare H0 ogni qual volta il
valore osservato della statistica test sarà inferiore a -1.645

Il termini di Media campionaria il valore critico sarà pari a:

1.79
mc  1.645   1.2  1.00
221

Problema

La regola decisionale così “costruita” avrà due caratteristiche (nel


long run)

Se i campioni provengono da una popolazione in cui è vera H0,


allora la regola decisionale porterà ad accettare (correttamente)
l’ipotesi nulla in una percentuale di volte pari al 95% e a rifiutarla
(erroneamente) in una percentuale di volte pari al 5%

Se i campioni provengono da una popolazione in cui è vera H1,


allora la regola decisionale porterà ad accettare (erroneamente)
l’ipotesi nulla in una percentuale di volte pari al 20% e a rifiutarla
(correttamente) in una percentuale di volte pari all’80%
Sample size per la differenza tra le medie
di due popolazioni indipendenti

H 0 : mT =mC Û mT -mC = 0
H1 : mT =mC + D Û mT -mC = D con D Î R
nT = nC

( za + zb ) (s T2 + s C2 ) ( za + zb )
2 2
s2
nT = =2 Se s T2 = s C2
D2 D2
1-β, la potenza desiderata

funzione crescente di σ2, la varianza della misura principale di


outcome nelle due popolazioni

 , Il livello di significatività
funzione decrescente di Δ la differenza, clinicamente significativa, tra le
medie delle due popolazioni (|T - C|) che si
intende evidenziare

Esempio…
 A randomized, double-blind, clinical trial comparing the efficacy
and safety of Crocus sativus L. with fluoxetine for improving mild
to moderate depression in post percutaneous coronary
intervention patients 2014. The Lancet 377(9762) pp 312—320
 Objectives: A significant correlation exists between coronary
artery diseases and depression. The aim of this trial was to
compare the efficacy and safety of saffron versus fluoxetine in
improving depressive symptoms of patients who were suffering
from depression after performing percutaneous coronary
intervention (PCI).
 Primary endpoints and hypotheses. HDRS was the efficacy
assessment measure used in this study. The primary outcome
measure with respect to efficacy was the mean decrease in HDRS
score from baseline to the study endpoint which was compared
between two groups.
 Power Analysis: Assuming a clinically significant difference of 3.5
on the HDRS with a standard deviation (SD) of 3.5, a power of
80%, and 2-sided significance level of 5%, a minimal sample size
of 32 was calculated.
Sample size per un test su una
singola proporzione
H 0 : p =p 0
H1 : p =p 1 = p 0 + D con D Î R
é z p (1- p ) + z p (1- p ) ù
2

n=ê a 0 0 b 1 1
ú
êë D úû

funzione crescente di 1-β, la potenza desiderata

funzione decrescente di Δ la differenza clinicamente significativa tra


le proporzioni sotto le due ipotesi

funzione non monotona di I valori ipotizzati della proporzione


sotto le due ipotesi

Sample size per la differenza tra due


proporzioni
H 0 : p T =p C Û p T -p C = 0
H1 : p T =pC + D Û p T -p C = D con D Î R
é z 2p (1- p ) + z p (1- p ) + p (1- p ) ù
2
p +p
nT = ê a b C C T T
ú con p = C T
êë D úû 2

funzione crescente di 1-β, la potenza desiderata

α, Il livello di significatività
funzione decrescente di Δ la differenza tra la proporzione di soggetti che
presenta la caratteristica nelle due popolazioni

pt la proporzione di soggetti che presenta la


funzione non motonona di caratteristica nella popolazione dei trattati
pc la proporzione di soggetti che presenta la
caratteristica della popolazione dei controlli
Esempio
Superiority of 3 Over 2 Doses of Intermittent Preventive Treatment With Sulfadoxine-
Pyrimethamine for the Prevention of Malaria During Pregnancy in Mali: A Randomized
Controlled Trial. Clin Infect Dis. (2011) 53 (3): 215-223.
Objectives: We conducted a parallel-group, open-label, individually randomized
controlled superiority trial to compare the efficacy and safety of 3-dose versus 2-dose
of intermittent preventive therapy in pregnancy (ITPp) with sulfadoxine-
pyrimethamine (SP) IPTp-SP for the prevention of placental malaria.
Primary Endpoint The primary endpoint was placental malaria infection (asexual
stage parasites, any species).
Power Analysis. The study was designed to detect an absolute reduction of 7.5% in
the prevalence of placental malaria from 15% in the 2-dose group and required 280
women in each treatment arm (α = 0.05; power, 80%). To allow for 5%
noncompliance and 20% loss-to-follow-up, 406 individuals were recruited per arm.

Scuola di Medicina e Chirurgia


Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica


La correlazione lineare

 L’obiettivo conoscitivo di molti studi


clinici è quello di studiare la relazione
tra due variabili numeriche (di seguito
X e Y) per capire se e in che misura
l’andamento dell’una è influenzato
dall’andamento dell’altro
 La relazione può avere una
direzionalità (una variabile influenza
l’altra) oppure essere simmetrica

Correlazione lineare
Y
X Y
x1 y1
x2 y2
yi
… …
xi yi
… …
xn yn X
xi
Correlazione lineare
Relazione diretta lineare Relazione inversa lineare Relazione diretta non lineare

Relazione parabolica Assenza di relazione

Correlazione lineare

xi - x

yi - y
y
yk - y
xk - x

X
x
In caso di relazione lineare diretta la “maggior parte” delle
differenze tra i valori individuali e le rispettive medie (scarti)
avranno segni algebrici concordi (+,+) o (-,-)
Correlazione lineare
Y
xk - x
yk - y
y
yi - y
xi - x

X
x

In caso di relazione lineare inversa la “maggior parte” degli scarti


avrà segni algebrici discordi(+,-) o (-,+)

Correlazione lineare
Y

X
x

In caso di assenza di relazione…


Y

X
x

In caso di assenza di relazione lineare…

Correlazione lineare

 La covarianza è un indicatore che sfrutta le


proprietà geometriche/algebriche della nube
dei punti per quantificare la natura e l’intensità
della (eventuale) relazione lineare tra le due
variabili
n

  x  x  y  y 
i i
Cov( X , Y )  i 1

n
Correlazione lineare

Cov(X,Y) > 0 Cov(X,Y) < 0 Cov(X,Y) @ 0

Il segno algebrico della covarianza offre


informazioni sulla direzionalità (diretta se
positiva o inversa se negativa) della relazione
lineare. Un valore della covarianza prossimo
allo 0 indica l’assenza di relazione lineare e
non necessariamente l’assenza di una forma
Cov(X,Y) @ 0 diversa di relazione

Correlazione lineare (Esercizio)

560
Pressione Volume
(mmHg) (cm3) 550

110 500 540

130 510 530


Volume (cm3)

130 510 520


150 550
510
150 540
500
140 540
490
110 480
120 490 480

470
80 90 100 110 120 130 140 150 160

Pressione (mmHg)
Correlazione lineare

Scarti Algebrici
Prodotto degli
Pressione (mmHg) Volume (cm3) Pressione (mmHg) Volume (cm3)
scarti
110 500 -20 -15 300
130 510 0 -5 0
130 510 0 -5 0
150 550 20 35 700
150 540 20 25 500
140 540 10 25 250
110 480 -20 -35 700
120 490 -10 -25 250
Valore Medio 130 515 0 0 337.5

Correlazione lineare

Scarti Algebrici
Prodotto degli
Pressione (mmHg) Volume (m3) Pressione (mmHg) Volume (cm3)
scarti
110 0.0005 -20 -0.000015 0.0003
130 0.00051 0 -5E-06 0
130 0.00051 0 -5E-06 0
150 0.00055 20 0.000035 0.0007
150 0.00054 20 0.000025 0.0005
140 0.00054 10 0.000025 0.00025
110 0.00048 -20 -0.000035 0.0007
120 0.00049 -10 -2.5E-05 0.00025
Valore Medio 130 0.000515 0 -3.38813E-20 0.0003375
Correlazione lineare

 L’ordine di grandezza di un indicatore dipende


dalla sua unità di misura.
 L’unità di misura della
n
Covarianza
  x  x  y  y 
i i
Cov( X , Y )  i 1

n
è il prodotto delle unità di misure delle due
variabili.
 Cambiando l’unità di misura di una (o di
entrambe) le variabili cambia, in misura
proporzionale, anche il valore della Covarianza.

Correlazione lineare

 E’ possibile dimostrare (Diseguaglianza di


Cauchy-Swartz) che il valore (assoluto) della
Covarianza non può mai eccedere quello
derivante dal prodotto degli scarti quadratici
medi dei due insiemi di dati:

Cov( X , Y )   X   Y
 L’uguaglianza vale solo e soltanto nel caso in cui
tra le due variabili esista una proporzionalità
diretta (i punti giacciono su un segmento di
retta)
Correlazione lineare

 La diseguaglianza di Cauchy-Swartz può essere


utilizzata per derivare un indice normalizzato
(Coefficiente di Correlazione Lineare):
Cov( X , Y )
r
 X Y
 Il coefficiente r ha un segno algebrico dato
dalla Covarianza e una intensità che, in virtù
della diseguaglianza di Cauchy-Swartz, è
limitata dai due estremi {-1 ; +1}

Correlazione lineare

 r varia tra -1 e +1
 r=1 se e soltanto se i punti giacciono su un segmento di
retta con pendenza positiva (qualunque essa sia)
 r=-1 se e soltanto se i punti giacciono su un segmento di
retta con pendenza negativa(qualunque essa sia)
 r non cambia se i valori di X e di Y sono moltiplicati per
una costante o sono traslati di una costante
 r misura il grado di collinearità dei punti
 r tende ad essere prossimo allo 0 in caso di assenza di
relazione lineare tra i punti
Correlazione lineare

Correlazione lineare

Scarti Algebrici al
Scarti Algebrici Prodotto quadrato
Pressione Volume Pressione Volume degli scarti Pressione Volume
3
(mmHg) (m ) (mmHg) (cm3) (mmHg) (cm3)
110 500 -20 -15 300 400 225
130 510 0 -5 0 0 25
130 510 0 -5 0 0 25
150 550 20 35 700 400 1225
150 540 20 25 500 400 625
140 540 10 25 250 100 625
110 480 -20 -35 700 400 1225
120 490 -10 -25 250 100 625
Valore Medio 130 515 0 0 337.5 225 575

s Pressione = 225 =15 Cov(Pressione,Volume) 337.5


r   0.938
s Volume = 575 = 24  Pressione   Volume 15  24

N.B. I calcoli usano la massima precisione ma per questione di comodità i valori mostrati sono arrotondati
Correlazione lineare

Scarti Algebrici al
Scarti Algebrici Prodotto quadrato
Pressione Volume Pressione Volume degli scarti Pressione Volume
3
(mmHg) (m ) (mmHg) (cm3) (mmHg) (cm3)
110 0.0005 -20 -0.000015 0.0003 400 2.25E-10
130 0.00051 0 -0.000005 0 0 2.5E-11
130 0.00051 0 -0.000005 0 0 2.5E-11
150 0.00055 20 0.000035 0.0007 400 1.225E-09
150 0.00054 20 0.000025 0.0005 400 6.25E-10
140 0.00054 10 0.000025 0.00025 100 6.25E-10
110 0.00048 -20 -0.000035 0.0007 400 1.225E-09
120 0.00049 -10 -2.5E-05 0.00025 100 6.25E-10
Valore Medio 130 0.000515 0 0 0.0003375 225 5.75E-10

s Pressione = 225 =15 Cov(Pressione,Volume)


r  0.938
s Volume = 0.00000000058 = 0.000024  Pressione   Volume
N.B. I calcoli usano la massima precisione ma per questione di comodità i valori mostrati sono arrotondati

Correlazione lineare

r = 0.90

r = 0.04
Correlazione lineare

r <0
ri > 0

Correlazione lineare

 r è una statistica campionaria poiché


calcolata su un campione estratto
dalla popolazione di riferimento
 Il reale obiettivo conoscitivo è il
corrispondente parametro (ρ) e cioè il
coefficiente di correlazione definito
sull’intera popolazione di riferimento
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la
V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e
dalle varianze delle due
V.C. ma anche dalla loro
correlazione

Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=0


V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e
dalle varianze delle due
V.C. ma anche dalla loro
correlazione
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=0 Bivariate Normal Distribution


r=0
V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli
elementi della
0.10

0.08
popolazione. La z 0.06 4
funzione di densità della 0.04

V.C. normale bivariata


2
0.02

dipende dalle medie e −4


0

y
dalle varianze delle due
−2
−2
0

V.C. ma anche dalla loro


x 2
4 −4

correlazione

Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=0


r=0
V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e
dalle varianze delle due
V.C. ma anche dalla loro
correlazione
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=0.3


V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le f(x,y)
possibili coppie x e y
che caratterizzano gli
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e
dalle varianze delle due
X Y
V.C. ma anche dalla loro
correlazione

Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=0.8


V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli f(x,y)
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e Y
dalle varianze delle due
V.C. ma anche dalla loro
correlazione X
Correlazione lineare
Siano X e Y due V.C. Normali riferite ad una stessa popolazione di
riferimento P

E’ possibile definire la r=-0.8


V.C. doppia (bivariata)
[X,Y] che descrive, in
termini probabilistici, le
possibili coppie x e y
che caratterizzano gli f(x,y)
elementi della
popolazione. La
funzione di densità della
V.C. normale bivariata
dipende dalle medie e Y
dalle varianze delle due
V.C. ma anche dalla loro
correlazione X

Correlazione lineare
Il sistema di ipotesi “naturale” è il seguente:
H0 : r  0 Assenza di correlazione lineare
H1 : r  0 Presenza di correlazione lineare
(positiva o negativa)

In questi casi, la statistica test utilizzata per fare


inferenza sul valore del coefficiente di correlazione r
è:
che, sotto H e assumendo la
n- 2 normalità di 0X e Y, si distribuisce
R
1- R2 come una V.C. T di Student con n-
2 g.d.l.
Scuola di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica

Esempio

 Allo scopo di studiare la relazione tra le


variabili “età” e “pressione sistolica” (PAS)
si osservano i valori di queste due
variabili su un campione di 15 soggetti
sani.
 Calcolare il coefficiente di correlazione
lineare.
 Stabilire se la correlazione è
«significativamente diversa da zero», con
un livello di significatività a=0.05
Età PAS
(anni) (mm Hg)
22 131
28 114
35 121
47 111
51 130
56 145
67 176
81 217
70 170
30 130
25 122
50 135
45 120
75 169
60 135

Scarti Algebrici Prodotto Scarti Algebrici al quadrato


Età PAS Età PAS degli Età PAS
(anni) (mm Hg) (anni) (mm Hg) scarti (anni) (mm Hg)
22 131 -27.47 -10.73 294.81 754.42 115.20
28 114 -21.47 -27.73 595.34 460.82 769.14
35 121 -14.47 -20.73 299.94 209.28 429.87
47 111 -2.47 -30.73 75.81 6.08 944.54
51 130 1.53 -11.73 -17.99 2.35 137.67
56 145 6.53 3.27 21.34 42.68 10.67
67 176 17.53 34.27 600.81 307.42 1174.20
81 217 31.53 75.27 2373.41 994.35 5665.07
70 170 20.53 28.27 580.41 421.62 799.00
30 130 -19.47 -11.73 228.41 378.95 137.67
25 122 -24.47 -19.73 482.81 598.62 389.40
50 135 0.53 -6.73 -3.59 0.28 45.34
45 120 -4.47 -21.73 97.08 19.95 472.34
75 169 25.53 27.27 696.21 651.95 743.47
60 135 10.53 -6.73 -70.92 110.95 45.34
Media 49.47 141.73 0.00 0.00 416.92 330.65 791.93

 Pressione  330.65  18.18 Cov(Età, Pressione) 416.92


r   0.815
 Volume  791.93  28.14  Pressione   Volume 18.18  28.14
Per stabilire se la correlazione è significativa…

H0 :   0 Assenza di correlazione lineare


H1 :   0 Presenza di correlazione lineare
(positiva o negativa)

n  15, a  0.05, statistica test:


n2
R ta /2,n  2
1  R2
Se |to|≤ tc Accetta H0
Regola di decisione:
Se |to|> tc Rifiuto H0

tc= t0.025,13= 2.16;

n2 15  2 5.067  2.16  Rifiuto H0


to  r  0.815  5.067.
1 r2 1  0.8152

Scuola di Medicina e Chirurgia


Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica


Regressione lineare
 La correlazione offre una visione simmetrica
della relazione lineare tra le due variabili X e Y
 Il fatto che due variabili siano correlate non
implica l'esistenza di una relazione causale
 Il alcuni casi è utile assegnare ad una delle due
variabili il ruolo di “causa” (variabili
indipendente / predittore) e all’altra quello di
“conseguenza” (variabile dipendente / variabile
di risposta) allo scopo di stabilire in che misura
la conoscenza della “causa” aiuti a prevedere la
“conseguenza”
 N.B. I valori assunti dalla variabile X sono sotto
controllo del ricercatore (non sono cioè
grandezze aleatorie)

Regressione lineare

 La relazione di dipendenza si deve


tradurre, in termini formali, in una
relazione “funzionale” che lega la
variabile indipendente X alla variabile
dipendente Y.
 La forma funzionale più “facile” è
quella lineare:
Y=α+βX
Regressione lineare

 Il modello lineare assume che la variabile Y


dipende in media linearmente dalla variabile X
Yi=μY|xi+εi
Y
μY|xn μY|xi rappresenta il valore medio della
variabile Y in corrispondenza del valore
μY|x2 x1 della variabile X
μY|x1
εi rappresenta la differenza rispetto
alla media della variabile Y, che
caratterizza i singoli soggetti che
x1 x2 … xn X assumono valore x1 per variabile X

N.B. I valori assunti dalla variabile X sono sotto controllo del ricercatore
(non sono cioè grandezze aleatorie)

Regressione lineare

 Il modello lineare assume che la variabile Y


dipende in media linearmente dalla variabile X
Yi=μY|xi+εi
Y
μY|xi=α+βxi
μY|xn
α rappresenta l’intercetta della
μY|x2 retta e indica il valore medio della
μY|x1 Y nei soggetti che presentano un
valore della X pari a 0
β rappresenta il coefficiente
x1 x2 … xn X angolare della retta e misura di
quanto varia in media la Y a
seguito della variazione unitaria
nella X
Regressione lineare

 Il modello lineare assume che la variabile Y


dipende in media linearmente dalla variabile X

Y In corrispondenza di ogni
valore (fisso) di X esiste una
distribuzione di valori della Y
Yi=α+βxi+εi che può essere descritta
attraverso una V.C.
μY|xi=α+βxi Normale centrata sul valore
medio μY|xi=α+βxi e con una
variabilità costante pari a
x1 x2 … xn X s2

Yi ~ N(mY|xi , s )

Regressione lineare

 Il modello lineare assume che la variabile Y


dipende in media linearmente dalla variabile X

Y La caratterizzazione
probabilistica del modello può
essere fatta anche in termini
Yi=α+βxi+εi di errore: I singoli valori della
variabile Y sono pari ad una
μY|xi=α+βxi costante (cioè a un termine
non casuale) più una
oscillazione casuale ei che ha
x1 x2 … xn X media 0 e varianza s2.

ei ~ N(0, s )
Regressione lineare

 Il modello lineare assume che la variabile Y


dipende in media linearmente dalla variabile X

Y ei ~ N(0, s )
Yi=α+βxi+εi
Yi ~ N(mY|xi , s )
μY|xi=α+βxi La variabilità dei valori
individuali delle
sottopopolazioni intorno al
x1 x2 … xn X proprio valor medio non
dipende dal valore della
variabile indipendente
(OMOSCHEDASTICITA’)

Regressione lineare

 Obiettivo dell’Analisi di Regressione è quello di stimare i


valori di α e β a partire dalle informazioni raccolte su un
campione

Quale tra tutte le


Y infinite rette che
possono descrivere
la nube dei punti (e
quindi quale tra le
infinite coppie di
intercetta e
coefficiente
angolare) è la
X “migliore”???
Regressione lineare

 Obiettivo dell’Analisi di Regressione è quello di stimare i


valori di α e β a partire dalle informazioni raccolte su un
campione
Ad ogni possibile
retta, e in
Y
corrispondenza di ogni
valore della X, è
possibile confrontare il
ŷi
valore realmente
yi osservato della y e il
valore previsto dal
modello ŷ
X
xi

Regressione lineare

 Obiettivo dell’Analisi di Regressione è quello di stimare i


valori di α e β a partire dalle informazioni raccolte su un
campione
La differenza tra
questi due valori
Y
(residuo) è una
misura di quanto il
modello si “adatta”
ŷi
yi- ŷi alla nube dei punti.
yi

X
xi
Regressione lineare

 Il metodo dei “minimi quadrati” cerca tra tutte le infinite


rette quella che minimizza la somma dei residui al
quadrato
n n
a*, b *  min   yi  yˆi   min   yi   a  bxi  
2 2

{ a , b} { a , b}
i 1 i 1

Cov(X,Y)
b =
* a* e b* sono le stime dei parametri
α e β che rappresentano il reale obiettivo
Var(X) conoscitivo.

a* = y - b* x

Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100 1
128 3.7
40
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9

Valori di T4 (mcg/dl) alla diagnosi e livelli di QI a 8 anni in bambini


affetti da Ipotiroidismo congenito
Regressione lineare
QIT (Y) T4 (X) Y-my X-mx (Y-my)(X-mx) (Y-my)2 (X-mx)2
74 2.7 -24.6 -0.115 2.829 605.16 0.013
95 2 -3.6 -0.815 2.934 12.96 0.664
93 0.6 -5.6 -2.215 12.404 31.36 4.906
108 2.2 9.4 -0.615 -5.781 88.36 0.378
111 3.7 12.4 0.885 10.974 153.76 0.783
91 4.5 -7.6 1.685 -12.806 57.76 2.839
122 6.8 23.4 3.985 93.249 547.56 15.880
83 1.8 -15.6 -1.015 15.834 243.36 1.030
77 0.1 -21.6 -2.715 58.644 466.56 7.371
91 4.1 -7.6 1.285 -9.766 57.76 1.651
100 1 1.4 -1.815 -2.541 1.96 3.294
128 3.7 29.4 0.885 26.019 864.36 0.783
96 3.7 -2.6 0.885 -2.301 6.76 0.783
105 3.6 6.4 0.785 5.024 40.96 0.616
106 3.3 7.4 0.485 3.589 54.76 0.235
99 0.2 0.4 -2.615 -1.046 0.16 6.838
85 1.5 -13.6 -1.315 17.884 184.96 1.729
117 2.2 18.4 -0.615 -11.316 338.56 0.378
108 5.7 9.4 2.885 27.119 88.36 8.323
83 2.9 -15.6 0.085 -1.326 243.36 0.007
Media di Colonna 98.6 2.81 0 0 11.48 204.44 2.92

Cov(X,Y) 11.48
b* = = = 3.92 punti QIT/ mcg/dl
Var(X) 2.92

Regressione lineare
QIT (Y) T4 (X) Y-my X-mx (Y-my)(X-mx) (Y-my)2 (X-mx)2
74 2.7 -24.6 -0.115 2.829 605.16 0.013
95 2 -3.6 -0.815 2.934 12.96 0.664
93 0.6 -5.6 -2.215 12.404 31.36 4.906
108 2.2 9.4 -0.615 -5.781 88.36 0.378
111 3.7 12.4 0.885 10.974 153.76 0.783
91 4.5 -7.6 1.685 -12.806 57.76 2.839
122 6.8 23.4 3.985 93.249 547.56 15.880
83 1.8 -15.6 -1.015 15.834 243.36 1.030
77 0.1 -21.6 -2.715 58.644 466.56 7.371
91 4.1 -7.6 1.285 -9.766 57.76 1.651
100 1 1.4 -1.815 -2.541 1.96 3.294
128 3.7 29.4 0.885 26.019 864.36 0.783
96 3.7 -2.6 0.885 -2.301 6.76 0.783
105 3.6 6.4 0.785 5.024 40.96 0.616
106 3.3 7.4 0.485 3.589 54.76 0.235
99 0.2 0.4 -2.615 -1.046 0.16 6.838
85 1.5 -13.6 -1.315 17.884 184.96 1.729
117 2.2 18.4 -0.615 -11.316 338.56 0.378
108 5.7 9.4 2.885 27.119 88.36 8.323
83 2.9 -15.6 0.085 -1.326 243.36 0.007
Media di Colonna 98.6 2.81 0 0 11.48 204.44 2.92

a *  y  b* x  98.6  3.92  2.81  87.55 punti QIT


Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100
128
1
3.7
40
ŷ = 87.55+ 3.92x
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9

Valori di T4 (mcg/dl) alla diagnosi e livelli di QI a 8 anni in bambini


affetti da Ipotiroidismo congenito

Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100
128
1
3.7
40
ŷ = 87.55+ 3.92x
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9

87.55 rappresenta il livello medio di QIT di un bambino in cui il livello


di T4 alla diagnosi è pari a 0 mcg/dl
Regressione lineare
QIT T4 QIT a 8 anni
140
74 2.7
95 2
93 0.6 120
108 2.2
111 3.7 100
91 4.5
122 6.8
80
83 1.8
77 0.1
91 4.1 60
100
128
1
3.7
40
ŷ = 87.55+ 3.92x
96 3.7
105 3.6
106 3.3 20
99 0.2
85 1.5 0
117 2.2 0 1 2 3 4 5 6 7 8
108 5.7 T4 (mcg/dl) alla diagnosi
83 2.9

3.92 rappresenta la variazione media di QIT associata al variare di un


mgc/dl di T4 alla diagnosi.

Scuola di Medicina e Chirurgia


Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica


Regressione lineare:
l’inferenza sui parametri
a* e b* sono le stime dei parametri α e β che rappresentano il
reale obiettivo conoscitivo. Al variare del campione estratto, le
stime di α e β varieranno e l’insieme delle infinite stime porterà a
defnire le corrispondenti variabili casuali A e B attraverso le quali
sarà possibile fare inferenza sui parametri della popolazione.

Sotto l’ipotesi di normalità degli errori e quindi di normalità della


variabile Y, lo stimatore B avrà una distribuzione normale,
centrata sul valore vero del parametro (b) e con varianza pari a:

Varianza complessiva s2 Varianza della Y in


della X (grandezza Var(B) = 2 ciascuna delle

ns X
deterministica che sottopopolazioni
quindi non richiede caratterizzate dai
“stima”) diversi valori di X

Effetto di s2x sulla variabilità di B


y=a+bx+e; b>0 y=a+bx+e; b>0

x1 x2 … xn X x1 x2 … xn X
minore variabilità della X maggiore variabilità della X
Effetto di s2x sulla variabilità di B
y=a+bx+e; b>0 y=a+bx+e; b>0
y=a+bx; b<0

x1 x2 … xn X x1 x2 … xn X

Effetto di s2x sulla variabilità di B


y=a+bx+e; b>0 y=a+bx+e; b>0
y=a+bx; b<0 y=a+bx; b>0

x1 x2 … xn X x1 x2 … xn X
Effetto di s2 sulla variabilità di B
y=a+bx+e; b>0 y=a+bx+e; b>0

Y Y

x1 x2 … xn X x1 x2 … xn X
Minore variabilità della Y Maggiore variabilità della Y

Effetto di s2 sulla variabilità di B


y=a+bx+e; b>0 y=a+bx+e; b>0

y=a+bx; b>0 y=a+bx; b<0

Y Y

x1 x2 … xn X x1 x2 … xn X
Minore variabilità della Y Maggiore variabilità della Y
Proprietà dello stimatore B
 s2 
 ~ N b,  La varianza s2 che caratterizza le
 ns X  sottopopolazioni della Y non è
  generalmente nota. Essa misura la
dispersione dei valori della Y rispetto al
loro valor medio (condizionato).

La migliore stima (nel senso dei minimi quadrati) della media


condizionata delle sottopopolazioni della Y è rappresentata dai
valori stimati ŷi. La sua stima corretta può allora essere ottenuta
come:
n

  yi  yˆi 
2

sY2  i 1

n2

Proprietà dello stimatore B


B-b
 s2  ~Z
 ~ N b,  s 2
 ns X 
  Standardizzando ns X
Dopo aver sostituito a s2 il suo
stimatore

E’ possibile utilizzare
B-b
~ Tn-2
questo risultato per la 2
costruzione di intervalli di
SY
confidenza e per la ns X
verifica delle ipotesi su b
Inferenza su b
B-b Intervallo di confidenza al livello 1-a
~ Tn-2
S 2
Y sY2
b± t1-a /2;n-2
ns X ns 2X

Sistema di ipotesi Statistica test


Valore critico
“naturale” su b osservata
Il valore di ascissa di
H0 : b  0 b- 0 una T di Student con
n-2 g.d.l. che lascia
H1 : b  0 sY2 alla sua destra un’area
ns 2X pari a a/2: t1-a/2;n-2

QIT T4
74 2.7
95 2
93 0.6
108 2.2
111 3.7
91 4.5
122 6.8 95.0% Confidence Interval
83 1.8 B Std. Error t Sig. Lower Bound Upper Bound
77 0.1 Intercept 87.552 5.731 15.278 0 75.512 99.591
91 4.1 T4 3.925 1.74 2.256 0.037 0.27 7.58
100 1
128 3.7
96 3.7
105 3.6
106 3.3
99 0.2
85 1.5
117 2.2
108 5.7
83 2.9
Inferenza su b NPW
Se si intende tenere sotto controllo anche la probabilità associata
all’errore di II tipo è allora necessario formulare un’ipotesi
alternativa semplice:
E’ più agevole derivare la
H0 : b  0 numerosità campionaria H0 :   0
traducendo il problema in
H1 : b  b * H1 :    *
termini di correlazione

Il passaggio dal valore di b* a quello di * deve rispettare la


direzionalità della relazione ipotizzata (quindi il segno algebrico)

Inferenza su b NPW
E’ più agevole derivare la
H0 : b  0 numerosità campionaria H0 :   0
traducendo il problema in
H1 : b  b * termini di correlazione
H1 :    *

La numerosità campionaria necessaria per poter accettare


(correttamente) l’ipotesi alternativa H1 ad un livello di
significatività pari ad a con una potenza pari a 1-b è :

z  zb 
2
 z  z  1   1    
2
* * a
n 3
n
a b 2
  *  1   1   * 
ln  
  4   1   * 
Scuola di Medicina e Chirurgia
Corso di Laurea Magistrale in
Medicina e Chirurgia

Corso di Statistica Medica

Regressione Multipla

● Il modello statistico che prevede una relazione


lineare tra una variabile indipendente (X) e una
variabile dipendente (Y) può essere naturalmente
esteso al caso di più variabili indipendenti (X1, X2,
X3, …)

𝜇𝑌|𝑥1 ,𝑥2 ,𝑥3 ,… = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 +….

Il modello stabilisce che il valore medio della Y dipende


linearmente dai valori che assumono le diverse variabili
indipendenti; l’effetto che ciascuna variabile X ha sulla variabile
Y è misurato dal rispettivo coefficiente di regressione 𝛽
Regressione Multipla

● Nel caso di due soli predittori X1 e X2


𝜇𝑌|𝑥1 ,𝑥2 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2

In corrispondenza di ogni particolare combinazione dei valori


di X1 e di X2 (X1=x1 e X2=x2 ), esiste una popolazione di
valori della Y che ha per media 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 . Questi valori
medi dipendono linearmente dai valori assunti dalle due
variabili attraverso i coefficienti del modello…

Regressione Multipla

● Nel caso di due soli predittori X1 e X2


𝜇𝑌|𝑥1 ,𝑥2 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2

𝑌𝑖 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜀𝑖
Regressione Multipla

● Nel caso di due soli predittori X1 e X2


𝜇𝑌|𝑥1 ,𝑥2 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2

𝛼 indica il valore medio della Y nella popolazione di individui che


presentano valore 0 sia per X1 che per X2

𝛽1 misura la variazione che subisce, in media, la Y a seguito


della variazione unitaria della variabile X1

𝛽2 misura la variazione che subisce, in media, la Y a seguito


della variazione unitaria della variabile X2

Regressione Multipla

● Nel caso di due soli predittori X1 e X2

℘𝑎
𝑋1 = 𝑥 1 𝜇𝑌𝑎|𝑥1 ,𝑥2 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2
𝑋2 = 𝑥 2

℘𝑏
𝜇𝑌𝑏|𝑥1 ,(𝑥2 +1) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 (𝑥2 +1)
𝑋1 = 𝑥1
𝑋2 = 𝑥2 + 1 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽2

𝜇𝑌𝑏|𝑥1 ,(𝑥2 +1) - 𝜇𝑌𝑎|𝑥1 ,𝑥2 = 𝛽2


Regressione Multipla

● Nel caso di due soli predittori X1 e X2

𝜇𝑌𝑏|𝑥1 ,(𝑥2 +1) - 𝜇𝑌𝑎|𝑥1 ,𝑥2 = 𝛽2

b2 misura la differenza in media nella variabile Y che sussiste


tra due popolazioni, ℘𝑎 e ℘𝑏, entrambe caratterizzate dallo
stesso valore della variabile X1, ma che differiscono di una
unità rispetto alla variabile X2

L’effetto (in media) di un incremento unitario della


variabile X2 su Y è aggiustato per l’effetto della variabile
X1

Regressione Multipla – Stima dei parametri

 Il metodo dei “minimi quadrati” cerca tra tutti gli infiniti piani, e
quindi tra tutte le infinite triple (a,b1,b2) quello che minimizza la
somma dei residui al quadrato 𝑛

𝑎∗ , 𝑏1∗ , 𝑏2∗ ← min 𝑦𝑖 − 𝑦𝑖 2 =


𝑎,𝑏1 ,𝑏2
𝑖=1
𝑛 2
min 𝑖=1 𝑦𝑖 − 𝑎 + 𝑏1 𝑥𝑖1 + 𝑏2 𝑥𝑖2
𝑎,𝑏1 ,𝑏2

𝐶𝑜𝑣 𝑋1 , 𝑌 𝑉𝑎𝑟 𝑋2 − 𝐶𝑜𝑣 𝑋2 , 𝑌 ∗ 𝐶𝑜𝑣 𝑋1 , 𝑋2


𝑏1∗ =
𝑉𝑎𝑟 𝑋1 𝑉𝑎𝑟 𝑋2 − 𝐶𝑜𝑣 𝑋1 , 𝑋2

𝐶𝑜𝑣 𝑋2 , 𝑌 𝑉𝑎𝑟 𝑋1 − 𝐶𝑜𝑣 𝑋1 , 𝑌 ∗ 𝐶𝑜𝑣 𝑋1 , 𝑋2


𝑏2∗ =
𝑉𝑎𝑟 𝑋1 𝑉𝑎𝑟 𝑋2 − 𝐶𝑜𝑣 𝑋1 , 𝑋2

𝑎∗ = 𝑦 − 𝑏1∗ 𝑥1 − 𝑏2∗ 𝑥2
Regressione Multipla – Stima dei parametri

Nel caso di k predittori (k>2) la soluzione dei minimi quadrati


non è più esprimibile in formula esplicita ma richiede
necessariamente l’utilizzo di una notazione matriciale…

Qualunque sia il numero di predittori, il modello statistico che


si utilizza per l’inferenza sui singoli coefficienti del modello è
quello di una T di Student. La varianza dei singoli stimatori
sarà funzione (diretta) anche della correlazione che sussiste
tra coppie di predittori… (problema della multicollinearità)

Analisi di sopravvivenza: il
metodo Kaplan-Meier

1
Analisi della sopravvivenza
L’analisi della sopravvivenza è una famiglia di
metodi statistici per l’analisi di dati in cui la
variabile di interesse è dipendente dal tempo

Analisi della sopravvivenza


Una variabile di risposta dipendente dal tempo misura il
tempo intercorrente fra l’inizio dell’osservazione (la diagnosi,
la randomizzazione, il trattamento) e il momento in cui
l’evento si verifica (la morte, la recidiva)

L’obiettivo dello studio è valutare non solo se si è osservato


l’esito in studio, ma anche quando esso si è verificato e, nel
caso di confronto, se questo tempo è sostanzialmente
diverso fra i gruppi confrontati.
SI Quando?
Si è verificato
l’evento in studio?
NO Fino a quando il paziente
3
è stato osservato?
Analisi della sopravvivenza
Per evento si intende un endpoint binario chiaramente definito.

Ad esempio: morte, infarto, prima recidiva di un tumore, diagnosi


di diabete.

L’evento deve essere

• stabilito all'inizio dello studio

• definito in modo chiaro ed inequivocabile

• unico (nel caso più semplice)

Analisi della sopravvivenza


Quando facciamo partire l’orologio?

L’origine temporale è definita dal verificarsi di un circostanza


clinicamente non ambigua e ben individuabile.

Ad esempio: data della diagnosi di una malattia, data della


randomizzazione in un trial clinico o dell’inizio del trattamento.

Il tempo trascorso tra l’origine temporale e il tempo in cui accade


l’evento è una variabile numerica non negativa che può essere
espressa in settimane, mesi, anni etc. 5
Censoring
n Il censoring può avvenire per
tre differenti ragioni:
n Un individuo non subisce l’evento
prima della fine dello studio
n Un individuo è perso al follow-up
durante il periodo di studio
n Un individuo si ritira dallo studio
per qualsiasi ragione non
connessa all’evento oggetto di
studio

Censoring
Evento

ingresso Censura
tempo

I tempi della censura saranno sempre minori dei tempi degli


eventuali eventi per i soggetti censurati.

7
Censoring
I metodi dell’analisi della sopravvivenza sono corretti sotto l’ipotesi
che il tempo di censura e quello dell’evento siano tra loro
indipendenti.

La causa della censura dell’osservazione non deve risultare


associata all’evento in studio (censura non informativa).

Esempio di censura informativa:

drop out dei pazienti sottoposti alla sperimentazione di un farmaco


in un trial clinico per peggioramento delle condizioni cliniche. I
pazienti censurati non hanno la stessa prognosi di quelli ancora
sotto osservazione.
8

Analisi della sopravvivenza


1.Perchè non comparare le medie del
tempo all’evento tra i gruppi usando
un test t o la regression lineare?
-- si ignorerebbe la censura
2. Perchè non comparare la proporzione
di eventi in tra i gruppi usando i
risk/odds ratios
-- si ignorerebbe il tempo

9
15 soggetti osservati in 20 mesi
15
12
6
11
9
4
Coorte

14
5
7
13
3
8
10
1
2 Mesi (Follow-up)
5 10 15 20

Vivo Morto Perso al Follow-up

Analisi della sopravvivenza


Rischio di mortalità totale
n° di eventi totali / n° casi

Rischio di mortalità a un dato tempo ti


n° eventi entro ti / n° casi con t ³
ti
Rischio di mortalità totale 4/15 =26.7%
Rischio di mortalità a 12 mesi 2/9 =22.2%
15
12
6
11
9
4
Coorte

14
5
7
13
3
8
10
1
2 Mesi (Follow-up)
5 10 15 20

Vivo Morto Perso al Follow-up

Analisi della sopravvivenza


Rischiodi mortalità totale
n° di eventi totali / n° casi
q dipende dalla durata del periodo di osservazione
q periodi di osservazione diversi per i diversi soggetti

Quoziente di mortalità a un dato tempo ti


n° eventi entro ti / n° casi con t ³ ti
q può indurre errori sistematici
§ selezione dei pazienti da analizzare
§ selezione del tempo ti più conveniente per l’analisi
q periodi di osservazione diversi per i diversi soggetti
Analisi della sopravvivenza
Tasso di mortalità (incidenza)

n° di eventi totali / S tempi di osservazione

q tasso di mortalità costante per tutto il periodo di


osservazione

14

Esempio

Sopravvivenza di 10 pazienti seguiti per 5 anni dopo la chirurgia

ID time stato
1 1 5 0
2 2 4.5 1
3 3 5 0
Individuals

4 4 1.5 1
5 5 5 0
6 6 3.5 1
7 7 5 0
8 8 2.5 0
9 9 5 0
10 10 0.5 1

0 1 2 3 4 5
Totale
Follow-up (years)
40 anni-persona
event 4 eventi
censoring
Tasso incidenza = 4/40=0.1 eventi per anno
Tasso non costante
Il tasso (medio) di incidenza non è una misura appropriata in questa
situazione in cui tutti gli eventi si verificano nel primo anno.

Anni persona
1 5
2 0.5
3 5
Individuals
4 0.5
5 5
6 1
7 5
8 5
9 5
0.8
10
_______
0 1 2 3 4 5 32.8
Follow-up (years)
event
censoring Tasso incidenza = 4/32.8=0.12 eventi per anno

Principali grandezze di cui si occupa


l’analisi della sopravivenza
n S(t)=P(T>=t): Funzione di
sopravvivenza
n Probabilità che il tempo di sopravvivenza di
un individuo sia uguale o maggiore del
tempo t

17
Mediana di Sopravvivenza

Dalla curva di sopravvivenza S(t) è possibile stimare la mediana di


sopravvivenza, cioè il tempo trascorso dall’inizio dell’osservazione al
tempo in cui metà dei pazienti non hanno ancora sperimentato l’evento.

Sopravvivenza al tempo t

Dalla curva di sopravvivenza S(t) è possibile stimare la sopravvivenza


attesa a uno specifico tempo t (solitamente in ambito oncologico si
riporta la stima della sopravvivenza a 5 o 10 anni).
Curve di sopravvivenza
(metodo KM)

# eventi al # censored tra Insieme di


Tempi ordinati tempo t(f) t(f) e t(f+1) escluso individui a rischio
t(f) m(f) q(f) R(t(f))

Struttura dati “estesa” Struttura dati operativa

20

Curve di sopravvivenza
(metodo KM)
Tempo in remissione (in settimane) per due gruppi di
soggetti con leucemia

21
Curve di sopravvivenza
(metodo KM)
Tempo di remissione (in settimane) per due gruppi di
soggetti con leucemia
Id t d X1

1 6 1 1

2 6 1 1

3 6 1 1

4 6 0 1

… … … …

42 23 1 2

Struttura dati richiesta da SPSS


22

Curve di sopravvivenza
(metodo KM)
Tempo di remissione (in settimane) per due gruppi di
soggetti con leucemia Group 1 Group 2
t(f) mf qf nf t(f) mf qf nf
0 0 0 21 0 0 0 21
6 3 1 21 1 2 0 21
7 1 1 17 2 2 0 19
10 1 2 15 3 1 0 17
… … … … … … … …
23 1 5 6 22 1 0 2
… 23 1 0 1

Struttura dati operativa


23
Curve di sopravvivenza
(metodo KM)
Si calcola per ciascun tempo t una probabilità
condizionata di sopravvivenza oltre il tempo t

p(0) Probabilità che un individuo sopravviva oltre il tempo t(0)

p(1) Probabilità che un individuo sopravviva oltre il tempo t(1) dato che era
sopravvissuto oltre il tempo t(0)
p(2) Probabilità che un individuo sopravviva oltre il tempo t(2) dato che era
sopravvissuto oltre il tempo t1
p(3) Probabilità che un individuo sopravviva oltre il tempo t(3) dato che era
sopravvissuto oltre il tempo t(2)
p(last) Probabilità che un individuo sopravviva oltre l’ultimo tempo registrato dato che
era sopravvissuto oltre il tempo immediatamente precedente

KM (product-limit) estimator,
formally
Group 1
p(0) àProbabilità che un individuo
sopravviva oltre il tempo t(0) t(f) mf qf nf p
t(0) 0 0 0 21 (21-0)/21=1
p(1) àProbabilità che un individuo
sopravviva oltre il tempo t(1) dato che t(1) 6 3 1 21 (21-3)/21=0.857
era sopravvissuto oltre il tempo t(0)
t(2) 7 1 1 17 (17-1)/17=0.941
p(2) à Probabilità che un individuo
sopravviva oltre il tempo t(2) dato che t(3) 10 1 2 15 (15-1)/15=0.933
era sopravvissuto oltre il tempo t(1)
… … … …
p(3) à Probabilità che un individuo 23 1 5 6 (6-1)/6=0.833
sopravviva oltre il tempo t(3) dato che
era sopravvissuto oltre il tempo t(2) >23 0 2 0

p(last) à Probabilità che un individuo


sopravviva oltre l’ultimo tempo registrato
dato che era sopravvissuto oltre il tempo
immediatamente precedente
25
Curve di sopravvivenza
(metodo KM)
In corrispondenza di un generico tempo t, la funzione di
sopravvivenza è il prodotto di tutte le probabilità
condizionate precedenti, fino al tempo t incluso

S(t)=p(0)*p(1)*p(2)*….+p(t)

26

Curve di sopravvivenza
(metodo KM)

Group 1
t(f) mf qf nf p S
0 0 0 21 (21-0)/21=1 p(0)=1
6 3 1 21 (21-3)/21=0.857 p(1)*p(0)=0.857*1=0.857
7 1 1 17 (17-1)/17=0.941 p(2)*p(1)*p(0)=0.941*0.857*1=0.807
10 1 2 15 (15-1)/15=0.933 p(3)*p(2)*p(1)*p(0)=0.753
… … … …
23 1 5 6 (6-1)/6=0.833 P(last)*…*p(2)*p(1)*p(0)=0.448
>23 0 2 0

27
Curve di sopravvivenza
(metodo KM)

28

Curve di sopravvivenza Log-


rank test
n E’ possibile confrontare le curve di
sopravvivenza di due gruppi utilizzando
il log-rank test che si basa sul confronto
tra il numero di eventi osservati in
ciascun gruppo e quelli che avrei dovuto
osservare se le esperienze di
sopravvivenza dei due gruppi fossero
identiche

29
Curve di sopravvivenza Log-
rank test
t(f) mf qf nf t(f) mf qf nf
0 0 0 21 0 0 0 21
6 3 1 21 1 2 0 21
7 1 1 17 2 2 0 19
10 1 2 15 3 1 0 17
… … … … … … … …
23 1 5 6 22 1 0 2
>2 0 2 0 23 1 0 1
3
Gruppo 1 Gruppo 2

30

Curve di sopravvivenza Log-


rank test
In corrispondenza del tempo 1 ho
osservato 0 eventi nel gruppo 1 e 2
eventi nel gruppo 2. Complessivamente
si sono verificati 2 eventi
In corrispondenza del tempo 1 c’erano 21 soggetti a rischio nel gruppo 0 e
21 soggetti a rischio nel gruppo 2.
Dei 42 soggetti a rischio (21+21), il 50% appartenevano al gruppo 1 e il
50% al gruppo 2

Se le esperienze di sopravvivenza dei due gruppi fossero uguali, il numero


di eventi si dovrebbe distribuire in misura proporzionale all’insieme di
soggetti a rischio nei due gruppi…

31
Curve di sopravvivenza Log-
rank test
Se le esperienze di sopravvivenza dei due gruppi fossero uguali, il
numero di eventi si dovrebbe distribuire in misura proporzionale
all’insieme di soggetti a rischio nei due gruppi…
Questo vuol dire che il 50% del totale di eventi osservati al tempo 1
dovrebbero essere stati osservati nel gruppo 1 e il rimanente 50% nel
gruppo 2

32

Curve di sopravvivenza Log-


rank test

33
Curve di sopravvivenza Log-
rank test
Maggiore è la differenza tra l’osservato e l’atteso (sotto l’ipotesi che
le due curve siano uguali) maggiore è il dubbio che l’evidenza
osservato possa provenire dall’ipotesi nulla
La differenza, opportunamente standardizzata, produce un pvalue
che si interpreta alla luce dell’ipotesi formulata.

Valori di p minori del livello si significatività prescelto ci suggeriscono


di rifiutare l’ipotesi che le esperienze di sopravvivenza siano identiche
nei due gruppi

34

P-Value e Valore Critico


H0 :   0 f (m )
H0

H1 :   0 

m - m0
M
0
zo = Regione di accettazione Regione di rifiuto

s n
f ( z)


Verifico la posizione di zo
rispetto alle regioni di
accettazione e di rifiuto e Z
decido di conseguenza 0
Regione di accettazione Regione di rifiuto
H0 :   0 P-Value
H1 :   0 f ( z)
p-value (valore p)

m - m0
zo =
s n zo 0
Z

Il p-value rappresenta la probabilità di osservare un valore della


statistica test uguale o più estremo di quello osservato qualora
l’ipotesi nulla fosse vera. La direzione da considerare “estrema”
dipende dal segno di diseguaglianza presente nell’ipotesi alternativa.

Se tale probabilità è molto elevata allora vuol dire che “non è poi così
strano” quanto abbiamo osservato supponendo vera l’ipotesi nulla
Il p-value viene confrontato con gli usuali valori di  allo scopo di
prendere una decisione. Se p≥ allora accetto H0 altrimenti accetto H1

P-Value
Nel caso di ipotesi alternative bidirezionali, si considera l’area a destra
del valore assoluto di zo e la si moltiplica per due.

H 0 : m = m0 f ( z)
p-value (valore p)
H1 : m ¹ m0

Z
-|zo| 0 |zo|
m - m0
zo =
s n

Potrebbero piacerti anche