Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Simona Iacobelli
1. DISTRIBUZIONI DI FREQUENZA E
INDICI DESCRITTIVI
1
Necessità di Conoscenze Statistica
• 260 studenti
• 11 non hanno mai dato l’esame, 142 l’hanno dato 1 volta,
107 l’hanno dato più di una volta
• 189 hanno passato l’esame con voti:
29 28 31 30 28 26 24 23 28 28 29 30 19 29 20 21 31 25 29 18 31
27 20 31 20 22 29 28 30 21 26 21 24 29 26 21 31 25 21 25 29 20
23 31 29 20 29 19 21 22 19 25 31 29 30 21 25 23 21 21 26 25 21
22 18 22 27 29 29 25 29 31 31 26 21 21 24 25 27 24 30 19 28 25
20 24 29 20 27 27 19 27 30 25 29 27 26 30 30 30 26 28 21 27 19
28 24 24 21 25 20 30 20 29 29 27 18 27 24 29 25 25 21 21 23 21
25 22 29 25 22 21 29 24 27 23 24 31 29 27 31 24 25 26 29 28 20
30 28 29 20 26 28 23 28 21 30 20 28 31 19 26 20 25 24 25 28 21
29 31 29 22 19 22 27 29 24 18 25 27 24 29 21 20 29 18 26 26 29
3
Dati Statistiche
Frequenze e percentuali
(lista delle modalità (valori) osservati (o osservabili) e loro frequenza = n.ro di unità che
5
presentano quella modalità)
Dati Statistiche
Indici sintetici per variabili quantitative
Percentuali:
p = 5/189 8/189 etc
• Media = 25.3
(media aritmetica) barchart
6
Media aritmetica
• Voti (n=189):
29 28 31 30 28 26 24 23 28 …
27 20 31 20 …
… 24 29 21 20 29 18 26 26 29
n = n.ro unità
i unità
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189
k = n.ro modalità
7
j modalità
Dati Statistiche Generalizzazione
grade 24 - 21
pass Y N Y8
Dati Statistiche Generalizzazione
Prob(passare) = 73%
9
Media aritmetica
• Valore centrale in termini di distanza dai valori osservati
– Se valutiamo le distanze [scarto] di ciascun voto dalla
media, la somma è nulla, e la somma dei quadrati -
che fornisce una misura di distanza globale - è minima
• Rappresentativo degli n valori originali in quanto valore
complessivamente più vicino a essi
Es. campione di n=5 valori: 31 18 28 30 30
Si bilanciano, la somma fa 0
10
Indici di posizione
o «di tendenza centrale» e
loro interpretazione come stime per la popolazione
• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189
• Media = 25.3
Valore centrale, che bilancia meglio le distanze
Considerando tutti gli infiniti valori nella
popolazione quello che mi aspetto in media è 25.3
Nella pop. la media è anche detta «valore
atteso» e indicata con E(X)
• Moda = 29
Modalità prevalente (osservata con
maggiore frequenza di tutti gli altri
valori)
Fra tutti gli infiniti valori nella popolazione il
più probabile è 29 11
Informazione dall’ordinamento
«ranking» - informazione portata dai ranghi
• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189
Pr(X ≤ 27)
12
Frequenze cumulate
x n p N P
grafico a
18 5 2.6% 5 2.6% linee
19 8 4.2% 13 6.9%
20 14 7.4% 27 14.3%
21 21 11.1% 48 25.4%
22 8 4.2% 56 29.6%
23 6 3.2% 62 32.8%
24 14 7.4% 76 40.2%
25 19 10.1% 95 50.3%
26 12 6.3% 107 56.6% Quanti studenti
27 14 7.4% 121 64.0% prendono al massimo
28 14 7.4% 135 71.4% 27?
29 29 15.3% 164 86.8%
30 12 6.3% 176 93.1%
Pr(X ≤ 27)
31 13 6.9% 189 100.0%
13
Mediana
x n p N P
18 5 2.6% 5 2.6%
19 8 4.2% 13 6.9%
20 14 7.4% 27 14.3%
21 21 11.1% 48 25.4%
22 8 4.2% 56 29.6%
23 6 3.2% 62 32.8%
24 14 7.4% 76 40.2%
25 19 10.1% 95 50.3%
26 12 6.3% 107 56.6% Qual è il voto x*
27 14 7.4% 121 64.0% raggiunto al massimo
28 14 7.4% 135 71.4% dal 50% degli
29 29 15.3% 164 86.8% studenti?
30 12 6.3% 176 93.1%
31 13 6.9% 189 100.0%
Pr(X ≤ x*) = 50%
14
Mediana
• Voti (ordinati):
[1] 18 18 18 18 18 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20
[26] 20 20 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 22 22
[51] 22 22 22 22 22 22 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 24
[76] 24 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 26 26 26 26 26
[101] 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 27 27 27 27 28 28 28 28
[126] 28 28 28 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29
[151] 29 29 29 29 29 29 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 30
[176] 30 31 31 31 31 31 31 31 31 31 31 31 31 31
– Ordinamento: 24 28 30 30 31 mediana = 30
17
Indici di posizione e forma della
distribuzione
• Una forma tipica di molti fenomeni
biologici è a campana, dove la media è
anche la mediana e la moda
• Ma molti fenomeni hanno
distribuzione asimmetrica, ad es. con
una maggiore massa di frequenza su
una delle due code
– La media è spostata verso tale coda
(influenza dei valori estremi)
– La mediana è un valore rappresentativo Asimmetria a destra: Mediana < Media
migliore della media
• Con distribuzioni bi- o multi-modali
media o mediana possono essere
entrambe inadeguate 18
Indici di variabilità
• Oltre alla posizione un aspetto che
caratterizza la distribuzione è la variabilità:
le osservazioni sono simili fra loro cioè
vicine, oppure sparse lungo l’asse
cartesiano? 25 35 45 55
Età
– Omogeneità o eterogeneità?
• Ci sono diversi modi di misurare la
variabilità di un insieme di valori.
15 25 35 45 55 65
• Uno dei principali è misurare la
dispersione rispetto alla media aritmetica,
calcolando una (sorta di) media degli
scarti deviazione standard:
25 35 45 55
x
19
Confronti
20
Confronti
24
Creare e lavorare su una distribuzione di frequenze (i)
Consideriamo un campione di n=18 donne su cui è stato osservato il numero di
gravidanze: 1 ; 0; 1 ; 0; 0; 0; 3; 2; 0; 1; 3; 2; 2; 4; 0; 1; 1; 3
Creare una tabella per descrivere la distribuzione. Poi individuare Moda e Mediana.
Campione di 8 individui, !
distribuzione del Numero di Figli:
Non confondere modalità (n.ro Figli) e
Figli (xi) freq. (ni) xi ni frequenze!
0 4 0 Le unità sono n=8, mentre le modalità
sono 3.
1 3 3
2 1 2 Media ricostruire l’ammontare totale
(dai prodotti modalità ∙ frequenza)
tot 8 5
Mediana su una tabella guardare alle
freq cumulate; qui n piccolo, possiamo
Totale Numero di figli = (0+0+0+0)+(1+1+1)+(2)
anche guardare alla lista dei valori
= 0·4 + 1 ·3 + 2 ·1 osservati, ordinati, individuando quello di
posto n/2 cioè il 4° e il successivo
Media = 5 / 8 = 0.6
Moda = 0
Mediana = fra 0 e 1: 0.5 27
Mediana di una distribuzione di frequenze di una
variabile quantitativa discreta
Distributione del Numero di gravidanze in un
campione di n=18 donne
La mediana è la modalità di
Gravidanze ni Ni
rango tra n/2 e n/2+1 (qui n è
0 6 6 pari).
1 5 11 Per individuarla rapidamente
calcoliamo le frequenze
2 3 14 cumulate.
3 3 17
4 1 18
tot 18 !
Come al solito vi potrebbe essere
n/2=9 la 9a unità presenta la modalità “1” confusione fra le frequenze (6; 5;
3 etc) e le modalità (0, 1, 2 etc).
Infatti le prime 6 donne presentano la modalità “0”, con La mediana è una delle modalità
“0” non raggiugiamo la metà delle unità del campione.
Includendo le 5 modalità pari a “1” raggiugiamo una
frequenza cumulata pari a 11, e quindi abbiamo incluso
la 9a modalità; essa è anche la 10a Mediana =1 28
Media di due (o più) gruppi
Un articolo riporta che il valore medio del colesterolo
in un gruppo di 40 uomini è pari a 198 mg/dl, mentre
in un gruppo di 16 donne è di 190 mg/dl. Quanto
vale la media nella popolazione totale??
!
media ≠ (198+190)/2=194
x n tot
Procedere secondo la regola
M 198 40 198×40=7920 generale: dividere l’ammontare totale
per l’ampiezza campionaria
F 190 16 190×16=3040
56 10960
29
Media ponderata
• In alcune situazioni nel calcolo di un indice statistico – qui la media - c’è
necessità di assegnare “importanza” (peso) diverso alle osservazioni
– Per gli Studenti universitari: Esami con crediti diversi
– Laboratorio: Misure con differenti livelli di precisione (ovvero diversa affidabilità)
– Economia: indice dell’aumento dei prezzi: gli aumenti dei beni più scambiati deve
avere un peso superiore all’aumento dei beni che vengono acquistati meno spesso
• Per ogni osservazione c’è un peso .
• La media pesata (o ponderatata) è:
L’esercizio sui livelli di colesterolo nei due gruppi è un caso di calcolo della media
semplice, ma può anche essere considerato un caso di media ponderata fra due valori
(198 mg/dl per i M, 190 mg/dl per le F) con pesi rispettivamente pari a 𝑝 = 40 e 16. 30
Variabili categoriche
• Fonte: coorte Biologia 2018-2019
Variabile Esame Passato Variabile qualitativa non ordinata o «sconnessa»
Valori ordinati: Assente, Assente, Debole, Debole, Forte Si procede come per il
caso di una variabile
La mediana è “Debole” quantitativa (discreta),
cioè guardando alle
frequenze cumulate.
Le tre variabili hanno diverso ordine di grandezza, e persino (peso e altezza) una
differente unità di misura: le tre standard deviation non possono essere confrontate
se non rimuovendo sia la loro “grandezza” che l’u.d.m.
Ricorriamo al CV, che esprime la variabilità in proporzione alla dimensione media
del carattere, ed è un numero puro (cioè senza unità di misura)
X : CV = (0.5 kg / 3.2 kg)∙100 = 15.6%
Y : CV = (4.5 kg / 60 kg) ∙100 = 7.5%
Z : CV = (2.5 cm / 51 cm) ∙100 = 4.9%
I neonati sono più variabili rispetto al peso che all’altezza (circa tre volte tanto) e
in termini di peso sono variabili il doppio delle madri 36
Corso di Statistica per Scienze Biologiche
Simona Iacobelli
2. DISTRIBUZIONI DI VARIABILI
CONTINUE
37
Variabili quantitative: Raggruppamento in
classi
• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189
x n p
18-20 27 14.3
21-23 35 18.5
24-26 45 23.8
27-29 57 30.2
30-30L 25 13.2
38
(Notazione adatta alle variabili continue)
Variabili continue
voto
18 19 20 21
Peso (kg)
Ogni valore 56.4 56.7
compreso
fra 2
modalità
osservate è Età (anni)
un possibile 18 19 20 21
valore di X
(19, 21] sta per l’intervallo 19 < X ≤ 21 39
Distribuzioni in classi per variabili continue
(A) Distribuzione di 56 pazienti pediatrici per ETA’
Età freq. %
Classe modale: 2-|7
0 -| 2 14 25.0
2 -| 7 24 42.9
7 -| 14 14 25.0
14 -| 18 4 7.1
tot 56 100
Età freq. %
Classe modale: 2-|7
0 -| 2 14 25.0
2 -| 7 24 42.9
7 -| 14 14 25.0
14 -| 18 4 7.1
tot 56 100
42
Istogramma, o grafico della densità
Età freq. % ampiezza densità
0-|2 14 25.0 2–0=2 14 / 2 = 7.0
2-|7 24 42.9 7–2=5 24 / 5 = 4.8
7-|14 14 25.0 14 – 7 = 7 14 / 7 = 2.0
14-|18 4 7.1 18 –14 = 4 4 / 4 = 1.0
56 100
La frequenza di un intervallo
𝑑𝑒𝑛𝑠𝑖𝑡à = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 = 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 𝑑𝑒𝑛𝑠𝑖𝑡à è rappresentata come area
Area Rettangolo = Base x Altezza del rettangolo costruito sopra
di esso
0 2 5 a b 12 18
45
La curva Normale
(o Gaussiana, o legge di Laplace, o curva degli errori)
N(0,1)
N(2,2)
• La Normale con parametri µ=0 e σ=1 è detta Normale Standard e spesso indicata
46
dalla lettera Z; le tabelle si riferiscono a questa curva
Ruolo di σ nella Normale
• Le seguenti proprietà valgono per ogni curva Normale di media μ e dev.st. σ
• Gli intervalli centrati in μ con raggio multiplo di σ hanno sempre:
Nella Normale
Area fra = 0.68 Standard Z sono
68% gli intervalli:
(E’ l’intervallo fra i punti di flesso, dove μ
cambia la curvatura)
μ 1σ ±1
La st.dev σ dunque determina completamente quanto i valori siano vicini al punto centrale μ
47
o invece dispersi (sempre simmetricamente) lungo l’asse
Usare la Normale come curva di densità
Ricordiamo che in una curva di densità Area = Frequenza – riferita ai valori osservabili in
una popolazione teorica, generale; ovvero:
POPOLAZIONE
Palline = gli
Area fra = infiniti valori =
tutti i numeri
= Prob sull’asse
cartesiano
53
2. Altri elementi
• Esercizi sulle tabelle di frequenza in classi per variabili continue: calcolo di Media e
Deviazione Standard, creazione e utilizzo dell’istogramma.
54
Media di una variabile quantitativa continua,
dati raggruppati in classi
∑ 𝑥 𝑛 − 𝑛 𝑥̅ .
𝑣𝑎𝑟 =
𝑛−1
st.dev= 56
Creare un istogramma
(B)
Età freq. % ampiezza densità
Prendere la scelta alternativa delle
classi per la distribuzione dell’Età
0-|2 14 25.0 2–0=2 14 / 2 = 7.0
dei 56 pazienti pediatrici e creare
2-|4 13 23.2 4–2=2 13 / 2 = 6.5
l’istogramma.
4-|7 11 19.6 7-4=3 11 / 3 = 3.7
7-|10 9 16.1 10 - 7 = 3 9 / 3 = 3.0
Dovrebbe fornire una forma simile
10-|14 5 8.9 14 –10 = 4 5 / 4 = 1.2 della densità.
14-|18 4 7.1 18 –14 = 4 4 / 4 = 1.0
𝑑𝑒𝑛𝑠𝑖𝑡à =
0 2 4 7 10 14 18 Età
57
Utilizzare (i concetti de) l’istogramma
Il procedimento corrisponde a
calcolare l’area del rettangolo
25% costruito sopra all’intervallo (7,10)
42.9%
25% 7.1%
0 2 7 10 14 18 Età
58
Mediana e quartili
Usiamo l’istogramma già visto, le % scritte nei rettangoli sommano a 1. Le aree che
rimangono (in verde) oltre i tre quartili sono rispettivamente pari a 0.5, 0.75, 0.25
0 2 7 Q3 14 18
Può essere presentato
Boxplot orizzontalmente o
verticalmente; i valori sono
sull’asse X.
Q1mediana Q3 X
Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
61
Percentili (e altri quantili)
I quartili (mediana, Q1, Q3) dividono la distribuzione
ad ogni 25% della frequenza.
Q1, Q3
Dividendo la distribuzione ad altre percentuali
otteniamo altri “quantili”. La terminologia viene
adattata di conseguenza. Per esempio:
Area = 25%
Percentili: Area = 50%
–Es. il 5° percentile P5 è tale che il 5% dei valori sono
inferiori a P5.
– Il 95° percentile P95 è tale che il 5% dei valori sono
superiori a P5
P33 è anche chiamato “primo terzile”; 33% ossia 1/3
dei valori sono <P33.
P10 è anche chiamato “primo decile”: 10% ossia 1/10
dei valori sono <P10
Tutti i quantili possono essere definiti e utilizzati anche per le variabili quantitative discrete e
62
per le qualitative ordinate.
Interpretazione dei quantili
Indici descrittivi della variabile Età osservati in un campione di studenti:
Quartili: Mediana (Q2) =20.5 Q1=20.1 Q3=22
P10 (decimo percentile; anche primo decile) =18.5
P66 (66-mo percentile; anche secondo terzile)=21.7
- Metà studenti avevano meno di 20.5 anni (e metà studenti più di 20.5 anni)
- Uno su 4 (25%) aveva meno di 20.1 anni, 1 su 10 meno di 18.5 anni
- Uno su 4 (25%) aveva più di 22 anni
- Uno su 3 (33%) aveva più di 21.7 anni
- Il 25% aveva un’età compresa fra 20.1 e 20.5
- il 15% aveva un’età compresa fra 18.5 e 20.1
- etc
63
Quantili della Normale
• I quartili di una N(μ,σ) sono sempre:
±1.96 è il valore della N(0,1) che ±1.64 è il valore della N(0,1) che
lascia nelle code il 5% della lascia nelle code il 10% della
frequenza (2.5% in ciascuna coda) frequenza (5% in ciascuna coda) 64
Applicazione della Normale come modello di distribuzione
In una popolazione di ragazze adolescenti, il Body Mass Index (BMI) si
distribuisce secondo una Normale con media 24 e varianza 9. Se definiamo
“sottopeso” le ragazze con BMI inferiore a 18, quante ragazze risulteranno
sottopeso in un gruppo di 60?
Prob ( |X|<1.5 )=
Prob (-1,5<X<1.5)=
Area fra ±1.5 N(0,1)
Ф(1.5) – Area(coda X< -1.5)
Φ(1.5)
Area coda =1-Ф(1.5) sulla
tabella
66
Curva del
(Chi Quadrato, Chi-Squared)
Si utilizza nei test con l’indice Chi-quadrato (su tabelle di frequenza doppie).
Dipende da un solo parametro detto «gradi di libertà» (degrees of freedom», df). Se
è molto alto la curva assume una forma a campana ma in generale con g basso è
molto asimmetrica.
67
Curva della T di Student
Si utilizza nei test sulle medie con campioni piccoli.
Assomiglia a una N(0,1) ma ha code più alte (ossia più frequenza sulle code).
Dipende da un solo parametro detto «gradi di libertà» (degrees of freedom», df).
Se è >30 la curva è molto simile alla Normale.
Student T distribution
68
Curva F (Fisher-Snedecor)
Si utilizza nei test ANOVA (confronto fra k gruppi, disegno sperimentale).
Dipende da un due parametri detti «gradi di libertà» (degrees of freedom», df)
es dp della statistica
F dell’ANOVA 1-way:
3 gruppi, n=5 ciascuno
3 gruppi, n=20 ciascuno
4 gruppi, n=5 ciascuno
5 gruppi, n=5 ciascuno
69
Corso di Statistica per Scienze Biologiche
Simona Iacobelli
70
Inferenza statistica
• Necessità di generalizzare i risultati ottenuti nel campione alla
«popolazione» da cui esso proviene.
• Modello intuitivo: il campione è stato estratto a caso dalla popolazione
• Modelli matematici ossia leggi del calcolo della probabilità permettono di
mettere in relazione i parametri della popolazione (μ, σ, π) con le
statistiche calcolate nel campione ( , s, f (%) )
• Attenzione alle notazioni X continua con media µ
X dicotomica con pr(X=1)=π
Maiuscole variabili
lettere greche Parametri della pop (alcuni incogniti)
72
Stima della proporzione π
Grandi campioni
• X variabile dicotomica. Nella popolazione ha pr(X=1)=π incognita
• Nel campione (di dimensione n): proporzione = p
• Utilizziamo p come stima puntuale di π
p
• Se il campione è grande (n≥30) si può utilizzare un’approssimazione
per cui:
• Lo s.e. per misurare l’incertezza della stima è:
73
Concetti principali (i)
Variabilità delle stime
• Intuitivamente: poiché il campione è estratto a caso dall’urna la casualità si
trasmette ai dati e quindi alle statistiche calcolate sul campione
• la stima può risultare distante dal valore vero
• Lo «standard error» è la sua deviazione standard: misura la variabilità della
stima rispetto al valore vero
– Più lo s.e. è alto più la stima può essere imprecisa, lontana dal valore vero
… Infiniti valori 𝑥 …
µa
• Si possono applicare tutte le proprietà della Normale. Ad esempio
useremo in vari modi la proprietà:
• Il 95% dei possibili valori della media del campione appartengono
75
all’intervallo
Concetti principali (iii)
Significato dell’Intervallo di Confidenza
La media campionaria è
uno stimatore non Es. stimatore distorto Es. scarsa efficienza
distorto di μ
µa µa µa
77
Stima della media μ
Piccoli campioni
• Quindi è una stima non distorta («accurata») del Distr. delle Misure:
valore vero μ e se n è sufficientemente grande è
efficiente («precisa»)
M
• Vd. Calcolo della Numerosità per stimare la μ -σ μ μ+σ
media mediante Intervallo di Confidenza
• Alta precisione si ottiene anche riducendo il
σ, quindi applicando rigorosamente il
protocollo sperimentale, ad es.
– procedure standardizzare di preparazione e
misurazione, taratura degli strumenti, utilizzo
di operatori formati, etc 𝝈 𝝈
– Utilizzo di unità statistiche simili
μ- μ μ 80
𝒏 𝒏
Stima dell’errore di misura
• Le proprietà dei metodi che utilizziamo sono stabilite in base a teoremi, che
descrivono come sono distribuiti gli infiniti possibili valori che possiamo ottenere.
– Ad es. per la media campionaria il Teorema del Limite Centrale stabilisce che (sotto
certe condizioni) la distribuzione è una Normale centrata sul valore vero con st.dev =
• Gli elementi teorici visti per la stima di una media si applicano alle misure in
laboratorio mediante media di n repliche
– L’errore di misura è dato dallo standard error della media
– Per misure indirette (che utilizzano 2 o più misure dirette) si hanno f.le di propagazione
dell’errore
84
3. Altri elementi
• Esercizi su stima puntuale e intervallare della media (campioni grandi e campioni
piccoli) e della proporzione (solo per campioni grandi)
• Stima intervallare della media: Formule ed esercizi per la numerosità minima
• Misure in laboratorio:
– Grafici per riportare i risultati
– Outlier
• Esercizi sulle f.le di propagazione dell’errore
85
Stima della media (i)
Si vuole stimare il valore medio della pressione arteriosa fra i soggetti sottoposti
ad un certo trattamento farmacologico. Si dispone di un campione di 130 soggetti,
con media campionaria pari a 160 e deviazione standard 25.
95%CI:
Per un 90%CI il
quantile sarebbe
t0.05 = 1.796
[Colonna α=0.1]
88
Stima della proporzione
In un campione di 160 pazienti con leucemia mieloide acuta 110 ottengono la
remissione completa (CR) con una nuova chemioterapia. Qual è la probabilità di CR?
95%CI:
• Si vuole stimare la media µ di una variabile con distrib. Normale mediante (1-α)CI
• Si conosce° il valore della st.dev di X nella pop. σ
• Si desidera che l’intervallo abbia un raggio al massimo pari a δ [«precisione»]
• La numerosità deve essere: dove è il quantile° della N(0,1)
che lascia area=α nelle code
• °In alcuni contesti sperimentali il σ è effettivamente noto; va tenuto presente che laddove
il σ non sia noto e venga stimato dai dati, con n piccolo si dovrebbe calcolare il CI
utilizzando il quantile della T di Student, perdendo precisione rispetto al caso Normale90
Numero di repliche per una misura
Si deve pianificare un esperimento per misurare una lunghezza in millimetri μ. Si
ipotizza che l’errore sperimentale sia pari a 2 mm. Quante repliche fare per ottenere
un intervallo di stima al livello 95% di ampiezza totale al massimo pari a 3 mm?
.
n deve essere almeno: 4·1.78 = 7.1
Osserviamo però che dovendo poi stimare il σ dai dati, con solo 7 misure la formula
del 95%CI dovrà ricorrere al quantile della T con 6 gdl, t0.025 = 2.447 :
92
ABC ABC
Grafici per il risultato della misura (i)
• Negli esperimenti in cui i dati osservati non presentano distribuzione Normale come già
visto la media aritmetica e la st.dev (conseguentemente, lo s.e.) non sono sintesi adeguate.
Pertanto anche i grafici visti alla diapositiva precedente non sono appropriati.
• Il grafico a sinistra è nuovamente quello più utilizzato da chi lavora in laboratorio. Vediamo
come non rappresenti in nessun modo l’asimmetria dei dati.
• Il grafico al centro riporta tutti i dati osservati (scatterplot o dotplot) e le medie (ai punti si
può in effetti sovrapporre l’intervallo )
• I boxplot a destra forniscono informazioni su vari aspetti della distribuzione: centralità e
variabilità (tramite i quartili), forma (simmetria), outlier.
93
Outlier
• In Statistica gli outliers sono valori anomali rispetto a quanto atteso in base a una teoria
sottostante, oppure rispetto agli altri valori osservati
• Identificazione:
– In ambito empirico, in laboratorio vengono seguite regole varie, basate sull’esperienza
(ovvero semplicemente «tramandate» senza particolari criteri)
– Seguendo un criterio statistico, in una serie di misurazioni dove l’errore di misura si
distribuisce come una Normale, sono outlier ad es. i valori al di fuori del range
(per una ben nota proprietà della Normale)
– Si può usare un approccio analogo in esperimenti più generali dove la teoria indica
che la variabile che si sta osservando segue una dp non Normale
• Trattamento:
– In ambito empirico, in laboratorio, quando si ritiene l’outlier un errore di procedura
solitamente lo si esclude dal campione (eventualmente rimpiazzandolo con una
nuova misura)
– Bisogna però fare attenzione, perché l’outlier può essere invece un dato
particolarmente interessante, da studiare per individuare elementi non presi in
considerazione
94
Errore per l’Area del cerchio
Supponiamo di voler misurare l’area di un cerchio disponendo solo di un righello.
Dobbiamo cioè considerare l’area del cerchio come grandezza derivata dal raggio:
Area= (dove π=3.14). Effettuiamo N misure del raggio r, ottenendo la misura
3.3±0.2. Calcolare l’area del cerchio, l’errore assoluto e l’errore relativo.
( ) ( )
Errore di misura: Errore(𝜃) = 𝜃 𝑎 +𝑏
Errore assoluto: 4.14 (quindi il risultato della misura dell’Area è 34.2 ± 4.14)
. 95
Errore relativo: .
Errore per l’Area del cerchio (ii)
Supponiamo di voler misurare l’area di un cerchio disponendo solo di un righello.
Dobbiamo cioè considerare l’area del cerchio come grandezza derivata dal raggio:
Area= (dove π=3.14). Effettuiamo N misure del raggio r, ottenendo la misura
3.3±0.2. Calcolare l’area del cerchio, l’errore assoluto e l’errore relativo.
A B C D
8 6 12 9
freq A B C D
osservate 8 6 12 9
+ + + =2.143
+ + + =2.143
• Sotto l’ipotesi nulla e con variabilità casuale, quanto lontano da 0 può andare il ?
• La risposta è fornita da un teorema che afferma che i possibili valori del si
distribuiscono secondo una curva Chi-Quadrato. Quale esattamente dipende dai
gradi di libertà. In questo esercizio g=3 (Vd. nel seguito come si calcola il valore di g)
• Come si vede nel grafico, sotto H0 sono possibili anche valori molto alti, ad es. >6 o
>8. Il valore osservato 2.143 non sembra affatto improbabile, e dunque non
sembra una prova contraria all’ipotesi nulla.
VERA FALSA
Conclusione
del test su H0 Accett. Rifiuto Accett. Rifiuto
Decisione Decisione errata. Decisione errata. Decisione
Conseguenza
corretta. Falsa nuova Mancata nuova corretta. Nuova
Nessuna nuova scoperta scoperta scoperta!
scoperta
Valutazione degli Errore di I tipo. Errore di II tipo.
errori secondo il Molto grave. Meno grave.
metodo
scientifico Prob. alpha (α) Prob. beta (β) Prob. 1-β:
Livello di potenza del test
104
significatività
Test: Criteri per la decisione
Errori di I e II tipo
=2.143
<7.815 Accettiamo H0
• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione con area =5%; usando la
Tavola del Chi-Quadrato il valore sull’asse che delimita questa area è =7.815
• L’intervallo di valori possibili da 7.815 a +∞ è la zona di rifiuto: se il valore
osservato di cade in questo intervallo si Rifiuta l’ipotesi nulla; se il cade fra 0
e il valore soglia 7.815 si Accetta l’ipotesi nulla. Questa regola di decisione
corrisponde al criterio Prob(Errore I tipo)=α = 5%:
alpha = 5% = Prob che >7.815 se H0 vera = Prob Rifiuto H0 se H0 vera
=2.143
<7.815 Accettiamo H0
• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione con area =5%, delimitata dal
valore soglia7.815. L’intervallo di valori possibili da 7.815 a +∞ è la zona di rifiuto
• La zona di rifiuto comprende quei valori della statistica osservata che sono lontani
dal valore atteso sotto l’ipotesi nulla, e che si ottengono raramente (con
probabilità alpha) quando l’ipotesi nulla è vera: osservando uno di tali valori, è
legittimo dubitare che sia dovuto alla variabilità casuale, e propendere per l’ipotesi
alternativa
• In sostanza: rifiutiamo H0 quando osserviamo dati che sarebbero troppo
improbabili se H0 fosse vera
• Cambiando prospettiva, lo stesso ragionamento porta a definire un altro concetto,
il p-value 107
Il p-value
=2.143
P=0.543
• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione che inizia al valore osservato
del . L’area corrispondente è detta P-value. Qui p=0.543°.(°per il calcolo occorre un
calcolatore)
• Vediamo quindi che oltre il valore osservato 2.143 c’era ancora il 54.3% di tutti i
valori possibili («per caso») sotto H0. Questo calcolo formalizza la nostra
valutazione iniziale che i dati non fossero contrari all’ipotesi nulla.
• In generale, si può calcolare il p-value = la probabilità (sotto H0) di osservare i
nostri dati o dati ancora più contrari ad H0; se molto piccola = dati troppo
improbabili, rifiutiamo H0
• Così enunciata la regola per concludere il test è affidata a una valutazione
soggettiva. Possiamo ottenere una regola perfettamente equivalente alla
precedente imponendo: se p-value >alpha Rifiuto H0 108
Esempio di Test sull’associazione fra 2
variabili categoriche (i)
• In un campione di N=142 individui si vuole verificare se c’è una
associazione fra Sesso (M,F) e Fumo (N,Y), ossia se Maschi e Femmine
sono diversi rispetto al Fumo.
• I dati sono presentati in una tabella di frequenze doppia 2 x 2
Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142
• Ipotesi nulla H0: non ci sono differenze fra M e F, ossia non c’è associazione
fra Sesso e Fumo
109
La tabella doppia («di contingenza»)
La tabella doppia di frequenze
rappresenta la distribuzione congiunta
Le celle centrali presentano le
(o doppia) della coppia (X,Y)
frequenze delle combinazioni
In generale ha dimensione r x c, dove r e dei 2 caratteri
c sono il numero di modalità presentate
dalle due variabili Y = Fumo
X = Sesso no si totale
46%
M 24 42 66
F 45 31 76 54%
totale 69 73 142
L’ultima colonna
L’ultima riga rappresenta la 73 /142 = 51% rappresenta la
distribuzione del carattere Y I Fumatori sono il distribuzione del
(senza tener conto di X) 51% del totale carattere X (senza
tener conto di Y)
Distribuzione marginale di Y
Distribuzione
marginale di 110
X
Le distribuzioni condizionate
Dalla tabella doppia, per capire se c’è una differenza fra M e F
conviene calcolare per M e F separatamente le percentuali di
fumatori: si ottengono i «profili riga», ossia le % calcolate sul totale
della riga
(Si potrebbero anche calcolare i profili colonna, cioè le % sui totali
di colonna) Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142
Distribuzioni
Fumatori su Tot = 51%
condizionate di Y:
• Y | X=M M 24/66 = 36% 42/66 = 64% 100% Fumatori fra M = 64%
• Y | X=F F 45/76 = 59% 31/76 = 41% 100% Fumatori fra F = 41%
freq
osservate Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142
Y = Fumo
Y = Fumo
freq attese
X = Sesso no si
M 32.07 33.93
F 36.93 39.07
+ + +
Confrontiamo questo valore col valore soglia preso dalla Tavola del Chi-Quadrato per
1 gdl (tabella 2 x 2: g = (2-1)∙(2-1) = 1)
Per alpha=5% la soglia è 3.841, per alpha=1% essa è 6.635.
113
pertanto l’associazione fra Sesso e Fumo è altamente significativa
I gdl nei test col Chi-Quadrato
• I test basati sul Chi-Quadrato sono utilizzati in problemi dove i dati sono tabelle di
frequenze. L’indice misura la distanza fra frequenze Osservate e frequenze Attese
sotto l’ipotesi nulla, e si distribuisce secondo una curva Chi-Quadrato con g gradi di
libertà.
• Ai fini di una comprensione intuitiva dei gdl possiamo dare la seguente regola:
g = (n.ro di dati liberi di variare – n.ro di vincoli o quantità da stimare dai dati)
• Nell’esercizio svolto si avevano k=4 gruppi e quindi 4 dati liberi di variare, meno 1
poiché per stimare le freq attese sotto l’ipotesi H0 di equidistribuzione dobbiamo
vincolarci al totale (n=51 errori). Quindi g=4-1=3. In generale: g = k-1
– Se la distribuzione di riferimento (H0) è la curva Normale, si sottraggono inoltre
2 gdl perché è necessario stimare media e st.dev della Normale: g = k-3
– In problemi di genetica come verificare se viene rispettato l’equilibrio di Hardy-
Weinberg occorre conoscere la teoria per stabilire il n.ro di vincoli e quindi i gdl
del test
• Nel Chi-Quadrato per l’associazione fra 2 variabili categoriche su una tabella doppia r
x c si hanno rc dati liberi di variare, meno (r + c – 1) vincoli dovuti ai totali fissati di
riga e colonna (r tot righe + c tot colonna meno 1 per tenere conto del totale
generale N). Quindi g = rc –r –c +1 =(r-1)(c-1) 114
4. Sintesi
• Logica ed impostazione del test statistico di ipotesi:
– Il test ha l’obiettivo di rigettare H0 se c’è forte evidenza che sia Falsa; in caso contrario
H0 viene accettata
115
4. Altri elementi
• Esercizi sui Test Chi-quadrato
116
Test per la differenza fra gruppi (i)
119
Diversa valutazione degli Errori di I e II tipo
Vediamo un contesto industriale in cui H0: il cibo prodotto è sano
l’Errore di II tipo (Accetto Ho falsa) risulta
più grave dell’Errore di I tipo (Rifiuto H0 H0
vera).
Qui H0 rappresenta la situazione
«desiderabile», non l’ipotesi da VERA FALSA
falsificare
Conclusione
del test su H0 Accett. Rifiuto Accett. Rifiuto
Conseguenza
Il cibo prodotto viene: immesso in distrutto immesso in distrutto
commercio commercio
Decisione: corretta errata errata corretta
121
Test su una media μ
• X variabile continua. Nella pop. ha media μ incognita e st.dev σ
– H0: μ= μ0 (dove μ0 è un valore specifico)
– H1 può essere «a due code» oppure «a una coda» :
• H1: μ≠ μ0 oppure μ< μ0 o μ> μ0
• Nel campione (di dimensione n): Media = , st.dev=s
• La statistica test è la media campionaria, conosciamo già (vd. cap. Stima)
la distribuzione dei suoi possibili valori sotto H0 cioè assumendo μ= μ0 :
• Se il campione è grande (n≥30):
– si può utilizzare la Normale con media μ0 e st.dev = (o
se σ incognito)
• Se il campione è piccolo ma X ha distr. Normale nella popolazione:
– σ noto: si può utilizzare la Normale (μ0 , )
– σ incognito: si deve utilizzare (dopo aver standardizzato) la T-di
Student con n-1 gdl (in questo caso per il calcolo del p-value occorre un calcolatore)
122
Ruolo di H1: test a una o due code
X nella popolazione
µ0
• Test a due code (Two-sided test):
• H0: µ=µ0 H1: µ ≠ µ0
• Ci sono 2 zone di rifiuto, alle due code, ciascuna
con area α/2 (i due valori soglia sono simmetrici,
alla stessa distanza da μ0). L’intervallo centrale fra
µ0
i due valori soglia è la zona di accettazione
• Il p-value sarà pari a 2 x Area nella coda
delimitata dal valore osservato della
statistica test
µ0
• Test a una coda (One-sided test):
• H0: µ=µ0 H1: µ < µ0
oppure
µ0
• H0: µ=µ0 H1: µ > µ0
• C’è una zona di rifiuto, alla coda indicata da H1
123
(ossia rispettivamente sui valori bassi e alti).
Test su una media (i)
Si sa che in una popolazione di soggetti sani il valore della pressione del sangue si
distribuisce secondo una distribuzione Normale con media 105 e deviazione standard
pari a 15. Si osserva un campione di 20 soggetti con media campionaria pari a 114.
Verificare l’ipotesi che tali soggetti siano stati estratti da quella popolazione, contro
l’ipotesi che siano soggetti ipertesi. Usare un test 2-sided e α=5% prima, poi α=1% .
media π0 e st.dev =
126
Test su una proporzione
In un campione di 160 pazienti con leucemia mieloide acuta 110 ottengono la
remissione completa (CR) con una nuova chemioterapia. Con la chemio standard
Pr(CR) è 60%: la nuova chemio è più efficace? Usare prima α=5% poi α=1%
Abbiamo già risposto a entrambi i quesiti. Vediamo che già disponendo dell’intervallo
di confidenza al livello 95% era possibile rispondere al quesito del test al livello
alpha=5%:
95%CI:
Cioè: con la nuova chemioterapia la prob di CR è compresa fra 62% e 76%.
– Le formule valgono per i grandi campioni; per i piccoli campioni le f.le per il test sulla
media valgono solo sotto certe condizioni (la variabile X nella popolazione ha una
distribuzione Normale) (vd. nel Seguito i Test non-parametrici)
• C’è una relazione fra l’intervallo di confidenza e il test bilaterale: ad es. un 95%CI
fornisce la conclusione del test al livello di significatività 5%
130
5. Altri elementi
• Esercizi sul test sulla media utilizzando la distribuzione T di Student
131
Test su una media (iii)
•Si sa che in soggetti sani il valore della pressione del sangue si distribuisce secondo
una distribuzione Normale con media 105. Si osserva un campione di 20 soggetti con
media pari a 114 e dev. st. pari a 15. Verificare l’ipotesi che siano soggetti ipertesi
usando un test 2-sided e α=5%, poi α=1% Esercizio simile ma non identico al precedente
Ipotesi del Test : H0: μ=105 vs. H1: μ≠105
Quale procedura si può utilizzare: La popolazione è Normale con st.dev incognita
si può usare la sua stima s calcolata dal campione sotto H0; la statistica test
standardizzata: ha distribuzione T di Student con 20-1=19 gradi di libertà
• Si vuole verificare l’ipotesi che la media µ di una variabile con distrib. Normale sia
pari a µ0 mediante un test con livello di significatività α e potenza 1-β
• Si conosce° il valore della st.dev di X nella pop. σ
• Si ipotizza che la differenza fra il valore vero di µ e µ0 sia pari a δ
– Ovvero, δ è la minima differenza che si vorrebbe dimostrare come significativa
• La numerosità deve essere:
dove è il quantile° della N(0,1)
che lascia area=ε nella coda
• Per livello di significatività α=95% e per potenza =80% o 90% si può ricorrere
ad approssimazioni: 80% 90%
Dati del problema: Errore σ=2 mm, differenza ipotizzata δ=1.2 mm = 4.2-3
Livello di confidenza 1-α=0.95 α/2 = 0.025 =1.96
Potenza 1-β=0.9 =1.28
135
Utilizzo «inverso» della tavola della Normale
Cerchiamo . sulle tavole della Normale: partendo dall’area Φ(z)=90%, vediamo
che essa si trova per z=1.28
136
Corso di Statistica per Scienze Biologiche
Simona Iacobelli
137
Test sulla differenza fra due medie
(T-test)
• Interessa la relazione fra Y variabile continua e X variabile dicotomica,
che definisce k=2 gruppi.
• Nella popolazione°, in ciascun gruppo Y ha distrib. Normale con media
incognita (rispettivamente μ1 e μ2) e st.dev σ
– H0: μ1= μ2 (cioè non c’è differenza; X e Y non sono associate)
– H1: μ1 ≠ μ2
• Nel campione si hanno i due gruppi j=1,2 con dimensione nj, Media = ,
st.dev=sj .
• La statistica test è:
dove s è una stima di σ:
t
. .
0.9683
0.9683
La tavola non
riporta g2=95.
Dovendo scegliere
fra g2=90 e
g2=100,
prendiamo il
valore soglia per
g2=90, che è più
alto: questa scelta
ci garantisce
meglio contro
l’Errore di I Tipo
Per alpha=1% il
valore soglia
sarebbe 4.85
144
Interpretazione di un Modello ANOVA
• Il Modello ANOVA ad un fattore (1-way) può essere scritto come:
Y = µ + αj + ε dove ε ~ N(0, σ)
• e descritto in questi termini:
Y = Media generale + Effetto del Fattore X=j + Errore
Y
Media di Y se X=3: µ + α3
α2 α3
µ α1 ε ~ N(0, σ) ε rappresenta la
variabilità individuale
residua / interna al
gruppo 3 / non
X=1 X=2 X=3 spiegata da X=3
145
Interpretazione di un Modello ANOVA
• Il Modello ANOVA ad un fattore (1-way) può essere scritto come:
Y = µ + αj + ε dove ε ~ N(0, σ) Utilizziamo delle lettere
greche αj θl etc senza
• e descritto in questi termini: significato particolare;
non confonderle con
Y = Media generale + Effetto del Fattore X=j + Errore l’alpha del test etc!
Ossia:
– I valori di Y variano da unità a unità, attorno ad una media generale µ.
– Le unità sono però raggruppate in base al fattore X: il fattore X=j produce su
tutte le unità del gruppo j-esimo uno scostamento dalla media µ ,
rappresentato da αj – per cui la media del gruppo j-esimo sarà µ + αj
– Ogni unità ha poi uno scostamento da questa media per effetto del caso
ovvero di tutti gli altri fattori non considerati nel modello: errore ε
• L’effetto del fattore X (misurato da SSB/k-1) viene confrontato mediante la
statistica F con l’errore (misurato dal MSE) per valutarne la significatività
Come vedremo a breve il modello può essere esteso con l’inclusione di più fattori, i concetti
restano gli stessi. Per ogni fattore si calcola una statistica F per confrontarne l’effetto 146
(misurato da SS / gdl) rispetto al MSE
Modelli ANOVA e Disegni sperimentali
• I modelli ANOVA (a uno o più fattori, vd. Seguito) vengono utilizzati soprattutto
in contesti sperimentali
• Introduciamo qui i primi elementi, facendo riferimento a una situazione in cui
la variabile oggetto di misurazione (variabile risposta, outcome) sia una Y
continua e interessi il confronto fra k trattamenti - ossia l’associazione con una
variabile X categorica (fattore o variabile esplicativa o covariata), con
eventuale aggiunta di altri fattori esplicativi
• Le principali caratteristiche di un contesto sperimentale sono:
– L’adozione di un protocollo sperimentale ossia una dettagliata descrizione di come
deve essere svolto ogni passo della sperimentazione (strumentazione, taratura,
misurazione etc) con l’obiettivo di minimizzare la variabilità accidentale delle
osservazioni (il σ della Y nella popolazione, ovvero: avere un MSE basso)
– La possibilità di somministrare i «trattamenti» in base a una randomizzazione, con
l’obiettivo di creare gruppi di trattamento simili tra loro
– La possibilità di fissare la numerosità campionaria, con l’obiettivo di raggiungere la
potenza desiderata 147
La randomizzazione
• Consideriamo ad esempio un esperimento su topi di laboratorio per confrontare gli effetti
della somministrazione di uno di tre trattamenti T1, T2 e T3. La variabile risposta è Y, il
trattamento è tanto più efficace quanto più Y è alta.
• Si creano 3 gruppi di n topi e gli si somministra rispettivamente T1, T2 e T3. Quindi si
misura Y e si analizzano i risultati. Supponiamo di trovare che il gruppo con Y più alta è T3.
T1 T2 T3
• Si può concludere che il trattamento T3 è il migliore? Ossia avere Y più alta è
effettivamente dovuto al trattamento T3?
• La spiegazione alternativa potrebbe essere nel fatto che i topi trattati con T3 sono diversi
da quelli trattati con T1 e con T2 (ad es. potrebbero essere più giovani, o più in salute, o
avere una genetica «favorevole» etc)
• Questa diversità del gruppo k=3 potrebbe essersi realizzata per caso o per il metodo
utilizzato per creare i gruppi (ad es. si sono presi i topi da una gabbia, i primi n sono andati
nel gruppo k=1, poi altri n in k=2, gli ultimi n in k=3: i topi più giovani e più in forma sono
stati catturati per ultimi) 148
La randomizzazione
• La comparazione fra k gruppi è valida se i k gruppi sono simili rispetto a tutte le
caratteristiche associate alla variabile risposta
T1 T2 T3
• La randomizzazione consiste nella creazione dei k gruppi secondo un meccanismo
probabilistico specifico, per cui ogni unità ha la stessa probabilità delle altre unità di essere
inserita nel gruppo j-esimo, indipendentemente dalle sue caratteristiche
• Questo meccanismo tende a creare k gruppi complessivamente simili per tutte le
caratteristiche
Nota: non necessariamente
randomizzare implica
Pr(T1)=Pr(T2)=Pr(T3)
T1 T2 T3 Si possono avere per es. 1/5
delle unità in T1, 2/5 in T2 e
T2
Modello ANOVA 1-way:
T3 Y = µ + αj + ε dove ε ~ N(0, σ)
Y = Media generale + Effetto trattamento Tj + Errore
T1 T2 T3 T1 T2 T3
®
Strato Z = 1
®
Strato Z = 2
• Se non c’è motivo di aspettarsi che l’effetto del Trattamento sia diverso nei diversi strati
151
si
può utilizzare un modello ANOVA a 2-vie senza interazione
DBR e ANOVA 2-ways senza interazione
Disegno a Blocchi Randomizzati
Confronto di Y in k gruppi di
B1 B2 B3 B4 Trattamento tenendo conto
T = T1, …, Tk
trattamento T1 dell’effetto del Blocco (h strati)
Consideriamo il caso con k unità
B = B1 , …, Bh T2 in ciascun blocco, randomizzate ai
blocco k trattamenti: ossia ogni
T3 combinazione Blocco-
Trattamento contiene 1 sola unità
• La differenza fra i due disegni riguarda piuttosto il fatto che ci si aspetta che X e Z
abbiano una interazione, ossia che l’effetto di X sia diverso a seconda del valore di
Z (e viceversa: effetto di Z diverso a seconda del valore di X). In questa situazione
si va a utilizzare un modello ANOVA a 2-vie con interazione
• Un’altra differenza concettuale riguarda il fatto che il fattore Z può essere a sua
volta determinato dallo sperimentatore, ad esempio essere un co-trattamento
• Es. oltre al trattamento chemioterapico T (=T1, T2, T32) si vuole somministrare o no la
radioterapia Z (=Z1 no, Z2 sì)
• Nel disegno a blocchi il fattore Z non è somministrabile, è una caratteristica delle unità
(es essere un «topo grigio»)
153
DF e ANOVA 2-ways con interazione
Disegno Fattoriale
Studio di Y in relazione a due Trattamenti, X con
Z1 Z2
T = T1, …, Tk k livelli e Z con h livelli, e alla loro interazione
trattamento T1 (ossia, l’effetto della loro combinazione)
Z = Z1 , …, Zh T2
N unità vengono distribuite in modo bilanciato
trattamento alle kh combinazioni di trattamento: n =N/kh
T3
ciascuna
157
6. Altri elementi
• T-Test su due medie: Formule ed esercizi per la numerosità minima
• I test non-parametrici
158
Numerosità per il t-test su due medie
• Si vuole impostare un t-test per confrontare due medie, con livello di significatività
α e potenza 1-β
• Si conosce° il valore della st.dev di X nella pop. σ
• Si ipotizza che la differenza (in valore assoluto) fra le due medie sia pari a δ
– Ovvero, δ è la minima differenza che si vorrebbe dimostrare come significativa
• La numerosità in ciascun gruppo deve essere:
dove è il quantile° della N(0,1)
che lascia area=ε nella coda
• Per livello di significatività α=95% e per potenza =80% o 90% si può ricorrere
ad approssimazioni: 80% 90%
(al solito osserviamo che però per numerosità piccole bisognerà usare la distribuzione T, con
159
perdita di potenza)
Applicazione: Numerosità per il T-Test
In un esperimento si vogliono creare due gruppi di N piante ciascuno, somministrare
due diversi tipi di antiparassitario, e confrontarne l’efficacia, misurata da una
variabile continua Y. L’obiettivo è dimostrare che c’è una differenza almeno pari a
20. Se la Y ha variabilità (st.dev) σ=12, quante piante bisogna trattare per ottenere
un test con una potenza dell’80%?
160
Confronti multipli nell’ANOVA 1-way
Problema del multiple testing: inflation of Type I Error
• Nell’ANOVA 1-way si hanno k>2 gruppi e si verifica l’evidenza che ci sia almeno una
μj diversa dalle altre
• In aggiunta al test overall può interessare effettuare altri confronti, ad esempio i
confronti pairwise
– Ad. es con k=3 (A, B, C) si hanno 3 confronti delle coppie: A vs B, A vs C, B vs C
– Altri confronti di interesse potrebbero essere: A e B insieme vs C; etc
• Il piano dei confronti da svolgere deve essere specificato all’inizio dell’esperimento
e/o seguire dei metodi particolari, in particolare per evitare di incorrere in una
«falsa scoperta»
– Questo è un accenno al problema dell’inflazione dell’Errore di I Tipo nei test multipli
– Se ad es. si fanno c test indipendenti l’uno dall’altro ognuno con alpha=5%, se tutte le
10 ipotesi H0 sono vere la probabilità che almeno uno dei test concluda erroneamente
rigettando H0 è: 1-(1-0.05)c. Ad es se c=10 questa probabilità è del 40%
• Questi argomenti non sono oggetto del corso, ad eccezione del semplice metodo
di Bonferroni che verrà illustrato con un esempio.
161
– Un altro metodo molto utilizzato è quello di Tukey
ANOVA 1-way, Metodo di Bonferroni per confrontare 2 gruppi
Y=durata della gravidanza in tre Allevamento: A B C
allevamenti di cani. n 32 36 30
Media (gg) 63.3 62.8 63.0
ANOVA no differenze
Confronto fra A e B? st.dev (gg) 1.02 0.92 0.98
Precisiamo che per facilitare l’illustrazione prima del T-test poi dell’ANOVA 1-way
abbiamo utilizzato gli stessi dati di A e B, aggiungendo un gruppo C; in uno studio
sperimentale il numero di gruppi è fissato all’inizio e, qualunque siano i risultati, non è
corretto «eliminare» un gruppo in fase di analisi.
Con k=3 si possono fare c=3 confronti appaiati (con k=4 c=6; con k=5 c=10 etc)
Secondo il metodo di Bonferroni per ogni coppia si usa il t-test con 2 correzioni:
1) Per non superare una prob di errore di I Tipo alpha (es 5%) in ciascun test si deve
utilizzare α= alpha/c (qui 0.05/3=0.017)
2) Si utilizza il MSE dell’ANOVA come stima di σ2, e i suoi gdl (qui MSE=0.94, g2=95)
Avendo 95 gdl possiamo utilizzare la
Normale, e quindi calcolare il p-value:
0.94
p = 2∙(1-0.983)=0.034 > 0.017: si accetta H0: non c’è sufficiente evidenza di differenza fra
162A e B
Verifica delle condizioni dei test T e ANOVA
• I test T e ANOVA sono detti «parametrici» con riferimento al fatto di
essere validi solo n particolari condizioni sulla distribuzione della variabile
nella popolazione:
– È una Normale
– La varianza σ2 è la stessa nei gruppi di confronto («omoschedasticità»)
• Esistono diversi metodi e test per verificare queste ipotesi; non sono
oggetto del corso, ma impariamo i nomi dei più utilizzati:
• Normalità: metodi grafico del Q-Q plot, test di Kolmogorov-Smirnov (dove
H0: la distribuzione è Normale)
– Va menzionata la possibilità di trasformare i dati per ottenere una distribuzione
osservata più simile alla Normale. Una trasformazione semplice che funziona in
presenza di una Y a valori positivi molto asimmetrica è quella logaritmica: Y*=ln(Y)
Y Y*=ln(Y)
• Notiamo che questo è solo uno dei tanti casi in cui si analizzano dati che
presentano strutture di dipendenza, e che nella letteratura statistica vengono
presentati molti metodi specifici per queste situazioni.
• Impariamo ad esempio che per dati annidati o longitudinali (illustrati in una
prossima slide) si hanno modelli ANOVA e modelli lineari (prossimo capitolo)165
a
coefficienti casuali
Paired T-Test
Si osserva la pressione in 5 soggetti sani, ottenendo: 98; 96; 91; 87; 93. Ai soggetti
viene somministrato un farmaco in sperimentazione, e gli viene nuovamente misurata
la pressione, ottenendo: 102; 96; 95; 94; 98. Vi è evidenza di un aumento
significativo della pressione?
Si tratta di un confronto di dati appaiati: la numerosità del campione è n=5, ogni
osservazione del gruppo «pre-trattamento» è abbinata a una seconda osservazione
«post-trattamento». Il modo corretto di affrontare il confronto è lavorando sulle
differenze: d = -4; 0; 4; -7; - 5
Calcoliamo media e deviazione standard:
Impostiamo quindi un test per verificare se questa media è significativamente diversa
da 0 (seguendo la procedura del test per una media)
. =
.
Per α=0.05 soglia = ± 2.776 Si rigetta H0 (ossia c’è sufficiente evidenza di aumento)
Per α=0.01 soglia = ± 4.604 Si accetta H0 (ossia non c’è sufficiente evidenza)166
Esempi di dati dipendenti
Esempio di dati annidati:
• Studio sulle carriere dei laureati italiani: le unità sono
raggruppate per Università, le Università per Regione
(struttura a 3 livelli)
I metodi come l’ANOVA a coeff casuali permettono ad
esempio di introdurre un «effetto università» utilizzando
solo 1 gdl anche in presenza di dati provenienti da dozzine
di università
• Studio di Antropologia Molecolare, su ossa (livello 1)
prelevate da individui diversi (livello 2) provenienti da
siti archeologici diversi (livello 3)
Y Y
X X
Grafici di valori osservati (xi,yi) («nuvola di punti», scatter plot) e della retta
169
che idealmente li attraversa, rappresentando quindi la relazione fra X e Y
Prerequisiti
La retta y = 5 + 1∙x
y
Curva descritta dall’equazione y = a + b∙x y = 2 + 1∙x
Se X varia di Y varia di
171
Retta di regressione
Uno studio ha raccolto dati sulla relazione fra X=Altezza (cm) e Y=FEV(l) (Forced
Expiratory Volume, indice di efficienza respiratoria), ottenendo per la retta di
regressione:
a = -9.190 95%CI=(-11.10,-7.28)
b = 0.074 95%CI=(0.023,0.126)
Interpretare i risultati.
Y
La retta: y=a+b∙x restituisce
il valore medio atteso di Y
quando X assume il valore x
ε rappresenta la variabilità individuale
casuale ovvero non spiegata da X
X
X=x
173
Illustrazione del Modello Lineare
Y
Valore atteso in
media per Y Retta: y=f(x)=1+2∙x ε ~ N(0, σ)
Y1 = 22.7
quando X=10:
1+ 2∙10 =21 Y2 = 20.2
X X X X
177
Correlazione e regressione
Sulla base dei dati su consumo calorico giornaliero (X) e pressione (Y), calcolare un
indice della forza della relazione lineare e un indice di impatto di X su Y, e poi dire:
1. Cosa accade alla pressione se il consumo calorico diminuisce da 2000 a 1800? E
se diminuisce da 2500 a 2300?
2. Quale consumo calorico bisognerebbe avere per mantenere la pressione sotto 90?
Calories (X) Pressure (Y) X,Y
mean =1916.7 =102.4 cov=540.4
st.dev sx=137.20 sy=13.90
.
• Coeff. di Correlazione (grado): =
. .
• Coeff. di Regressione (impatto): .
= .
1) A una variazione ∆x = -200 del consumo corrisponde una variazione attesa ∆Y della
pressione pari a (-200) ∙ 0.029 = -5.8. Non fa differenza se il valore iniziale è 2000 o
2500
2) Retta di regressione: 𝑎 = 102.4 − 0.029 1916.7 = 46.816 → 𝑌 = 46.816 + 0.029𝑋
∗
Impostiamo l’equazione: ∗
178
Per avere pressione <90 bisognerebbe assumere meno di 1490 cal.
R2
Utilizzando i dati e i risultati dell’esercizio precedente, vediamo anche l’indice R2 e il
suo significato:
Nel caso del ML con una sola variabile esplicativa l’indice detto R2 è pari a r2:
Dunque l’8% della variabilità osservata della Pressione Y è «spiegata» dal modello
lineare con covariate: Consumo X
(terminologia e concetti come nell’Analisi della Varianza)
179
Il Modello Lineare Multiplo
• L’estensione dell’equazione della retta al caso con k>1 covariate è
l’iperpiano (qui rappresentiamo il caso k=2, nel piano a 3 dimensioni)
• Con k variabili esplicative X1, X2, … Xk il modello di regressione è:
Y = a+b1x1+b2x2+…+bkxk + ε dove ε ~ N(0, σ)
• che può essere descritto in questi termini:
Y = Media che dipende da X1, X2, … Xk +E(Y|X=x)
Errore = a+b1x1+b2x2
Il piano y=a+b1x1+b2x2
restituisce il valore medio atteso di
Y quando il pattern di covariate è
uguale a x1, x2, … xk
Il ruolo del coefficiente di regressione bj è analogo al modello semplice: indica quanto varia Y
quando Xj aumenta di +1 e le altre covariate rimangono costanti [derivata parziale]
- Quando l’età X1 aumenta di +1 anno e il Fumo X2 non varia E(Y | X1, X2) cambia di 𝟏
Notiamo infatti che nel modello è possibile inserire variabili dicotomiche. La modalità =0
viene detta baseline, valore di riferimento; il coeff. di regressione indica l’effetto su Y del
livello 1 rispetto al livello 0
181
Regressione multipla (i)
La tabella riporta i risultati di un MLM applicato alla variabile risposta Pressione (Y)
con 2 variabili esplicative: Età, Fumo (Sì vs no)
(Questo è un esempio di output, colonne e nomi delle colonne possono cambiare. Qui
«Estimate» riporta i coeff di regressione stimati e la colonna «Pr(>|t|)» i loro p-values per H0:
bj=0 vs. H1: bj≠0. A volte si ha il 95%CI, qui c’è lo standard error, che permette di calcolarlo:
Estimate ± 1.96∙ Std.Error
• Età: l'associazione con la pressione è molto significativa, con un effetto di +0,53 per
ogni ulteriore anno di età (senza cambiamento di Fumo).
• L'effetto min e max sono dati dai limiti del 95CI%: 0,53 ± 1,96 ∙ 0,09 = (0,34,0,71)
• Per facilità di interpretazione, calcoliamo ad es. l'impatto di +5 anni : +2,65 di
pressione (= 5 · 0,53)
• Fumo: un fumatore ha un aumento statisticamente significativo di 6,35 di pressione
rispetto a un non fumatore della stessa età. 182
ML multiplo: illustrazione (ii)
Inclusione di covariate categoriche
Es. Il valore atteso di Pressione per un soggetto con Età=34, Fumatore, che ha ricevuto Tratt. C è:
_ _
𝟑_𝑪 misura la variazione del valore atteso della Pressione comparando il Trattamento C al
Trattamento A a parità di Età e Fumo X2.
183
𝟑_𝑩 confronta il Trattamento C sempre contro al Trattamento A, a parità di Età e Fumo X2.
Regressione multipla (ii)
Estimate Std. Error Pr(>|t|)
(Intercept) ...
Age ...
Smoke ...
Treat B -0.38877 0.21365 0.07286 .
Treat C 0.12013 0.41522 0.31782
• Trattamento:
• in questo output non viene fornito un test generale per l’ipotesi che vi sia almeno un
trattamento con effetto diverso dagli altri due; vediamo il confronto dei livelli B e C contro il
livello A:
• Con Età e Fumo fissati, il trattamento B rispetto al baseline A potrebbe dare una diminuzione
∆Y = −0,39; questo effetto non raggiunge la significatività al 5% (p = 0,073)
• Con Età e Fumo fissati, il trattamento C rispetto al baseline A fornisce un aumento ∆Y = 0,12
non significativo (p=0.318)
• Si può confrontare ad es. il livello C contro B, ma per avere la significatività bisogna avere altro
output. L’effetto su Y è 𝒃𝟑_𝑪 -𝒃𝟑_𝑩 = 0.120-(-0.389) = 0.509
• Ovviamente B contro C è: è 𝒃𝟑_𝑩 − 𝒃𝟑_𝑪 = -0.389-0.120 = -0.509
184
7. Sintesi
• La relazione matematica più semplice fra variabili continue è quella lineare: a
questa fanno riferimento i più utilizzati metodi di analisi
• La retta di regressione è la retta con parametri stimati dai dati che passa
complessivamente più vicina ai punti osservati; essa restituisce il valore atteso
della variabile risposta Y in presenza di una certa X
– Le variabili non incluse nel modello ovvero la variabilità casuale determinano poi uno
scostamento fra ogni valore osservato di Y e il corrispondente valore atteso, detto
Errore: questa è la seconda componente di un Modello Lineare
• Il modello lineare è una estensione della retta che permette di inserire più
variabili per spiegare la Y