Sei sulla pagina 1di 185

Corso di Statistica per Scienze Biologiche

Simona Iacobelli

Le basi della Statistica. Tabelle e grafici di frequenza. Principali indici di


posizione e variabilità.

1. DISTRIBUZIONI DI FREQUENZA E
INDICI DESCRITTIVI

1
Necessità di Conoscenze  Statistica

• Esame di Statistica: • Dati


“E’ facile?” – N studenti coorte 2018-19
(campione; N o n ampiezza o
dimensione del campione)
– Qual è la probabilità di
passare?
• Variabili: (modalità)
– Con che voto si passa?
– Esame Passato (No/Si)
– Quante volte si fa
l’esame per passare? – Voto (18, 19, …, 29, 30, 31)
– N.ro prove (0, 1, 2, >2)
Oggettività
Quantificazione
Misurazione dell’incertezza
(della variabilità) 2
Dati
• Fonte: coorte Biologia 2018-2019

• 260 studenti
• 11 non hanno mai dato l’esame, 142 l’hanno dato 1 volta,
107 l’hanno dato più di una volta
• 189 hanno passato l’esame con voti:
29 28 31 30 28 26 24 23 28 28 29 30 19 29 20 21 31 25 29 18 31
27 20 31 20 22 29 28 30 21 26 21 24 29 26 21 31 25 21 25 29 20
23 31 29 20 29 19 21 22 19 25 31 29 30 21 25 23 21 21 26 25 21
22 18 22 27 29 29 25 29 31 31 26 21 21 24 25 27 24 30 19 28 25
20 24 29 20 27 27 19 27 30 25 29 27 26 30 30 30 26 28 21 27 19
28 24 24 21 25 20 30 20 29 29 27 18 27 24 29 25 25 21 21 23 21
25 22 29 25 22 21 29 24 27 23 24 31 29 27 31 24 25 26 29 28 20
30 28 29 20 26 28 23 28 21 30 20 28 31 19 26 20 25 24 25 28 21
29 31 29 22 19 22 27 29 24 18 25 27 24 29 21 20 29 18 26 26 29
3
Dati  Statistiche
Frequenze e percentuali

• 260 studenti, 189 hanno passato l’esame

• 189 / 260 = 0.7269231 = 73%


189: frequenza assoluta
0.72672 frequenza relativa proporzione
72.7% frequenza percentuale 0.73 su 1
73 su 100

Distribuzione di frequenza della


pie chart
variabile «Superamento dell’esame»
x n p
No 71 27.3 Variabile «qualitativa» o «categorica»
Yes 189 72.7
260 100.0 4
Dati  Statistiche
Frequenze e percentuali

• 260 studenti, 189 hanno passato l’esame con voti:


29 28 31 30 28 26 24 23 28 28 29 30 19 29 20 21 31 25 29 18 31
27 20 31 20 22 29 28 30 21 26 21 24 29 26 21 31 25 21 25 29 20
23 31 29 20 29 19 21 22 19 25 31 29 30 21 25 23 21 21 26 25 21
22 18 22 27 29 29 25 29 31 31 26 21 21 24 25 27 24 30 19 28 25
20 24 29 20 27 27 19 27 30 25 29 27 26 30 30 30 26 28 21 27 19
28 24 24 21 25 20 30 20 29 29 27 18 27 24 29 25 25 21 21 23 21
25 22 29 25 22 21 29 24 27 23 24 31 29 27 31 24 25 26 29 28 20
30 28 29 20 26 28 23 28 21 30 20 28 31 19 26 20 25 24 25 28 21
29 31 29 22 19 22 27 29 24 18 25 27 24 29 21 20 29 18 26 26 29

Distribuzione di frequenza della variabile «Voto» (solo esami superati)


x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189

(lista delle modalità (valori) osservati (o osservabili) e loro frequenza = n.ro di unità che
5
presentano quella modalità)
Dati  Statistiche
Indici sintetici per variabili quantitative

Variabile «quantitativa» (?)


• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189

Percentuali:
p = 5/189 8/189 etc

• Media = 25.3
(media aritmetica) barchart

6
Media aritmetica
• Voti (n=189):
29 28 31 30 28 26 24 23 28 …
27 20 31 20 …
… 24 29 21 20 29 18 26 26 29

n = n.ro unità
i  unità
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189

k = n.ro modalità
7
j  modalità
Dati  Statistiche  Generalizzazione

• Perché ci dovrebbero interessare i dati relativi alla


coorte Biologia 2018-2019?
• Esigenza di generalizzazione (Inferenza)

Studenti Biologia POPOLAZIONE


Fenomeno di interesse

Dati osservati CAMPIONE


Studenti coorte Biologia 2018-2019

grade 24 - 21
pass Y N Y8
Dati  Statistiche  Generalizzazione

• Prob(Passare) stimata = 73% Fra tutti gli infiniti


valori nella
• Intervallo di stima: (67% - 78%) (95%CI) popolazione 73 su 100
Quantificazione dell’incertezza sono «Pass=Y»

Studenti Biologia POPOLAZIONE


Fenomeno di interesse
X «passare» = N / Y

Dati osservati CAMPIONE


Studenti coorte Biologia 2018-2019

Prob(passare) = 73%
9
Media aritmetica
• Valore centrale in termini di distanza dai valori osservati
– Se valutiamo le distanze [scarto] di ciascun voto dalla
media, la somma è nulla, e la somma dei quadrati -
che fornisce una misura di distanza globale - è minima
• Rappresentativo degli n valori originali in quanto valore
complessivamente più vicino a essi
Es. campione di n=5 valori: 31 18 28 30 30

Se tutti i 5 voti fossero =media=27.4 la somma dei voti


sarebbe la stessa: 31 + 18 + 28 + 30 + 30 = 27.4 5 

Si bilanciano, la somma fa 0
10
Indici di posizione
o «di tendenza centrale» e
loro interpretazione come stime per la popolazione
• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189
• Media = 25.3
Valore centrale, che bilancia meglio le distanze
Considerando tutti gli infiniti valori nella
popolazione quello che mi aspetto in media è 25.3
 Nella pop. la media è anche detta «valore
atteso» e indicata con E(X)

• Moda = 29
Modalità prevalente (osservata con
maggiore frequenza di tutti gli altri
valori)
Fra tutti gli infiniti valori nella popolazione il
più probabile è 29 11
Informazione dall’ordinamento
«ranking» - informazione portata dai ranghi

• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189

Quanti studenti prendono


al massimo 27?

Pr(X ≤ 27)

12
Frequenze cumulate
x n p N P
grafico a
18 5 2.6% 5 2.6% linee
19 8 4.2% 13 6.9%
20 14 7.4% 27 14.3%
21 21 11.1% 48 25.4%
22 8 4.2% 56 29.6%
23 6 3.2% 62 32.8%
24 14 7.4% 76 40.2%
25 19 10.1% 95 50.3%
26 12 6.3% 107 56.6% Quanti studenti
27 14 7.4% 121 64.0% prendono al massimo
28 14 7.4% 135 71.4% 27?
29 29 15.3% 164 86.8%
30 12 6.3% 176 93.1%
Pr(X ≤ 27)
31 13 6.9% 189 100.0%
13
Mediana
x n p N P
18 5 2.6% 5 2.6%
19 8 4.2% 13 6.9%
20 14 7.4% 27 14.3%
21 21 11.1% 48 25.4%
22 8 4.2% 56 29.6%
23 6 3.2% 62 32.8%
24 14 7.4% 76 40.2%
25 19 10.1% 95 50.3%
26 12 6.3% 107 56.6% Qual è il voto x*
27 14 7.4% 121 64.0% raggiunto al massimo
28 14 7.4% 135 71.4% dal 50% degli
29 29 15.3% 164 86.8% studenti?
30 12 6.3% 176 93.1%
31 13 6.9% 189 100.0%
Pr(X ≤ x*) = 50%
14
Mediana
• Voti (ordinati):
[1] 18 18 18 18 18 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20
[26] 20 20 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 22 22
[51] 22 22 22 22 22 22 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 24
[76] 24 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 26 26 26 26 26
[101] 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 27 27 27 27 28 28 28 28
[126] 28 28 28 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29
[151] 29 29 29 29 29 29 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 30
[176] 30 31 31 31 31 31 31 31 31 31 31 31 31 31

Per n=189 consideriamo il valore Qual è il voto x*


che occupa la posizione 95 raggiunto da al
massimo il 50% degli
studenti?
Fra tutti gli infiniti valori nella popolazione c’è
il 50% di probabilità di prendere fino a 25, e il Pr(X ≤ x*) = 50%
50% di prendere più di 25 15
Mediana (formule)
Notazione: x(1) è il
Con un campione di n osservazioni x1 x2 …. xn-1 xn valore osservato di X
più piccolo, x(2) è il
Ordiniamo in senso crescente le osservazioni: secondo più piccolo,
etc. x(n) è il più
x(1) x(2) …. x(n-1) x(n) grande

Se n dispari c’è un solo valore centrale, alla Mediana per n


dispari e pari:
posizione
Se n pari si sono due valori centrali, alle posizioni
e
 se non coincidono ne consideriamo la loro media

Es: X = Peso (kg). Valori osservati: 61; 84; 55; 72; 91


- Valori ordinati: 55; 61; 68; 72; 84; 91. n=6
- 3o e 4o valore: 68; 72
16
- Mediana =
Mediana
• Valore centrale in termini di rango dei valori osservati
• Rappresentativo degli n valori originali in questi termini:
– La prima metà dei valori osservati cade sotto la mediana, la
seconda metà cade sopra la mediana
– C’è il 50% di probabilità di cadere sotto e 50% di cadere sopra
• Indice più «robusto» della media rispetto ai valori estremi
– Es. campione di n=5 valori: 31 18 28 30 30

– Ordinamento: 18 28 30 30 31 mediana =30

– Es. campione di n=5 valori: 31 24 28 30 30

– Ordinamento: 24 28 30 30 31 mediana = 30
17
Indici di posizione e forma della
distribuzione
• Una forma tipica di molti fenomeni
biologici è a campana, dove la media è
anche la mediana e la moda
• Ma molti fenomeni hanno
distribuzione asimmetrica, ad es. con
una maggiore massa di frequenza su
una delle due code
– La media è spostata verso tale coda
(influenza dei valori estremi)
– La mediana è un valore rappresentativo Asimmetria a destra: Mediana < Media
migliore della media
• Con distribuzioni bi- o multi-modali
media o mediana possono essere
entrambe inadeguate 18
Indici di variabilità
• Oltre alla posizione un aspetto che
caratterizza la distribuzione è la variabilità:
le osservazioni sono simili fra loro cioè
vicine, oppure sparse lungo l’asse
cartesiano? 25 35 45 55
Età

– Omogeneità o eterogeneità?
• Ci sono diversi modi di misurare la
variabilità di un insieme di valori.
15 25 35 45 55 65
• Uno dei principali è misurare la
dispersione rispetto alla media aritmetica,
calcolando una (sorta di) media degli
scarti  deviazione standard:
25 35 45 55
x
19
Confronti

Media = 25.3 Media = 25.7


Moda = 29 Moda = 30
Mediana = 25 Mediana = 27
Stdev = 3.82 Stdev = 3.85

20
Confronti

Media = 25.3 Media = 24.1


Moda = 29 Mode = 20 , 29
Mediana = 25 Mediana = 24
Stdev = 3.82 Stdev = 4.12
Voti Bio > Voti Pharma: E’ un caso? Oppure è una caratteristica
21
«della popolazione», ossia del fenomeno in generale, riproducibile?
Le domande della ricerca
• Abbiamo confrontato 2 vaccini: col primo si sono ammalati il
12% delle persone vaccinate, col secondo l’8%. La differenza è
dovuta al caso, oppure il secondo vaccino è più efficace del
primo? [Confronto fra gruppi]

• Solitamente si riscontra una certa malformazione congenita in


1 bambino ogni 1000; in questa area geografica nel 2020 si
sono avuti 1.5 casi ogni 100 nati: è stato un caso? Oppure c’è
effettivamente un aumentata incidenza di malformazioni?
[Confronto con valori di riferimento / teorie]
• E’ stato osservato che nelle zone con maggiori valori di
particelle xyz nell’aria si ha un numero maggiore di morti per
malattie cardiache. E’ un caso, o c’è una relazione fra
particelle xyz e mortalità per malattie cardiache?
[Relazione fra variabili] 22
1. Sintesi
• Dai dati osservati otteniamo delle sintesi statistiche
– Tabelle e grafici di frequenze
• Distribuzione di X = Lista dei valori osservati con le loro frequenze
• Freq. Assolute, Relative, Percentuali
• Freq Cumulate (Assolute, Relative, Percentuali)
• Grafici: a torta, a barre, a linee
– Indici di posizione e di variabilità per variabili quantitative
• Media (aritmetica), Moda, Mediana; deviazione standard

• Le statistiche ottenute dal campione possono essere interpretate


come valori relativi alla «popolazione» = «fenomeno generale»
• Con quanta incertezza? [Fornire stime che ne tengono conto; misurare
l’errore]
• Come distinguere fra osservazioni dovute al caso e osservazioni dovute a
caratteristiche della popolazione = generali? [Test statistico di ipotesi] 23
1. Altri elementi
• Esercizi su: creazione di tabelle di frequenza, calcolo degli indici di
posizione (Media aritmetica, Moda, Mediana) e variabilità
(Deviazione Standard, Coefficiente di Variazione)
• Media ponderata
• Le statistiche ottenute dal campione possono essere interpretati
come valori relativi alla «popolazione» = «fenomeno generale»
• Con quanta incertezza? [Fornire stime che ne tengono conto; misurare
l’errore]
• Come distinguere fra osservazioni dovute al caso e osservazioni dovute a
caratteristiche della popolazione = generali? [Test statistico di ipotesi]

24
Creare e lavorare su una distribuzione di frequenze (i)
Consideriamo un campione di n=18 donne su cui è stato osservato il numero di
gravidanze: 1 ; 0; 1 ; 0; 0; 0; 3; 2; 0; 1; 3; 2; 2; 4; 0; 1; 1; 3
Creare una tabella per descrivere la distribuzione. Poi individuare Moda e Mediana.

Modalità Frequenza Freq. relativa e % es.


=
Freq Freq %
Gravidanze Assoluta Relativa
0 6 0.3333 33.3 Notare l’arrotondamento.
1 5 0.2778 27.8
Nell’ultima cella
2 3 0.1667 16.7 l’arrotondamento è
3 3 0.1667 16.7 volutamente “sbagliato” per
4 1 ottenere una colonna di
0.0556 5.5 numeri che sommano a 100
tot 18 1.0000 100.0 («quadratura»)

La Moda è 0: il caso prevalente è aver avuto nessuna gravidanza 25


Creare e lavorare su una distribuzione di frequenze (ii)
Consideriamo un campione di n=18 donne su cui è stato osservato il numero di
gravidanze: 1 ; 0; 1 ; 0; 0; 0; 3; 2; 0; 1; 3; 2; 2; 4; 0; 1; 1; 3
Creare una tabella per descrivere la distribuzione. Poi individuare Moda e Mediana.

Modalità Frequenza Freq. relativa e % Freq. Cumulate (?)


Ok: la variabile
Freq è ordinata (è
Freq Freq % %
Assoluta Cum. quantitativa!)
Gravidanze Assoluta Relativa Cum.
0 6 0.3333 33.3 6 33.3
1 5 0.2778 27.8 6+5 = 11 61.1 es. otteniamo
2 3 0.1667 16.7 11 + 3 =14 77.8 61.1 come
3 11/18 o come
3 0.1667 16.7 14 + 3 =17 94.4 33.3+27.8
4 1 0.0556 5.5 17 + 1= 18 100.0
tot 18 1.0000 100.0

La Mediana è 1 (primo valore a cui si raggiunge il 50% delle freq. cumulate): la 26


metà delle unità osservate ha avuto al massimo una gravidanza
Indici di posizione per variabile quantitativa discreta
da una tabella di frequenze

Campione di 8 individui, !
distribuzione del Numero di Figli:
Non confondere modalità (n.ro Figli) e
Figli (xi) freq. (ni) xi ni frequenze!
0 4 0 Le unità sono n=8, mentre le modalità
sono 3.
1 3 3
2 1 2 Media  ricostruire l’ammontare totale
(dai prodotti modalità ∙ frequenza)
tot 8 5
Mediana  su una tabella guardare alle
freq cumulate; qui n piccolo, possiamo
Totale Numero di figli = (0+0+0+0)+(1+1+1)+(2)
anche guardare alla lista dei valori
= 0·4 + 1 ·3 + 2 ·1 osservati, ordinati, individuando quello di
posto n/2 cioè il 4° e il successivo
Media = 5 / 8 = 0.6

Moda = 0
Mediana = fra 0 e 1: 0.5 27
Mediana di una distribuzione di frequenze di una
variabile quantitativa discreta
Distributione del Numero di gravidanze in un
campione di n=18 donne
La mediana è la modalità di
Gravidanze ni Ni
rango tra n/2 e n/2+1 (qui n è
0 6 6 pari).
1 5 11 Per individuarla rapidamente
calcoliamo le frequenze
2 3 14 cumulate.
3 3 17
4 1 18
tot 18 !
Come al solito vi potrebbe essere
n/2=9  la 9a unità presenta la modalità “1” confusione fra le frequenze (6; 5;
3 etc) e le modalità (0, 1, 2 etc).
Infatti le prime 6 donne presentano la modalità “0”, con La mediana è una delle modalità
“0” non raggiugiamo la metà delle unità del campione.
Includendo le 5 modalità pari a “1” raggiugiamo una
frequenza cumulata pari a 11, e quindi abbiamo incluso
la 9a modalità; essa è anche la 10a  Mediana =1 28
Media di due (o più) gruppi
Un articolo riporta che il valore medio del colesterolo
in un gruppo di 40 uomini è pari a 198 mg/dl, mentre
in un gruppo di 16 donne è di 190 mg/dl. Quanto
vale la media nella popolazione totale??
!
media ≠ (198+190)/2=194
x n tot
Procedere secondo la regola
M 198 40 198×40=7920 generale: dividere l’ammontare totale
per l’ampiezza campionaria
F 190 16 190×16=3040

56 10960

media = 10960 / 56 = 195.7

29
Media ponderata
• In alcune situazioni nel calcolo di un indice statistico – qui la media - c’è
necessità di assegnare “importanza” (peso) diverso alle osservazioni
– Per gli Studenti universitari: Esami con crediti diversi
– Laboratorio: Misure con differenti livelli di precisione (ovvero diversa affidabilità)
– Economia: indice dell’aumento dei prezzi: gli aumenti dei beni più scambiati deve
avere un peso superiore all’aumento dei beni che vengono acquistati meno spesso
• Per ogni osservazione c’è un peso .
• La media pesata (o ponderatata) è:

L’esercizio sui livelli di colesterolo nei due gruppi è un caso di calcolo della media
semplice, ma può anche essere considerato un caso di media ponderata fra due valori
(198 mg/dl per i M, 190 mg/dl per le F) con pesi rispettivamente pari a 𝑝 = 40 e 16. 30
Variabili categoriche
• Fonte: coorte Biologia 2018-2019
Variabile Esame Passato Variabile qualitativa non ordinata o «sconnessa»

x n p Avendo k=2 modalità possibili è anche una


0=N 71 27.3 variabile dicotomica
1=Y 189 72.7  basta conoscere una freq. relativa per
conoscere tutta la distribuzione
260 100.0
In generale con k modalità sono necessarie k-1
freq. relative per conoscere la distribuzione

Distribuzione del N.ro prove sostenute


x n p P Variabile qualitativa ordinata
0 11 4.2 4.2
1 142 54.6 58.8
>1 107 41.2 100.0
260 100.0 100.0 31
Modalità mediana della distribuzione di una variabile
qualitativa ordinata
Il concetto di modalità
mediana è applicabile
Es 1: Livello di dolore in 5 pazienti, modalità: anche a variabili
Assente; Debole; Forte; Assente; Debole qualitative ordinate.

Valori ordinati: Assente, Assente, Debole, Debole, Forte Si procede come per il
caso di una variabile
La mediana è “Debole” quantitativa (discreta),
cioè guardando alle
frequenze cumulate.

Es 2: Distribuzione dei partecipanti a un sondaggio Se nel caso di n pari le


rispetto al TITOLO DI STUDIO modalità di posto e
Titolo di Studio n p (%) N P (%) + 1 sono diverse ci
Lic. Elementare 142 8.0 142 8.0 sono due modalità
mediane!
Lic. Media Inferiore 605 33.9 747 41.9
Lic. Media Superiore 832 46.7 1579 88.6
Laurea o oltre 204 11.4 1783 100.0
!
1783 100.0 Se la variabile non è
ordinata non ha senso
individuare la mediana
32
La modalità mediana è “Media Superiore”.
Indici di variabilità basati sugli scarti
La deviazione standard (stdev) rappresenta la distanza
media delle osservazioni dalla loro media.
Funge da valore di riferimento (una sorta di «unità di
misura») per valutare la distanza fra due osservazioni;
assume un’importanza fondamentale nelle distribuzioni a
campana (vd. curva Normale).
La quantità sotto la radice quadrata è già di per sé un
indice di variabilità, detto varianza.
(E’ poco utile in ambito descrittivo poiché la sua unità di
misura e l’ordine di grandezza non sono quelli della
variabile X; assume importanza nel confronto fra gruppi,
vd. ANOVA, dove si userà la SST, Total Sum of Squares)

Il rapporto fra deviazione standard e media viene


chiamato coefficiente di variazione, misura l’importanza
della stdev in termini relativi ed è utile nei confronti 33
Calcolo di varianza e deviazione standard

Età per un campione di 7 individui !


ETA’ xi xi-m (xi-m)2 Attenzione a svolgere le
65 9.29 86.22 operazioni in ordine:

-20.71 429.08 Prima si calcolano gli


35
scarti 𝑥 − 𝑥̅ (se è una
44 -11.71 137.22 distribuzione in classi
43 -12.71 161.65 prendere il valore centrale
come 𝑥 );
71 15.29 233.65
Poi ogni scarto viene
63 7.29 53.08 elevato al quadrato;
69 13.29 176.51 Poi si sommano i
0 1,277.429 quadrati; se è una
media m=55.7 distribuzione di frequenze
moltiplicare ogni 𝑥 − 𝑥̅
Ad esempio alla seconda riga: I calcoli vengono riportati qui per la sua frequenza 𝑛
con arrotondamento, ma i
(35-55.7) = -20.71 ; (-20.71)2 = 429.08 Si divide per (n-1),
risultati finali sono basati con
più cifre decimali – per ottenendo la VARIANZA;
Varianza = 1,277.429 / 6 = 212.9048
questo abbiamo piccole, Si estrae la radice
34
std = 212.9048 = 14.59126 apparenti discrepanze quadrata
Calcolo della varianza: formula più rapida

Età per un campione di 7 individui


ETA’ xi (xi)2
65 4225 !
35 1225 Il numeratore della VARIANZA si
44 1936 ottiene più rapidamente
applicando la seguente formula:
43 1849
71 5041
63 3969
69 4761
23,006 (questa formula alternativa
media m=55.7
produce esattamente lo stesso
risultato, eventuali discrepanze
Per il calcolo della varianza: dei risultati dei due approcci
possono essere dovute
23,006 - 7∙(55.7)2 = 1,277.429
all’arrotondamento)
Varianza = 1,277.429 / 6 = 212.9048
35
Uso del Coefficiente di Variazione
Per un campione di neonati vengono analizzate 3 variabili, ottenendo i seguenti
risultati:
X = peso neonato: media = 3.2 kg, std = 0.5 kg
Y = peso madre: media = 60 kg, std = 4.5 kg
Z = altezza neonato: media = 51 cm, std = 2.5 cm

 I neonati sono più variabili rispetto al peso o all’altezza?


 Il peso è più variabile nei neonati o nelle madri?

Le tre variabili hanno diverso ordine di grandezza, e persino (peso e altezza) una
differente unità di misura: le tre standard deviation non possono essere confrontate
se non rimuovendo sia la loro “grandezza” che l’u.d.m.
 Ricorriamo al CV, che esprime la variabilità in proporzione alla dimensione media
del carattere, ed è un numero puro (cioè senza unità di misura)
X : CV = (0.5 kg / 3.2 kg)∙100 = 15.6%
Y : CV = (4.5 kg / 60 kg) ∙100 = 7.5%
Z : CV = (2.5 cm / 51 cm) ∙100 = 4.9%
 I neonati sono più variabili rispetto al peso che all’altezza (circa tre volte tanto) e
in termini di peso sono variabili il doppio delle madri 36
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

Curve di densità. Curva Normale e altre densità teoriche.


Variabili quantitative: quartili, percentili, altri quantili.

2. DISTRIBUZIONI DI VARIABILI
CONTINUE

37
Variabili quantitative: Raggruppamento in
classi

• Voti:
x = 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Sum
n = 5 8 14 21 8 6 14 19 12 14 14 29 12 13 189

Distribuzione (di frequenza) in classi

x n p
18-20 27 14.3
21-23 35 18.5
24-26 45 23.8
27-29 57 30.2
30-30L 25 13.2
38
(Notazione adatta alle variabili continue)
Variabili continue

Variabile quantitativa discreta  Freq. concentrate su specifici valori x, frequenza 0


nell’intorno di x

voto
18 19 20 21

Variabile quantitativa continua  Freq. spalmate su intervalli, frequenza 0 su uno


specifico valore x (salvo limiti di accuratezza dello strumento di misura)

Peso (kg)
Ogni valore 56.4 56.7
compreso
fra 2
modalità
osservate è Età (anni)
un possibile 18 19 20 21
valore di X
(19, 21] sta per l’intervallo 19 < X ≤ 21 39
Distribuzioni in classi per variabili continue
(A) Distribuzione di 56 pazienti pediatrici per ETA’

x freq. % xj  Perdita di informazione. Ad es


0 -| 2 14 25.0 1.0 per calcolare la media si utilizza un
2 -| 7 24 4.5 valore rappresentativo per
42.9
ciascuna classe, di conseguenza
7 -| 14 14 25.0 10.5
calcolando una stima ma non il
14 -| 18 4 7.1 16.0 valore esatto della media
56 100

Per rappresentare i valori osservati di una variabile continua in una tabella di


frequenze, essi vengono raggruppati in classi.
Gli estremi delle classi (cutpoints) possono essere scelti in base a criteri diversi;
le classi possono avere la stessa ampiezza o no, come in questo caso.
Nella rappresentazione in classi quindi ci sono degli elementi di non-oggettività,
e comunque si ha una perdita di informazione.
 Perdita di oggettività. Vediamo il seguente esempio di come la scelta delle
classi può influire sulle conclusioni – se non si adottano metodi statistici più
40
opportuni
Distribuzioni in classi per variabili continue
(A) Distribuzione di 56 pazienti pediatrici per ETA’

Età freq. %
Classe modale: 2-|7
0 -| 2 14 25.0
2 -| 7 24 42.9
7 -| 14 14 25.0
14 -| 18 4 7.1
tot 56 100

(B) Età freq. %


0-|2 14 25.0
2-|4 13 23.2 Classe modale: 0-|2
4-|7 11 19.6
7-|10 9 16.1
10-|14 5 8.9
14-|18 4 7.1
tot 56 100 41
Variabili continue: concetto di Densità

Età freq. %
Classe modale: 2-|7
0 -| 2 14 25.0
2 -| 7 24 42.9
7 -| 14 14 25.0
14 -| 18 4 7.1
tot 56 100

• La variabile continua assume (almeno teoricamente) tutti i valori di un


intervallo  rappresentare i valori su un asse cartesiano senza vuoti fra
i rettangoli
• Se le classi hanno ampiezza diversa occorre tenerne conto: una stessa
frequenza ha un peso diverso se riferita a un intervallo lungo o a uno
corto  considerare la densità di frequenza:

42
Istogramma, o grafico della densità
Età freq. % ampiezza densità
0-|2 14 25.0 2–0=2 14 / 2 = 7.0
2-|7 24 42.9 7–2=5 24 / 5 = 4.8
7-|14 14 25.0 14 – 7 = 7 14 / 7 = 2.0
14-|18 4 7.1 18 –14 = 4 4 / 4 = 1.0
56 100
La frequenza di un intervallo
𝑑𝑒𝑛𝑠𝑖𝑡à = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 = 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 𝑑𝑒𝑛𝑠𝑖𝑡à è rappresentata come area
Area Rettangolo = Base x Altezza del rettangolo costruito sopra
di esso

Area totale = frequenza


14 totale
24
14 4
0 2 7 14 18 Età
43
Istogramma, o grafico della densità
Età freq. % ampiezza densità densità Notare che calcolando la
14 25.0 densità dalle % anziché
0-|2 2–0=2 14 / 2 = 7.0 25 / 2 = 12.5
dalle freq assolute le
2-|7 24 42.9 7–2=5 24 / 5 = 4.8 42.9 / 5 = 8.6 altezze dei rettangoli
7-|14 14 25.0 14 – 7 = 7 14 / 7 = 2.0 25 / 7 = 3.6 sono proporzionali
quindi la forma del
14-|18 4 7.1 18 –14 = 4 7.1 / 4 = 1.8
4 / 4 = 1.0 grafico non cambia.
56 100
L’area totale è pari a 100
𝑑𝑒𝑛𝑠𝑖𝑡à = 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙𝑒 = 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 𝑑𝑒𝑛𝑠𝑖𝑡à (anziché a N)
Area Rettangolo = Base x Altezza

Area totale = frequenza %


25% totale
42.9%
25% 7.1%
0 2 7 10 14 18 Età
44
Curve teoriche di densità
• Un istogramma a intervallini piccolissimi (infinitesimali) avrebbe l’aspetto di una curva
continua, a cui sarebbe associata una funzione y=f(x).
• La curva y=f(x) rappresenta una densità, ossia funziona come l’istogramma: la frequenza dei
valori corrisponde all’area contenuta sotto la curva in corrispondenza
dell’intervallo
• In matematica si hanno diverse curve di densità teoriche y=f(x) che possono rappresentare
la distribuzione di una variabile X nella popolazione (ossia, l’andamento di un fenomeno X in
generale)

FREQUENZA attesa dei


valori di X compresi fra a e b
f(x) = AREA sotto la curva
delimitata da a e b

0 2 5 a b 12 18
45
La curva Normale
(o Gaussiana, o legge di Laplace, o curva degli errori)

N(0,1)

N(2,2)

• L’equazione e quindi la curva della Normale sono identificate da due parametri µ e


σ
• Matematicamente: ha una forma a campana, simmetrica attorno all’asse x=μ; per x
→±∞ scende asinto camente verso 0, con pun di flesso in µ ± σ
• Statisticamente: interpretando la curva come curva di densità per una variabile X
nella popolazione, µ e σ sono indici rispettivamente di posizione e di variabilità: μ
= media e σ = deviazione standard degli infiniti valori

• La Normale con parametri µ=0 e σ=1 è detta Normale Standard e spesso indicata
46
dalla lettera Z; le tabelle si riferiscono a questa curva
Ruolo di σ nella Normale
• Le seguenti proprietà valgono per ogni curva Normale di media μ e dev.st. σ
• Gli intervalli centrati in μ con raggio multiplo di σ hanno sempre:
Nella Normale
Area fra = 0.68 Standard Z sono
68% gli intervalli:
(E’ l’intervallo fra i punti di flesso, dove μ
cambia la curvatura)
μ  1σ ±1

Area fra ≈ 0.95


(Notare l’approssimazione. Area =95% si ha 95%
μ
con raggio 1.96σ)
μ  1.96 σ ±2

Area fra ≈ 0.997

(Dunque µ ± 3σ rappresentano una stima 99.7%


μ
ragionevole del minimo e massimo valore
μ  3σ ±3
osservabili)

La st.dev σ dunque determina completamente quanto i valori siano vicini al punto centrale μ
47
o invece dispersi (sempre simmetricamente) lungo l’asse
Usare la Normale come curva di densità
Ricordiamo che in una curva di densità Area = Frequenza – riferita ai valori osservabili in
una popolazione teorica, generale; ovvero:

Se immaginiamo che il fenomeno X nella popolazione abbia una distribuzione descritta


da una densità Normale con certi parametri μ e σ, l’area sotto la curva delimitata da a e
b corrisponde alla probabilità di osservare un valore compreso fra a e b

POPOLAZIONE
Palline = gli
Area fra = infiniti valori =
tutti i numeri
= Prob sull’asse
cartesiano

Il calcolo dell’integrale per la Normale non CAMPIONE


μ a b
è risolvibile analiticamente, ma solo
numericamente: occorre usare un
calcolatore, oppure ricorrere a delle
x
tabelle, create per la Normale Standard 48
Tabella delle probabilità Φ(z) della N(0,1)
Per ogni valore z (solo >0) la tabella fornisce il
valore Φ(z) dell’area sotto la curva N(0,1)
corrispondente all’intervallo da -∞ a z
Φ(z)
Φ(z) si trova all’incrocio fra la riga che riporta
l’intero e la prima cifra decimale di z e la colonna z
che riporta la seconda cifra decimale di z

Es. per z= 0.13 Φ(z)=0.552


Sfruttando la simmetria della curva e
z 0 1 2 3 ricordando che è una densità
0.0 0.500 0.504 0.508 0.512 per cui:
0.1 0.540 0.544 0.548 0.552
0.2 0.579 0.583 0.587 0.591 Area Totale = Φ(+∞)=1
0.3 0.618 0.622 0.626 0.629 (e Φ(0)=0.5)
0.4 0.655 0.659 0.663 0.666
questa tabella è sufficiente per calcolare
l’area di qualsiasi intervallo, come mostrato
nel Seguito
49
Aree degli intervalli della N(0,1) usando la
tabella delle Φ(z)
Area coda superiore = 1- Φ(z) Area coda inferiore = 1- Φ(-z)
(ovviamente con
z<0 occorre
Φ(z) guardare
all’opposto: -z che
è >0)
z z
Area fra a e b con a>0 = Φ(b) - Φ(a) Area fra a e b con b<0 = Φ(-a) - Φ(-b)

(anche qui sfruttiamo


la simmetria e
guardiamo al
corrispondente
intervallo sull’asse
a b a b >0)
Area fra a <0 e b >0 = Φ(b) + Φ(-a) -1

poichè da Φ(b) si sottrae l’area nella


coda inferiore fino all’estremo –a:
50
= Φ(b) – ( 1-Φ(-a) )
a b
Aree degli intervalli della N(μ,σ) usando la
tabella e la standardizzazione
• Consideriamo una generica Normale: la
variabile X segue una distribuzione N(μ,σ) N(μ,σ)
• Con riferimento alla variabile Z con Φ(z)
distribuzione Normale Standard N(0,1) vale
sempre che:
x
• È possibile trasformare i valori di X dalla scala
originaria alla scala della Z dove media = 0 e
z=
s.dev = 1 mediante l’operazione di
standardizzazione:

• e calcolare le aree corrispondenti; ad es.


• Area per X su è uguale alla Area per Z
su
– (dove z è il valore ottenuto da x applicando la
51
formula della standardizzazione)
Calcolo di aree sulla Normale
X variabile con distr. Normale di media µ=50 e dev. st. σ=2.5 X: N(µ=50,σ=2.5)
Calcolare la proporzione dei valori di X nell’intervallo (45, 57)
Nota: essendo X continua, includere o no l’estremo
dell’intervallo non ne modifica la prob poiché pr(X=x)=0

Passo 0: fare il GRAFICO sull’asse dei valori di X


Passo 1: STANDARDIZZARE per passare da valori
sulla scala di X a valori sulla scala della N(0,1)
45  (45-50) / 2.5 = -2 52.5

57  (57-50) / 2.5 = 2.8


Passo 2: TABELLA per trovare le aree Φ(z)
Φ(2)=0.977 Φ(2.8)=0.997
Passo 3: CALCOLARE le aree di interesse
«giocando» coi «pezzi» Φ(z)
Area di interesse: P( 45 < X < 57) (Area in blu)
Φ(2.8)-Coda fino a -2 = 0.997-0.023 =0.974 = P(-2 < Z < 2.8)
= 0.974 52
1-Φ(2)=1-0.977 = 0.023
2. Sintesi
• Le variabili continue possono essere riportate in tabelle di frequenze ricorrendo
alla suddivisione in classi.

• Il corrispondente grafico è l’istogramma, costruito sull’asse dei valori di X. Se le


classi non hanno la stessa ampiezza è fondamentale riportare in ordinata non le
frequenze ma le densità.

• Le curve di densità fornite da equazioni matematiche vengono utilizzate come


modelli teorici di distribuzioni. La principale è la curva Normale.

• Proprietà degli intervalli e ruolo della st.dev

• Utilizzo della tavola della Normale e della standardizzazione

53
2. Altri elementi
• Esercizi sulle tabelle di frequenza in classi per variabili continue: calcolo di Media e
Deviazione Standard, creazione e utilizzo dell’istogramma.

• Il concetto di Mediana visto sull’istogramma, ed estensioni: i Quartili e gli altri


Percentili.
• Il boxplot

• Quantili importanti della Normale

• Esercizi sull’interpretazione dei quantili.

• Esercizi sull’utilizzo della curva Normale come modello di distribuzione

• Curve teoriche di densità utilizzate in Inferenza statistica: Chi-Quadrato, T di


Student, F di Fisher-snedecor

54
Media di una variabile quantitativa continua,
dati raggruppati in classi

Es: Peso corporeo per un campione di 64 atlete

peso (kg) freq. (ni) xi xi ni !


-| 50 4 45 180 Il principio è sempre quello di
ricostituire l’ammontare totale del
50 -| 60 17 55 935
carattere, e dividerlo per il numero di
60 -| 70 24 65 1560 unità. Il problema è che le modalità
sono intervalli di valori del carattere.
70 -| 80 11 75 825
Soluzione: assegnare a ciascuna
80 - 8 85 680 classe un valore rappresentativo –
64 solitamente, il valore centrale
4180

Media = 4180 / 64 = 65.3

Per le classi aperte si sceglie un


valore rappresentativo
“plausibile”; la stima della media
può cambiare per scelte diverse
55
St.dev di una variabile quantitativa continua,
dati raggruppati in classi

Es: Peso corporeo per un campione di 64 atlete

peso (kg) freq. (ni) xi xi ni xi2ni !


-| 50 4 45 180 8100 Utilizzando la formula
«rapida» non
50 -| 60 17 55 935 51425 dimenticare di
60 -| 70 24 65 1560 101400 moltiplicare i valori xi2 per
le loro frequenze
70 -| 80 11 75 825 61875
80 - 8 85 57800
680
Nota: è possibile
64 280600
4180 sfruttare i calcoli già fatti

Media = 4180 / 64 = 65.3

∑ 𝑥 𝑛 − 𝑛 𝑥̅ .
𝑣𝑎𝑟 =
𝑛−1

st.dev= 56
Creare un istogramma
(B)
Età freq. % ampiezza densità
Prendere la scelta alternativa delle
classi per la distribuzione dell’Età
0-|2 14 25.0 2–0=2 14 / 2 = 7.0
dei 56 pazienti pediatrici e creare
2-|4 13 23.2 4–2=2 13 / 2 = 6.5
l’istogramma.
4-|7 11 19.6 7-4=3 11 / 3 = 3.7
7-|10 9 16.1 10 - 7 = 3 9 / 3 = 3.0
Dovrebbe fornire una forma simile
10-|14 5 8.9 14 –10 = 4 5 / 4 = 1.2 della densità.
14-|18 4 7.1 18 –14 = 4 4 / 4 = 1.0

𝑑𝑒𝑛𝑠𝑖𝑡à =

0 2 4 7 10 14 18 Età
57
Utilizzare (i concetti de) l’istogramma

Età % densità Utilizzando questi dati stimare quanti individui del


12.5
campione avevano un’età compresa fra 7 e 10 anni
0-|2 25.0
2-|7 42.9 8.6 • Consideriamo la densità di freq. dell’intervallo (7-10)
7-|14 25.0 3.6 • (lavorando su una variabile continua possiamo assumere
14-|18 7.1 1.8 che la freq. di X=7 e X=10 fosse 0%, cioè non importa
N=56 specificare se gli estremi sono compresi o no)
• Densità = 3.6 (la stessa dell’intervallo (7-14)
• Freq (%) = 3 x 3.6 = 10.8%
• Freq (ass) = 0.108∙56 = 6

Il procedimento corrisponde a
calcolare l’area del rettangolo
25% costruito sopra all’intervallo (7,10)
42.9%
25% 7.1%
0 2 7 10 14 18 Età
58
Mediana e quartili
Usiamo l’istogramma già visto, le % scritte nei rettangoli sommano a 1. Le aree che
rimangono (in verde) oltre i tre quartili sono rispettivamente pari a 0.5, 0.75, 0.25

Secondo quartile = Mediana:


25%
42.9% divide il primo 50% di valori <med
25% 7.1% e l’altro 50% di valori >med
0 2
mediana 7 14 18

Primo quartile, Q1:


divide il primo 25% di
valori <Q1 e l’altro 75%
25%
di valori >Q1
42.9%
25% 7.1%
0 2 Q1 7 14 18
Terzo quartile, Q3:
divide il primo 75%
di valori <Q3 e l’altro
25% 25% di valori >Q3
42.9%
25% 7.1% 59

0 2 7 Q3 14 18
Può essere presentato
Boxplot orizzontalmente o
verticalmente; i valori sono
sull’asse X.

Q1mediana Q3 X

Grafico alternativo all’istogramma per variabili quantitative, illustra alcune caratteristiche


della distribuzione, in particolare i quartili.
La «scatola» (box) è delimitata da Q1 e Q3 e presenta una linea interna in corrispondenza
della mediana.
I «baffi» («whiskers») rappresentano la variabilità, ma si hanno diverse versioni del grafico.
Nella più semplice, si estendono dal minimo al massimo valore di X; più utilmente, la
lunghezza delle linee esterne dipende dalla st.dev, e il grafico riporta anche i valori
particolarmente estremi (outliers).
60
Boxplot
Evidenziazione della forma della distribuzione (se unimodale)

Distribuzione Distribuzione Distribuzione


asimmetrica a sinistra simmetrica asimmetrica a destra

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

61
Percentili (e altri quantili)
I quartili (mediana, Q1, Q3) dividono la distribuzione
ad ogni 25% della frequenza.
Q1, Q3
Dividendo la distribuzione ad altre percentuali
otteniamo altri “quantili”. La terminologia viene
adattata di conseguenza. Per esempio:
Area = 25%
Percentili: Area = 50%
–Es. il 5° percentile P5 è tale che il 5% dei valori sono
inferiori a P5.
– Il 95° percentile P95 è tale che il 5% dei valori sono
superiori a P5
P33 è anche chiamato “primo terzile”; 33% ossia 1/3
dei valori sono <P33.
P10 è anche chiamato “primo decile”: 10% ossia 1/10
dei valori sono <P10
Tutti i quantili possono essere definiti e utilizzati anche per le variabili quantitative discrete e
62
per le qualitative ordinate.
Interpretazione dei quantili
Indici descrittivi della variabile Età osservati in un campione di studenti:
Quartili: Mediana (Q2) =20.5 Q1=20.1 Q3=22
P10 (decimo percentile; anche primo decile) =18.5
P66 (66-mo percentile; anche secondo terzile)=21.7
- Metà studenti avevano meno di 20.5 anni (e metà studenti più di 20.5 anni)
- Uno su 4 (25%) aveva meno di 20.1 anni, 1 su 10 meno di 18.5 anni
- Uno su 4 (25%) aveva più di 22 anni
- Uno su 3 (33%) aveva più di 21.7 anni
- Il 25% aveva un’età compresa fra 20.1 e 20.5
- il 15% aveva un’età compresa fra 18.5 e 20.1
- etc

63
Quantili della Normale
• I quartili di una N(μ,σ) sono sempre:

• Introduciamo quantili particolari che si utilizzano per stima intervallare e test (


attenzione a notazione e significato di )

𝟎.𝟎𝟓 𝟎.𝟎𝟐𝟓 𝟎.𝟏𝟎 𝟎.𝟎𝟓


𝟐 𝟐

±1.96 è il valore della N(0,1) che ±1.64 è il valore della N(0,1) che
lascia nelle code il 5% della lascia nelle code il 10% della
frequenza (2.5% in ciascuna coda) frequenza (5% in ciascuna coda) 64
Applicazione della Normale come modello di distribuzione
In una popolazione di ragazze adolescenti, il Body Mass Index (BMI) si
distribuisce secondo una Normale con media 24 e varianza 9. Se definiamo
“sottopeso” le ragazze con BMI inferiore a 18, quante ragazze risulteranno
sottopeso in un gruppo di 60?

Variabile: X = valore del BMI


Informazioni: X ha distr. Normale, μ=24 σ2=9  σ=3
Quesito: P(X<18)
(«Pr» sta per «proporzione» (stimata ovvero
teorica, attesa, in base al modello della Normale);
ma anche per «probabilità», immaginando di
estrarre a caso una ragazza dalla popolazione) 18 21 24 27

Standardizziamo il valore x=18: -2 -1 0 1 Z


Sulla tavola: Φ(2)=0.977
Pr(Z<-2)=1-0.977=0.023 ≈2%.
Fra 60 ragazze, in media circa il 2% cioè 0.02∙60=1.2, e quindi circa 1 ragazza
solamente sarà sottopeso 65
Applicazione della Normale: Errori di misura
Si indichi con X l’errore di misurazione di una bilancia (u.d.m. grammi). Il
produttore indica che gli errori sono distribuiti secondo una Normale a media 0
e deviazione standard pari a 1 gr. Qual è la probabilità di commettere un errore
massimo di 1.5 grammi in valore assoluto?

Prob ( |X|<1.5 )=
Prob (-1,5<X<1.5)=
Area fra ±1.5 N(0,1)
Ф(1.5) – Area(coda X< -1.5)
Φ(1.5)
Area coda =1-Ф(1.5) sulla
tabella

Prob ( |X|<1.5 )=2∙Ф(1.5)-1


-1.5 +1.5 Errore di
=2∙0.933-1=0.866
misurazione

66
Curva del
(Chi Quadrato, Chi-Squared)
Si utilizza nei test con l’indice Chi-quadrato (su tabelle di frequenza doppie).
Dipende da un solo parametro detto «gradi di libertà» (degrees of freedom», df). Se
è molto alto la curva assume una forma a campana ma in generale con g basso è
molto asimmetrica.

67
Curva della T di Student
Si utilizza nei test sulle medie con campioni piccoli.
Assomiglia a una N(0,1) ma ha code più alte (ossia più frequenza sulle code).
Dipende da un solo parametro detto «gradi di libertà» (degrees of freedom», df).
Se è >30 la curva è molto simile alla Normale.

Student T distribution

68
Curva F (Fisher-Snedecor)
Si utilizza nei test ANOVA (confronto fra k gruppi, disegno sperimentale).
Dipende da un due parametri detti «gradi di libertà» (degrees of freedom», df)

es dp della statistica
F dell’ANOVA 1-way:
3 gruppi, n=5 ciascuno
3 gruppi, n=20 ciascuno
4 gruppi, n=5 ciascuno
5 gruppi, n=5 ciascuno

69
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

3. STIMA DI MEDIE E PROPORZIONI

70
Inferenza statistica
• Necessità di generalizzare i risultati ottenuti nel campione alla
«popolazione» da cui esso proviene.
• Modello intuitivo: il campione è stato estratto a caso dalla popolazione
• Modelli matematici ossia leggi del calcolo della probabilità permettono di
mettere in relazione i parametri della popolazione (μ, σ, π) con le
statistiche calcolate nel campione ( , s, f (%) )
• Attenzione alle notazioni X continua con media µ
X dicotomica con pr(X=1)=π

Maiuscole  variabili
lettere greche  Parametri della pop (alcuni incogniti)

Valori x1, x2, … xn 


media
proporzione f (%)

Minuscole  valori osservati 71


lettere latine  statistiche calcolate nel campione
Stima della media μ
Grandi campioni

• X variabile continua. Nella pop. ha media μ incognita e st.dev σ


• Nel campione (di dimensione n): Media = , st.dev=s
• Utilizziamo come stima puntuale di μ

• L’incertezza di questa stima è misurata da una quantità chiamata


errore standard («standard error», s.e.):
s.e. della media del campione =

• Se il campione è grande (n≥30) si può stimare σ con s e costruire


un intervallo di stima al livello di confidenza 95% (alternativa: 90%)
con la f.la:
(1.64 anziché 1.96)

72
Stima della proporzione π
Grandi campioni
• X variabile dicotomica. Nella popolazione ha pr(X=1)=π incognita
• Nel campione (di dimensione n): proporzione = p
• Utilizziamo p come stima puntuale di π
p
• Se il campione è grande (n≥30) si può utilizzare un’approssimazione
per cui:
• Lo s.e. per misurare l’incertezza della stima è:

• E l’intervallo di stima al livello di confidenza 95% (alternativa: 90%) è:


(1.64 anziché 1.96)

73
Concetti principali (i)
Variabilità delle stime
• Intuitivamente: poiché il campione è estratto a caso dall’urna la casualità si
trasmette ai dati e quindi alle statistiche calcolate sul campione
•  la stima può risultare distante dal valore vero
• Lo «standard error» è la sua deviazione standard: misura la variabilità della
stima rispetto al valore vero
– Più lo s.e. è alto più la stima può essere imprecisa, lontana dal valore vero

• Per la media: Il teorema del limite centrale afferma che la media di un


campione con n>30 (*) osservazioni estratto da una popolazione con media μ
e st.dev σ può assumere infiniti valori, distribuiti attorno a μ secondo una
curva Normale: la Normale con parametri Media = μ , St.dev = ( se σ è
incognito)
– Se la variabile ha distr. Normale nella popolazione e σ noto il teorema vale anche
per piccoli campioni

• Per la proporzione: Vale un teorema analogo, ma solo se il campione è grande;


se il campione è piccolo valgono altre f.le (non oggetto del Corso) 74
Concetti principali (ii)
Variabilità della media campionaria
• Teorema del limite centrale: la media di un campione con n>30
osservazioni estratto da una popolazione con media μ e st.dev σ assume
valori distribuiti attorno a μ secondo una Normale
• Intuitivamente:
• Un campione osservato  una media osservata
• Più campioni osservati  più medie
• Consideriamo infiniti campioni  …
x

… Infiniti valori 𝑥 …
µa
• Si possono applicare tutte le proprietà della Normale. Ad esempio
useremo in vari modi la proprietà:
• Il 95% dei possibili valori della media del campione appartengono
75
all’intervallo
Concetti principali (iii)
Significato dell’Intervallo di Confidenza

• Consideriamo infiniti campioni  infinite medie

Nel 95% dei casi la media del campione


appartiene a :
µa

Questa espressione si può scrivere anche:

Quindi: i limiti del 95%CI comprendono il


valore vero μ nel 95% dei casi.

Cambiando il livello di confidenza, nel 90% dei casi l’intervallo


comprende il valore vero μ.
76
Concetti principali (iv)
Non-distorsione ed Efficienza
• Intuitivamente: la variabilità del campione si traduce in variabilità delle stime
ottenibili. Uno stimatore è considerato valido se produce stime:
• Centrate sul valore vero. Proprietà di Non-distorsione.
– Al contrario, uno stimatore distorto (biased) tende a produrre sovra- o sotto-stima
• Poco variabili = precise. Proprietà di Efficienza.
– Si ottiene in condizioni sperimentali e con campioni grandi (pensare allo s.e. della media = )

La media campionaria è
uno stimatore non Es. stimatore distorto Es. scarsa efficienza
distorto di μ

µa µa µa

77
Stima della media μ
Piccoli campioni

• X variabile continua. Nella popolazione ha distribuzione Normale e


media μ incognita
• Nel campione (di dimensione n≤30): Media = , st.dev=s
• Se σ noto per un (1-α)CI si usa la f.la già vista, basata sulla Normale:

• Se σ incognito nella f.la deve essere utilizzato il quantile di una


curva T di Student con n-1 gdl :

• Questo aggiustamento dipende dal fatto che se il campione è


piccolo la distribuzione degli infiniti valori possibili della media del
campione non è Normale ma T di Student
– Ci sono più valori nelle code; più n è alto più la curva è simile alla Normale
78
(infatti con n oltre 30 usiamo i quantili della Normale)
Misure in laboratorio
• Vogliamo misurare una grandezza, indicata
Distr. degli Errori:
con μ. Ogni misurazione è affetta da un
errore, dovuto a diverse componenti
(imprecisione dello strumento, inesperienza
dell’operatore, cambiamento delle condizioni ε
ambientali, errori di lettura o registrazione -σ 0 +σ
del risultato etc).
Distr. delle Misure:
• Generalmente gli Errori ε hanno distribuzione
Normale con media 0 e st.dev σ
•  Il risultato di una singola misurazione M è M
in generale diverso dal valore vero μ: può μ -σ μ μ+σ
assumere uno qualunque degli infiniti valori, es. misurazione di una lunghezza con σ=1cm:
secondo una curva N(μ,σ) μ -1 μ μ+1
•  A seconda del livello di precisione
richiesto e di σ, fare una sola misurazione - Se posso tollerare una imprecisione di δ=10
può essere adeguato o fallimentare cm (ossia va bene ottenere μ ± 10) mi basta
misurare 1 volta
- Se posso tollerare un δ=1 cm 1 fare sola79
misurazione funziona solo nel 68% dei casi
Misure in laboratorio
• La soluzione è effettuare n misure (ottenere n
Distr. degli Errori:
«repliche») e calcolarne la media aritmetica:

• Per i teoremi visti ha distribuzione Normale ε


con media μ e st.dev = -σ 0 +σ

• Quindi è una stima non distorta («accurata») del Distr. delle Misure:
valore vero μ e se n è sufficientemente grande è
efficiente («precisa»)
M
•  Vd. Calcolo della Numerosità per stimare la μ -σ μ μ+σ
media mediante Intervallo di Confidenza
• Alta precisione si ottiene anche riducendo il
σ, quindi applicando rigorosamente il
protocollo sperimentale, ad es.
– procedure standardizzare di preparazione e
misurazione, taratura degli strumenti, utilizzo
di operatori formati, etc 𝝈 𝝈
– Utilizzo di unità statistiche simili
μ- μ μ 80
𝒏 𝒏
Stima dell’errore di misura

• La variabilità delle n misure ripetute è stimata


dalla loro st.dev:
– Questo valore stima anche la st.dev della
popolazione, ossia la variabilità di 1 misura
• Usando la media delle n misure come stima della
grandezza μ, la variabilità del risultato – ossia
l’errore di misura – è stimato dallo standard error:
Stima dell’Errore Assoluto
• Per quantificare l’errore in relazione alla grandezza
si utilizza il loro rapporto, ottenendo l’errore
relativo di misura:
• Osserviamo che questo corrisponde al coefficiente
di variazione della distribuzione della media
campionaria
81
(Nota: in tutte queste formule si userà σ anziché s se σ noto)
Misura di grandezze derivate
La propagazione dell’errore
• Consideriamo il caso in cui la grandezza θ di interesse non sia misurabile
direttamente, ma sia il risultato di un calcolo su altre grandezze misurabili
direttamente: θ=F(μX, μY)
– Per semplicità consideriamo che θ sia una f.ne di 2 grandezze μX e μY, nel caso in cui
siano coinvolte più di 2 grandezze misurabili direttamente le f.le possono essere estese
– Esempio: vogliamo misurare la superficie θ di un tavolo  misuriamo i due lati, la
superficie si ottiene dal loro prodotto
• Dunque si misurano separatamente le due grandezze, ottenendo per ciascuna la
stima (mediante media aritmetica) e l’errore (mediante s.e.) 
• La stima di θ si ottiene trasformando le due medie e
• Gli errori associati alle due medie si ripercuotono sull’errore associato a
[propagazione dell’errore]. Esistono formule per ricavare l’errore su utilizzando
una approssimazione in serie di Taylor.
• Qui ci limitiamo a due tipi particolari di grandezza derivata, per i quali le formule
sono abbastanza semplici.
82
F.le per l’errore per grandezze derivate
• 1. La grandezza derivata si ottiene come combinazione lineare:
• Casi particolari:
– somma: coefficienti a=b=1;
– differenza: coefficienti a=1, b= −1

• 2. La grandezza derivata si ottiene come:


• Casi particolari: ATTENZIONE: tutte
– prodotto: coefficienti se c=1, a=1, b=1 queste f.le forniscono il
quadrato dell’errore,
– rapporto: coefficienti c=1, a=1, b= −1 bisogna poi estrarre la
( ) ( ) radice

(dove ER = errore relativo)


E quindi nei casi particolari:
– prodotto :
83
– prodotto o rapporto :
3. Sintesi
• Dai dati osservati ricaviamo delle stime di quantità (parametri) della popolazione,
come media o proporzione

• Le proprietà dei metodi che utilizziamo sono stabilite in base a teoremi, che
descrivono come sono distribuiti gli infiniti possibili valori che possiamo ottenere.
– Ad es. per la media campionaria il Teorema del Limite Centrale stabilisce che (sotto
certe condizioni) la distribuzione è una Normale centrata sul valore vero con st.dev =

• Due importanti proprietà sono la non-distorsione e l’efficienza

• Gli elementi teorici visti per la stima di una media si applicano alle misure in
laboratorio mediante media di n repliche
– L’errore di misura è dato dallo standard error della media

– Per misure indirette (che utilizzano 2 o più misure dirette) si hanno f.le di propagazione
dell’errore
84
3. Altri elementi
• Esercizi su stima puntuale e intervallare della media (campioni grandi e campioni
piccoli) e della proporzione (solo per campioni grandi)
• Stima intervallare della media: Formule ed esercizi per la numerosità minima
• Misure in laboratorio:
– Grafici per riportare i risultati
– Outlier
• Esercizi sulle f.le di propagazione dell’errore

85
Stima della media (i)
Si vuole stimare il valore medio della pressione arteriosa fra i soggetti sottoposti
ad un certo trattamento farmacologico. Si dispone di un campione di 130 soggetti,
con media campionaria pari a 160 e deviazione standard 25.

Questo valore è la stima puntuale di μ ossia il valore atteso della


pressione nella popolazione di tutti i pazienti che vengono trattati con
quel farmaco»
s
La st.dev s del campione stima quella della popolazione, e quindi la
variabilità media del valore della pressione di un individuo rispetto a μ

L’errore standard quantifica l’incertezza sulla stima puntuale: è una


misura dell’errore medio che commettiamo con la stima
Stima intervallare: costruiamo attorno alla stima puntuale un intervallo,
scegliendo come livello di confidenza 1-α=95%
95%CI:
La media µ della popolazione è un valore compreso fra 155.7 e 164.3
86
C’è una probabilità del 95% che questo intervallo contenga μ
Stima della media (ii)
Si vuole stimare il valore medio della pressione arteriosa fra i soggetti sottoposti
ad un certo trattamento farmacologico. Si sa che la pressione segue un curva
Normale e si dispone di un campione di 12 soggetti, con media campionaria pari a
160 e deviazione standard pari a 25.

Stima puntuale di μ ossia valore atteso della pressione nella


popolazione di tutti i pazienti che vengono trattati con quel farmaco»
Stima quella st.dev della popolazione, ossia distanza media fra valore
s
della pressione di un individuo e μ

Errore associato alla stima puntuale


Stima intervallare mediante 95%CI: dobbiamo vedere sulla tabella
della T di Student il quantile t0.025 per n-1 = 11 gradi di libertà

95%CI:

Stessa interpretazione. Notiamo come avere un campione molto più


87
piccolo si sia tradotto in una stima più incerta
Utilizzo della tavola della T per (1-α)%CI
Cerchiamo t0.025 sulle tavole della T di Student: colonna α=0.05 , riga g=11

Per un 90%CI il
quantile sarebbe
t0.05 = 1.796
[Colonna α=0.1]

88
Stima della proporzione
In un campione di 160 pazienti con leucemia mieloide acuta 110 ottengono la
remissione completa (CR) con una nuova chemioterapia. Qual è la probabilità di CR?

La variabile è dicotomica: CR=No/Sì. Il parametro di interesse è la proporzione di casi


della popolazione che ottengono la CR, che è anche la probabilità che un paziente
ottenga la CR: π=Pr(CR).
La % di CR osservata è p=110/160 =69%. Questa è la stima puntuale: =69%
Per misurare e tenere conto della variabilità casuale calcoliamo lo standard error e la
stima intervallare, mediante 95%CI. Avendo un campione grande possiamo usare le
f.le viste:

95%CI:

Dunque un paziente sottoposto alla nuova chemioterapia la probabilità di CR è fra


89
62% e 76%.
Numerosità per stimare una media μ
(queste f.le si possono applicare ovviamente
Inf (1-α)CI Sup (1-α)CI al caso delle misurazioni in laboratorio; σ
δ sarà il valore noto o ipotizzabile per la
variabilità sperimentale)

• Si vuole stimare la media µ di una variabile con distrib. Normale mediante (1-α)CI
• Si conosce° il valore della st.dev di X nella pop. σ
• Si desidera che l’intervallo abbia un raggio al massimo pari a δ [«precisione»]
• La numerosità deve essere: dove è il quantile° della N(0,1)
che lascia area=α nelle code

• Per livello di confidenza α=95% si può ricorrere ad una approssimazione:


=1.96  1.962=3.84 4 

• °In alcuni contesti sperimentali il σ è effettivamente noto; va tenuto presente che laddove
il σ non sia noto e venga stimato dai dati, con n piccolo si dovrebbe calcolare il CI
utilizzando il quantile della T di Student, perdendo precisione rispetto al caso Normale90
Numero di repliche per una misura
Si deve pianificare un esperimento per misurare una lunghezza in millimetri μ. Si
ipotizza che l’errore sperimentale sia pari a 2 mm. Quante repliche fare per ottenere
un intervallo di stima al livello 95% di ampiezza totale al massimo pari a 3 mm?

Dati del problema: Errore σ=2 mm, precisione desiderata δ=1.5 mm


Livello di confidenza 1-α=0.95  α/2 = 0.025  =1.96

La dimensione campionaria minima è pertanto: .


= 7

Usando la f.la approssimata :

.
  n deve essere almeno: 4·1.78 = 7.1

Osserviamo però che dovendo poi stimare il σ dai dati, con solo 7 misure la formula
del 95%CI dovrà ricorrere al quantile della T con 6 gdl, t0.025 = 2.447 :

Questo intervallo avrà ampiezza totale pari a , che sarà ≤3


solo se la st.dev stimata s sarà ≤1.62 mm 91
Grafici per il risultato della misura (i)
• In ogni esperimento di misurazione in laboratorio è uso riportare il risultato come Misura ±
Errore (ossia ). Spesso si fa ricorso a grafici.
Nell’esempio la grandezza è stata misurata n volte in tre gruppi A B e C, quindi vengono riportati tre risultati
• Il primo grafico a sinistra è molto utilizzato in ambito biologico (ma mai proposto nei testi di
Statistica). E’ costituito da una colonna con altezza pari alla Misura sormontata da una linea
di lunghezza pari all’Errore.
– Nonostante la somiglianza non è ne’ un grafico a barre (che si utilizza per frequenze) ne’
un boxplot (che riporta quartili e altri aspetti della distribuzione). E’ opinabile associare
uno spessore (colonna, o scatola) alla media e rappresentare l’errore solo verso l’alto. Le
alternative qui presentate sono molto più raccomandabili da un punto di vista statistico.
• Il grafico al centro riporta appropriatamente e semplicemente il risultato . Il grafico a
destra mostra i 95%CI (vd. Seguito: forniscono indicazioni sulla significatività delle differenze)

92
ABC ABC
Grafici per il risultato della misura (i)
• Negli esperimenti in cui i dati osservati non presentano distribuzione Normale come già
visto la media aritmetica e la st.dev (conseguentemente, lo s.e.) non sono sintesi adeguate.
Pertanto anche i grafici visti alla diapositiva precedente non sono appropriati.
• Il grafico a sinistra è nuovamente quello più utilizzato da chi lavora in laboratorio. Vediamo
come non rappresenti in nessun modo l’asimmetria dei dati.
• Il grafico al centro riporta tutti i dati osservati (scatterplot o dotplot) e le medie (ai punti si
può in effetti sovrapporre l’intervallo )
• I boxplot a destra forniscono informazioni su vari aspetti della distribuzione: centralità e
variabilità (tramite i quartili), forma (simmetria), outlier.

93
Outlier
• In Statistica gli outliers sono valori anomali rispetto a quanto atteso in base a una teoria
sottostante, oppure rispetto agli altri valori osservati
• Identificazione:
– In ambito empirico, in laboratorio vengono seguite regole varie, basate sull’esperienza
(ovvero semplicemente «tramandate» senza particolari criteri)
– Seguendo un criterio statistico, in una serie di misurazioni dove l’errore di misura si
distribuisce come una Normale, sono outlier ad es. i valori al di fuori del range
(per una ben nota proprietà della Normale)
– Si può usare un approccio analogo in esperimenti più generali dove la teoria indica
che la variabile che si sta osservando segue una dp non Normale
• Trattamento:
– In ambito empirico, in laboratorio, quando si ritiene l’outlier un errore di procedura
solitamente lo si esclude dal campione (eventualmente rimpiazzandolo con una
nuova misura)
– Bisogna però fare attenzione, perché l’outlier può essere invece un dato
particolarmente interessante, da studiare per individuare elementi non presi in
considerazione
94
Errore per l’Area del cerchio
Supponiamo di voler misurare l’area di un cerchio disponendo solo di un righello.
Dobbiamo cioè considerare l’area del cerchio come grandezza derivata dal raggio:
Area= (dove π=3.14). Effettuiamo N misure del raggio r, ottenendo la misura
3.3±0.2. Calcolare l’area del cerchio, l’errore assoluto e l’errore relativo.

Dati del problema: stima del raggio con Errore =0.2


Si richiede di calcolare una stima di θ e del suo errore

La formula è del tipo con: c = 3.14, a =2, b =0

Stima dell’Area: =3.14 =34.2

( ) ( )
Errore di misura: Errore(𝜃) = 𝜃 𝑎 +𝑏

 Errore assoluto: 4.14 (quindi il risultato della misura dell’Area è 34.2 ± 4.14)

. 95
 Errore relativo: .
Errore per l’Area del cerchio (ii)
Supponiamo di voler misurare l’area di un cerchio disponendo solo di un righello.
Dobbiamo cioè considerare l’area del cerchio come grandezza derivata dal raggio:
Area= (dove π=3.14). Effettuiamo N misure del raggio r, ottenendo la misura
3.3±0.2. Calcolare l’area del cerchio, l’errore assoluto e l’errore relativo.

Dati del problema: stima del raggio con Errore =0.2


Si richiede di calcolare una stima di θ e del suo errore

La formula è del tipo con: c = 3.14, a =2, b =0

Stima dell’Area: =3.14 =34.2

Errore di misura: PROCEDIMENTO ALTERNATIVO


Partiamo dalla formula dell’errore relativo:
.
 = .

 Errore relativo: 0.121


 Errore assoluto :
96
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

4. VERIFICA DELLE IPOTESI E


APPLICAZIONI SU TABELLE DI
FREQUENZA
97
Introduzione ai test di ipotesi
• Abbiamo visto dei problemi di stima, ossia di attribuzione di un valore (o di
un intervallo di valori) ad un parametro incognito della popolazione. Spesso
però la domanda di ricerca è più specifica, mirata a stabilire se una certa
ipotesi di riferimento sul parametro incognito si possa escludere. Esempi:
– Uno strumento usato in laboratorio dovrebbe fare errori di misura secondo una
Normale: ci sono dati che contraddicono questa ipotesi?
– Vogliamo confrontare l’effetto di un vaccino contro un placebo, vorremmo
arrivare a dimostrare che il vaccino è efficace, ossia escludere che abbia lo stesso
effetto del placebo
– I pazienti che assumono un farmaco hanno la pressione arteriosa alterata?
L’ipotesi di riferimento è che la loro pressione media sia nella norma
– Non si sa se il consumo di bevande alcoliche si associato con il rischio di tumore
del pancreas. Si raccoglieranno dati per studiare questa relazione. L’ipotesi di
riferimento è che non ci sia associazione
98
Test sullo scostamento da frequenze attese
• Illustreremo i principali concetti del test statistico in applicazioni al problema
del confronto fra una distribuzione osservata di frequenze e la distribuzione
attesa ad esempio in base a una teoria sottostante. Esempi:
– Uno strumento usato in laboratorio dovrebbe fare errori di misura secondo una
Normale: ci sono dati che contraddicono questa ipotesi?
– 4 diversi operatori hanno condotto delle misure in laboratorio: ci sono evidenze
che non siano stati tutti ugualmente precisi?
• H0: equidistribuzione cioè stesso numero di errori per ciascun operatore

• Nel test statistico di ipotesi si deve definire in partenza qual è l’ipotesi di


riferimento (indicata con H0, e detta ipotesi nulla) e quale è l’ipotesi
alternativa (H1)
– H0 rappresenta conoscenze attuali / ipotesi «neutrale» o «scettica»
– H1 rappresenta «nuove» conoscenze / ipotesi sperimentale
• La conclusione del test può essere l’Accettazione o il Rifiuto dell’ipotesi nulla
99
Esempio di Test sullo scostamento da
frequenze attese (i)
• Esempio: 4 diversi operatori (A, B, C, D) hanno condotto ciascuno 50
misurazioni in laboratorio. La tabella riporta il numero di misurazioni
errate: ci sono evidenze che non siano stati tutti ugualmente precisi?

A B C D
8 6 12 9

• Ipotesi nulla H0: i 4 operatori sono stati ugualmente precisi


– Sotto questa ipotesi, il dato osservato che il numero di errori commesso da
ciascuno è diverso deve essere attribuito a variabilità casuale
• Ipotesi alternativa H1: almeno uno degli operatori è stato meno o più preciso
degli altri
• Nel test statistico si assume che H0 sia vera e si «valuta la forza delle prove
contrarie a H0»: se i dati osservati sono troppo improbabili sotto l’ipotesi H0,
H0 viene rigettata, e si dice che lo scostamento dei dati osservati da quelli
attesi sotto H0 è «significativo» (= non attribuibile al caso)
100
Esempio di Test sullo scostamento da
frequenze attese (ii)
• 4 diversi operatori (A, B, C, D) hanno condotto ciascuno 50 misurazioni
in laboratorio. La tabella riporta il numero di misurazioni errate: ci
sono evidenze che non siano stati tutti ugualmente precisi?

freq A B C D
osservate 8 6 12 9

• Ipotesi nulla H0: i 4 operatori sono stati ugualmente precisi


• Calcoliamo le frequenze attese sotto questa ipotesi: In altri contesti le
freq attese
– In totale sono stati commessi 35 errori (= 8 + 6 + 12 + 9)
possono essere
– 35 / 4 =8.75 errori ciascuno calcolate in altri
modi, es in base a
freq attese A B C D formule teoriche
8.75 8.75 8.75 8.75
• Al prossimo passo andremo a calcolare una misura di distanza globale fra
freq osservate e freq attese: utilizzeremo la metrica del Chi-Quadrato 101
Esempio di Test sullo scostamento da
frequenze attese (iii)
freq A B C D
osservate 8 6 12 9

freq attese 8.75 8.75 8.75 8.75

La somma si fa su tutte le celle della tabella!

+ + + =2.143

• Sotto l’ipotesi nulla e senza variabilità casuale le freq osservate sarebbero


state uguali a quelle attese, e il sarebbe stato =0. Ammettendo un po’ di
scostamento dovuto al caso, sotto H0 il può essere «un po’» maggiore di 0.
• Al prossimo passo dobbiamo stabilire se il valore osservato di è «troppo»
lontano da 0 per poter attribuire lo scostamento al caso – in questo caso 102
rifiuteremo l’ipotesi nulla
Esempio di Test sullo scostamento da
frequenze attese (iv)

+ + + =2.143

• Sotto l’ipotesi nulla e con variabilità casuale, quanto lontano da 0 può andare il ?
• La risposta è fornita da un teorema che afferma che i possibili valori del si
distribuiscono secondo una curva Chi-Quadrato. Quale esattamente dipende dai
gradi di libertà. In questo esercizio g=3 (Vd. nel seguito come si calcola il valore di g)
• Come si vede nel grafico, sotto H0 sono possibili anche valori molto alti, ad es. >6 o
>8. Il valore osservato 2.143 non sembra affatto improbabile, e dunque non
sembra una prova contraria all’ipotesi nulla.

• Al prossimo passo dobbiamo stabilire un criterio preciso per decidere fra


Accettazione e Rifiuto di H0 103
Test: Criteri per la decisione
Errori di I e II tipo
Fenomeno nella popolazione
(situazione non nota – oggetto H0
del test)

VERA FALSA

Conclusione
del test su H0 Accett. Rifiuto Accett. Rifiuto
Decisione Decisione errata. Decisione errata. Decisione
Conseguenza
corretta. Falsa nuova Mancata nuova corretta. Nuova
Nessuna nuova scoperta scoperta scoperta!
scoperta
Valutazione degli Errore di I tipo. Errore di II tipo.
errori secondo il Molto grave. Meno grave.
metodo
scientifico Prob. alpha (α) Prob. beta (β) Prob. 1-β:
Livello di potenza del test
104
significatività
Test: Criteri per la decisione
Errori di I e II tipo

• Il test statistico viene svolto impostando


una probabilità massima di errore di I H0
tipo:
• Si fissa il livello di significatività alpha.
Solitamente α=5% VERA FALSA
– Test più «cauti», «protetti» dal rischio di
dichiarare una falsa scoperta, fissano
α=1% Accett. Rifiuto Accett. Rifiuto
• Con α e numerosità n fissate, le
procedure di test proposte minimizzano
l’errore di II tipo, ossia massimizzano la Falsa nuova Mancata Nuova
potenza scoperta nuova scoperta!
– Si può aumentare la potenza del test scoperta
aumentando la numerosità campionaria
n. Negli studi sperimentali un valore
Errore di I tipo. Errore di II tipo.
tipico è 80% o 90% Prob. alpha (α) Prob. beta (β)
Livello di
significatività Prob. 1-β:
potenza
del test
105
Esempio di Test sullo scostamento da
frequenze attese (v)

=2.143
<7.815  Accettiamo H0

• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione con area =5%; usando la
Tavola del Chi-Quadrato il valore sull’asse che delimita questa area è =7.815
• L’intervallo di valori possibili da 7.815 a +∞ è la zona di rifiuto: se il valore
osservato di cade in questo intervallo si Rifiuta l’ipotesi nulla; se il cade fra 0
e il valore soglia 7.815 si Accetta l’ipotesi nulla. Questa regola di decisione
corrisponde al criterio Prob(Errore I tipo)=α = 5%:
alpha = 5% = Prob che >7.815 se H0 vera = Prob Rifiuto H0 se H0 vera

• In generale nei test si ha una statistica calcolata sul campione e si conosce la


distribuzione dei suoi valori sotto l’ipotesi H0. Fissando alpha, si può determinare il
106
limite (o 2 limiti, a seconda del problema) delle zone di Accettazione e Rifiuto.
Zone di Rifiuto e Accettazione

=2.143
<7.815  Accettiamo H0

• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione con area =5%, delimitata dal
valore soglia7.815. L’intervallo di valori possibili da 7.815 a +∞ è la zona di rifiuto
• La zona di rifiuto comprende quei valori della statistica osservata che sono lontani
dal valore atteso sotto l’ipotesi nulla, e che si ottengono raramente (con
probabilità alpha) quando l’ipotesi nulla è vera: osservando uno di tali valori, è
legittimo dubitare che sia dovuto alla variabilità casuale, e propendere per l’ipotesi
alternativa
• In sostanza: rifiutiamo H0 quando osserviamo dati che sarebbero troppo
improbabili se H0 fosse vera
• Cambiando prospettiva, lo stesso ragionamento porta a definire un altro concetto,
il p-value  107
Il p-value

=2.143
P=0.543

• Sotto l’ipotesi nulla il si distribuisce secondo una curva Chi-Quadrato con g=3.
• In figura è stata evidenziata la coda della distribuzione che inizia al valore osservato
del . L’area corrispondente è detta P-value. Qui p=0.543°.(°per il calcolo occorre un
calcolatore)
• Vediamo quindi che oltre il valore osservato 2.143 c’era ancora il 54.3% di tutti i
valori possibili («per caso») sotto H0. Questo calcolo formalizza la nostra
valutazione iniziale che i dati non fossero contrari all’ipotesi nulla.
• In generale, si può calcolare il p-value = la probabilità (sotto H0) di osservare i
nostri dati o dati ancora più contrari ad H0; se molto piccola = dati troppo
improbabili, rifiutiamo H0
• Così enunciata la regola per concludere il test è affidata a una valutazione
soggettiva. Possiamo ottenere una regola perfettamente equivalente alla
precedente imponendo: se p-value >alpha Rifiuto H0 108
Esempio di Test sull’associazione fra 2
variabili categoriche (i)
• In un campione di N=142 individui si vuole verificare se c’è una
associazione fra Sesso (M,F) e Fumo (N,Y), ossia se Maschi e Femmine
sono diversi rispetto al Fumo.
• I dati sono presentati in una tabella di frequenze doppia 2 x 2
Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142

• Ipotesi nulla H0: non ci sono differenze fra M e F, ossia non c’è associazione
fra Sesso e Fumo

109
La tabella doppia («di contingenza»)
La tabella doppia di frequenze
rappresenta la distribuzione congiunta
Le celle centrali presentano le
(o doppia) della coppia (X,Y)
frequenze delle combinazioni
In generale ha dimensione r x c, dove r e dei 2 caratteri
c sono il numero di modalità presentate
dalle due variabili Y = Fumo
X = Sesso no si totale
46%
M 24 42 66
F 45 31 76 54%
totale 69 73 142
L’ultima colonna
L’ultima riga rappresenta la 73 /142 = 51% rappresenta la
distribuzione del carattere Y I Fumatori sono il distribuzione del
(senza tener conto di X) 51% del totale carattere X (senza
tener conto di Y)
Distribuzione marginale di Y
Distribuzione
marginale di 110
X
Le distribuzioni condizionate
Dalla tabella doppia, per capire se c’è una differenza fra M e F
conviene calcolare per M e F separatamente le percentuali di
fumatori: si ottengono i «profili riga», ossia le % calcolate sul totale
della riga
(Si potrebbero anche calcolare i profili colonna, cioè le % sui totali
di colonna) Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142
Distribuzioni
Fumatori su Tot = 51%
condizionate di Y:
• Y | X=M M 24/66 = 36% 42/66 = 64% 100% Fumatori fra M = 64%
• Y | X=F F 45/76 = 59% 31/76 = 41% 100% Fumatori fra F = 41%

Nel campione c’è una differenza: è casuale o significativa?


Sesso e Fumo sono associati nella popolazione? H0: No, nessuna differenza fra M e F111
Esempio di Test sull’associazione fra 2
variabili categoriche (iii)
H0: nella popolazione non c’è differenza nelle % di Fumatori fra M e F. Le freq attese
sotto H0 si trovano quindi impostando una semplice proporzione, ad es la frequenza attesa E
della combinazione Maschio-Fumatore deve essere tale che:

freq
osservate Y = Fumo
X = Sesso no si totale
M 24 42 66
F 45 31 76
totale 69 73 142

Y = Fumo

freq attese X = Sesso no si totale


M 32.07 33.93 66 Formula
generale per
F 36.93 39.07 76 ogni frequenza
totale 69 73 142 attesa della
tabella 112
Esempio di Test sull’associazione fra 2
variabili categoriche (iii)
Y = Fumo
X = Sesso no si
freq
osservate M 24 42
F 45 31

Y = Fumo
freq attese
X = Sesso no si
M 32.07 33.93
F 36.93 39.07

+ + +

Confrontiamo questo valore col valore soglia preso dalla Tavola del Chi-Quadrato per
1 gdl (tabella 2 x 2: g = (2-1)∙(2-1) = 1)
Per alpha=5% la soglia è 3.841, per alpha=1% essa è 6.635.
113
pertanto l’associazione fra Sesso e Fumo è altamente significativa
I gdl nei test col Chi-Quadrato
• I test basati sul Chi-Quadrato sono utilizzati in problemi dove i dati sono tabelle di
frequenze. L’indice misura la distanza fra frequenze Osservate e frequenze Attese
sotto l’ipotesi nulla, e si distribuisce secondo una curva Chi-Quadrato con g gradi di
libertà.
• Ai fini di una comprensione intuitiva dei gdl possiamo dare la seguente regola:
g = (n.ro di dati liberi di variare – n.ro di vincoli o quantità da stimare dai dati)
• Nell’esercizio svolto si avevano k=4 gruppi e quindi 4 dati liberi di variare, meno 1
poiché per stimare le freq attese sotto l’ipotesi H0 di equidistribuzione dobbiamo
vincolarci al totale (n=51 errori). Quindi g=4-1=3. In generale: g = k-1
– Se la distribuzione di riferimento (H0) è la curva Normale, si sottraggono inoltre
2 gdl perché è necessario stimare media e st.dev della Normale: g = k-3
– In problemi di genetica come verificare se viene rispettato l’equilibrio di Hardy-
Weinberg occorre conoscere la teoria per stabilire il n.ro di vincoli e quindi i gdl
del test
• Nel Chi-Quadrato per l’associazione fra 2 variabili categoriche su una tabella doppia r
x c si hanno rc dati liberi di variare, meno (r + c – 1) vincoli dovuti ai totali fissati di
riga e colonna (r tot righe + c tot colonna meno 1 per tenere conto del totale
generale N). Quindi g = rc –r –c +1 =(r-1)(c-1) 114
4. Sintesi
• Logica ed impostazione del test statistico di ipotesi:

– Si formula una ipotesi conservativa ossia di riferimento (H0) e un’ipotesi alternativa,


sperimentale (H1)

– Il test ha l’obiettivo di rigettare H0 se c’è forte evidenza che sia Falsa; in caso contrario
H0 viene accettata

– La decisione si basa sulla probabilità di osservare i dati effettivamente ottenuti quando


H0 è vera: se è alta si accetta H0, se è bassa si rifiuta H0

– La procedura si può svolgere identificando zone di Accettazione e Rifiuto, oppure


calcolando il p-value

– In entrambi gli approcci il criterio di decisione è basato sull’aver fissato il «livello di


significatività» alpha che è la probabilità di commettere l’ Errore di I tipo, ossia una
«Falsa scoperta»

• I Test Chi-quadrato riguardano tabelle di frequenza

115
4. Altri elementi
• Esercizi sui Test Chi-quadrato

• Condizioni di validità del Chi-quadrato ed alternative

• Diversa valutazione dell’importanza dell’Errore di I e II tipo nei test: esempio in un


contesto industriale

116
Test per la differenza fra gruppi (i)

In questo esercizio la variabile Fumo è categorica a 3 livelli. Ripetiamo la


descrizione e la verifica della significatività (alpha=1%) della differenza fra M e F.
Y = Fumo
X= no Sì Sì tot
Sesso ≤10/gg >10/gg
M 24 12 30 66
F 45 8 23 76
total 69 20 53 142

Per illustrare la differenza di abitudine al fumo fra M e F ricorriamo ai profili riga:


Y = Fumo
X = Sesso no Sì ≤10/gg Sì >10/gg tot
M 36% 18% 45% 100%
F 59% 11% 30% 100%
117
Per valutare la significatività procediamo col test Chi-quadro 
Test per la differenza fra gruppi (ii)
Freq osservate Freq attese
Y = Fumo Y = Fumo
X= no Sì Sì tot X= no Sì Sì tot
Sesso ≤10/gg >10/gg Sesso ≤10/gg >10/gg
M 24 12 30 66 M 32.07 9.30 24.63 66
F 45 8 23 76 F 36.93 10.70 28.37 76
total 69 20 53 142 total 69 20 53 142
Addendi del Chi-quadro:
ad es. per la cella dei M che fumano ≤10 Y = Fumo
sigarette al giorno il termine è: X= no Sì Sì
Sesso ≤10/gg >10/gg
M 2.031 0.787 1.169

df: g=(2-1)∙(3-1)=2. F 1.764 0.683 1.015

α=1%  valore soglia = 9.21


Le differenze osservate non sono
significative al livello 1% 118
Condizioni di validità del
• Va precisato che la formula che utilizziamo può non essere adeguata a tutte le
situazioni, ad esempio per le tabelle 2x2 si raccomanda di utilizzare la «correzione
di Yates»: questi dettagli non sono oggetto del Corso
Questo approccio vale per tutti gli argomenti: si preferisce introdurre i principali
metodi fra i più utilizzati, nella loro formulazione più semplice. In una reale analisi
di dati utilizzando un buon software statistico sarà possibile applicare formule più
robuste.
• In generale i test Chi-quadrato richiedono «grandi campioni», e che ogni
frequenza attesa sia >5
• Per campioni piccoli o quando questa condizione non si verifica è possibile
ricorrere a un test alternativo, non oggetto del corso, ma di cui impariamo il
nome: il Test Esatto di Fisher

119
Diversa valutazione degli Errori di I e II tipo
Vediamo un contesto industriale in cui H0: il cibo prodotto è sano
l’Errore di II tipo (Accetto Ho falsa) risulta
più grave dell’Errore di I tipo (Rifiuto H0 H0
vera).
Qui H0 rappresenta la situazione
«desiderabile», non l’ipotesi da VERA FALSA
falsificare
Conclusione
del test su H0 Accett. Rifiuto Accett. Rifiuto
Conseguenza
Il cibo prodotto viene: immesso in distrutto immesso in distrutto
commercio commercio
Decisione: corretta errata errata corretta

Valutazione degli Situazione Danno Danno gravissimo: Evitato grave


errori secondo il ottimale economico rischio per i danno
produttore per consumatori, rischio reputazionale
l’azienda reputazionale per
l’azienda 120
Errori: I tipo II tipo
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

5. VERIFICA DI IPOTESI SU MEDIA E


PROPORZIONE

121
Test su una media μ
• X variabile continua. Nella pop. ha media μ incognita e st.dev σ
– H0: μ= μ0 (dove μ0 è un valore specifico)
– H1 può essere «a due code» oppure «a una coda» :
• H1: μ≠ μ0 oppure μ< μ0 o μ> μ0
• Nel campione (di dimensione n): Media = , st.dev=s
• La statistica test è la media campionaria, conosciamo già (vd. cap. Stima)
la distribuzione dei suoi possibili valori sotto H0 cioè assumendo μ= μ0 :
• Se il campione è grande (n≥30):
– si può utilizzare la Normale con media μ0 e st.dev = (o
se σ incognito)
• Se il campione è piccolo ma X ha distr. Normale nella popolazione:
– σ noto: si può utilizzare la Normale (μ0 , )
– σ incognito: si deve utilizzare (dopo aver standardizzato) la T-di
Student con n-1 gdl (in questo caso per il calcolo del p-value occorre un calcolatore)
122
Ruolo di H1: test a una o due code
X nella popolazione
µ0
• Test a due code (Two-sided test):
• H0: µ=µ0 H1: µ ≠ µ0
• Ci sono 2 zone di rifiuto, alle due code, ciascuna
con area α/2 (i due valori soglia sono simmetrici,
alla stessa distanza da μ0). L’intervallo centrale fra
µ0
i due valori soglia è la zona di accettazione
• Il p-value sarà pari a 2 x Area nella coda
delimitata dal valore osservato della
statistica test
µ0
• Test a una coda (One-sided test):
• H0: µ=µ0 H1: µ < µ0
oppure
µ0
• H0: µ=µ0 H1: µ > µ0
• C’è una zona di rifiuto, alla coda indicata da H1
123
(ossia rispettivamente sui valori bassi e alti).
Test su una media (i)
Si sa che in una popolazione di soggetti sani il valore della pressione del sangue si
distribuisce secondo una distribuzione Normale con media 105 e deviazione standard
pari a 15. Si osserva un campione di 20 soggetti con media campionaria pari a 114.
Verificare l’ipotesi che tali soggetti siano stati estratti da quella popolazione, contro
l’ipotesi che siano soggetti ipertesi. Usare un test 2-sided e α=5% prima, poi α=1% .

Ipotesi del Test : H0: μ=105 vs. H1: μ≠105


Quale procedura si può utilizzare: La popolazione è Normale con st.dev nota  sotto
H0 la statistica test assume valori secondo la ovvero, standardizzando:
ha distribuzione

Calcolo della statistica test: =


.

Metodo delle regioni di rifiuto


Con α=0.05 le due zone di rifiuto sono delimitate da ±1.96.
La statistica test z=2.68 cade nella regione di rifiuto destra  Si rigetta H0.
Con α=0.01 i limiti delle regioni di rifiuto sono ±2.58, e z=2.68 è sempre oltre: si
rigetta H0.
Test su una media (ii)
Si sa che in una popolazione di soggetti sani il valore della pressione del sangue si
distribuisce secondo una distribuzione Normale con media 105 e deviazione standard
pari a 15. Si osserva un campione di 20 soggetti con media campionaria pari a 114.
Verificare l’ipotesi che tali soggetti siano stati estratti da quella popolazione, contro
l’ipotesi che siano soggetti ipertesi. Usare un test 2-sided e α=5% prima, poi α=1% .

Ipotesi del Test : H0: μ=105 vs. H1: μ≠105


Quale procedura si può utilizzare: La popolazione è Normale con st.dev nota  sotto
H0 la statistica test assume valori secondo la ovvero, standardizzando:
ha distribuzione

Calcolo della statistica test: =


.

Metodo del p-value


Area nella coda oltre z=2.68: Φ(2.68)=0.996  Area coda = (1-0.996)=0.004
P-value= 2∙0.004 = 0.008
Ovviamente p-value <0.01 (e anche <0.05) quindi si hanno le stesse conclusioni.
Test su una proporzione π
Grandi campioni
• X variabile dicotomica. Nella popolazione ha pr(X=1)=π incognita
– H0: π = π0 (dove π0 è un valore specifico)
– H1 può essere «a due code» oppure «a una coda» :
• H1: π ≠ π0 oppure π < π0 o π > π0
• Nel campione (di dimensione n): proporzione = p
• La statistica test è la proporzione p osservata nel campione, conosciamo
già (vd. cap. Stima) che se il campione è grande (n≥30) la distribuzione
dei suoi possibili valori sotto H0 cioè assumendo π = π0 è Normale con

media π0 e st.dev =

126
Test su una proporzione
In un campione di 160 pazienti con leucemia mieloide acuta 110 ottengono la
remissione completa (CR) con una nuova chemioterapia. Con la chemio standard
Pr(CR) è 60%: la nuova chemio è più efficace? Usare prima α=5% poi α=1%

Riprendiamo i calcoli fatti per stimare la probabilità di CR


La % di CR osservata è p=110/160 =69% con standard error
Ipotesi del Test : H0: π=0.6 H1: π≠0.6
Quale procedura si può utilizzare: il campione è grande  si può usare la f.la basata
su una approssimazione Normale
Calcolo della statistica test: = 2.50
0.036

Metodo delle regioni di rifiuto


H0 può essere rigettata la livello 5% (z=2.50 >1.96) ma non al livello 1% (-2.58< z <2.58).
Metodo del p-value
Area nella coda oltre z=2.50:  Area coda = 1-0.994 = 0.006
P-value= (è <5% ma >1%)
Relazione fra intervallo di confidenza e test
• I problemi di stima (intervallare) e di test (bilaterale) su un parametro θ sono
collegati:
• Stima intervallare di θ: quali sono i valori plausibili per θ?
• Test su H0: θ= θ0 : il valore θ0 è plausibile?
• In entrambe le procedure fissiamo una probabilità di errore α:
• Stima intervallare: fissiamo il livello di confidenza a 1-α, quindi l’intervallo
commette errore = non contiene θ nell’ α% dei casi
• Test: fissiamo il livello di significatività α, quindi il test errore (di I Tipo)
nell’ α% dei casi
• Se usiamo la stessa statistica campionaria, gli stessi teoremi che indicano la sua
distribuzione, gli stessi dati, e lo stesso α  le conclusioni delle due procedure
devono essere congruenti
• Se θ0 appartiene all’intervallo (1-α)CI vuol dire che θ può essere = θ0 ↔ H0 vera
↔ H0 accettata
• Se θ0 non appartiene all’intervallo (1-α)CI vuol dire che θ non può essere = θ0 ↔
H0 falsa ↔ H0 rigettata
128
• (Questo ragionamento è intuitivo ma questa proprietà si dimostra matematicamente)
Relazione fra 95%CI e Test sulla proporzione
In un campione di 160 pazienti con leucemia mieloide acuta 110 ottengono la
remissione completa (CR) con una nuova chemioterapia. Qual è la probabilità di CR?
Con la chemio standard Pr(CR) è 60%: la nuova chemio è più efficace?

Abbiamo già risposto a entrambi i quesiti. Vediamo che già disponendo dell’intervallo
di confidenza al livello 95% era possibile rispondere al quesito del test al livello
alpha=5%:

95%CI:
Cioè: con la nuova chemioterapia la prob di CR è compresa fra 62% e 76%.

Ipotesi del Test : H0: π=0.6 H1: π≠0.6

Il valore π0=0.6 non appartiene all’intervallo (infatti al minimo la probabilità di CR è


62%)  H0 è rigettata al livello α=5%
5. Sintesi
• Per i test su una media o una proporzione si usano le distribuzioni dei possibili
valori già viste per i problemi di stima

– Le formule valgono per i grandi campioni; per i piccoli campioni le f.le per il test sulla
media valgono solo sotto certe condizioni (la variabile X nella popolazione ha una
distribuzione Normale) (vd. nel Seguito i Test non-parametrici)

• C’è una relazione fra l’intervallo di confidenza e il test bilaterale: ad es. un 95%CI
fornisce la conclusione del test al livello di significatività 5%

130
5. Altri elementi
• Esercizi sul test sulla media utilizzando la distribuzione T di Student

• Note sui test a 1 coda

• Test sulla media: Formule ed esercizi per la numerosità minima

131
Test su una media (iii)
•Si sa che in soggetti sani il valore della pressione del sangue si distribuisce secondo
una distribuzione Normale con media 105. Si osserva un campione di 20 soggetti con
media pari a 114 e dev. st. pari a 15. Verificare l’ipotesi che siano soggetti ipertesi
usando un test 2-sided e α=5%, poi α=1% Esercizio simile ma non identico al precedente
Ipotesi del Test : H0: μ=105 vs. H1: μ≠105
Quale procedura si può utilizzare: La popolazione è Normale con st.dev incognita 
si può usare la sua stima s calcolata dal campione sotto H0; la statistica test
standardizzata: ha distribuzione T di Student con 20-1=19 gradi di libertà

Calcolo della statistica test: =


.
Metodo delle regioni di rifiuto
Con α=0.05 le due zone di rifiuto sono delimitate° da ± 2.093  Si rigetta H0.
Con α=0.01 i limiti delle regioni di rifiuto sono ± 2.861  Si accetta H0
In questo esercizio l’evidenza è sufficiente per rigettare H0 con prob. di errore di I tipo 5%,
non è sufficiente se vogliamo cautelarci di più con α=1%.
Rispetto alla versione dell’esercizio con σ noto, qui c’è una perdita di evidenza perché, a
parità di n, dobbiamo spendere un po’ di informazione per stimare σ. Questa «spesa» si
traduce in termini di gradi di libertà, che sono n-1
Test a 1 coda (One-sided)
• Ci sono test che per costruzione sono 1-sided
(es. Chi-Quadrato, ANOVA). In tutte le altre
situazioni laddove la statistica test potrebbe
α/2 α/2
assumere valori su entrambi i lati rispetto al
valore atteso sotto H0 è raccomandato di
impostare il test a 2 code. L1 θ0 L2

• Utilizzare il test a 1 coda per aumentare la


potenza (allargando la zona di rifiuto) non è un α
approccio corretto.
θ0 L
• Nelle situazioni in cui interessi rigettare H0
solo su un lato è raccomandato impostare il
livello di significatività pari alla metà del livello
«standard»
• ad es. impostare =2.5% (ottenendo lo
stesso limite della zona di rifiuto del test a
2 code)
133
Numerosità per il test su una media μ

• Si vuole verificare l’ipotesi che la media µ di una variabile con distrib. Normale sia
pari a µ0 mediante un test con livello di significatività α e potenza 1-β
• Si conosce° il valore della st.dev di X nella pop. σ
• Si ipotizza che la differenza fra il valore vero di µ e µ0 sia pari a δ
– Ovvero, δ è la minima differenza che si vorrebbe dimostrare come significativa
• La numerosità deve essere:
dove è il quantile° della N(0,1)
che lascia area=ε nella coda

• Per livello di significatività α=95% e per potenza =80% o 90% si può ricorrere
ad approssimazioni: 80% 90%

• °In alcuni contesti sperimentali il σ è effettivamente noto; va tenuto presente che


laddove il σ non sia noto e venga stimato dai dati, con n piccolo si dovrebbe utilizzare la
134
T di Student, perdendo potenza rispetto al caso Normale
Numerosità per un test su una misura
Si deve pianificare un esperimento per misurare una lunghezza in millimetri μ, con
l’obiettivo di smentire la teoria che µ sia pari a 3 mm: si ipotizza infatti che µ=4.2
mm. Si ipotizza inoltre che l’errore sperimentale sia pari a 2 mm. Quante repliche
fare per ottenere un test con una potenza del 90%?

Dati del problema: Errore σ=2 mm, differenza ipotizzata δ=1.2 mm = 4.2-3
Livello di confidenza 1-α=0.95  α/2 = 0.025  =1.96
Potenza 1-β=0.9  =1.28

La dimensione campionaria minima è pertanto:


N 29 o 30
.
(arrotondare in eccesso a 30 è una valida cautela: meglio qualche osservazione in
più del necessario che in meno; ricordiamo anche qui che dovendo poi stimare il σ
dai dati con N piccola si deve utilizzare la T di Student)

Usando la f.la approssimata : 31


(notiamo che l’approssimazione di 10.4976 con 11 segue la stessa logica)

135
Utilizzo «inverso» della tavola della Normale
Cerchiamo . sulle tavole della Normale: partendo dall’area Φ(z)=90%, vediamo
che essa si trova per z=1.28

Per Potenza 80%


CI il quantile
sarebbe 0.84

136
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

6. VERIFICA DI IPOTESI PER IL


CONFRONTO DI MEDIE

137
Test sulla differenza fra due medie
(T-test)
• Interessa la relazione fra Y variabile continua e X variabile dicotomica,
che definisce k=2 gruppi.
• Nella popolazione°, in ciascun gruppo Y ha distrib. Normale con media
incognita (rispettivamente μ1 e μ2) e st.dev σ
– H0: μ1= μ2 (cioè non c’è differenza; X e Y non sono associate)
– H1: μ1 ≠ μ2
• Nel campione si hanno i due gruppi j=1,2 con dimensione nj, Media = ,
st.dev=sj .
• La statistica test è:
dove s è una stima di σ:
t

• e la distribuzione dei suoi possibili valori sotto H0 è una T con g= + -2


(eventualmente per g>30 si passa alla Normale (0,1) )
(°Sotto altre ipotesi sulla popolazione esistono altre formule, non oggetto del Corso) 138
T-Test per 2 medie
In due allevamenti di cani A e B si osserva una diversa durata della gravidanza:
verificare la significatività.
Y
allevamento A B
n 32 36
Media (gg) 63.3 62.8
st.dev (gg) 1.02 0.92 A B

Svolgiamo un t-test al livello di significatività α=0.05 (nella pratica bisognerebbe prima


verificare la Normalità della distribuzione di Y vd. Altri Elementi)
Calcoliamo la stima della st.dev della popolazione, e poi la statistica test:

. .
0.9683
0.9683

g=66: usiamo la Normale


t= 2.125 > 1.96; Ф(2.13)=0.983  Area nella coda = 1-0.983 = 0.017  P=0.034
H0 è rigettata al livello α=5%: la differenza osservata fra le durate della gravidanza fra
139
i due allevamenti è statisticamente significativa
Test sulla differenza fra k>2 medie
(ANOVA 1-way)
• Interessa la relazione fra Y variabile continua e X variabile categorica, che
definisce k>2 gruppi.
• Nella popolazione°, in ciascun gruppo j=1,2,…k Y ha distrib. Normale con
media incognita μj e st.dev σ
– H0: µ1=µ2=…=µk
– H1: almeno una µj ≠ dalle altre
• Nel campione si hanno i k gruppi j=1,2, …, k con dimensione nj, Media
= , st.dev=sj . La numerosità totale è
• La statistica test è basata sulla scomposizione illustrata nel seguito:

• e la distribuzione dei suoi possibili valori sotto H0 è una F di Fisher-


140
Snedecor con k-1 e n-k gradi di libertà
La scomposizione della devianza° (SS)
• ANOVA sta per «ANalysis Of VAriance»: il metodo è basato sulla scomposizione
del numeratore° della varianza totale di Y in due componenti, con una logica
sottostante ben interpretabile

– SS sta per Sum of Squares(°solo in Italiano la SS è detta «devianza»); T=Total,


B=Between, E=Error (anche detta Within)
– è l’osservazione i-esima nel gruppo j; la media generale è
Gradi di libertà:
Variabilità totale di Y

Variabilità delle medie. Misura


la distanza fra i gruppi

Variabilità residua all’interno dei


gruppi: variabilità che rimane da
spiegare dopo aver tenuto conto Notare che anche i gdl
dei gruppi. Errore. totali si scompongono
141
nella somma dei gdl
Vedere anche i
Interpretazione dell’ANOVA Modelli ANOVA,
Seguito

Variabilità di Y Variabilità fra i gruppi Variabilità all’interno dei gruppi,


o Errore. Mean Square Error

Si considera la variabilità totale di Y – ossia la


dispersione dei dati dalla media generale

Una parte è imputabile alla separazione fra i gruppi: la


Between è la variabilità «spiegata» dal fattore X.

Per stabilire se questa componente è abbastanza


grande da risultare significativa, essa viene confrontata
con la parte di variabilità di Y non spiegata da X: la
dispersione delle osservazioni di all’interno di ciascun
gruppo attorno alla media di gruppo.

Se questa è grande non si raggiunge la significatività


142
ANOVA 1-way per 3 medie
Confrontiamo la Y=durata della Allevamento: A B C
gravidanza in tre allevamenti di cani. n 32 36 30
Media (gg) 63.3 62.8 63.0
st.dev (gg) 1.02 0.92 0.98

Svolgiamo una ANOVA a 1 via al livello di significatività α=0.05 (nella pratica


bisognerebbe verificare la Normalità di Y e l’omoschedasticità cioè l’uguaglianza delle
varianze in A, B e C)
Calcolo della media ponderata  = 63.02
Calcolo delle componenti Between e Within della SS:

Calcolo dei gradi di libertà e dei Mean Square:


Between: g1=(3-1)=2  MSB = 4.26 / 2 = 2.13
Errore: g2=(98-3)=95  MSE = 89.73 / 95 = 0.94
.
Statistica test: .
Valore soglia (dalla Tavola della F per g1=2 e g2=95): 3.10
F=2.26 < 3.1  H0 accettata ossia le differenze osservate non sono significative 143
Utilizzo della Tavola della F

La tavola non
riporta g2=95.
Dovendo scegliere
fra g2=90 e
g2=100,
prendiamo il
valore soglia per
g2=90, che è più
alto: questa scelta
ci garantisce
meglio contro
l’Errore di I Tipo

Per alpha=1% il
valore soglia
sarebbe 4.85

144
Interpretazione di un Modello ANOVA
• Il Modello ANOVA ad un fattore (1-way) può essere scritto come:
Y = µ + αj + ε dove ε ~ N(0, σ)
• e descritto in questi termini:
Y = Media generale + Effetto del Fattore X=j + Errore

Y
Media di Y se X=3: µ + α3
α2 α3
µ α1 ε ~ N(0, σ) ε rappresenta la
variabilità individuale
residua / interna al
gruppo 3 / non
X=1 X=2 X=3 spiegata da X=3
145
Interpretazione di un Modello ANOVA
• Il Modello ANOVA ad un fattore (1-way) può essere scritto come:
Y = µ + αj + ε dove ε ~ N(0, σ) Utilizziamo delle lettere
greche αj θl etc senza
• e descritto in questi termini: significato particolare;
non confonderle con
Y = Media generale + Effetto del Fattore X=j + Errore l’alpha del test etc!
Ossia:
– I valori di Y variano da unità a unità, attorno ad una media generale µ.
– Le unità sono però raggruppate in base al fattore X: il fattore X=j produce su
tutte le unità del gruppo j-esimo uno scostamento dalla media µ ,
rappresentato da αj – per cui la media del gruppo j-esimo sarà µ + αj
– Ogni unità ha poi uno scostamento da questa media per effetto del caso
ovvero di tutti gli altri fattori non considerati nel modello: errore ε
• L’effetto del fattore X (misurato da SSB/k-1) viene confrontato mediante la
statistica F con l’errore (misurato dal MSE) per valutarne la significatività
Come vedremo a breve il modello può essere esteso con l’inclusione di più fattori, i concetti
restano gli stessi. Per ogni fattore si calcola una statistica F per confrontarne l’effetto 146
(misurato da SS / gdl) rispetto al MSE
Modelli ANOVA e Disegni sperimentali
• I modelli ANOVA (a uno o più fattori, vd. Seguito) vengono utilizzati soprattutto
in contesti sperimentali
• Introduciamo qui i primi elementi, facendo riferimento a una situazione in cui
la variabile oggetto di misurazione (variabile risposta, outcome) sia una Y
continua e interessi il confronto fra k trattamenti - ossia l’associazione con una
variabile X categorica (fattore o variabile esplicativa o covariata), con
eventuale aggiunta di altri fattori esplicativi
• Le principali caratteristiche di un contesto sperimentale sono:
– L’adozione di un protocollo sperimentale ossia una dettagliata descrizione di come
deve essere svolto ogni passo della sperimentazione (strumentazione, taratura,
misurazione etc) con l’obiettivo di minimizzare la variabilità accidentale delle
osservazioni (il σ della Y nella popolazione, ovvero: avere un MSE basso)
– La possibilità di somministrare i «trattamenti» in base a una randomizzazione, con
l’obiettivo di creare gruppi di trattamento simili tra loro
– La possibilità di fissare la numerosità campionaria, con l’obiettivo di raggiungere la
potenza desiderata 147
La randomizzazione
• Consideriamo ad esempio un esperimento su topi di laboratorio per confrontare gli effetti
della somministrazione di uno di tre trattamenti T1, T2 e T3. La variabile risposta è Y, il
trattamento è tanto più efficace quanto più Y è alta.
• Si creano 3 gruppi di n topi e gli si somministra rispettivamente T1, T2 e T3. Quindi si
misura Y e si analizzano i risultati. Supponiamo di trovare che il gruppo con Y più alta è T3.

T1 T2 T3
• Si può concludere che il trattamento T3 è il migliore? Ossia avere Y più alta è
effettivamente dovuto al trattamento T3?
• La spiegazione alternativa potrebbe essere nel fatto che i topi trattati con T3 sono diversi
da quelli trattati con T1 e con T2 (ad es. potrebbero essere più giovani, o più in salute, o
avere una genetica «favorevole» etc)
• Questa diversità del gruppo k=3 potrebbe essersi realizzata per caso o per il metodo
utilizzato per creare i gruppi (ad es. si sono presi i topi da una gabbia, i primi n sono andati
nel gruppo k=1, poi altri n in k=2, gli ultimi n in k=3: i topi più giovani e più in forma sono
stati catturati per ultimi) 148
La randomizzazione
• La comparazione fra k gruppi è valida se i k gruppi sono simili rispetto a tutte le
caratteristiche associate alla variabile risposta

T1 T2 T3
• La randomizzazione consiste nella creazione dei k gruppi secondo un meccanismo
probabilistico specifico, per cui ogni unità ha la stessa probabilità delle altre unità di essere
inserita nel gruppo j-esimo, indipendentemente dalle sue caratteristiche
• Questo meccanismo tende a creare k gruppi complessivamente simili per tutte le
caratteristiche
Nota: non necessariamente
randomizzare implica
Pr(T1)=Pr(T2)=Pr(T3)
T1 T2 T3 Si possono avere per es. 1/5
delle unità in T1, 2/5 in T2 e

® 2/5 in T3. Quello che deve


essere uguale nei gruppi 149
di «topi grigi»
è la %
DCR e Modello ANOVA 1-way
Disegno Completamente Randomizzato

T = T1, …, Tk Confronto di Y in k gruppi di nj unità (preferibilmente


trattamento T1 bilanciati ossia nj = N/k; creati mediante Randomizzazione).

T2
Modello ANOVA 1-way:
T3 Y = µ + αj + ε dove ε ~ N(0, σ)
Y = Media generale + Effetto trattamento Tj + Errore

Scomposizione della SS (e dei gdl):


SS(Tratt) è la Between; nel
SSTot = SS(Tratt) + SS(Errore) contesto dei modelli si
N-1 = (k-1) + (N-k) cambia la terminologia e si
parla di «devianza spiegata
Test F: MS(Tratt) vs. MSE dal fattore Trattamento»

vs sta per versus, indica il


confronto
150
Disegno a blocchi o stratificato
• Nello studio di Y in base a X (Trattamento), consideriamo il caso in cui una
caratteristica Z è una nota determinante di Y. Si può affidare alla randomizzazione
il compito di distribuirla in modo uguale (in %) fra i k gruppi di trattamento, o si
può procedere a una stratificazione, o creazione di blocchi:

• Si suddividono le unità in base alla caratteristica Z e si randomizza all’interno di


ciascuno strato (blocco)

T1 T2 T3 T1 T2 T3

®
Strato Z = 1
®
Strato Z = 2

• Questa procedura è raccomandabile quando ci sono caratteristiche rare (nel nostro


esempio: pochi «topi grigi»)

• Se non c’è motivo di aspettarsi che l’effetto del Trattamento sia diverso nei diversi strati
151
si
può utilizzare un modello ANOVA a 2-vie senza interazione 
DBR e ANOVA 2-ways senza interazione
Disegno a Blocchi Randomizzati
Confronto di Y in k gruppi di
B1 B2 B3 B4 Trattamento tenendo conto
T = T1, …, Tk
trattamento T1 dell’effetto del Blocco (h strati)
Consideriamo il caso con k unità
B = B1 , …, Bh T2 in ciascun blocco, randomizzate ai
blocco k trattamenti: ossia ogni
T3 combinazione Blocco-
Trattamento contiene 1 sola unità

Modello ANOVA 2-ways senza interazione:


Y = µ + αj + θl + ε = Media generale + Effetto Tratt j + Eff. Blocco l + Errore; ε ~ N(0, σ)
Scomposizione della SS (e dei gdl):
Sia il Trattamento che il
SSTot = SS(Tratt) + SS(Bl) + SS(Errore) Blocco hanno una SS() che,
N-1= kh-1 = (k-1) + (h-1) + (k-1)(h-1) divisa per i suoi gdl, va
Test F: confrontata con l’Errore (la
variabilità non attribuibile
- MS(Tratt) vs. MSE ne’ al Trattamento ne’ al
152
- MS(Bl) vs. MSE fattore di Blocco)
Disegno fattoriale
• Il disegno fattoriale assomiglia al disegno a blocchi, in quanto si incrociano le
modalità di un primo fattore X a quelle di un secondo fattore Z

• La differenza fra i due disegni riguarda piuttosto il fatto che ci si aspetta che X e Z
abbiano una interazione, ossia che l’effetto di X sia diverso a seconda del valore di
Z (e viceversa: effetto di Z diverso a seconda del valore di X). In questa situazione
si va a utilizzare un modello ANOVA a 2-vie con interazione

• Un’altra differenza concettuale riguarda il fatto che il fattore Z può essere a sua
volta determinato dallo sperimentatore, ad esempio essere un co-trattamento
• Es. oltre al trattamento chemioterapico T (=T1, T2, T32) si vuole somministrare o no la
radioterapia Z (=Z1 no, Z2 sì)

• Nel disegno a blocchi il fattore Z non è somministrabile, è una caratteristica delle unità
(es essere un «topo grigio»)

153
DF e ANOVA 2-ways con interazione
Disegno Fattoriale
Studio di Y in relazione a due Trattamenti, X con
Z1 Z2
T = T1, …, Tk k livelli e Z con h livelli, e alla loro interazione
trattamento T1 (ossia, l’effetto della loro combinazione)

Z = Z1 , …, Zh T2
N unità vengono distribuite in modo bilanciato
trattamento alle kh combinazioni di trattamento: n =N/kh
T3
ciascuna

Modello ANOVA 2-ways con interazione:


Y = µ + αj + βl + δjl + ε = Media gen. + Eff. Tj + Eff. Zl + Eff. combinaz. + Errore; ε ~ N(0, σ)

Scomposizione della SS (e dei gdl):


Ogni componente del
SSTot = SS(T) + SS(Z) + SS(T*Z) + SS(Errore)
modello, anche
nkh-1 = (k-1) + (h-1) + (k-1)(h-1) + (nkh-kh) l’interazione (indicata da
un prodotto T*Z) , ha una
Test F: MS(T) vs. MSE; MS(Z) vs. MSE; MS(T*Z) vs. MSE SS/gdl che va confrontata
con l’Errore
154
Impostazione di uno studio sperimentale
La variabile Y rappresenta il livello di stress, si vuole impostare uno studio con N=60
soggetti volontari per valutare se lo stress varia in relazione alla somministrazione di
Farmaco (No/Sì) e al tipo di Terapia di supporto ricevuta (psicoterapia, esercizi
respiratori, reiki), e anche se l’effetto della Terapia si modifica nei soggetti che
assumono il Farmaco.

Avendo due fattori entrambi somministrabili e volendone valutare l’interazione si


utilizza un Disegno Fattoriale (DF), con 2 x 3 = 6 gruppi Farmaco-Terapia
 Numerosità per gruppo: n= 60 / 6 = 10 (disegno bilanciato; randomizzazione)
Modello: ANOVA a 2 vie: Y (stress) = Farmaco + Terapia + Farmaco * Terapia + Errore
Gradi di libertà totali: N-1 = 60 – 1 = 59
I gdl sono la quantità di informazione di cui disponiamo. La scomposizione dei gdl
totali indica come verrà «spesa» questa informazione:
Tot gradi di libertà
Gradi di libertà effetto Farmaco: 2– 1 = 1 per gli effetti di
Gradi di libertà effetto Terapia: 3– 1 = 2 interesse:
Gradi di libertà interazione Farmaco * Terapia: 1∙2 = 2 1+2+2 = 5
Gradi di libertà residui, cioè dell’Errore: 59 – 5 = 54 = 10∙2∙3 – 2∙3 (nkh – hk)
155
ANOVA 2-ways
La seguente tabella contiene i risultati dello studio impostato in precedenza. Cosa
riporta la tabella? Verificare i calcoli (per la significatività trovare la soglia al livello
5% e 1% sulla tabella della F) e tirare le conclusioni

df Sum Sq Mean Sq F value Pr(>F)


Therapy 2 9.33 4.665 6.48 0.003
Drug 1 3.44 3.44 4.78 0.033
Therapy*Drug 2 5.8 2.9 4.03 0.023
Residuals 54 38.85 0.719

I Degrees of Freedom = gradi di libertà corrispondono a quanto calcolato


MSE = 38.85/ 54 = 0.719
Ad es. per l’effetto Terapia: Conclusioni:
MS Therapy = 9.33 / 2 = 4.665 La Terapia ha un effetto
significativo sul livello di stress, e
Statistica F: 4.665 / 0.719 = 4.665
questo effetto è
g1=2, g2=54 (usiamo g2=50) significativamente diverso a
Soglia di significatività per α=0.05: 3.18 seconda se il soggetto assume o
Soglia di significatività per α=0.01: 5.06 no Farmaco. 156
6. Sintesi
• Il confronto fra 2 medie può essere svolto con una statistica test data come visto
nei test presentati in precedenza dalla differenza (standardizzata) fra la differenza
osservata e quella attesa (T-Test)
• Il confronto fra più di 2 medie viene svolto secondo una logica diversa, basata
sulla scomposizione della variabilità in parti, attribuibili ai fattori osservati, o non
attribuibili (ANOVA)
• Per ottimizzare i test ove possibile si effettuano le osservazioni in un contesto
controllato (sperimentale) secondo dei particolari disegni statistici; quelli più
elementari sono il DCR, il DBR e il DF
– Si usano rispettivamente l’ANOVA 1-way, l’ANOVA 2-ways senza e con interazione
– Un aspetto tecnico fondamentale è la randomizzazione, ossia la creazione dei gruppi di
confronto in base a un meccanismo casuale, in modo da eliminare l’influenza delle
caratteristiche delle unità

157
6. Altri elementi
• T-Test su due medie: Formule ed esercizi per la numerosità minima

• ANOVA 1-way: confronti interni e fra 2 gruppi (il metodo di Bonferroni)

• T-test e ANOVA: come valutare le condizioni di validità e come procedere se non


sussistono

• I test non-parametrici

• Confronto fra gruppi non indipendenti: paired t-Test

158
Numerosità per il t-test su due medie

• Si vuole impostare un t-test per confrontare due medie, con livello di significatività
α e potenza 1-β
• Si conosce° il valore della st.dev di X nella pop. σ
• Si ipotizza che la differenza (in valore assoluto) fra le due medie sia pari a δ
– Ovvero, δ è la minima differenza che si vorrebbe dimostrare come significativa
• La numerosità in ciascun gruppo deve essere:
dove è il quantile° della N(0,1)
che lascia area=ε nella coda

• Per livello di significatività α=95% e per potenza =80% o 90% si può ricorrere
ad approssimazioni: 80% 90%

(al solito osserviamo che però per numerosità piccole bisognerà usare la distribuzione T, con
159
perdita di potenza)
Applicazione: Numerosità per il T-Test
In un esperimento si vogliono creare due gruppi di N piante ciascuno, somministrare
due diversi tipi di antiparassitario, e confrontarne l’efficacia, misurata da una
variabile continua Y. L’obiettivo è dimostrare che c’è una differenza almeno pari a
20. Se la Y ha variabilità (st.dev) σ=12, quante piante bisogna trattare per ottenere
un test con una potenza dell’80%?

Dati del problema: variabilità σ=12, differenza ipotizzata δ=20


Livello di confidenza 1-α=0.95  α/2 = 0.025  =1.96
Potenza 1-β=0.8  =0.84

La dimensione campionaria minima per gruppo è pertanto:


n 6
Ossia l’esperimento richiede almeno 12 piante.

Usando la f.la approssimata : 6 per gruppo

160
Confronti multipli nell’ANOVA 1-way
Problema del multiple testing: inflation of Type I Error

• Nell’ANOVA 1-way si hanno k>2 gruppi e si verifica l’evidenza che ci sia almeno una
μj diversa dalle altre
• In aggiunta al test overall può interessare effettuare altri confronti, ad esempio i
confronti pairwise
– Ad. es con k=3 (A, B, C) si hanno 3 confronti delle coppie: A vs B, A vs C, B vs C
– Altri confronti di interesse potrebbero essere: A e B insieme vs C; etc
• Il piano dei confronti da svolgere deve essere specificato all’inizio dell’esperimento
e/o seguire dei metodi particolari, in particolare per evitare di incorrere in una
«falsa scoperta»
– Questo è un accenno al problema dell’inflazione dell’Errore di I Tipo nei test multipli
– Se ad es. si fanno c test indipendenti l’uno dall’altro ognuno con alpha=5%, se tutte le
10 ipotesi H0 sono vere la probabilità che almeno uno dei test concluda erroneamente
rigettando H0 è: 1-(1-0.05)c. Ad es se c=10 questa probabilità è del 40%
• Questi argomenti non sono oggetto del corso, ad eccezione del semplice metodo
di Bonferroni che verrà illustrato con un esempio.
161
– Un altro metodo molto utilizzato è quello di Tukey
ANOVA 1-way, Metodo di Bonferroni per confrontare 2 gruppi
Y=durata della gravidanza in tre Allevamento: A B C
allevamenti di cani. n 32 36 30
Media (gg) 63.3 62.8 63.0
ANOVA  no differenze
Confronto fra A e B? st.dev (gg) 1.02 0.92 0.98

Precisiamo che per facilitare l’illustrazione prima del T-test poi dell’ANOVA 1-way
abbiamo utilizzato gli stessi dati di A e B, aggiungendo un gruppo C; in uno studio
sperimentale il numero di gruppi è fissato all’inizio e, qualunque siano i risultati, non è
corretto «eliminare» un gruppo in fase di analisi.
Con k=3 si possono fare c=3 confronti appaiati (con k=4 c=6; con k=5 c=10 etc)
Secondo il metodo di Bonferroni per ogni coppia si usa il t-test con 2 correzioni:
1) Per non superare una prob di errore di I Tipo alpha (es 5%) in ciascun test si deve
utilizzare α= alpha/c (qui 0.05/3=0.017)
2) Si utilizza il MSE dell’ANOVA come stima di σ2, e i suoi gdl (qui MSE=0.94, g2=95)
Avendo 95 gdl possiamo utilizzare la
Normale, e quindi calcolare il p-value:
0.94

p = 2∙(1-0.983)=0.034 > 0.017: si accetta H0: non c’è sufficiente evidenza di differenza fra
162A e B
Verifica delle condizioni dei test T e ANOVA
• I test T e ANOVA sono detti «parametrici» con riferimento al fatto di
essere validi solo n particolari condizioni sulla distribuzione della variabile
nella popolazione:
– È una Normale
– La varianza σ2 è la stessa nei gruppi di confronto («omoschedasticità»)
• Esistono diversi metodi e test per verificare queste ipotesi; non sono
oggetto del corso, ma impariamo i nomi dei più utilizzati:
• Normalità: metodi grafico del Q-Q plot, test di Kolmogorov-Smirnov (dove
H0: la distribuzione è Normale)
– Va menzionata la possibilità di trasformare i dati per ottenere una distribuzione
osservata più simile alla Normale. Una trasformazione semplice che funziona in
presenza di una Y a valori positivi molto asimmetrica è quella logaritmica: Y*=ln(Y)
Y Y*=ln(Y)

• Omoschedasticità: test di Levene e di Bartlett


Test non-parametrici
• Vengono detti «non-parametrici» i metodi statistici che non richiedono
assunzioni forti sulla distribuzione delle variabili di interesse nella popolazione.
• Questi metodi sono in generale più adatti dei corrispondenti «parametrici» per
piccoli campioni e in presenza di outliers (valori molto estremi).
• Comparato al corrispondente test parametrico, un test non-parametrico ha
minore potenza se le assunzioni del test parametrico sono soddisfatte.
Impariamo i nomi dei principali test nonparametrici per alcuni dei problemi
trattati:
• Test su una media: test dei segni di Wilcoxon
• Test su due medie: test di Mann Whitney
• Test su k>2 medie: test di Kruskal-Wallis

(L’applicazione di test «non-parametrici» non è oggetto di questo corso, ma impariamo i


nomi di alcuni di essi, molto comunemente usati)
Confronto di medie con dati appaiati
• Il T-test visto non deve essere utilizzato per confrontare 2 gruppi che
presentino un «appaiamento» ossia quando le unità del gruppo 1 sono le
stesse del gruppo 2 o comunque siano a loro abbinate, ad es:
– Y=Peso, confronto Prima vs. Dopo una dieta: lo stesso individuo appartiene
a entrambi i gruppi
– Y=Pressione Oculare, confronto Occhio Ds vs. Occhio Sin (come sopra)
– Y=Biomarcatore, confronto di un gruppo di individui con una certa malattia
con un gruppo di loro fratelli/sorelle
• Vediamo con un esempio un approccio corretto per queste situazioni, che
costituisce il paired T-test

• Notiamo che questo è solo uno dei tanti casi in cui si analizzano dati che
presentano strutture di dipendenza, e che nella letteratura statistica vengono
presentati molti metodi specifici per queste situazioni.
• Impariamo ad esempio che per dati annidati o longitudinali (illustrati in una
prossima slide) si hanno modelli ANOVA e modelli lineari (prossimo capitolo)165
a
coefficienti casuali
Paired T-Test
Si osserva la pressione in 5 soggetti sani, ottenendo: 98; 96; 91; 87; 93. Ai soggetti
viene somministrato un farmaco in sperimentazione, e gli viene nuovamente misurata
la pressione, ottenendo: 102; 96; 95; 94; 98. Vi è evidenza di un aumento
significativo della pressione?
Si tratta di un confronto di dati appaiati: la numerosità del campione è n=5, ogni
osservazione del gruppo «pre-trattamento» è abbinata a una seconda osservazione
«post-trattamento». Il modo corretto di affrontare il confronto è lavorando sulle
differenze: d = -4; 0; 4; -7; - 5
Calcoliamo media e deviazione standard:
Impostiamo quindi un test per verificare se questa media è significativamente diversa
da 0 (seguendo la procedura del test per una media)

. =
.

Confronto coi quantili della T di Student con 5-1=4 gradi di libertà:

Per α=0.05 soglia = ± 2.776  Si rigetta H0 (ossia c’è sufficiente evidenza di aumento)
Per α=0.01 soglia = ± 4.604  Si accetta H0 (ossia non c’è sufficiente evidenza)166
Esempi di dati dipendenti
Esempio di dati annidati:
• Studio sulle carriere dei laureati italiani: le unità sono
raggruppate per Università, le Università per Regione
(struttura a 3 livelli)
I metodi come l’ANOVA a coeff casuali permettono ad
esempio di introdurre un «effetto università» utilizzando
solo 1 gdl anche in presenza di dati provenienti da dozzine
di università
• Studio di Antropologia Molecolare, su ossa (livello 1)
prelevate da individui diversi (livello 2) provenienti da
siti archeologici diversi (livello 3)

Esempio di dati longitudinali:


• In farmacologia, Y =Livello di Farmaco nel sangue,
misurato in 5 istanti di tempo
Una ANOVA con intercetta casuale permette di far partire
ogni traiettoria da un valore Y0 diverso da individuo a 167
individuo, utilizzando 1 gdl
Corso di Statistica per Scienze Biologiche
Simona Iacobelli

7. RELAZIONI FRA VARIABILI


CONTINUE E MODELLO LINEARE
Associazione fra 2 variabili continue
• Consideriamo la situazione in cui interessa studiare la relazione fra due variabili X e Y
continue. I metodi statistici di base più utilizzati fanno riferimento al caso di una relazione
lineare, rappresentata cioè da una retta, ad es. y=f(x)=a+bx
– Il contesto indicherà quale delle due variabili è la variabile risposta (outcome) Y e quale la
variabile esplicativa X
– La misura della correlazione (vd Seguito) non richiede questa specificazione: le due variabili
hanno un ruolo simmetrico.
• Gli elementi di base riguardano:
– La stima dai dati dei parametri della retta che rappresenta meglio i dati
– Il modello associato a questa retta (e poi l’estensione al caso di più variabili esplicative)
– La misura della relazione lineare (o correlazione)

Y Y

X X
Grafici di valori osservati (xi,yi) («nuvola di punti», scatter plot) e della retta
169
che idealmente li attraversa, rappresentando quindi la relazione fra X e Y
Prerequisiti
La retta y = 5 + 1∙x
y
Curva descritta dall’equazione y = a + b∙x y = 2 + 1∙x

Ogni retta è identificata da due parametri:


a  intercetta y = 2 + 0.5∙x
b  pendenza o «coefficiente angolare»
y = 2 + 0∙x
a: valore di Y quando X=0
x
b > 0 : retta crescente y = 2 - 1∙x
b < 0 : retta decrescente i.e. y = 2 + (- 1)∙x
b = 0 : retta parallela all’asse delle x

b misura la variazione di Y quando X aumenta di +1

La retta è l’unica curva in cui tale variazione è


costante qualunque sia il valore di partenza di x

Se X varia di Y varia di

Il caso di assenza di relazione è b=0: al variare di X, Y


non varia
La retta di regressione
• Date le n coppie di valori (xi,yi) osservati per X e Y, quali
sono i parametri a (intercetta) e b (pendenza) della retta
che passa globalmente più vicina ai dati?
– Le seguenti stime derivano dall’applicazione del metodo
detto «dei minimi quadrati»
• Stima della pendenza: Coefficiente di regressione
• E’ l’indice statistico che misura l’effetto di X su Y
Al numeratore c’è
• Esistono f.le per calcolare l’intervallo di confidenza e fare l’indice denominato
test di ipotesi (non oggetto del corso): servono ad covarianza:
accettare o rifiutare l’ipotesi di assenza di relazione fra X e 𝑐𝑜𝑣 =
∑ 𝑥 − 𝑥̅ 𝑦 − 𝑦
𝑛−1
Y nella popolazione H0: bPOP=0
• Stima dell’intercetta:
– Si noti che la retta di regressione passa per il baricentro
della nuvola di punti 𝑥̅ , 𝑦

171
Retta di regressione
Uno studio ha raccolto dati sulla relazione fra X=Altezza (cm) e Y=FEV(l) (Forced
Expiratory Volume, indice di efficienza respiratoria), ottenendo per la retta di
regressione:
a = -9.190 95%CI=(-11.10,-7.28)
b = 0.074 95%CI=(0.023,0.126)
Interpretare i risultati.

• E’ stata osservata una relazione lineare positiva i.e. crescente ( >0)


• La relazione è statisticamente significativa al livello 5% (il 95%CI di b non include 0)
• La relazione è rappresentata dalla retta
– -9.19 sarebbe il valore di FEV per un’altezza di 0 cm
– 0.074 litri è l’aumento di FEV che si osserva in corrispondenza di una aumento
dell’Altezza di 1cm
• Considerando l’incertezza della stima (95%CI) possiamo affermare che il minimo
aumento è 0.023, il massimo è 0.126
– Per es. una persona di 10 cm più alta di un’altra ha FEV maggiore di 0.74 litri;
se invece la differenza è di -5 cm, la FEV è ridotta di 0.37 l.
– Valore atteso di FEV per una persona alta 160 cm: y= -9.19+0.074∙160 = 2.65
172
Il Modello Lineare semplice
• La retta di regressione è sostanzialmente la stima della prima parte del
Modello Lineare (ML) semplice, ossia con una sola covariata:
Y = a + bx + ε dove ε ~ N(0, σ)
• che può essere descritto in questi termini:
Y = Media che dipende da X + Errore

Y
La retta: y=a+b∙x restituisce
il valore medio atteso di Y
quando X assume il valore x
ε rappresenta la variabilità individuale
casuale ovvero non spiegata da X
X
X=x
173
Illustrazione del Modello Lineare
Y
Valore atteso in
media per Y Retta: y=f(x)=1+2∙x ε ~ N(0, σ)
Y1 = 22.7
quando X=10:
1+ 2∙10 =21 Y2 = 20.2

Valore atteso in media Y3 = 9.3


per Y quando X=4:
1+ 2∙4 =9 X
X=4 X = 10

2 soggetti entrambi con X=10


X1=10  f(x1) = 1+ 2∙10 = 21 ; ε1=1.7  Y1= 21 + 1.7 = 22.7
X2=10  f(x2) = 1+ 2∙10 = 21 ; ε2= -0.8  Y2=21 + (-0.8) = 20.2
Terzo soggetto, con X=4
X3=4  f(x3) = 1+ 2∙4 = 9 ; ε3= 0.3  Y3=9+ 0.3 = 9.3
174
Grado di relazione lineare
• Quanto è valido il modello lineare nel rappresentare la relazione fra X e Y? Confrontiamo la
situazione nel primo grafico a sinistra con gli altri a destra:
– Il primo è un caso in cui il ML funziona bene: i punti osservati sono distribuiti lungo la
retta e complessivamente vicini a essa.
– Nel secondo la relazione lineare c’è ma è meno forte, nel senso che i punti sono
complessivamente lontani dalla retta. Nel linguaggio dei modelli, diciamo che c’è molta
variabilità non spiegata dal modello.
– Nel terzo c’è una relazione crescente ma non di tipo lineare, piuttosto è di tipo
quadratico.
– Nel quarto quasi tutti i punti si dispongono in una nuvola «rotonda», il che indica che
non c’è una relazione monotona (e quindi nemmeno lineare); la retta di regressione è
identificata in base a pochi punti estremi
Y Y Y Y

X X X X

• Introduciamo quindi un indice che misura il grado di relazione («correlazione») lineare


• Andiamo anche a valutare se la retta di regressione si adatta bene ai punti (bontà di 175
adattamento o « goodness-of-fit»)
Il coefficiente di correlazione
• Il coefficiente di correlazione lineare è un indice del grado (o «forza»)
di relazione lineare
• Già la covarianza misura questo aspetto; il coefficiente r ha il vantaggio
di facilitare l’interpretazione poiché è compreso fra ±1:
Al numeratore
– =0 indica assenza di relazione lineare; più è lontano da 0 c’è la covarianza,
più è forte il grado di relazione lineare e quindi:
– >0 indica relazione crescente, <0 indica relazione
decrescente
– è il caso in cui i punti osservati sono tutti allineati
• Esistono f.le per calcolare l’intervallo di confidenza e fare test di ipotesi
(non oggetto del corso) validi per variabili Normali: servono ad
accettare o rifiutare l’ipotesi di assenza di relazione fra X e Y nella
popolazione H0: rPOP=0
• Il valore misura la bontà di adattamento della retta di regressione
ai punti. Varia fra 0 (%) e 1 (100%). Misura anche la % di variabilità di Y
spiegata dal modello.
– Nei modelli lineari multipli (vd. Seguito) questo aspetto è misurato da un 176
indice denominato R2.
Errori comuni di interpretazione del coefficiente di
correlazione
• vicino a 0 o non significativo non implica assenza di
relazione: può esserci una relazione non lineare

• basso non vuol dire che X ha poco impatto su Y: può


esserci un b alto (in valore assoluto) ma molta dispersione
Y
• E viceversa: alto indica ottimo adattamento, ma la retta
può essere poco inclinata (cioè basso impatto di X su Y)
X
• può non essere affidabile in campioni piccoli: può
essere attratto da valori anomali e risultare non vicino a 0 o
significativo.
• Per campioni piccoli è preferibile utilizzare ai fini dei test
non parametrici come il Rho di Spearman e il Tau di Kendall

177
Correlazione e regressione
Sulla base dei dati su consumo calorico giornaliero (X) e pressione (Y), calcolare un
indice della forza della relazione lineare e un indice di impatto di X su Y, e poi dire:
1. Cosa accade alla pressione se il consumo calorico diminuisce da 2000 a 1800? E
se diminuisce da 2500 a 2300?
2. Quale consumo calorico bisognerebbe avere per mantenere la pressione sotto 90?
Calories (X) Pressure (Y) X,Y
mean =1916.7 =102.4 cov=540.4
st.dev sx=137.20 sy=13.90
.
• Coeff. di Correlazione (grado): =
. .
• Coeff. di Regressione (impatto): .
= .

1) A una variazione ∆x = -200 del consumo corrisponde una variazione attesa ∆Y della
pressione pari a (-200) ∙ 0.029 = -5.8. Non fa differenza se il valore iniziale è 2000 o
2500
2) Retta di regressione: 𝑎 = 102.4 − 0.029 1916.7 = 46.816 → 𝑌 = 46.816 + 0.029𝑋

Impostiamo l’equazione: ∗

178
Per avere pressione <90 bisognerebbe assumere meno di 1490 cal.
R2
Utilizzando i dati e i risultati dell’esercizio precedente, vediamo anche l’indice R2 e il
suo significato:

• Coeff. di Correlazione (grado): =

• Retta di regressione: 𝑌 = 46.816 + 0.029𝑋

Nel caso del ML con una sola variabile esplicativa l’indice detto R2 è pari a r2:

Dunque l’8% della variabilità osservata della Pressione Y è «spiegata» dal modello
lineare con covariate: Consumo X
(terminologia e concetti come nell’Analisi della Varianza)

(Attenzione: nei MLM con più covariate il valore di R2 non è calcolabile


semplicemente da altre quantità, deve essere letto nell’output del modello)

179
Il Modello Lineare Multiplo
• L’estensione dell’equazione della retta al caso con k>1 covariate è
l’iperpiano (qui rappresentiamo il caso k=2, nel piano a 3 dimensioni)
• Con k variabili esplicative X1, X2, … Xk il modello di regressione è:
Y = a+b1x1+b2x2+…+bkxk + ε dove ε ~ N(0, σ)
• che può essere descritto in questi termini:
Y = Media che dipende da X1, X2, … Xk +E(Y|X=x)
Errore = a+b1x1+b2x2

Il piano y=a+b1x1+b2x2
restituisce il valore medio atteso di
Y quando il pattern di covariate è
uguale a x1, x2, … xk

ε rappresenta la variabilità individuale


casuale ovvero non spiegata dalle k
covariate
180
ML multiplo: illustrazione (i)
Esempio: analisi della variabile Y=Pressione come dipendente da k=2 covariate: X1=Età
(continua), X2=Fumo (0=Non-fumatore, 1=Fumatore)
Modello: E(…) sta per
Expectation ossia
valore atteso, media.
La barra | indica
Es. Il valore atteso di Pressione per un soggetto con Età=34, Fumatore è: condizionamento

Il ruolo del coefficiente di regressione bj è analogo al modello semplice: indica quanto varia Y
quando Xj aumenta di +1 e le altre covariate rimangono costanti [derivata parziale]

- Quando l’età X1 aumenta di +1 anno e il Fumo X2 non varia  E(Y | X1, X2) cambia di 𝟏

- Quando il Fumo X2 aumenta di +1 ossia passa da 0=Non-fumatore a 1=Fumatore e l’Età X1


rimane costante  E(Y | X1, X2) cambia di 𝟐

Notiamo infatti che nel modello è possibile inserire variabili dicotomiche. La modalità =0
viene detta baseline, valore di riferimento; il coeff. di regressione indica l’effetto su Y del
livello 1 rispetto al livello 0
181
Regressione multipla (i)
La tabella riporta i risultati di un MLM applicato alla variabile risposta Pressione (Y)
con 2 variabili esplicative: Età, Fumo (Sì vs no)

Estimate Std. Error Pr(>|t|)


(Intercept) 70.21135 7.66582 1.43e-06 ***
Age 0.52607 0.09524 4.71e-07 ***
Smoke 6.35744 2.08974 0.00325 **

(Questo è un esempio di output, colonne e nomi delle colonne possono cambiare. Qui
«Estimate» riporta i coeff di regressione stimati e la colonna «Pr(>|t|)» i loro p-values per H0:
bj=0 vs. H1: bj≠0. A volte si ha il 95%CI, qui c’è lo standard error, che permette di calcolarlo:
Estimate ± 1.96∙ Std.Error

• Età: l'associazione con la pressione è molto significativa, con un effetto di +0,53 per
ogni ulteriore anno di età (senza cambiamento di Fumo).
• L'effetto min e max sono dati dai limiti del 95CI%: 0,53 ± 1,96 ∙ 0,09 = (0,34,0,71)
• Per facilità di interpretazione, calcoliamo ad es. l'impatto di +5 anni : +2,65 di
pressione (= 5 · 0,53)
• Fumo: un fumatore ha un aumento statisticamente significativo di 6,35 di pressione
rispetto a un non fumatore della stessa età. 182
ML multiplo: illustrazione (ii)
Inclusione di covariate categoriche

Aggiungiamo al modello precedente la covariata categorica X3=Trattamento (A,B,C).


Per farlo scegliamo uno dei 3 livelli come baseline: ad es. Tratt=A. Andiamo quindi a inserire
nel modello le seguenti 2 =3-1 variabili indicatrici (“dummy”) per tratt=B e tratt=C:

Variabile X3  Informazione X3_B X3_C


Trattamento A equivalente: 0 0
h=3 2=h-1 variabili
B 1 0
indicatrici
C 0 1

Es. Il valore atteso di Pressione per un soggetto con Età=34, Fumatore, che ha ricevuto Tratt. C è:
_ _

𝟑_𝑪 misura la variazione del valore atteso della Pressione comparando il Trattamento C al
Trattamento A a parità di Età e Fumo X2.
183
𝟑_𝑩 confronta il Trattamento C sempre contro al Trattamento A, a parità di Età e Fumo X2.
Regressione multipla (ii)
Estimate Std. Error Pr(>|t|)
(Intercept) ...
Age ...
Smoke ...
Treat B -0.38877 0.21365 0.07286 .
Treat C 0.12013 0.41522 0.31782

• Trattamento:
• in questo output non viene fornito un test generale per l’ipotesi che vi sia almeno un
trattamento con effetto diverso dagli altri due; vediamo il confronto dei livelli B e C contro il
livello A:
• Con Età e Fumo fissati, il trattamento B rispetto al baseline A potrebbe dare una diminuzione
∆Y = −0,39; questo effetto non raggiunge la significatività al 5% (p = 0,073)
• Con Età e Fumo fissati, il trattamento C rispetto al baseline A fornisce un aumento ∆Y = 0,12
non significativo (p=0.318)
• Si può confrontare ad es. il livello C contro B, ma per avere la significatività bisogna avere altro
output. L’effetto su Y è 𝒃𝟑_𝑪 -𝒃𝟑_𝑩 = 0.120-(-0.389) = 0.509
• Ovviamente B contro C è: è 𝒃𝟑_𝑩 − 𝒃𝟑_𝑪 = -0.389-0.120 = -0.509

184
7. Sintesi
• La relazione matematica più semplice fra variabili continue è quella lineare: a
questa fanno riferimento i più utilizzati metodi di analisi

• La retta di regressione è la retta con parametri stimati dai dati che passa
complessivamente più vicina ai punti osservati; essa restituisce il valore atteso
della variabile risposta Y in presenza di una certa X

– Le variabili non incluse nel modello ovvero la variabilità casuale determinano poi uno
scostamento fra ogni valore osservato di Y e il corrispondente valore atteso, detto
Errore: questa è la seconda componente di un Modello Lineare

• Il coefficiente di correlazione r misura la bontà di rappresentazione dei dati fornita


dalla retta di regressione

• Il modello lineare è una estensione della retta che permette di inserire più
variabili per spiegare la Y

• I coefficienti del modello, detti di regressione, misurano l’impatto di ciascuna


covariata sulla variabile risposta Y
185

Potrebbero piacerti anche