Sei sulla pagina 1di 41

Lezione 6:

Analisi della varianza (ANOVA)

Sintesi della lezione


Analisi della varianza (ANOVA):
concetti di base
ANOVA ad un solo fattore
ANOVA a due fattori

Lanalisi della varianza


(ANOVA)
Una procedura per la valutazione di differenze
fra i valori medi per due o pi trattamenti (o
popolazioni)
Differenza rispetto al test t
Possibilit di confrontare pi di due trattamenti
ad es. test dellefficacia di un nuovo metodo didattico
in classi di dimensione:
piccola
media
grande

Terminologia
Variabile indipendente: una variabile che il
ricercatore sottopone a manipolazione
sperimentale
Variabile quasi-indipendente: una variabile
utilizzata per distinguere fra diversi gruppi di
risultati
Nellanalisi della varianza le variabili indipendenti
e quasi-indipendenti si chiamano fattori
Variabile dipendente: una variabile il cui valore
determinato da quello dei fattori

Due disegni sperimentali


Disegno ad un solo fattore

Disegno a pi fattori
Classe classe classe
piccola media grande

4 anni 5 anni 6 anni

Metodo A

c1

c2

3 campioni 3 medie

c3

Metodo A
Metodo B

c1
c4

c2
c5

6 campioni 6 medie

c3
c6

Disegno con un solo fattore:


misure indipendenti
H0: non esistono
differenze fra le tre
popolazioni. Le
differenze osservate
sono dovute al caso
H1: le differenze
osservate
rispecchiano
differenze reali fra le
tre popolazioni

1=?

2=?

3=?

campione 1
0
2
4
media=2

campione 2
1
4
7
media=4

campione 3
4
6
8
media=6

Apprendimento e temperatura
ambiente
Lesperimento
Misurazione della
capacit di
apprendimento a:
10
20
30

H0: 1= 2= 3
H1: Almeno una
delle medie
diversa dalle altre
(si considera
lipotesi alternativa
pi generale)

Il rapporto F

Il rapporto F fornisce le stesse


informazioni che possiamo
derivare dal test t

MA

varianza delle medie


F
varianza attesa

Il test t si basa sulla differenza


fra due medie

Il rapporto F si basa sulla


varianza di un insieme di due o
pi medie

In entrambi i casi una forte


differenza fra le medie (una
elevata varianza) indice della
presenza di una differenza
significativa

Due tipi di varianza


Varianza fra i
campioni
Effetto del trattamento

Media

Lapprendimento a 20
gradi nettamente
superiore a quello
registrato a 10 e a 30
gradi

Varianza allinterno
dei campioni
Varianza dovuta al caso

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

Il rapporto F per studi a misure


indipendenti
Se il trattamento non
ha alcun effetto il
valore del rapporto F
sar vicino a 1
Se il trattamento ha
un effetto significativo
il rapporto F sar
lontano da 1.

varianza fra i campioni


varianza all' interno dei campioni
varianzatrattamento varianzacasuale

varianzacasuale
F

Se il trattamento non ha
effetto
F

0 varianzacasuale varianzacasuale

1
varianzacasuale
varianzacasuale

Analisi della varianza: procedura


Calcolo deviazioni quadratiche
Popolazione
Tra campioni
Allinterno dei campioni

Analisi gradi di liberta


Calcolo varianza
Calcolo rapporto F
Decisione

Calcolo deviazioni quadratiche /1


Calcolare il totale
delle deviazioni
quadratiche per
lintera popolazione
Excel
dev.q(<tutti gli score
nel campione>)

Open Office
dev.sq(<tutti gli score
del campione>)

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

somma delle deviazioni


quadratiche=46

Calcolo deviazioni quadratiche /2

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

dev.q c1 6
dev.q c2 6
dev.q c3 4
somma
16

Calcolare la somma
delle deviazioni
quadratiche per
ciascun campione
Excel: dev.q(<c1>)+
dev.q(<c2>)
+dev.q(<c3>)
Open Office:
dev.sq(<c1>)+
dev.sq(<c2>)
+dev.q(<c3>)

Calcolo deviazioni quadratiche /3


Il valore per le
deviazioni
quadratiche fra
campioni si calcola
come la differenza
fra dev.qtotale e
dev.qallinterno dei campioni

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

dev.q totale dev.q fra dev.q int


dev.q fra dev.q totale dev.q int
dev.q fra 46 16 30

Analisi dei gradi di libert


gdltotale=N-1=15-1=14

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

gdlint=gdlc1+gdlc2+gdlc3
=4+4+4
=12
gdlfra = gdltotale-gdlinterno
=14-12
=2

Calcolo della varianza


Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

Media

varianza fra

dev.q fra
gdl fra

varianzainterno

30
15
2

dev.q interno 16

1,33
gdlinterno
12

Formula generale

dev.q
varianza
gdl

Calcolo del rapporto F

varianza fra
varianzaint

15

11,28
1,33

La decisione
0,060

0,050

F=3,88
p=0,05

0,040

p(F)

Nellanalisi F cos
come nel test z e nel
test z occorre
confrontare il valore
della statistica
calcolata con la
distribuzione della
stessa calcolando la
probabilit che il
valore riscontrato sia
attribuibile alla
casualit

Zona
critica

0,030

Dist

0,020

0,010

0,000
0

Distribuzione F per
gdlint=12 e gdlfra=2
Il rapporto F un rapporto fra due
varianze (sempre positive)
Il valore di F sempre positivo

Tabella della distribuzione F


In una tabella dei valori
della distribuzione F il
g
valore critico si determinal
d
in base ai gradi di libert
i
fra i campioni,quelli
n
allinterno dei campioni e etil
r
valore di alfa
n
o

Excel: inv.F(alfa;
gdlfra;gdlint)
Open Office:finv((alfa;
gdlfra;gdlint)

10
11

1
4,96
4,84

2
4,10
3,98

3
3,71
3,59

4
3,48
3,36

5
3,33
3,20

12
13
14
15
16

4,75
4,67
4,60
4,54
4,49

3,89
3,81
3,74
3,68
3,63

3,49
3,41
3,34
3,29
3,24

3,26
3,18
3,11
3,06
3,01

3,11
3,03
2,96
2,90
2,85

17
18
19
20

4,45
4,41
4,38
4,35

3,59
3,55
3,52
3,49

3,20
3,16
3,13
3,10

2,96
2,93
2,90
2,87

2,81
2,77
2,74
2,71

Valori critici di F per


alfa=0,05

La decisione
F=11,28
Fcrit(0,05,2,12)=3,88

Media

Trattamento
A (10 gradi)

Trattamento B
(20 gradi)

Trattamento C (30
gradi)

0
1
3
1
0
1

4
3
6
3
4
4

1
2
2
0
0
1

Si rifiuta lipotesi nulla


La temperatura
esercita un effetto
significativo sulla
capacit di
apprendimento

Lanalisi della varianza nella


letteratura scientifica
Le medie e le
deviazioni standard
sono presentate nella
tabella 1. Lanalisi
della varianza
dimostra una
differenza
significativa,
F(2,14)=11,28, p<0,05

Trattamento A
(10 gradi)

Media
Dev. St.

1,00
1,22

Trattamento B Trattamento C (30


(20 gradi)
gradi)

4,00
1,22

1,00
1,00

Esercitazione
Trattamento A Trattamento B Trattamento C

n
media
Dev.Q
Tot dev. q

5
1
45
325

5
2
35

H0: non vi alcuna differenza fra gli effetti dei tre


trattamenti
alfa=0,05

5
3
50

Calcolo delle deviazioni


quadratiche
Dev.qtot=325
Dev.qint=45+35+50=130
Dev.qfra=325-130=195

Analisi dei gradi di libert


Gdltot=N-1=15-1=14
Gdlint=4+4+4=12
Gdlfra=2

Calcolo della varianza e di F


Varianzaint=130/12=10,83
Varianzafra=195/2=97,50
F=97,50/10,83=9
FINV(0,05;2;12)=3,88
Si rifiuta lipotesi nulla

Condizioni di validit per


lANOVA ad un solo fattore
Osservazioni indipendenti
Distribuziuone normale della
popolazione
Varianza omogenea per ciascuno dei
campioni

Disegni a pi fattori
Nei limiti del possibile i ricercatori cercano
di studiare una sola variabile indipendente
In situazioni di vita reale il fenomeno
osservato il risultato dellinterazione fra
pi fattori
ad es. interazione tra fattori ambientali e fattori
genetici nel cancro

Per studiare questi fenomeni si utilizzano


disegni sperimentali fattoriali

Umidit e temperatura

Effetti congiunti di
temperatura e umidit sulla
capacit di apprendimento

Lanalisi della varianza


consente di valutare 3 diverse
ipotesi, che esistono:
differenze negli score dovute
a differenze di temperatura
differenze negli score dovute
a differenze di umidit
differenze negli score con
particolari combinazioni di
temperatura e umidit

Temperatura
Umidit 10 20 30
0,3 c1 c2 c3
0,7 c4 c5 c6

Gli effetti principali

Umidit
0,3
0,7
Totale

10

20

30

Totale

85
75
80

80
70
75

75
65
70

80
70

Effetto A: analisi
della varianza per il
fattore A
(temperatura)
Effetto B: analisi
della varianza per il
fattore B (umidit)

Interazioni
Effetti dovuti a particolari combinazioni dei due fattori
che non possono essere spiegati in termini degli
effetti principali
Umidit
0,3
0,7
Totale

10

20

30

Totale

85
75
80

80
70
75

75
65
70

80
70

Caso senza interazioni. Tutte le


osservazioni possono essere
spiegate in base agli effetti
principali

Umidit
0,3
0,7
Totale

10

20

30

Totale

80
80
80

80
70
75

80
60
70

80
70

Caso con interazioni. La


temperatura esercita il suo
effetto solo in presenza di
elevata umidit

Formalizzazione delle ipotesi


H0: tutti i valori osservati possono
essere spiegati in termini degli effetti
principali
H1: esiste almeno un valore che non
pu essere spiegato solo in termini
degli effetti principali

Logica della verifica dellipotesi


Analisi della varianza per effetto A
(temperatura)
Analisi della varianza per effetto B
(umidit)
Analisi della varianza per effetti non
spiegati da A&B (interazioni)

Procedura
Analisi varianza complessiva
Analisi varianza per fattori A & B
Identificazione varianza non spiegata
da A e B

Analisi varianza complessiva /1


Fattore A: umidit

B1

A1

Fattore B: temperatura
Calcolo delle
deviazioni quadratiche
dev.qtot=340

media
dev.q
A2

dev.qint=18+26+20+8+20
+28=120
dev.qfra=340-120=220

media
dev.q

B2

B3

5
9
3
3
9
8
3
13
3
8
6
3
6
8
3
4,75 9,25 4,25
18
26
20
0
0
0
2
0
3
0
0
7
0
5
5
3
0
5
0,5 1,25 3,75
8
20
28

Media

Analisi varianza complessiva / 2


Analisi dei gradi di libert
GDLtot=N-1=30-1=29
GDLint=4*6=24
GDLfra=29-24=5

Varianzaint=dev.qint/GDLint

=120/24
=5

Analisi varianza A
Dev.qtot=340

B1

A1

Dev.qint(A)=220
Dev.qfra(A)=120
GDLtot=29
GDLint(A)=28

media
dev.q
A2

GDLfra(A)=1
Varianzafra(A)=120/1
=120

media
dev.q

B2

B3

5
9
3
3
9
8
3
13
3
8
6
3
6
8
3
4,75 9,25 4,25
18
26
20
0
0
0
2
0
3
0
0
7
0
5
5
3
0
5
0,5 1,25 3,75
8
20
28

Media

Analisi varianza B
Dev.qtot=340

B1

A1

Dev.qint(B)=320
Dev.qfra(B)=20
GDLtot=29
GDLint(B)=27

media
dev.q
A2

GDLfra(B)=2
Varianzafra(B)=20/2
=10

media
dev.q

B2

B3

5
9
3
3
9
8
3
13
3
8
6
3
6
8
3
4,75 9,25 4,25
18
26
20
0
0
0
2
0
3
0
0
7
0
5
5
3
0
5
0,5 1,25 3,75
8
20
28

Media

Analisi interazione (AxB)


Dev.qAxB=Dev.qfra-Dev.qfra(A)-Dev.qfra(B)
=220-120-20
=80
GDLAxB=GDLfra-GDLfra(A)-GDLfra(B)
=5-1-2
=2
Varianzafra(AxB)=80/2
=40

Il rapporto F
FA=varianzafra(A)/varianzaint
=120/5=24
FB =varianzafra(B)/varianzaint
10/5=2

FAxB=40/5
=8

Decisione

Fattore A

FA=24

Fcrit(0,05;1;28)=4,20

Si rifiuta lipotesi nulla

Fattore B

FB=2

Fcrit(0,05;2;27)=3,35

Si accetta lipotesi nulla

AxB

FAxB=8

Fcrit(0,05;2;27)=3,35

Si rifiuta lipotesi nulla

Conclusioni
La temperatura ha un
effetto diretto sulla
capacit di
apprendimento
Lumidit non esercita
alcun effetto diretto
Leffetto dellumidit
dipende da
uninterazione con la
temperatura

Condizioni di validit per


lANOVA a due fattori
Osservazioni indipendenti
Distribuziuone normale della
popolazione
Varianza omogenea per ciascuno dei
campioni