Sei sulla pagina 1di 15

1

Lanalisi della varianza


(ANOVA)
Lanalisi della varianza (ANOVA) e' una tecnica
statistica che analizza il modo in cui il valore medio
di una variabile e' influenzato da classificazioni di
vario tipo dei dati.
Se esiste un solo tipo di classificazione si parla di
ANOVA ad una via;
se le classificazioni sono diverse si parla di ANOVA
a piu vie (a due, tre, quattro ... vie).
Il test non e' altro che una generalizzazione del t-
test di Student per dati non appaiati, adattato ad un
numero qualsiasi di gruppi.
Se i gruppi sono due, il test equivale al t di
Student e il valore di F equivale al quadrato del
valore di t.
2
1,2100 +1,10 4,05 7
0,0169 - 0,13 2,82 6
0,0400 - 0,20 2,75 5
0,1225 - 0,35 2,60 4
0,3025 - 0,55 3,50 3
0,6400 - 0,80 2,15 2
0,4225 - 0,65 2,30 1
(x
i
x)
2
x
i
x x
i
Soggetto
VARIANZA
La Varianzamisura lentitdella variabilito
dispersione dalla media delle misurazioni.
Essa data dal quadrato della deviazione
standard, ovvero lamedia aritmetica dei
quadrati delle distanze dei dati dalla media M
Varianza=s
2
= devianza / gradi di libert
VARIANZA
Rappresenta la media aritmetica dei
quadrati delle distanze dei dati dalla media
M.
Essa data dalla formula:
Varianza=
(x M)
2
N
L'analisi della varianza
L'analisi della varianza(ANOVA) un insieme
di tecniche statistichefacenti parte della statistica
inferenzialeche permettono di confrontare due o
pigruppi di dati confrontando la variabilit
interna a questi gruppi con la variabilittra i
gruppi.
L ipotesi nulla solitamente prevede che i dati di
tutti i gruppi abbiano la stessa origine, ovvero la
stessa distribuzione casuale, e che le differenze
osservate tra i gruppi siano dovute solo al caso.
3
L'analisi della varianza
L'ipotesi alla base dell'analisi della varianzache dati n
gruppi, sia possibile scomporre la varianzain due
componenti:
Varianza interna ai gruppi (anche detta Within)
Varianza tra i gruppi (Between).
La ragione che spinge a compiere tale distinzione la
convinzione, da parte del ricercatore, che determinati
fenomeni trovino spiegazione in caratteristiche proprie
del gruppo di appartenenza.
Il pinoto insieme di tecniche si basa sul confronto della
varianzae usa variabili di test distribuite come la
variabile casuale F di Snedecor.
Confronto fra due varianze:
la variabile casuale F
Se si vuole stabilire se vi
differenza di variabilit fra
due popolazioni da ciascuna
delle quali si estratto un
campione:
- si calcola la varianza di
ciascun campione
- quindi si confrontano le
varianzerispettive,
calcolando il rapporto tra la
maggiore e la minore delle
due
Le due varianzesono significativamente diverse, se tale
rapporto (detto F) supera i limiti indicati nella tabella
specifica
Il valore di F sempre, per definizione, maggiore di 1
Confronto fra due varianze:
la variabile casuale F
Rapporto varianze F
4
Rapporto varianze F
Varianza
Se si parte dal presupposto che da una
stessa popolazione sono estratti campioni
con uguale varianza (e ovviamente uguale
media, a meno di una differenza minima
conseguente allerrore di campionamento) ,
nel caso specifico si arriva a concludere che
le medie campionarie sono diverse tra di
loro significativamente.
Esempio
Sia calcolata la varianza dellabbassamento percentuale di
glicemia dopo somministrazione di dose standard di
insulina in conigli commerciali e di allevamento:
-conigli del commercio (13 animali) varianza=s
1
2
=112
- conigli di allevamento (26 animali) varianza=s
2
2
=63
Esempio
-conigli del commercio (13 animali) varianza=s
1
2
=112
- conigli di allevamento (26 animali) varianza=s
2
2
=63
Si divide la varianza pi grande per la pi piccola,
ottenendo il rapporto:
F =112 / 63 =1,78
5
Esempio
Si divide la varianza pi grande per la pi piccola,
ottenendo il rapporto:
F =112 / 63 =1,78
Si calcola il numero dei gradi di libert:
Il numero dei gradi di libertdella varianzapigrande
13-1 =12
Il numero dei gradi di libertdella varianzapipiccola
26-1 =25
Rapporto varianze F
Esempio
Il valore di F per 12 e 25 gradi di libert:
2,16 per il livello di significativit5%
2, 99 per il livello di significativit1%
Il valore di F osservato 1,76
Non superando neppure il livello corrispondente al limite
del 5%, NON significativo
I dati sono insufficienti per dichiarare che i conigli del
commercio mostrano una maggiore variabilit nella
risposta allinsulina rispetto ai conigli di allevamento.
CONFRONTARE DUE MEDIE:
IL TEST t DI STUDENT
Tutti i test statistici di significativit assumono
inizialmente la cosiddetta ipotesi zero(o ipotesi nulla).
Quando si effettua il confronto fra due o pi gruppi di
dati, l'ipotesi zero prevede sempre che non esista
alcuna differenza tra i gruppi riguardo al parametro
considerato.
In altre parole, secondo l'ipotesi zero i gruppi sono fra
loro uguali e le eventuali differenze osservate vanno
attribuite al solo caso.
6
t di STUDENT
IPOTESI ZERO: le differenze sono dovute al caso
Ovviamente l'ipotesi zero pu essere accettata o respinta
applicando un test statistico di significativit, il cui
risultato va confrontato con un valore critico tabulato in
apposite tabelle.
Se il risultato del test di significativit supera il valore
critico, allora la differenza fra i gruppi statisticamente
significativae l'ipotesi zero viene respinta.
In caso contrario l'ipotesi zero viene accettata.
t di STUDENT
Una circostanza comune quella in cui si sono
esaminati due campioni di soggetti, in ciascuno dei
quali stata misurata una variabile numerica (es.
l'altezza, il peso ecc.) di cui stata poi calcolata la
media.
Ci si chiede se la differenza fra le due medie sia
significativa, ossia se si possa affermare che la
differenza non sia dovuta al caso ma esista invece una
reale diversitra le medie delle due popolazioni da cui i
campioni stessi derivano.
t di STUDENT
La questione analoga a quella del test del
chi-quadrato.
Il chi-quadrato non va bene se occorre
confrontare due medie.
Occorre ricorrere ad un altro test: ad
esempio il test t (detto anche t di Student).
t di STUDENT
Confrontare due medie
Ipotesi 0: la differenza dovuta al caso
Accettare o rifiutare lipotesi 0?
Test t di Student
7
t di STUDENT
I calcoli da eseguire per effettuare il test t
sono complicati rispetto a quelli del chi-
quadrato, e perci non entreremo nei
dettagli. Solo a titolo di curiosit, ecco la
formula di calcolo del valore t:
t di STUDENT
s la deviazione standard media delle deviazioni standard dei
due campioni, cio la radice quadrata della varianza che si ottiene
sommando le devianze dei due campioni e dividendo per la somma
dei gradi di libert*.
*Essi esprimono il numero di dati effettivamente disponibili per
valutare la quantitd'informazionecontenuta nella statistica.
(Differenzatraleduemedie/ deviazionestandard media) x fattoredi dimensione
t di STUDENT
una volta trovato il valore t, esso va confrontato con
quelli tabulati al fine di stabilire se la differenza fra le due
medie non sia dovuta al caso.
Quando si dispone di n dati, bisogna usare la
distribuzione t-student relativa ad n-1 gradi di libert.
Tabella t di
Student
8
t di STUDENT
Ovviamente, oggi il test t si esegue al computer con
l'aiuto di apposito software.
Pi che il metodo di calcolo, importante conoscere
l'esistenza del test t ed il contesto in cui esso si applica.
Esempio
Si vuole stabilire leffetto di un preparato.
Si procede alle misurazioni su soggetti trattati e sui
controlli:
- soggetti trattati n
a
=4 m
a
=352
- soggetti trattati n
b
=5 m
b
=401
Controlli Casi
Esempio
- soggetti trattati n
a
=4 m
a
=352
-soggetti trattati n
b
=5 m
b
=401
Per stabilire se la differenza tra le due medie significativa
occorre conoscere la deviazione standard dei due
campioni epertanto i valori individuali da cui sono derivate
le medie.
A (soggetti trattati): 339, 405, 302, 362
somma=1408 media =352
B (soggetti trattati): 401, 340, 461, 442, 361
somma=2005 media =401
Esempio
A (soggetti trattati): 339, 405, 302, 362
somma=1408 media =352
B (soggetti trattati): 401, 340, 461, 442, 361
somma=2005 media =401
Devianza A =339
2
+405
2
+302
2
+362
2
- (1408
2
/4 =
5578
Devianza B =401
2
+340
2
+461
2
+442
2
+361
2
- (2005
2
/5
=10602
9
Esempio
Devianza A =339
2
+405
2
+302
2
+362
2
- (1408
2
/4 =
5578
Devianza B =401
2
+340
2
+461
2
+442
2
+361
2
- (2005
2
/5
=10602
Si calcola una varianza unica, s
2
, sommando le devianze
delle due serie e dividendo per la somma dei gradi di
libert:
s
2
=(5578 +10602) / (3 +4) =16180 / 7 =2311,43
Esempio
Si calcola una varianza unica, s
2
, sommando le devianze
delle due serie e dividendo per la somma dei gradi di
libert:
s
2
=(5578 +10602) / (3 +4) =16180 / 7 =2311,43
La radice quadrata di s
2
rappresenta la deviazione standard
s =48,1
Esempio
Si calcola poi il fattore di dimensione che dipende
esclusivamente dal numero di osservazioni nelle due serie:
n
a
n
b
/ (n
a
+n
b)
= (4 x 5) / (4 +5) = 1,491
Esempio
Infine si moltiplica il fattore di dimensione (1,491) per la
differenza tra le medie (401 - 352 =49) e si divide per la
deviazione standard (s =48,1) E SI OTTIENE t:
t =(differenza tra le due media / s ) x Fattore di dimensione =
( 49 x 1,491) / 48,1 =1,52
10
Esempio
t = 1,52
Il valore del t di Student cos ottenuto ha un numero di
gradi di libertpari al numero totale di osservazioni meno 2
(5 +4 -2 =7)
Per 7 gradi di libert i valori di t significativi ai due livelli
sono 2,37 e 3,50
- Il valore ottenuto inferiore ad ambedue e perci la
differenza NON significativa
- Sarebbe azzardato affermare che il preparato in esame ha
leffetto ipotizzato
Confronto tra due medie: dati appaiati
Quando i dati sono appaiati, cio si sono eseguite due
misure sullo stesso individuo, prima e dopo un certo
trattamento, e la stessa osservazione stata ripetuta
su altri individui, bene tenere opportunamente
conto dellappaiamento dei dati nel calcolare il t di
Student
Esempio
Sia somministrato un antipiretico a 6 pazienti e sia
misurata la temperatura al momento della
somministrazione e 3 ore dopo
0,5 38,2 38,7 F
0,7 38,2 38,9 E
0,9 36,7 37,6 D
1,6 38,6 40,2 C
0,7 38,4 39,1 B
1,1 37,2 38,3 A
Differenza tra
prima e dopo
T dopo T prima Paziente
Esempio
0,5 38,2 38,7 F
0,7 38,2 38,9 E
0,9 36,7 37,6 D
1,6 38,6 40,2 C
0,7 38,4 39,1 B
1,1 37,2 38,3 A
Differenza tra
prima e dopo
T dopo T prima Paziente
Tot = 5,5
Diff media = 0,92
11
Esempio
In questo esempio il valore t si calcola con:
T =(differenza media / s) x n
T =(0,92 / 0,393) x 6 =5,74
Dalla tabella dei valori t si ricava che, con 5 gradi di libert (n
osservazioni - 1), t deve essere superiore a 2,57 per essere
significativo al 5% e superiore a 4,03 per il livello dell1%
Nellesempio la differenza E significativaed i dati sono sufficienti
per concludere sullefficacia del preparato in esame
Confronto fra pi medie
Analisi della varianza
Lanalisi della varianza un metodo di analisi delle
differenze fra medie di due o pigruppi.
Il confronto tra le medie di 2 gruppi (metodo del t) non
altro che un caso particolare di analisi della varianza.
Confronto fra pi medie
Analisi della varianza
Per il paragone tra due medie indifferente usare il
metodo t o lanalisi della varianza; con i due metodi si
ottiene lo stesso risultato.
Quando i gruppi di cui interessa confrontare le medie sono
pi di due, sarebbe poco desiderabile eseguire tutti i
possibili confronti a due a due tra le diverse medie con il
metodo t.
In questultimo caso il metodo di elezione lanalisi della
varianza.
Confronto fra pi medie
Analisi della varianza
Lanalisi della varianzapermette di:
- analizzare esperimenti pi complessi, isolando gli effetti
di quelle cause di variabilit che la struttura
dellesperimento permette di riconoscere;
- di stimare correttamente lerrore sperimentale
riducendolo al minimo valore compatibile con il piano di
esperimento;
- di aumentare al massimo la sensibilit del piano di
esperimento;
12
Confronto fra pi medie
Analisi della varianza
Il procedimento dellanalisi della varianza consiste
nellanalizzare la devianza totale (che corrisponde alla
somma dei quadrati delle deviazioni dalla media generale)
in due o pi componenti, dei quali uno almeno costituisce
una stima dellerrore sperimentale, altri stimano le
differenze tra medie.
Confronto fra pi medie
Analisi della varianza
Nel caso pi semplice, la devianza totale viene scomposta
in due parti:
- la devianza tra le medie dei gruppi;
- una devianza fra le osservazioni singole che
costituiscono i gruppi.
Queste devianze divise per i rispettivi gradi di libert
danno origine a due varianze , dette rispettivamente:
- varianzatra gruppi;
- varianzaentro gruppi.
Confronto fra pi medie
Analisi della varianza
Se fra le medie dei gruppi non esistono differenze, le due
varianzefra gruppi ed entro gruppi devono risultare uguali,
entro i limiti di errore casuale.
Il confronto fra le due varianze si esegue calcolando il
rapporto F, tra la maggiore e la minore delle due.
Confronto fra pi medie
Analisi della varianza
Se la varianza tra gruppi la maggiore ed F risulta
maggiore dei limiti tabulari corrispondenti ai loro gradi di
libert, si ritiene accertata lesistenza di differenza
significativa fra le medie dei gruppi.
Se F significativo, ma la varianza entro gruppi
maggiore di quella fra gruppi, si devono sospettare
irregolarit di campionamento, che possono invalidare
lesperimento.
13
Esempio
29 7
38 6
36 25 5
40 32 42 4
43 17 27 3
28 25 30 2
31 22 52 1
gr gr gr N
Trattamento B Trattamento A Controlli Topi
Analisi della varianza: peso di tumori in topi trattati con
due agenti ed in topi di controllo
a) sommadei valori osservati (Sx)
Sx controlli=243 SxA=96 SxB=178
b) numeri di osservazioni per gruppo (n)
n controlli=7 nA=4 nB=5
c) medie di ogni gruppo (Sx/n)
mcontrolli=34,7 mA=24 mB=35,6
d) Quadrati delle somme in (a) (Sx
2
)
Sx
2
controlli=59049 Sx
2
A=9216 Sx
2
B=31648
e) Valori in (d) divisi per valori in (b) (Sx
2
/n)
Sx
2
/n controlli=8435,6 Sx
2
/nA=2304 Sx
2
/nB=6336,8
f) Sommadei quadrati dei valori in tabella
controlli=9007 A=2422 B=6490
Esempio
Esempio
Si calcola:
Lasommadei valori osservati
243 + 96 +178 =517
Il terminedi correzioneelevando al quadrato il valoreottenuto
precedentementeedividendolo per il n totaledi osservazioni
C=517
2
/ 16 =16705,6
Lasommadei valori in (e) dellatabella=17076,4
Quindi si sottraeaquestultimo valoreil terminedi correzioneC
17076,4 - 16705,6 =370,16
QUESTA E LA DEVIANZA TRA GRUPPI
Si calcolalasommadei quadrati dei valori dellatabella=17919
Si sottraeaquesto valorelasommadei valori in (e) dellatabella=842,6
QUESTA E LA DEVIANZA ENTRO GRUPPI
Esempio
Le due devianze, tra ed entro gruppi, si scrivono in una
tabella riassuntiva dellanalisi della varianza
64,82 13 842,6 Entro
gruppi
185,30 2 370,8 Tra
gruppi
Varianza Gradi di
libert
Devianza
Rapporto VarianzeF =185,3 / 64,82 =2,86
14
Esempio
Poich il rapporto F ottenuto (2,86) minore di quello
corrispondente a 2 e 13 gradi di libertnella tabella al
livello del 5%, le differenze non sono significative e
non vi sono in questo esperimento dati sufficienti per
concludere che uno o laltro dei due trattamenti sia
efficace.
ATTENZIONE!
Se si calcola la devianza totale, si ottiene un valore
identico alla somma delle devianze tra ed entro gruppi
ed i gradi di libertsono pari alla somma dei gradi di
libertdella varianzatra e entro gruppi.
Procedimento di inferenza
LANOVA si basa su un procedimento di inferenza
che confronta due stime indipendenti della
varianza della popolazione attraverso
lapplicazione del test F .
Posta la media della variabile dipendente e
indicate con
1
,
2
, ...,
k
le medie delle
popolazioni delle variabili dipendenti misurate nei
vari trattamenti, si pongono le due ipotesi:
Variabilit Between Vs WithinVsResidua
H
0
:
1
=
2
==
k
H
1
: almeno due medie
i
e
j
delle popolazioni dei
trattamenti sono fra loro diverse
Intuitivamente, la verifica di ipotesi si basa sul
seguente ragionamento: la variabilit totale della
variabile dipendente dovuta, da un lato, alla diversit
fra i punteggi ottenuti dai diversi gruppi di soggetti nei
diversi trattamenti (variabilit tra i gruppi: between)
e, dallaltro, alla variabilit dovuta alla variazione
delle risposte allinterno di ogni singolo gruppo
(variabilit entro i gruppi: within).
15
Differenze individuali
Errore casuale
VariabilitTotale
tra i gruppi
entro i gruppi
Trattamento
Differenzeindividuali
Errorecasuale
Varianza derrore
o varianza non spiegata
Quando fra le medie dei gruppi non vi sono differenze (i
trattamenti non producono differenze nella v.d., quindi
vera H
0
) la variabilittra i gruppi e la variabilitentro i
gruppi devono essere molto simili, perchcomprendono
ambedue soltanto la varianza derrore.
Quando H
0
falsa la variabilittra i gruppi sarmaggiore
di quella entro i gruppi.