Sei sulla pagina 1di 22

LE ASSUNZIONI DELL'ANOVA

Sono le assunzioni del test t, ma estese a tutti i gruppi: o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai gruppi campionati o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale

Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di misure estratte a caso dalla corrispondente popolazione

E' necessario verificare che queste assunzioni vengano soddisfatte

Fortunatamente per, l'ANOVA un'analisi piuttosto robusta a violazioni di queste assunzioni, soprattutto se i campioni hanno circa le stesse numerosit

COSA FARE QUANDO F E' SIGNIFICATIVO (P<) IN UNA ANOVA?


E' necessario verificare quali gruppi siano diversi da quali altri Confronti a coppie ma con specifiche accortezze per fare in modo che l'errore complessivo di primo tipo non superi il livello prestabilito (in genere 0.05) I confronti a coppie possono essere pianificati o non pianificati

Confronti pianificati: bisogna decidere prima dell'esperimento un numero limitato di


confronti a coppie a cui si particolarmente interessati

o Per esempio, nel caso dello studio sul jet lag, prima dell'esperimento si era soprattutto
interessati al confronto tra controlli e il gruppo sottoposto a luce al ginocchio o In questi casi, i pochi confronti a coppie da svolgere sono praticamente dei test t (la differenza sta nel fatto che si usa MSE al posto della varianza comune e i gradi di libert di MSE)

Confronti non pianificati: l'interesse non ricade su specifici confronti, ma si interessati a


svolgerli tutti [il numero totale di confronti a coppie pari a k(k-1)/2]

o Qui il problema dell'errore complessivo di primo tipo pi serio o Ci sono metodi, come quello di Tukey-Kramer, per calcolare se ogni confronto
significativo (senza incrementare l'errore complessivo di primo tipo) e per visualizzare i risultati

Esempio di visualizzazione dei risultati nel caso di confronti non pianificati Ci sono 5 gruppi (per esempio, 5 localit diverse), e in ogni localit viene misurato un indicatore di biodiversit (la variabile alla quale si interessati) in 20 campioni casuali (per esempio, 20 aree di 1 metro quadro, 20 prelievi dacqua, oppure 20 volumi uguali di sedimento) o In totale, sono disponibili quindi 20 misurazioni della variabile La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire quale gruppo diverso da quale altro. Lo stesso si pu rappresentate con linee al di sotto un istogramma

I gruppi con la almeno un lettera in comune non hanno una biodiversit media significativamente diversa

ACCENNI DI ANOVA MULTIFATTORIALE


La tecnica dellANOVA pu essere estesa allanalisi di un numero maggiore di fattori La variabile analizzata sempre una sola (si tratta comunque di una ANOVA univariata), ma il numero di fattori che distinguono i diversi campioni maggiore di 1 Si parla in questi casi di ANOVA univariata multifattoriale Esempio Partiamo da un esempio di ANOVA univariata unifattoriale o Si vuole studiare se diversi terreni di coltura determinano una diversa produzione di una proteina da parte di colture cellulari La tipologia del terreno quindi il primo fattore, che chiamiamo fattore A, che pu assumere per esempio quattro livelli (1, 2, 3 e 4), corrispondenti a quattro diversi terreni Per ogni terreno vengono analizzate per esempio 12 colture cellulari, e per ognuna di queste viene misurata la quantit di proteina prodotta (la variabile analizzata) alla fine dellesperimento o Fino a qui, questo un classico esempio di ANOVA con 1 fattore (ANOVA unifattoriale), 4 gruppi, e 48 osservazioni in tutto della variabile

Supponiamo ora di voler considerare anche un secondo fattore che riteniamo abbia una certa influenza sulla produzione della proteina analizzata, per esempio il fattore temperatura o A questo punto, ciascuno dei gruppi costituito da 12 colture viene suddiviso in tre gruppi di 4 colture, ognuno dei quali verr lasciato crescere a una temperatura diversa Per esempio, supponiamo che i tre raggruppamenti del secondo fattore siano temperatura bassa, temperatura media, e temperatura alta

Questo un esempio di ANOVA con due fattori, e possiamo pensare ai dati di questa analisi come ad un tabella dove o le righe identificano il primo fattore (Fattore A, per esempio il terreno di coltura) il fattore A ha 4 livelli o le colonne identificano il secondo fattore (Fattore B, per esempio la temperatura) il fattore B ha 3 livelli In questa tabella 4x3, ogni casella rappresenta un singolo gruppo di 4 osservazioni. Ognuno dei 12 gruppi ha subito un trattamento diverso (casella in alto a sinistra: terreno 1 + temperatura bassa; casella in alto in centro: terreno 1 + temperatura media; casella in alto a destra: terreno 1 + temperatura alta; casella nella seconda linea a sinistra: terreno 2 + temperatura bassa; ................; casella in basso a destra: terreno 4 + temperatura alta)

Fattore B (temperatura) 1 1 y111 y112 y113 y114 y211 y212 y213 y214 y311 y312 y313 y314 y411 y412 y413 y414 2 y121 y122 y123 y124 y221 y222 y223 y224 y321 y322 y323 y324 y421 y422 y423 y424 3 y131 y132 y133 y134 y231 y232 y233 y234 y331 y332 y333 y334 y431 y432 y433 y434

2 Fattore A (terreno di cultura) 3

[ogni valore deve necessariamente avere tre indici: il primo indica la riga, il secondo la colonna, il terzo la singola osservazione] Le osservazioni totali sono 4x3x4= 48. Per ciascuno dei 12 gruppi posso calcolare una media

Posso sintetizzare le 12 medie nella tabella

Fattore B (temperatura) 1 2 3 1 Fattore A (terreno di coltura) 2 3 4

y 11 y 21 y 31 y 41

y 12 y 22 y 32 y 42

y 13 y 23 y 33 y 43

[ogni media deve necessariamente avere due indici: il primo indica la riga e il secondo la colonna]

L'ANOVA a due fattori ci permette di capire: o se esiste un effetto principale del tipo di terreno di coltura sulla produzione proteica o se esiste un effetto principale della temperatura sulla produzione proteica o se esiste uninterazione tra i due fattori, ovvero se gli effetti dei due fattori non sono indipendenti (ce interazione) oppure sono indipendenti (non ce interazione)

L'ANOVA a due fattori porter quindi al calcolo di tre statistiche F, ognuna delle quali utile a testare un'ipotesi nulla diversa: sul fattore A, sul fattore B, e sull'interazione

Le tre ipotesi nulle che vengono testate nellANOVA a due fattori Le prime due ipotesi nulle sono: o Prima ipotesi nulla: le 4 medie della variabile in 4 popolazioni con 4 terreni diversi (senza considerare la temperatura, e quindi mettendo assieme, per ogni riga, le tre colonne) sono uguali o Seconda ipotesi nulla: le 3 medie della variabile in 3 popolazioni caratterizzate da 3 temperature diverse (senza considerare il tipo di terreno, e quindi mettendo assieme, per ogni colonna, le quattro righe) sono uguali Ma l'ANOVA multifattoriale permette di capire e testare statisticamente una cosa molto importante: l'interazione tra fattori o La terza ipotesi nulla che viene testata nellANOVA a due fattori quella di assenza di interazione o Si ha interazione tra i fattori quando leffetto di un fattore sulla variabile dipende dagli altri fattori; molto spesso in biologia i fattori interagiscono nel determinare una risposta o Se per esempio la temperatura alta favorisce la crescita delle colture nel terreno A, ma la sfavorisce (o non la favorisce) nelle colture con terreno B, significa che c'e' interazione tra i fattori: l'effetto di un fattore non indipendente da quale gruppo viene considerato per l'altro fattore

Esempio numerico di ANOVA a due fattori senza interazione Supponiamo che la tabelle delle medie per ciascuno dei 12 gruppi sia la seguente:

Fattore A (terreno di coltura)

1 2 3 4

Fattore B (temperatura) 1 2 3 5.2 6.5 8.3 5.8 6.8 8.6 7 8.5 10.2 11.5 14.1 16.8

Visualizziamo graficamente queste medie in un sistema di assi cartesiani dove i valori che assumono le medie sono riportati, logicamente, sullasse delle Y

Attenzione! Le considerazioni che seguono sono puramente basate sullosservazione e la descrizione delle medie. Solo dopo il calcolo dei valori di F, dellidentificazione di valori critici in tabella, e della definizione delle regioni di accettazione/rifiuto o del P-value, queste considerazioni assumerebbero un valore statistico inferenziale

Nel grafico che segue, lasse delle X identifica un fattore, il fattore A Riportiamo inizialmente le medie per il livello 1 del fattore B, ossia le diverse medie osservate al livello 1 del fattore temperatura (bassa temperatura) per i 4 tipi di terreno di coltura
1 4 1 2 1 0 8 6 4 2 0 1 2 3 4

Fattore A

Questo grafico indica che a basse temperature la produzione proteica tende ad aumentare passando dal terreno 1 al terreno 4 Cosa succede a temperature medie? E a temperature alte? E come possiamo rappresentare graficamente anche le medie a queste temperature? o Utilizziamo un simbolo diverso per ogni livello del fattore B

18 16 14 12 10 8 6 4 2 0

Valori medi di prod. proteica

Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta)

Fattore A

Cosa indica questo grafico delle medie? 1. la produzione proteica media aumenta passando dal terreno 1 al terreno 4 in maniera molto simile a tutte e tre le temperature analizzate (le tre spezzate hanno andamenti simili) 2. la produzione proteica aumenta passando dalla temperatura bassa a quella alta in maniera molto simile con tutti e 4 i terreni di coltura considerati (i tre simboli sono a distanze simili e nello stesso ordine in tutti e 4 i terreni)

Il grafico quindi suggerisce anche unaltra cosa molto importante: o la produzione proteica varia tra terreni diversi e a temperature diverse ma il modo in cui varia la produzione proteica tra terreni non dipende dalla temperatura; questo equivale anche a dire che il modo in cui varia la produzione proteica con la temperatura non dipende dal terreno Questo un esempio tipico di ANOVA a due fattori in cui i fattori hanno un effetto principale ma non interagiscono tra loro: non esiste interazione tre i due fattori Nella rappresentazione grafica delle medie, lassenza di interazione si traduce con una serie di spezzate parallele o quasi parallele

Lassenza di interazione porta anche a poter esprimere i risultati ottenuti in maniera semplice o Nel nostro caso, la conclusione potrebbe essere espressa (per ora, ripetiamo, solo in forma descrittiva visto che non abbiamo fatto nessuna analisi statistica inferenziale) come: La produzione proteica aumenta passando dal terreno 1 al terreno 4, e anche allaumentare della temperatura Se molte delle medie calcolate nei 12 gruppi avessero errori standard molto alti, evidente che dovrei essere molto prudente nelle conclusioni basate solo sullanalisi del grafico delle medie.

Altro esempio di ANOVA a due fattori senza interazione

10 9 8 7 6 5 4 3 2 1 0

Valori medi di prod. proteica

Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta)

Fattore A

Le spezzate sono circa parallele (quindi, assenza di interazione), ma in questo caso solo il fattore B sembra avere un effetto principale I risultati potrebbero essere espressi semplicemente come o la produzione proteica costante con i diversi terreni, ma aumenta allaumentare della temperatura

Esempio di ANOVA a due fattori con interazione forte Nella rappresentazione grafica delle medie, la presenza di interazione porta ad avere spezzate che non sono parallele, o addirittura si intersecano
Valori medi di prod. proteica 18 16 14 12 10 8 6 4 2 0 1 2 3 4
Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta)

Fattore A

E evidente cosa si intenda per interazione in questo caso o Leffetto sulla produzione proteica dei diversi terreni diverso a temperature diverse Ad alte temperature i diversi terreni non sembrano avere un grosso effetto A basse temperature sembra invece che i terreni 3 e 4 siano pi produttivi A temperature intermedie sembra che ci sia un decremento nella produzione proteica passando dal terreno 1 al terreno 4

Nellesempio precedente, i fattori hanno una forte interazione: leffetto di un fattore sulla variabile analizzata sembra dipendere dallaltro fattore Il fatto che ci sia interazione pu rendere meno chiaro un risultato nel quale viene trovata lassenza di effetti principali (quelli dovuti ad ogni fattore senza considerare laltro); si vedano le figure alla fine di questo file Anche le conclusioni che possiamo trarre richiedono maggiore attenzione in presenza di interazione: non infatti possibile dire come nei casi precedenti in maniera semplice qual leffetto di un fattore, visto che tale effetto pu non essere vero per tutti i livelli dellaltro fattore Nel grafico alla pagina precedente, se le impressioni fossero confermate dallanalisi statistica, potremmo dire qualcosa del genere: i terreni 3 e 4 sono pi produttivi, e quindi da preferire, solamente alle basse temperature, mentre gli stessi terreni sono i meno produttivi a temperature intermedie; inoltre, avendo a disposizione solo il terreno 1 o il terreno 2, le alte temperature sembrano le pi efficaci In altre parole, i risultati sono molto pi complessi da capire e anche da descrivere in presenza di interazione

Esempio di ANOVA a due fattori con interazione debole Attenzione, l'interazione pu esistere anche in forma pi sottile e meno evidente

Valori medi di prod. proteica

35
Temperatura 1 (bassa)

30 25 20 15 10 5 0 1

Temperatura 2 (media) Temperatura 3(alta)

Fattore A

In questo caso, i due effetti principali (dei due fattori) sono evidenti (produzione proteica aumenta passando dal terreno 1 al 4, e con la temperatura), ma c' comunque un certo grado di interazione

ANOVA a due fattori porta al calcolo di tre statistiche F Fino ad ora abbiamo visto come le medie per ciascuna combinazione possono essere utilizzate graficamente per capire qualcosa sulleffetto dei fattori e sulla loro interazione o Questa era per solo statistica descrittiva! Come gi accennato, L'ANOVA a due vie viene svolta attraverso il calcolo di tre statistiche F: o FA-calc : serve per testare l'ipotesi nulla che il fattore A (per esempio, terreno di coltura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FB-calc : serve per testare l'ipotesi nulla che il fattore B (per esempio, la temperatura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FAB-calc : serve per testare l'ipotesi nulla che i fattori A e B non interagiscano (ovvero, l'ipotesi nulla di assenza di interazione, o, nella rappresentazione grafica, lipotesi nulla che le spezzate siano parallele).

Ognuna delle tre statistiche andr confrontata con il suo corrispondente valore critico (che dipender dai gradi libert di ciascuna statistica) ATTENZIONE! Se c'e' interazione, FA-calc e/o FB-calc possono risultare non significativi (P<) anche se i fattori determinano un effetto (non omogeneo) sulla variabile analizzata

Vediamo alcuni risultati ipotetici che si potrebbero ottenere studiando come varia la velocit ad imparare un certo tipo di esercizio (variabile) in un gruppo di scoiattoli classificati per l'ambiente da cui provengono (fattore A, foresta o parco pubblico) e per la specie a cui appartengono (fattore B, Sciurus carolinensis o Sciurus vulgaris). Assumiamo che ci siano solo due ambienti e due specie (4 gruppi) Nelle figure che seguono, quindi, il fattore A Environment, il fattore B Species (colore rosso e rombo per Sciurus carolinensis e colore blu e pallino per Sciurus vulgaris), e la variabile velocit ad imparare un certo esercizio indicata come Trait Measure Dai grafici possiamo ipotizzare che, se il numero di individui in ciascun gruppo non troppo basso, i valori di F significativi risulterebbero:

A) Nessuno B) FB C) FA D) FA-B (nessun effetto principale) E) FB e FA-B F) FA e FA-B G) FA, FB e FA-B

ESEMPIO: limpatto degli organismi erbivori e dellaltezza nellarea intertidale sulla copertura algale

Per ogni gruppo, sono stati analizzati 16 plot [64 osservazioni in tutto, 63 gdl totali, 15x4=60 gdl dellMSE, qui indicato come Residuo]