Test Differenza Medie e ANOVA

Test delle ipotesi sulla differenza tra medie statistiche
Con tale test si confrontano i parametri di due popolazioni. È infatti possibile fare il test delle ipotesi
anche sulla differenza di medie statistiche tra due popolazioni diverse considerando:
𝐻# : µ' − µ) = ∆#
!
𝐻' : µ' − µ) ≠ ∆#
L’ipotesi 𝐻# può essere interpretata in questo modo: si considerino due linee di produzione, di cui
una è più recente dell’altra. La linea nuova produce dei prodotti con una caratteristica di qualità
superiore di una quantità indicata con ∆# .
Per condurre il test si considera un campione di 𝑛' dati di una popolazione e un campione di 𝑛) dati
di un’altra popolazione e si determina una statistica, 𝑧# , che combina la differenza tra le stime delle
medie e le varianze, assunte note, delle rispettive popolazioni.
(0
222123 202242)3∆6
𝑧# = 84 1 84 4
∿𝑁(0,1)
7 :
91 94
A4 A4 4
Il termine 222 𝑥) indica la differenza tra le stime delle medie e il termine 7 B 1 +
𝑥' − 222 B4
la deviazione
1
standard della variabile aleatoria 222

𝑥' − 222.
𝑥)
Si fissa un livello di significatività α e indipendentemente dalla regione in cui ‘cade’ 𝑧# , ovvero la
regione di accettazione o di rifiuto, si può dedurre che:
A4 A4 4 A4 A4 4
(222 222) ) − 𝑧D 7 B 1 +
𝑥' − 𝑥 < µ' − µ) < (222 222) ) + 𝑧D 7 B 1 +
𝑥' − 𝑥 (7)
4 1 B4 4 1 B4
con livello di confidenza pari a (1-α)%.

Se non si conosce il valore della varianza della variabile aleatoria 222 𝑥) si procede distinguendo
𝑥' − 222
due casi: se la varianza delle due popolazioni può ritenersi identica, σ)' = σ) ) , si elaborano i
campioni di cardinalità 𝑛' e 𝑛) per stimare 𝑆' ) 𝑒 𝑆) ) , che sono considerate stime della stessa
varianza e combinate tramite il cosiddetto pooled estimator:
(B13')J1 4 :(B43')J4 4
𝑆I ) = B1 :B43)
= 𝑤𝑆' ) + (1 − 𝑤)𝑆) ) (8)
dove il termine 𝑤𝑆1 2 + (1 − 𝑤)𝑆2 2 è la media pesata delle stime della varianza.
La statistica da considerare per condurre il test, 𝑡# , ha una distribuzione t di student:

(0
222123 0
22242)3∆6
𝑡# = 1 1
~𝑡B1:B4 3) (9)
JN 7 :
91 94
dove 𝑛' + 𝑛) − 2 sono i gradi di libertà della variabile aleatoria. La differenza delle medie,
indipendentemente dall’accettazione o del rifiuto dell’ipotesi nulla, è compresa in un certo
intervallo con un livello di confidenza pari a (1-α)%, ovvero:
' ' ' '

(222 𝑥) ) − 𝑡D,B1 :B4 3) 𝑆I 7B + B < µ' − µ) < (222
𝑥' − 222 𝑥) ) + 𝑡D,B1:B4 3) 𝑆I 7B + B
𝑥' − 222 (10)
4 1 4 4 1 4
Se σ)' 𝑒 σ) ) sono diverse e incognite, il test statistico si conduce considerando:

(0
222123 202242)3∆6
𝑡# = ~ 𝑡R
4 4
P Q1 : Q4
91 94
che è una variabile aleatoria distribuita t di Student con numero di gradi di libertà 𝜈:
4
Q 4 Q 4
T 91 : 94 U
𝜈= 1
Q 4 Q4 4
4
−2 (12)
T 1U T U
91 9
: 4
91 V1 94 V1
determinato con la formula di Welch-Satterthwaite.
Test delle ipotesi sul rapporto tra varianze

Si consideri una coppia di popolazioni con varianze σ)' e σ) ) e il test:
𝐻# : σ)' = σ) )
!
𝐻' : σ) ' ≠ σ) )
Se si è raccolto un campione di dati relativi alla prima popolazione con 𝑛' osservazioni e un campione
di dati relativi alla seconda popolazione con 𝑛) osservazioni è possibile stimare le varianze 𝑆' ) e 𝑆) ) .
Si può dunque considerare una statistica 𝐹# :
J 4
𝐹# = J1 4 ∿𝐹B13',B43' (13)
4
distribuita come una varabile aleatoria di Fisher con 𝑛' − 1 gradi di libertà al numeratore e 𝑛) − 1
al denominatore. Infatti, se si suppone che 𝐻# sia vera per cui σ)' = σ) ) = σ) , si ha:
(91 X1)Q1 4
J1 4 84 (91 X1)
J4 4
= (94 X1)Q4 4
∿ 𝐹B13',B4 3' (14)
84 (94 X1)
(B1 3')J1 4 (B4 3')J4 4

in cui A4
∿𝜒 ) B1 3' e A4
∿ 𝜒 ) B4 3' .
Figura 4: Distribuzione F di Fisher

Fissato il livello di significatività del test, α, si individuano le ascisse 𝐹'3D,B 3',B 3' e
4 1 4
𝐹D,B1 3',B43', in modo tale che l’area sottesa a esse sia pari ad k). Se si verificano le condizioni per
4
cui si ha 𝐹'3D,B1 3',B4 3' < 𝐹# < 𝐹D,B1 3',B4 3' si accetta l’ipotesi nulla. Se invece la statistica rientra
4 4
nella regione di rifiuto si rigetta l’ipotesi nulla e ritiene che la variabilità delle due popolazioni,
corrispondenti a due processi distinti, è diversa in modo significativo statisticamente. Nella
produzione di grossi volumi in serie, la variabilità è sinonimo di scarsa qualità; quindi il confronto tra
le varianze è importante, perché permette di stabilire, in modo diretto, quale dei due processi è più
performante.
Analisi della varianza (ANOVA)

L’analisi della varianza è uno strumento di indagine statistica basata sul test di Fisher. Tale
strumento è utile nel confronto di dati provenienti da più popolazioni.
Per esempio in un processo di produzione di buste ecologiche si utilizza una polpa a base di cellulosa
in cui la percentuale di cellulosa può essere pari al 5%, 10%, 15% e 20%. Si vuole capire se le buste
fatte con la polpa contenente il 20% di cellulosa sono più o meno resistenti rispetto alle altre
ottenute con diverso trattamento, ovvero si vuole capire se la percentuale di cellulosa ha effetto su
una caratteristica di qualità importante, che è la resistenza al carico.
A tal fine si collezionano dati sperimentali ottenuti con prove di carico in una tabella dove l’indice di
riga, i, individua il trattamento e l’indice di colonna, j, le repliche ovvero il numero di prove che sono
state effettuate su prodotti relativi ad uno specifico trattamento.
Per elaborare i dati si definisce:

' ' '
𝑦m. = ∑Bpq' 𝑦mp 𝑦2m. = B 𝑦m 𝑦.. = ∑rmq' ∑Bpq' 𝑦mp 𝑦2.. = s 𝑦.. = rB 𝑦..
Le basi teoriche dell’analisi della varianza sono racchiuse nell’identità che esprime la somma degli
scarti quadratici delle osservazioni rispetto alla grande media, come somma di due termini di cui il
promo considera gli scarti quadratici delle medie dei singoli trattamenti rispetto alla grande media,
il secondo gli scarti quadratici delle osservazioni rispetto alle medie dei singoli trattamenti:
) )
∑rmq' ∑Bpq't𝑦mp − 𝑦2.. u = 𝑛 ∑rmq'(𝑦2m. − 𝑦2.. )) + ∑rmq' ∑Bpq't𝑦mp − 𝑦2. u (15)
Tale identità può facilmente essere dimostrata considerando che:

) ) )
t𝑦mp − 𝑦2.. u = vt𝑦mp − 𝑦2m. u + (𝑦2m. − 𝑦2.. )u = (𝑦2m. − 𝑦2.. )) + t𝑦mp − 𝑦2m. u + 2(𝑦2m. − 𝑦2.. )t𝑦mp − 𝑦2m. u
pertanto
) )
∑rmq' ∑Bpq't𝑦mp − 𝑦2.. u = ∑rmq' ∑Bpq'(𝑦2m. − 𝑦2.. )) + ∑rmq' ∑Bpq't𝑦mp − 𝑦2m. u + 2 ∑rmq' ∑Bpq'(𝑦2m. − 𝑦2.. )t𝑦mp − 𝑦2m. u =
)
= 𝑛 ∑rmq'(𝑦2m. − 𝑦2.. )) + ∑rmq' ∑Bpq't𝑦mp − 𝑦2m. u + 2 ∑rmq'(𝑦2m. − 𝑦2.. ) ∑Bpq't𝑦mp − 𝑦2m. u
tuttavia il terzo termine è nullo perché:

wx.
∑Bpq't𝑦mp − 𝑦2m. u = 𝑦m. − 𝑛𝑦2m. = v𝑦m. − 𝑛 y=0
B
L’identità è spesso espressa in forma sintetica come:

SS { = 𝑆𝑆{|}~{•}s{ + 𝑆𝑆}||€|
In cui SS { si legge total sum of squares, 𝑆𝑆{|}~{•}s{ sum of squares for treatment, e 𝑆𝑆}||€| error
sum of squares.
In aggiunta, si considerano anche i seguenti parametri:
‚ JJ JJ‚ƒ„…‚†„‡‚ JJ„ƒƒˆƒ
𝑀𝑆{ = rB3' 𝑀𝑆{|}~{•}s{ = r3'
𝑀𝑆} = r(B3')
Di cui Il primo rappresenta una stima della varianza dei dati presenti in tabella con an-1 gradi di
libertà, il secondo, una stima della varianza con a-1 gradi di libertà solo nel caso in cui i trattamenti
non producono effetti statisticamente significativi e il terzo una stima della varianza con a(n-1) gradi
di libertà. SI osservi che deve essere soddisfatta l’equazione per i gradi di libertà che caratterizzano
le stime appena scritte:
𝑎𝑛 − 1 = 𝑎 − 1 + 𝑎(𝑛 − 1)
E’ importante ribadire che il termine 𝑀𝑆{|}~{•}s{ può ritenersi uno stimatore della varianza della
caratteristica di qualità osservata se i trattamenti non hanno effetto. Se invece si ha un effetto 𝜏m
statisticamente rilevante per il trattamento i-mo, allora il valore atteso per 𝑆𝑆{|}~{•}s{ è:
𝐸 [𝑆𝑆{|}~{•}s{J ] = (𝑎 − 1)𝜎 ) + 𝑛 ∑rmq' 𝜏 ) m (20)
Infatti le osservazioni 𝑦mp sono disperse intorno ad una media statistica µ se i trattamenti non hanno
effetto, mentre se ogni trattamento produce un effetto 𝜏m , per descrivere le osservazioni, occorre
considerare il modello:
𝑦mp = µ + 𝜏m + ɛmp (21)
L’analisi della varianza consiste in un test delle ipotesi che considera come ipotesi nulla l’ipotesi che
i trattamenti sono tutti ininfluenti: in questo caso 𝑀𝑆} ed 𝑀𝑆{|}~{•}s{ sono stime di varianze che
appartengono alla stessa popolazione. Andando ad effettuare il test di Fischer sul rapporto:
•J‚ƒ„…‚†„‡‚
•J„
∿𝐹r3',r(B3') (22)
si può decidere su base statistica in merito all’effetto dei singoli trattamenti.

Test Differenza Medie e ANOVA

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Test Differenza Medie e ANOVA

Caricato da

Copyright:

Formati disponibili

Test delle ipotesi sulla differenza tra medie statistiche

standard della variabile aleatoria 222

con livello di confidenza pari a (1-α)%.

La statistica da considerare per condurre il test, 𝑡# , ha una distribuzione t di student:

' ' ' '

Se σ)' 𝑒 σ) ) sono diverse e incognite, il test statistico si conduce considerando:

determinato con la formula di Welch-Satterthwaite.

Test delle ipotesi sul rapporto tra varianze

(B1 3')J1 4 (B4 3')J4 4

Figura 4: Distribuzione F di Fisher

Analisi della varianza (ANOVA)

Per elaborare i dati si definisce:

Tale identità può facilmente essere dimostrata considerando che:

tuttavia il terzo termine è nullo perché:

L’identità è spesso espressa in forma sintetica come:

si può decidere su base statistica in merito all’effetto dei singoli trattamenti.

Potrebbero piacerti anche