Sei sulla pagina 1di 218

PRONTUARIO DI STATISTICA

STATISTICA MODERNA MISURE DI DISPERSIONE MISURE DI TENDENZA CENTRALE CALCOLO DELLE PROBABILITA TEST DI IPOTESI ANALISI DELLA VARIANZA REGRESSIONE LINEARE SEMPLICE METODI NON PARAMETRICI PER 1 O 2 CAMPIONI

STATISTICA MODERNA contenuti: - raccolta dei dati - elaborazione numerica delle informazioni - presentazione dei risultati finalit: - agevolare l'analisi e i processi decisionali - trarre conclusioni sullintera popolazione, anche quando si conoscono solamente i dati di uno o pi campioni componenti:
STATISTICA DESCRITTIVA

insieme dei metodi che riguardano raccolta, presentazione e sintesi di un insieme di dati per descriverne le caratteristiche essenziali
STATISTICA INFERENZIALE

insieme dei metodi con cui si possono elaborare i dati dei campioni per dedurne omogeneit o differenze nelle caratteristiche analizzate
Supponiamo di voler conoscere la velocit d'accrescimento somatico di una determinata specie animale o vegetale; ovvio che non possibile prendere tutti gli individui esistenti di quella specie, la POPOLAZIONE od UNIVERSO , ma solamente alcuni di essi, un CAMPIONE . Quando poi si trattasse di misurare rapporti tra organi interni di una specie animale, ovvio che non si pu pretendere di dissezionare tutti gli individui della specie. Tuttavia le conclusioni devono non essere limitate ai pochi casi del campione utilizzato, ma estese a tutta la popolazione, per rivestire una effettiva importanza generale e contribuire alla costruzione di teorie scientifiche universalmente valide. L'esigenza di metodi di statistica inferenziale deriva anche dalla necessit di ricorrere al CAMPIONAMENTO (*), affinch i dati analizzati in un numero relativamente ridotto di casi rappresentino in modo corretto le caratteristiche di tutta la popolazione. La teoria della probabilit permette poi di verificare la VEROSIMIGLIANZA che i risultati del campione non si discostino dagli eventuali risultati che si sarebbero raggiunti analizzando tutta la popolazione o l'universo dei dati.
(*) Disegno sperimentale e campionamento sono le due fasi preliminari indispensabili ad una corretta impostazione degli esperimenti e della raccolta dei dati. Tuttavia la loro presentazione didattica richiede concetti complessi e metodologie sofisticate, che la limitata preparazione specifica delle persone non ancora esperte impone di affrontare in una fase successiva, allorch saranno pi familiari terminologia statistica, concetti e metodi fondamentali dell'inferenza.

(2000) 01-1

STATISTICA DESCRITTIVA PER DISTRIBUZIONI SEMPLICI

La conduzione dellindagine (o ESPERIMENTO) un percorso di ricerca scientifica articolabile in quattro fasi: 1 - disegno sperimentale osservazioni in natura e ripetizioni in laboratorio non raccolte ed attuate a caso, ma scelte e programmate in funzione della ricerca e delle ipotesi esplicative chiarire a priori la formulazione dell'IPOTESI ESPLICATIVA (alternativa all'IPOTESI NULLA) Le eventuali differenze riscontrate dovranno essere imputate a
FATTORI CAUSALI SPECIFICI ?

o solamente a
FATTORI CASUALI IGNOTI ?

attribuibili alla naturale variabilit di misure e materiale utilizzato 2 - campionamento - raccogliere i dati in funzione dello scopo della ricerca - rispettare le caratteristiche della popolazione Numero limitato di dati > conclusioni generali > tutta la popolazione (UNIVERSO) 3 - descrizione dei dati raccolti per verificare l'adeguatezza di: - disegno sperimentale - campionamento - analisi condotte - risultati conseguiti 4 - utilizzo dei tests (programmati nel disegno sperimentale e in funzione dei quali stato effettuato il campionamento) processo logico-matematico che, mediante il calcolo di probabilit, porta alla conclusione di non poter respingere oppure di dover respingere l'ipotesi nulla

(2000) 01-2

Soltanto con una corretta applicazione del campionamento e dei test di confronto statistico possibile rispondere alla DOMANDA INFERENZIALE di verifica dell'ipotesi nulla:
LE DIFFERENZE FRA LE OSSERVAZIONI EMPIRICHE SONO DOVUTE A FATTORI PURAMENTE CASUALI

? quale la probabilit che, fra tutte le alternative possibili,si presenti proprio la situazione descritta dai dati raccolti ?
- probabilit alta (convenzionalmente => 5%) > fattori casuali - probabilit bassa (< 5%) > fattori non casuali cio rientranti tra i criteri con cui i dati sono stati raggruppati

Analisi e conclusioni sono rese complesse fondamentalmente da tre aspetti: errori nelle misurazioni generati da strumenti e da differenti abilit degli sprimentatori i dati utilizzati in una ricerca non sono mai identici a quelli rilevati nelle altre possono incidere in modo differente sul fenomeno indagato (es.: tempo, luogo, )

utilizzo di campioni

fattori contingenti di disturbo

(2000) 01-3

TIPI DI DATI - SCALE DI MISURA Ai due tipi fondamentali di variabili casuali sono associati due TIPI DI DATI: - QUALITATIVI - QUANTITATIVI generati da risposte categoriali generati da risposte numeriche e distinti in: = DISCRETI derivano da un conteggio = CONTINUI derivano da una misurazione

A propriet formali differenti dei dati (che di conseguenza consentono operazioni different) sono associati quattro TIPI DI SCALE DI MISURA:

Scala NOMINALE (o classificatoria) - livello pi basso di misurazione - utilizzata quando i dati possono essere raggruppati in categorie, eventualmente identificati con simboli - gli individui attribuiti a classi diverse sono tra loro differenti; quelli della stessa classe sono tra loro equivalenti rispetto alla propriet utilizzata nella classificazione - l'attribuzione di numeri per identificare le varie categorie nominali (es.: i giocatori di squadre) non autorizza ad elaborare quei numeri come tali - quesiti statistici: frequenze degli individui per categoria, per confronti tra loro o rispetto a valori attesi Scala ORDINALE (o per ranghi) - contiene una quantit di informazione superiore - alla propriet di equivalenza tra gli individui della stessa classe si aggiunge quella di gradazione tra le classi (es.: un reagente colora una serie di provette secondo la quantit di sostanza analizzata contenuta, consentendo di ordinare le provette in base all'intensit del colore) - le risposte, apparentemente definite a livello nominale, possono venire espresse su scala ordinale (es.: giovane, adulto, anziano; insufficiente, sufficiente, discreto, buono, ottimo) - eventuali rappresentazioni simboliche (es.: - -, -, =, +, ++) - impossibilit di valutare la distanza tra livelli (es.: tra insufficiente e sufficiente c una distanza diversa che tra buono ed ottimo?) - SCALA MONOTONICA: alle variabili possibile applicare una serie di tests non parametrici, ma non quelli parametrici

(2000) 01-4

Scala di INTERVALLI - alle due caratteristiche della scala ordinale si aggiunge quella di poter misurare le distanze tra tutte le coppie di valori - si fonda su una misura oggettiva e costante, anche se punto di origine e unit di misura sono arbitrari (es.: la temperatura misurata in gradi Celsius o Fahrenheit, i calendari) - solo le differenze tra i numeri sono quantit continue ed ISOMORFICHE e possono essere tra loro sommate, elevate a potenza e divise, determinando quantit utilizzate nella statistica parametrica
Le misure della temperatura possono essere facilmente ordinate e le differenze tra loro sono direttamente confrontabili e quantificabili; le date con un calendario gregoriano, islamico, ebraico o cinese possono essere tra loro ordinate dalla pi antica a quella pi recente e le differenze temporali possono essere misurate con precisione oggettiva. Ma una temperatura di 40 gradi non il doppio di 20 gradi e l'anno 2000 significa che trascorso il doppio del tempo rispetto all'anno 1000 solamente con riferimento al punto di origine su cui ogni calendario si basa.

Scala di RAPPORTI - alle tre propriet della scala precedente aggiunge quella ad avere una origine reale - il tipo di misurazione pi sofisticato e completo (es.: altezza, distanza, et, peso, reddito procapite) - non solo le differenze ma gli stessi valori possono essere moltiplicati o divisi per quantit costanti senza che l'informazione ne risulti alterata - 0 (zero) significa quantit nulla (a differenza di quanto avviene, per es., con la temperatura di 0 (zero) gradi Celsius) - si possono usare la media geometrica ed il coefficiente di variazione, che richiedono che il punto 0 sia reale e non convenzionale - pu essere applicato qualsiasi test statistico

(2000) 01-5

CLASSIFICAZIONE IN TABELLE

Prima di qualunque elaborazione, una serie di dati va ordinata e sintetizzata in


DISTRIBUZIONE DI FREQUENZA (o di intensit)

poich una serie non ordinata non permette quasi mai di evidenziare le caratteristiche del fenomeno in esame.

ESEMPIO Conteggio del numero di foglie (variabile discreta) spuntate su 45 rami di uguale lunghezza di una pianta in un dato intervallo di tempo : 5 6 3 4 7 2 3 2 3 2 6 4 3 9 3 2 0 3 3 4 6 5 4 2 3 6 7 3 4 2 5 1 3 4 3 7 0 2 1 3 1 5 0 4 5 Definire le classi: 1 - identificare il valore minimo (0 nell'esempio) e quello massimo (9 nell'esempio), contando quante volte compare ogni variabile 2 - dalla frequenza assoluta ni si calcola la frequenza relativa fi formata dal rapporto tra la frequenza assoluta ni ed il numero totale di casi N E' utile soprattutto quando si vogliono confrontare due o pi distribuzioni dello stesso fenomeno, ognuna con un numero differente di osservazioni

(2000) 01-6

ESEMPIO Distribuzione di frequenze assolute e relative (arrotondate) delle foglie di 45 rami:


classe (xi) 0 1 freq. assol. (ni) 3 3 freq. rel. (fi) 0,07 0,07 freq.cumulata 0,07 0,14 2 3 4 7 12 7 0,15 0,27 0,15 0,29 0,56 0,71 5 6 5 4 0,11 0,09 0,82 0,91 7 8 3 0 0,07 0,00 0,98 0,98 9 1 0,02 1,00

Quante classi di frequenza costruire? - da un minimo di 4-5 ad un massimo di 15-20 (prassi abituale) in funzione del numero complessivo di osservazioni. Infatti: - se il numero di classi troppo basso: perdita dinformazione sulle caratteristiche della distribuzione e la rende non significativa disperde i valori e non manifesta con evidenza la forma della distribuzione

- se il numero di classi troppo alto:

Non necessario costruire intervalli uguali; ma la loro rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune avvertenze non sempre intuitive

(2000) 01-7

ESEMPIO - parte a Raggruppamento in classi di una variabile continua: altezza (cm) di 40 piante: 107 98 130 163 83 111 120 152 100 119 108 104 128 130 95 119 143 170 192 161 127 143 124 178 117 156 129 135 125 126 143 146 64 113 198 158 119 127 131 176

Procedura: 1 - individuare il valore minimo e massimo (64 e 198) 2 - stabilire l'intervallo di variazione, che ovviamente deve comprendere l'intero campo di variazione (cm 140, da cm 60 a cm 199 compresi) 3 - sulla base di N (40) si decide il numero di classi (nel caso specifico potrebbero essere 7, con passo 20) avvertenze: 4 - definire con precisione il valore minimo e quello massimo di ogni classe, per evitare incertezze nell'attribuzione di un singolo dato tra due classi contigue 5 - la determinazione dei valori estremi, del numero di classi e dell'intervallo di ogni classe soggettiva 6 - la scelta di una particolare serie al posto di un'altra pu tradursi in un'immagine completamente diversa dei dati: - per piccoli campioni, l'alterazione e le differenze possono essere sensibili - per grandi campioni, gli effetti delle scelte soggettive, purch non siano estreme, incidono meno sulla concentrazione dei dati 7 - la classe iniziale e terminale non devono essere aperte (es.: < 80 quella iniziale; 180 quella finale), poich: - si perderebbe l'informazione del loro valore minimo e massimo e quindi del valore centrale (indispensabili per calcolare la media e gli altri parametri da essa derivati) - verrebbe impedita o resa soggettiva anche la rappresentazione grafica, per la quale indispensabile conoscere i valori iniziale e terminale

(2000) 01-8

ESEMPIO - parte b Distribuzione di frequenza assoluta e relativa (%) dell'altezza delle 40 piante:
classe (xi) freq. ass. (ni) freq. rel. ( fi) freq. cumul. 60-79 1 2,5 2,5 80-99 100-119 120-139 3 10 12 7,5 25,0 30,0 10,0 35,0 65,0 140-159 160-179 180-199 7 5 2 17,5 12,5 5,0 82,5 95,0 100,0

Rispetto all'elenco grezzo, la tabella di distribuzione delle frequenze fornisce diversi vantaggi:
POSIZIONE (o dimensione) TENDENZA CENTRALE VARIABILIT (o dispersione) FORMA: simmetria

curtosi ... e uno svantaggio: non poter conoscere come sono distribuiti i dati entro ogni classe (per questa ragione, quando richiesta la conoscenza di tutti i dati compresi in un particolare intervallo, viene usato il valore centrale di ogni classe) N.B. Le distribuzioni delle frequenze relative o percentuali sono indispensabili quando si confrontano due o pi gruppi di misure, che quasi mai presentano lo stesso numero di osservazioni

(2000) 01-9

RAPPRESENTAZIONI GRAFICHE DI DATI QUANTITATIVI Le rappresentazioni grafiche forniscono: una sintesi visiva delle caratteristiche fondamentali delle distribuzioni impressioni percepite con maggiore facilit meno particolari. una descrizione espressa mediante una interpretazione soggettiva
ISTOGRAMMI e POLIGONI

dati quantitativi raggruppati in distribuzioni di frequenza assoluta, o di frequenza relativa, o di percentuali


Istogrammi : grafici a barre verticali in cui i rettangoli vengono costruiti in corrispondenza degli estremi di ciascuna classe. La variabile casuale o il fenomeno di interesse tracciato lungo l'asse x, mentre l'asse y rappresenta il numero assoluto (o la frequenza relativa o quella percentuale) con cui compaiono i singoli valori delle classi
0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 12 10 8 6 4 2 0 60 80 100 120 140 160 180

Dati di Tab. 2 (9 classi)

Dati di Tab. 4 (Val. iniz. = 60; Val. fin. = 199; Passo = 20; Classi = 7)
12 10 8 6

14 12 10 8 6 4 2 0 60 80 100 120 140 160 180

4 2 0 60 80 100 120 140 160 180

Somma errata di due classi

Somma corretta di due classi

(2000) 01-10

Gli ISTOGRAMMI sono rappresentazioni grafiche di tipo areale aree dei rettangoli proporzionali alle frequenze altezze dei rettangoli proporzionali alle frequenze basi dei rettangoli : ampiezze uguali > ragionare in termini di altezze o di aree equivalente ampiezze diverse -> occorre rendere le altezza proporzionali dividendo il numero di osservazioni per il numero di classi contenute nella base asse verticale : deve mostrare lo zero reale (o origine) al fine di non travisare le caratteristiche dei dati

8 7 6 5 4 3 2 1 0 60 80 100 120 140 160 180

(Valore iniziale = 60; Valore finale = 199; Passo = 10; Classi =1 4) Questa rappresentazione grafica non significativa, a causa di una eccessiva suddivisione in classi

(2000) 01-11

POLIGONI

valori relativi o percentuali (simili agli istogrammi) ottenuti unendo con linea spezzata i punti centrali di ogni classe l'asse orizzontale rappresenta il fenomeno l'asse verticale rappresenta la proporzione o percentuale di ogni classe area sottesa : 1 per le frequenze relative; = 100 per le percentuali linea spezzata unita all'asse orizzontale all'inizio e alla fine (il valore centrale della 1.a classe con quello di una precedente classe fittizia di valore 0; il valore centrale dell'ultima classe con quello di una classe successiva fittizia di valore 0)

DISTRIBUZIONI CUMULATE E GRAFICI POLIGONALI

evidenziano quante sono in totale le misure inferiori o superiori ad un certo valore il valore dell'asse orizzontale corrispondente al 50% dellasse verticale identifica la mediana (importante quando la distribuzione dei dati asimmetrica)
0.3 0.25 0.2 0.15 0.1 0.05 0 50 70 90 110 130 150 170 190 210 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 50 70 90 110 130 150 170 190 210

Poligono
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9

Poligono cumulato

Istogramma cumulato
(2000) 01-12

RAPPRESENTAZIONI GRAFICHE DI DATI QUALITATIVI


RETTANGOLI DISTANZIATI (o GRAFICI A COLONNE)

Si tratta di rettangoli con basi uguali ed altezze proporzionali alle intensit (o frequenze) corrispondenti ai vari gruppi considerati quando non esiste una logica specifica nell'ordine, i rettangoli o colonne vengono disposti dal maggiore al minore se le classi qualitative sono composte da sottoclassi, possibile anche questa ulteriore rappresentazione grafica dividendo il rettangolo relativo in pi parti, le cui altezze devono essere proporzionali alle frequenze delle sottoclassi avendo basi uguali, le aree sono proporzionali alle altezze, pertanto anche i diagrammi a rettangoli distanziati sono rappresentazioni areali

200000 150000 100000 50000 0 1 2 3 4

5 4 3 2 1
0 50000 100000 150000 200000

(2000) 01-13

ORTOGRAMMI (o GRAFICI A NASTRI)

Sono simili ai rettangoli distanziati, ma con le classi di frequenza sequenziali sulla stessa barra per una migliore lettura
500000 400000 300000

4
200000 100000 0

3 2 1 1 2 3 4
0 100000 200000 300000 400000 500000

DIAGRAMMI A PUNTI

Si ottengono sostituendo ai rettangoli una linea punteggiata rappresentano molto bene le informazioni contenute in distribuzioni di frequenza di dati qualitativi

AREOGRAMMI

Sono superfici di figure piane (quadrati, rettangoli, cerchi o loro parti) utilizzati con frequenze o quantit di una distribuzione di variabile qualitativa la rappresentazione pu avvenire: - con pi figure dello stesso tipo aventi superfici proporzionali alle frequenze o quantit - con unica figura suddivisa in parti ugualmente proporzionali

AREOGRAMMI A TORTA (o CIRCOLARI) E un cerchio suddiviso in parti proporzionali alle classi di frequenza, come per i rettangoli.

(2000) 01-14

MEDIANA il valore che occupa la posizione centrale in un insieme ordinato di dati Propriet : - non influenzata dai valori estremi, ma solo dal numero delle osservazioni - ogni osservazione estratta a caso ha la stessa probabilit di essere inferiore o superiore alla mediana Si usa : - per attenuare l'effetto di valori estremi molto alti o bassi - nel caso di scale ordinali o di ranghi N.B. : Ooccorre ordinare i valori : - se il campione ha un numero dispari di dati, la mediana il valore del dato centrale, in posizione (n+1)/2 - se il campione ha un numero pari di dati, la mediana la media aritmetica dei valori numerici dei due valori centrali (posizioni n/2 e n/2+1)
media (12.85) 10.1 I 10.8
11

10

I
12

13

13.1 13.4 I mediana

13.9 14.2 14.5 I


14

I
15

MODA il valore pi frequente di una distribuzione Propriet: - non influenzata dalla presenza di alcun valore estremo - differisce quando con gli stessi dati si formano classi di ampiezza differente Si usa : - solo a scopi descrittivi, essendo pi variabile delle altre misure di tendenza centrale

(2000) 01-15

DISTRIBUZIONI DI FREQUENZA - UNIMODALI - BIMODALI (e PLURIMODALI)


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3.98

> hanno ununica moda > hanno mode secondarie

-1.98

0.02

3.38

Distribuzione bimodale

INTERVALLO MEDIO E la media aritmetica tra il valore pi piccolo e quello pi grande Propriet : si calcola rapidamente anche con un elevato numero di dati Si usa : - quando non ci sono valori erratici (outliers) per evitare un valore dell'intervallo medio molto distorto - in meteorologia, nel caso di una serie di dati sulla temperatura o per il calcolo della precipitazione media mensile, essendo improbabile la presenza di valori estremi MEDIA INTERQUARTILE E la media fra 1 e 3 interquartile (=mediane della 1 e della 2 met dei dati) Propriet : risente in misura molto pi ridotta della presenza di valori estremi Q1 + 2Q 2 + Q 3 TRIMEDIA (proposta da Tuckey) : T = 4 Q2 = mediana; Q1 e Q 3 = mediane della prima e seconda met dei dati ordinati Si usa : - quando si dispone di materiale molto variabile - con una distribuzione molto asimmetrica (es.: misure d'inquinamento atmosferico con picchi anomali)
(2000) 01-16

MISURE DI DISPERSIONE O VARIABILITA'

CAMPO DI VARIAZIONE (O INTERVALLO DI VARIAZIONE ) E la differenza tra il valore massimo e il valore minimo Propriet : - intuitivo e semplice, in particolare quando i dati sono ordinati - incapace di misurare come i dati sono distribuiti entro l'intervallo - risente della presenza di valori anomali Si usa : quando i valori delle osservazioni devono restare entro limiti prestabiliti

DIFFERENZA INTERQUARTILE tra il 3 ed il 1 quartile (tra il valore della mediana della seconda met e quello della mediana della prima met della distribuzione)
1 4 Q1 1 2 Q2 3 4 Q3

1 Q4

QUANTILI (O F RATTILI) : Sono misure di posizione non-centrale con esclusive finalit descrittive (ogni gruppo parziale contiene la stessa frazione di osservazioni) - DECILI - PERCENTILI > dividono i dati ordinati in decine > dividono i dati ordinati in centesimi

Propriet : individuano i valori che delimitano una % o frazione stabilita di valori estremi (es.: nel monitoraggio dell'inquinamento indicano i valori che rientrano nellx% dei massimi o minimi) Si usano : - quando non si conosce la forma della distribuzione - quando la distribuzione fortemente asimmetrica
(2000) 01-17

SCARTO MEDIO ASSOLUTO (S m ) DALLA MEDIA (x)


Sm =

n xi n x ni

per dati semplici

Sm

per dati ponderati con la frequenza ni di ogni classe

xi = valore del dato i-esimo in una distribuzione semplice e valore centrale della classe in una distribuzione di frequenza n = n totale di dati ni = n di dati della classe i-esima in una distribuzione di frequenza

SCARTO MEDIO ASSOLUTO DALLA MEDIANA

E la media degli scarti assoluti dei singoli dati dalla loro mediana e viene calcolato come sopra, sostituendo la mediana alla media Propriet : - rende minima la somma degli scarti assoluti - inferiore allo scarto medio assoluto dalla media ( uguale solo quando media e mediana coincidono) - viene usato come misura di dispersione in alcuni test di statistica non parametrica DEVIANZA (o SOMMA DEI QUADRATI degli scarti dalla media, SQ, SUM OF SQUARES, SS) E la base delle misure di dispersione dei dati Formule EURISTICHE :
devianza (SQ) = (x i x)

2 2

devianza (SQ) = (x i x) n i

per serie ordinate di dati per dati in distribuzioni di frequenza

FORMULA EMPIRICA (o ABBREVIATA) :


devianza (SQ) = x x2
2

( x)
n

=
2

sommatoria dei quadrati delle osservazioni sommatoria totale quadrata n delle osservazioni
(2000) 01-18

( x)
n

= =

ESERCIZIO
Calcolare la devianza (SQ) nei due modi descritti dei valori: 5 6 7 7 8 10 x= 5 + 6 + 7 + 7 + 8 + 10 43 = = 7, 16 6 6
2

devianza (SQ) = (x i x) = = (5 716 ) 2 + (6 7,16) 2 + (7 716 ) 2 + ( 7 7,16) 2 + (8 716 ) 2 + (10 7 ,16 ) 2 = , , , = 4,665 + 13456 + 0,0256 + 00256 + 07056 + 8,0656 = 148356 , , , , devianza (SQ) = x 2

( x)
n

= 432 1849 = 323 = 323 30816 = 1484 , , 6 6

= (25 + 36 + 49 + 49 + 64 + 100)

VARIANZA (o QUADRATO MEDIO, Mean Square, MS) media dei quadrati degli scarti dei valori dalla loro media (devianza media)
V. DI UNA POPOLAZIONE

devianza diviso il n di osservazioni n

(x =

) n

V. DI UN CAMPIONE

devianza diviso n-1 (correzione di Student)

s2

(x =

x) n 1
i

nella statistica inferenziale, cio quando si utilizzano i dati del campione per stimare le caratteristiche di una popolazione, si usa sempre la varianza campionaria n-1, n di osservazioni indipendenti, chiamato GRADI DI LIBERT (gdl, df); poich la somma degli scarti dalla media uguale a zero, l'ultimo valore fissato a priori e non libero di assumere qualsiasi valore

(2000) 01-19

DEVIAZIONE STANDARD (o SCARTO QUADRATICO MEDIO , per una popolazione; s per un campione) E la radice quadrata della varianza

deviazione s tan dard ( s) =

(x
n i= 1

x)

n1

Propriet : - sempre un valore positivo - una misura della dispersione della variabile casuale attorno alla media

COEFFICIENTE DI VARIAZIONE (CV ) Misura la dispersione percentuale relativa dei dati in rapporto alla media
cv = 100

( = media; = deviazione standard )

Propriet : - un numero puro svincolato da ogni scala di misura e dalla tendenza centrale del fenomeno studiato - in quanto rapporto, ha significato solo se calcolato per variabili misurate con una scala di rapporti - tende ad essere costante per ogni fenomeno (di solito oscilla tra il 5% e il 30%) Si usa per confrontare : - la variabilit di due o pi gruppi con medie molto diverse - dati espressi in unit di misura diverse - popolazioni differenti per lo stesso carattere (es.: confronto tra la variabilit di specie animali di taglie diverse, come cani e cavalli)

N.B. Un C.V. molto basso (<5%) fa sospettare l'esistenza di un fattore limitante che abbassa
notevolmente od elimina la variabilit; un C.V. molto alto (>50%) indice di condizioni anomale (es.: quando in un gruppo animale gli individui mostrano grandi differenze nell'accrescimento, si pu sospettare uno squilibrio alimentare).

(2000) 01-20

VARIANZA IN DATI RAGGRUPPATI ( CORREZIONE DI SHEPPARD (o CORREZIONE PER LA CONTINUIT ) In una distribuzione di frequenza di misure continue, il raggruppamento in classi approssima tutti i valori compresi nell'intervallo al loro valore centrale, e il loro risultato non coincide con quello calcolato sui dati reali Se la distribuzione normale, per il calcolo della media le approssimazioni a sinistra della media compensano quelle a destra e, tra i due sistemi di calcolo, si hanno solo differenze casuali di entit ridotta Per il calcolo della varianza, le approssimazioni di segno opposto sono elevate al quadrato e dunque si sommano: la varianza reale calcolata dai dati originari inferiore a quella calcolata sui raggruppamenti in classi, e le differenze crescono all'aumentare dellampiezza dell'intervallo delle classi Alla varianza calcolata su una distribuzione di dati raggruppati in classi, si deve apportare la correzione :

2
reale

2
calcolata

h2 12

(h=ampiezza delle classi)

ESEMPIO In una distribuzione di frequenza in cui le classi hanno ampiezza costante con intervallo h=10 stata calcolata una varianza 2=50. La varianza corretta, che si sarebbe ottenuta utilizzando i singoli valori, secondo Sheppard dovrebbe essere:
2 reale = 50 10 2 = 50 8, 33 = 41, 66 12

La relazione valida per le popolazioni, mentre con pochi dati campionari, difficile sapere se la distribuzione rispetta le condizioni fissate da Sheppard (essere continua, limitata ad un intervallo di ampiezza finito, le due code della distribuzione tendere a zero in modo graduale) Per piccoli campioni la correzione potrebbe essere sbagliata e determinare un errore maggiore, per cui molti sperimentatori preferiscono non applicare la correzione

(2000) 01-21

INDICI DI FORMA DI UNA DISTRIBUZIONE

Riguardano due caratteristiche : - SIMMETRIA - CURTOSI Caratteristiche: le misure sono ancora rudimentali le definizioni permangono equivoche

Si ha SIMMETRIA : - nelle distribuzioni unimodali, quando: media, moda e mediana coincidono - nelle distribuzione bimodali, quando : solo media e mediana coincidono - in qualunque distribuzione, quando : i valori equidistanti dalla mediana presentano la stessa frequenza
(questa quindi una condizione che non caratterizza la distribuzione in modo univoco)

12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11

12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11

Distribuzioni simmetriche

(2000) 01-22

Si ha ASIMMETRIA A DESTRA quando : i valori maggiori sono pi frequenti (la successione delle misure di tendenza centrale da sinistra a destra : moda, mediana, media) Si ha ASIMMETRIA A SINISTRA quando : i valori minori sono pi frequenti (la successione delle misure di tendenza centrale da sinistra a destra : media, mediana, moda)
0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10

Distribuzione con asimmetria a sinistra


0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10
0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10

Distribuzione con asimmetria a destra

0.15

MODA MEDIANA MEDIA

0.15

MODA MEDIANA MEDIA

0.1

0.1

0.05

0.05

0 0 6 12 18 24

0 0 6 12 18 24

(2000) 01-23

Attenzone alle false simmetrie ... nella distribuzione 4 16 20 20 20 30 30 media, mediana e moda sono coincidenti (valore 20), ma la sua forma non simmetrica false asimmetrie ... analizzando la distribuzione dei dati di un campione, pu capitare di rilevare un'asimmetria determinata dal ridotto numero di osservazioni, o da modalit inadeguate di raggruppamento in classi In questi casi si parla di ASIMMETRIA FALSA, da distinguere dalla ASIMMETRIA VERA che esiste solo per le distribuzioni di popolazioni

INDICI DI ASIMMETRIA - Dovrebbero essere = 0 se (e solo se) la distribuzione simmetrica - Non godono della stessa propriet degli indici di variabilit o dispersione - quando la distribuzione simmetrica sono nulli - quando la distribuzione asimmetrica possono essere nulli

INDICI DI ASIMMETRIA ASSOLUTA si esprimono con le distanze tra la media e la moda o la mediana DIFFERENZA TRA MEDIA E MODA : d = media - moda d=0 d>0 d<0 > la curva simmetrica -> la curva ha asimmetria positiva (o sinistra) : media > mediana > moda > la curva ha asimmetria negativa (o destra) : media < mediana < moda

(2000) 01-24

INDICI DI ASIMMETRIA RELATIVA Si utilizzano per confrontare l'asimmetria di pi distribuzioni con valori differenti SKEWNESS DI PEARSON (sk) INDICE 1 DI FISHER INDICE 1 DI PEARSON SKEWNESS DI P EARSON (sk) E la differenza (d) tra media e moda divisa per la deviazione standard (s)
sk = d s

Propriet : - sk pu essere nullo, positivo o negativo secondo la forma della distribuzione - essendo un rapporto, misura adimensionale, e quindi pu essere utilizzato per il confronto tra due o pi distribuzioni

INDICE 1 DI F ISHER E il momento standardizzato di terzordine


1 m3 3

INDICE 1 DI P EARSON
m 3 2 1 = 3

Tra questi due ultimi indici vale la relazione: 1 = 1

N.B. Nel caso di distribuzioni simmetriche gli indici sk,1, 1 danno un risultato nullo; ma non sempre vale l'inverso, cio non sempre lndice di asimmetria uguale a zero esprime la perfetta simmetria di una distribuzione
(2000) 01-25

MOMENTI DI ORDINE K rispetto ad un punto c :

mk

(x = (x =
c=

c)

n c) f i n
k

per una serie di dati

mk

per una distribuzione di frequenza divisa in classi --> momento rispetto all'origine, momento centrale

origine (c = 0)

oppure c= media (c = media)-->

Momento di ordine 1 rispetto all'origine (k=1; c=0) Momento centrale di ordine 1 (k=1; c=media) ( la somma degli scarti dalla media) Momento centrale di ordine 2(k=2; c=media)
m1 = 0 m 2 = s2

> media > 0 > varianza

Nello stesso modo si possono calcolare i momenti centrali di ordine terzo (m3), quarto (m4), quinto (m5),...ennesimo (mn). I momenti centrali di ordine dispari (m3, m5,...) sono indici di simmetria : - sono nulli per distribuzioni simmetriche - sono non-nulli per distribuzioni asimmetriche (quanto maggiore l'asimmetria, tanto pi grande il valore del momento centrale di ordine dispari) - hanno valore positivo in distribuzioni con asimmetria destra - hanno valore negativo in distribuzioni con asimmetria sinistra

N.B. I valori dei momenti dipendono dalla scala utilizzata; per avere una misura adimensionale, che permetta i confronti tra pi distribuzioni, bisogna dividerli per la potenza n (n=3 per il terzordine, n=4 per il quartordine, ecc.) dello scarto quadratico medio

(2000) 01-26

CURTOSI (dal greco

, curvo o convesso)

E il grado di appiattimento, rispetto alla curva normale (o gaussiana) delle curve unimodali simmetriche
MESO- : forma uguale alla distribuzione normale LEPTO-: eccesso di frequenza delle classi centrali, frequenza minore delle classi

intermedie e frequenza maggiore di quelle estreme PLATI-: numero pi ridotto dei valori centrali, frequenza maggiore di quelle intermedie e frequenza minore di quelle centrali ed estreme

INDICI DI CURTOSI Si basano su rapporti, e sono pertanto misure adimensionali 4 4 Il rapporto [= 2 ] una quantit adimensionale : 2 4 - distribuzione perfettamente normale - dati pi addensati verso il centro (lepto) - curva schiacciata (plati) > 3 > > 3 > < 3

INDICE

DI F ISHER

differenza tra il rapporto fra il momento centrale di quartordine e lo scarto quadratico medio (o deviazione standard) elevato alla quarta potenza e la costante 3
2 m4 4 3

- distribuzione mesocurtica o normale - distribuzione leptocurtica o ipernormale - distribuzione platicurtica o iponormale

> > >

0 +

INDICE 2 DI P EARSON rapporto fra il momento centrale di quartordine e lo scarto quadratico medio (o deviazione standard) elevato alla quarta potenza :
2 = m4 4

[Tra questi due indici vale la relazione 2 = 2 + 3 ]

N.B. Tutti gli indici presentati si applicano sia alle variabili discrete che alle continue, con l'ovvia approssimazione data dal raggruppamento in classi
(2000) 01-27

ESERCIZIO Concentrazioni (mg/l) di sodio e cloruri in 36 laghi appenninici : - rappresentare graficamente i dati e la loro distribuzione di frequenza - calcolare le misure di tendenza centrale, di dispersione e gli indici di forma
Lago 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Sodio 1,78 1,63 1,85 2,10 1,35 1,40 1,82 1,35 2,06 1,85 1,51 2,00 2,02 1,90 1,60 2,18 1,82 1,90 1,75 2,11 2,30 1,95 2,60 2,44 2,18 2,51 2,37 2,54 2,06 2,77 2,31 2,81 2,33 1,45 1,78 2,09 Cloruri 1,60 1,80 2,90 2,90 2,90 2,90 2,00 2,00 2,00 2,20 2,30 2,30 2,80 2,80 2,80 2,50 2,50 2,50 2,60 2,60 2,60 2,70 2,90 2,90 3,00 3,10 3,10 3,30 3,30 3,40 3,40 3,60 3,70 3,80 3,80 3,90

(2000) 01-28

Numero di dati (Count, N. of data) Somma (Sum) Minimo (Minimum) Massimo (Maximum) Intervallo (Range) Media aritmetica (Mean) Media geometrica (Geometric mean) Media armonica (Harmonic mean) Devianza (Sum of squares) Varianza (Variance, Mean square) Deviazione standard (Standard deviation) Errore standard (Standard error) Curtosi (Kurtosis) Asimmetria (Skewness)

Sodio 36 72,87 1,37 2,81 1,46 2,024 1,987 1,949 152,785 0,151 0,389 0,065 -0,655 0,084

Cloruri 36 101,4 1,6 3,9 2,3 2,817 2,756 2,692 297,38 0,336 0,58 0,097 -0,53 -0,015

10 8 6 4 2 0 1.2 1.6 2 2.4 2.8

12 10 8 6 4 2 0 1.5 1.9 2.3 2.7 3.1 3.5 3.9

Concentrazioni sodio

Concentrazioni cloruri

(2000) 01-29

ESERCIZIO Densit dei principali taxa fitoplanctonici in 4 laghi appenninici - rappresentare i dati in tabella nelle forme grafiche di uso pi comune
Clorophyceae Cryptophyceae Crysophyceae Diatomophyceae Dinophyceae

Lago 1 Lago 2 Lago 3 Lago 4

179.857 120.893 198.043 57.496

83.497 29.000 54.454 42.980

30.891 136.791 82.770 66.440

166.861 27.500 38.712 34.356

25.600 28.000 54.734 31.270

200000 150000 100000 50000 0 1 2 3 4

500000 400000 300000 200000 100000 0 1


4 8%

4 34%

5 5% 3 41%

5 8%

3 6% 2 17%

1 38% 2 8%

1 35%

Lago 1
4 9% 3 19% 5 13% 4 15%

Lago 2
5 13%

3 29% 1 46% 2 18%

1 25%

2 13%

Lago 3

Lago 4

(2000) 01-30

ESERCIZIO Delle due serie di dati: A: 5 7 2 4 3 B: 15 11 9 8 10 12 calcolare le misure di tendenza centrale, di dispersione e gli indici di forma

Numero di dati (Count, No. of data) Somma (Sum, Summation) Minimo (Minimum) Massimo (Maximum) Intervallo (Range) Media (Mean, Average) Media geometrica (Geometric mean) Media armonica (Harmonic mean) Devianza (Sum of squares, SS) Varianza (Variance, Mean square) Deviazione standard (Stn. dev.) Errore standard (Standard error) Curtosi (Kurtosis) Asimmetria (Skewness)

A 5 21 2 7 5 4,2 3,845 3,506 103 3,7 1,924 0,86 -1,005 0,084

B 6 65 8 15 7 10,833 10,60 10,398 735 6,167 2,483 1,014 -0,605 0,636

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9

4 8%

5 8%

3 41% 1 35% 2 8%

(2000) 01-31

10

11

12

13

14

15

16

10.1
10

10.8
11 12

13.1 13.4
13

13.9 14.2 14.5


14 15

10

11

12

13

14

15

0.15

MODA MEDIANA MEDIA

0.15

MODA MEDIANA MEDIA

0.1

0.1

0.05

0.05

0 0 6 12 18 24 0 6 12 18 24

.
0.15

0.15

0.1

0.1

0.05

0.05

0 0 6 12 18 24

0 0 6 12 18 24

(2000) 01-32

MISURE DI TENDENZA CENTRALE Le rappresentazioni grafiche forniscono una sintesi visiva delle caratteristiche fondamentali delle distribuzioni di frequenza; rispetto alle cifre, le figure forniscono impressioni che sono percepite con maggiore facilit, ma nel contempo sono meno ricche di particolari. Per caratteri qualitativi, la tabella e le rappresentazioni grafiche esauriscono quasi completamente gli aspetti descrittivi. Per i caratteri quantitativi, si pone il problema di sintesi oggettive che siano numeriche; una trasformazione indispensabile per la loro elaborazione. I grafici forniscono una descrizione che pu essere espressa mediante una interpretazione soggettiva; un'analisi obiettiva deve condurre tutti i ricercatori, che analizzano gli stessi dati, alle medesime conclusioni. Un gruppo di dati numerici compiutamente descritto da tre propriet principali: 1) la tendenza centrale o posizione 2) la dispersione o variabilit 3) la forma
Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate statistiche, quando sono calcolate su un campione di dati; sono chiamate parametri, quando descrivono la popolazione od universo dei dati.

Le misure di tendenza centrale o posizione servono ad individuare il valore intorno al quale i dati sono raggruppati; se una distribuzione di dati dovesse essere descritta con un solo valore, questa la misura pi appropriata per sintetizzare l'insieme delle osservazioni.. A causa della variet delle distribuzioni ed in funzione del tipo di scala, le misure di tendenza centrale proposte sono essenzialmente tre: la media, la moda e la mediana. Pi raramente si trovano altre misure, come l'intervallo medio. Media aritmetica semplice la media o la misura di tendenza centrale pi comunemente utilizzata. E' uguale alla somma del valore di tutte le osservazioni, diviso il numero di unit.
x= x1 + x 2 + ...+ x n n

che con una notazione pi generale diventa:


x=

x
i =1

x = media del campione xi = i-esima osservazione della variabile X

n = numero di osservazioni del campione

= sommatoria di tutti gli x del campione.


i 1

E' importante annotare che la media sarebbe il baricentro della distribuzione campionaria, se ogni singola osservazione fosse rappresentata come un peso convenzionale, identico per tutti, lungo l' asse che riporta i valori con una scala di intervalli o di rapporti. La media aritmetica corrisponde al punto di bilanciamento o di equilibrio dei dati.
media (12.58) 10.9
10 11

11.5
12

12.3

v 12.8
13 14 15

15.4
16

X=

10, 9 + 11, 5 + 12, 3 + 12, 8 + 15, 4 5

= 12, 58

In una distribuzione di frequenza raggruppata in classi, come valore rappresentativo di tutti i valori di ogni classe si prende il dato centrale di ognuna di esse. La media aritmetica, detta media aritmetica ponderata calcolata pi rapidamente con
n

fixi x
i 1 n

fi
i 1

x = media della distribuzione in classi

xi = valore medio di una classe di intervallo fi = numero di osservazioni della classe i-esima classe n = numero di classi, = sommatoria di tutte le classi

Calcolo dell'altezza media di un gruppo di 25 ventenni con la seguente distribuzione in classi: .


Classe altezza Frequenza xi fi 150-159 3 160-169 5 170-179 8 180-189 6 190-199 3 4385 25

(media) x =

(155 3) + (165 5 ) + (175 8) + (185 6 ) + (195 3) 3+5+8+6 +3

= 175, 4

Le applicazioni della media aritmetica semplice sono numerose e derivano da alcune propriet: le grandezze additive sono le pi frequenti in natura; la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa la stima pi precisa di misure ripetute; la media aritmetica la pi semplice delle medie algebriche. A causa del suo uso diffuso, quando si parla di media si intende sempre la media aritmetica, se non diversamente espresso Quando le quantit od i fattori causali non sono additivi oppure i dati sono ottenuti da rapporti, si ricorre ad altri tipi di medie; in questi casi, quelle di uso pi frequente nelle scienze ambientali sono la media geometrica, la media armonica e la media quadratica. Media geometrica : utilizzata quando le variabili non sono rappresentate da valori lineari ma da prodotti, come per il confronto di superfici o volumi, di tassi di accrescimento o di sopravvivenza, valori che sono espressi da rapporti. Per il calcolo della media geometrica, le quantit devono essere tutte positive (condizione necessaria). Se fossero negative, si devono trasformare nel loro valore assoluto. La media geometrica di n dati uguale alla radice di ordine n (solo positiva) del prodotto degli n dati.
x g = n x 1 x 2 ... x n

che pu essere scritto come


xg = n

x
i =1

Una propriet importante che il logaritmo della media geometrica uguale alla media aritmetica dei logaritmi dei dati.
log x = 1 n

log x
i= 1

Risulta utile in particolare quando si deve ricorrere alla trasformazione dei dati nei loro logaritmi, allo scopo di normalizzare la distribuzione ed applicare in modo corretto i tests di inferenza. Media armonica : la stima pi corretta della tendenza centrale in distribuzioni in cui si devono usare gli inversi dei dati. Si tratta di una misura di tendenza centrale da utilizzare quando i valori di X sono espressi come rapporti di un totale costante:
mh = n

x
i= 1

1
i

Media quadratica : la radice quadrata della media aritmetica dei quadrati:

x i2 mq
i 1

Sotto l'aspetto matematico pu essere calcolata per valori positivi, nulli o negativi; ma essa ha senso come misura di tendenza centrale solamente se i valori sono positivi o nulli. Trova applicazioni quando si analizzano superfici, come il diametro della sezione di un albero o appezzamenti di terreno.

CONCETTO DI PROBABILIT'

Il risultato (o esito) di ogni singolo evento, in una sequenza fondata su processi - casuali - mutualmente esclusivi - equiprobabili - indipendenti imprevedibile Se il numero di eventi (o osservazioni) elevato, si stabiliscono delle regolarit, che renderanno lesito prevedibile e calcolabile con precisione crescente all'aumentare delle osservazioni

P ROBABILIT MATEMATICA (o A PRIORI O CLASSICA) : peculiarit : - non si richiede alcun dato sperimentale - i risultati sono conosciuti a priori - basata sul solo ragionamento logico formalizzato nel principio di Laplace : la probabilit di un evento il rapporto tra il numero di casi favorevoli ed il numero di casi possibili, purch tutti i casi siano ugualente probabili esempi : - lancio di una moneta - lancio di un dado - lotterie (la probabilit di fare ambo superiore a quella di fare terno) - ordini d'arrivo in una gara dove nessuno ha i favori del pronostico comporta limitazioni per la ricerca sperimentale poich questa basata su un approccio non teorico ma empirico :
- per valutare una probabilit sarebbe necessario conoscere preventivamente le diverse probabilit dei vari eventi - non sarebbe possibile rispondere a quesiti che per loro natura richiedano osservazioni ripetute 2001-02-1

P ROBABILIT FREQUENTISTA (o A POSTERIORI, o LEGGE EMPIRICA DEL CASO, o STATISTICA) : ise in un insieme di prove la frequenza di un evento all'incirca costante, questo valore di frequenza assunto come probabilit si basa sul principio di von Mises (formulato nel 1920) : la probabilit di un evento, in una serie di prove condotte nelle stesse condizioni, il limite a cui essa tende al crescere del numero delle osservazioni si applica in tutti quei casi in cui non sono note a priori le leggi dei fenomeni studiati, ma possono essere determinate a posteriori; ovvero...
...per calcolare la probabilit attesa di trovare un numero stabilito di individui in un conteggio, deve essere nota la percentuale di presenza rilevata attraverso una precedente serie di osservazioni. Infatti, lunico modo per rispondere ai quesiti empirici condurre una serie di osservazioni od esperimenti, in condizioni controllate statisticamente, per rilevare la frequenza relativa del fenomeno

PROBABILIT SOGGETTIVISTICA (o " BAYESIANA")

Le probabilit classica e frequentista richiedono che gli eventi ripetuti si verifichino in condizioni uniformi o presunte tali. Ma nella teoria della probabilit sono inclusi anche fenomeni che non possono essere ricondotti a queste condizioni, perch sono considerati eventi unici od irripetibili Ad esempio, determinare la probabilit che ... - avvenga una catastrofe - entro la fine dell'anno scoppi la terza guerra mondiale - una specie animale o vegetale si estingua ... presuppone il giudizio di pi individui o stime personali, e introduce un terzo tipo di probabilit: la probabilit soggettiva (o bayesiana)

2001-02-2

si fonda sul principio che la probabilit una stima del grado di aspettativa di un evento, secondo l'esperienza personale di un individuo una misura della convinzione circa l'esito o laccadimento di un evento ha vaste ed interessanti applicazioni nelle scienze sociali ed economiche, dove l'attesa di un fenomeno o una convinzione possono influire sui fenomeni reali (svalutazione, prezzi di mercato, comportamenti sociali)

aspetti controversi : - come misurare un grado di aspettativa, dato che sperimentatori diversi attribuscono probabilit differenti allo stesso fenomeno ? - come modificare la probabilit soggettiva di partenza in dipendenza dei successivi avvenimenti oggettivi, in assenza di replicazioni ? - se il mondo esterno realt oggettiva indipendente, la conoscenza non pu derivare da convinzioni personali o da preferenze individuali: l'approccio soggettivo non risulta attendibile, in quanto non permette la conoscenza oggettiva del reale

Nel contesto delle scienze sperimentali predominano i casi di eventi ripetibili, in condizioni almeno approssimativamente uguali o simili, ertanto di norma si fa ricorso all'impostazione frequentista, trascurando quella soggettivistica pi utile in altre discipline

2001-02-3

LEGGI DI PROBABILIT CALCOLO COMBINATORIO DI AGGRUPPAMENTI SEMPLICI

strumento fondamentale nella statistica sebbene il risultato di ogni singolo tentativo sia imprevedibile, con un numero elevato di ripetizioni si stabiliscono regolarit che possono essere calcolate e, dunque, previste serve per collegare una scelta alla probabilit di attesa dell'evento desiderato, nel contesto di tutti gli eventi possibili il risultato sempre un valore compreso tra 0 e 1

ESEMPIO

Gara di corsa tra 10 concorrenti

- quanti differenti ordini d'arrivo sono possibili ? - quale la probabilit di indovinare i primi tre : - nell'ordine ? - senza stabilire il loro ordine ? - conviene scommettere 10.000 lire per guadagnarne 500.000 se si indovineranno i primi 2 : - nell'ordine ? - senza stabilire il loro ordine ? Requisiti fondamentali degli eventi: - si escludono a vicenda -- sono tutti ugualmente possibili --- vengono generati da eventi puramente casuali ---- avvengono in modo indipendente

Gli aggruppamenti si distinguono in : PERMUTAZIONI DISPOSIZIONI COMBINAZIONI


2001-02-4

P ERMUTAZIONI SEMPLICI I sottoinsiemi che si possono formare collocando n elementi differenti a1 a2 a3 ... an in tutti gli ordini possibili

Il numero di permutazioni di n elementi : Pn = n! dove : n! (n fattoriale) = 1 2 3... n (*)

ESEMPIO. Le permutazioni degli elementi a b c sono : [ abc acb bca bac cba cab ] ESEMPIO. Le permutazioni degli elementi a b c d sono : 4! = 1 2 3 4 = 24 [ abcd abdc acbd adcb cabd cdba dbac cbda .... ] (*) I primi 25 numeri fattoriali 1! = 2! = 3! = 4! = 5! = 6! = 7! = 8! = 9! = 10! = 11! = 12! = 13! = 14! = 15! = 16! = 17! = 18! = 19! = 20! = 21! = 22! = 23! = 24! = 25! = 1 2 6 24 120 720 5.040 40.320 362.880 3.628.800 39.916.800 479.001.600 6.227.020.800 87.178.291.200 1.307.674.368.000 20.922.789.888.000 355.687.428.096.000 6.402.373.705.728.000 121.645.100.408.832.000 2.432.902.008.176.640.000 51.090.942.171.709.440.000 1.124.000.727.777.607.680.000 25.852.016.738.884.976.640.000 620.448.401.733.239.439.360.000 15.511.210.043.330.985.984.000.000 e
1! = 1

Nel calcolo fattoriale, per definizione : 0! = 1

2001-02-5

DISPOSIZIONI SEMPLICI I sottoinsiemi di p elementi, tratti da un insieme di n oggetti differenti a1 a2 a3 ap ... an

che si diversificano per almeno un elemento o per il loro ordine Il numero di disposizioni semplici di n elementi presi p a p : Dp = n n! (n p)!

ESEMPIO. Le disposizioni di 4 elementi a b c d presi 3 a 3 sono : abc abd acd acb adb adc bac bad bcd cab cad cbd cba cda cdb dab dac dbc cio : D3 = 4 4! 24 = = 24 (4 3)! 1

bca dba

bda dca

bdc dcb

Un metodo alternativo per calcolare le disposizioni semplici di n elementi presi p a p : D p = n(n 1)(n 2)...(n p +1) n Questo metodo pi pratico e pi rapido quando n e p sono quantit elevate. Infatti, le disposizioni di 4 elementi presi 3 a 3 si possono calcolare come : D 3 = 4(4 1)(4 2) = 4 3 2 = 24 4

ESEMPIO. Le disposizioni di 7 elementi presi 3 a 3 sono : D 3 = 7(7 1)(7 2) = 7 6 5 = 210 7

2001-02-6

COMBINAZIONI SEMPLICI I sottoinsiemi di p elementi, tratti da un insieme di n oggetti differenti a1 a2 a3 ap ... an

che si diversificano per almeno un elemento, ma non per il loro ordine

Il numero di combinazioni semplici di n elementi presi p a p : Cp = n n! (n - p)! p!

Corrisponde al numero di disposizioni di n elementi presi p a p, diviso il numero di permutazioni di p elementi Il numero di combinazioni risulta sempre un numero intero indicato con n \ p ed chiamato COEFFICIENTE BINOMIALE (si legge: n su p) La sequenza dei coefficienti binomiali data dai coefficienti del Triangolo di Tartaglia ( n v ; p >) | Ad es., le combinazioni di a b c d presi 3 a 3 sono abc abd acd bcd, cio : C3 = 4 N.B. Numero di combinazioni di n elementi : n - presi ad n ad n : Cn = =1 n n!0! n! =n 1!(n -1)! (un solo sottoinsieme formato da tutti gli elementi) - presi ad 1 ad 1 : C1 = n (n il numero di sottoinsiemi con un solo elemento) - presi 0 a 0 : C0 = n n! =1 0!n! (c' un solo sottoinsieme vuoto) 4! =4 (4 3)!3!

2001-02-7

ESEMPIO In un esperimento sulla fertilit di un terreno, si vogliono esaminare in modo sistematico gli equilibri binari tra : Ca, Mg, Na, N, P, K - Quante coppie di elementi occorrer prendere in considerazione ? - Per valutare tutti gli equilibri ternari, quanti gruppi diversi si dovranno formare ? ( Risposta: ( Risposta: ESEMPIO 6! 5 6 = = 15 ) (6 - 2)! 2! 2 6! C3 = = 20 ) 6 (6 - 3)! 3! C2 = 6 Risposte ai cinque quesiti introduttivi

1 - In una corsa con 10 concorrenti, i possibili ordini d'arrivo sono le permutazioni di 10 elementi : P10 = 10! = 1 2 3 4 5 6 7 8 9 10 = 3.628.800 2 - I possibili gruppi dei primi 3 concorrenti tra 10, tenendo conto dell'ordine d'arrivo, 10! sono le disposizioni di 10 elementi presi 3 a 3 : D3 = = 720 10
(10-3)!

Probabilit di indovinare : 1/720= 0,001389 3 - I possibili gruppi dei primi 3 concorrenti tra 10, senza distinzioni dellordine di 10! arrivo, sono le combinazioni di 10 elementi presi 3 a 3 : C3 = = 120 10
(10 -3)! 3!

Probabilit di indovinare : 1/120 = 0,00833 cio 6(3!) volte pi alta di quella in cui si vuole prevedere anche l'ordine 4 - La probabilit di indovinare i primi 2 tra 10, stabilendo chi sar primo e chi 10! secondo, data dalle disposizioni di 10 elementi presi 2 a 2 : D2 = = 90 10
(10-2)!

Probabilit di indovinare : 1/90, meno favorevole del rapporto 1/50 fissato nella scommessa (non conviene scommettere) 5 - La probabilit di indovinare i primi 2 tra 10, senza stabilire l'ordine, data dalle 10! 2 combinazioni di 10 elementi presi 2 a 2 : C10 = = 45
(10 -2)! 2!

Probabilit di indovinare : 1/45, pi favorevole del rapporto 1/50 fissato nella scommessa (conviene scommettere)
2001-02-8

DISTRIBUZIONI DISCRETE BINOMIALE


tende alla gaussiana, per n >

MULTINOMIALE POISSONIANA
tende alla gaussiana per medie elevate

IPERGEOMETRICA BINOMIALE NEGATIVA UNIFORME

DISTRIBUZIONI CONTINUE NORMALE (o GAUSSIANA)


PROPRIET E USO DELLA NORMALE

NORMALE (o GAUSSIANA) STANDARDIZZATA


UTILIZZO DELLA NORMALE STANDARDIZZATA CORREZIONI PER LA CONTINUITA' IN PROBABILITA' DISCRETE

RETTANGOLARE (o uniforme continua) ESPONENZIALE NEGATIVA

Tendono alla normale: - la binomiale, per n --> ; _ - la poissoniana, per x >> 0

2001-02-9

DISTRIBUZIONI DISCRETE

DISTRIBUZIONE BINOMIALE (o di BERNOULLI) distribuzione teorica discreta e finita fornisce le probabilit che un evento, con probabilit (a priori o a posteriori) p, avvenga 0, 1, 2,... r, ... n volte, nel corso di n prove identiche ed indipendenti che possono essere ripartite solo in due classi A e B - con frequenze assolute na e nb - con frequenze relative n n p = a q = b n n

tali che

p + q =1

la probabilit di ottenere r volte l'evento A (n-r volte l'evento B) : Pr = C r p r q n-r n dove : C r = n n! r! (n - r)!

N.B. Le prove possono essere successive oppure simultanee, purch non si influenzino reciprocamente

ESEMPIO Nella specie umana nascono pi maschi che femmine, con un rapporto di 105 maschi per 100 femmine A posteriori, sulla base dei dati rilevati, si pu affermare che la probabilit frequentista di un nato maschio p=0,52 e di un nato femmina di q=0,48 (=1-p) La distribuzione binomiale calcola le specifiche probabilit di 0, 1, 2, 3, 4 nascite di figli maschi nelle famiglie con 4 figli :

2001-02-10

P = C 0 p 0 q 4 = 1 1 (0,48) 4 = 0,05 0 4 P = C1 p 1 q 3 = 4 (0,52) (0,48) 3 = 0,23 1 4 P = C 2 p 2 q 2 = 6 (0,52) 2 (0,48) 2 = 0,37 2 4 P = C 3 p 3 q 1 = 4 (0,52) 3 (0,48) = 0,28 3 4 P = C 4 p 4 q 0 = 1 (0,52) 4 1 = 0,07 4 4
0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4

Probabilit del numero di nascite di maschi in famiglie con 4 figli

Probabilit del numero di nascite di figli maschi in famiglie con 10 figli x 0 1 2 3 4 5 6 7 8 9 10 P 0.000649 0.007034 0.034289 0.099056 0.187793 0.244131 0.220396 0.136436 0.055427 0.013344 0.001446

0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10

2001-02-11

La distribuzione binomiale: - leggermente asimmetrica, poich le probabilit p q - tende ad essere simmetrica all'aumentare del numero di osservazioni, anche se p q - si utilizza anche quando le probabilit sono note a priori, come nel caso dei dadi (ovviamente bilanciati e non truccati)

ESEMPI Probabilit di ottenere 3 volte il numero 1 lanciando un dado 5 volte (n=5 r=3 p=1/6 q=5/6) : 5! 1 3 5 2 3 3 2 P3 = C 5 p q = = 0,03215 3!2! 6 6 Probabilit di estrarre 4 biglie tutte nere da un'urna contenente un elevato numero di biglie per il 70% nere e per il 30% bianche (n=4 r=4 p=0,7 q=0,3) : P4 = C 4 p 4 q 0 = 4 4! 0,7 4 0,3 0 = 0,2401 4!0!

Probabilit che 9 esperimenti di laboratorio risultino positivi e 1 negativo, se di solito gli esperimenti sono positivi nel 20% dei casi (n=10 r=9 p=0,2 q=0,8) : P9 = C9 p 9 q 1 = 10 10! 0,2 9 0,8 1 = 0,000004096 9!1!

0,12 0,25 0,2 0,15 0,1 0,05 0 0 2 4 6 8 10 12 14 0,1 0,08 0,06 0,04 0,02 0 0 10 20 30 40 50 60 70 80 90 100

Distribuzione binomiale (n=15 p=0,33) Distribuzione binomiale (n=100 p=0,167)

2001-02-12

In una distribuzione binomiale : quando n elevato, la forma praticamente normale e quasi simmetrica anche se p sensibilmente diverso da 0,5 le probabilit associate ai diversi tipi di estrazione sono espresse dai termini dello sviluppo del binomio (p + q)n dove p e q sono le probabilit dei due diversi eventi semplici A e B ( A e non-A), come nel caso dei numeri che possono comparire nel lancio dei dadi la media n p varianza 2 = n p q la varianza inferiore alla media, poich q < 1 : q =1 p; 2 = n p (1 p)

DISTRIBUZIONE MULTINOMIALE rappresenta una estensione di quella binomiale si applica a k eventi indipendenti di probabilit p1 p 2 ... pi ... pk ( pi= 1) che possono comparire nel corso di N prove indipendenti (successive o simultanee)

ESEMPIO In un'urna contenente moltissime biglie : il 10% (p1 = 0,10) sono bianche il 20% (p3 = 0,20) sono gialle D.: - su 10 biglie estratte, qual la probabilit che 2 siano bianche, 3 rosse, 2 gialle e 3 verdi ? - su 8 biglie estratte, qual la probabilit di che 4 siano rosse e 4 verdi ? R.: Le probabilit sono determinate dallo sviluppo del multinomio : il 40% (p2 = 0,40) sono rosse il 30% (p4 = 0,30) sono verdi

2001-02-13

P( n 1

n2

... n k )

N! n p 1 1 p n 2 ..... p n k 2 k n 1!n 2! .... n k!

10! 2 3 2 3 P = ( 0,10) ( 0, 40) ( 0, 20) ( 0, 30) =0, 011612 ( 2b , 3r, 2g , 3v ) 2!3!2!3! P(4r, 4v) = 8! (0,10) 0 (0,40) 4 (0,20) 0 (0,30) 4 = 0,04587 0!4!0!4!

DISTRIBUZIONE POISSONIANA una distribuzione teorica discreta ed infinita, totalmente determinata da un solo parametro, la media la distribuzione limite della binomiale per p --> 0 Se: n > e p > 0, in modo tale che n p sia costante, Poisson nel 1837
i

dimostr che : Pi =

i!

n p 0

lim ( n )p n q n i i

la media attesa

uguale a c

la varianza attesa 2 uguale a nella binomiale 2 = npq ; applicando le condizioni su enunciate : B 2 = lim npq = lim (np)q = lim c(1 p) = c =
n p 0 n p 0 n p0

detta legge degli eventi rari, essendo assai pi frequenti le classi con zero o pochi eventi rispetto alle classi con numerosi eventi detta legge dei piccoli numeri, essendo la frequenza assoluta degli eventi espressa da un numero piccolo, anche con molte prove molto asimmetrica per valori piccoli di (< 3) quasi simmetrica gi per 7 (si diversifica poco dalla gaussiana)

2001-02-14

Distribuzione di Poisson, = 0. 9 i 0 1 2 3 4 5 6 7 8 9 10 P 0.40657 0.365913 0.164661 0.049398 0.011115 0.002001 0.000300 0.000039 0.000004 0.000000 0.000000

0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10

Distribuzione di Poisson, = 2 i 0 1 2 3 4 5 6 7 8 9 10 P 0.135335 0.270671 0.270671 0.180447 0.090224 0.036089 0.012030 0.003437 0.000859 0.000191 0.000038

0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10

2001-02-15

Distribuzione di Poisson, i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P 0.000006 0.000074 0.000442 0.00177 0.005309 0.012741 0.025481 0.043682 0.065523 0.087364 0.104837 0.114368 0.114368 0.10557 0.090489 0.072391 0.054293 0.038325 0.02555 0.016137 0.009682 0.005533 0.003018 0.001574 0.000787 0.000378

0,12 0,1 0,08 0,06 0,04 0,02 0 0 5 10 15 20 25

2001-02-16

ESEMPIO In letteratura, famoso l'esempio di Bortkewitch, un veterinario dell'armata prussiana del XIX secolo che per 20 anni cont il numero di soldati di 10 corpi d'armata che ogni anno morivano a causa di un calcio di mulo x : numero di decessi i f : eventi osservati r 122 media = 200 = 0,6100 0 109 1 65 2 22 3 3 4 1

varianza = 0,6079

Applicando la distribuzione di Poisson, si determinano le probabilit teoriche di osservare 0 1 2 3 4 decessi ogni anno P0 = P1 = 0,610 1 1 1 = = 0,5440 0! 2,710,61 1 1,837 0,611 1 0,61 1 = 0,3318 0,61 = 1! 2,71 1 1,837

0,612 1 0,3721 1 P2 = = 0,1010 0,61 = 2! 2,71 2 1,837 0,613 1 0,2270 1 P3 = = 0,0203 0,61 = 3! 2,71 6 1,837 0,614 1 P4 = = 4! 2,710,61 numero di decessi eventi osservati frequenze relative attese eventi attesi (su 200) 0,1385 1 = 0,0029 6 1,837 0 109 0,5440 108,80 1 65 0,3318 66,36 2 22 0,1010 20,20 3 3 0,0203 4,06 4 1 0,0029 0,58

Con =0,61 la probabilit teorica di 0 morti 0,544 (rapportata ai 200 eventi comporta una frequenza attesa di 108,8) Si noti che lo scarto tra osservato ed atteso molto piccolo

2001-02-17

ESEMPIO In una comunit planctonica la popolazione di Eudiaptomus vulgaris presente col 2% degli individui D.: - campionando 200 individui quale la probabilit di non trovare Eudiaptomus ? - campionando 100 individui quale la probabilit di trovarlo 4 volte ? - con una presenza del 5%, come cambierebbero le probabilit precedenti ?

R. : Campionando 200 individui: media della popolazione (presenza 2%) probabilit di non trovare individui (2%) media della popolazione (presenza 5%) probabilit di non trovare individui (5%)
m = n p = 200 0, 02 = 4 4 0 4 P0 = e = 0 , 0183 0! m = n p = 200 0, 05 = 10 10 0 10 P0 = e = 0 , 0000454 0!

Campionando 100 individui: media della popolazione (presenza 2%) probabilit di trovare 4 individui (2%) media della popolazione (presenza 5%) probabilit di trovare 4 individui (5%)
m = n p = 100 0, 02 = 2 2 4 2 P4 = e = 0 , 0902 4! m = n p = 100 0, 05 = 5 54 5 P4 = e = 0 ,1755 4!

2001-02-18

DISTRIBUZIONE IPERGEOMETRICA Quando nellurna ci sono moltissime biglie ... ogni estrazione non altera le probabilit di quelle successive, il che equivale a supporre che ogni biglia estratta sia reintrodotta (o che il numero di biglie sia praticamente infinito), ma quando nellurna ci sono poche biglie ... senza reintroduzione, le probabilit di estrarre biglie di un dato colore non sono costanti, ma dipendono dagli eventi precedenti ... tali probabilit possono essere calcolate con la distribuzione ipergeometrica

ESEMPIO Da un'urna con N biglie, delle quali n1 bianche e N-n1 nere, si estraggono n biglie ( n N ) senza reintroduzione Determinare la probabilit P (r/n) che delle n biglie estratte r siano bianche ( r n ) La distribuzione delle probabilit di tutti gli eventi possibili pu essere determinata col calcolo combinatorio : 1. 2. 3. 4. delle N biglie, n possono essere estratte in ( ) modi differenti
n1 ) modi differenti r N- n1 delle N-n1 biglie nere, n-r possono essere estratte in ( ) modi differenti n -r n ognuna delle ( 1 ) diverse possibilit di estrarre biglie bianche si combina con r N- n1 ognuna delle ( ) possibilit di estrarre biglie nere n -r N n

delle n1 biglie bianche, r possono essere estratte in (

Ne consegue che N n n1

P(r / n)

r C r C n1n n N = C n1 N

intero positivo intero non negativo al massimo uguale a N intero positivo al massimo uguale a N

2001-02-19

La distribuzione ipergeometrica definita da tre parametri : N numero totale di individui che formano la popolazione n1 numero degli individui del gruppo considerato n numero di individui estratti in funzione di r numero di individui estratti appartenenti al gruppo considerato Per N > Media Varianza la distribuzione ipergeometrica converge verso la binomiale n1 n = np N Nn n p q N1 essendo n1 =p N

inferiore alla varianza della binomiale

ESEMPIO In un lago sono presenti 12 pesci appartenenti a specie diverse, ma con il 50% di Salmo trutta; pescando 4 pesci a caso, qual la probabilit che nessuno sia trota ?
(N =12; n 1 =6; n=4; r =0) P( 0 / 4 ) = 28 = 0,0303 924

Si pu arrivare alla soluzione con un'altro approccio, utile a comprendere come variano le probabilit nella distribuzione ipergeometrica : probabilit di pescare una non-trota alla prima estrazione : 6/12 ... alla seconda estrazione : 5/11 ... alla terza estrazione : 4/10 ... alla quarta estrazione : 3/9 complessiva : 6/12 5/11 4/10 3/9 = 360/11880 = 0,0303
0,5 0,4

r 0 1 2 3 4

P 0.030303 0.242424 0.454545 0.242424 0.030303

0,3

P
0,2 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12

r/n

2001-02-20

ESEMPIO In una piccola riserva naturale sono presenti 9 cinghiali: 3 femmine e 6 maschi; per ridurre il loro numero viene decisa una battuta di caccia, nella quale ne verranno catturati 5 senza attenzione al sesso D.: Stimare i possibili effetti secondo le probabilit : a) che vengano catturate tutte le 3 femmine b) che vengano catturate 2 femmine c) che venga catturata 1 femmina d) che non venga catturata alcuna femmina animali presenti animali catturati femmine presenti femmine catturate animali non catturati femmine non catturate R.:
a) P(3/5) 5! 4! 3 C C 5 3!2! 0!4! = = 9! C3 9 3!6! 5! 4! 2 3 2 C5 C 9 5 2!3! 1!3! = = 9! C3 9 3!6! 5! 4! C1 C3 1 = 5 3 9 5 = 1!4! 2!2! 9! C9 3!6! 5! 4! 0 3 0 C C = 5 3 9 5 = 0!5! 3!1! 9! C9 3!6!
3 5 3 9

N=9 n=5 n1 = 3 r=3 N-n n1 - r r=2 r=1 r=0

= 0,119 (11,9%)

b) P(2/5)

= 0,4762 (47,62%)

c) P(1/5)

= 0,3572 (35, 72%)

d) P(0/5)

= 0,0476 (4, 76%)

Probabilit di catturare

3 femmine 2 femmine 1 femmina 0 femmine

11,9% 47,62% 35,72% 4,76%


2001-02-21

DISTRIBUZIONE BINOMIALE NEGATIVA La distribuzione binomiale positiva : p + q =1 con n prove, le probabilit dei diversi eventi sono determinate dallo sviluppo del binomio (p + q)n presenta varianza npq inferiore alla media np, essendo q < 1

La distribuzione binomiale negativa : impiegata soprattutto nei conteggi di popolazioni animali (foglie con 0, 1 , 2 , ... parassiti) e negli studi epidemiologici (periodi -giorni, settimane o mesi- con 0 , 1 , 2 , ... morti) pu essere intesa come un mix di distribuzioni poissoniane ha varianza npq superiore alla media np

Nei fenomeni semplici - a media unica - n grande - p basso le frequenze attese sono fornite dalla poissoniana Nei fenomeni complessi - la distribuzione determinata da pi fattori ognuno con media diversa - la variabilit aumenta sicch la varianza superiore alla media - la distribuzione delle frequenze pu essere stimata in modo appropriato dalla distribuzione binomiale negativa

2001-02-22

Se un fenomeno presenta una distribuzione binomiale negativa, la probabilit P i che l'evento atteso si verifichi i volte (0, 1, 2, ..., k) : p ( k + i -1 )! q Pi = i!( k 1)!q k Parametri essenziali : - media np - esponente k (-n) dove : k=
k

npq np

( n p) 2

0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 5 10 15 20 25 30

Distribuzione binomiale negativa ( = 6. 66, p = 0. 6 )

2001-02-23

DISTRIBUZIONE UNIFORME la pi semplice distribuzione discreta identica possibilit del verificarsi di tutti i possibili risultati (ad es., la probabilit di ottenere 1 6 con un dado non truccato uguale per ognuno dei risultati) limpiego limitato quasi esclusivamente all'analisi di probabilit a priori la probabilit del singolo evento in una variabile discreta X che segue questa distribuzione : P(x) = 1 (b a ) + 1

b = risultato maggiore possibile di X a = risultato minore possibile di X Per i dadi (b=6 e a=1) semplice verificare che P(x) = a+b 2 1 1 = (6-1 ) + 1 6

media

varianza

[(b a ) + 1]2 1
12

2001-02-24

DISTRIBUZIONI CONTINUE DISTRIBUZIONE NORMALE o DISTRIBUZIONE DI GAUSS la pi importante distribuzione continua proposta da Gauss (1809) nell'ambito della teoria degli errori, stata attribuita anche a Laplace (1812), che ne defin le propriet principali in anticipo rispetto alla trattazione pi completa di Gauss il nome deriva dalla convinzione che i fenomeni fisico-biologici solitamente si distribuiscono con frequenze pi elevate nei valori centrali e frequenze progressivamente minori verso gli estremi detta anche CURVA DEGLI ERRORI ACCIDENTALI, in quanto, soprattutto nelle discipline fisiche, la distribuzione degli errori commessi nel misurare ripetutamente la stessa grandezza, molto bene approssimata da questa curva considerata il limite della distribuzione binomiale per n > (mentre n p n q tendono a 0 come per la poissoniana) la variabile considerata, quantificata per unit discrete con pochi dati, pu essere espressa, in classi dampiezza sempre minore, come grandezza continua secondo il teorema di De Moivre (1833), quando n > (a condizione che n p n q tendano a 0), la probabilit P i della binomiale approssimata da : 1 e 2 n p q
(i-np) 2 2npq

P(i) =

2001-02-25

Sostituendo - np con la media sperimentale - npq con la varianza calcolata 2 - il conteggio i con la misura x si ottiene : y = f(x) = 1 2
2

( x )2
2
2

espressione della funzione di densit per le frequenze f(x) della normale Principali propriet dela distribuzione : ha media e varianza 2 il cui variare comporta infinite curve normali indicata con N( ) simmetrica rispetto alla media ha media, moda e mediana coincidenti cresce da a e decresce da a + ha andamento asintotico rispetto allasse x

DISTRIBUZIONE NORMALE STANDARDIZZATA consente di ricondurre alla stessa forma le infinite forme della distribuzione normale determinate dalle diverse medie e varianze ottenuta mediante cambiamento di variabile x ---> X x X= che consiste nel : - rendere = 0 sottraendo ad ogni valore la media - prendere come unit della nuova variabile X e quindi costruire una distribuzione con = 1 x Gli scarti x - si trasformano in scarti ridotti la nuova distribuzione viene indicata con N(0,1)
1 dopo il cambiamento di variabile, la densit di probabilit y = e 2 2 (Si evidenzia lassenza di dipendenza da media e varianza: la distribuzione sempre la stessa, qualunque sia la distribuzione gaussiana considerata) x2

2001-02-26

Tendono alla normale: la distribuzione binomiale (p + q )n , quando n --> la distribuzione poissoniana, quando la media elevata (in pratica, con media =~ 10-12 la normalit della distribuzione manifesta) Sono alla base della LEGGE DEI GRANDI NUMERI (o L EGGE DEL CASO o LEGGE DI BERNOUILLI) che costituisce il teorema fondamentale della Statistica : se si ripete n volte (per n > ) una prova in cui la probabilit a priori di accadimento dellevento A p, la probabilit dello stesso evento A tende a p Danno luogo al TEOREMA DEL LIMITE CENTRALE (Laplace nel 1812) utilizzato per la media di valori di un campione : le MEDIE di campioni, di dimensioni n sufficientemente grandi, estratti da una popolazione comunque distribuita, seguono la legge della distribuzione normale, con media m e varianza s2/n

TRASFORMAZIONI Quando una variabile distribuita normalmente, lapplicazione di funzioni matematiche quali logaritmi, radici quadratiche o cubiche, funzioni esponenziali, reciproci, ecc. conduce a una variabile distribuita in modo approssimativamente normale ESEMPIO Il caso pi frequente quello di x' = log x dove : x' distribuita normalmente in cui si dice che x distribuito secondo la DISTRIBUZIONE LOG-NORMALE Tale distribuzione frequente in tutti quei fenomeni in cui i fattori hanno tra loro effetti moltiplicativi
2001-02-27

PROPRIET E USO DELLA DISTRIBUZIONE NORMALE relazioni tra la distanza dalla media (misurata in unit di deviazione standard) di un qualunque valore dell'asse x e la densit di probabilit sottesa dalla curva : - frazione dei casi compresi nellintervallo ... + = = = 68,27% 95,45% 99,73%

- frazione dei casi compresi nellintervallo -2 ... +2 - frazione dei casi compresi nellintervallo -3 ... +3

In pratica la quasi totalit dei dati compresa nell'intorno 3

+2

+3

68.27% 95.45% 99.73%

E pertanto possibile dedurre la distribuzione di dati quando siano noti e

2001-02-28

UTILIZZO PRATICO DELLA DISTRIBUZIONE NORMALE STANDARDIZZATA Le tabelle dei valori dell'integrale di probabilit della distribuzione normale standardizzata forniscono le probabilit di ottenere un valore dello scarto standardizzato z= x

maggiore di z (o minore di z, a seconda del tipo di tabella)

ESEMPIO In una popolazione di pesci = 35 (cm) e = 5 (cm)

D.: calcolare le probabilit di pescare pesci di lunghezza : a) l 40 (a destra di z= +1) b) l < 40 (tra media e z= +1) c) l < 25 (a sinistra di z= -2) d) l 40 e l 50 (tra z=+1 e z= +3) e) l 30 e l 40 (tra z= -1 e z= +1) ricordando che : probabilit area sottesa tra e z = 1 probabilit area sottesa a sinistra di z = 2

0,3413 (34,13%) 0,0228 ( 2,28%)

R.: a) probabilit di pescare pesci di l 40 cm b) l < 40 cm c) l < 25 d) l 40 e l 50 (differenza 0,49865-0,3413) e) l 30 e l 40 (intervallo z= -1 e z=1)

0,1587 (15,87%) 0,8413 (84,13%) .... 0,1573 (15,73%) 0,6826 (68,26%)

2001-02-29

ESEMPIO In una specie di roditori adulti, femmine e maschi si distinguono per le dimensioni : femmina: = 37,5 cm ; = 3,8 cm maschio: = 34,5 cm ; = 3,2 cm D.: rispetto alle del loro sesso, sono pi rari i maschi 40 cm o le femmine 41 cm ? b) quale la lunghezza minima del 5% delle femmine di dimensioni > ? c) quale la lunghezza massima del 5% dei maschi di dimensioni < ? d) tra il 30% delle femmine di dimensioni > , quanti maschi possibile trovare ? e) tra il 20% delle femmine di dimensioni < , quanti maschi possibile trovare ? a) R.: per i maschi 40 cm z=1,72 che esclude a destra un'area equivalente al 5,26% per le femmine 41 cm z=0,92 che esclude a destra un'area equivalente al 17,88% i maschi 40 cm sono molto pi rari delle femmine 41 cm b) il 5% delle femmine di dimensioni > sono alla destra di 1,645 equivalente a 1,645 3,8 = 6,251 cm lunghezza minima del 5% delle femmine di dimensioni maggiori : 37,5 + 6,251 = 43,751 cm c) il 5% dei maschi di dimensioni < sono alla sinistra di 1,645 equivalente a 1,645 3,2 = 5,264 cm lunghezza massima del 5% dei maschi di dimensioni minori : 34,5 - 5,264 = 29,236 cm d) il valore di z che esclude il 30% della popolazione 0,525 corrispondente alla destra della alle femmine di dimensioni + 0,525 pari a 37,5 + 0,525 3,8 = 39,495 cm ai maschi di tali dimensioni minime corrisponde 39,495-34,5 z= = 1,56 pari a una frequenza di probabilit del 5,94% 3,2 e) il valore di z che esclude il 20% della popolazione 0,842 corrispondente alla sinistra della alle femmine di dimensioni - 0,842 pari a 37,5 - 0,842 3,8 = 34,3004 cm ai maschi di tali dimensioni massime corrisponde 34,3004-34,5 z= = - 0,0623 pari ad una frequenza di probabilit del 47,5% 3,2 a)
2001-02-30

CORREZIONI PER LA CONTINUITA' IN PROBABILITA' DISCRETE Come gi sottolineato, molte distribuzioni discrete (binomiale, ipergeometrica, ) sono bene approssimate dalla distribuzione normale al crescere delle dimensioni del campione Tuttavia mentre le prime forniscono le probabilit per singoli valori della variabile casuale, cio la probabilit di ottenere esattamente il numero x, con le distribuzioni continue (tra cui la normale) si calcola l'area sottesa, cio la densit di probabilit Per calcolare la probabilit di verificarsi di un singolo valore x, con la distribuzione normale si deve calcolare l'area sottesa dall'intervallo x 0. 5

ESEMPIO Si supponga che, da dati di letteratura, sia noto che in una popolazione zooplanctonica lacustre, gli individui di Eudiaptomus vulgaris assommino al 10% del totale individui. In un campionamento casuale di 120 individui quale la probabilit di trovare: D.: Con un campione casuale di 120 individui, calcolare la probabilit di trovare a) esattamente 15 individui di Eudiaptomus b) almeno 15 individui di Eudiaptomus c) meno di 15 individui di Eudiaptomus n = 120 x = 15 = np = 120 0,10 = 12 = npq = 120 0,10 0,90 = 10,8 Per valori discreti si deve aggiungere o togliere 0,5 al valore x (a seconda che il valore debba essere compreso od escluso), mentre per dati continui non si apporta alcuna correzione

2001-02-31

R.: a) Probabilit di trovare esattamente 15 individui di Eudiaptomus: z1 = (x + 0,5) = 7,90 %

(15+ 0,5) 12 3,5 = = 1,06 10,8 3,29 per cui tra e 1,06 compreso il 35,54% delle osservazioni (15- 0,5) 12 2,5 = = 0,76 10,8 3,29 per cui tra e 0,76 compreso il 27,64% delle osservazioni =

z2 =

(x 0,5)

= 35,54 - 27,64 = 7,90%


[ Il risultato si ottiene anche con la binomiale : C120 (0,10)
15 15

(0,90) 105 ]

b) Probabilit di trovare almeno 15 individui di Eudiaptomus : z= (x + 0,5) = 15,5 12 3,5 = = 1,06 10,8 3,29

22,36 %

per cui l'area a destra di x = 15 esprime una probabilit del 14,46% che, sommata al 7,90% del punto (a), porta alla probabilit complessiva del 22,36%

c) Probabilit di trovare meno di 15 individui di Eudiaptomus : z= (x 0,5) =

77,64 %

14,5 12 2,5 = = 0,76 10,8 3,29 per cui l'area tra =12 e x =15 esprime una probabilit del 27,64% che, x sommata al 50% a sinistra della media (prob. di x da x = 0 a =12), porta alla x probabilit complessiva del 77,64%
[ Il risultato si ottiene anche con la distribuzione binomiale, sommando le probabilit esatte di trovare 0, 1, 2, 3, ..., 14 individui di Eudiaptomus:

P(x,n) =

x=0

C xn p x q nx

0 C120 (0,1) 0 (0,9) 120 + C1 (0,1) 1 (0,9) 119 + + C14 (0,1)14 (0,9) 106 ] 120 120

2001-02-32

DISTRIBUZIONE RETTANGOLARE come nelle distribuzioni discrete, anche tra le distribuzioni continue la pi semplice la distribuzione rettangolare o uniforme continua la densit di frequenze relativa all'intervallo x1 = a x2 = b, : f(x) = 1 con ( < x < ) costante in tutto l'intervallo [a b]

nella rappresentazione grafica ha la forma di un rettangolo, da cui il nome media varianza =


2

( )2 12

+ 2

l'equivalente continuo della distribuzione rettangolare uniforme discreta

DISTRIBUZIONE ESPONENZIALE NEGATIVA la sua funzione : f(x) = e x

con > 0 e x > 0

(prende il nome dall'esponente negativo che compare nella relazione) una funzione positiva o nulla continuamente decrescente che tende a 0 per x > nel discreto ha il suo equivalente nella D. GEOMETRICA DECRESCENTE media varianza =
2

1 = 1
2

(N.B..: la varianza il quadrato della media)

2001-02-33

APPLICAZIONI DEI MODELLI DI DISTRIBUZIONE Le applicazioni pratiche dei modelli di distribuzione teorica sono numerose; di particolare importanza sono quelle che riguardano la dispersione sul territorio di popolazioni animali e vegetali, dai micro-organismi a quelli di dimensioni maggiori. Il territorio diviso in aree di dimensioni uguali ed entro ognuna di esse viene contato il numero di individui presenti Trattandosi di conteggi, sono utili soprattutto le distribuzioni di variabili discrete, tra le quali si tratta di scegliere quella pi appropriata a descrivere la distribuzione osservata. Il rapporto tra la media e la varianza il primo e pi immediato fra i criteri quantitativi di confronto o di valutazione, che permettono al ricercatore di individuare, seppure in via preliminare ed orientativa in attesa di verifiche ulteriori pi approfondite, quale tipo di distribuzione si adatti meglio ai dati sperimentali raccolti Quando la varianza risulta di entit simile alla media, si pu supporre che la distribuzione territoriale della popolazione segua la legge poissoniana; trattandosi di eventi casuali ed indipendenti, l'interpretazione ecologica suggerisce che ogni individuo tenda a collocarsi nell'ambiente in modo completamente casuale ed indipendente dal comportamento di tutti gli altri individui della stessa specie, che non esistano n fattori che tendono ad aggregare n quelli che tendono a disperdere in modo uniforme. Se la varianza osservata risulta minore di quella teorica, la omogeneit della distribuzione pu essere significativa: la specie in esame ha una dispersione geografica regolare, tipica di organismi con territorialit, che necessaria quando la ricerca del cibo o la sopravvivenza esigono uno spazio minimo individale per la sopravvivenza, di dimensioni approssimativamente simili per ogni individuo Quando la varianza maggiore dell'atteso, si pu supporre cha la distribuzione territoriale sia di tipo aggregato o contagioso, come quella degli animali con struttura sociale o delle piante e dei microorganismi concentrati in colonie: esistono ampi spazi liberi e contemporaneamente zone con una elevata densit di presenze Quando variano le condizioni ambientali od aumenta la densit della specie, possono essere applicate strategie diverse di distribuzione geografica degli individui. Dal punto di vista statistico, la prima conseguenza un forte aumento della varianza: un buon adattamento dei dati sperimentali alla distribuzione binomiale negativa pu essere una indicazione importante, per inferire in prima approssimazione i fattori che regolano la dispersione Le tecniche del campionamento rivestono un ruolo importante nella comprensione di questi fenomeni di particolare rilevanza specifica sono le dimensioni del campione e soprattutto quelle dell'area unitaria entro la quale sono contati gli individui presenti. E' dimostrato che variazioni nelle dimensioni dell'area presa come unit di campionamento mutano sensibilmente la forma della distribuzione, inducendo nel ricercatore deduzioni spesso fuorvianti

2001-02-34

VERIFICA DELLE IPOTESI


Poich in statistica ogni ipotesi fondata su un confronto tra una verit, nota, a livello di campione e una verit, ignota, a livello di popolazione, esiste sempre una possibilit, anche se remota, che la conclusione cui porta un test (inferenza) sia sbagliata Ogni test pertanto associato a quattro probabilit interdipendenti che misurano il rischio che si corre (o della sicurezza che si ha) nel formulare una conclusione : Errore di I^ tipo (o rischio ): [ noto come livello di significativit p ] probabilit che esprime il rischio di rifiutare H0 quando vera Errore di II^ tipo (o rischio ): probabilit che esprime il rischio di accettare H0 quando falsa Protezione del test 1- (complementare all'errore di I^ tipo): probabilit, al livello prescelto, di accettare H0 quando vera Potenza del test 1- (complementare all'errore di II^ tipo): probabilit, al livello prescelto, di rifiutare H0 quando falsa REALTA'
CONCLUSIONE DEL TEST H 0 vera H 0 falsa

accetto H 0 statisticamente non significativo rifiuto H0 statisticamente significativo

Esatto p = 1-
PROTEZIONE

Errore di I^ tipo p=

Errore di II^ tipo p= Esatto p = 1-


POTENZA

Il concetto di errore si comprende meglio ragionando sulle due distribuzioni di p legate alle due ipotesi H0 e H1 mutualmente esclusive Anche le due distribuzioni sono mutualmente esclusive: una, quella legata all'ipotesi corretta, vera; laltra esiste solo in forma ipotetica Il test statistico mette a confronto la stima campionaria con le distribuzioni H0 e H1

(2001)-3-1

L'errore si origina dal fatto che non mai essere sicuri che il valore stimato dal test appartenga pi di diritto all'una che all'altra delle due distribuzioni L'area di sovrapposizione delle due curve, in relazione al valore campionario stimato, determina il rigetto o l'accettazione di H0 Ne consegue la probabilit x di commettere un errore rispettivamente di I^ tipo (rigetto il vero) o di II^ tipo (accetto il falso) Il valore x determinato dall'area che rimane all'esterno del punto di stima rispetto al valore medio della distribuzione H0 Nel confronto tra due frequenze, secondo H0 non esiste differenza sostanziale, se non quella dovuta a fattori casuali. Occorre dunque stimare la probabilit p di trovare, con esperimenti ripetuti e nel caso che H0 sia vera, un valore uguale o superiore a quello calcolato Se p (riportata nelle tabelle) inferiore al valore di significativit prefissato (=5% o =1%), si rifiuta H0; ma se H 0 vera, nel rifiutarla si sbaglia con probabilit p<5% (errore di I^ tipo) Per ridurre la probabilit di commettere errori di I^ tipo si abbassa il livello di significativit da p=5% a p=1% La probabilit calcolata dal test si riferisce al caso in cui H0 vera e stima la probabilit di commettere un errore di I^ tipo C concorrenza tra lerrore di I^ tipo e lerrore di II^ tipo : se si abbassa il livello di significativit, cio la probabilit di commettere un errore di I^ tipo, si accresce quella di commettere un errore di II^ tipo e viceversa

(2001)-3-2

INTERVALLO di CONFIDENZA di una MEDIA CON

nota

Volendo conoscere il valore pi probabile di un parametro incognito, la statistica inferenziale fornisce due valori che determinano lINTERVALLO DI CONFIDENZA (o LIMITI FIDUCIALI ) entro cui si colloca il valore del parametro secondo la probabilit scelta Specificare i limiti fiduciali solamente un modo alternativo di inferire circa i parametri di una popolazione, sulla base di osservazioni campionarie I limiti fiduciali della media della popolazione sono stimati dalla distribuzione normale standardizzata : - il 95% dellarea sottesa dalla curva si trova tra -1,96 e +1,96 dell'ascissa [ P(-1,96 Z +1,96) = 0,95 ] - il 99% dellarea sottesa dalla curva si trova tra -2,58 e +2,58 dell'ascissa [ P(-2,58 Z +2,58) = 0,99 ] Cos come s valuta la dispersione di campionamento delle osservazioni, l'ERRORE STANDARD (ES) valuta la dispersione delle medie campionarie : ES =

s n
s diventa n

La distribuzione di campionamento di medie con media m ed ES =

x P Z + Z = P( z) e pu essere usata per determinare i limiti fiduciali : n P x 1,96 x + 1,96 = 0,95 n n

- al 95% diventa

- al 99% sostituire, nella formula sopra scritta, 1,96 con 2,58

(2001)-3-3

ESEMPIO Da una popolazione con =3 stato estratto un campione di 10 dati con m=25 D.: R.: Calcolare l'intervallo di confidenza alla probabilit del 99%
25 m 2, 58 22, 55 3 = 25 m 2, 58 0, 9487 = 25 m 2, 45 = 10 27, 45

Secondo le informazioni fornite da una campione di 10 misure con m=25, con probabilit 99% si trova nell'intervallo compreso tra 22,55 e 27,45 [ ... rimane la probabilit dell1% che si trovi fuori da questo intervallo ... ]

Intervallo di confidenza di una proporzione Per i limiti fiduciali di una proporzione si adotta l'approssimazione della normale alla binomiale In una proporzione, il valore di completamente determinato dal valore della media p, infatti con n costante = p (1 p )
0,5

0,5

La di una proporzione si approssima a zero quando p molto piccolo o molto grande e presenta valore massimo quando p prossimo al valore centrale 0,5 L'intervallo di confidenza di una percentuale dato da
p Z p q n

(2001)-3-4

ESEMPIO In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite

D.: - Calcolare i limiti fiduciali della media al 95% e al 99% nella popolazione dei fumatori con sintomi di polmonite - Calcolare gli stessi limiti fiduciali (95% e 99%) partendo da un campione di 100 fumatori anzich 80

R.: Con un campione di 80 fumatori si ha :


Per il 95% : 0, 35 1, 96 0, 2455 0, 35 0, 65 = 0, 35 0,1045 = 80 0, 4545 0, 2124 0, 35 0, 65 = 0, 35 0 ,1376 = 80 0, 4876

Per il 99% : 0, 35 2, 58

Con un campione di 100 fumatori si avrebbe :


Per il 95% : 0, 35 1, 96 0, 2565 0, 35 0, 65 = 0, 35 0, 9349 = 100 0, 4435

Per il 99% : 0, 35 2, 58

0, 2269 0, 35 0, 65 = 0, 35 0 ,1231 = 100 0, 4731

Si noti che con un campione di 100 individui gli intervalli sono pi stretti rispetto a quelli prodotti dal campione di 80 individui

(2001)-3-5

ANALISI DELLE FREQUENZE e CONFRONTI TRA DISTRIBUZIONI

DISTRIBUZIONI OSSERVATE e DISTRIBUZIONI ATTESE Nella teoria statistica e nella pratica sperimentale, sia con dati qualitativi (classificati in categorie nominali) che con dati quantitativi (distribuiti in classi di intervallo), per verificare se esiste accordo tra una distribuzione osservata e la corrispondente distribuzione attesa si ricorre al
TEST PER LA BONT DELL'ADATTAMENTO

(goodness of fit)

ESEMPIO distribuzioni di frequenze osservate di classi fenotipiche vs. distribuzioni di frequenze attese secondo le leggi di segregazione mendeliana D.: Verificare se la distribuzione della progenie degli ibridi rispetta : - la distribuzione teorica attesa di 3:1 per un carattere - la distribuzione teorica attesa di 9:3:3:1 per due caratteri

N.B. - tra distribuzioni osservate e distribuzioni attese non c mai perfetta coincidenza, ma valori molto simili - le classi di una distribuzione osservata sono conteggi (numeri interi) - le classi di una distribuzione attesa seguono una legge teorica (descritta da numeri frazionali)

(2001)-3-6

R.: Distribuzioni osservate ed attese di Pisum sativum (Mendel) A - Segregazione di un ibrido carattere dominante recessivo colore del fiore (d. oss.) rossi 705 bianchi 224 distribuzione attesa (3:1) 696,75 232,25 lunghezza del fusto (d. oss.) alti 787 bassi 277 distribuzione attesa (3:1) 798 266 colore del seme (d. oss.) gialli 6022 verdi 2001 distribuzione attesa (3:1) 6017,25 2005,75 forma del seme (d. oss.) lisci 5474 rugosi 1850 distribuzione attesa (3:1) 5493 1831

totale 929 1064 8023 7324

B - Segregazione di un diibrido colore e forma del seme distr. osservata d. attesa (9:3:3:1) gialli-lisci 315 9/16 = 312,75 gialli-rugosi 101 3/16 = 104,25 verdi-lisci 108 3/16 = 104,25 verdi-rugosi 32 1/16 = 34,75 totale 556 556 Il problema statistico di capire se le differenze tra osservato e atteso sono trascurabili e quindi dovute al caso, oppure tali da fare supporre l'esistenza di fattori causanti una distribuzione realmente diversa da quella attesa... ... problema di INFERENZA STATISTICA per verificare l'attendibilit dell'ipotesi nulla H 0 (differenze casuali) o dell'ipotesi alternativa H 1 (differenze dovute a fattori non casuali), mediante l'impiego di un test di significativit

(2001)-3-7

IL TEST CHI QUADRO (CHI QUADRATO, o 2 )


Proposto da Pearson nel 1900, utilizza le frequenze assolute =
n

2 ( g.d.l . )

(f ioss f iatt )
f iatt

i =1

fioss = fiatt =

gdl =

i-esima frequenza osservata i-esima frequenza attesa n di gruppi meno uno n-1 (in basso, tra parentesi: (2g.d.l . ) ) estesa a tutti i gruppi (o classi) posti a confronto

I valori attesi, calcolati sul totale secondo la legge di distribuzione, possono assumere qualsiasi valore, eccetto l'ultimo, la cui frequenza sommata alle precedenti deve rispettare il totale

Procedimento logico nell'applicazione del 1: 2: 3: 4: 5: 6:

stabilire l'ipotesi nulla (H 0 ) e l'eventuale ipotesi alternativa (H 1 ) individuare il test pi appropriato per saggiare l'ipotesi nulla H 0 scegliere: livello di significativit, ampiezza del campione, gdl trovare la distribuzione teorica del test statistico nell' H 0 (fornita dalle tabelle) stabilire la zona di rifiuto (solitamente fissata al 5% oppure all 1%) calcolare il valore del test statistico sulla base dei dati sperimentali, stimando il valore di probabilit ad esso associato se la probabilit superiore a quella tabulata, non si pu rifiutare H 0 ; se la probabilit inferiore a quella tabulata, si rifiuta H 0 (implicitamente si accetta H 1)

7:

(2001)-3-8

ESEMPIO Calcolare il
2 (3) 2

con i dati sulla segregazione del di-ibrido colore / forma del seme : +

(315 312, 75)2


312,75

(101 104,25 )2
104,25 +

(108 104,25)2
104,25 = 0, 47

(32 34,75)2
34,75

2 (3)

( 2,25)2
312,75

( 3,25)2
104,25

(3,75)2
104,25

( 2,75 )2
34,75

Attraverso le tavole possibile stimare la probabilit di trovare differenze uguali o superiori a quelle riscontrate tra distribuzione osservata e distribuzione attesa, nell'ipotesi (H 0 ) che le differenze siano imputabili a fattori casuali Nella tavola della distribuzione dei valori critici del - per 3 gdl (rif. riga) e per p=0,05
2

:
2

(rif. colonna) -->

= 7,81

Il valore calcolato (0,47) molto minore di quello tabulato, dunque la probabilit che le differenze siano imputabili al caso superiore al valore prefissato del 5% (p > 0,05), e non si pu rifiutare H 0 (le differenze sono imputabili a fattori casuali) Ipotesi nulla H 0 : le differenze tra distribuzione osservata e distribuzione attesa sono trascurabili e quindi non significative Ipotesi alternativa H1 : le differenze tra distr. osservata e distr. attesa sono rilevanti, non dovute al caso, ma ad un fattore che determina una segregazione diversa Test pi adatto : in base alle caratteristiche dei dati e alle ipotesi formulate, il 2 Livello di significativit prescelto : 5% Valori di riferimento del
2

(livello di significativit e gdl ): sono forniti dalla tabella

Zona di rifiuto solo da una parte della distribuzione : si tratta di test ad una sola coda [ il 2 tende a crescere per valori osservati sia inferiori che superiori ai valori attesi; inoltre non sono possibili valori negativi ]

(2001)-3-9

Confronto tra

calcolato e

tabulato (3 gdl con p = 5%): 0,47 << 7,81

Probabilit di trovare scarti uguali o superiori a quello calcolato, nell'H 0 : p > 5% (solo differenze imputabili al caso tra osservato ed atteso) Non si pu concludere che esista una differenza significativa tra la distribuzione osservata e quella attesa Tale differenza potrebbe tuttavia esistere, ma con p < 5% (la stessa probabilit con cui si pu sbagliare affermando che la differenza non esiste)

ESEMPIO In una popolazione lacustre di Mixodiaptomus Kupelwieseri (copepode) sono state rilevate le frequenze di 4 alleli al locus MPI (mannoso fosfato isomerasi) allele 1 allele 2 allele 3 allele 4 freq. oss. 26 38 62 118

totale

244

D.: Essendo la frequenza attesa per ogni allele, secondo lipotesi di pura casualit, = 244 = 61, le differenze riscontrate fra le frequenze dei vari alleli sono casuali ? 4 R.:
2 ( 3)

(26 61)2
61

(38 61)2
61
2

(62 61)2
61

(118 61)2
61

1225 529 1 3249 + + + = 82,0328 61 61 61 61


2

nella tabella del

per 3 gdl e significativit p = 0,001 il

calcolato molto pi

grande di quello tabulato la probabilit che le differenze tra i gruppi siano imputabili al caso p < 0,001, pertanto le differenze non possono essere considerate casuali

(2001)-3-10

LA DISTRIBUZIONE La distribuzione dei valori del


2

pu essere studiata empiricamente mediante ripetuti

lanci di una moneta. Ad esempio, per 100 lanci, si pu ipotizzare di ottenere le seguenti frequenze assolute, che portano ai valori di 2 a fianco indicati : testa 51 47 49 50 42 48 53 La distribuzione di questi
2

croce 49 53 51 50 58 52 47

0,04 0,36 0,04 0,00 2,56 0,16 0,36

empirici simile a quella tabulata per 1 gdl

- 1 gdl :: distribuzione dei quadrati di n variabili casuali normali standardizzate indipendenti (in termini matematici: z 2 standardizzate indipendenti ( z 2 i
i=1 n 2

(1) )

- n gdl :: distribuzione della somma dei quadrati di n variabili casuali normali


(n ) )

[ la standardizzazione ottenuta dividendo la differenza tra osservato ed atteso per il valore atteso ]

- il n dei gdl funzione dei vincoli fra le frequenze dei vari gruppi :quando tra n variabili casuali sussistono k vincoli lineari (relazioni che riducono il n di osserv. indip.), i gdl del corrispondente 2 diminuiscono di k

(2001)-3-11

CONDIZIONI DI VALIDITA' DEL solo per grandi campioni [non esiste concordanza generale su quando un campione pu essere ritenuto di grandi dimensioni] il n dei gdl dipende dal n di gruppi il n totale di osservazioni deve essere N > 100 [per alcuni N > 200 o N > 500] richiede una correzione (Yates) quando 30 < N < 100 che consiste nel : - sottrarre 0,5 al valore assoluto dello scarto maggiore (tra freq. oss. e freq. att.) - aggiungere 0,5 al valore assoluto dello scarto minore perde attendibilit quando N < 30 [per alcuni questo limite 40, per altri 25-20] poich il n totale di osservazioni suddiviso in pi classi, ogni gruppo o classe deve avere, per le frequenze attese, un n minimo di 5 osservazioni

ESEMPIO In tre parcelle equivalenti sono stati contati 15, 21 e 24 individui di un


vegetale D.: Verificare se l'osservato si discosta in modo significativo dall'atteso teorico di 20, 20 e 20, secondo l'ipotesi di distribuzione uniforme R.:
2

senza correzione :

2 ( 2)

(5)2
20
( 2)
2 2

con correzione di Yates :

+ = 2,100 20 20 (4,5 )2 (1,5 )2 ( 4)2 = + + = 1,925 20 20 20

(1)2

( 4)2

La correzione di Yates riduce il numero di osservazioni, infatti :

in modo tanto maggiore quanto pi ridotto il

quando il numero di osservazioni piccolo, le variazioni casuali tendono ad aumentare la loro incidenza relativa: lo scarto tra osservato ed atteso non risente solamente delle differenze realmente esistenti tra i due fenomeni a confronto, ma anche delle variazioni casuali intuitivamente si comprende che = 0 quando il n di osservazioni molto basso, infatti le variazioni casuali tendono ad essere cos elevate, da non permettere pi di evidenziare in modo significativo l'esistenza di differenze reali tra osservato ed atteso, ovvero il rumore (le variazioni casuali) cos forte da non permettere di evidenziare le reali tendenze di fondo delle distribuzioni
(2001)-3-12 2

CONFRONTO TRA FREQUENZE RELATIVE DI DUE POPOLAZIONI INDIPENDENTI

TEST a UNA CODA - TEST a DUE CODE Nel confronto yta osservato e atteso sono possibili due diverse impostazioni concettuali : test bilaterale (o test a due code) : ci si chiede se esiste una differenza nelle frequenze relative tra i due gruppi, senza porre vincoli sul segno algebrico di tale differenza test unilaterale (o test a una coda) : ci si chiede se un gruppo abbia una frequenza relativa significativamente maggiore oppure minore, scartando a priori l'ipotesi alternativa

ESEMPIO

Confronto tra due differenti metodi di ricattura di animali

Quando si vuole sapere se tra i due metodi c' differenza significativa, ed indifferente che risulti migliore il primo metodo oppure il secondo, si tratta di un test bilaterale a due code Quando ad un vecchio metodo si vuole sostituire un metodo nuovo ritenuto pi efficace, e si vuole dimostrare la sua superiorit rispetto al precedente, si ha a che fare con un test unilaterale a una coda

Da tale distinzione dipende la distribuzione delle probabilit per rifiutare l'ipotesi nulla Scegliendo la probabilit del 5% : - in un test a due code si hanno due zone di rifiuto collocate ai due estremi, ognuna con un'area di 2,5% - in un test a una coda si ha una sola zona di rifiuto, con un'area di 5%

(2001)-3-13

CONFRONTO TRA DISTRIBUZIONI OSSERVATA E ATTESA IN PICCOLI CAMPIONI Per stabilire la BONT DELL' ADATTAMENTO (o BONT DELLA CONFORMIT) di una distribuzione osservata a una distribuzione teorica, quando il n di osservazioni molto ridotto, convenzionalmente inferiore a 30 le frequenze attese entro ogni gruppo sono inferiori a 5 si ricorre al TEST DI KOLMOGOROV-SMIRNOV anzich al Requisiti : - i gruppi devono essere ordinati secondo una scala ordinale (con il l'ordine dei gruppi ininfluente) - il confronto viene attuato tra le due distribuzioni cumulative, tra le quali si determina il valore di massima divergenza - la distribuzione di campionamento indicher la probabilit di trovare una divergenza superiore a quella calcolata (H 0 )
2 2

ESEMPIO In dieci ore, dalle 7 alle 17, dal luogo di appostamento un osservatore avvista 15 uccelli della stessa specie : Orario 7-8 9-10 11-12 13-14 15-16 Uccelli avvistati 0 1 1 9 4 Verificare se la distribuzione casuale, cio se le variazioni osservate rientrano nei limiti degli errori accidentali (H 0 ), oppure se pi attendibile pensare ad una incidenza dell'orario sul numero di avvistamenti (H1 ) Se l'ora non incidesse, losservatore avrebbe dovuto avvistare un numero fisso di uccelli pari alla media (15/5) ad intervalli costanti, 3 ogni 2 ore : Ore 7-8 9-10 11-12 13-14 15-16 Distribuzione attesa 3 3 3 3 3
(2001)-3-14

Il confronto a coppie tra le due distribuzioni cumulative permette di trovare la differenza massima assoluta (o scarto massimo assoluto) : 11-12 13-14 15-16 2 11 15 9 12 15 7 1 0 ^^^^ intuitivo pensare che lo scarto massimo assoluto sia tanto pi grande quanto maggiori sono i singoli scarti tra osservato ed atteso e che questo valore dipenda anche dal numero totale di osservazioni per rendere lo scarto massimo assoluto indipendente dal numero totale di osservazioni si ricorre al rapporto D deviazione massima = Ore Distribuzione cumulativa osservata Distribuzione cumulativa attesa Scarti assoluti (differenze, ) 7-8 0 3 3 9-10 1 6 5

scarto massimo numero totale di osservazioni

D=

7 = 0,466 15

sulla tabella dei valori critici di D per un campione N = 15 al diminuire del livello di significativit da 0,20 a 0,01 il valore critico cresce da 0,266 a 0,404 il valore D = 0,466 superiore a quello tabulato sia per p=0,05 che per p=0,01 si rifiuta H 0 e implicitamente si accetta H1 (le variazioni del numero di osservazioni durante la giornata non siano casuali) Utilizzando il
2

- occorrere raggruppare i dati per classi adiacenti - si perdono informazioni sulle differenze tra le varie ore - implicita una elevata dose di soggettivit - pi difficile dimostrare che esiste una differenza significativa tra osservato ed atteso, quando fosse vera H1 Utilizzando il test di Kolmogorov-Smirnov : - aumenta la potenza rispetto al test

- si possono impiegare anche piccoli campioni - non si perdono informazioni per formare gruppi - si possono usare campioni di medie dimensioni suddivisi in gruppi
(2001)-3-15

CONFRONTO TRA DUE DISTRIBUZIONI OSSERVATE LE TABELLE 2 2 per il TEST DI INDIPENDENZA

Quando si confrontano le frequenze relative di risposte binarie (S / NO ) tratte da due popolazioni indipendenti, si pu costruire una
TABELLA DI CONTINGENZA (a doppia entrata)

con il n di successi e il n di insuccessi in ognuno dei due gruppi, in modo da verificare se le proporzioni di successi e di insuccessi nei due gruppi sono indipendenti dal trattamento a cui sono sottoposti Questo
2

chiamato TEST DI INDIPENDENZA con le ipotesi : H 0 : c indipendenza tra l'appartenere al gruppo A o B e la risposta H1 : non c indipendenza tra l'appartenere al gruppo e la risposta Se H 0 non pu essere respinta, poich le frequenze tra i due gruppi sono simili, allora non esiste un rapporto tra le due variabili Se H 0 viene respinta, allora esiste un rapporto tra le due variabili

N.B. Sia che il


2

venga utilizzato per verificare la differenza tra due frequenze

relative di due gruppi, sia che venga impiegato per saggiare l'indipendenza tra due variabili, i calcoli e i risultati sono gli stessi

(2001)-3-16

ESEMPIO Si vuole controllare l'effetto di due sostanze tossiche su due gruppi di animali : - lagente A, somministrato a 70 animali, ha causato la morte di 22 individui (48 sono sopravvissuti) - lagente B somministrato a 50 animali ha causato la morte di 24 individui (26 sono sopravvissuti) D.: Le due sostanze hanno gli stessi effetti sulla mortalit o sopravvivenza (H1 ), oppure le differenze riscontrate debbono essere ritenute casuali (H 0 ) ? Le frequenze osservate vengono poste in una tabella a due entrate : osservati agente A agente B totale morti 22 24 46 sopravvissuti 48 26 74 totale 70 50 120

Le frequenze attese secondo H 0 possono essere calcolate dai totali marginali : frequenza attesa = totale riga totale colonna totale generale morti 26,83 19,17 46 sopravvissuti 43,17 30,83 74 totale 70 50 120

attesi agente A agente B totale

Calcolata la prima frequenza attesa ( 26, 83 =

70 46 ), le altre si ottengono per 120

differenza dai totali rispettivi (:: la tabella di contingenza 2 2 ha 1 gdl): 70 74 43,17 = oppure 43,17 = 70 26,83 120 50 46 oppure 19,17 = 46 26,83 120 ( 30,83 pu essere calcolata sia dai suoi due totali marginali che dal totale generale ) 19,17 =
(2001)-3-17

R.: Per calcolare il valore del


2

:
(1)
2

si pu utilizzare la formula generale

i =1

( f ioss f iatt )
f iatt

2 (1)

( 22 26,83)2
26,83

( 48 43,17 )2
43,17

(24 19,17 )2
19,17

(26 30,83)2
30,83

23,33 23,33 23,33 23,33 + + + = 0,87 + 0,55 +1,24 + 0,76 = 3,42 26,83 43,17 19,17 30,83

si pu utilizzare la formula per il calcolo rapido (pi veloce e sempre corretta):


2 (1)

(a d b c )2 N
n1 n2 n3 n4 a, b, c, d n1, n2, n3, n4 N : frequenze osservate : totali marginali : totale generale X a c
n3

Y y totale

x b d
n4

totale
n1 n2

2 (1)

( 22 26 48 24 )2 120 ( 572 1152 )2 120 336400 120


70 50 46 74 = 11914000 = 11914000

40368000 = 3,389 11914000

Nella tabella dei valori critici della distribuzione 2 per 1 gdl 3,389 inferiore a quello tabulato per la probabilit del 5% (3,84)

(2001)-3-18

CORREZIONE PER LA CONTINUIT (CORREZIONE DI YATES ) Va apportata per piccoli campioni (n totale di osservazioni tra 30 e 100) e N consiste nel sottrarre 2 a |ad-bc| : a d b c N N 2 = n1 n2 n3 n4
2

(1)

ESEMPIO Per valutare gli effetti di due diserbanti, si conta il numero di piante cresciute e di quelle non cresciute nei rispettivi appezzamenti : piante cresciute 12 26 38 piante non cresciute 6 9 15 totale 18 35 53

diserbante A diserbante B totale

E' un confronto tra due campioni indipendenti con un numero di osservazioni sufficientemente grande per consentire l'uso del test 2 con la correzione di Yates :
53 12 9 6 26 53 2 ( 108 156 26, 5) 53 462,25 53 24499,25 2 = = = = = 0,0945 18 35 3815 359100 359100 359100
2

( 1)

Il risultato inferiore a quello tabulato per p=90% : esiste una probabilit molto elevata di trovare scarti uguali a quelli attesi e di conseguenza non si pu rifiutare H 0 (= le differenze riscontrate tra gli effetti dei due diserbanti sono solamente dovute a variazioni casuali)

(2001)-3-19

ESEMPIO Confronto tra due metodi di cattura e ricattura per la stima della dimensione di popolazioni animali : animali ricatturati 40 39 79 animali non ricatturati 160 111 271 totale 200 150 350

metodo A metodo B totale

D.: Esiste una differenza significativa tra i due metodi ? R.: Trattandosi di un campione di grandi dimensioni possibile usare la formula per il calcolo rapido :
2 ( 1)

(40 111 160 39)2 350


200 150 79 271

(4440 6240)2 350


642270000

3240000 350 1134000000 = = 1, 765 642270000 642270000

Nella tabella del 2 a 1,765 corrisponde una probabilit di ~ 20%

N.B. Le tabelle di contingenza 2 2 : - consentono di effettuare solo test a due code - si possono usare anche per i confronti tra frequenze relative

(2001)-3-20

METODO ESATTO (o DELLE PROBABILIT ESATTE) DI FISHER permette di stimare la specifica probabilit di ottenere una data risposta sperimentale tra tutte le possibili con il numero di dati a disposizione si usa quando il campione ha un basso numero di osservazioni (N < 30) e il non pu essere usato nemmeno nelle tabelle 2 2 a condizione di mantenere costanti i totali marginali, la probabilit esatta di osservare una particolare serie di frequenze pu essere calcolata dalla distribuzione ipergeometrica la probabilit di trovare un particolare insieme dei dati osservati : (a + c)! (b + d)! Ca c Cb a+ b+d a! c! b! d! = (a + b)! (c + d)! (a + c)! (b + d)! p= = a+ b N! N ! a! b! c! d! CN (a + b)! (c + d)! oppure, pi semplicemente, p= n 1 ! n 2 ! n 3 ! n 4 ! a! b! c! d! N !
2

ESEMPIO Confronto tra gli effetti letali di due biocidi : animali sopravvissuti 7 3 10 animali morti 1 6 7 totale 8 9 17

pesticida A pesticida B totale

D.: Tra i due biocidi esiste una differenza significativa ? R.: La probabilit di avere, tra tutte le possibili risposte, quella osservata : p= 8! 9!10! 7! = 0,03 7!1! 3! 6! 17! (in percentuale, 3%)
(2001)-3-21

Per valutare la significativit delle differenze riscontrate, occorre cumulare le risposte estreme, seguendo tre passaggi : individuare la frequenza osservata minore sostituire ad essa il valore 0 variando le altre 3 senza alterare i marginali aumentare di 1 tale valore finch compare 0 in un'altra casella Con i dati dell'esempio, tenendo costanti i totali marginali, sono otto le risposte differenti che si sarebbero potute ottenere : 1) 2) 3) 4) 8 0 7 1 6 2 5 3 2 7 3 6 4 5 5 4 5) 4 6 4 3 3 7 6) 5 2 2 8 7) 6 1 1 9 8) 7 0

[ Non esistono altri valori che diano gli stessi totali di riga e di colonna ]

Con il metodo esatto di Fisher : si calcola la probabilit di avere ognuna di queste risposte teoricamente possibili (totale: 1 se proporzione; 100 se percentuale) si passa da un estremo di un effetto pi marcato per B (7 morti su 9, mentre con A sopravvivono tutti 8), all'altro estremo di un effetto pi marcato per A (7 morti su 9, mentre con B sopravvivono tutti 9) per stabilire se esiste una differenza significativa, alla probabilit calcolata per la risposta 2 (che coincide con quella sperimentale) si somma la probabilit di ottenere le risposte pi estreme nella stessa direzione (nell'esempio una sola, la 1): se la somma supera il 5%, si accetta H 0 le probabilit complessive calcolate possono essere estese in una sola direzione per test ad una coda; possono essere estese ad ambedue le direzioni per test a due code (nel qual caso la probabilit complessiva coincide con quanto possibile calcolare con il test 2 , che un test a due code)
(2001)-3-22

TABELLE M N Il metodo del


2

per verificare la differenza tra due proporzioni pu essere

esteso al caso generale del confronto tra M popolazioni indipendenti, per saggiare : H 0 :p1 = p 2 = p 3 = = p M H1 : almeno una frequenza relativa diversa dalle altre La tabella di contingenza 2 N ha N-1 gdl calcolati da (N-1) (2-1), poich i totali marginali sono invariabili N.B. Evitare frequenze attese inferiori a 5, per non ridurre la potenza del test

ESEMPIO Effetto di 5 biocidi sulla sopravvivenza di una specie animale : DISTRIBUZIONE OSSERVATA biocida A 8 12 20 biocida B 10 6 16 biocida 14 20 34 biocida D 11 22 33 biocida E 7 10 17 totale 50 70 120

morti sopravvissuti totale

Dai totali marginali e da quello generale si calcola la distribuzione attesa secondo H 0 (le percentuali di animali morti con i 5 biocidi sono uguali) DISTRIBUZIONE ATTESA SECONDO H 0 biocida A 8,33 11,67 20 biocida B 6,67 9,33 16 biocida C 14,17 19,83 34 biocida D 13,75 19,25 33 biocida E 7,08 9,92 17 totale 50 70 120

morti sopravvissuti totale

(2001)-3-23

Il valore del

si calcola con la formula generale


MN

( g.d.l.) =
2

(f ioss f iatt )
f iatt

i=1

2 ( 4)

(8 833)2
8,33

(10 6,67)2
6,67

+ +

(10 9,92 )2
9,92

= 3,9266

Il

inferiore al valore critico del 5% e pertanto si accetta H 0 : le differenze solo a variazioni casuali

riscontrate tra valori osservati e valori attesi sono imputabili di campionamento Per una tabella di contingenza M N, il
2

pu essere utilizzato come

test per l'indipendenza con ( 1) ( 1) gdl H 0 : non c associazione tra la variabile distribuita per righe e quella per colonna N.B. Qualora comparissero frequenze attese inferiori a 5, occorrerebbe riunire due o pi gruppi di variabili tra loro simili in un'unica categoria

ESEMPIO Verificare se in 4 diversi appezzamenti di terreno, con coltivazioni differenti, - si ha la stessa distribuzione di 5 specie d'insetti (H 0 ) - una o pi specie sono pi facilmente presenti in certe coltivazioni ( H1 ) DISTRIBUZIONE OSSERVATA specie A specie B specie C specie D specie E 12 8 5 15 10 15 10 5 20 8 9 6 10 17 11 23 12 12 31 17 59 36 32 83 46

coltivazione I coltivazione II coltivazione III coltivazione IV totale

totale 50 58 53 95 256

(2001)-3-24

DISTRIBUZIONE ATTESA SECONDO H 0 specie A specie B specie C specie D specie E coltivazione I 11,5 7 6,3 16,2 9 coltivazione II 13,4 8,2 7,2 18,8 10,4 coltivazione III 12,2 7,5 6,6 17,2 9,5 coltivazione IV 21,9 13,3 11,9 30,8 17,1 totale 59 36 32 83 46

totale 50 58 53 95 256

2 (12)

(12 11,5 )2
11,5
(12)
2

(8 7 )2
7

+ +

(17 17,1)2
17,1

= 5,5999

Il

non significativo, dunque in tutte le coltivazioni si ha una

presenza equivalente delle 5 specie e non esiste alcuna associazione tra tipo di coltivazione e specie

SCOMPOSIZIONE DEI GDL si usa quando si vogliono individuare la causa di una deviazione da H 0 fornisce informazioni dettagliate sugli effetti di ogni gruppo di dati resa possibile dalla propriet additiva del 2 e dei relativi gdl comporta la ripartizione di una tabella M N in tante tavelle 2 2 quanti sono i gdl disponibili ESEMPIO (tabella 3 3) con 33=9 dati si ha un TRATT. I a1 b1 c1 n4

con (3-1)(3-1)=4 gdl TRATT. III a3 b3 c3 n6 Totali n1 n2 n3 N

blocco A blocco B blocco C totali Se il


2

TRATT. II a2 b2 c2 n5

risulta significativo, emerge il problema di conoscere a quali confronti

singoli 2 2 sia da attribuire la differenza


(2001)-3-25

si possono fare solo 4 confronti la somma dei 4 2 con 1 gdl deve risultare uguale al

complessivo

la partizione dei 4 gdl attuata secondo i seguenti confronti 2 2 : 1) 2)


2

a b

(a + a )
1 2

a b
1

b
3)

(b + b )
1 2

(a + b ) (a + b )
1 1 2 2

4)

(a + a + b + b ) (a + b )
1 2 2 3 3

(c + c )
1 2

TEST DI OMOGENEITA' I test di indipendenza forniscono implicitamente una misura dell'omogeneit tra le proporzioni e possono quindi servire per valutare se c' eterogeneit tra le diverse proporzioni a confronto, rispetto ad un valore atteso generale Con il test
2

si pu saggiare H 0 per ogni singolo campione : ogni

con 1

gdl fornisce il grado di scostamento di ciascuna osservazione Se esistono tante piccole differenze sistematiche e nessuna deviazione molto evidente, nessun test risulter significativo e solo considerando simultaneamente l'insieme di tutti i dati, si potr dimostrare uno scostamento non casuale La somma dei singoli
(1)
2

risulta pi grande della deviazione media, quando le

varie percentuali sono tra loro eterogenee, poich somma di 2 componenti : - lo scostamento di ogni campione dal valore medio atteso - la differenza tra le singole percentuali Pertanto, sottraendo allo scostamento complessivo tra tutti i gruppi rispetto al valore atteso lo scostamento relativo a tutti i dati insieme, si determina l'eterogeneit tra le varie proporzioni

(2001)-3-26

ESEMPIO Verificare se, fra alcune popolazioni di vegetali, c' omogeneit per quanto riguarda la frequenza del gene A, misurato in campioni di piccole dimensioni e valutata, in una data regione, al 22% Saggiare se 5 campioni provenienti da aree diverse possono essere considerati appartenere alla stessa popolazione campioni A osservati 1 12 2 15 3 8 4 17 5 23 totale 75 Il
(5 )
2

A attesi 15,8 17,2 9,7 20,2 22,9 85,8

non-A osservati non-A attesi 60 56,2 63 60,8 36 34,3 75 71,8 81 81,1 315 304,2
(1)
2

totale 72 78 44 92 104 390

( 1)

1,17085 0,36100 0,38219 0,64954 0,00055 1,74287

determinato dalla somma dei 5

relativi a ogni campione, stima :

- la variabilit tra i campioni - lo scostamento di ognuno di essi dalla frequenza allelica attesa (22%)
(5 )
2

= 1,170 + 0,361 + 0,382 + 0,649 + 0,00055 = 2,56

Nel caso specifico, il valore non significativo; pertanto i 5 campioni provengono da una stessa popolazione con frequenza del gene A del 22% Sottraendo al
( 4)
2

(5 )

il

(1)

calcolato sulle frequenze totali osservate, si ottiene un

che permette il confronto fra i 5 campioni e la verifica di omogeneit :


( 4)
2

(5 )

(1)

= 2,564 1,742 = 0,082

Il

( 4)

non significativo e dunque i cinque campioni sono omogenei

Riassumendo, per misurare l'eterogeneit tra i 5 campioni, dopo aver rilevato le frequenze osservate in ogni campione ed in totale, calcolare : 1 i valori attesi per 5 campioni e per il totale, sulla base della frequenza generale attesa 2 2 la somma (5 ) data dai 2 di ognuno dei cinque campioni 3 4 il
(1) per la frequenza totale (5 ) e
2 2 2 2

la differenza tra

(1) : il

( 4) risultante misura l'eterogeneit tra i cinque campioni


(2001)-3-27

ESEMPI PER TABELLE MxN


1 - Frequenze di tre alleli del marcatore ossidasi in quattro popolazioni naturali di Fagus sylvatica allele 1 7 8 22 143 180 FREQUENZE OSSERVATE allele 2 allele 3 244 49 156 24 231 31 185 116 816 220 totale 300 188 284 444 1216

Abetone Pisanino Pradarena Pradaccio totale

D.: Verificare se le frequenze dei tre alleli sono casuali R.: FREQUENZE ATTESE SECONDO H 0 allele 1 allele 2 allele 3 totale 44,4 201,3 54,3 300 27,8 126,2 34,0 188 42,0 190,6 51,4 284 65,8 297,9 80,3 444 180 816 220 1216

Abetone Pisanino Pradarena Pradaccio totale


2 (6 )

(7 44,4 )2
44, 4 +

(244 201,3 )2
201,3 +

(49 54,3) 2
54,3 +

(8 27,8 )2
27,8 +

(156 126,2 )2
126,2 +

+ +

(24 34 )2
34

(22 42 )2
42 +

(231 190,6 )2
190,6

(31 51,4 )2
51, 4
p > 0,001

(143 65,8 ) 2
65,8

(185 297,9)2
297,9

(116 80,3)2
80,3

= 240,571

Esiste una differenza altamente significativa rispetto alla media delle 4 zone : - all'Abetone e al Pisanino : eccesso dell'allele 2 e carenza alleli 1 e 3 - al Pradaccio e a Pradarena : eccesso alleli 1 e 3 e carenza allele 2 2 - Cloni di Daphnia magna sono stati sottoposti a quattro diversi trattamenti alimentari e dopo 39 giorni si controllato se il tasso di mortalit fosse uguale per i 4 diversi trattamenti D.: Verificare se le differenze riscontrate sono dovute al caso o sono imputabili al diverso trattamento alimentare FREQUENZE OSSERVATE cloni morti cloni sopravvissuti 6 23 2 26 8 22 3 20 19 91 totale 29 28 30 23 110

Trattamento I trattamento II trattamento III trattamento IV totale

(2001)-3-28

R.: FREQUENZE ATTESE SECONDO H 0 cloni morti cloni sopravvissuti 5 24 4,8 23,2 5,2 24,8 4,0 19 19 91 totale 29 28 30 23 110

Trattamento I trattamento II trattamento III trattamento IV totale


2 (3)

(6 5)2 + (23 24 )2 + (2 4,8 )2 + ( 26 23,2)2 + =


5 24 4,8 23,2
2 2 2 2

(8 5,2 ) + (22 24,8) + (3 4 ) + (20 19) = 4,02325


5,2 24,8 4 19

p > 0,25

La probabilit che sia vera H 0 superiore al 25%, (molto elevata) e H 0 non pu essere rifiutata 3 - Nella tabella sono riportati i risultati di un esperimento sulla schiusa di uova di Heterocypris incongruens, mantenute a diverse condizioni di temperatura FREQUENZE OSSERVATE schiuse non schiuse 131 32 100 64 90 91 320 188 totale 163 164 181 508

16c 24c 28c totale

D.: Si pu affermare che le percentuali di uova schiuse alle 3 diverse temperature sono significativamente differenti, e che le uova mantenute a temperatura inferiore si schiudono con frequenza maggiore ? R.: FREQUENZE ATTESE SECONDO H 0 schiuse non schiuse totale 102,7 60,3 163 103,3 60,7 164 114,0 67 181 320 188 508

16c 24c 28c totale

2 ( 2)

(131 102,7 )2 + (32 60,3)2 + (100 103,3)2 + =


102,7 60,3 103,3
p > 0,0001

(64 60,7 )2 + (90 114 )2 + (91 67 )2 = 35,0145 +


60,7 114 67
Il valore del
( 2) alto e la probabilit che
2

H 0 sia vera molto bassa

(2001)-3-29

LA DISTRIBUZIONE

t DI STUDENT

Oltre alla media , anche la varianza e, conseguentemente, la deviazione standard della popolazione sono ignote; la varianza del campione s rappresenta la stima pi logica ed attendibile della varianza della popolazione Con ignota, la distribuzione delle probabilit non fornita dalla distribuzione normale, bens fornita dalla distribuzione del test t di Student (pseudonimo di W.S. Gosset) Per attuare una inferenza sulla media di una popolazione partendo da dati campionari, occorre pertanto considerare sia la variazione di come stima di , sia la x variazione di s come stima di Con n grande (grandi campioni) : s la migliore stima di (oltre 100 gdl, s e sono praticamente identici) si ha convergenza dei valori della distribuzione t verso la distribuzione normale z Con n piccolo (piccoli campioni) : la differenza tra s e rilevante si deve utilizzare il test t Gosset, usando campioni ridotti (n piccolo) studi lo scarto tra la media dei campioni e la media dell'universo in rapporto all'ERRORE STANDARD e deriv una distribuzione ottenuta dalle variazioni determinate dal rapporto: t= differenza fra due medie campionarie errore standard della differenza di due medie campionarie t= x1 x 2 sd n

Principale differenza tra la distribuzione normale e la distribuzione t : - la distribuzione normale considera la variazione di campionamento solo della media - la distribuzione t considera anche la variazione di campionamento della deviazione standard Condizione di validit della distribuzione t : distribuzione dei dati normale osservazioni raccolte in modo indipendente
4-1 (2003)

La distribuzione t La distribuzione t : il rapporto tra la differenza della media campionaria con la media attesa x suo errore standard t n1 =

ed il

x s n di area unitaria e di forma simmetrica (come la gaussiana degli Z) una famiglia di distribuzioni (una distribuzione per ogni gdl) a differenza di quanto avviene per la gaussiana coincidente con la gaussiana (cfr. le rispettive tabelle) per infiniti gdl (in pratica per n > 100) sempre pi dispersa (platicurtica) al diminuire dei gdl ROBUSTA, cio valida anche per distribuzioni di dati con marcate deviazione dalla normalit, infatti UN TEST ROBUSTO QUANDO I RISULTATI POSSONO ESSERE
ACCETTATI ANCHE SE NON SI VERIFICANO RIGOROSAMENTE TUTTE LE ASSUNZIONI DI VALIDIT

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3.5 -1.75 0 1.75 3.5

Distribuzione normale standardizzata (linea continua) e distribuzione t per 65 gdl

Abitualmente nei testi di statistica sono riportate due differenti tabelle di valori critici della distribuzione t : quella per test unilaterali e quella per test bilaterali In queste tabelle, la parte superiore di ogni colonna indica l'area sottesa dalle rispettive code della distribuzione, mentre le righe si riferiscono ai gdl I valori critici per l'area in una coda al rischio coincidono con quelli del rischio 2 nella distribuzione a due code (per esempio, i valori per =0,05 coincidono con la colonna di =0,025 nella tabella per test ad una coda)
4-2 (2003)

test unilaterale bilaterale

valore critico per 10 gdl

0,05 0,05 (somma di =0,025 nelle due code)

1,8125 2,228

ESEMPIO Nel confrontare gli effetti di due diversi inquinanti, in un test bilaterale si inferisce solo sulle due medie : effetti uguali (H0) o effetti differenti (H1) ? - nel test ad una coda, la zona di rifiuto solamente da una parte della distribuzione (a sinistra quando il segno negativo, a destra quando positivo) - nel test a due code, la zona di rifiuto distribuita dalle due parti Il test a due code pi conservativo (vi si ricorre quando non si ha alcuna idea sui possibili risultati) mentre il test ad una coda pi potente

Test unilaterale per la differenza appaiata al livello di significativit del 5% con 10 gdl

Test bilaterale per la differenza appaiata al livello di significativit del 5% con 10 gdl

4-3 (2003)

INTERVALLO di CONFIDENZA DI UNA MEDIA CON

NOTA

Volendo conoscere il valore pi probabile di un parametro incognito, la statistica inferenziale fornisce due valori che determinano lINTERVALLO DI CONFIDENZA (o LIMITI FIDUCIALI ) entro cui si colloca il valore del parametro secondo la probabilit scelta Specificare i limiti fiduciali solamente un modo alternativo di inferire circa i parametri di una popolazione, sulla base di osservazioni campionarie I limiti fiduciali della media della popolazione sono stimati dalla distribuzione normale standardizzata : - il 95% dellarea sottesa dalla curva si trova tra -1,96 e +1,96 dell'ascissa [ P(-1,96 Z +1,96) = 0,95 ] - il 99% dellarea sottesa dalla curva si trova tra -2,58 e +2,58 dell'ascissa [ P(-2,58 Z +2,58) = 0,99 ] Cos come valuta la dispersione di campionamento delle osservazioni, l'ERRORE STANDARD (ES) valuta la dispersione delle medie campionarie :
ES =

n ed ES = diventa

La distribuzione di campionamento di medie con media

x P Z + Z = P( z) e pu essere usata per determinare i limiti fiduciali : n P x 1,96 x + 1,96 = 0,95 n n

- al 95% diventa

- al 99% sostituire 1,96 con 2,58

4-4 (2003)

ESEMPIO Da una popolazione con

=3 stato estratto un campione di 10 dati con m=25

D.: Calcolare l'intervallo di confidenza alla probabilit del 99% R.: 25 m 2, 58


22, 55 3 = 25 m 2, 58 0, 9487 = 25 m 2, 45 = 10 27, 45

Secondo le informazioni fornite da una campione di 10 misure con m=25, con probabilit 99% si trova nell'intervallo compreso tra 22,55 e 27,45 [ ... resta la probabilit dell1% che si trovi fuori da questo intervallo ... ]

INTERVALLO DI CONFIDENZA DI UNA MEDIA CON Per stimare sia la varianza s2 che la media dai dati campionari, la x standardizzazione ottenuta mediante : t n1 = x s n =x t
2 ; n-1

IGNOTA

Da essa si deriva l'intervallo di confidenza di t


2

s n
2

; n1

valore della distribuzione per n-1 gdl al rischio

Un aumento del numero di dati campionari agisce sulla riduzione dell'intervallo di confidenza sia attraverso il valore del t, che diminuisce al crescere dei gdl, sia mediante s la riduzione dell'errore standard n Con campioni provenienti da popolazioni limitate (il campione ne rappresenta una frazione non trascurabile), per ridurre l'errore standard nel calcolo dell'intervallo di confidenza si aggiunge il ( N n) FATTORE DI CORREZIONE PER LE POPOLAZIONI FINITE (N 1) N : dimensione della popolazione; n : dimensione del campione

4-5 (2003)

ESEMPI [1] Stimare, con probabilit 95%, l'intervallo di confidenza dell'altezza media di una variet di pomodoro, attraverso esemplari alti 22, 25, 21, 23, 24, 25, 21 pollici x = 23 s=1,732 t0,025 ; 6 = 2,447 n = 7 Il valore di t pu essere scelto nella distribuzione ad una coda (con =0,025) o nella distribuzione a due code (con =0,05) 1,732 = 23 2,447 = 23 1,602 7 I limiti risultano l1 = 21,398 l 2 = 24,602 [2] Stimare con probabilit 99% l'intervallo di confidenza della lunghezza media di un campione di 13 individui del parassita Aphis fabae 1,21 1,39 1,21 1,21 1,21 1,21 1,20 1,18 1,23 1,21 1,23 1,24 1,33 mm x = 1,235 s = 0,059 t 0,005;12 = 3,055 n = 13 0,059 = 1,235 3,055 = 1,235 0,05203 12 I limiti risultano l1 = 1,175 l 2 = 1,287

In un campione di tre individui con altezze 1,70 1,80 1,90 m calcolare l'intervallo di confidenza della media al 95% x = 1,80 s = 0,10 t 0,025 ; 2 = 4,303 n = 3 0,10 = 1,80 4,303 = 1,80 0,2484 3 I limiti risultano l1 = 1,552 l 2 = 2,048 [3b] In un campione di sei individui con altezze 1,70 1,80 1,90 1,70 1,80 1,90 1,90 m calcolare l'intervallo di confidenza della media al 95% x = 1,80 s = 0,089 t 0,025 ; 5 = 2,571 n = 6 0,089 = 1,80 2,571 = 1,80 0,0934 6 I limiti risultano l1 = 1,7066 l 2 = 1,8934 Il significato di intervallo di confidenza ... NON : (o 2) hanno p=1- di essere compresa nell'intervallo stimato, perch il parametro della popolazione vi o non vi compreso MA : campionando 100 volte dalla stessa popolazione, si stima con p=1- un intervallo che (1- )100 volte conterr (o 2) mentre 100 volte non la conterr

[3a]

4-6 (2003)

INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Si adotta l'approssimazione della normale alla binomiale In una proporzione, il valore di completamente determinato dal valore della media p, infatti con n costante = p (1 p )
0,5

0,5

La di una proporzione si approssima a zero quando p molto piccolo o molto grande e presenta valore massimo quando p prossimo al valore centrale 0,5 L'intervallo di confidenza di una percentuale dato da p Z
p q n

ESEMPIO In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite D.: - Calcolare i limiti fiduciali della media al 95% e al 99% nella popolazione dei fumatori con sintomi di polmonite - Calcolare gli stessi limiti fiduciali (95% e 99%) partendo da un campione di 100 fumatori anzich 80 R.: Con un campione di 80 fumatori si ha :
Per il 95% : 0, 35 1, 96 0, 2455 0, 35 0, 65 = 0, 35 0,1045 = 80 0, 4545 0, 2124 0, 35 0, 65 = 0, 35 0 ,1376 = 80 0, 4876

Per il 99% : 0, 35 2, 58

4-7 (2003)

Con un campione di 100 fumatori si avrebbe :


Per il 95% : 0, 35 1, 96 0, 2565 0, 35 0, 65 = 0, 35 0, 9349 = 100 0, 4435

Per il 99% : 0, 35 2, 58

0, 2269 0, 35 0, 65 = 0, 35 0 ,1231 = 100 0, 4731

N.B. Con un campione di 100 individui gli intervalli sono pi stretti rispetto a quelli prodotti dal campione di 80 individui

INTERVALLO DI CONFIDENZA DI UNA VARIANZA E possibile stimare la varianza dellapopolazione 2 partendo dai dati campionari, per verificare la precisione di uno strumento di misura, o per confrontare genotipi identici cresciuti in situazioni ambientali differenti In popolazioni normalmente distribuite, il calcolo dell'intervallo di confidenza pu essere ottenuto con la distribuzione 2, poich
2 ( n1)

s 2 ( n 1)
2

o in modo equivalente

( x x )2
2

Per calcolare l'intervallo di confidenza a probabilit p=1- , occorre individuare i 2 che escludono /2 da ciascuna delle due parti della distribuzione valori di In una distribuzione non simmetrica pi laborioso scegliere i due valori di 2 che permettono di dividere equamente tra le due code della distribuzione

4-8 (2003)

Per un rischio =0,05, si scelgono i due valori di sinistra e l'altro escluda 2,5% a destra Intervallo di confidenza di :
2 2 --> s (n 1) > 2 1 2 2

tali che uno escluda 2,5% a

>

s 2 ( n 1)
2 2

-->

s 2 ( n 1)
2 1 2

>

>

s 2 ( n 1)
2 2

N.B. Requisito essenziale che i dati siano distribuiti normalmente; questa assunzione tanto pi importante e difficile da rispettare quando n piccolo

Quando la normalit della distribuzione campionaria non pu essere dimostrata, i risultati del calcolo dell'intervallo fiduciale di una varianza vanno applicati con cautela

ESEMPIO Determinare con p=99% l'intervallo di confidenza della varianza di composti clorurati totali (g/m3 a 0 C e 1013 mbar) nell'atmosfera di una metropoli sulla base di 16 prelievi con s2 = 8210,67
2 0,995 ; 15

= 4,605
2

2 0,005 ; 15

= 32,85 3748,980 <


2

8210,67 15 < 32,85

<

8210,67 15 4,605

< 26743,540 = 15

4-9 (2003)

CONFRONTO TRA DUE MEDIE Le situazioni pi ricorrenti non riguardano il confronto tra media campionaria e media della popolazione, bens il confronto tra due medie campionarie H0 : 1 = 2 ( oppure H0 : 1 2 = 0 ), ovvero 1 e 2 sono : - estratte dalla stessa popolazione - diverse, nelle medie campionarie x1 e x 2 , soltanto per differenze casuali - identiche Attraverso il test t si determina la probabilit p di ottenere differenze maggiori di quelle sperimentalmente osservate : se p risulta piccola (convenzionalmente p < 5%), si rifiuta H0 se p risulta grande, si accetta H0 si inferisce che esiste una ragionevole evidenza per dubitare che sia vera, cio esiste una differenza reale tra le due medie che appartengono a popolazioni diverse
N.B. Nel confronto tra un campione di soggetti sottoposti a trattamento ed un campione di soggetti: - utilizzati come controllo : test unilaterale (test a una coda) - sottoposti ad un altro trattamento : test bilaterale (test a due code)

La direzionalit del confronto insita nella natura dell'esperimento, ma va esplicitata, poich da essa deriva la distribuzione delle probabilit alle quali possibile rifiutare H0 : - test unilaterale : per dimostrare se una media maggiore dell'altra, escludendo a priori che essa possa essere minore (esclude a priori che il confronto possa fornire una parte delle risposte teoricamente possibili, in quanto prive di significato nel caso specifico) - test bilaterale : per dimostrare se una media maggiore dell'altra, ma senza escludere a priori che essa possa essere minore

4-10 (2003)

TEST

PER DUE CAMPIONI DIPENDENTI (DATI APPAIATI)

Caratteristica distintiva : poter accoppiare ogni osservazione di un campione con una e una sola osservazione dell'altro campione necessariamente i due gruppi hanno sempre lo stesso numero di dati Scopo principale dellappaiamento dei dati: - creare il massimo di omogeneit entro ogni coppia - creare il massimo di eterogeneit tra le coppie

Situazione A : AUTO-ACCOPPIAMENTO (dati auto-appaiati) ogni soggetto serve come controllo di se stesso e i dati vengono ricavati dagli stessi individui in momenti diversi Per esempio: - confronto tra i livelli di pressione rilevati nello stesso gruppo di individui sia in condizioni normali che dopo uno stress - confronti prima-e-dopo riferiti agli stessi individui Stuazione B : OSSERVAZIONI NATURALMENTE APPAIATE non sono tratte dagli stessi individui, ma da coppie di individui scelti appositamente Per esempio: - misure rilevate in coppie di animali tratti dalla stessa nidiata e sottoposti a situazioni ambientali differenti - confronto tra il comportamento materno e paterno nella cura alla prole, quando si dispone di dati relativi a coppie Situazione C : APPAIAMENTO ARTIFICIALE - studi di confronto con molte variabili, dove si rileva un parametro in una situazione ambientale compromessa e lo stesso parametro nella situazione naturale Il confronto tra trattamento e controllo sugli stessi individui o tra situazioni simili si propone di eliminare alcune sorgenti di variabilit che potrebbero nascondere le reali differenze tra le due serie di misure: esaminare le differenze fra due misurazioni riduce l'effetto della variabilit intrinseca degli individui

4-11 (2003)

Tecnicamente il confronto semplice: l'analisi ridotta alla sola serie risultante dalle differenze tra gli elementi di ciascuna coppia H0 : la media dell'universo delle differenze 0 ( = 0) H1 diversa nei due tipi di test : - test bilaterale : la differenza media non 0 ( 0) - test unilaterale : la differenza maggiore oppure minore di 0 ( > 0; < 0) Il test della differenza media t n1 = dd s n

s n s n

media della colonna delle differenze, differenza attesa, spesso ma non necessariamente 0 deviazione standard calcolata sulla colonna delle differenze n di paia di dati, corrispondente al numero delle differenze errore standard della media delle differenze

ESEMPI [1] Ad 8 individui adulti stata misurata la pressione (a) in condizioni normali e (b) dopo l'apprendimento di una notizia capace renderli ansiosi
Individuo A B C D E F G H normale 140 145 140 160 150 145 160 145 ansia 180 175 165 195 180 180 200 190 differenza d 40 30 25 35 30 35 40 45

d media = 35 D.: Verificare se gli individui in condizioni di ansia manifestano un aumento della pressione sistolica sanguigna mediamente superiore ai 30 mm Hg La formulazione del problema fa capire che si tratta di un test ad una coda, con H0 : = 30 e H1 : > 30
4-12 (2003)

R.: d= 280 = 35 8 s= 300 = 6,55 7 n=8

35 30 t 7 = 6,55 = 2,16 8 Valore critico per 7 gdl ; test ad una coda ; = 0,05 t = 1,895

Il valore calcolato superiore a quello tabulato e quindi la probabilit che la differenza tra media osservata e media attesa sia casuale < 0,05 si rifiuta H0 e si accetta H1 (l'aumento di pressione in condizioni di stress supera 30 mm Hg)

[2] Con i dati dellesempio precedente ci si sarebbe potuti anche chiedere, pi semplicemente, se in condizioni di stress la pressione subisce un aumento Anche in questo caso si tratta di un test ad una coda, ma varia la differenza attesa in H0 : = 0 e H1 : > 0 35 0 t 7 = 6,55 = 15,15 8 Il t calcolato molto superiore a quello tabulato sia per = 0,01 che per = 0,005 per cui la differenza altamente significativa si rifiuta H0 con un rischio bassissimo di commettere un errore di I^ tipo [3] Un gruppo di 10 cavie stato sottoposto ad una dieta diversa per cui ogni soggetto stato pesato prima e dopo la nuova dieta

4-13 (2003)

cavia 1 2 3 4 5 6 7 8 9 10

prima 180 175 150 158 174 187 172 157 164 165

dopo 190 170 175 164 185 184 185 168 180 173

differenza d 10 -5 25 6 9 -3 13 11 16 8

(d d ) 2
1 196 256 9 0 144 16 4 49 1

D.:

La nuova dieta determina una differenza ponderale ? Si tratta di un test a due code, con 0 : = 0 1: 0 d= 90 =9 10 s= 676 = 8,66 9 n = 10

R.:

Per un test a due code il valore critico della distribuzione per 9 gdl e = 0,05 t = 2,262 Il valore calcolato superiore al valore critico e quindi la probabilit che la differenza riscontrata sia casuale < 0,05 | si rifiuta H0 e si accetta H1 (la nuova dieta determina una differenza ponderale nelle cavie) Si possono ottenere le medesime conclusioni attraverso la STIMA DELL'INTERVALLO FIDUCIALE DELLA DIFFERENZA MEDIA che per due campioni dipendenti, in analogia a quanto gi visto, s d = d ta ; n1 n 2 d per = 0,05 con t 9; 0,025 diventa 9 2,262 d1 = 3,58 La differenza media campionaria d = 9 L'intervallo entro cu,i con = 0,05, si trova compreso tra 3,58 e 14,42 7,57 = 9 5,42 10 d 2 = 14,42 (media reale della popolazione)

Si osservi che espresso in termini di H0 ( 0 : = 0 ), risulta esterno all' intervallo di confidenza calcolato e quindi si discosta significativamente dal valore medio sperimentale
4-14 (2003)

TEST

PER CAMPIONI INDIPENDENTI (DATI NON APPAIATI)

In molti casi non fattibile o conveniente formare due campioni dipendenti, poich non si possono misurare gli effetti di due differenti trattamenti sugli stessi individui : misure di accrescimento somatico alla stessa et in animali o piante sottoposte a condizioni ambientali differenti confronto tra parametri chimici, fisici, biologici di ambienti naturali Due gruppi di osservazioni ottenute in modo indipendente hanno il vantaggio di: - potere avere un numero differente di osservazioni ( n1 n2 ) - essere pi facilmente espressivi della variabilit casuale - consentire i calcoli direttamente sulle due serie di osservazioni (con i due campioni dipendenti i calcoli venivano effettuati sulla sola colonna delle differenze)

Il test t pone la stessa domanda dei dati appaiati, ma la forma diversa : t n1 +n 2 2 =

( x1 x 2 ) (

1 1 s2 + p n1 n2

dove : medie dei due campioni medie attese (la loro differenza il valore atteso in H0) n1 e n 2 n di osservazioni nei due campioni s2 varianza associata (POOLED ) dei due gruppi : p rapporto tra la somma delle due devianze e la somma dei rispettivi gdl (il procedimento indispensabile quando n1 n2)
x1 e x 2 1 e 2

0 :

oppure

=0
1

H1 per un test ad una coda :

1 :

>

oppure
1

<

2 1

[o anche 1 : H1 per un test a due code : 1 :


1

> 0 oppure
1

< 0]

oppure

4-15 (2003)

Condizioni di validit del test t : dati distribuiti normalmente (questa ipotesi di normalit pu essere, sebbeno non marcatamente, violata senza gravi effetti sulla potenza del test) osservazioni raccolte in modo indipendente (per due campioni dipendenti) varianze statisticamente uguali (per calcolare S2 POOLED ) (l'eguaglianza delle varianze delle due popolazioni indipendenti deve essere rispettata) Se i dati delle due popolazioni sono distribuiti normalmente, il rapporto tra le due varianze si avvicina alla distribuzione F
2 La verifica dell'ipotesi 0 : s 1 = s 2 2

1: s 2 > s 2 1 2

utilizza il rapporto
s2 e s2 1 2

2 s1 F( n1 1) ; ( n 2 1) = 2 s2

varianza maggiore e varianza minore n dati del gruppo a varianza maggiore e a varianza minore

n1 e n2

I valori critici della distribuzione F dipendono dai gdl del numeratore, riportati nella prima riga della tabella, e da quelli del denominatore, riportati nella prima colonna
N.B. Se le varianze risultano statisticamente differenti, si ricorre a test di statistica non parametrica come l'approssimazione di Cochran o a test di statistica non parametrica per due campioni indipendenti

Intervallo fiduciale della differenza tra le due medie campionarie ( x1 x 2 ) con varianze statisticamente uguali : 1 1 2 = (x 1 x 2 ) t s p + gdl : n1+n2-2 1 ; ( n 1 + n 2 2) n1 n 2 2 1 1 es d = s 2 + p n1 n 2

4-16 (2003)

ESEMPI [1] Saggiare se la concentrazione algale influisce positivamente sulla crescita (valori in mm) di Daphnia magna. In laboratorio si sono allevati 40 individui dello stesso ceppo: - 20 in una soluzione con concentrazione algale 120.000 cellule / ml - 20 in una soluzione con concentrazione algale 24.000 celle / ml 120.000/ml(x 1) 4,290 3,900 3,783 3,900 4,095 4,056 4,173 4,095 4,095 4,056 3,939 3,978 4,017 4,251 4,017 3,900 4,095 4,173 3,978 4,095 24.000/ml (x2) 3,120 3,112 3,120 2,847 3,081 3,042 3,042 3,198 3,081 2,964 3,120 2,964 3,003 3,081 3,042 2,925 3,198 3,120 2,964 3,003

0 :

1 :

>

n Media x Devianza SQ Varianza s2

x1 20 4,0443 0,30075 0,015828

x2 20 3,04335 0,15326 0,008066

Controllare se le due varianze, attraverso il rapporto fra quella maggiore e quella minore, non sono statisticamente diverse : 0,015828 = 1,962 0,008066 e confrontare il risultato con il valore critico, per = 0,05, F( 201) ;( 201) = 2,16

4-17 (2003)

Essendo 1,962 < 2,16 le due varianze sono statisticamente uguali, e si possono quindi confrontare le due medie 0,30075 + 0,15326 0,45401 s2 = = = 0,01194 p 20 1 + 20 1 38 Errore standard della differenza fra medie : 1 1 es d = 0,01198 + = 0,034554 20 20 t 20+202 = 4,0443 3,04355 = 29,157 0,034554

Si tratta di test ad una coda poich interessa valutare solo se la maggiore concentrazione algale produce una maggiore crescita di Daphnia Valore critico per = 0,01 e 38 gdl : t = 2,329 [ << 29,157 ]

La maggior concentrazione algale influisce in modo altamente significativo sulla crescita di Daphnia Il calcolo dellintervallo fiduciale della differenza fra le due medie un modo alternativo per verificare H0 : per = 0,05 --> ( x1 x 2 ) t 0,05 ; ( n1 +n 2 2 ) esd = 1,00095 1,686 0,034554 l1 = 0,94269 l 2 = 1,059208 --> ( x1 x 2 ) t 0,05 ; ( n1 +n 2 2 ) esd = 1,00095 2,429 0,034554 l1 = 0,91701 l 2 = 1,08488

per

= 0,01

4-18 (2003)

[2] Si misurata la produzione di muffe (in termini di tempo trascorso prima della loro comparsa) in due formaggi da tavola di composizione similare : - 12 trattati con polifosfati durante il confezionamento - 13 trattati con derivati dellacido salicilico D : La differenza media osservata dello sviluppo di colonie nei due gruppi di formaggi statisticamente significativa ?
polifosfati x1 7,94 8,03 8,18 8,03 8,19 8,01 8,16 8,16 8,18 8,29 7,94 8,29 0 : 1 = 2 1 : 1 2 ac. salicilico x2 7,30 7,26 6,82 7,08 7,13 7,37 7,42 7,16 6,89 6,96 7,13 7,08 7,17

n Media x Devianza SQ Varianza s2

x1 12 8,117 0,16656 0,015

x2 13 7,136 0,37690 0,0314 0,0314 = 2,093 0,015

Controllare che le due varianze non siano statisticamente diverse

Valore critico per =5% F(131);(121) = 2,79 > 2,093 e dunque le due varianze sono statisticamente uguali: si possono quindi confrontare le due medie s2 = p 0,16656 + 0,37690 0,54346 = = 0,02362 12 1 + 13 1 23

1 1 Errore standard della differenza fra le medie: es d = 0,02362 + = 0,06152 12 13 t 12+132 = 8,117 7,136 = 15,946 0,06152
4-19 (2003)

Si tratta di test a due code poich interessa valutare la significativit della differenza fra le medie dei tempi-muffa sui due gruppi di formaggi Valore critico per = 0,01 e 23 gdl : t =2,807 [<< 15,946]

I due tipi di formaggio hanno una resistenza allo sviluppo di muffe statisticamente molto diverso Intervallo fiduciale della differenza fra le due medie : per = 0,05 -->

( x1 x 2 ) t 0,05 ; ( n1 +n 2 2 ) esd = 0,981 2,069 0,06152


l1 = 0,85083 l 2 = 1,11116

per

= 0,01

-->

( x1 x 2 ) t 0,001 ; ( n1+ n2 2) es d = 0,981 2,807 0,06152


l1 = 0,80441 l 2 = 1,15758

4-20 (2003)

DIMENSIONI DEL CAMPIONE Una domada che spesso si pone al ricercatore di quale dimensione, cio di quante osservazioni, deve essere composto il campione Il test t per un campione fornisce gi, se si analizzano i valori critici all'aumentare dei gdl, una prima risposta: alla probabilit di 0,05 per un test a due code, il valore di t da 12,7 per 1 gdl scende a 4,3 per 2 gdl; poi a 3,1 per 3 gdl e a 2,7 per 4 gdl. Successivamente, il valore di t diminuisce molto pi lentamente all'aumentare del numero di dati. Rispetto a due soli dati (un gdl), un campione di 4-6 dati permette di rendere significativa una differenza nettamente minore: quattro dati (tre gdl) permettono di rendere significativa una differenza almeno quattro volte pi piccola di quanto sia possibile con due soli dati (un gdl) Per ottenere indicazioni meno vaghe, occorre conoscere alcune informazioni indispensabili, che la stessa formula per il test t indica: - il valore della differenza minima di cui si intende saggiare la significativit - la varianza del fenomeno (2) - il livello di significativit () Quando noto , si ricorre alla distribuzione normale z = dalla quale si pu
n d

ricavare n

d2

ESEMPI [1] I limiti di legge di una sostanza inquinante A sono fissati a 50 mg / litro; dimostrato che la strumentazione utilizzata ha una varianza (2) uguale a 80 Quante osservazioni occorrono per dimostrare che la concentrazione della sostanza A significativamente maggiore - alla probabilit = 0,05 - se essa presente con media doppia (100 mg / litro) rispetto ai limiti definiti della norma di legge ?
z 0,0 5 = 1, 645 n= 2 = 80 d = 50

Si richiede un test ad una coda

(1,645)2 (80) 2 2,7060 6400 = = 6,92 ( 50)2 2500

Con tale risultato si deduce che servono almeno 7 osservazioni


4-21 (2003)

[2] Il primo esercizio era fondato su un test ad una coda. Se si fosse trattato di un test a due code, nel quale veniva richiesto di dimostrare una differenza significativa tra una media di 50 e una di 100, con la stessa varianza e alla stessa probabilit, occorre scegliere un valore di z = 0,025 sui due lati :
z 0,0 5 = 1, 96 2 = 80 d = 50

(1,96 )2 (80)2 3,8416 6400 n= = = 9,83 (50)2 2500


Per un test a due code, servirebbero dunque almeno 10 osservazioni ( Si sottolinea la maggiore potenza del test ad una coda: rispetto al test ad una coda quello a due code in questo caso ha una potenza di 7 / 10 = 0,7 ovvero del 70% )

[3] Un secondo ricercatore dispone di una strumentazione migliore, che nella misurazione dimostra una varianza 2 = 60 Quante osservazioni deve effettuare, per dimostare che rispetto ad un valore medio di 50 significativamente maggiore alla probabilit 0,05 una media di 75 mg/l ? E' un test ad una coda, dove z 0,0 5 = 1, 645
n= 2 = 60 d = 25

(1,645)2 (60 )2 2,7060 3600 = = 15,58 (25)2 625

Occorrono dunque almeno 16 misurazioni

[4] Con i dati del secondo esercizio, quante osservazioni occorrono per dimostrare una differenza significativa per un test a 2 code alla probabilit 0,01 ?
z 0,0 1 = 2, 58 2 = 80 d = 50

(2,58 )2 (80) 2 6,6564 6400 n= = = 17, 04 ( 50)2 2500


Non servono almeno 10 come nell'esercizio 1, ma almeno 18 dati

4-22 (2003)

Nel caso di frequenze relative (percentuali), la formula per verificare la significativit di una differenza uguale alla precedente, ricordando che 2 uguale a p(1-p), essendo totalmente determinato dal valore medio
z= p p (1 p) n

: differenza media (p p ) che si vuole significativa p 1 2

z 2 p (1 p) Risolvendo per n, si ottiene n = p2

Poich la varianza di una percentuale o frequenza relativa (p q) determinata direttamente dalla frequenza media, il numero di dati necessari per dimostrare la significativit di un differenza dipende dalle medie (p1 e p2) a confronto (p1 p 2 = p) ; esso diminuisce in modo simmetrico, quanto pi ci si allontana dal 50%
p media 0,5 0,4 0,3 0,2 0,1 0,05 0,04 0,03 0,02 0,01 p (1-p) 2 0,5 0,5 = 0,25 0,4 0,6 = 0,24 0,3 0,7 = 0,21 0,2 0,8 = 0,16 0,1 0,9 = 0,09 0,05 0,95 = 0,0475 0,04 0,96 = 0,0384 0,03 0,97 = 0,0291 0,02 0,98 = 0,0196 0,01 0,99 = 0,0099

4-23 (2003)

ESEMPI [1] In una popolazione animale arrivano in media all'et della riproduzione il 60% degli individui; con una nuova tecnica d'allevamento, si vuole dimostrare un miglioramento di almeno il 7% Quanti individui servono perch questa differenza risulti significativa alla probabilit 0,05 ? E' un test ad una coda, dove z 0,05 = 1,645
2

= p (1 p) = 0,6 0, 4 = 0,24

p = 0,07

(1,645)2 0,24 0,6494 n= = = 132,5 (0, 07)2 0,0049


Sono necessarie almeno 133 osservazioni

[2] Se la sopravvivenza 90%, quanti dati si richiedono per valutare come statisticamente significativo alla stessa probabilit un miglioramento del 7% ?
z 0,0 5 = 1, 645 n= 2 = 0,9 0,1=0, 09 p = 0, 07

(1,645)2 0, 09 0,2435 = = 49,7 (0,07 )2 0,0049

Si richiedono almeno 50 osservazioni. Quando la varianza della popolazione 2 ignota e si deve utilizzare la varianza del campione s2, si ricorre alla distribuzione t Poich il valore di t varia al variare dei gdl, e quindi delle dimensioni del campione, il calcolo di n richiede un procedimento di iterazione
n= t 2 1 s2 n d2

dove d la differenza media che si vuole sia significativa

4-24 (2003)

[3] In 5 campioni di acqua stata misurata la concentrazione di una sostanza: la media risultata pari a 39 grammi per litro e la varianza s2 risultata pari a 800 La differenza con il valore di 25 grammi/litro, indicato come il limite massimo tollerabile non risulta significativo
t4 = 39 25 14 = = 1, 107 800 12, 65 5

Per un test ad una coda con, 4 gdl alla probabilit 0,05 il valore critico di t pari a 2,1318; il valore calcolato inferiore anche a quello tabulato alla probabilit 0,10 che uguale a 1,5332 La probabilit di ottenere casualmente scarti uguali o maggiori di quello riscontrato tra la media rilevata e quella di legge molto elevata si accetta H0 Ma la media osservata superiore a quella massima tollerabile; ragionevole supporre che la differenza non sia risultata significativa a causa delle ridotte dimensioni del campione Quanti dati sono necessari, a parit di media e di varianza, perch quella differenza media risulti significativa alla probabilit 0,05 ? Ricordando che all'aumentare dei gdl l'errore standard tende a diminuire, si pu tentativamente scegliere t con 15 gdl alla probabilit 0,05 per un test unilaterale

(t 15 = 1, 7531)

n=

800 1, 75312 2458, 72 = = 12, 54 142 196

Sono pertanto necessari almeno 13 dati. Il numero di osservazioni stimato si dimostrato molto vicino a quello scelto a priori. Nel caso che tra i due risultati vi fosse stata una differenza rilevante, si sarebbero dovuti rifare i calcoli utilizzando il valore di un t con un numero di gdl intermedio, ripetendo il procedimento fino al valore esatto

4-25 (2003)

ANALISI DELLA VARIANZA Per il confronto tra le medie aritmetiche di pi gruppi, non possibile ricorrere al test t, suddividendo l'analisi in tanti confronti a coppie quante sono le combinazioni degli n gruppi 2 a 2. Se i gruppi sono numerosi, la probabilit complessiva che almeno uno di essi sia significativo per caso aumenta proporzionalmente (ad es., con =0,05 e 20 confronti, mediamente uno risulter significativo per caso, pur essendo vera H0) Nel confronto tra pi medie, H0 e H 1 assumono la formulazione : H 0 : 1 = 2 = 3 =... = k le medie delle popolazioni dalle quali sono estratti casualmente i campioni sono tra loro uguali H1 : non tutte le medie aritmetiche sono uguali si possono realizzare varie situazioni, e le pi estreme sono: - le medie sono tutte differenti tra loro - una sola media diversa dalle altre, tra loro uguali Per verificare la significativit delle differenze tra le medie aritmetiche di vari gruppi si conduce unANALISI DELLA VARIANZA (sintetizzato in ANOVA, acronimo di ANalysis Of VAriance)
La distribuzione utilizzata la distribuzione F in onore di Sir Ronald Aylmer Fisher (18901962), il pi eminente statistico contemporaneo padre della statistica moderna La metodologia attuale del test F dovuta a Snedecor, un allievo di Fisher che ne perfezion il metodo e ne semplific la forma Nel 1925 Fisher complet il metodo di Student per il confronto tra due medie, elaborando nel contempo il concetto di gdl: suo il metodo attualmente utilizzato ANOVA la metodologia alla base della statistica moderna : gli stessi principi si applicano dalle analisi pi semplici a quelle pi complesse dell'analisi multivariata

IN ANOVA : si posono scomporre e misurare con precisione le fonti di variazioni sui valori osservati di due o pi gruppi la fonte di variazione detta FATTORE SPERIMENTALE (o TRATTAMENTO) e pu essere a pi livelli ogni unit od osservazione del fattore sperimentale detta REPLICAZIONE

5-1-(2000)

ANOVA AD UN CRITERIO DI CLASSIFICAZIONE (COMPLETAMENTE RANDOMIZZATA) E il modello pi semplice di ANOVA E cos chiamato in quanto si confrontano due o pi livelli dello stesso fattore E' detto anche MODELLO COMPLETAMENTE RANDOMIZZATO : - prevede un campionamento in cui gli n individui omogenei (o repliche) sono assegnati casualmente ai vari livelli del fattore (o trattamenti) - nel gruppo di soggetti da sottoporre ai diversi trattamenti per confrontarne gli effetti, l'attribuzione di ogni soggetto ad uno specifico trattamento va effettuato per estrazione casuale - tutto il gruppo deve essere completamente randomizzato - i vari gruppi possono non avere lo stesso n di osservazioni o repliche (n1, n2, , np sono in generale diversi tra loro) - i dati sperimentali vanno riportati secondo la tabella sottostante
LIVELLI DEL FATTORE SPERIMENTALE O TRATTAMENTI Tp T3 T1 T2 ... UNIT' SPERIMENTALI (o REPLICAZIONI) X11 X21 X31 X12 X22 X32 X13 X23 X33

...
Xn 1 1

...
Xn 2 2

...
Xn 3 3

... ... ... ... ... ... ...

X1p X2p X3p

...
Xn p p

n1
medie dei trattamenti media generale

n2

n3 X

np X p

X 1 X 2 X 3

5-2-(2000)

Secondo questo semplice modello di ANOVA, ogni singola osservazione Xij X ij = +


j

ij

composta da MEDIA GENERALE FATTORE j dovuto all'EFFETTO del j-esimo TRATTAMENTO misurato come
j

=
j

con : media del trattamento media generale

un FATTORE CASUALE ij detto RESIDUO o ERRORE SPERIMENTALE (errore non sinonimo di sbaglio, ma di fattore sconosciuto o non valutato o non controllato nell'esperimento)

Gli errori ij devono : ESSERE TRA LORO INDIPENDENTI: la variazione casuale di ogni replica non deve essere influenzata da quella di un'altra ( una indipendenza che pu essere ottenuta solamente con una corretta distribuzione casuale delle repliche e quindi di una loro distribuzione secondo la normale) DARE VARIANZE OMOGENEE tra loro entro ogni trattamento ESSERE DISTRIBUITI NORMALMENTE

La metodologia di ANOVA prevede il calcolo di : devianza TOTALE scomposta in : devianza TRA TRATTAMENTI (o BETWEEN) con i suoi gdl e la varianza relativa devianza ENTRO TRATTAMENTI (o WITHIN o ERRORE) con i suoi gdl e la varianza relativa
5-3-(2000)

Queste quantit abitualmente vengono presentate in uno specchietto : devianza totale devianza tra trattamenti devianza entro trattamenti gdl = n-1 (n = n dati) gdl = p-1 (p = n gruppi) gdl = n-p

varianza tra varianza entro

Devianza TOTALE (o SQ o Somma dei Quadrati degli scarti, o Sum of Squares) : ( X ij )2 j=1 i=1 p nj

SQ tot =

(X ij
j=1 i=1

p nj

- X) 2 =

X ij2
j=1 i=1

p nj

- la prima formula, EURISTICA, definisce il significato di devianza totale - la seconda formula, ABBREVIATA, matematicamente equivalente alla prima, ma rende pi semplici e rapidi i calcoli necessari Devianza TRA TRATTAMENTI :
(
i=1 nj

SQ tra =

n (X
j j=1

X) =

( (X
i=1 j=1

nj

ij

) / nj

X
j=1

ij

)2

Devianza ENTRO TRATTAMENTI : SQ entro = (X ij - X j )2


j=1 i=1 p nj

Dividendo devianza tra e devianza entro per i rispettivi gdl si ottengono varianza tra e varianza entro : - la varianza tra misura le differenze esistenti tra un gruppo e l'altro - la varianza entro misura la variabilit esistente attorno alla media aritmetica di ogni gruppo

5-4-(2000)

Varianza tra e varianza entro dipendono dalla variabilit esistente nei dati ed essendo due misure della stessa variabilit, dovrebbero avere lo stesso valore Indice dell'uguaglianza tra queste due componenti di varianza, il
TEST F DI F ISHER

fondato sul rapporto

VARIANZA ENTRO :

VARIANZA TRA

se vera H0 dovrebbe risultare F = 1 se vera H1 dovrebbe risultare F > 1 - con un n infinito di trattamenti e di repliche, sufficiente F > 1 per rifiutare l'H0 - con un numero ridotto di repliche, pu essere F > 1 per effetto variazioni casuali delle

ESEMPIO In un'analisi della qualit dell'aria in tre diverse zone di citt, stata misurata anche la quantit di ferro (in g/N mc a 0C e 1013 mbar) D.: Esiste una differenza significativa tra le tre zone A, B e C ? FATTORE SPERIMENTALE A B C 2,71 1,75 2,22 2,06 2,19 2,38 2,84 2,09 2,56 2,97 2,75 2,60 2,55 2,72 2,78 15,91 8,78 12,48 6 4 5 2,652 2,195 2,496

X
ni

X
n X

X j

37,17 15 2,478

5-5-(2000)

La DEVIANZA TOTALE data dalla somma dei quadrati degli scarti di ognuna delle 15 osservazioni rispetto alla media totale A (2,71 2,478)2 (2,06 2,478)2 (2,84 2,478)2 (2,97 2,478)2 (2,55 2,478)2 (2,78 2,478)2 B (1,75 2,478)2 (2,19 2,478)2 (2,09 2,478)2 (2,75 2,478)2 C (2,22 2,478)2 (2,38 2,478)2 (2,56 2,478)2 (2,60 2,478)2 (2,72 2,478)2

Quindi, svolgendo i calcoli e sommando i risultati A 0,053824 0,174724 0,131044 0,242064 0,005184 0,091204 0,698040 B 0,529984 0,082944 0,150544 0,073984 C 0,066564 0,009604 0,006724 0,014884 0,058564 0,156340

0,837456

Devianza totale = 0, 698040 + 0,837456 + 0,156340 = 1, 691836 Il metodo lungo e produce stime non precise quando la media sia approssimata; per il calcolo manuale conveniente utilizzare la formula abbreviata che comporta la somma dei quadrati di ogni replica A 7,3441 4,2436 8,0656 8,8209 6,5025 7,7284 42,7051
2

B 3,0625 4,7961 4,3681 7,5625

C 4,9284 5,6644 6,5536 6,7600 7,3984 31,3048 93,7991

x2

19,7892

Devianza tot = Sx

(Sx )2 (37,17) 2 = 93, 7991 = 1,69184 n 15


5-6-(2000)

DEVIANZA TRA : - misura la variabilit esistente tra la media aritmetica di ogni gruppo e la media aritmetica generale, ponderata per il n di osservazioni presenti in ciascun gruppo - la somma degli scarti di ogni media di gruppo rispetto alla media generale, ponderata per il n di repliche - ipotizza che, in assenza di variabilit d'errore, i dati sperimentali assumano i valori A 2,652 2,652 2,652 2,652 2,652 2,652 B 2,195 2,195 2,195 2,195 C 2,496 2,496 2,496 2,496 2,496

media totale 2,478 Pertanto con la formula euristica il calcolo diventa : Devianza tra =

n j (X j
J=1

- X )2

Devianza tra = 6 (2, 652 - 2, 478) 2 + 4 (2,195- 2, 478)2 + 5 (2, 496- 2, 478)2 = = 6 0, 030276 + 4 0, 080089 + 5 0, 000324 = = 0, 181656 + 0, 320356 + 0, 00162 = 0, 503632

La formula abbreviata pi rapida e precisa : Devianza tra =

(Sx) j2 nj

(Sx) 2 n

Devianza tra =

(15,91)2 (8,78) 2 (12, 48)2 (37,17)2 + + =92, 610196 - 92,10726 = 0, 502936 6 4 5 15

5-7-(2000)

DEVIANZA ENTRO : - misura la variazione tra il valore di ciascuna replica e la media aritmetica del proprio gruppo - la somma di queste differenze elevate al quadrato per ogni gruppo A
(2, 71- 2, 652)2 (2, 06 - 2, 652)2 (2, 84 -2, 652) 2 (2, 97 -2, 652) 2 (2, 55 -2, 652)2 (2, 78 -2, 652) 2

B
(1, 75 - 2,195)2 (2,19 - 2,195)2 (2, 09 - 2,195)2 (2, 75 -2,195)2

C
(2, 22 - 2, 496)2 (2, 38- 2, 496) 2 (2, 56 - 2, 496)2 (2, 60 - 2, 496)2 (2, 72 - 2, 496)2

Sviluppando i calcoli e sommando si ottiene A 0,003364 0,350464 0,035344 0,101124 0,010404 0,015376 0,516076 B 0,198025 0,000025 0,011025 0,308025 C 0,076176 0,013456 0,004096 0,010816 0,050176 0,154720

Devianza entro

0,517100

- con la formula euristica (somma degli scarti al quadrato) risulta


Devianza entro = 0, 516076 + 0, 517100 + 0,154720 = 1,187896

- pu essere ottenuta sottraendo la devianza tra dalla devianza totale


Devianza entro = Devianza totale Devianza tra = 1, 69184 0, 502936 = 1, 188904

5-8-(2000)

Per riassumere i calcoli effettuati, si imposta una tabella che riporta le tre devianze con i rispettivi gdl : - totale : n di repliche meno 1 - tra : n di trattamenti meno 1 - entro : n di repliche meno il n di trattamenti, equivalente ai gdl della devianza totale meno quelli della devianza tra

totale devianza tra (between) devianza entro (within)

DEVIANZE 1,69184 0,502936 1,188904

GDL 14 2 12

VARIANZE 0,251468 0,0990753

Dividendo varianza tra per varianza entro, si calcola il rapporto F(2, 12)
F(2,12) = 0, 251468 = 2, 538 0, 0990753

- il valore critico di F (2 gdl al numeratore; 12 gdl al denominatore) per =0,05 3,89 - il valore calcolato di F inferiore a quello tabulato: la probabilit che H0 sia vera p>5% e di conseguenza si accetta H0 (i tre campioni sono stati estratti dalla stessa popolazione)

5-9-(2000)

CONFRONTO TRA ANOVA CON DUE TRATTAMENTI E TEST t PER DUE CAMPIONI INDIPENDENTI ANOVA pu essere applicata anche a due soli trattamenti, in alternativa alla metodologia mediante test t Test t e test F sono due modi solo apparentemente differenti per fare la stessa cosa: il test t un caso speciale di ANOVA applicata a due gruppi Tra t ed F esiste la precisa relazione matematica : F(1, n) = t (n) ovvero, il valore F (un gdl al numeratore e n gdl al denominatore) uguale al quadrato di t con n gdl
2

ESEMPIO Due gruppi di 10 uova di Daphnia magna, estratte casualmente dallo stesso clone, sono stati allevati in due diverse concentrazioni di cromo esavalente Dopo un mese sono stati misurati gli individui sopravvissuti: 7 nel gruppo A e 8 nel gruppo B A 2,7 2,8 2,9 2,5 2,6 2,7 2,8 B 2,2 2,1 2,2 2,3 2,1 2,2 2,3 2,6

D.: Verificare se le loro dimensioni sono statisticamente diverse

5-10-(2000)

1- Medie:
media del gruppo A = 2, 714 media del gruppo B = 2, 250

2- Verifica di omogeneit delle due varianze, mediante il calcolo di devianze, gdl e rapporto F tra varianza maggiore e varianza minore A 0,10857 6 0,018095 B 0,18000 7 0,02571

devianze gdl varianze


F(7 ,6 ) = 0, 02571 = 1, 42 0, 018095

Con 7 gdl della varianza maggiore e 6 della varianza minore, per =0,05 lF critico 4,21 > 1,42 (F calcolato): dunque le varianze sono omogenee 3 - Varianza pooled 4 - t con 13 gdl
s2 = p 0,10825 + 0, 18000 = 0, 022173 6 + 7 2, 714 2, 250 = 6, 02 1 1 0, 022173 + 7 8

t 13 =

5 - Controllo della probabilit sulle tabelle dei valori critici: p << 0,001 6 - Prospetto di ANOVA devianze totale tra entro 7 - F con 1 e 13 gdl 1,093333 0,804762 0,288571
F(1,13) =

gdl 14 1 13

varianze

0,804761 0,022198

0, 804761 = 36, 25 0, 022198

8 - Verifica che a tale valore corrisponde alla stessa probabilit, inferiore a 0,001 9 - Verifica che t 2 = F infatti
t 2 = 6, 02 2 = 36, 24
5-11-(2000)

ANOVA A DUE CRITERI DI CLASSIFICAZIONE (BLOCCHI RANDOMIZZATI) Nella pratica sperimentale, spesso utile prendere in considerazione pi di un fattore di variabilit quando si intende analizzare gli effetti di due o pi cause contemporaneamente, oppure ridurre la varianza d'errore isolando gli effetti dovuti ad altre cause note L'estensione pi semplice rappresentata da due criteri di classificazione, una struttura che si evidenza nel disegno sperimentale a blocchi randomizzati, dove una classificazione riguarda i trattamenti e l'altra i blocchi
p TRATTAMENTI k BLOCCHI 1 2 ... k medie 1 X11 X21 2 X12 X22 3 X13 X23 ... p X1p X2p medie

... ... ... ... ...

X 1 X 2 ... X k X

...
Xk1

...
Xk 2

...
Xk3

...
Xkp

X 1

X 2

X 3

X p

Nel caso pi semplice si ha con una sola osservazione xij ad ogni intersezione della i-esima riga (blocco) per la j-esima colonna (trattamento) Il modello lineare additivo, che considera leffetto del trattamento e del blocco su ogni osservazione, rappresentato da Xij = + j + i + R ij - j - i - Rij con

media generale effetto del trattamento stimato come differenza della sua media rispetto alla media generale j =X j -X effetto del blocco stimato come differenza della sua media risptto alla media generale i = X i - X quota residua che ingloba, oltre a quelli considerati nei blocchi e nei trattamenti, altri fattori non considerati e la loro interazione insieme con gli effetti di campionamento o di errore ij
5-12-(2000)

La metodologia ANOVA a due criteri di classificazione (p fattori e k blocchi) con una sola osservazione per casella prevede il calcolo delle seguenti quantit: devianza totale, con pk 1 = n - 1 gdl devianza tra trattamenti, con p - 1 gdl, e rispettiva varianza devianza tra blocchi, con k - 1 gdl, e rispettiva varianza devianza d'errore, con (p-1)(k-1) = (n-1) (p-1) (k-1) = pkp-k+1 gdl, rispettiva varianza Devianze e gdl godono della propriet additiva : - Devianza tot = Devianza tra tratt + Devianza tra blocchi + Devianza errore - gdl tot = gdl tra tratt + gdl tra blocchi + gdl errore devianza totale devianza tra trattamenti devianza tra blocchi devianza d'errore gdl: n - 1 = pk - 1 gdl: p - 1 gdl: k - 1 gdl: (p - 1)(k - 1) varianza tra trattamenti varianza tra blocchi varianza d'errore

DEVIANZA TOTALE : variazione totale tra le osservazioni

(X ij X )
j=1 i=1

= X 2 ij
j=1 i=1

( X ij )2
j=1 i=1

DEVIANZA TRA TRATTAMENTI : variazione tra le medie dei trattamenti

k ( X .j X ) 2 = ( i =1k
j=1 j=1

2 .j

( X ij ) 2 )
i=1 j=1

DEVIANZA TRA BLOCCHI : variazione tra le medie dei blocchi

p(X i. X )
i=1

= (
i =1

j=1

X2 i. )

( X ij ) 2
i=1 j=1

5-13-(2000)

DEVIANZA D' ERRORE ( RESIDUO) : variazione di ogni osservazione dopo avere tolto l'effetto dovuto alla media generale, alla media del trattamento e alla media del blocco Devianza err = Devianza tot - Devianza tra tratt - Devianza tra blocchi Le varianze (tra trattamenti, tra blocchi, errore) si ottengono dividendo le rispettive devianze per i loro gdl Il test F consiste nel confrontare sia la varianza tra trattamenti che quella tra blocchi separatamente con la varianza d'errore tra trattamenti : F(p-1) , (p-1)(k-1) = tra blocchi : F(k-1) , (p-1)(k-1) = varianza tra tratt varianza d' errore varianza tra blocchi varianza d' errore

ESEMPIO Confrontare la quantit di Pb in sospensione nell'aria di 5 zone urbane, sapendo che esistono differenze durante la giornata; a distanza di 6 ore (alle 6, 12, 18 e 24) stata fatta una rilevazione in ogni zona D.: C differenza tra ore e tra zone considerando i due fattori contemporaneamente ?
TRATTAMENTI (ZONE ) BLOCCHI (ORE ) ore 6 ore 12 ore 19 ore 24 totali medie 1 28 34 22 36 120 30,00 2 25 32 21 31 109 27,25 3 30 37 24 40 131 32,75 4 22 31 20 33 106 26,50 5 26 30 19 29 104 26,00 Xij totali 131 164 106 169 570 28,50 medie 26,2 32,8 21,2 33,8

5-14-(2000)

DEVIANZA TOTALE con 19 gdl :


(28- 28, 5)2 + (34 -28, 5) 2 + (22- 28, 5)2 + ...+ (29- 28, 5)2 = 683, 0

oppure

(282 + 34 2 + 22 2 + 36 2 + 25 2 + 32 2 +...+ 29 2 ) -

570 2 20

= 683, 0

La quantit

( SX )2 5702 = compare sia nel calcolo della devianza totale che n 20 nelle due devianze tra detta TERMINE DI CORREZ. GENERALE (TCG)

DEVIANZA TRA TRATTAMENTI (zone) con 4 gdl :


4 (30, 00 - 28, 5)2 + 4 (27, 25- 28, 5)2 +...+ 4 (26, 00 - 28, 5)2 = 128, 5

oppure

1202 109 2 1312 106 2 1042 570 2 + + + + = 128, 5 4 4 4 4 4 20

DEVIANZA TRA BLOCCHI (ore) con 3 gdl :


5 (26, 2 - 28, 5)2 + 5 (32, 8 - 28, 5) 2 +...+ 5 (33, 8 - 28, 5)2 = 525, 8

oppure

1312 164 2 1062 169 2 570 2 + + + = 525, 8 5 5 5 5 20

DEVIANZA D' ERRORE e relativi gdl : ottenuti per differenza 683,0 - 128,5 - 525,8 = 28,7 con 19 - 4 - 3 = 12 gdl

DEVIANZE totale tra trattamenti (zone) tra blocchi (ore) errore 683,0 128,5 525,8 28,7

GDL 19 4 3 12

VARIANZE

32,125 175,266 2,39

5-15-(2000)

La significativit della differenza tra zone verificata con

F4,12 =

32, 125 =13, 44 2, 39

La significativit della differenza tra ore verificata con F3,12 =

175, 266 = 73, 33 2, 39

Poich i valori ottenuti superano quelli critici per =0,05 [ F4, 12 = 3,26 F3, 12 = 3,49 ] le differenze tra le zone e le differenze tra le ore sono significative Per comprenderne pi esattamente il significato, utile vedere quanto di ogni osservazione sia imputabile agli effetti congiunti [media generale, media di riga, media di colonna] e quanto ai rimanenti effetti espressi dal residuo Conoscendo le medie marginali e totale, possibile calcolare per ogni casella quale sarebbe il valore atteso se agissero solo i tre effetti noti : media di riga + media di colonna - media generale
TRATTAMENTI BLOCCHI

1 27,70 34,30 22,70 35,30 30,00

2 24,95 31,55 19,95 32,55 27,25

3 30,45 37,05 25,45 38,05 32,75

4 24,20 30,80 19,20 31,80 26,50

5 23,70 30,30 18,70 31,30 26,00

medie

I II III IV
medie

26,20 32,80 21,20 33,80 28,50

Utilizzando questi dati per calcolare le devianze, si avrebbero valori identici a quelli dell'esempio per la devianza totale, per quella tra trattamenti e per quella tra blocchi, mentre la devianza d'errore risulterebbe 0, infatti la devianza d'errore calcolata precedentemente la somma dei quadrati degli scarti tra questi valori stimati e quelli precedenti osservati In questa tabella, ogni valore la somma degli effetti + j + i mentre privo dell'effetto Rij determinato da fattori di interazione e da variazioni casuali

5-16-(2000)

CONFRONTO TRA ANOVA A DUE CRITERI DI CLASSIFICAZIONE E TEST t PER DUE CAMPIONI DIPENDENTI In una tabella 2 x N, l'ANOVA a due criteri di classificazione fornisce i medesimi risultati del test t per due campioni dipendenti, in riferimento al fattore che definisce i due gruppi a confronto; inoltre essa offre il vantaggio di analizzare contemporaneamente anche gli effetti dell'altro fattore

ESEMPIO Durante una giornata lavorativa, in una stazione di rilevamento sono state misurate le quantit di inquinamento in quattro ore differenti, mentre il successivo giorno festivo, sono state ripetute le misure alle stesse ore per verificare se esiste una differenza significativa tra i due giorni Per utilizzare il test t per due campioni dipendenti, vanno calcolate le differenze tra i due gruppi e si opera esclusivamente su di esse I^ giorno ore 6 ore 10 ore 14 ore 18 150 172 193 175 II^giorno 120 151 165 150 differenze 30 21 28 25

d = 104 / 4 = 26 Devianza diff. (30 - 26) 2 + (21- 26) 2 (28 - 26)2 + (25 - 26)2 = 16 + 25 + 4 + 1 = 46
s2 = 46 = 15, 33 3 s = 3, 916

t3 =

26 = 13, 28 3, 916 4
medie

I^ giorno ore 6 ore 10 ore 14 ore 18 totali medie

II^ giorno

totali

150 172 193 175 690 172,5

120 151 165 150 586 146,5

270 323 358 325 1276

135,0 161,5 179,0 162,5 159,5


5-17-(2000)

Devianza TOTALE con 7 gdl :


(-9, 5)2 +(-39, 5)2 +(12, 5)2 +(-8, 5)2 +(33, 5) 2 +(5, 5) 2 +(15, 5)2 +(-9, 5)2 = = 90, 25+1560, 25 +156, 25+72, 25 +1122, 25 +30, 25+240, 25 +90, 25 = 3362

Devianza TRA GIORNI con 1 gdl :


4(172, 5 - 159, 5) 2 + 4(146, 5 - 159, 5)2 = 4x169 + 4x169 = 1352

Devianza TRA ORE con 3 gdl :


2 (135-159, 5)2 + 2 (161, 5 -159, 5)2 + 2 (179-159, 5) 2 + 2 (162, 5-159, 5)2 = = 2 600, 25 + 2 4 + 2 380, 25 + 2 9 = 1200, 50 + 8 + 760, 5 + 18 = 1987

Devianza d'ERRORE con (7 - 1 - 3) = 3 gdl :


3362 - 1352 - 1987 = 23 DEVIANZA GDL VARIANZA

totale tra giorni tra ore errore Per la differenza tra giorni E' possibile verificare che

3362 1352 1987 23


F1,3 =

7 1 3 3
1352 = 176, 36 7, 666

1352 662,333 7,666

t 2 = F1,3: 3

(13, 28)2 = 176, 36

Non solo si elimina dalle differenze tra giorni l'effetto delle differenze tra ore, ma si verifica anche se queste ultime siano statisticamente significative
F3,3 = 662, 33 = 86, 40 7, 666

5-18-(2000)

QUADRATI LATINI - TRE CRITERI DI CLASSIFICAZIONE - DOPPIO DISEGNO A BLOCCHI Analizzare contemporaneamente due fattori di variazione a p livelli nel disegno a blocchi randomizzati richiede p2 osservazioni, mentre, con le stesse modalit di programmazione, un esperimento con tre fattori di variazione a p livelli ne richiederebbe p3
I quadrati latini furono applicati per la prima volta in esperimenti di agraria, dove la suddivisione in righe e colonne di un appezzamento di terreno erano visualizzate in strisce di terreno tra loro perpendicolari; da qui il nome, per la somiglianza del frazionamento dell'area in una figura tipica dell'accampamento romano

Il disegno a quadrati latini permette di analizzare contemporaneamente tre fattori a p livelli con p 2 osservazioni solamente Al vantaggio di un risparmio di materiale si contrappone lo svantaggio di una notevole rigidit, infatti tutti i tre criteri (trattamenti, blocchi, fattore principale) devono avere lo stesso n di livelli In un esperimento con 3 criteri, due sono rappresentati da righe e da colonne (i fattori secondari), mentre il terzo (il fattore principale) distribuito entro lo schema della tabella in modo casuale ma bilanciato, e compare una volta sola sia in ogni riga e in ogni colonna Indicando con A, B, C, D i 4 livelli di un fattore principale, la rappresentazione grafica bidimensionale dell'esperimento pu essere :
COLONNE RIGHE

1 D C B A

2 B D A C

3 C A D B

4 A B C D

1 2 3 4

5-19-(2000)

Cos come in un disegno a due criteri di classificazione, la randomizzazione attuata assegnando a caso i livelli dei trattamenti entro ciascun blocco, in un quadrato latino, la randomizzazione attuata permutando i diversi livelli del fattore principale nello schema ordinato di righe e colonne Sono state costruite tabelle di distribuzione casuale, da utilizzare nel caso di pi esperimenti a quadrati latini con schemi differenti Il limite pi pesante a questo modo di programmare l'esperimento dato dalla sua rigidit: ad esempio, volendo analizzare un fattore a 5 livelli, occorrer un n uguale di livelli anche negli altri due criteri organizzati per righe e colonne Il modello additivo lineare di ANOVA in un disegno sperimentale a quadrato latino richiede che la generica osservazione Xijk appartenente al i-esimo blocco, al jesimo trattamento e al k-esimo fattore, sia data da
X ijk = +

- - j - i - k - ijk

con: media generale effetto medio del trattamento i-esimo effetto medio del blocco j-esimo effetto medio del fattore k-esimo variabilit residua
j

ijk

Il calcolo delle devianze semplice: la devianza totale, la devianza tra righe e quella tra colonne sono calcolate con la stessa metodologia utilizzata nel disegno a blocchi randomizzati; la devianza tra trattamenti viene calcolata rispetto alla somma e alla media dei vari trattamenti

5-20-(2000)

ESEMPIO Confrontare la produttivit di 5 (A, B, C, D, E) variet di sementi in rapporto al tipo di concime (1,2,3,4,5) e ad un diverso trattamento del terreno (I, II, III, IV, V) Si diviso lappezzamento in 5 strisce equivalenti e in ognuna stata condotta un'aratura di profondit differente; perpendicolarmente a queste strisce sono state tracciate altre 5 strisce concimate in modo diverso; nei 25 quadrati sono state seminate le 5 variet di sementi secondo lo schema
TRATTAMENTO DEL TERRENO CONCIME 1 2 3 4 5 totali medie I II III IV V totali medie

A 42 E 45 C 41 B 56 D 47 231 46,2 A 220 44,0

C 47 B 54 A 46 D 52 E 49 248 49,6 B 267 53,4

B 55 C 52 D 57 E 49 A 45 258 51,6 C 236 47,2

D 51 A 44 E 47 C 50 B 54 246 49,2 D 257 51,4

E 44 D 50 B 48 A 43 C 46 231 46,2 E 234 46,8

239 245 239 250 241 1214

47,8 49,0 47,8 50,0 48,2

48,56

sementi
totali medie

I risultati di ANOVA sono


DEVIANZE GDL VARIANZE

totale tra sementi tra concimi tra arature errore

480,16 286,16 109,36 17,76 66,88

24 4 4 4 12 71,54 27,34 4,44 5,57

5-21-(2000)

Si possono calcolare tre F, tutti con 4 e 12 gdl : tra sementi: F4, 12 = 71, 54 = 12, 84 5, 57 27, 34 = 4, 91 5, 57

tra concimi: tra arature:

F4, 12 =

questa varianza minore della varianza d'errore e pertanto inutile calcolare il rapporto F per verificare se gli sia significativamente superiore

Per 4 e 12 gdl la tabella dei valori critici per =0,05 fornisce il valore 3,26, per cui risultano significative : - la differenza tra sementi (F = 12,84) - la differenza tra concimi (F = 4,91) ma non quella tra i diversi tipi di aratura (F < 1)

ESEMPIO Tra le numerose applicazioni, con i quadrati latini si possono analizzare gli effetti di diversi farmaci (fattore principale) da somministrare ad alcune persone (blocchi) in giorni diversi (trattamenti), e accertare se l'effetto di un farmaco dipenda anche dal tempo in cui somministrato Si sperimentano gli effetti di 4 diversi farmaci (A, B, C, D) somministrati in 4 giorni diversi a 4 diverse persone :
GIORNI PERSONE

1 A 48 D 37 B 42 C 31

2 C 35 B 50 D 64 A 40

3 D 40 C 33 A 53 B 42

4 B 51 A 45 C 39 D 37

I II III IV

5-22-(2000)

I risultati di ANOVA sono


DEVIANZE GDL VARIANZE

totale tra farmaci tra giorni tra persone errore

1098 389 125 303 281

15 3 3 3 6 129,7 41,7 101,0 46,8

Il disegno sperimentale a quadrati latini impone che le sue dimensioni non possano essere n troppo piccole, n troppo grandi : il limite minimo imposto dai gdl della varianza d'errore [= n2 - (n-1) 3 - 1]: - un quadrato latino 2x2 avrebbe in totale 3 gdl: 1 per il fattore principale, 1 per le colonne e 1 per le righe, senza pi gdl per la varianza d'errore - un quadrato latino 3x3, avrebbe la varianza d'errore con solo 2 gdl, troppo pochi per rendere significative differenze tra medie non molto grandi il limite massimo determinato dalla complessit dell'esperimento e viene abitualmente fissato per un quadrato 12x12 La replica di un esperimento a quadrati latini determina i quadrati greco-latini, che sono la sovrapposizione di due quadrati latini; con pi repliche si parla di
QUADRATI CON PI ALFABETI

A parte la crescente complessit dell'esperimento, un punto importante da ricordare il n di gdl della varianza d'errore che diminuisce proporzionalmente

5-23-(2000)

DATI MANCANTI Nel disegno a blocchi randomizzati e in quello a quadrati latini : la mancanza di una osservazione pone un problema di elaborazione dei dati si richiede un numero prefissato di osservazioni, a differenza di quanto avviene nel disegno sperimentale ad un criterio di classificazione, dove la validit di ANOVA non dipende dall'eguaglianza del n di repliche I dati possono mancare per : selezioni contro determinati valori (ad es. quelli molto grandi o molto piccoli) che uno strumento pu non registrare perch troppo differenti dalla scala su cui tarato --> il campione raccolto viziato in modo irrimediabile cause accidentali --> possibile rimpiazzare i dati mancanti In una tabella a due fattori o a due entrate senza replicazioni (come nel disegno a blocchi randomizzati) il dato da stimare dipende dagli effetti di riga e di colonna calcolati dagli altri dati Si stima un valore Xij che dipende dalla media generale , dall'effetto riga i e dall'effetto colonna j , che sar privo della variazione casuale ij Xij = + j + i In un disegno con r righe e c colonne, indicando con Ri il totale di riga, con C j il totale di colonna e con T il totale generale, calcolati senza il dato mancante, Xij pu essere sostituito con Xij X ' ij = r R i + c C j T ( r 1) (c 1)

5-24-(2000)

Se manca l'osservazione del trattamento ZONA 3 e blocco ORA II TRATTAMENTI


BLOCCHI ORA I ORA II ORA III ORA IV TOTALI ZONA 1 ZONA 2 ZONA 3 ZONA 4 ZONA 5 TOTALI

28 34 22 36 120

25 32 21 31 109

30 ? 24 40 94

22 31 20 33 106
X'ij =

26 30 19 29 104

131 127 106 169 533

il valore con cui sostituire tale osservazione

4 127 + 5 94 533 = 37, 08 ( 4 1) ( 5 1)

La sostituzione del dato mancante permette di eseguire i calcoli di ANOVA nel modo abituale: cambiano i gdl totale e i gdl della varianza d'errore, che saranno diminuiti di 1 (restano immutati quelli tra trattamenti e tra blocchi) L'operazione di sostituzione ha il solo scopo di permettere di effettuare i calcoli di ANOVA in modo corretto, ma non aggiunge alcuna informazione che non fosse gi contenuta nei dati osservati Se manca pi di un dato: si sostituiscono i dati mancanti meno uno con dati inventati, anche se logici il dato non sostituito viene stimato con la modalit su illustrata si stima un altro dato in sostituzione di un dato inventato si itera il procedimento per tutti i dati originariamente mancanti, finch i valori stimati restano stabili Nel caso di un disegno a quadrati latini NxN, il dato mancante nella i-esima riga, j-esima colonna e k-esimo fattore pu essere sostituito da
' Xijk =

n (R i + C j + Tk ) 2 G ( n 1) (n 2 )

con :

n: Ri Cj Tk : G:

dimensione del quadrato latino totali riga, colonna, trattamento cui appartiene il dato mancante totale generale

Anche qui la varianza tra trattamenti e l'errore standard della differenza tra due trattamenti andrebbero ridotti
5-25-(2000)

EFFICIENZA RELATIVA DI UN TEST


Il disegno sperimentale a blocchi randomizzati o a quadrati latini indubbiamente molto vantaggioso quando si intende analizzare contemporaneamente 2 o 3 fattori di variazione: in un quadrato latino 5x5, i gdl di ognuno dei 3 test F per verificare la significativit delle differenze tra le medie di ogni fattore sono 4 e 12 se si facesse un esperimento ad un criterio di classificazione per esaminare un solo fattore, per avere un test con la medesima potenza servirebbero in totale 17 dati: 16 gdl per la devianza totale, suddivisi in 4 gdl per la devianza tra trattamenti e 12 per quella d'errore se si analizzassero separatamente i 3 fattori con 3 esperimenti diversi, sarebbero richiesti gli stessi gdl per ogni esperimento: un totale di 51 dati, pi del doppio di quelli utilizzati nel quadrato latino Lo scopo di allestire un disegno sperimentale pi complesso quello di rendere pi significativo il test F, mediante il controllo delle maggiori fonti di variazione e la riduzione della varianza d'errore In una ANOVA a blocchi randomizzati o a quadrati latini, rispetto all'analisi ad un criterio di classificazione si ha sempre un abbassamento sia della devianza d'errore sia dei gdl non sempre la varianza d'errore, determinata dal loro rapporto, diminuisce: se la devianza d'errore diminuisce meno dei gdl, la varianza aumenta al vantaggio derivante dall'eventuale abbassamento della varianza d'errore si associa sempre lo svantaggio dovuto alla perdita di gdl, per cui il valore di F richiesto per dimostrare la significativit del test aumenta quando i gdl sono pochi, lo svantaggio derivante dal calo dei gdl della varianza d'errore pu essere grave

5-26-(2000)

ESEMPIO Supponiamo che unANOVA a blocchi randomizzati abbia fornito il risultato:


DEVIANZE totale tra giorni tra ore errore GDL VARIANZE

3362 1352 1987 23

7 1 3 3 1352 662,333 7,666

Con i medesimi dati sempre possibile condurre un'ANOVA completamente randomizzata, calcolando solo la devianza tra giorni; la devianza tra ore ed i suoi gdl sono cumulati con quelli d'errore, con il seguente risultato:
DEVIANZE totale tra giorni errore GDL VARIANZE

3362 1352 2010

7 1 6 1352 335

Nel primo caso, per verificare la differenza tra giorni si ottiene un test F1,3
F1,3 = 1352 =176, 36 7, 666

risulta altamente significativo, essendo il valore critico, per =0,05, uguale a 10,13 Nel secondo caso la differenza tra giorni verificata con F1,6
F1,6 = 1352 = 4, 035 335

non risulta significativo, essendo il valore critico, per =0,05 e per gli stessi gdl, uguale a 5,99

5-27-(2000)

La convenienza ad utilizzare lo schema a blocchi rispetto a quello completamente randomizzato, misurata in termini di EFFICIENZA RELATIVA , data da
E. R. =
2 ( n1 + 3) ( n 2 + 1) se1 2 ( n1 + 1) ( n 2 + 3) s e2

dove :

n1

n di gdl della varianza d'errore nell'analisi ad un criterio di

classificazione o a disegno completamente randomizzato n2 n di gdl della varianza d'errore nell'analisi a 2 criteri di classificazione o a blocchi randomizzati s2 varianza d'errore nell'analisi ad un criterio di classificazione e1 2 se2 varianza d'errore nell'analisi a due criteri di classificazione

Con i dati su riportati, l'efficienza relativa del disegno a blocchi randomizzati rispetto a quello completamente randomizzato
E. R.= (6 +3) (3+1) 335 12060 = = 30, 77 (6 +1) (3 +3) 7, 666 391, 97

In questo caso, l'esperimento a due criteri di classificazione risulta circa 31 volte pi efficace di quello ad un solo criterio (ovvero: per ottenere la stessa potenza del test a blocchi randomizzati, con il test a disegno completamente randomizzato occorrono quasi 31 volte pi dati: non 8 osservazioni, bens 248)

5-28-(2000)

E' possibile calcolare l'efficienza di un quadrato latino sia rispetto al disegno a blocchi randomizzati che a quello completamente randomizzato Supponiamo che un ANOVA a quadrati latini abbia fornito i risultati :
DEVIANZE totale tra sementi tra concimi tra arature errore GDL VARIANZE

480,16 286,16 109,36 17,76 66,88

24 4 4 4 12 71,54 27,34 4,44 5,57

Con gli stessi dati sarebbe stato possibile ignorare la differenza tra arature; i risultati di ANOVA sarebbero diventati :
DEVIANZE totale tra sementi tra concimi errore GDL VARIANZE

480,16 286,16 109,36 84,64

24 4 4 16 71,54 27,34 5,29

Sarebbe stato possibile stimare solamente due F: tra sementi: F4 ,1 6 = tra concimi: F4 ,1 6 =
71, 54 = 13, 52 5, 29 27, 34 = 5, 17 5, 29

che risultano ancor pi significative sia per la riduzione della varianza d'errore sia per aumento dei gdl che abbassa il livello del valore critico: per =0,05 da 4 e 12 gdl a 4 e 16 gdl il valore di F diminuisce da 3,26 a 3,01 e per =0,01 da 5,41 a 4,77

5-29-(2000)

Dopo avere verificato con i quadrati latini che non esiste differenza significativa tra arature, pi opportuno, per dimostrare la significativit delle differenze tra sementi e tra concimi, presentare i risultati con lo schema a blocchi randomizzati, anche se l'esperimento stato condotto con lo schema pi complesso dei Q.L. Il fattore principale pu essere o il tipo di semente (A) o il concime (B) CASO A:
DEVIANZA totale tra sementi errore F4 ,20 = 71, 54 = 7, 38 9, 7 GDL VARIANZA

480,16 286,16 194

24 4 20 71,54 9,7

CASO B:
DEVIANZA totale tra concimi errore F4 ,20 = 27, 34 = 1, 47 18, 54 GDL VARIANZA

480,16 109,36 370,80

24 4 20 27,34 18,54

Le differenze tra sementi rimangono significative, ma con un valore di F assai minore; le differenze tra i concimi non risultano pi significative, poich nella varianza d'errore stata cumulata anche la grande variabilit tra specie di sementi L'efficienza relativa di uno specifico esperimento a quadrati latini rispetto al corrispondente disegno a blocchi randomizzati pu essere stimata con una formula analoga a quella presentata precedentemente
E. R. =
2 ( n 2 + 3) (n 3 + 1) se 2 2 (n 2 + 1) (n 3 + 3) se 3

dove : s 2 e s 2 varianze d'errore rispettive e2 e3 n3 gdl della varianza d'errore a 3 criteri di classific. n2 gdl della varianza d'errore a 2 criteri di classific.

5-30-(2000)

REGRESSIONE LINEARE SEMPLICE


Nell'analisi della varianza a due o a pi criteri di classificazione sono considerati contemporaneamente pi fattori, come i vari trattamenti e blocchi con le loro interazioni, ma relativi sempre alla medesima ed unica variabile Quando si considerano due o pi variabili quantitative oltre alle precedenti analisi su ognuna di esse, si possono esaminare anche il tipo e l'intensit delle relazioni che sussistono tra loro Nel caso in cui per ogni individuo si rilevino congiuntamente due variabili, possibile verificare se esse variano simultaneamente e quale relazione matematica sussiste tra queste due variabili. Allora possibile ricorrere all'analisi della regressione e a quella della correlazione, di norma considerate tra loro alternative - analisi della regressione : per sviluppare un modello statistico che pu essere usato per prevedere i valori di una variabile, detta dipendente o pi raramente predetta ed individuata come l'effetto, sulla base dei valori dell'altra variabile, detta indipendente o esplicativa, individuata come la causa - analisi della correlazione : per misurare l'intensit dell'associazione tra due variabili quantitative, di norma non legate direttamente da causa-effetto, facilmente mediate da almeno una terza variabile, ma che comunque variano congiuntamente Quando per ciascuna unit di un campione o di una popolazione si rilevano due caratteristiche, si ha una DISTRIBUZIONE DOPPIA e i dati possono essere riportati in forma tabellare o grafica : unit 1 2 3 ... n carattere X X1 X2 X3 ... Xn carattere Y Y1 Y2 Y3 ... Yn

cap.6 - pag. 1 (aa 2000)

se il numero di dati ridotto, la distribuzione doppia pu riguardare una tabella che riporta tutte le variabili relative ad ogni unit od individuo misurato se il numero di dati grande, si ricorre ad una sintesi tabellare chiamata DISTRIBUZIONE DOPPIA DI FREQUENZE in cui si suddividono le unit del collettivo in classi per i due caratteri ( Xi e Yj ) e poi - si riporta la prima (X) nella TESTATA - si riporta la seconda (Y) nella COLONNA MADRE - si contano le unit che hanno contestualmente entrambe le MODALIT ( n ij )
X1 Y1 Y2 Y3 a11 a 21 a 31 X2 a12 a 22 a 32 X3 a13 a 23 a 33

...
Yj

...
a j1

...
a j2

...
a j3

...
Ym

...
a m1

...
a m2 M2

...
a m3 M3

... ... ... ... ... ... ... ...

Xi a1 i a 2i a 3i

...
a ji

...
a mi Mi

... ... ... ... ... ... ... ...

Xn a1 n a 2n a 3n

Totali
N1 N2 N3

...
a jn

...
Nj

...
a mn Mn

...
Nm

Totali M1

I totali delle righe e delle colonne rappresentano due distribuzioni semplici e sono dette DISTRIBUZIONI MARGINALI della distribuzione doppia Le frequenze riportate in una colonna o in una riga sono dette DISTRIBUZIONI PARZIALI della doppia distribuzione : ad esempio, nello schema tabellare qui sopra sono presenti due distribuzioni marginali e 10 distribuzioni parziali (5 per riga e 5 per colonna) Una distribuzione doppia pu essere rappresentata graficamente con : ISTOGRAMMI : si riportano le frequenze dei raggruppamenti in classi come nelle distribuzioni di conteggi con dati qualitativi (tabelle m n ) DIAGRAMMI DI DISPERSIONE : si riportano le singole coppie di misure osservate considerando ogni coppia della distribuzione come coordinate cartesiane di un punto del piano, sicch : - possibile rappresentare ogni distribuzione doppia nel piano cartesiano - si ottiene una NUVOLA DI PUNTI, che descrive in modo visivo la relazione tra le due variabili
cap.6 - pag. 2 (aa 2000)

ESEMPIO Lo studio e la classificazione tassonomica di specie di Macrobiotidi si fonda sia su aspetti qualitativi sia sui rapporti tra gli arti e di loro segmenti e, di norma, si ha una bassa variabilit intraspecifica e una forte variabilit interspecie Per 45 animali della stesso gruppo Macrobiotus hufelandi, ma con forti dubbi sull'attribuzione della specie a causa delle difficolt di classificazione dovute alla compresenza di giovani ed adulti, sono state misurate al microscopio le dimensioni (in m) di parti dello scheletro, tra cui le dimensioni di prima e seconda placca animali 1 2 3 4 45 prima placca 31 31 28 33 32 seconda placca 22 21 20 24 23

Per evitare pagine di numeri di difficile interpretazione, l'elevato numero di osservazioni impone il ricorso ad una rappresentazione pi sintetica, ottenuta con una tabella Per ogni coppia di valori diversi della prima variabile (testata) e della seconda variabile (colonna madre), si formano le distribuzioni di frequenza, con modalit analoghe a quelle della statistica univariata
dimensione prima placca 27 19 dimensione seconda placca 20 21 22 23 24 25 totali 1 0 0 0 0 0 0 1 28 2 1 1 0 0 0 0 4 29 1 3 1 3 0 0 0 8 30 0 2 5 4 1 0 0 12 31 0 0 3 4 2 0 0 9 32 0 0 1 2 2 0 1 6 33 0 0 1 0 0 1 0 2 34 0 0 0 0 0 2 1 3 totali 4 6 12 13 5 3 2 45

cap.6 - pag. 3 (aa 2000)

5
5

4
4

3
3

2
2 27 1 29 0 1 9 2 0 2 1 32 2 2 33 2 3 2 4 34 2 5 30 31 DIMENSIONE PRIMA PLACCA 28

1 34 0 2 5 31 2 4 2 3 30 2 2 29 2 1 28 2 0 27 1 9 DIMENSIONE PRIMA PLACCA 33 32

DIMENSIONE SECONDA PLACCA

DIMENSIONE SECONDA PLACCA

Quando le caselle sono troppe per essere riportate in una tabella di dimensioni medie, si ricorre al raggruppamento in classi di una sola o di entrambe le variabili Quando i dati sono espressi in una scala continua, conviene darne una rappresentazione grafica mediante DIAGRAMMA DI DISPERSIONE : - i dati di ogni individuo sono riportati su un diagramma bidimensionale ed indicati da un punto, le cui coordinate corrispondono ai valori X sull'asse delle ascisse e ai valori Y sull'asse delle ordinate - pi ricorrenze sono espresse da punti di dimensioni maggiori
individui peso (Y) altezza (X)
80 75 70 65 60 55 50 155 165 PESO cap.6 - pag. 4 (aa 2000) 175 185

1 52 160

2 68 178

3 75 183

4 71 180

5 63 166

6 59 175

7 57 162

ALTEZZA

MODELLI DI REGRESSIONE Il diagramma di dispersione fornisce una descrizione visiva espressa in modo soggettivo, per quanto precisa, della relazione esistente tra le due variabili La funzione matematica che la pu esprimere in modo oggettivo detta EQUAZIONE DI REGRESSIONE o FUNZIONE DI REGRESSIONE della variabile Y sulla variabile X
Il termine REGRESSIONE fu introdotto verso la met dell'ottocento da Galton nei suoi studi di eugenica in cui si prefisse di verificare se la statura dei genitori influisse sulla statura dei figli e se questa corrispondenza potesse essere tradotta in una legge matematica Galton confront anche l'altezza dei padri con quella dei figli ventenni e osserv che padri molto alti hanno figli alti, ma pi vicini alla media dei loro genitori; parimenti egli osserv che i padri pi bassi hanno figli maschi bassi, ma un p pi alti, piu vicini alla media del gruppo, rispetto ai loro genitori (se egli avesse osservato l'altezza dei padri in rapporto ai figli avrebbe ugualmente trovato che i figli pi bassi e quelli pi alti hanno genitori con un'altezza pi vicina alla media dei genitori) Galton fu colpito da questo fenomeno, afferm che la statura tende a regredire da valori estremi verso la media; nacque cos il termine, che dal suo significato originario di "ritornare indietro" assunse quella della funzione che esprime matematicamente la relazione esistente tra la variabile attesa (o predetta o teorica) e la variabile empirica (o attuale)

La forma pi generale di una equazione di regressione Y = a + b X + c X 2 + d X 3 +... dove il secondo membro un polinomio intero di X L'approssimazione della curva teorica ai dati sperimentali tanto maggiore quanto pi elevato il numero di termini del polinomio : - frequente il caso di teorie che spiegano come, all'aumentare della variabile indipendente, si abbia una diminuzione o un aumento della variabile dipendente - raro il caso in cui si pu definire una teoria biologica o ambientale che spieghi una relazione pi complessa (curva di terzo ordine o di ordine superiore)

cap.6 - pag. 5 (aa 2000)

o o Y o o X o o o o o o o

o o o o Y o o o o o o o

o o

relazione lineare positiva

relazione lineare negativa

o o o Y o o X o o o o

o o o

o o o Y o o o o o X o o o o o o

relazioni quadratiche
o o o o o o o o o o o

o Y o o

o o o o o o

o o o o o o o Y

relazione cubica

nessuna relazione

cap.6 - pag. 6 (aa 2000)

REGRESSIONE LINEARE SEMPLICE La forma di relazione matematica pi semplice tra due variabili la regressione lineare semplice, rappresentata dalla retta di regressione Yi = a + b X i
$ Yi Xi a b

dove :

valore stimato di Y per l'osservazione i-esima valore empirico di X per l'osservazione i-esima intercetta della retta di regressione coefficiente angolare della retta di regressione
Y i $ Y i

Y Y

(intercetta) X X

L'unica reale incognita il valore del coefficiente angolare b, essendo l'intercetta a stimata da b e dai valori medi di Y e di X a = Y bX Per calcolare la retta che meglio approssima la distribuzione dei punti, si pu partire considerando che ogni punto osservato Yi si discosta dalla retta di una certa quantit i detta errore o RESIDUO Yi = a + b X i +
i

Ogni valore i pu essere positivo o negativo: - positivo quando il punto Y sperimentale sopra la retta - negativo quando il punto Y sperimentale sotto la retta

cap.6 - pag. 7 (aa 2000)

La retta migliore per rappresentare la distribuzione dei punti nel diagramma di dispersione quella stimata con il METODO DEI MINIMI QUADRATI (V. PAGINA A FINE CAPITOLO)
$ Indicando con Yi i valori osservati (o empirici) e con Yi i corrispondenti valori

stimati sulla retta, con un metodo analogo al calcolo della devianza si stima la migliore retta interpolante, cio quella che minimizza la somma dei quadrati degli scarti dei $ valori osservati Yi rispetto a quelli stimati Yi (Yi Yi ) 2
i=1 n

Essendo
i

= Yi (a + b X i )

per il principio dei minimi quadrati si stimano a e b in modo che

2 i

= (Yi (a + b X i )) 2 = minimo

Eguagliando a zero le derivate parziali rispetto ad a e a b, si trova che b uguale al rapporto della codevianza XY con la devianza di X b= Codev xy Dev x

La CODEVIANZA : - stima come X e Y variano congiuntamente, rispetto al loro valore medio - definita come la sommatoria dei prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla sua media : Codev xy = ((X X )(Y Y )) - si pu esprimere con una formula empirica per un calcolo pi rapido

cap.6 - pag. 8 (aa 2000)

Codev xy = (x y)

x y
n

cap.6 - pag. 9 (aa 2000)

In conclusione, il coefficiente angolare b calcolato dalle coppie dei dati sperimentali X e Y come b=

((X X ) (Y Y )) (X X )2

oppure con lequivalente formula rapida o empirica

(x y) n b= ( x) 2 2 x n
x

Lintercetta a si calcola come

a = Y bX

e poi si procede alla rappresentazione grafica, ricordando che : - la retta passa sempre dal baricentro del grafico, individuato dal punto d'incontro delle due medie campionarie X e Y
$ - sufficiente calcolare il valore di Y corrispondente ad un qualsiasi valore di X per tracciare la retta che passa per questo punto calcolato e per il punto d'incontro tra le due medie

ESEMPIO Per sette giovani stato misurato il peso (Y) e l'altezza (X), allo scopo di stimare la retta che definisce la relazione media tra le due variabili individui peso (Y) altezza (X) 1 52 160 2 68 178 3 75 183 4 71 180 5 63 166 6 59 175 7 57 162

variabile indipendente (DETERMINISTICA) : altezza variabile dipendente (STOCASTICA) : peso

(X Y ) = 76945

X = 1204 Y = 445

X 2 = 207598

n=7

cap.6 - pag. 10 (aa 2000)

x y (x y ) n b= ( x )2 2 x n

1204 445 7 = = 0,796 1204 2 207598 7 76945

a = Y b X = 63,571 0,796 172 = 73,354

80 75 70 65

ALTEZZA

Y
60 55 50 155 165

X
PESO

175

185

VALORE PREDITTIVO DELL'ANALISI DELLA REGRESSIONE La semplice rappresentazione grafica dei valori osservati e della retta di regressione fornisce alcune indicazioni importanti per l'interpretazione delle relazioni esistenti tra le due variabili Il valore del coefficiente angolare indica quanto aumenta in media la variabile dipendente Y all'aumento di una unit della variabile indipendente X Se si cambia la scala della variabile indipendente o predittiva X (per esempio l'altezza misurata in mm o in m e non pi in cm) lasciando invariata quella della variabile dipendente o predetta Y, muta proporzionalmente anche il valore del coefficiente angolare b
cap.6 - pag. 11 (aa 2000)

Nell'analisi della regressione : - frequente, specialmente negli utilizzi predittivi, il ricorso al tempo come variabile indipendente - viene spesso dimenticato che qualsiasi previsione o stima di Y derivata dalla retta valida solo entro il campo di variazione della variabile indipendente X - non dimostrato che la relazione esistente tra le due variabili sia dello stesso tipo anche per valori minori o maggiori di quelli sperimentali rilevati

SIGNIFICATIVIT' DELLA RETTA DI REGRESSIONE Il metodo dei minimi quadrati permette di avere sempre la retta che meglio si adatta ai dati rilevati, indipendentemente dalla loro dispersione intorno alla retta Tuttavia la retta potrebbe indicare : - sia l'esistenza di una relazione reale tra le due variabili, se il valore di b alto e la dispersione dei punti intorno ad essa ridotto - sia di una relazione inesistente o non significativa, se i punti intorno ad essa sono dispersi in modo non differente rispetto alla media
o o o Y o o o o o o o o Y o

X X

(A)

reale cambiamento di Y al variare di X


o o

o o o o Y o o o o o o Y
Y

o o o Y o o o o o o

X X
X

cap.6 - pag. 12 (aa 2000)

(B)

caso incerto

(C)

non c alcuna regressione

cap.6 - pag. 13 (aa 2000)

Il coefficiente angolare b della retta di regressione, che determina la quantit di variazione di Y per ogni unit aggiuntiva di X, calcolato da osservazioni sperimentali Ma ci che interessa al ricercatore la relazione esistente nella popolazione, e sebbene il valore di b sia differente da zero, non detto che nella popolazione al variare di X si abbia una variazione di Y La significativit del coefficiente di regressione nella popolazione ( ) pu essere saggiata mediante la verifica dell'H0 : = 0 Accettando H0 si assume che il valore reale del coefficiente angolare sia = 0 --> --> al variare di X, Y resta costante e uguale al valore dell'intercetta a non esiste alcun legame tra X e Y

Rifiutando H0, si accetta H1 --> al variare di X si ha una corrispondente variazione sistematica di Y

Un metodo per la verifica della significativit della retta calcolata il test F, che si basa sulla scomposizione delle devianze
Y i $ Y i

Y Y i Y

(A)
Y i $ Y Y i i $ Y i $ Y Y i Y

(B)
cap.6 - pag. 14 (aa 2000)

$ La somma dei quadrati delle distanze tra i tre punti Y, Y e Y definiscono le tre devianze: devianza totale, devianza della regressione o devianza dovuta alla regressione, devianza d'errore o devianza dalla regressione o residui: Devianza totale = (Y Y )2

$ Devianza della regressione = (Y Y) $ Devianza d' errore = (Y Y)2

con gdl n-1 (A) con gdl 1 (B, parte inferiore) con gdl n-2 (B, parte superiore)

Queste formule richiedono calcoli lunghi e danno risultati approssimati quando i valori delle tre Y sono arrotondati, per cui si utilizzano le formule seguenti : ( Y) 2 Devianza totale = Y n
2

Devianza dalla regressione =

Codev 2 xy Dev x

ricordando che

Cod( x ,y ) =

x y (x y )
n

( X )2 Devx = X n
2

Devianza d'errore (per differenza)


Devianza d' errore = Devianza totale Devianza della regressione

Dal rapporto della devianza dovuta alla regressione e quella d'errore con i rispettivi gdl si stimano la varianza dovuta alla regressione e la varianza d'errore il cui rapporto determina il valore del test F con 1 e n-2 gdl F = Varianza dalla regressione Varianza d' errore

(1, n1)

Se lF calcolato inferiore a quello tabulato per la probabilit prefissata e i gdl corrispondenti, si accetta H0 (non esiste regressione lineare statisticamente significativa) Se lF calcolato supera quello tabulato si rifiuta l'H0 e si accetta H1 (la regressione lineare tra le due variabili significativa)

cap.6 - pag. 15 (aa 2000)

Se = 0, la varianza dovuta alla regressione e quella della regressione o d'errore sono stime indipendenti e non viziate della variabilit dei dati Se 0, la varianza d'errore una stima non viziata della variabilit dei dati, mentre la varianza dovuta alla regressione stima di una grandezza maggiore Di conseguenza, il rapporto tra le varianze con rispettivamente 1 e n-2 gdl da ritenersi utile alla verifica dell'ipotesi = 0

Rifiutare H0 : - non significa che non esiste relazione tra le due variabili, ma solamente che non esiste una relazione di tipo lineare - significa che potrebbe esistere una relazione di tipo differente, come quella curvilinea di secondo grado o di grado superiore

La TRASFORMAZIONE di uno o di entrambi gli assi spesso sufficiente per ricondurre una relazione di tipo curvilineo a quella lineare la crescita esponenziale di una popolazione nel tempo, generata da tassi costanti, diviene lineare con la trasformazione logaritmica del tempo, di norma riportato sull'asse delle ascisse la relazione curvilinea tra lunghezza e peso di individui della stessa specie diviene lineare con la trasformazione mediante radice cubica del peso, correlato linearmente al volume l'analisi statistica permette qualsiasi tipo di trasformazione che determini una relazione lineare tra due variabili

ESEMPIO Con le misure di peso ed altezza rilevati su 7 individui stata calcolata la retta di $ regressione Y = 73 , 354 + 0 , 796 X Dopo aver costruito il diagramma di dispersione delle 7 coppie di osservazioni stata rappresentata la retta : - non quella che passa pi vicino ai punti, ma quella che rende minima la somma dei quadrati delle distanze tra la retta e i punti - una retta con tale propriet pu essere sempre calcolata per qualsiasi gruppo di dati - non detto che tale retta sia rappresentativa o indice della reale esistenza di un rapporto lineare tra le due serie di dati
cap.6 - pag. 16 (aa 2000)

Pertanto, con le tecniche dell'inferenza, occorre verificare : - se la retta pu essere assunta come rappresentativa di un rapporto lineare tra le due variabili - se corretto affermare che, nella popolazione dei soggetti dalla quale stato estratto il campione, ad una variazione in altezza corrisponde un cambiamento lineare nel peso - se, mediante test F, H0 : = 0 oppure H1 : 0

(X Y ) = 76945

X = 1204 X 2 = 207598

Y = 445 Y 2 = 28693

4452 Devianza totale = 28693 = 28693 28289,285 = 403, 715 7 (76945 1204 445 2 ) (76945 76540)2 164025 7 = = = 321,618 12042 207598 207088 510 207598 7

Devianza della regr. =

Devianza d' errore = 403,715 321,618 = 82,097

Tabella riassuntiva Devianze 403,715 321,618 82,097 gdl 6 1 5 Varianze 321,62 16,42

totale regressione errore


F(1, 5) = 321, 62 = 19 , 59 16 , 42

- i valori critici riportati nelle tavole degli F per 1 e 5 gdl sono: 6,61 per = 0,05 e 16,26 per = 0,01 - il valore calcolato superiore a quello tabulato per =0,01 - con p < 0,01 (di commettere un errore di I^ tipo, si rifiuta H0 : esiste un rapporto lineare tra le variazioni in altezza e quelle in peso La stima della significativit della retta o verifica dell'esistenza di una relazione lineare tra le due variabili pu essere condotta anche con il test t, con risultati equivalenti al test F
cap.6 - pag. 17 (aa 2000)

Analogamente all'analisi della varianza ad uno e a due criteri di classificazione, il t con n-2 gdl (n = n di osservazioni o coppie di dati)
t(n-2 ) = F(1, n-2)

Il test t : fondato su calcoli didatticamente meno evidenti di quelli del test F, ma offre il vantaggio di poter essere applicato sia in test unilaterali ( > 0 ? oppure > 0 ?) che in test bilaterali ( 0 ?) fondato sul rapporto tra il valore del coefficente angolare b (che rappresenta la risposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suo errore standard sb t (n-2) = bb Sb dove : valore atteso

Nella verifica della significativit della regressione si ha =0 ma la formula pu essere utilizzata per verificare la significativit dello scostamento da qualunque valore atteso Un test relativamente frequente consiste nel verificare se b si discosta significativamente da 1, quando atteso che all'aumentare di una unit di X si abbia un corrispondente aumento di una unit anche nel valore di Y, qualunque siano le unit di misura delle due variabili Il valore di Sb determinato dalla radice quadrata del rapporto tra la dispersione $ dei dati sperimentali Y intorno alla retta Y e la devianza totale di X sb = s2 b dove: s2 b Varianza d' errore della retta = = Devianza totale della X s2 e (X i X )2

La varianza d'errore di b ( s2 ) diminuisce, e quindi il suo grado di precisione b cresce, all'aumentare della devianza degli X La varianza d'errore della retta s2e chiamata anche ERRORE STANDARD DELLA (Yi Yi ) 2 2 STIMA data da s e = n2
cap.6 - pag. 18 (aa 2000)

dove la devianza d'errore (al numeratore) ottenuta in modo rapido per differenza dopo il calcolo della devianza totale e di quella dovuta alla regressione
s2 = e Devianza totale di Y - Devianza dalla regressione n2

Per la devianza dovuta alla regressione sono state proposte anche altre formule che permettono calcoli pi rapidi Un metodo al quale si ricorre con frequenza utilizza parte dei calcoli necessari alla stima della retta Devianza dalla regressione =

Yi2

a Yi - b (X i Yi )

ESEMPIO Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, si vuole stimare la significativit della regressione mediante il test t In questo caso : - si potrebbe ricorrere ad un test unilaterale (verificare solamente se il peso aumenti, oppure diminuisca, in modo significativo al crescere dell'altezza)
H0 : = 0 ; H1 : > 0 oppureH 1: < 0

- si dovrebbe ricorrere ad un test bilaterale (verificare l'esistenza di una relazione lineare tra le due variabili senza indicarne il segno) Ricordando che
b = 0 , 796 Varianza d' errore = 16,42 S2 = b 16, 42 510 sb = 0 , 1794 n=7 Devianza di X = 510

si ha
t5 = 0 , 796 = 4,437 0 , 1794

F1,5 = 19 , 59 corrisponde a t 5 = 19 , 59 = 4,426

La pendenza della retta l'informazione pi importante sulla relazione tra X e Y: fornisce la quantit di variazione media di Y per unit di variazione di X
cap.6 - pag. 19 (aa 2000)

Il test di significativit risponde solamente al quesito se essa si discosta da 0

cap.6 - pag. 20 (aa 2000)

Un caso che ricorre con frequenza quando X e Y sono il risultato di due metodi differenti per stimare la stessa quantit di una sostanza, per cui al valore nullo di Y dovrebbe corrispondere un valore nullo anche per X - per X = 0 si dovrebbe avere una risposta media che non si discosta significativamente da Y = 0 - la significativit dell'intercetta (H0 : = 0 ) pu essere verificata sia con un test unilaterale che con un test bilaterale t( n 2) = a sa 1 ( + n con S a errore standard dell'intercetta a stimato come X2 ) (X i X )2

sa =

s2 e

Se non possibile rifiutare H0 relativa a b (la retta campionaria non pu essere assunta come significativa di una relazione lineare tra le due variabili), pu essere richiesta la conoscenza della varianza s 2 e della deviazione standard s Y della media Y , Y che sono s2 Y ESEMPIO Utilizzando i dati degli esempi precedenti, si stimi la significativit di a Con a = 73, 357 var. err. : s2e = 16,101 - errore standard di a
n=7

s2 = e n

sY =

se n

dev. X : 510

X = 172

1 1722 sa = 16,101 + = 30,599 7 510 t5 = 73, 357 = 2 , 397 30, 599

-t

inferiore sia a t 5, 025 (2,571) che a t 5, 005 (4,032) . . --> l'intercetta a non significativamente diversa da zero n all'1% n al 5%
cap.6 - pag. 21 (aa 2000)

LIMITI DI CONFIDENZA DI RETTA E INTERCETTA Per verificare l'esistenza di una relazione lineare tra le variabili un altro metodo, equivalente al test t, calcolare una stima per intervalli di confidenza di : si rifiuta H0 se il valore atteso (di solito, ma non obbligatoriamente come nel test per la media, = 0) compreso nell'intervallo di confidenza stima per l'intervallo di confidenza di : b t( n 2, 2 ) s b stima per l'intervallo di confidenza di : dove s a l'errore standard dell'intercetta a t( n 2 , 2 ) s a

ESEMPIO Ricorrendo agli stessi dati degli esercizi in cui sono stati calcolati la retta e la sua significativit, si ha
b = 0 , 796; s b = 0 , 1794 ; t 5, 0, 025 = 2 , 571; t 5 , 0005 = 4 , 032 , a = 73 , 357 sa = 30 , 599

Stima dell' intervallo di confidenza per il coefficiente angolare con p = 95%


0, 796 2 , 571 0, 1794 0 , 796 + 2 , 571 0 , 1794 0, 335 1, 257

con p = 99%
0, 796 4, 032 0 , 1794 0 , 796 + 4 , 032 0, 1794 0, 727 1. 519

Sima dell'intervallo di confidenza per l'intercetta con p = 95%


73 , 357 2, 571 30 , 599 73, 357 + 2 , 571 30 , 599 152 , 027 5, 313

con p = 99%
73 , 357 4 , 032 30 , 599 73, 357 + 4 , 032 30 , 599 196 , 732 50 , 018

cap.6 - pag. 22 (aa 2000)

LIMITI DI CONFIDENZA PER I VALORI MEDI DEGLI Y STIMATI La retta di regressione pu essere utilizzata anche per previsioni sul valore medio di Y, corrispondente ad valore di X prescelto E' una stima puntuale del valore medio effettivo del campione; anche in questo caso, pu essere applicato il concetto di intervallo di confidenza quale stima del valore reale della popolazione
$ L'intervallo di confidenza per il valore previsto Yl dato da $ Yl t(n 2 , 2) s b 1 (X l X )2 + n ( Xi X )2

dove

$ Yl sb

n
Xl

(X i X )2

valore previsto di Y per un dato valore di X errore standard della retta b dimensione del campione $ valore dato di X a cui corrisponde Yl devianza di X

La lettura dell'equazione spiega come l'ampiezza dell'intervallo di confidenza dipenda da vari fattori Per una data probabilit: aumenta al crescere della varianza d'errore; diminuisce all'aumentare del numero n di coppie di osservazioni per l'effetto congiunto del valore di tn 2, 2 e del il rapporto 1/n; varia secondo i valori di X, con valori minimi quando X l vicino alla sua media e massimi quando X l ha distanza massima, diminuisce al crescere della devianza di X

L'intervallo di stima della vera media aritmetica varia come una funzione iperbolica della vicinanza di X alla sua media Quando si fanno previsioni su valori di X molto distanti dalla media, si stima un intervallo di confidenza molto pi grande

cap.6 - pag. 23 (aa 2000)

Di conseguenza, i limiti della zona di confidenza non sono paralleli alla retta di regressione, ma se ne discostano progressivamente avvicinandosi agli estremi del valore di X

ESEMPIO Consideriamo i 7 dati dell'esempio precedente; nella tabella sono riportati gli intervalli di confidenza degli Y stimati Altezza X 160 178 183 180 166 175 162 Peso Y 52 68 75 71 63 59 57
Valori attesi di Y con il loro intervallo di confidenza

( = 0 . 05 )
47 , 291 54 , 018 60 , 495 63, 582 68, 348 73 , 114 65, 968 72 , 328 78, 688 64, 596 69 , 940 75, 284 54, 029 58 , 795 63 , 561 61, 827 65 , 960 70 , 093 49, 605 55 , 611 61, 617

( = 0 . 01)
43, 468 54 , 018 64, 568 60, 873 68 , 348 75, 823 62, 353 72, 328 82 , 303 61, 560 69 , 940 78 , 321 51, 320 58 , 795 66 , 270 59, 478 65 , 960 72 , 442 46 , 192 55, 611 65 , 030

80

70

60

50

40 160

165

170

175

180

185

PESO

cap.6 - pag. 24 (aa 2000)

LIMITI DI CONFIDENZA PER SINGOLI VALORI DI Y STIMATI Un'altra esigenza presente nella ricerca la previsione dell'intervallo di confidenza per una singola risposta di Y L'intervallo di confidenza ha una forma simile a quella del valore medio, ma molto pi ampio; ha infatti lo scopo di stimare un valore individuale e non un parametro I valori stimati di Y per i singoli valori individuali di X, rispetto al valore medio che condidera tutta la retta, sono soggetti ad una sorgente addizionale d'errore, cio alla dispersione intorno alla retta di regressione I limiti della zona di confidenza per singoli valori di X sono paralleli ai limiti della zona di confidenza della retta di regressione e sono pi esterni ai precedenti L'intervallo di previsione per un singolo valore di Y^i per un dato valore xi dato da
1 ( X l X )2 $ Yl t(n 2 , 2) s b 1 + + n (X i X) 2

E' una espressione simile alla precedente; l'unica differenza un 1 sommato all'argomento della radice quadrata Altezza X 160 178 183 180 166 175 162 Peso Y 52 68 75 71 63 59 57
Valori attesi di Y con il loro intervallo di confidenza

( = 0 . 05 )
41, 702 54 , 018 66 , 334 56, 984 68 , 348 79 , 712 60, 208 72, 328 84 , 447 58, 322 69 , 940 81, 558 47 , 431 58 , 795 70, 159 54, 846 65 , 960 77 , 074 43, 674 55 , 611 67 , 548

( = 0 . 01)
34, 703 54 , 018 73 , 332 50, 526 68 , 348 86 , 170 53, 321 72 , 328 91, 335 51, 719 69, 940 88 , 161 40, 973 58 , 795 73 , 617 48, 531 65 , 960 83, 389 36, 890 55 , 611 74 , 332

cap.6 - pag. 25 (aa 2000)

90 80 70 60 ALTEZZA 50 40 30 160 170 PESO 180

Intervalli di confidenza per gli Y stimati al 5% (punteggiato) e all'1% (tratteggiato)

90 80 70 60 ALTEZZA 50 40 30 160

90 80 70 60 ALTEZZA 50 40 30 160

165

170

175

180

185

165

170

175

180

185

PESO

PESO

Intervalli di confidenza delle medie (linee punteggiate) e dei singoli valori di Y stimato (linee tratteggiate), per = 0.05 (a sinistra) e per = 0.01 ( a destra)

cap.6 - pag. 26 (aa 2000)

COEFFICENTE DI DETERMINAZIONE Per una regressione lineare semplice, ma pi in generale per qualsiasi regressione da quella curvilinea a quella lineare multipla, il coefficiente di determinazione r2 la proporzione di variazione spiegata dalla variabile dipendente sulla variazione totale: Devianza dalla regressione r = = Devianza totale
2

(Yi Y )2 (Yi Y )2

Espresso a volte in percentuale ed indicato in alcuni testi con R oppure R 2 serve per misurare quanto la variabile indipendente X in media preveda la variabile dipendente Y E' una misura che ha scopi prevalentemente descrittivi La sua accettabilit non legata ad inferenze statistiche, ma soprattutto agli scopi pratici, specifici dell'uso della regressione come metodo per prevedere Y conoscendo X Il suo valore tanto pi elevato quanto pi la retta passa vicino ai punti, fino a raggiungere 1 (oppure 100 se espessa in percentuale) quando i punti sperimentali sono collocati esattamente sulla retta e quindi ogni Yi pu essere predetto con precisione totale, senza alcun margine d'errore, quando sia noto il corrispondente valore di Xi Nell'esempio con le 7 osservazioni su peso e altezza,
r2 = 321, 618 = 0 , 797 403 , 715

Ci significa che, noto il valore dell'altezza, quello del peso stimato mediante la retta di regressione con una approssimazione di circa l'80 per cento; il restante 0,2 (rapportato a 1) oppure 20% determinato dalla variabilit individuale di scostamento dalla retta

cap.6 - pag. 27 (aa 2000)

IPOTESI PER LA REGRESSIONE E LA CORRELAZIONE Le ipotesi necessarie o condizioni di validit per l'analisi della regressione e della correlazione, che verra trattata dei seguito, sono analoghe a quelle gi evidenziate per l'analisi della varianza e del test t di Student: normalit, omoschedasticit, indipendenza dall'errore La condizione di normalit richiede che il valore di Y sia normalmente distribuito per ogni valore di X E' una ipotesi facilmente comprensibile nel caso delle Y ripetute per lo stesso valore di X Anche l'analisi della regressione robusta, nel caso di deviazione dalla normalit: fino a quando la distribuzione dei valori di Y per lo stesso valore di X non si differenzia in modo estremo dalla normale, sia l'inferenza sulla regressione che quella sulla correlazione non sono eccessivamente distorte La condizione di omoschedasticit richiede che le varianze delle disposizioni siano costanti per tutti i valori di X: i valori di Y devono variare nello stesso modo per qualunque valore di X Sovente succede che all'aumentare delle X si abbia un aumento della varianza delle Y; come gi esposto nell'analisi della varianza, le trasformazioni dei dati possono ricostruire questa ipotesi necessaria all'inferenza La condizione di indipendenza dell'errore richiede che la distanza tra Y osservato ed Y previsto dalla regressione sia costante su tutto il campo di variazione della X

cap.6 - pag. 28 (aa 2000)

Y ij ^ Y ij ^ Yij(c) _ Y

.. .
D

..
r=1

... .. . .. . .. .

r = 0.8

. .... .. . .. . . .. .. . . . .. . .

r = 0.4

. .. . . . . .. . . .
r=0

. ... . .. . .. ..
r=0

.. . .. .... .. . ..... ..
F

r = 0.4

cap.6 - pag. 29 (aa 2000)

Metodo dei minimi quadrati - Impianto analitico

Q=

(yi - )2 = (yi - 0 - 1x i)2 =

= (yi2 + 02 + 12x i2 - 20yi - 21yix i+ 201x i) = =

yi2 + n02 + 12x i2 -

- 20yi - 21x iyi + 201x i

Q 0 = 2 n0 + 21x i - 2yi Q = 2 1x i2 + 20x i - 2x iyi 1


uguagliando a zero i due risultati si ottiene un sistema di due equazioni a due incognite

0n + 1x i = yi 0x i + 1x i2 = x iyi
dalla prima equazione del sistema si ricava 0 come :

0 =

yi

n - 1 n

x i

= y - 1 x

e per sostituzione nella seconda equazione si ricava 1 come :

yi

n - 1 n

x i

x i + 1x i2 = x iyi x iyi x i yi
n


codev (xy) dev (x)

x i2

(x i)2 - n =

cap.6 - pag. 30 (aa 2000)

METODI NON PARAMETRICI PER UNO E DUE CAMPIONI

Il test t, l'analisi della varianza, la correlazione, la regressione, insieme con gli altri test di statistica multivariata sono parte dei metodi di inferenza detti classici o parametrici. Prima della loro applicazione, fondamentale che vengano verificati e soddisfatti alcuni assunti che riguardano la popolazione d'origine: Primo assunto : indipendenza dei gruppi campionari Le osservazioni di ogni gruppo dovrebbero essere formate per estrazione casuale da una popolazione, in cui ogni soggetto abbia la stessa probabilit di essere incluso in qualsiasi gruppo. In questo modo, i fattori aleatori o non controllati dovrebbero essere casualmente distribuiti e non generare distorsioni od errori sistematici. Secondo assunto : normalit delle distribuzioni Da essa deriva la relazione tra popolazione e campioni, secondo il teorema del limite centrale: se, da una popolazione con media e varianza 2 normalmente distribuita, si estraggono casualmente alcuni campioni di dimensione n, le loro medie si
2 distribuiranno normalmente con media generale e varianza della media . La nonn

normalit indice serio di estrazione non casuale Terzo assunto : omoscedasticit o omogeneit delle varianze Se sono formati per estrazione casuale dalla medesima popolazione, i vari gruppi devono avere varianze eguali

Quando, per la verifica delle ipotesi, non si possono applicare i metodi classici, si ricorre a test di statistica non parametrica che: non dipendono dalla forma di distribuzione della popolazione non prevedono il calcolo della media, bens della mediana come misura della tendenza centrale permettono inferenze anche su dati qualitativi o di rango

cap. 7 - 1 (2000)

I metodi non parametrici presentano vantaggi: semplice applicazione, con risposte rapide quando i campioni sono piccoli ipotesi meno rigorose, in numero minore, pi facilmente verificate nella realt estesamente applicabili, con conclusioni pi generali e difficilmente confutabili permettono analisi non possibili con i metodi classici, poich non esistono test parametrici equivalenti (in certe condizioni hanno potenza maggiore, in particolare quando gli assunti di validit del test parametrico non sono rispettati rigorosamente)

e svantaggi: sfruttano in modo meno completo l'informazione contenuta nei dati (hanno una potenza minore, in particolare quando riducono l'informazione da scale d'intervalli o di rapporti a scale qualitative o di rango) per campioni di dimensioni non piccole richiedono metodologie pi lunghe e spesso sofisticate, impossibili da attuare senza calcolatore per molti test complesso valutare la significativit delle ipotesi, poich difficile disporre delle tavole dei valori critici
La statistica classica forma una struttura unica che ricorre ai medesimi presupposti ed elabora, in modo organico e con complessit crescente, una quantit di informazioni sempre maggiore, dal test t all'analisi della varianza, dalla regressione lineare alla statistica multivariata La statistica non parametrica formata per semplice accumulo di una serie innumerevole di test, ognuno proposto per risolvere una o poche situazioni particolari, anche se molti si rifanno agli stessi principi. In questa frammentariet diventa difficile una loro organizzazione logica, che nei testi risolta non sull'analogia dei metodi, ma sulla base degli argomenti trattati: test per un campione, per due campioni dipendenti o indipendenti, per pi campioni dipendenti o indipendenti, misure di associazione e di correlazione Il test 2 , il metodo esatto di Fisher e quello di Kolmogorov-Smirnov per distribuzioni di frequenza con piccoli campioni, sovente sono trattati separatamente dagli altri test non parametrici, perch utili a presentare in modo semplice la procedura dell'inferenza e in quanto fondamentali a motivo delle loro numerose applicazioni. Tuttavia, essi sono parte integrante ed essenziale della statistica non parametrica: in alcuni casi forniscono le procedure inferenziali, i valori critici e la distribuzione delle probabilit di altri test non parametrici

cap. 7 - 2 (2000)

TESTS PER UN CAMPIONE Quando si dispone di un solo campione, i quesiti che ricorrono con maggiore frequenza riguardano la verifica di accordo della distribuzione osservata con una distribuzione teorica od attesa. Quando le osservazioni sono classificate in categorie nominali o qualitative, si ricorre al test 2 , utile pure nel confronto di distribuzioni di frequenza in intervalli di scale di rapporti per campioni sufficientemente grandi (per campioni piccoli si ricorre al test di Kolmogorov-Smirnov) Il test 2 valido anche per confronti tra due distribuzioni osservate di dati binari, organizzate in tabelle 2 x 2 (per campioni piccoli, si deve ricorrere al metodo delle probabilit esatte di Fisher)

TEST DELLE SUCCESSIONI - Runs test (o Test di Wald-Wolfowitz per la casualit di un campione) Un quesito che spesso ci si pone nella ricerca sperimentale verificare se i risultati positivi e negativi di una serie di esperimenti, o se i valori alti o bassi di una serie di osservazioni si succedono con casualit Permette di saggiare se, in riferimento all'ordine, alla sequenza, successione o serie, i dati campionari sono casuali. Non ha alternative nella statistica parametrica; esso infatti non serve per la verifica d'ipotesi di nessun parametro, n per la tendenza centrale, n per la variabilit o forma della distribuzione dei dati osservati Pu essere applicato sia per dati binari (processo binomiale : successo od insuccesso), sia per dati continui (scale d'intervalli o di rapporti : confronto rispetto ad un valore stimato o prefissato, come la mediana della distribuzione o un valore soglia anche arbitrario)

cap. 7 - 3 (2000)

[ Esempio 1 ] Si supponga di lanciare una moneta 15 volte e che si ottenga 8 volte testa (T) e 7 volte croce (C), con la seguente serie T C T C T C T C T C T C T C T E' evidente la sua non casualit, che si riferisce non al numero di T e di C, la cui probabilit pu essere calcolata con il test binomiale, ma al regolare alternarsi degli eventi Parimenti non casuale sarebbe stata una serie, identica come numero di dati alternativi T e C, ma in sequenza differente, T T T T T T T T C C C C C C C La verifica degli effetti sistematici o periodici pu essere evidenziata dal conteggio delle successioni, definite come il numero di simboli identici preceduti o seguiti da simboli differenti o da nessun simbolo. Nel primo caso il n delle successioni
T C T C T C T C T C T C T C T 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 T T T T T T T T 1 C C C C C C C 2

15, mentre nel secondo caso solamente 2

E' intuitivo che un campione pu essere ritenuto davvero casuale soltanto quando il numero delle successioni non n troppo grande n troppo piccolo in rapporto al numero di eventi dei due tipi alternativi Per essere casuale, il numero di successioni deve tendere ad una frequenza media ( r ), che dipende dal numero dei due eventi e pu essere calcolata da
r

2 n1 n2 N

: media aritmetica attesa delle successioni n1 : n di eventi di un tipo n2 : n di eventi dell'altro tipo ( N n1 n 2 )
r

Il rapporto tra la differenza del numero di successioni osservate (R) ed il numero atteso ( r ) con la sua deviazione standard ( r ), nell'ipotesi di totale casualit degli eventi, permette di calcolare la probabilit di ottenere il numero di successioni osservato
cap. 7 - 4 (2000)

Per piccoli campioni la significativit fornita da tabelle che riportano le frequenze critiche massime e minime, di solito limitatamente alla probabilit 0,05 Per grandi campioni la distribuzione delle successioni tende ad essere normale
z R
r r

R : n di successioni (runs) osservate r : media aritmetica attesa di successioni nell'H0 r : deviazione standard della media che pu essere calcolata come
r

2 n 1 n 2 (2 n 1 n 2 N ) N 2 (N 1)

Il test pu essere unilaterale o bilaterale Per piccoli campioni (n 1 e n 2 20), i testi a maggior diffusione forniscono le frequenze critiche per test bilaterali a livello di = 0, 05 in due differenti tabelle: la prima tabella fornisce i valori minimi per ogni coppia di n1 e n 2: qualunque

valore osservato (R) che sia uguale o minore a quello riportato ha una probabilit = 0,025 o minore di verificarsi con H0 vera l'altra tabella fornisce i valori massimi alle stesse condizioni: qualunque valore osservato (R) sia eguale o maggiore di quello riportato corrisponde a una probabilit = 0,025 o minore di essere casuale. Nel caso di test unilaterale, vengono utilizzati gli stessi valori critici: la prima tabella, se H1 ( H1 : R < r ) prevede poche successioni; la seconda tabella, se H1 (H1 : R > r ) prevede molte successioni. Quando le successioni tendono alla frequenza media e sono pertanto compresi nell'intervallo fra frequenza minima e massima della tabella, con esclusione dei valori riportati, si accetta H0 che la sequenza dei due eventi sia casuale. Per campioni di grandi dimensioni, si ricorre alla distribuzione normale: i valori critici alla probabilit 0,05 sono rispettivamente 1,96 per un test bilaterale ( = 0,025 nelle due code della distribuzione) e 1,645 per un test unilaterale ( = 0,05 in una sola coda della distribuzione).

cap. 7 - 5 (2000)

[ E SEMPIO 2 ] In laboratorio si esegue una serie di 16 misurazioni di una sostanza sciolta in un diluente. Nell'ordine, sono state ottenuti i seguenti valori di concentrazione espressi in grammi per litro:
25 36 27 45 18 76 89 73 57 44 21 32 85 67 78 85

Si ha il timore che le analisi non siano corrette, ma che ognuna sia influenzata da quella precedente. Dopo una concentrazione alta, lo strumento non perfettamente pulito tenderebbe a dare ancora un valore oltre la media; dopo una concentrazione bassa, lo strumento pulito dal diluente tenderebbe a dare ancora un valore basso. Per classificare i valori in bassi (-) e alti (+), si pu fare il confronto con la mediana. (51) La sequenza delle risposte tradotte in valori bassi (-) e alti (+) diventa
1 + + 2 + + 3 + + 4 + +

e risulta formata da 4 successioni. Sulla base dell'ipotesi formulata, trattasi di test ad una coda Secondo 0 : R = r il numero medio di successioni osservate (R) non si discosta in modo significativo da quello atteso ( r ). Con n1 = 8 e n2 = 8 la media attesa ( r ) uguale a 9.
r = 288 +1 = 9 16

Secondo 1 : R < r il numero osservato di successioni inferiore a quello atteso. Per verificare l'ipotesi sulla casualit della sequenza delle analisi, occorre quindi conoscere la probabilit di trovare 4 quando la media attesa 9. La tavola dei valori critici inferiori, per n1 = 8 e n2 = 8, riporta la frequenza di 4, uguale al valore di R osservato. Di conseguenza, si rifiuta H0 (casualit del numero di successioni osservate) e si conclude che lo strumento risente del valore di concentrazione precedente.

cap. 7 - 6 (2000)

[ E SEMPIO 3 ] Un gruppo di animali in cattivit, composto da 18 femmine (n1) e 12 maschi adulti (n2), deve percorrere uno stretto corridoio dove passa un solo individuo alla volta, per accedere al cibo. Si vuole verificare se, in riferimento al sesso, l'accesso al cibo avvenga in un ordine che pu essere ritenuto casuale, oppure se si pu ipotizzare un ordine differente. L'ordine osservato stato:
M 1 FF 2 M 3 FFF 4 MMM F 5 6 M 7 F 8 M 9 FFFFF 10 MMM 11 F 12 M 13 F 14 M 15 FFFF 16

con R = 16 successioni. Per verificare se il numero osservato di successioni maggiore o minore, utile alla comprensione dell'esperimento il calcolo della media attesa in H0:
r = 2 18 12 + 1 = 15, 4 30

Il numero osservato di successioni (R=16) superiore alla media attesa ( r = 15, 4 ) Il test bilaterale; ma la verifica della significativit utilizza le stesse tabelle del test unilaterale. Per due gruppi di 12 e 18 dati, il valore critico inferiore 9 mentre il valore critico superiore 21. Il numero di successioni osservato compreso in questo intervallo e quindi si accetta H0 : in riferimento al sesso, l'accesso al cibo nel gruppo di animali in osservazione avvenuto in ordine casuale

cap. 7 - 7 (2000)

[ E SEMPIO 4 ] In un laboratorio di chimica, ogni analisi attuata in contemporanea da due tecnici: l'analisi ritenuta corretta quando i due risultati coincidono, mentre ritenuta errata quando sono differenti. In una giornata sono state effettuate 50 analisi delle quali 34 esatte (+) e 16 errate (-) con la seguente sequenza:
+++++ 1 2 ++ --3 4 ++++++ 5 6 ++ 7 8 +++++ 9 10 +++++ ---- ++++++ -11 12 13 14 +++ --15 16

Si vuole verificare se gli errori sono casualmente mescolati alle analisi corrette (H0), oppure se tendono a concentrarsi a causa di momenti di disattenzione dei due tecnici (H1) E' un test ad una coda, poich ci si chiede se le successioni osservate sono in numero significativamente minore dell'atteso. Secondo H0, il numero medio atteso
r = 2 16 34 + 1 = 22 , 76 50

e la deviazione standard
= 2 16 34 (2 16 34 50) = 3, 036 50 2 ( 50 1)

Trattandosi di campione grande, la significativit della differenza tra il numero di successioni osservato ed il numero medio atteso fornita dalla distribuzione normale
z= 16 22, 76 = 2, 226 3, 036

Lo Z ottenuto (2,226) superiore in valore assoluto a quello critico (1,645) della distribuzione normale per un test ad una coda alla probabilit =0,05: la probabilit che il numero di successioni osservato sia casuale pertanto inferiore a 0,05 e di conseguenza si rifiuta H0 : gli errori tendono a concentrarsi

cap. 7 - 8 (2000)

TEST DI WILCOXON (o Test DEI SEGNI PER RANGHI) E analogo al calcolo dell'intervallo fiduciale di una media. Nel caso di un solo campione, pu essere applicato per verificare l'ipotesi rispetto alla tendenza centrale di una serie di dati, quando non possibile ricorrere agli usuali test parametrici perch mancano le condizioni di validit o la misura ordinale Quando non rispettata la normalit della distribuzione, oppure utilizzata una scala di rango, le ipotesi su un valore medio o una differenza media significativa devono essere verificate non in riferimento alla media, ma alla mediana, come misura pi appropriata della tendenza centrale.

[ Esempio ] In un'area molto ampia, sono stati campionati 13 lotti di terreno con caratteristiche ambientali molto differenti ed stata misurata la quantit unitaria di sostanze azotate
235 230 180 250 280 330 440 430 260 225 240 255 215

Si vuole verificare se la media della zona pu essere 300, oppure significativamente minore. Si tratta di un test a una coda (H0 : mediana=300; H1: mediana < 300) 1 - Calcolare le differenze d con relativo segno, rispetto al valore dellH0 e scartare le differenze uguali a 0 (d = x - mediana)
- 65 - 70 - 120 - 50 - 20 + 30 + 140 + 130 -4 0 - 75 - 60 -5 - 85

2 - Calcolare i ranghi dei valori assoluti delle differenze d, ordinando gli n valori assoluti dal minore al maggiore (se esistono valori che hanno lo stesso rango, assegnare ad ognuno un punteggio dato dalla media dei loro ranghi)
6,5 8 11 4 1 2 13 12 3 9 5 6,5 10

3 - Attribuire ad ogni rango, il segno. della differenza cui corrisponde

cap. 7 - 9 (2000)

- 6,5

-8

-11

-4

-1

+2

+13

+12

-3

-9

-5

- ,5

-10

4 - Sommare i ranghi di segno positivo (R+), per calcolare


T = R + = 2 + 12 + 13 = 27

5 - Stimare il valore della media dei ranghi


= n (n + 1) 13 14 = = 45, 5 4 4

6 - Se il valore di tendenza centrale espresso nell'H0 (nell'esempio=300) fosse la media vera della popolazione, la somma dei ranghi di segno positivo (T = 27) non dovrebbe essere significativamente differente dalla media dei ranghi attesa ( T = 45, 5) 7 - Con piccoli campioni (n < 20), la significativit fornita dalla tavola che riporta il valore critico inferiore. Con n=13 e =0,05 per un test ad una coda, il valore massimo significativo riportato nella tavola 21,7. Il T calcolato (T=27) superiore : la probabilit di ottenere una somma uguale o inferiore, se H0 vera, > 0,05. Pertanto si accetta H0: la tendenza centrale dei dati pu essere 300. 8 - Con grandi campioni (n > 20), la somma dei ranghi di segno positivo si T t approssima alla distribuzione normale Z ( T calcolato con la formula
T

precedente e T la deviazione standard di T, determinata solamente da n: n ( n + 1) (2n + 1)


T

24

La formula di approssimazione per grandi campioni fornisce buoni risultati gi quando n maggiore di 8-10 osservazioni. E' quindi possibile applicare le formule all'esercizio (n=13), per calcolare prima la deviazione standard T
T = 13 14 27 = 14, 31 e successivamente Z: 24 Z= 27 45, 5 = 1, 29 14, 31

Z=1,29 definisce una probabilit uguale a 0,0985 in una coda della distribuzione. Si accetta H0: 300 pu essere la media aritmetica della popolazione di tutta l'area dalla quale sono stati campionati i dati rilevati
cap. 7 - 10 (2000)

TEST PER 2 CAMPIONI DIPENDENTI (DATI APPAIATI)

Spesso non possibile misurare con precisione ed oggettivit la differenza tra "prima e dopo" l'evento causale per ogni individuo; possibile solamente dire se un soggetto migliorato o peggiorato, se tra i due elementi della coppia il primo maggiore o minore, di una quantit che resta imprecisata o soggettiva. Tra i test pi diffusi per inferire sulla tendenza centrale di due campioni dipendenti vi sono: - test di McNemar - quando le variabili sono espresse su scala nominale; i dati sono frequenze classificate in tabella 2 x 2 secondo la differenza qualitativa tra "prima e dopo" - test dei segni - quando entro ogni coppia si ha una misura di rango - test T di Wilcoxon - quando si ha una misura di rango non solo entro coppie ma anche tra coppie - test di casualizzazione (o di permutazione) - quando si hanno scale d'intervalli o di rapporti, limitatamente a piccoli campioni Lelenco in ordine crescente per potenza (si richiedono dati sempre meno approssimati)

cap. 7 - 11 (2000)

TEST DI McNEMAR (o Test per la significativit dei cambiamenti) Pu essere utilizzato quando si disponga di dati appaiati, o per due campioni dipendenti in esperimenti "prima e dopo", e gli esiti sono misurati su una scala nominale, o qualitativa. E' noto anche come test per la significativit dei cambiamenti, poich l'analisi utilizza solamente le risposte cambiate tra "prima e dopo" l'evento. Il procedimento del test, da non confondere con il 2 per tabelle 2 x 2, pu essere spiegato con un esempio [ Esempio ] A 184 giovani stato chiesto se sono favorevoli all'energia nucleare, annotando la risposta di ognuno. Dopo la presentazione di filmati sui pericoli ed i vantaggi delle centrali nucleari e tradizionali, si chiede di votare ancora, per un confronto individuale con il voto precedente. Sia tra i favorevoli (+) che tra i contrari (), alcuni sono rimasti dello stesso parere, mentre altri hanno cambiato idea. Domanda: c mutamento significativo nella distribuzione delle opinioni? I risultati sono riassunti in tabella 2x2 PRIMA DOPO + + 48 74 35 27

La tabella formalmente identica a quella di contingenza 2 x 2, la procedura d'analisi inferenziale parzialmente simile, per la significativit si utilizza la stessa distribuzione dei valori critici; ma... - il test 2 si applica a due campioni indipendenti - il test di McNemar si applica quando righe e colonne non sono indipendenti, in quanto rappresentano le risposte degli stessi individui. Utilizza solo i due gruppi che hanno cambiato segno, ignorando gli altri due Se vera H0 (il trattamento non determina un mutamento nella risposta), chi ha cambiato la sua risposta ha scelto a caso. Di conseguenza, il numero di chi passato dal positivo al negativo dovrebbe equivalere al numero di chi ha cambiato nell'altra direzione, dal negativo al positivo.

cap. 7 - 12 (2000)

Con la consueta simbologia PRIMA DOPO + + A C B D

si calcola il numero atteso di coloro che dovrebbero passare da a + eguale al numero B C di coloro dovrebbero passare da + a E
2

Il numero atteso di cambiamenti nelle due caselle e calcolato dalla media aritmetica dei due gruppi. La significativit del cambiamento determinata con il 2 con un gdl. Per le ridotte dimensioni dei due gruppi utili all'analisi, vantaggioso includere la correzione di Yates per la continuit:
2 ( 1)

( B E 0,5 )
E
2

( C E 0,5 )
E

e, in formula abbreviata,

2 ( 1)

(B C

1) B+C

Il valore di

(1 )

ottenuto deve essere confrontato con i valori critici della

distribuzione corrispondente. Utilizzando i dati dell'esempio riportato,


B = 35; C = 74; E= 35 + 74 = 54, 5; 2

si possono applicare indifferentemente le due formule matematicamente equivalenti


2 ( 1)

( 35 54,5
54,5

0,5 )

( 74 54,5
54,5

0,5)

= 13,25

2 ( 1)

( 35 74

1) = 13,25 35 + 74
2

Il valore calcolato (13,25) supera ampiamente il valore critico per la probabilit 0,05 con un gdl (3,84). Si rifiuta H0 : il cambiamento stato significativo. Il confronto tra osservati ed attesi evidenzia come il numero di coloro che hanno cambiato opinione dal meno al pi (35) significativamente minore di quelli che hanno cambiato nel senso opposto da pi a meno (74).

cap. 7 - 13 (2000)

TEST DEI SEGNI Quando possibile stabilire con poche eccezioni la direzione della differenza tra ogni coppia di osservazioni, ma impossibile definirne una misura quantitativa anche solo di rango, si utilizza il test dei segni. L'unico postulato che il fenomeno analizzato abbia una distribuzione continua, per cui risulta relativamente semplice stabilire il segno della differenza tra le misure di due campioni dipendenti, formati in modo corretto rispetto alla variabile analizzata. Anche in questo caso, la modalit pi semplice di dati appaiati il confronto tra "prima e dopo" il trattamento sui medesimi soggetti, quella in cui ognuno il controllo di se stesso. Se vera l'H0 che il trattamento non determina effetti sistematici e le risposte pertanto sono casuali, il numero di miglioramenti dovrebbe essere uguale al numero di peggioramenti. I segni + e i segni (da cui il nome di test dei segni) dovrebbero equivalersi; in termini matematici, indicando con X1 il primo valore di ogni coppia e con X2 in secondo valore,
P(X 1 > X 2 ) = P(X 1 < X 2 ) = 1 2

Si conteggiano i segni e si utilizza il numero di quello che compare con frequenza minore. Il problema statistico assume quindi la seguente forma: se vera H0, la frequenza del segno pi raro tende al valore medio (n / 2); se vera H1, tende a 0. Il test pu essere sia unilaterale che bilaterale, in dipendenza dell'H1 sulla maggioranza di segni positivi o negativi. Nel caso di piccoli campioni, la distribuzione delle probabilit determinata n mediante la distribuzione binomiale: P = ( ) px q n-x x p=q=
1 2

n = numero di coppie di dati differenti x = frequenza del segno raro Trattandosi di una distribuzione discreta, per l'inferenza occorre sommare la probabilit di ottenere la risposta osservata con quella delle eventuali risposte pi estreme. Le tabelle abitualmente forniscono queste probabilit cumulate.

cap. 7 - 14 (2000)

[ E SEMPIO 1 ] Dopo un anno di interventi per il risanamento ambientale di 12 laghi, si sono misurati alcuni parametri chimici e biologici che hanno permesso una valutazione complessiva: in 9 casi la situazione migliorata; in 2 risulta peggiorata; per 1 caso non sembra mutata. E' possibile sostenere che la situazione migliorata in modo statisticamente significativo? Si tratta di un test ad una coda. Escludendo il caso in cui non si avuto un cambiamento, si tratta di sapere se 9 + e 2 possono essere ritenuti una variazione casuale di 4,5 + e altrettanti , oppure se la differenza deve essere ritenuta casuale. Per n uguale a 11 con p e q uguali a 1/2, la probabilit di avere 2 , cumulata con la probabilit di avere 1 e quella di 0 , risulta uguale a 0,033. La probabilit complessiva di ottenere la risposta osservata e quelle pi estreme nella stessa direzione risulta bassa, inferiore a 0,05: si rifiuta H0 : la situazione migliorata in modo statisticamente significativo Per grandi campioni, in pratica per un numero di osservazioni (n) superiore a 20 o a 25 (il numero massimo riportato nelle tabelle per piccoli campioni) si ricorre alla x x distribuzione normale Z =
x

x : numero di segni con frequenza minore n x : media attesa x = np =


2

x : deviazione standard calcolata da x = n p q = n 2 Trattandosi di conteggi (e quindi di una variabile discreta), si introduce una ( x 0,5) x correzione per la continuit Z =
x

viene usato x + 0,5 quando x inferiore alla media viene usato x 0,5 quando x superiore alla media La formula di calcolo abbreviata di uso abituale diventa Z =
2x + 1 n n

ricordando che n il numero di dati utili ed x la frequenza del segno pi raro.

cap. 7 - 15 (2000)

[ E SEMPIO 2 ] Su 80 coppie di osservazioni rilevate prima e dopo il trattamento, 5 non hanno mostrato differenze, 44 sono migliorate e 31 sono peggiorate. Si pu affermare che la situazione migliorata in modo significativo? Si tratta di un test ad una coda, con x=31 (il segno meno frequente) e n=75 (44+31) da cui (( 2 31) + 1) 75
Z= 75 = 1,39

Ad un valore di Z = 1,39 in un test a una coda nella tavola della distribuzione normale corrisponde una probabilit di 0,0823, che superiore al valore soglia di 0,05 per cui si accetta H0. Con i dati dell'esempio, trattandosi di un campione abbastanza numeroso, possibile utilizzare il test di McNemar
2 ( 1)

( 44 31 1)
44 + 31

= 1,92

Un valore di 2 = 1,92 con un gdl corrisponde approssimativamente al valore di Z 2 cio a Z 2 = (1,39)2


Z 2 = 21 ) : (1, 39)2 = 1, 92 (

Ovviamente anche il livello di significativit dei due diversi procedimenti coincide, ricordando che la distribuzione dei valori critici del 2 per un test bilaterale. Nella tavola della distribuzione Z ad una coda la probabilit risulta approssimativamente uguale a 0,08; nel test 2 , bilaterale, la probabilit stimata dalla tavola approssimativamente uguale a 0,16.

cap. 7 - 16 (2000)

TEST T DI WILCOXON E noto soprattutto nella sua applicazione per due campioni dipendenti: - sia nel caso di un test ad una coda che a due code - come sostituto del test t - pu essere pi potente degli omologhi test parametrici, quando le condizioni di validit non sono rispettate in modo rigoroso

[ E SEMPIO ] Dalle ore 6 alle ore 20, ogni 60 minuti nella stessa zona di una citt viene rilevato il tasso di inquinamento atmosferico in due giorni differenti. Si vuole verificare se stata riscontrata una differenza significativa tra i due giorni, eliminando la variabilt tra ore ora 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 120 145 305 200 160 135 170 285 290 200 150 160 115 105 105 E' un test bilaterale: giorno X 140 160 295 230 200 185 150 515 220 225 180 190 115 140 150
0 : = 0

giorno Y

differ. X-Y - 20 - 15 + 10 - 30 - 40 - 50 +20 -230 + 70 - 25 - 30 - 30 0 - 35 - 45 ;

rango - 3,5 -2 +1 -7 -10 -12 +3,5 -14 +13 -5 -7 -7 -9 -11

1 : 0

cap. 7 - 17 (2000)

Il procedimento del test pu essere spiegato facilmente descrivendo i vari passaggi: 1 - Calcolare la colonna delle differenze con il loro segno: d = X - Y (riportate in grassetto nella IV colonna) 2 - Eliminare dal campione le differenze nulle; la numerosit sar proporzionalmente ridotta (n da 15 diventa 14 ; cfr. 5.a colonna) 3 - Trasformare le differenze, considerate in valore assoluto, nel loro rango. Nel caso di due o pi valori uguali, assegnare valori uguali dati dalla media dei ranghi. Nell'esempio sono presenti due differenze (X-Y) uguali in valore assoluto (+20 e -20) che occupano la 3a e la 4a posizione: il rango 3,5. Vi sono altre tre differenze (-30) uguali (6a, 7a e 8 a posizione): ad ognuna assegnato rango 7
L'attribuzione della media dei ranghi alle differenze identiche in valore assoluto (ties) ha effetti trascurabili sul successivo valore di T, quando le differenze hanno segno diverso; l'effetto addirittura nullo quando le differenze hanno lo stesso segno. E' una procedura abituale in molti test non parametrici ed spesso essenziale ad un uso corretto dei test

4 - Attribuire ad ogni rango il segno che aveva nella differenza. Sommare i ranghi con lo stesso segno e scegliere il totale minore: il valore di T. Nell'esempio, T dato dai ranghi con segno positivo: T = 1+3,5+13=17,5. Nell'H0, la differenza tra le due serie di osservazioni appaiate dovrebbe essere uguale a zero: nella colonna delle differenze, la somma dei ranghi con segno positivo e la somma dei ranghi con segno negativo dovrebbero essere uguali. Di conseguenza, il totale minore dovrebbe tendere ad un valore medio atteso T determinato da n, il numero di differenze o ranghi, secondo la relazione
2 ( 1)

( 44 31 1)
44 + 31

= 1,92

Con i dati dell'esempio,


T =

14 15 = 52, 5 4

5 - La significativit della differenza media tra le due serie di dati appaiati tradotta nella significativit della differenza tra T e T. Nell'esempio tra 17,5 e 52,5.

cap. 7 - 18 (2000)

Per piccoli campioni ( n 20 ), la tavola riporta i valori massimi accettabili di T ai vari livelli di significativit, secondo la dimensione n del campione delle differenze. Con n = 14 e = 0,05 in un test bidirezionale, il valore critico 21,84. Il valore di T (17,5) minore e quindi si rifiuta H0 della significativit della differenza: nel giorno Y il tasso medio d'inquinamento stato significativamente maggiore. Per grandi campioni, il valore della somma dei ranghi T distribuito approssimativamente in modo normale: la significativit della differenza pu essere saggiata con la distribuzione Z
z= T T T

dove T dato da
T

n ( n + 1) (2n + 1) 24

La distribuzione normale per grandi campioni sembra una approssimazione valida gi quando n almeno 10. Con i dati dell'esempio
T = 14 15 29 = 15, 93 24 17, 5 52, 5 = 2, 20 15, 93

e
z=

Nella distribuzione normale standardizzata a Z=2,20 corrisponde una probabilit = 0, 028 nell'area a due code. Viene rifiutato H0: esiste una differenza significativa. Quando viene utilizzata una scala discreta ed i valori delle differenze sono distribuiti in un intervallo ristretto, si possono avere molti punteggi uguali o valutazioni ex-aequo (ties), in particolare in grandi campioni. La media attesa T resta invariata; ma la varianza 2 pi ridotta rispetto ad una T scala continua, che permette di attribuire ogni rango con precisione. Si impone una correzione di 2 per queste valutazioni ex-aequo (ties). T La correzione consiste in una riduzione della varianza 2 pari a T
t i ( t i 1) (t i + 1)
i= 1 g

g : numero di gruppi di ranghi identici t : numero di dati con lo stesso rango entro ogni gruppo
cap. 7 - 19 (2000)

[ Esempio ] Calcolo di
2 T

con la correzione per ties dalla seguente distribuzione di ranghi

1 2 4 4 4 6 8,5 8,5 8,5 8,5 11 12 13,5 13,5 15 16 17 19 19 19 21 22

Con n=22 il valore di 2 senza correzione T


2 = T 22 23 45 = 948, 75 24

Ma sono presenti 4 gruppi col medesimo rango che possono essere riassunti in: 1 gruppo con 2 valori uguali (13,5) 2 gruppi con 3 valori uguali (4 e 19) 1 gruppo con 4 valori identici (8,5) Pertanto la varianza deve essere ridotta di una quantit
( 2 1 3) + 2 ( 3 2 4) + (4 3 5) = 6 + 48 + 60 = 114

e T corretta diventa
T = 948, 75 114 = 834, 75 = 28, 89

Senza correzione, il valore di T sarebbe stato

948, 75 = 30, 80.

Con la diminuzione del valore di T , aumenta proporzionalmente il valore di Z, che pertanto risulter pi facilmente significativo. E' utile ricordare che se una differenza media risulta significativa senza la correzione per i valori identici, risulter ancor pi significativa con la correzione; una differenza media non significativa per probabilit prossime al valore critico pu diventare significativa, con la correzione della varianza per i ties.

Disponendo degli stessi dati, invece del test T di Wilcoxon si potrebbe utilizzare il test dei segni, che considera solamente il segno delle differenze, trascurando il loro rango. Questo test meno potente del test T di Wilcoxon, ma se si devono analizzare distribuzioni di differenze con probabilit che risultano prossime al rifiuto dell'H0, la scelta di un test al posto dell'altro pu determinare il superamento dei valori critici.

cap. 7 - 20 (2000)

TEST DI CASUALIZZAZIONE (o DI PERMUTAZIONE) PER DUE CAMPIONI DIPENDENTI Tra tutti i test non parametrici, questo risulta il pi utile per piccoli campioni, sia dal punto di vista didattico che pratico. E' chiamato anche test di permutazione, anche se in realt si fonda su disposizioni con replicazione. Per scale di rapporti o d'intervallo il pi potente, in molti casi preferibile allo stesso test t, in particolare in campioni con 6-10 coppie di dati Fornisce direttamente le probabilit esatte, senza il ricorso a tavole di distribuzione dei valori critici Non richiede nessuna condizione sulla forma della distribuzione dei dati, n la normalit della distribuzione n l'omoscedasticit (omogeneit della varianza). I limiti alla sua utilizzazione derivano dall'estensione del calcolo manuale, quando le dimensioni del campione superano le 12-14 osservazioni [ Esempio ] Dal confronto tra due campioni dipendenti si sono ottenute 10 differenze, con le quali si intende valutare la significativit della loro tendenza centrale +10 +25 +7 +8 +2 +71 5 +4 +15 3 E' un test bidirezionale: H0 : = 0 H1 : 0

Il presupposto fondamentale per la comprensione della metodologia del test che, dal confronto tra le due serie di dati appaiati, si possa ottenere solamente il risultato numerico osservato. Restano fissi i valori assoluti delle differenze, ma pu variare il loro segno. Se lH0 vera, il segno di ogni differenza (+ o ) pu variare solo a caso. I passaggi metodologici del test possono essere cos riassunti : 1 - Calcolare il numero di possibili risposte. Con n dati, il numero di possibili risposte binarie 2n. Nell'esempio, le possibili risposte sono 210=1024, che devono anche essere ugualmente probabili 2 - Definire la zona di rifiuto, secondo la direzionalit del test (a una coda o a due code) e il livello di significativit desiderato. Con 1024 possibili risposte, per una significativit = 0,05 la zona di rifiuto esclude i 52 risultati (1024x0,05=51,2) possibili pi estremi; un test a due code e quindi l'area di rifiuto data dalle 26 risposte pi estreme da una parte e 26 dall'altra
cap. 7 - 21 (2000)

3 - Individuare i risultati pi estremi, ordinando i valori ottenuti sulla base della loro somma, al variare progressivo dei segni. La risposta pi estrema in una direzione quella in cui tutti i valori hanno segno +; la pi estrema nell'altra direzione quella in cui tutti i valori hanno segno. Le due risposte pi estreme sono: +10 10 +25 25 +7 7 +8 8 +2 2 +71 71 +5 5 +4 4 +15 15 +3 3 = = +150 150

4 - Verificare se la serie dei dati osservati rientra nella zona di rifiuto. Poich la somma dei dati positiva, si pu limitare la verifica ai soli 26 risultati positivi pi estremi.
1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11) +10 +10 +10 +10 +10 +10 +10 +10 +10 +10 +10 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +25 +7 +7 +7 +7 +7 +7 +7 -7 +7 +7 +7 +7 +7 -7 +7 -7 +7 +8 +8 +8 +8 +8 +8 +8 +8 +8 +8 -8 +8 +8 +8 +8 +8 +8 +2 -2 +2 +2 +2 -2 -2 +2 +2 -2 +2 +2 +2 -2 +2 +2 -2 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +71 +5 +5 +5 +5 -5 +5 +5 +5 +5 -5 +5 -5 -5 +5 +5 +5 -5 +4 +4 +4 -4 +4 +4 -4 +4 -4 +4 +4 +4 -4 +4 +4 +4 +4 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +15 +3 +3 -3 +3 +3 -3 +3 +3 -3 +3 +3 -3 +3 +3 +3 -3 -2 = = = = = = = = = = = = = = = = = +150 +146 +144 +142 +140 +140 +138 +136 +136 +136 +134 +134 +132 +132 +130 +130 +130

12) +10 13) 14) 15) 16) 17) +10 +10 -10 +10 +10

5 - La risposta ottenuta nell'esperimento occupa la 12a posizione tra le risposte positive pi estreme. La sua somma uguale alla 11a risposta e quindi il rango della sua posizione 11,5. La serie osservata di differenze rientra tra le 26 risposte collocate nella zona positiva di rifiuto, per un test a due code. Di conseguenza, alla probabilit 0,05 si rifiuta H0 : esiste una differenza significativa tra le mediane (la misura della tendenza centrale nella statistica non parametrica), delle due serie di dati appaiati.
All'aumentare del numero di osservazioni, il test diventa inapplicabile. Con 20 differenze, il numero di possibili risposte 220 = 1.048.576. Anche limitando l'analisi al 5% delle risposte pi estreme in una sola coda per un test bidirezionale, si tratta di 26.214 serie di dati.

Nel caso di grandi campioni, se non possibile utilizzare il test t, si pu ricorrere al test T di Wilcoxon, con una perdita di potenza-efficienza inferiore al 5%.
cap. 7 - 22 (2000)

TEST PER DUE CAMPIONI INDIPENDENTI La non-normalit di una distribuzione ha conseguenze rilevanti sulle probabilit che vengono calcolate con un test parametrico. Quando si dispone di piccoli campioni, difficile, se non praticamente impossibile, determinare la forma della distribuzione: la scelta del tipo di approccio inferenziale, se parametrico o non parametrico, non quindi fondata su elementi rigorosi ma sulla intuizione o addirittura sulle preferenze personali. Le opinioni sui criteri di scelta divergono: alcuni ritengono che sia pi utile utilizzare sempre i metodi parametrici, quando non si dimostra che i dati sono tratti da una popolazione distribuita non normalmente altri preferiscono i test non parametrici: mentre forniscono risultati nettamente pi attendibili anche in caso d'incertezza sulla forma di distribuzione, hanno una perdita di potenza-efficienza trascurabile, prossima al 5%, quando i test sono scelti in modo appropriato.
Alcuni test non parametrici, detti anche test liberi da distribuzione per 2 campioni indipendenti sono gi stati presentati nell'esposizione dei metodi di confronto tra 2 distribuzioni osservate: - il 2 in tabelle di contingenza 2 x 2 per grandi campioni ed il metodo delle probabilit esatte di Fisher per piccoli campioni - il 2 in tabelle 2 x n e il test di Kolmogorov-Smirnov.

Tra i test per 2 campioni indipendenti pi frequentemente utilizzati per inferenze sulla tendenza centrale, importante conoscere il test della mediana, il test U di MannWhitney, il test di permutazione o di casualizzazione. Essi possono essere ritenuti equivalenti ai test per 2 campioni dipendenti gi presentati: il test dei segni, il test T di Wilcoxon, il test di permutazione o casualizzazione. Come nel caso precedente, la scelta dipende dal tipo di scala utilizzata: da essa infatti deriva la possibilit di ordinare i dati senza avere molti ranghi identici o quella di servirsi di misure d'intervalli o di rapporti. Con due campioni indipendenti sono possibili anche confronti tra altri parametri della distribuzione, come la variabilit e la forma, per i quali sono stati proposti alcuni test non parametrici.

cap. 7 - 23 (2000)

TEST DELLA MEDIANA Il test della mediana utile per verificare la tendenza centrale di due campioni indipendenti, che ovviamente possono essere di dimensioni differenti. H0 : i due gruppi di osservazioni appartengano alla stessa popolazione o a due popolazioni con la stessa mediana [H 0 : Me 1 = Me 2 ] H1 (pu essere bilaterale o unilaterale) : la mediana di una popolazione differente dall'altra (test a due code); la mediana di una popolazione specificata maggiore dell'altra (test ad una coda) H1 : Me 1 Me2 (test bilaterale), ecc. 1 - Disporre in un gruppo unico, in ordine crescente, i dati dei due gruppi, che a tal fine vanno misurati almeno con una scala di rango. L'ordine prende in considerazione le grandezze algebriche, per cui i ranghi inferiori sono attribuiti agli eventuali valori negativi maggiori; associare ad ogni valore l'indicazione del suo gruppo d'appartenenza 2 - Calcolare la mediana del gruppo unico. Se vera H0, i dati dei due gruppi sono casualmente mescolati. Rispetto alla mediana, i dati di ognuno dei due gruppi sono equi-ripartiti alla sua destra e sinistra. Se vera H1 (la tendenza centrale di un gruppo pi elevata o diversa da quella dell'altro gruppo), i due gruppi non sono mescolati: prima della mediana sono presenti in prevalenza i valori di un gruppo e dopo la mediana i valori dell'altro 3 - Costruire una tabella 2 x 2 per sintetizzare la distribuzione dei valori dei due gruppi rispetto alla mediana: quante misure di ognuno dei due gruppi si trovano prima della mediana e quante dopo. Se la mediana coincide con uno o pi valori, suddividere in due gruppi: nel secondo gruppo i valori superiori alla mediana; nel primo gli altri MEDIANA <= > Gruppo 1 Gruppo 2 4 - La distribuzione delle frequenze dei valori inferiori/uguali e di quelli superiori alla mediana, relative ai due gruppi a confronto, segue la distribuzione ipergeometrica. Per l'inferenza : il test 2 per tabelle 2 x 2 (grandi campioni) il test 2 con correzione di Yates (campioni di dimensioni inferiori) metodo esatto di Fisher (piccoli campioni)

cap. 7 - 24 (2000)

[ E SEMPIO ] Nella zona di una citt, per l'analizzare la qualit dell'aria sono state rilevate le quantit di solventi aromatici (Benzene, Toluene, Etilbenzene, Xileni in microg/mc) in giorni festivi (A) e feriali (B). Verificare se nei giorni festivi la quantit significativamente minore. PERIODO A 92 114 82 164 167 110 135 PERIODO B 156 123 198 83 242 176 185 217

Si ordinano i valori in ordine crescente e si individua la mediana: con 15 dati il valore che occupa rango 8 (156) 82 A 83 B 92 A 110 114 123 135 156 164 167 176 185 198 217 242 A A B A B A A B B B B B

Si contano le osservazioni di ogni gruppo che sono inferiori od uguali alla mediana e le osservazioni che sono superiori, costruendo una tabella 2x2. MEDIANA <= > 2 5 7

Periodo A Periodo B

5 3 8

7 8 15

Si tratta di un test ad una coda e la significativit della distribuzione pu essere verificata con il metodo esatto di Fisher (numero di osservazioni troppo ridotto per il test 2 , anche apportando la correzione per la continuit) Si calcola la probabilit di ottenere la distribuzione osservata e le risposte pi estreme; queste sono facilmente identificabili variando verso 0 la frequenza osservata minore (2). La probabilit totale risulta 0,315. E' molto elevata, per cui si accetta H0.
cap. 7 - 25 (2000)

Valori critici della distribuzione t di Student per un test bilaterale

Gradi di libert 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 70 80 90 100 120

0,500
1.000 .816 .765 .741 .727 718 .711 .706 .703 .700 .697 .695 .694 .692 .691 .690 .689 .688 .688 .687 .686 .686 .685 .685 .684 .684 .684 .683 .683 .683 .682 .681 .680 .680 .679 .679 .678 .678 .678 .677 .677 .6745

0,400
1.376 1.061 0.978 .941 .920 .906 .896 .889 .883 .879 .876 .873 .870 .868 .866 .865 .863 .862 .861 .860 .859 .858 .858 .857 .856 .856 .855 .855 .854 .854 .852 .851 .850 .849 .849 .848 .847 .847 .846 .846 .845 .8416

0,200
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 .330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.306 1.303 1.301 1.299 1.297 1.296 1.294 1.293 1.291 1.290 1.289 1.28161

0,100
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.690 1.684 1.680 1.676 1.673 1.671 1.667 1.665 1.662 1.661 1.658 1.6448

0,050
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.030 2.021 2.014 2.008 2.004 2.000 1.994 1.989 1.986 1.982 1.980 1.9600

0,025
25.452 6.205 4.176 3.495 3.163 2.969 2.841 2.752 2.685 2.634 2.593 2.560 2.533 2.510 2.490 2.473 2.458 2.445 2.433 2.423 2.414 2.406 2.398 2.391 2.385 2.379 2.373 2.368 2.364 2.360 2.342 2.329 2.319 2.310 2.304 2.299 2.290 2.284 2.279 2.276 2.270 2.2414

0,010
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750. 2.724 2.704 2.690 2.678 2.669 2.660 2.648 2.638 2.631 2.625 2.617 2.5758

0,005
14.089 7.453 5.598 4.773 4.317 4.029 3.832 3.690 3.581 3.497 3.428 3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.135 3.119 3.104 3.090 3.078 3.067 3.056 3.047 3.038 5.030 2.996 2.971 2.952 2.937 2.925 2.915 2.899 2.887 2.878 2.871 2.860 2.8070

0,001
31.598 12.941 8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.591 3.551 3.520 3.496 3.476 3.460 3.435 3.416 3.402 3.390 3.373 3.2905

304

Valori critici della distribuzione t di Student per un test unilaterale

(prima parte)

Gradi Di Libert 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

Aree della coda superiore 0.25


1.0000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0,6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0.6825 0.6822 0.6820 0.6818 0.6816 0.6814 0.6812 0.6810 0.6808 0.6807 0.6805 0.6804 0.6802 0.6801 0.6800 0.6799 0.6797 0.6796 0.6795 0.6794 0.6793 0.6792 0.6791 0.6791 0.6790 0.6789 0.6788 0.6787 0.6787 0.6786

0.10
3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 1.3095 1.3086 1.3077 1.3070 1.3062 1.3055 1.3049 1.3042 1.3036 1.3031 1.3025 1.3020 1.3016 1.3011 1.3006 1.3002 1.2998 1.2994 1.2991 1.2987 1.2984 1.2980 1.2977 1.2974 1.2971 1.2969 1.2966 1.2963 1.2961 1.2958

0.05
6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 1.6955 1.6939 1.6924 1.6909 1.6896 1.6883 1.6871 1.6860 1.6849 1.6839 1.6829 1.6820 1.6811 1.6802 1.6794 1.6787 1.6779 1.6772 1.6766 1.6759 1.6753 1.6747 1.6741 1.6736 1.6730 1.6725 1.6720 1.6716 1.6711 1.6706

0.25
12.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1315 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 2.0395 2.0369 2.0345 2.0322 2.0301 2.0281 2.0262 2.0244 2.0227 2.0211 2.0195 2.0181 2.0167 2.0154 2.0141 2.0129 2.0117 2.0106 2.0096 2.0086 2.0076 2.0066 2.0057 2.0049 2.0040 2.0032 2.0025 2.0017 2.0010 2.0003

0.01
31.8207 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5177 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 2.4528 2.4487 2.4448 2.4411 2.4377 2.4345 2.4314 2.4286 2.4258 2.4233 2.4208 2.4185 2.4163 2.4141 2.4121 2.4102 2.4083 2.4066 2.4049 2.4033 2.4017 2.4002 2.3988 2.3974 2.3961 2.3948 2.3936 2.3924 2.3912 2.3901

0.005
63.6574 9.9248 5.8409 4.6041 4.0322 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 2.7440 2.7385 2.7333 2.7284 2.7238 2.7195 2.7154 2.7116 2.7079 2.7045 2.7012 2.6981 2.6951 2.6923 2.6896 2.6870 2.6846 2.6822 2.6800 2.6778 2.6757 2.6737 2.6718 2.6700 2.6682 2.6665 2.6649 2.6633 2.6618 2.6603 (segue)

305

Valori critici della distribuzione t di Student per un test unilaterale

(seconda parte)

Gradi di libert 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 110 120 130 140 150

Aree della coda superiore 0.25


0.6785 0.6785 0.6784 0.6783 0.6783 0.6782 0.6782 0.6781 0.6781 0.6780 0.6780 0.6779 0.6779 0.6778 0.6778 0.6777 0.6777 0.6776 0.6776 0.6776 0.6775 0.6775 0.6775 0.6774 0.6774 0.6774 0.6773 0.6773 0.6773 0.6772 0.6772 0.6772 0.6771 0.6771 0.6771 0.6771 0.6770 0.6770 0.6770 0.6770 0.6767 0.6765 0.6764 0.6762 0.6761 0.6745

0.10
1.2956 1.2954 1.2951 1.2949 1.2947 1.29.45 1.2943 1.2941 1.2939 1.2938 1.2936 1.2934 1.2933 1.4931 1.2929 1.2928 1.2926 1.2925 1.2924 1.2922 1.2921 1.2920 1.2918 1.2917 1.2916 1.2915 1.2914 1.2912 1.2911 1.2910 1,2909 1.2908 1.2907 1.2906 1.2905 1.2904 1.2903 1.2902 1.2902 1.2901 1,2893 1.2886 12881 1.2876 1,2872 1.2816

0.05
1.6702 1.6698 1.6694 1.6690 1.6686 1.6683 1.6679 1.6676 1.6672 1.6669 1.6666 1.6663 1.6660 1.6657 1.6654 1.6652 1.6649 1.6646 1.6644 1.6641 1.6639 1.6636 1.6634 1.6632 1.6630 1.6628 1.6626 1.6624 1.6622 1.6620 1.6618 1.6616 1.6614 1.6612 l.6611 1.6609 1.6607 1.6606 1.6604 1.6602 1.6588 1.6577 1.6567 1.6558 1.6551 1.6449

0.25
1.9996 1.9990 1.9983 1.9977 1.9971 1.9966 1.9960 1.9955 1.9949 1.9944 1.9939 1.9935 1.9930 1.9925 1.9921 1.9917 1.9913 1.9908 1.9905 1.9901 1.9897 1.9893 1.9890 1.9886 1.9883 1.9879 1.9876 1.9873 1.9870 1.9867 1.9864 1.9861 1.9858 1.9855 1.9853 1.9850 1.9847 1.9845 1.9842 1.9840 1.9818 1.9799 1.9784 1.9771 1.9759 1.9600

0.01
2.3890 2.3880 2.3870 2.3860 2.3851 2.3842 2.3833 2.3824 2.3816 2.3808 2.3800 2.3793 2.3785 2.3778 2.3771 2.3764 2.3758 2.3751 2.3745 2.3739 2.3733 2.3727 2.3721 2.3716 2.3710 2.3705 2.3700 2.3695 2.3690 2.3685 2.3680 2.3676 2.3671 2.3667 2.3662 2.3658 2.3654 2.3650 2.3646 2.3642 2.3607 2.3578 2.3554 2.3533 2.3515 2.3263

0.005
2.6589 2.6575 2.6561 2.6549 2.6536 2.6524 2.6512 2.6501 2.6490 2.6479 2.6469 2.6459 2.6449 2.6439 2.6430 2.6421 2.6412 2.6403 2.6395 2.6387 2.6379 2.6371 2.6364 2.6356 2.6349 2.6342 2.6335 2.6329 2.6322 2.6316 2.6309 2.6303 2.6297 2.6291 2.6286 2.6280 2.6275 2.6269 2.6264 2.6259 2.6213 2.6174 2.6142 2.6114 2.6090 2.5758

306

Confronto dei valori critici della distribuzione t tra un test bilaterale e un test unilaterale

Area nelle due code 0,10 0,05 0,02 Area in una coda g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 0,05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 .699 1.697 1.684 1.671 1.658 1.645 0,025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 0,01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 .423 2.390 2.358 2.326 0,005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.01 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 0,0005 636.619 31.598 12941 8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291 0,01 0,01

307

La parte annerita rappresenta larea sottostante la distribuzione normale standardizzata dalla media aritmetica a z.

z
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1.9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,00 00000 03983 07926 11791 15542 19146 22575 25804 28814 31594 34134 36433 38493 40320 41924 43319 44520 45543 46407 47128 47725 48214 48610 48928 49180 49379 49534 49653 49745 49813 49865 49903 49931 49952 49966 49977 49984 49989 49993 49995

0,01 00399 04380 08317 12172 15910 19497 22907 26115 29103 31859 34375 36650 38686 40490 42073 43448 44630 45637 46485 47193 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49869 49906 49934 49953 49968 49978 49985 49990 49993 49995

0,02 00792 04776 08706 12552 16276 19847 23237 26424 29389 32121 34614 36864 38877 40658 42220 43574 44738 45728 46562 47257 47831 48300 48679 48983 49224 49413 49560 49674 49760 49825 49874 49910 49936 49955 49969 49978 49985 49990 49993 49995

0,03 01197 05172 09095 12930 16640 20194 23565 26730 29673 32381 34849 37076 39065 40824 42364 43699 44845 45818 46637 47320 47882 48341 48713 49010 49245 49430 49573 49683 49767 49831 49878 49913 49938 49957 49970 49979 49986 49990 49994 49996

0,04 01595 05567 09483 13307 17003 20540 23891 27035 29955 32639 35083 37286 39251 40988 42507 43822 44950 45907 46712 47381 47932 48382 48745 49036 49266 49446 49585 49693 49774 49836 49882 49916 49940 49958 49971 49980 49986 49991 49994 49996

0,05 01994 05962 09871 13683 17364 20884 24215 27337 30234 32';94 35314 37493 39435 41149 42647 43943 45053 45994 46784 47441 47982 48422 48778 49061 49286 49461 49598 49702 49781 49841 49886 49918 49942 49960 49972 49981 49987 49991 49994 49996

0,06 02392 06356 10257 14058 17724 21226 24537 27637 30511 33147 35543 37698 39617 41309 42786 44062 45154 46080 46856 47500 48030 48461 48809 49086 49305 49477 49609 49711 49788 49846 49889 49921 49944 49961 49973 49981 49987 49991 49994 49996

0,07 02790 06749 10642 14431 18082 21566 24857 27935 30785 33398 35769 37900 39796 41466 42922 44179 45254 46164 46926 47558 48077 48500 48840 49111 49324 49492 49621 49720 49795 49851 49893 49924 49946 49962 49974 49982 49988 49992 49995 49996

0,08 03188 07142 11026 14803 18439 21904 25175 28230 31057 33646 35993 38100 39973 41621 43056 44295 45352 46246 46995 47615 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49897 49926 49948 49964 49975 49983 49988 49992 49995 49997

0,09 03586 07535 11409 15173 18793 22240 25490 28524 31327 33891 36214 38298 40147 41774 43189 44408 45449 46327 47062 47670 48169 48574 48899 49158 49361 49520 49643 49736 49807 49861 49900 49929 49950 49965 49976 49983 49989 49992 49995 49997

Valori dellintegrale di probabilit della distribuzione normale standardizzata

128

Larea annerita rappresenta la probabilit di ottenere un valore dello scarto standardizzato minore di z.

z
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4

0,00 0.50000 0.53983 0.57926 0.61791 0.65542 0.69146 0.72575 0.75804 0.78814 0.81594 0.84134 0.86433 0.88493 0.90320 0.91924 0.93319 0.94520 0.95543 0.96407 0.97128 0.97725 0.98214 0.98610 0.98928 0.99180 0.99379 0.99534 0.99653 0.99744 0.99813 0.99865 0.99903 0.99931 0.99952 0.99966

0,01 0.50399 0.54380 0.58317 0.62172 0.65910 0.69497 0.72907 0.76115 0.79103 0.81859 0.84375 0.86650 0.88686 0.90490 0.92073 0.93448 0.94630 0.95637 0.96485 0.97193 0.97778 0.98257 0.98645 0.98956 0.99202 0.99396 0.99547 0.99664 0.99752 0.99819 0.99869 0.99906 0.99934 0199953 0.99968

0,02 0.50798 0.54776 0.58706 0.62552 0.66276 0.69847 0.73237 0.76424 0.79389 0.82121 0.84614 0.86864 0.88877 0.90658 0.92220 0.93574 0.94738 0.95.728 0.96562 0.97257 0.97831 0.98300 0.98679 0.98983 0.99224 0.99413 0.99560 0.99674 0.99760 0.99825 0.99874 0.99910 0.99936 0.99957 0.99969

0,03 0.51197 0.55172 0.59095 0.62930 0.66640 0.70194 0.73565 0.76730 0.79673 0.82381 0.84850 0.87076 0.89065 0.90824 0.92364 0.93699 0.94845 0.95818 0.96638 0.97320 0.97882 0.98341 0.98713 0.99010 0.99245 0.99430 0.99573 0.99683 0.99767 0.99831 0.99878 0.99913 0.99938 0.99957 0.99970

0,04 0.51595 0.55567 0.59483 0.63307 0.67003 0.70540 0.73891 0.77035 0.79955 0.82639 0.85083 0.87286 0.89251 0.90988 0.92507 0.93822 0.94950 0.95907 0.96712 0.97381 0.97932 0.98382 0.98745 0.99036 0.99266 0.99446 0.99585 0.99693 0.99774 0.99836 0.99882 0.99916 0.99940 0.99958 0.99971

0,05 0.51994 0.55962 0.59871 0.63683 0.67364 0.70884 0.74215 0.77337 0.80234 0.82894 0.85.314 0.87493 0.89435 0.91149 0.92647 0.93943 0.95053 0.95994 0.96784 0.97441 0.97982 0.98422 0.98778 0.99061 0.99286 0.99461 0.99598 0.99702 0.99781 0.99841 0.99886 0.99918 0.99942 0.99960 0.99972

0,06 0.52392 0.56356 0.60257 0.64058 0.67724 0.71226 0.74537 0.77637 0.80511 0.83147 0.85543 0.87698 0.89617 0.91309 0.92786 0.94062 0.95154 0.96080 0.96856 0.97500 0.98030 0.98461 0.98809 0.99086 0.99305 0.99477 0.99609 0.99711 0.99788 0.99846 0.99889 0.99921 0.99944 0.99961 0.99973

0,07 0.52790 0.56749 0.60642 0.64431 0.68082 0.71566 0.74857 0.77935 0.80785 0.83398 0.85769 0.87900 0.89796 0.91466 0.92922 0.94179 0.95254 0.96164 0.96926 0.97558 0.98077 0.98500 0.98840 0.99111 0.99324 0.99492 0.99621 0.99720 0.99795 0.99851 0.99893 0.99924 0.99946 0.99962 0.99974

0,08 0.53188 0.57142 0.61026 0.64803 0.68439 0.71904 0.75175 0.78230 0.81057 0.83646 0.85993 0.88100 0.89973 0.91621 0.93056 0.94295 0.95352 0.96246 0.96995 0.97615 0.98124 0.98537 0.98870 0.99134 0.99343 0.99506 0.99632 0.99728 0.99801 0.99856 0.99897 0.99926 0.99948 0.99964 0.99975

0,09 0.53586 0.57535 0.61409 0.65173 0.68793 0.72240 0.75490 0.78524 0.81327 0.83891 0.86214 0.88298 0.90147 0.91774 0.93189 0.94408 0.95449 0.96327 0.97062 0.97670 0.98169 0.98574 0.98899 0.99158 0.99361 0.99520 0.99643 0.99736 0.99807 0.99861 0.99900 0.99929 0.99950 0.99965 0.99976

Area nelle due code della distribuzione normale standardizzata

129

La tabella riporta le probabilit nelle aree annerite.

z
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0

0,00 1.000 0.920 0.841 0.764 0.689 0.617 0.549 0.484 0.424 0.368 0.317 0.271 0.230 0.194 0.162 0.134 0.110 0.089 0.072 0.057 0.046 0.036 0.028 0.021 0.016 0.012 0.009 0.007 0.005 0.004 0.003

0,01 0.992 0.912 0.834 0.757 0.682 0.610 0.542 0.478 0.418 0.363 0.312 0.267 0.226 0.190 0.159 0.131 0.107 0.087 0.070 0.056 0.044 0.035 0.027 0.021 0.016 0.012 0.009 0.007 0.005 0.004

0,02 0.984 0.904 0.826 0.749 0.674 0.603 0.535 0.472 0.412 0.358 0.308 0.263 0.222 0.187 0.156 0.129 0.105 0.085 0.069 0.055 0.043 0.034 0.026 0.020 0.016 0.012 0.009 0.007 0.005 0.004

0,03 0.976 0.897 0.818 0.741 0.667 0.596 0.529 0.465 0.407 0.352 0.303 0.258 0.219 0.184 0.153 0.126 0.103 0.084 0.067 0.054 0.042 0.033 0.026 0.020 0.015 0.011 0.009 0.006 0.005 0.003

0,04 0.968 0.889 0.810 0.734 0.660 0.589 0.522 0.459 0.401 0.347 0.298 0.254 0.215 0.180 0.150 0.124 0.101 0.082 0.066 0.052 0.041 0.032 0.025 0.019 0.015 0.011 0.008 0.006 0.005 0.003

0,05 0.960 0.881 0.803 0.726 0.653 0.582 0.516 0.453 0.395 0.342 0.294 0.250 0.211 0.177 0.147 0.121 0.099 0.080 0.064 0.051 0.040 0.032 0.024 0.019 0.014 0.011 0.008 0.006 0.004 0.003

0,06 0.952 0.873 0.795 0.719 0.646 0.575 0.509 0.447 0.390 0.337 0.289 0.246 0.208 0.174 0.144 0.119 0.097 0.078 0.063 0.050 0.039 0.031 0.024 0.018 0.014 0.010 0.008 0.006 0.004 0.003

0,07 0.944 0.865 0.787 0.711 0.638 0.569 0.503 0.441 0.384 0.332 0.285 0.242 0.204 0.171 0.142 0.116 0.095 0.077 0.061 0.049 0.038 0.030 0.023 0.018 0.014 0.010 0.008 0.006 0.004 0.003

0,08 0.936 0.857 0.779 0.704 0.631 0.562 0.497 0.435 0.379 0.327 0.280 0.238 0.201 0.168 0.139 0.114 0.093 0.075 0.060 0.048 0.038 0.029 0.023 0.017 0.013 0.010 0.007 0.005 0.004 0.003

0,09 0.928 0.849 0.772 0.697 0.624 0.555 0.490 0.430 0.373 0.322 0.276 0.234 0.197 0.165 0.136 0.112 0.091 0.073 0.059 0.047 0.037 0.029 0.022 0.017 0.013 0.010 0.007 0.005 0.004 0.003

130