Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Stefania Naddeo
(anno accademico 2013/14)
INDICE
1. NOZIONI INTRODUTTIVE
1.1 Cenni storici
1.2 I fenomeni collettivi
1.3 Variabili statistiche
1.4 Universo e campione
4
6
9
12
15
20
22
25
31
41
52
57
58
3.4 I momenti
64
65
70
70
75
5. LE DISTRIBUZIONI BIVARIATE
5.1 Generalit
5.2 Le tabelle a doppia entrata
5.3 Distribuzioni marginali e condizionate
5.4 Valori caratteristici delle distribuzioni bivariate
81
82
87
91
6. LA CORRELAZIONE E LA REGRESSIONE
6.1 Introduzione
6.2 La connessione e lindipendenza
6.3 Modelli teorici di regressione
6.4 La regressione lineare
6.5 Il coefficiente di correlazione lineare
98
102
109
111
115
119
122
124
128
133
139
143
148
8. VARIABILI CASUALI
8.1 Variabili casuali semplici
8.2 Alcuni modelli teorici di variabili casuali semplici discrete
8.3 Alcuni modelli teorici di variabili casuali semplici continue
153
161
172
175
179
182
189
191
196
203
204
208
211
213
217
220
222
223
227
232
233
234
237
243
248
249
250
252
CAPITOLO 1
NOZIONI INTRODUTTIVE
queste rilevazioni. E proprio il censimento effettuato da Mos che rilev i capifamiglia, per
distinzione del mestiere e del censo, e tutti i componenti di sesso maschile (il Signore
parl a Mos, (), e disse: << Fate il censimento di tutta la comunit degli Israeliti,
secondo le loro famiglie, secondo il casato dei loro padri, contando i nomi di tutti i maschi,
testa per testa, (). >>) il primo censimento di cui si conoscano i risultati ottenuti.
Per quanto riguarda popolazioni a noi pi vicine, diversi censimenti vennero effettuati
anche dai Greci e dai Romani gi alcuni secoli prima della nascita di Cristo. Si hanno
notizie di un censimento effettuato da Solone (Atene, 638 a.C. 558 a.C.) al fine di stilare
una lista degli elettori basata sul valore della terra in loro possesso. Successivamente
vennero effettuate altre rilevazioni ed in Tucidide (Atene, 460 a.C. 400 a.C.) troviamo i
primi esempi di elaborazioni statistiche, in particolare la media aritmetica.
Presso lantica Roma i cittadini dovevano dichiarare allo Stato il proprio nome, la
discendenza paterna, il nome della moglie e dei figli, lentit dei propri beni. Risale al 709
a.C. la Tabula Heracleensis, nella quale furono annotatati i risultati dellattivit censuaria
conteggiando la popolazione per prenome, nome, cognome, appartenenza alla famiglia, il
reddito, il censo. Tutti i romani, quindi, venivano registrati insieme ai propri beni nelle liste
del cosiddetto census, da cui deriva il termine censimento. Risale al 443 a.C. listituzione
dei censores, magistrati incaricati di censire la popolazione, che venivano eletti ogni
cinque anni. La finalit principale della loro attivit di conteggio e classificazione risiedeva
nellordinamento delle liste elettorali, delle milizie e dei tributi per cui questa attivit
giocava un ruolo decisivo nellorganizzazione politica ed economica di Roma. E da questo
momento che viene introdotta la periodicit del censimento, gettando cos le basi
fondamentali per il censimento moderno.
La
disgregazione
dellImpero
Romano
le
invasioni
barbariche
causarono
censimento universale verso la met del 1300, effettuando una rilevazione della propria
popolazione secondo let, la professione, il sesso, la nazionalit e la condizione sociale. Il
censimento venne ripetuto periodicamente nei secoli successivi giungendo, nel 1600,
alluso di formulari prestampati molto simili ai questionari attualmente utilizzati
Il primo censimento in senso moderno si ebbe nel 1701 in Islanda. Successivamente in
Svezia, in Germania, in Norvegia, in Spagna e, sul finire del secolo, negli Stati uniti. Nel
1800 il censimento demografico ebbe luogo in quasi tutti gli stati europei.
In Italia il primo censimento ufficiale risale al 1861, cio subito dopo l'Unit dItalia. Da
quel momento, con cadenza decennale, sono state eseguite tutte le rilevazioni successive
(a parte il 1891, per mancanza di fondi, ed il 1941, a causa della II Guerra Mondiale).
Da diversi decenni i censimenti italiani sono effettuati dall'ISTAT (Istituto Nazionale di
Statistica).
I metodi statistici che, come abbiamo visto nel paragrafo precedente, erano stati
inizialmente
predisposti
per
la
descrizione
di
popolazioni
umane
ed
applicati
Tabella 1.2.1
Opere pubblicate per tipo di edizione nellanno 2005 (Fonte ISTAT)
Tipo Edizione
Prime edizioni
Edizioni successive
Ristampe
Totale
Numero di opere
37.694
3.453
18.596
59.743
Tabella 1.3.1
Distribuzione degli occupati in Italia per grado di istruzione
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Grado di istruzione
Laurea
Diploma universitario o terziario di tipo non universitario
Diploma di scuola secondaria superiore
Licenza di scuola media inferiore o di avviamento professionale
Licenza di scuola elementare
Nessun titolo di studio
Totale
Numero individui
2.407.992
397.401
8.284.656
7.406.981
2.259.960
236.742
20.993.732
Se un carattere sconnesso, come nel caso della tabella 1.3.2, l'ordinamento delle
sue modalit non pu che essere arbitrario.
Tabella 1.3.2
Distribuzione degli occupati in Italia per attivit economica
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Attivit economica
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale
10
Numero individui
1.153.678
7.028.981
3.986.538
979.029
2.052.681
5.792.825
20.993.732
Sono quantitative, invece, quelle variabili le cui modalit, che in questo caso sono dette
pi propriamente intensit, derivano da operazioni di misurazione o di conteggio e sono,
quindi, espresse mediante valori numerici.
Queste variabili si suddividono in discrete e continue e spesso le prime assumono
intensit corrispondenti a numeri interi, come, per esempio, quando sono il risultato di un
conteggio. Pi in generale, sono dette discrete quelle variabili che, in un intervallo limitato,
possono assumere solo un numero finito di valori diversi.
Esempi di caratteri discreti sono il numero dei componenti delle famiglie, quello degli
sportelli bancari, dei vani degli appartamenti, dei dipendenti delle aziende, dei veicoli
circolanti, delle copie di quotidiani vendute. Una distribuzione relativa ad una variabile
discreta riportata nella tabella 1.3.3, in cui le famiglie italiane residenti nel territorio
nazionale il 21 ottobre del 2001 sono classificate in base al numero dei componenti.
Tabella 1.3.3
Distribuzione delle famiglie in abitazione per numero di componenti
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Componenti
1
2
3
4
5
6 o pi
totale
Si osservi che nellultima riga della tabella prima del totale riportato il numero
complessivo delle famiglie composte almeno da 6 componenti. In questo caso si ritenuto
inutile riportare le frequenze associate alle singole intensit maggiori o uguali a 6 e fornire,
quindi, uninformazione pi dettagliata.
Sono continue, invece, quelle variabili che derivano da una misurazione e che in un
intervallo di ampiezza qualsiasi possono assumere, quindi, un numero infinito di valori
diversi. Caratteri quantitativi continui sono, per esempio, la temperatura, che pu
11
ad un numero ridotto di individui. E ovvio che le indicazioni sulla struttura complessiva del
fenomeno ottenute mediante queste indagini parziali risultano necessariamente pi o
meno approssimate, ma queste informazioni, come vedremo, si rivelano comunque utili e,
sotto certe condizioni, anche sufficienti in relazione agli scopi dellindagine.
Se la popolazione composta da un numero elevato di elementi, fra le cause che
possono impedire in pratica leffettuazione di una rilevazione totale vi sono i costi
dellindagine, le eventuali difficolt di reperimento delle unit statistiche (come, per
esempio, nel caso di animali selvatici) o di rilevazione dei dati (come, per esempio, in caso
di misurazioni su microrganismi), il tempo necessario per poter disporre dei risultati finali e
cos via.
Altri casi in cui sono possibili solo rilevazioni parziali si presentano quando le unit
statistiche per poter essere esaminate devono essere distrutte, come pu accadere, per
esempio, nei controlli di qualit dei prodotti (durata delle batterie di un telefono cellulare,
resistenza alla rottura dei fogli di carta, tempo di ossidazione di una certa sostanza e cos
via). Vi sono, infine, situazioni in cui lindagine non pu che basarsi sui soli materiali che si
rendono
effettivamente
disponibili,
come
avviene,
per
esempio,
nelle
ricerche
paleontologiche o archeologiche.
Nelle ricerche sperimentali linteresse pu rivolgersi addirittura a collettivit di tipo
virtuale e non essere limitato, quindi, ad un particolare gruppo di individui effettivamente
presenti in un certo luogo ed in certo tempo, ma esteso a tutti i potenziali individui che, per
certi aspetti, possono essere considerati di uno stesso tipo. Se, per esempio, si vogliono
valutare gli effetti di un farmaco sulluomo o di un fertilizzante su un certo tipo di pianta,
chiaro che non ha senso pensare di somministrare il farmaco a tutti gli individui che hanno
una stessa malattia o il fertilizzante a tutte le piante di quella determinata specie.
Si osservi, daltra parte, che in questi casi le informazioni ottenute su un gruppo
ragionevolmente numeroso sembrano intuitivamente sufficienti per una adeguata
descrizione del fenomeno nel suo complesso, mentre pu sembrare addirittura superfluo
un aumento delle informazioni oltre un certo limite.
Anche per le popolazioni virtuali, cos come per le popolazioni finite, lesame di un
fenomeno su un gruppo limitato di individui consente di estendere i risultati ottenuti, nei
modi e con le cautele che vedremo, a tutti gli individui dello stesso tipo.
Le indagini parziali che considerano solo un numero limitato degli individui che
compongono lintera popolazione sono dette indagini campionarie e gli individui
effettivamente esaminati costituiscono un campione della popolazione oggetto di studio.
13
14
CAPITOLO 2
LA SISTEMAZIONE DEI DATI
Tabella 2.1.1
Valori della superficie coltivabile di 25 aziende agricole secondo lordine di rilevazione
16,8
5,1
60,4
0,8
6,1
81,9
1,2
31,2
14,7
17,3
27,8
12,4
2,4
7,5
10,8
3,0
33,3
15
24,3
8,9
20,2
38,5
25,0
10,1
4,2
45,9
Tabella 2.1.2
Serie ordinata dei valori riportati nella tabella 2.1.1
0,8
10,8
33,3
1,2
12,4
38,5
2,4
14,7
45,9
3,0
16,8
60,4
4,2
17,3
81,9
5,1
20,2
6,1
24,3
7,5
25,0
8,9
27,8
10,1
31,2
La serie dei valori ordinati, soprattutto per collettivit numerose, pu risultare per
troppo dispersa cosicch, per evidenziare le caratteristiche pi rilevanti della struttura
distributiva del fenomeno nel suo complesso, pu essere utile sintetizzare in qualche
modo i dati originali, dividendo il campo di variazione della variabile in intervalli o classi di
valori ed associando ad ogni classe il numero di unit statistiche che presentano
unintensit compresa fra i suoi estremi.
Una possibile presentazione sintetica dei dati precedenti riportata nella tabella 2.1.3
da cui risulta che 5 aziende hanno una superficie coltivabile fino a 5 ettari, 4 aziende
hanno una superficie compresa fra 5 e 10 ettari e cos via. E evidente che questa
distribuzione non contiene pi tutte le informazioni originarie, dato che dalla tabella non
risulta, per esempio, quale sia lesatta superficie coltivabile delle 5 aziende pi piccole, ma
solo che ognuna di queste ha una superficie non superiore a 5 ettari.
16
Tabella 2.1.3
Distribuzione in classi dei dati della tabella 2.1.1
Superficie
0 -| 5
5 -| 10
10 -| 20
20 -| 50
50 -| 100
Totale
frequenza
5
4
6
8
2
25
a Si osservi che talvolta la raccolta di dati relativi ad una variabile quantitativa viene effettuata mediante classi di valori predeterminate.
In questo caso preferibile utilizzare un elevato numero di classi che pu essere eventualmente ridotto in un secondo momento.
17
In ogni caso, una volta fissati il numero, lampiezza delle classi ed i loro estremi, ovvio
che tutte le intensit rilevate devono essere contenute nelle classi e che nessuna di esse
deve comparire in due classi diverse. E necessario stabilire inoltre dove inserire le
eventuali intensit della variabile che risultano esattamente uguali agli estremi dei diversi
intervalli. Il tipo di intervallo pi comune quello utilizzato nella tabella 2.1.3, che aperto
a sinistra e chiuso a destra e che comprende, quindi, gli eventuali valori uguali allestremo
superiore, ma non quelli uguali allestremo inferiore, che sono contenuti nella classe
precedente.
Si osservi che anche la distribuzione di un carattere discreto pu essere data mediante
classi di valori, soprattutto se il numero delle possibili intensit diverse fra di loro elevato.
Cos, per esempio, nella tabella 2.1.4 riportata la distribuzione delle abitazioni in edifici
ad uso abitativo per numero di abitazioni nell'edificio.
Tabella 2.1.4
Distribuzione delle abitazioni in edifici ad uso abitativo per numero di abitazioni nell'edificio
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
numero abitazioni
nell'edificio
1
2
3o4
Da 5 a 8
Da 9 a 15
16 e pi
Totale
frequenze
6.902.088
4.560.856
3.478.593
3.223.761
3.117.717
5.985.865
27.268.880
18
Tabella 2.1.5
Distribuzione della popolazione residente in cerca di prima occupazione per classe di et
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
classi di et
15 19
20 24
25 29
30 34
35 44
45 e pi
Totale
frequenze
180.060
300.530
227.230
122.404
100.208
32.778
963.210
E utile a questo punto introdurre unopportuna simbologia che consenta di trattare gli
argomenti successivi in modo generale senza fare riferimento necessariamente ad una
qualche situazione particolare.
In seguito indicheremo con X una qualsiasi variabile oggetto di studio, con x una sua
generica modalit o intensit e con n il numero totale delle osservazioni. Indicheremo
inoltre con k il numero di modalit o intensit diverse fra di loro, dove ovviamente k n. Il
generico termine della sequenza e la frequenza corrispondente verranno indicati
rispettivamente mediante i simboli xi e ni , dove i = 1, 2, ..., k ed ni 1. Si osservi che
ovviamente deve risultare
k
ni n .
i1
b Il primo termine dell'uguaglianza indica la somma dei valori n ed detto sommatoria delle n per i che va da 1 a k.
i
i
19
Tabella 2.1.6
Esempi di distribuzioni di frequenza
X
frequenze
frequenze
x1
x2
.
xi
.
xk
totale
n1
n2
.
ni
.
nk
n
x0 -| x1
x1 -| x2
.
xi-1 -| xi
.
xk-1 -| xk
totale
n1
n2
.
ni
.
nk
n
ni
n
100 .
E ovvio che la somma delle frequenze percentuali uguale a 100, dato che
k
ni
i 1 n
100 =
100 k
n i = 100 .
n i =1
20
Censimento generale della popolazione e delle abitazioni), mentre nella 2.2.2 sono indicati
i corrispondenti valori percentuali per entrambi i sessi.
Tabella 2.2.1a
Distribuzione degli occupati di sesso maschile in Italia per attivit economica
Attivit economica
Numero individui
739.903
5.316.779
2.298.682
780.240
1.168.507
2.537.860
12.841.971
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale
Tabella 2.2.1b
Distribuzione degli occupati di sesso femminile in Italia per attivit economica
Attivit economica
Numero individui
413.775
1.712.202
1.687.856
198.789
884.174
3.254.965
8.151.761
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale
Tabella 2.2.2
Distribuzione degli occupati per settore di attivit economica
Attivit economica
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale
Maschi
6,76
41,40
17,90
6,08
9,10
19,76
100,00
Femmine
5,08
21,00
20,71
2,44
10,84
39,93
100,00
Dalle tabelle 2.2.1a e 2.2.1b risulta, per esempio, che le femmine occupate nel settore
"Commercio" sono poco meno dei tre quarti dei maschi occupati nello stesso settore. Se
21
facciamo riferimento, invece, alla tabella 2.2.2 notiamo che la percentuale dei maschi
impiegati nel commercio sul totale inferiore al 18%, mentre la percentuale delle
femmine superiore al 20%, cosicch, in proporzione, le femmine occupate in questo
settore sono pi numerose.
Informazioni identiche a quelle fornite dalle frequenze percentuali possono essere
espresse anche mediante le cosiddette frequenze relative,
fi
ni
,
n
che sono date, come si vede, dai rapporti fra le frequenze assolute ed il loro totale ed
esprimono, anzich le percentuali, le quote di unit statistiche che presentano una
k
22
dove non sono stati indicati i dati relativi ai valori della variabile maggiori di 15, dato che
l'ultima classe della 2.1.4. aperta.
Tabella 2.3.1
Distribuzione delle abitazioni in edifici ad uso abitativo per numero di abitazioni nell'edificio
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
numero abitazioni
nell'edificio
1
2
3o4
Da 5 a 8
Da 9 a 15
Allo stesso modo, dai dati della tabella 2.1.3 non nota, per esempio, la quota di
aziende con una superficie coltivabile compresa fra 10 e 15 ettari, oppure fra 15 e 20 e
cos via.
Nel caso di una variabile continua si adotta in genere l'ipotesi, in un certo senso
equivalente alla precedente, di distribuzione uniforme all'interno di ogni singola classe,
in base alla quale la quota complessiva della classe viene ripartita sui suoi sottointervalli in
maniera proporzionale alla loro ampiezza. In questo modo a due qualsiasi sottointervalli di
pari ampiezza attribuita una stessa quota della frequenza complessiva della classe, ad
un sottointervallo con un'ampiezza doppia dei precedenti viene attribuita una quota doppia
e cos via. Se indichiamo con i l'ampiezza della i-esima classe, la frequenza attribuita ad
un qualsiasi sottointervallo ab della classe xi1xi data quindi da
fi
x i x i 1
b a =
fi
i
b a
2.3.1
ed uguale, come si vede, al prodotto della f i per il rapporto fra l'ampiezza di ab e quella
della classe che lo contiene.
Si osservi che il rapporto
f i (x) =
fi
2.3.2
23
fra la frequenza e l'ampiezza della i-esima classe misura il grado di addensamento delle
frequenze in questa classe ed detto densit di frequenza, cosicch la frequenza
assegnata ad un qualsiasi sottointervallo pari al prodotto della densit di frequenza della
classe per l'ampiezza del sottointervallo stesso
f i f i (x) i .
2.3.3
2.3.4
Nella tabella 2.3.2 sono riportati i dati relativi a 100 individui classificati in base alla
statura e sono indicate le ampiezze delle classi e le densit di frequenza corrispondenti.
Tabella 2.3.2
Distribuzione di 100 individui secondo la statura in centimetri
statura
quote
140 150
150 155
155 160
160 165
165 170
170 180
180 190
0,04
0,08
0,16
0,22
0,20
0,25
0,05
ampiezza delle
classi
10
5
5
5
5
10
10
densit di
frequenza
0,004
0,016
0,032
0,044
0,040
0,025
0,005
Dalla 2.3.4 risulta che la frequenza attribuita, per esempio, all'intervallo 167 170
pari a 0,043=0,12, quella attribuita all'intervallo 167 175 data dalla somma delle
frequenze associate ai due intervalli 167 170 e 170 175 ed pari, quindi, a
0,043+0,0255=0,245 e cos via.
In base all'ipotesi di distribuzione uniforme, la densit di frequenza risulta costante
all'interno di un qualsiasi sottointervallo comunque piccolo di una data classe, cosicch
possibile definire la cosiddetta funzione di densit (f.d.) come quella funzione f(x) che
associa ad ogni singolo valore della variabile X la densit di frequenza della classe che lo
contiene. Dalla definizione risulta ovviamente
24
f(x) 0.
f i (x) i 1
2.3.5
i 1
e che, in base alla 2.3.4, la frequenza associata ad un qualsiasi valore singolo, cio ad un
qualsiasi intervallo di ampiezza nulla, sempre uguale a zero. E' chiaro, quindi, che la
quota di frequenza corrispondente ad un dato intervallo di estremi a e b sempre la
stessa, sia che l'intervallo sia considerato aperto (a, b), chiuso a, b, oppure chiuso ad un
solo estremo (a, b o a, b).
25
Figura 2.4.1
Rappresentazione grafica della distribuzione
delle famiglie in abitazione per numero di componenti
numero famiglie
5000000
4000000
3000000
2000000
1000000
0
0
componenti
Per il grafico si utilizza, quindi, un sistema cartesiano e le diverse intensit rilevate sono
riportate sull'asse delle ascisse nella posizione determinata dalla scala di misura adottata.
Questo tipo di rappresentazione viene comunemente denominato diagramma per
ordinate e consente, come si vede, una percezione immediata della distribuzione delle
unit statistiche fra le diverse intensit della variabile.
Si osservi che nel grafico non sono riportati i dati relativi alle famiglie con pi di 5
componenti, dato che nella tabella 1.3.3 non specificata la suddivisione delle frequenze
fra le varie intensit del carattere.
Lo stesso criterio vale, ovviamente, anche per la costruzione dei grafici relativi a
distribuzioni di variabili qualitative, le cui modalit, in genere, sono riportate sull'asse delle
ascisse ad una stessa distanza l'una dall'altra.
Per esigenze di evidenza grafica sono utilizzati talvolta, al posto dei segmenti, dei
rettangoli (oppure dei parallelepipedi) la cui altezza proporzionale alla frequenza
associata a ciascuna modalit, come, per esempio, nella figura 2.4.2a che si riferisce ai
dati della tabella 1.3.2.
Questo tipo di rappresentazione prende il nome di grafico a colonne. Dato che la
variabile dell'esempio sconnessa, le sue modalit potrebbero essere rappresentate in un
ordine qualsiasi ma, per una maggiore leggibilit, vengono in genere riportate in modo che
le altezze dei rettangoli risultino in ordine crescente o decrescente.
Se, invece, la variabile di tipo qualitativo ordinabile i rettangoli vengono posizionati
sulla base dell'ordine naturale delle modalit.
26
Figura 2.4.2a
Rappresentazione grafica della distribuzione
degli occupati in Italia per attivit economica
8000000
7000000
occupati
6000000
5000000
4000000
3000000
2000000
1000000
0
Industria
altre attivit
commercio
agricoltura
trasp. e com.
attivit economica
Figura 2.4.2b
Rappresentazione grafica della distribuzione
degli occupati in Italia per attivit economica
trasp. e co m.
a
t
t
i
v
i
t
e
c
o
n
o
m
i
c
a
agrico ltura
cred., ass., serv. imp., no l.
co mmercio
altre attivit
Industria
0
1000000
2000000
3000000
4000000
occupati
27
5000000
6000000
7000000
8000000
Figura 2.4.3
Rappresentazione grafica della distribuzione
degli occupati di sessso maschile in Italia per attivit economica
agricoltura
trasp. e com.
Industria
commercio
altre attivit
28
Figura 2.4.4
Rappresentazione grafica della distribuzione di 100 individui secondo la statura
0,05
0,04
0,03
f(x)
0,02
0,01
0
130
140
150
160
170
180
190
200
29
Figura 2.4.5
Rappresentazione grafica della distribuzione delle abitazioni in edifici ad uso abitativo
per numero di abitazioni nell'edificio
7000000
6000000
5000000
4000000
3000000
2000000
1000000
0
0
9 10 11 12 13 14 15 16
numero abitazioni
Tabella 2.4.1
Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
classi ampiezza
demografica comuni
Fino a 500
501 1.000
1.001 2.000
2.001 3.000
3.001 4.000
4.001 5.000
5.001 10.000
10.001 15.000
15.001 20.000
Totale
frequenze
quote
densit*100
258.097
843.374
2.457.057
2.392.333
2.473.123
2.166.744
8.040.885
5.403.935
3.265.182
27.300.730
0,0095
0,0309
0,0900
0,0876
0,0906
0,0794
0,2945
0,1979
0,1196
1,0000
0,0019
0,0062
0,0090
0,0088
0,0091
0,0079
0,0059
0,0040
0,0024
30
Figura 2.4.6
Rappresentazione grafica della distribuzione della popolazione residente per classe di
ampiezza demografica dei comuni
0,01
0,009
0,008
0,007
0,006
f(x) 0,005
0,004
0,003
0,002
0,001
0
0
2000
4000
6000
Fi f j
j 1
i = 1, 2, ..., k
2.5.1
31
Tabella 2.5.1
Frequenze cumulate delle famiglie in abitazione per numero di componenti
Componenti
1
2
3
4
5
6 o pi
totale
Numero famiglie
5.409.180
5.900.965
4.703.320
4.133.369
1.263.934
367.460
21.778.228
quote
0,248
0,271
0,216
0,190
0,058
0,017
1,000
Frequenze cumulate
0,248
0,519
0,735
0,925
0,983
1,000
32
i
Fi , i 1,2,..., n .
n
2.5.2
x .
2.5.3
Pertanto i valori F(xi) della f.r. in corrispondenza dei diversi xi della X sono identici alle
frequenze relative cumulate Fi, ma dalla definizione 2.5.3 risulta che la f.r. definita per
qualsiasi valore reale x di X.
In corrispondenza di un qualsiasi valore x la F(x) pari infatti alla somma delle
frequenze relative associate a tutte le intensit xi inferiori o uguali ad x ed indica quindi la
quota di unit statistiche che presentano una intensit della X inferiore o uguale ad x.
Supponiamo, per semplicit, che un pescatore abbia pescato 5 trote il cui peso,
espresso in grammi, risultato il seguente: 232,8; 278,0; 253,2; 218,6; 290,4. Indicata con
X la variabile "Peso" i dati possono essere sistemati in una tabella analoga alla 2.5.2 in cui
la seconda colonna indica le frequenze relative cumulate.
Tabella 2.5.2
Distribuzione di 5 trote secondo il peso
X
Frequenze
cumulate
0,2
0,4
0,6
0,8
1,0
218,6
232,8
253,2
278,0
290,4
Dalla tabella si ricava che fra le trote pescate una quota pari a 0,2 ha un peso uguale a
218,6 grammi, una quota pari a 0,4 ha un peso inferiore o uguale a 232,8 grammi e cos
via. Si osservi per che la quota di trote con un peso inferiore o uguale ad x risulta
determinata in corrispondenza di un x qualsiasi. Cos, per esempio, la quota di trote con
un peso inferiore o uguale a 250 grammi pari a 0,4, la quota di trote con un peso
inferiore o uguale a 275 grammi 0,6 e cos via.
33
La f.r. definita anche per valori inferiori alla pi piccola o superiori alla pi grande fra le
intensit rilevate ed infatti la quota di trote con un peso inferiore a 218,6 grammi uguale
a zero, mentre la quota di trote con un peso inferiore a qualunque valore maggiore di
290,4 grammi sempre uguale a 1.
E' chiaro quindi che la F(x) del nostro esempio ha la forma riportata nella figura 2.5.1,
dove, come si gi detto, il valore dell'ordinata in corrispondenza di ogni x rappresenta la
quota di trote con un peso inferiore o uguale a x.
Figura 2.5.1
Rappresentazione grafica della funzione di ripartizione della tabella 2.5.2
1
0,8
0,6
F(x)
0,4
0,2
200
210
220
230
240
250
260
270
280
290
300
peso
Le ordinate, ovviamente, sono pari a zero per i valori di X inferiori a 218,6 grammi
mentre assumono un valore pari a 0,2 per x=218,6 ed in tutti i valori successivi inferiori a
232,8 grammi e cos via.
Dalla 2.5.3 risulta quindi che la F(x) una funzione definita per qualsiasi valore della X,
non decrescente, costante a tratti ed assume valori compresi fra 0 ed 1. In particolare
uguale a 0 in tutti i valori inferiori all'estremo sinistro del campo di variazione di X ed
uguale ad 1 in tutti i valori maggiori o uguali allestremo destro. Dalla definizione risulta
inoltre che la f.r. nei punti di salto continua a destrac.
In base a tutte queste considerazioni risulta che l'espressione formale della f.r. relativa
alla tabella 2.5.2 la seguente
cSe la F(x) fosse definita come la quota di individui con un valore di X inferiore ad x la funzione sarebbe continua a sinistra.
34
0
0,2
0,4
F(x)
0,6
0,8
x 218,6
218,6 x 232,8
232,8 x 253,2
253,2 x 278,0
278,0 x 290,4
290,4 x
Un altro esempio grafico di f.r. riportato nella figura 2.5.2 che si riferisce alla serie di
valori della superficie coltivabile riportati nella tabella 2.1.2.
Figura 2.5.2
Funzione di ripartizione relativa alla tabella 2.1.2
1
0,8
0,6
0,4
0,2
0
0
20
40
60
80
100
La differenza F(xb)- F(xa) fra i valori della f.r. calcolata in due punti qualsiasi xa ed xb
(con xbxa) corrisponde alla quota di unit statistiche con un valore di X compreso
nell'intervallo xa -| xb. Cos, per esempio, per quanto riguarda la tabella 2.5.2, la quota di
trote con un peso compreso nell'intervallo 230-|275 corrisponde alla differenza
F(275)-F(230) =0,6-0,2=0,4.
Nel caso di una distribuzione in classi, i valori della f.r., cos come quelli delle frequenze
cumulate, risultano esattamente definiti solo in corrispondenza dei loro estremi.
Per esempio, per la tabella 2.5.3, che deriva dai dati della 2.3.2, i valori della F(x) si
riferiscono all'estremo superiore di ciascuna classe ed indicano la quota di individui che
35
hanno un'altezza inferiore o uguale all'estremo stesso, cosicch 0,04 la quota di individui
con una statura non superiore a 150, 0,12 quella degli individui con una statura non
superiore a 155 e cos via.
Tabella 2.5.3
Distribuzione di 100 individui secondo la statura in centimetri
statura
frequenze
cumulate
0,04
0,12
0,28
0,50
0,70
0,95
1,00
140 150
150 155
155 160
160 165
165 170
170 180
180 190
In base alle informazioni fornite dalla tabella non noto il valore della F(x) in
corrispondenza delle diverse intensit all'interno delle classi, n la quota di individui
compresi in un qualsiasi sottointervallo di una classe. Il valore della f.r. in un punto x
compreso nell'intervallo xi-1-|xi pu essere per approssimato sommando alla F(xi-1), che
risulta dalla distribuzione, la frequenza attribuita all'intervallo xi-1-|x in base all'ipotesi di
distribuzione uniforme.
Dalla 2.3.4 risulta che ad ogni sottointervallo xi-1 -| x della i-esima classe attribuita una
frequenza pari a
fi(x)(xxi-1),
cosicch si had
xi-1 x xi.
2.5.4
dSi osservi che per semplicit si utilizza la stessa notazione F(x) sia per indicare la f.r. originaria, sia quella approssimata in base allipotesi di distribuzione
uniforme.
36
F(x) = a+bx
dove
a = F(xi-1) fi(x)xi-1
b fi x
i x
x i x i-1
Questa retta passa per i due punti individuati dagli estremi della classe e dai
corrispondenti valori della f.r., come si pu controllare mediante il grafico riportato nella
figura 2.5.3.
Figura 2.5.3
Esempio di funzione di ripartizione approssimata nella i-esima classe
F(xi )
F(xi-1 )
xi-1
xi
Come si vede, il coefficiente angolare della retta corrisponde al valore della f.d.
all'interno della i-esima classe.
In base ai valori dei parametri a e b rimane determinata l'espressione formale della f.r.
di una variabile continua data mediante classi di valori. Qui di seguito riportata per
esempio l'espressione formale della f.r. relativa alla tabella 2.3.2
37
0
0,004 (x 140)
x 140
140 x 150
150 x 155
155 x 160
160 x 165
165 x 170
170 x 180
180 x 190
190 x
2.5.5
La rappresentazione grafica di tale funzione riportata nella figura 2.5.4 dalla quale
risulta che la f.r. approssimata relativa ad una distribuzione in classi assume la forma di
una spezzata ed ha tutte le caratteristiche di una funzione di ripartizione vista in
precedenza (per una serie di valori relativa a una variabile continua) con l'unica differenza
che presenta un andamento crescente piuttosto che costante a tratti.
E evidente che se la distribuzione presenta delle classi vuote la f.r. risulta costante
allinterno degli intervalli corrispondenti.
Figura 2.5.4
Grafico della f.r. approssimata relativa alla distribuzione
di 100 individui secondo la statura
1,2
0,8
F(x) 0,6
0,4
0,2
0
140
150
160
170
statura
38
180
190
200
Si osservi che il valore F(x) corrisponde sempre all'area dell'istogramma fino all'intensit
x, come risulta dalla figura 2.5.5 in cui riportato il grafico della distribuzione descritta
nella tabella 2.3.2 e dove si posto x=162,5.
Figura 2.5.5
Istogramma della distribuzione di 100 individui secondo la statura
0,05
f(x)
0,04
0,03
0,02
0,01
0
140
x
145
150
155
160
165
39
170
175
180
185 X
190
La quota di individui che hanno una statura non superiore a 162,5 equivale alla somma
delle aree dei primi 3 rettangoli e dell'area parziale del rettangolo successivo fino
all'intensit 162,5. Questultima area data dal prodotto fra la densit della classe, pari a
0,044, e la lunghezza della base, pari a 162,5160=2,5.
In generale, quindi, il valore della f.r. in un punto x compreso nell'i-esima classe pu
essere anche espresso nella forma seguente
i 1
2.5.6
j 1
242, 245, 244, 248, 247, 242, 248, 244, 246, 242,
lespressione analitica della f.r. data da
0
3/10
5/10
F(x) 6/10
7/10
8/10
1
x 242
242 x 244
244 x 245
245 x 246
246 x 247
247 x 248
x 248
In base a questa funzione, per esempio, la quota di persone che riescono a fare fino a
243 battute al minuto risulta pari a 0,3, mentre la quota di individui con un numero di
battute superiore a 245 1F(245)=0,5. Il grafico della f.r. assume la forma ripoprtata nella
figura successiva.
40
Figura 2.5.6
Grafico della funzione di ripartizione relativa alla serie di numero di battute al minuto
1
0,8
0,6
F(x)
0,4
0,2
240
241
242
243
244
245
246
247
248
249
250
peso
Se la distribuzione della variabile discreta data in classi, come quella riportata nella
tabella 2.1.5, il valore approssimato della f.r. in corrispondenza delle intensit all'interno di
una classe si pu ottenere facilmente mediante l'ipotesi di equiripartizione della quota di
frequenza fra tutte le intensit comprese nella classe stessa.
41
Figura 2.6.1
Funzioni di ripartizione delle distribuzioni delle tabelle 2.1.2 e 2.1.3
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
60
70
80
90
100
Figura 2.6.2
Funzione di ripartizione della distribuzione della tabella 2.1.2 e modello matematico 2.6.1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
20
40
60
80
100
eAnche in questo caso la f.r. approssimata mediante una funzione matematica viene indicata per semplicit con la stessa notazione F(x).
42
F(x) 1 e
x
20
2.6.1
e, come si vede dal grafico, i suoi valori in corrispondenza dei diversi valori di X risultano
molto vicini a quelli della f.r. vera.
I valori approssimati della f.r. si ottengono semplicemente calcolando la funzione 2.6.1
in corrispondenza dei diversi valori della variabile, cosicch, per esempio, la quota
approssimata di aziende con una superficie inferiore o uguale a 12,4 ettari risulta pari a
F(12,4) 1 e
12,4
20
0,462 .
di
scarsa
importanza
che
risulta
ampiamente
compensata
dalla
43
funzioni con caratteristiche pi generali come, per esempio, nel caso della 2.5.5, che
una funzione lineare all'interno dei singoli intervalli, continua, ma non derivabile ovunque.
La f.r. 2.6.1, come avviene per tutti i modelli teorici, ha caratteristiche analoghe a quelle
che sono state illustrate per le f.r. esaminate nel paragrafo precedente. Si tratta infatti di
una funzione che assume il valore zero per x0, tende ad 1 per x che tende ad infinito ed
monotona crescente per x0.
Si osservi inoltre che la 2.6.1 risulta derivabile ovunque, con derivata prima non
negativa, eccetto che nel punto x = 0. Anche in questo caso la frequenza associata ad un
qualsiasi valore singolo uguale a zero, cosicch la quota di frequenza associata ad un
determinato intervallo sempre la stessa sia che l'intervallo sia considerato aperto,
chiuso, oppure chiuso ad un solo estremo.
L'espressione matematica della f.r. teorica consente di calcolare, oltre alla quota di
frequenza associata ad un qualsiasi intervallo chiuso [x, x+x] comunque piccolo, anche la
densit media di frequenza f(x) nello stesso intervallo mediante il rapporto, analogo al
2.3.2,
f(x)
F(x x) F(x)
.
x
2.6.2
Il limite della 2.6.2 per x che tende a zero uguale, com' noto, alla derivata della F(x)
nel punto x e corrisponde alla densit di frequenza in questo stesso punto.
La funzione derivata, che verr indicata con f(x), corrisponde alla funzione di densit del
modello teorico F(x) ed ovviamente risulta sempre
f(x) 0,
dato che la f.r. una funzione non decrescentef.
La f(x) quindi quella funzione che approssima la vera densit di frequenza della
variabile nella collettivit.
Nel caso di una distribuzione in classi, quindi, la f(x) approssima il profilo
dellistogramma, come si vede dalla figura 2.6.3 che riporta le funzioni di densit
corrispondenti al modello 2.6.1 e alla distribuzione della tabella 2.1.3.
fAnche in questo caso, per semplicit, la notazione f(x) viene usata indifferentemente per indicare la f.d. calcolata sotto ipotesi di distribuzione uniforme e
quella corrispondente ad un modello matematico.
44
Figura 2.6.3
Distribuzione approssimata delle aziende secondo la superficie coltivabile
0,05
0,04
0,03
0,02
0,01
0,00
0
10
20
30
40
50
60
70
80
90
100
Anche nel caso di modelli teorici, quindi, la distribuzione di una variabile continua pu
essere descritta in modo equivalente mediante la funzione di ripartizione F(x) o la
corrispondente funzione di densit f(x).
La frequenza relativa associata ad un intervallo x-|x+x pu essere approssimata, per
x sufficientemente piccolo, dal prodotto della densit per l'ampiezza dell'intervallo
f(x) x.
2.6.3
Si osservi che per ogni f.r. relativa ad una variabile continua con una distribuzione in
classi (come nel caso della f.r. 2.5.5) la derivata allinterno di ogni intervallo corrisponde
alla funzione di densit di frequenza. In questo caso il prodotto 2.6.3 esattamente uguale
alla frequenza associata all'intervallo stesso, come risulta anche dalla 2.3.3.
Dalla figura 2.6.3 si vede subito che la quota di frequenza del modello teorico associata
ad un qualsiasi intervallo xa-|xb corrisponde, come nel caso dell'istogramma, all'area
sottostante la curva della f.d. delimitata dagli estremi dell'intervallo stesso. Questa quota di
frequenza, pari a F(xb)F(xa), nelle nostre condizioni corrisponde anche all'integrale della
f.d. nello stesso intervallo, ossia
xb
45
Se sono a e b gli estremi del campo di variazione della variabile, la f.r. in un punto x
corrisponde all'integrale nellintervallo [a, x] della f.d.
F(x) = f(t)dt
2.6.4
e si ha anche
2.6.5
Fx
f(t)dt ,
f(x)dx 1
e, quando non esistono dubbi sul campo di integrazione, i suoi limiti possono essere
anche omessi.
Supponiamo, per esempio, che la distribuzione di una certa variabile X possa essere
approssimata dal seguente modello teorico
12x(1 x) 2
f(x)
0 x 1
altrove
2.6.6
46
Figura 2.6.4
Esempio di modello teorico
1,8
1,5
1,2
0,9
0,6
0,3
0,0
0,0
0,2
0,4
0,6
0,8
1,0
x0
0
x
F(x) 12t1 t 2 dt 3x 4 8x 3 6x 2
0
1
0 x 1
2.6.7
x 1
Oltre ai modelli distributivi continui esistono anche modelli per variabili discrete che per
una variabile X vengono descritti usualmente attraverso una funzione matematica f(x),
detta funzione di massa, che associa ad ognuna delle possibili intensit xi della X la
quota di frequenza corrispondente. Dalla funzione di massa si ricavano ovviamente,
attraverso somme successive, le frequenze cumulate e la funzione di ripartizione.
Il ricorso ad un modello teorico per descrivere un fenomeno costituisce spesso anche
un tentativo di interpretarlo e cio di individuare le cause per le quali quel dato fenomeno
presenta proprio quella particolare struttura. La costruzione del modello parte in questo
caso da considerazioni sulla natura del fenomeno e da congetture sulle caratteristiche dei
principali processi che influenzano le sue realizzazioni. Queste ipotesi, esplicitate in modo
47
f(x)
1
2
1 x
2
e
x +; +; 0
2.6.8
f(x)
1
9 2
1 x 165
2 9
e
, x +.
g Johnson N.L., Kotz S. e Kemp A.W. (1992), Univariate Discrete Distributions, second edition, Wiley & Sons, New York.
Johnson N.L., Kotz S. e Balakrishnan N. (1994), Continuous Univariate Distributions, second edition, 2 vol., Wiley & Sons, New York.
48
2.6.9
L'approssimazione ottenuta risulta soddisfacente, come si vede dalla figura 2.6.5 in cui
sono riportati i grafici delle due funzioni di densit relative alla distribuzione in classi ed al
modello matematico.
Si osservi che la f.d. normale risulta simmetrica intorno a e che i valori delle ordinate
della funzione diminuiscono rapidamente allaumentare della distanza da , anche se il
campo di variazione della variabile coincide con tutto lasse reale.
Figura 2.6.5
Distribuzione approssimata di 100 individui secondo la statura
0,05
0,04
0,03
0,02
0,01
0
130
140
150
160
170
180
190
200
F(x)
1
2
1 t
2
e
dt
2.6.10
2.6.11
49
che corrisponde ad una variabile con f.d. normale di parametri = 0 e = 1, che anche
detta variabile normale standardizzata.
Si pu dimostrare che il valore della funzione di ripartizione 2.6.10 della variabile X per
x, e qualsiasi si ottengono semplicemente dal valore della funzione di ripartizione della
variabile U calcolata in corrispondenza del valore
1
2
1
t2
2
e
dt
2.6.12
ed i suoi valori sono riportati in apposite tavole statistiche, analoghe alla Tavola A in
Appendice.
In questa tavola sono elencati sulla prima colonna alcuni valori di u con una cifra
decimale e sulla seconda colonna i corrispondenti valori di (u) cosicch, per esempio, in
corrispondenza del valore u=0,7 sulla seconda colonna riportato il valore (0,7)=0,758
che corrisponde evidentemente allintegrale 2.6.12 nellintervallo (-, 0,7]. Il valore della
f.r. per u uguale per esempio a 0,72 si determina procedendo verso destra sulla stessa
riga di u = 0,7 fino ad incontrare la colonna che ha sullintestazione il valore 0,02. Il valore
di (0,72) risulta quindi pari a 0,764.
Nel caso della distribuzione 2.6.9, per esempio, la F(170), ossia la quota approssimata
di individui con una statura inferiore o uguale a x=170, si ottiene calcolando il valore
170 165
0,56 a cui corrisponde (0,56) = 0,712.
9
I valori della f.r. per valori di u negativi si ottengono sempre dalla tavola A, tenendo
presente che, a causa della simmetria della variabile intorno allo zero, si ha
( u) 1 (u) .
50
Cos, per esempio, la quota di individui con una statura X inferiore o uguale a 155 si
ottiene calcolando il valore u
155 165
1,11 a cui corrisponde
9
In entrambi i casi, come si vede, i valori della f.r. teorica risultano molto prossimi a quelli
calcolati sulla distribuzione originaria. In generale lapprossimazione ottenuta con il
modello normale risulta soddisfacente, come si vede dalla figura 2.6.6 in cui sono riportati i
grafici delle due funzioni di ripartizione relative alla distribuzione in classi ed al modello
matematico.
Figura 2.6.6
Grafici delle f.r. approssimate di 100 individui secondo la statura
1,00
0,80
0,60
0,40
0,20
0,00
140
145
150
155
160
165
51
170
175
180
185
190
CAPITOLO 3
VALORI CARATTERISTICI DELLE DISTRIBUZIONI
3.1 I quantili
Nel capitolo precedente abbiamo visto come la distribuzione di una variabile in una
collettivit possa essere descritta utilizzando i valori della f.r. o delle frequenze cumulate,
cio le quote di individui che presentano un valore della variabile inferiore o uguale ad una
intensit predeterminata. Informazioni analoghe sulla distribuzione si possono ottenere
mediante i cosiddetti quantili.
In generale, detto quantile di ordine p (con 0<p<1) il valore xp della variabile X in
corrispondenza del quale la f.r. uguale a p, quel valore, cio, per il quale risulta
F(xp) p.
3.1.1
Come si vede, dire che un valore x il quantile di ordine p equivale a dire che nella
collettivit esaminata una quota pari a p di individui ha un valore della variabile inferiore o
uguale a x. Se, per esempio, in una distribuzione di redditi annui il quantile di ordine 0,25
pari ad 5 mila euro, questo vuol dire che un quarto degli individui ha un reddito inferiore o
uguale a 5 mila euro; se in una distribuzione di stature x0,8 vale 178 centimetri, questo vuol
dire che l'80% degli individui ha una statura inferiore o uguale a 178 centimetri e cos via.
Tutti i termini della serie, ovviamente, sono quantili della distribuzione, ma fra questi
alcuni sembrano pi indicativi di altri perch fanno riferimento a quei valori di p di uso pi
comune e sono considerati, quindi, come altrettanti valori caratteristici della distribuzione
stessa. Fra questi, particolarmente significativi sembrano quelli in corrispondenza dei quali
la F(x) vale un quarto, un mezzo e tre quarti, cio i quantili x0,25, x0,5 e x0,75. Questi ultimi,
per la loro importanza nella descrizione della distribuzione, hanno anche un nome
particolare e, dato che suddividono la distribuzione in quattro parti di uguale numerosit,
vengono detti quartili. Fra questi il pi utilizzato quello di ordine 0,5 che detto anche
mediana e che ovviamente suddivide la serie ordinata delle osservazioni in due parti di
uguale numerosit. Altri quantili di uso frequente sono i nove decili x0,1, x0,2, ..., x0,9 in
52
corrispondenza dei quali la F(x) assume rispettivamente i valori 0,1; 0,2; ...; 0,9 ed i
novantanove centili x0,01; x0,02; ...; x0,99.
Nel caso di una serie di n valori distinti relativi ad una variabile continua, la
determinazione dei quantili pu essere effettuata solo in modo convenzionale, come si pu
vedere facilmente attraverso alcuni esempi. Nella figura 3.1.1 riportato il grafico della f.r.
relativa ai pesi della tabella 2.5.2.
Figura 3.1.1
Rappresentazione grafica della funzione di ripartizione della tabella 2.5.2
1
0,8
0,6
F(x)
0,4
0,2
0
200
210
220
230
240
250
260
270
280
290
300
peso
Come si vede dalla figura, in questa distribuzione non esiste nessuna intensit in
corrispondenza della quale la f.r. assume un valore pari a 0,5 e questa circostanza si
verifica per tutte le serie con un numero dispari di termini. Se, infatti, facciamo riferimento
ad una serie ordinata di n osservazioni tutte diverse fra di loro, in corrispondenza del
valore xi, che si trova all'i-esimo posto della serie, la f.r. uguale ad i/n, come risulta dalla
2.5.2, ma se n dispari la quantit i/n non pu essere mai uguale a 0,5.
In tutti questi casi, per convenzione, si stabilisce di considerare quale mediana della
distribuzione l'intensit centrale della successione ordinata dei termini, anche se in realt,
in corrispondenza di questa intensit, la f.r. assume un valore sempre superiore a 0,5. Nel
nostro esempio, quindi, si considera come intensit mediana il valore 253,2 anche se
F(253,2) = 0,6.
In generale, quindi, se n un numero dispari, si assume quale mediana della
distribuzione l'intensit che nella serie ordinata occupa il posto
53
i=(n+1)/2, in
i 1 n +1
. Si osservi per che al
n 2 n
crescere di n il valore i/n tende rapidamente ad 1/2 e che quindi il termine centrale, se la
collettivit numerosa, tende a coincidere con il quantile di ordine 0,5.
Esaminiamo ora il caso in cui gli individui della collettivit siano in numero pari, facendo
riferimento ad una collettivit di 6 piantine di cui si misurata laltezza in centimetri
ottenendo i seguenti valori:
cumulate assumono i valori indicati nella seconda colonna della tabella 3.1.1
Tabella 3.1.1
Distribuzione di 6 piantine secondo laltezza (espressa in centimetri)
X
18,2
19,1
21,0
21,5
22,7
23,4
freq. cumulate
0,167
0,333
0,500
0,667
0,833
1,000
La f.r. corrispondente, illustrata nella figura 3.1.2, pari a 0,5 per tutti i valori compresi
fra l'intensit 21,0 e l'intensit 21,5 esclusa.
Figura 3.1.2
Grafico della f.r. della distribuzione 3.1.1
1
0,8
0,6
F(x)
0,4
0,2
0
18
18,5
19
19,5
20
20,5
21
altezza
54
21,5
22
22,5
23
23,5
24
Ciascuno dei valori di questo intervallo, quindi, potrebbe essere considerato come il
valore mediano della distribuzione, ma per convenzione in questo caso si assume come
mediana la semisomma degli estremi dell'intervallo stesso. Nel nostro esempio, quindi, si
considera come mediana il valore (21,0+21,5)/2 = 21,25.
Questa stessa convenzione si utilizza tutte le volte in cui la collettivit di numerosit
pari, perch in questo caso esistono due valori centrali che occupano i posti di ordine n/2 e
n/2+1 che costituiscono gli estremi del cosiddetto intervallo mediano. La f.r. in
corrispondenza del primo termine vale ovviamente (n/2)/n = 1/2 e continua a valere 1/2
fino al secondo termine escluso.
In generale, quindi, per una collettivit di numerosit pari, si assume quale mediana
della distribuzione la semisomma delle intensit che occupano i due posti centrali.
Questi stessi problemi si presentano evidentemente anche nella determinazione dei
quantili di qualsiasi ordine, ma in tutti i casi si usano le stesse convenzioni adottate per la
mediana.
In generale, quindi, per individuare il valore del quantile di ordine p, si controlla se nella
serie esiste unintensit in corrispondenza della quale la f.r. vale esattamente p. Se questo
termine esiste, dato che la f.r. continua a valere p fino al termine successivo escluso, si
considera come valore di xp la semisomma delle due intensit cos individuate. Se, invece,
non esiste alcuna intensit in corrispondenza della quale la f.r. vale p, si considera come
valore di xp il termine in corrispondenza del quale la f.r. assume per la prima volta un
valore superiore a p.
Supponiamo di voler calcolare il primo ed il terzo quartile della della distribuzione
riportata nella tabella 2.1.2. In questo caso la quota associata a ogni intensit pari a
1/25=0,04 e quindi la f.r. non assume mai i valori 0,25 e 0,75. Si considera quindi come
primo quartile l'intensit 6,1, in corrispondenza della quale la f.r. vale
F6,1
7
0,28
25
F27,8
19
0,76.
25
55
Per quanto riguarda le variabili discrete, i quantili che possono essere presi in
considerazione sono solo quelli di ordine corrispondente ai valori effettivamente assunti
dalla f.r. nella collettivit esaminata. Infatti, se a queste variabili si applicasse lo stesso
criterio seguito per quelle continue, un quantile potrebbe corrispondere ad un valore che la
variabile non pu assumere, e questo sarebbe evidentemente del tutto privo di senso,
oppure uno stesso valore che si presentasse pi volte corrisponderebbe a pi quantili
diversi.
Se la distribuzione di una variabile discreta data mediante classi di valori, la
determinazione dei quantili approssimati pu basarsi sulla ipotesi di equiripartizione delle
frequenze all'interno delle singole classi, mentre per una variabile continua si utilizza
l'espressione 2.5.4 della funzione di ripartizione.
In questo caso, per determinare il quantile di ordine p necessario individuare
innanzitutto la classe che lo contiene. Per esempio, il quantile di ordine 0,25 della
distribuzione riportata nella tabella 2.5.3 compreso nella classe 155-|160, dato che
F(155) = 0,12 e F(160) = 0,28, mentre x0,75 compreso nella classe 170-|180 e cos via.
Se xp contenuto nella classe i-esima, il suo valore si ottiene ponendo
F(xp) = F(xi1) + fi(x) (xp xi1) = p,
da cui si ricava
x p x i 1
p F(x i 1 )
.
f i (x)
3.1.2
Il terzo quartile della distribuzione delle altezze riportata nella tabella 2.5.3, per
esempio, dato da
x 0,75 = 170
Con riferimento alla rappresentazione grafica della F(x) per distribuzioni di variabili
continue date mediante classi di valori, il quantile di ordine p pu essere determinato
individuando semplicemente il valore dell'ascissa in corrispondenza del valore dell'ordinata
56
pari a p, cos come mostrato nella figura successiva, che si riferisce al terzo quartile per la
distribuzione delle stature.
Figura 3.1.3
Grafico della f.r. relativa alla distribuzione di 100 individui secondo la statura
1,2
0,8
F(x) 0,6
0,4
0,2
0
140
150
160
170
180
190
200
statura
57
58
uso comune, per esempio, espressioni quali "le donne in media vivono pi a lungo degli
uomini" oppure "i neonati maschi pesano in media pi delle femmine" e cos via.
L'espressione "valore medio" piuttosto generica perch si pu fare riferimento in realt
a pi valori medi che in genere risultano diversi fra di loro. Nel linguaggio comune, per,
con il termine media ci si riferisce quasi sempre alla cosiddetta media aritmetica che, fra
tutti i possibili valori medi, senz'altro il pi importante, tanto che in Statistica, quando si
parla di media senza ulteriori specificazioni, ci si riferisce sempre a quest'ultima.
La media aritmetica di una variabile X viene indicata di solito con uno dei simboli m, m x,
m1, M1, x , E(X).
Data la serie delle n intensit di una variabile X, la media aritmetica uguale alla
somma di tutte le intensit divisa per n.
Cos, per esempio, la media aritmetica della serie di valori della tabella 3.3.1 risulta
uguale a 10, quella della distribuzione riportata nella tabella 2.1.1 uguale a 20,392,
mentre la media della 2.5.2 uguale a 254,6.
Tabella 3.3.1
Numero di dipendenti di un gruppo di 10 aziende cooperative
1
15
18
20
23
xi
i 1
3.3.1
pari ovviamente a
i x i nm .
Come si vede dalla figura 3.3.1, relativa alle intensit della tabella 3.3.1, il valore della
media aritmetica, indicato dal simbolo
59
valore "centrale" della distribuzione, un valore cio intorno al quale sono pi o meno
addensate le intensit della variabile rilevate sugli individui della collettivit. Per
sottolineare questa "centralit", la media aritmetica, la mediana e, in generale, tutte le altre
medie, sono dette anche indici della tendenza centrale.
Figura 3.3.1
Grafico dei dati della tabella 3.3.1
10
15
20
25
Unimportante propriet della media aritmetica quella di essere quel particolare valore
che, sostituito a ciascuna delle intensit effettivamente rilevate, lascia inalterato
l'ammontare del carattere ed proprio questa la caratteristica a cui ci si riferisce
intuitivamente quando su un insieme di dati si calcola la media aritmetica.
Supponiamo, per esempio, di aver acquistato una stessa quantit di un certo bene in
due occasioni diverse e di aver pagato rispettivamente i prezzi p1 e p2. La media aritmetica
di queste due intensit (p1 + p2)/2 quel prezzo che, se fosse risultato identico nelle due
occasioni, ci avrebbe fatto spendere la stessa somma complessiva.
Si osservi che se di uno stesso bene vengono acquistate, invece, due quantit diverse
q1 e q2 pagando rispettivamente i prezzi unitari p1 e p2, l'ammontare complessivo della
spesa dato evidentemente dalla somma dei prezzi per le rispettive quantit p 1q1+p2q2,
cosicch il prezzo medio pm corrisponde al rapporto fra questo ammontare e la quantit
totale q1+q2. Si ha, in altri termini
pm
p1q1 p 2 q2
q1 q2
3.3.2
ed il valore cos ottenuto soddisfa la propriet della media aritmetica (lascia inalterato
lammontare complessivo della spesa), dato che
p1q1+p2q2 = pm(q1+q2).
60
La 3.3.2 un esempio di media aritmetica ponderata, ossia di una media dove ogni
singola intensit contribuisce alla determinazione dell'ammontare complessivo in maniera
proporzionale ad un qualche "peso" associato all'intensit stessa.
E' evidente che se in una distribuzione ogni intensit xi compare ni volte e vi sono solo k
intensit diverse fra di loro, la media pu essere definita mediante l'espressione
i x i ni
i ni
i x i ni
n
, i = 1, 2, ..., k n,
3.3.3
equivalente alla 3.3.1, in cui l'ammontare complessivo dato dalla somma dei prodotti fra
ciascuna intensit e la frequenza corrispondente.
Nel caso della tabella 1.3.3, per esempio, il numero medio di componenti delle famiglie
italiane formate da non pi di 5 componenti si ottiene mediante la 3.3.3 e risulta pari a
m i x i fi ,
i = 1, 2, ..., k n
3.3.4
i x i ni
n
i x i
ni
i x i fi
n
61
Tabella 3.3.2
Distribuzione di 25 aziende agricole secondo la superficie coltivabile
X
0 -| 5
5 -| 10
10 -| 20
20 -| 50
50 -| 100
totale
quote
0,20
0,16
0,24
0,32
0,08
1,00
valore centrale
2,5
7,5
15,0
35,0
75,0
In questo caso la media, che si ottiene dalla somma dei prodotti delle frequenze relative
per i valori centrali, uguale a 22,5 ettari e risulta quindi abbastanza diversa da quella
vera, calcolata sui dati originali, che era pari a 20,392.
Si osservi che per le distribuzioni di variabili continue raggruppate in classi la 3.3.4,
tenendo presente la 2.3.3, pu essere definita anche utilizzando la funzione di densit nel
modo seguente
m i x i fi (x)i x ,
i = 1, 2, ..., k n .
3.3.5
Se nella distribuzione compaiono una o pi classi aperte, per il calcolo della media
necessario approssimare in qualche modo i valori degli estremi, utilizzando altre eventuali
informazioni disponibili sul fenomeno esaminato.
Per quanto riguarda la media di una trasformata lineare di X
62
Y = a + bX,
3.3.6
3.3.7
si ha
come si vede facilmente tenendo presenti le propriet della sommatoria, cosicch la media
di una trasformazione lineare pari alla trasformazione lineare della media.
Una importante trasformazione lineare di una variabile X la cosiddetta variabile scarto
= (Xmx)
X
3.3.8
le cui intensit corrispondono alle differenze fra le intensit della X e la loro media. In base
alla 3.3.7 si controlla subito che
) = E(Xmx) = 0
E( X
3.3.9
Ms (i x is fi )1/s ,
< s < +.
63
3.4 I momenti
Sulla distribuzione di una variabile quantitativa X sono definiti i cosiddetti momenti di
ordine r, indicati di solito mediante il simbolo mr, la cui espressione data da
m r i x ri fi E Xr ,
r = 0, 1, 2, ...
3.4.1
da cui si vede che il momento di ordine r corrisponde alla media aritmetica delle potenze resime delle intensit.
Il momento di ordine zero evidentemente sempre uguale ad 1, mentre per r=1 si
ottiene la media aritmetica
m1 = m = E(X),
mentre per r=2 si ottiene il secondo momento dallorigine,
m2 i x i2 fi E X 2 .
I valori definiti nella 3.4.1 sono detti anche momenti dall'origine per distinguerli dai
cosiddetti momenti centrali, il cui generico elemento di ordine r indicato con il simbolo
mr e la cui espressione data da
mr i x i mr fi E X mr .
3.4.2
I momenti centrali corrispondono alle medie delle potenze r-esime della variabile scarto
3.3.9 ed evidente che per la nota propriet della media aritmetica risulta m1 0 .
Si osservi che tutti i valori dei momenti centrali possono essere ricavati da quelli dei
momenti dall'origine. Il secondo momento centrale, per esempio, risulta uguale a
m2 E X m2 E X 2 2mX m2 E X 2 2mEX m2 m2 m2
64
3.4.3
h mr
i x i hr fi E X hr ,
3.4.4
da cui per h=0 si ottengono le espressioni dei momenti dall'origine e per h=m le
espressioni dei momenti centrali.
3.5.1
da cui si ottiene
x p F 1(p) ,
3.5.2
x0
0
2
Fx x 0 x 1
1
x 1
65
si ottengono dallespressione
x p2 p
da cui risulta
xp p
per cui il primo quartile pari a x 0,25 0,25 0,5 , la mediana a x 0,5 0,5 0,7071 e
cos via.
Si osservi che, se non esiste una espressione esplicita della F 1( ) , come nel caso del
modello normale, il calcolo dei quantili, che in ogni caso sono esattamente determinati
dalla 3.5.1, pu essere effettuato con la precisione desiderata mediante opportune
procedure numeriche. Per i principali modelli teorici, come vedremo, esistono comunque
delle tavole che forniscono i valori dei quantili di uso pi comune. Nel caso del modello
2.6.8 questi valori sono definiti formalmente dallequazione
xp
p,
da cui si ricava
x p 1(p) ,
dove 1(p) il quantile di ordine p della normale standardizzata 2.6.11. In altri termini
questo significa che, data una variabile X la cui distribuzione pu essere approssimata da
una normale di media e s.q.m. , i suoi quantili possono essere sempre ottenuti dai
corrispondenti quantili della normale standardizzata che sono riportati in tavole analoghe
alla Tavola B, in Appendice.
66
In questa tavola la prima colonna riporta alcuni valori di p, mentre la seconda riporta i
corrispondenti valori dei quantili di ordine p, up 1(p) .
Nel caso del modello 2.6.8 in cui si posto =165 e =9, il primo quartile corrisponde a
In base al modello teorico, quindi, il 25% degli individui ha una statura inferiore o uguale
a 158,9, l80% ha una statura non superiore a 172,6 e cos via.
Nei modelli teorici di variabili continue il valore modale definito come quel valore in
corrispondenza del quale la f.d. f(x) presenta il suo massimo.
L'intensit modale, se non coincide con uno degli estremi del campo di definizione della
variabile, pu essere determinato, com' noto, attraverso le derivate della f(x). Il modello
teorico 2.6.6, per esempio, ha il valore modale uguale ad 1/3, che corrisponde al valore di
X in cui la derivata prima uguale a zero e la derivata seconda negativa.
Per quanto riguarda la f.d. normale 2.6.8 si pu controllare facilmente che il valore
modale pari a , come risulta anche dalla figura 2.6.5.
Esistono ovviamente modelli che presentano pi valori modali come per esempio nel
caso della f.d. riportata nella figura 3.5.1, in cui i valori modali sono pari a 4 e a 8.
Figura 3.5.1
Esempio di distribuzione bimodale
67
12
Nella figura 3.5.2 illustrato, invece, un modello che presenta una moda principale pari
a 8 ed una secondaria pari a 4. In corrispondenza di quest'ultimo valore, evidentemente, la
funzione di densit ha un massimo relativo
Figura 3.5.2
Esempio di distribuzione con una moda principale ed una secondaria
12
La media aritmetica del modello teorico di una variabile X viene indicata in genere con
i simboli E(X), o x e la sua espressione, se la f(x) una funzione di massa, identica
alla 3.3.4. Se la X invece una variabile continua definita nell'intervallo a, b la sua media
corrisponde a
x xf(x)dx
3.5.3
x3
x 4 x5
2
x 12x 1 x dx 12 x 2x x dx 12
2
.
4
5
5
3
0
0
0
2
68
h r ,
r
h r x h f(x)dx ,
3.5.4
2
4 4
2 12 x x1 x 2 dx 12x x 2
x 1 x 2 2x dx
5
25 5
0
0
1
x 6 14 5 69 4 28 3 4 2
1
12
x
x
x
x
.
100
75
50
25
6 25
0
h Molti manuali riportano tra laltro anche le espressioni dei momenti delle distribuzioni.
69
CAPITOLO 4
INDICI DI VARIABILITA' E DI FORMA
4.1 Introduzione
L'aspetto che caratterizza un qualsiasi fenomeno collettivo la variabilit delle
determinazioni che il fenomeno assume sui diversi componenti di un gruppo ed proprio
questa pluralit di modalit o intensit che rende necessaria l'utilizzazione dei metodi
statistici per una sua adeguata descrizione. Lo studio dei fenomeni statistici singolarmente
considerati, cos come quello delle relazioni fra fenomeni diversi di cui ci occuperemo in
seguito, essenzialmente, quindi, un'analisi della loro variabilit.
Con riferimento alla distribuzione di frequenza di un carattere qualitativo o quantitativo
discreto, si dice che la collettivit omogenea rispetto a quel carattere quando la maggior
parte degli individui presenta una stessa modalit o una stessa intensit.
La situazione limite di massima omogeneit o di assenza di variabilit si avrebbe
quando tutti gli individui presentassero una stessa determinazione del carattere alla quale
sarebbe associata, quindi, una frequenza relativa pari ad 1, mentre tutte le altre frequenze
sarebbero nulle. In casi come questi evidente che per la descrizione del fenomeno i
metodi statistici risulterebbero del tutto superflui.
Nelle situazioni concrete le distribuzioni sono sempre caratterizzate da un grado pi o
meno elevato di variabilit che pu essere valutato mediante opportuni indici che
permettono di confrontare la variabilit di fenomeni diversi rilevati su una medesima
collettivit o di uno stesso fenomeno rilevato in luoghi o in tempi diversi con lo scopo, per
esempio, di studiare la sua evoluzione nel tempo o le sue caratteristiche in situazioni
diverse.
70
Con riferimento alla figura 3.3.1, per esempio, evidente che la variabilit tanto pi
bassa quanto pi le osservazioni sono concentrate intorno ad un unico valore e, quindi,
quanto pi piccole sono le differenze fra le diverse intensit, cosicch la situazione limite
di assenza di variabilit si ha quando queste differenze sono tutte uguali a zero.
L'importanza della variabilit delle osservazioni in una collettivit pu essere illustrata,
per esempio, con riferimento alla distribuzione del reddito di un gruppo di individui: a parit
di reddito complessivo un basso livello di variabilit corrisponde ad una situazione in cui i
redditi individuali sono non molto diversi fra di loro, mentre una variabilit elevata
corrisponde alla situazione in cui pochi individui detengono una quota rilevante del reddito
totale.
Un altro caso in cui risulta evidente l'importanza del grado di variabilit di un fenomeno
si ha con riferimento ai rendimenti di diverse forme di investimento. A parit di rendimento
medio, infatti, essenziale tenere presente anche la variabilit, che pu essere
considerata come una misura del rischio connesso con i diversi tipi di investimento.
Fra gli indici di variabilit, i cosiddetti indici di dispersione si basano, in generale, sulle
differenze fra le singole intensit rilevate ed un qualche indice della tendenza centrale
della distribuzione. Lordine di grandezza di queste differenze, sintetizzato mediante un
opportuno valore medio, evidentemente in grado di fornire una valutazione complessiva
della variabilit del carattere.
Si osservi che per quanto riguarda la misura della variabilit di un fenomeno una
differenza di segno negativo ha la stessa rilevanza di una di segno positivo ed quindi
necessario che nel calcolo della media gli scarti di segno diverso non si compensino fra di
loro. Per questo motivo gli indici di dispersione si basano in generale sugli scarti
considerati in valore assoluto oppure sugli scarti elevati ad una potenza pari.
Uno degli indici di variabilit pi utilizzati in statistica la varianza che corrisponde alla
media aritmetica dei quadrati degli scarti dalla media aritmetica.
La varianza di una variabile quantitativa X, usualmente indicata con s 2, s 2x o V(X),
data da
s 2 (x i m)2 fi E (X m)2
i 1
4.2.1
71
s 2 m2 m2 m2 .
Questo indice, come d'altra parte tutti gli indici di dispersione, uguale a zero se e solo
se tutte le osservazioni sono uguali fra di loro (ed uguali quindi alla loro media), mentre il
suo valore cresce al crescere dell'ampiezza degli scarti.
Se, per esempio, su 5 individui sono state rilevate le seguenti intensit: 7, 8, 12, 15, 18,
161,2 ,
5
5
2
7 8 12 15 18
V(Y) E Y m y
4.2.2
ed quindi uguale alla varianza della X moltiplicata per il quadrato del coefficiente b.
Data lunit di misura utilizzata per rilevare la variabile di interesse, si osservi che la
varianza sempre espressa nell'unit di misura al quadrato, cosicch, per esempio, in una
distribuzione di stature misurate in centimetri la varianza risulter espressa in centimetri
quadrati. Per questo motivo spesso si utilizza, al posto della varianza, la sua radice
quadrata. Questo indice, detto scarto quadratico medio o scostamento quadratico
medio (s.q.m.), fornisce le stesse informazioni della varianza, dato che conoscere la
varianza di una distribuzione equivale a conoscerne lo s.q.m. e viceversa.
Lo s.q.m. di una variabile quantitativa X viene comunemente indicato mediante i simboli
s oppure sx ed assume ovviamente la forma
i(x i m)2 fi
m2 m2 .
4.2.3
Se la distribuzione data mediante classi di valori, gli scarti considerati ai fini del
calcolo della varianza o dello s.q.m. sono quelli fra i valori centrali delle classi e la media
aritmetica. Per la distribuzione riportata nella tabella 2.1.3, per esempio, la media dei
72
quadrati risulta pari a 906,25 ed il quadrato della media aritmetica a 506,25, cosicch la
varianza risulta uguale a 400 e lo s.q.m. a 20.
Una importante trasformazione lineare di una variabile X con media mx e s.q.m. sx, che
verr spesso utilizzata in seguito, la sua trasformazione di standardizzazione
X mx
.
sx
4.2.4
ui
xi mx
sx
EU
1
EX m x 0
sx
V U EU2
1
s 2x
EX m 1,
2
4.2.5
cos come si visto per la normale standardizzata, per cui i valori u i non dipendono
dall'ordine di grandezza del fenomeno n dall'unit di misura adottata.
In alcune situazioni si pu avere interesse a confrontare la variabilit di fenomeni diversi
come, per esempio, la variabilit dei pesi corporei e delle stature di un gruppo di individui
oppure di fenomeni espressi in unit di misure diverse come, per esempio, nel caso in cui
si voglia valutare la variabilit di distribuzioni di redditi espressi in valute diverse (Lire ed
Euro, oppure Dollari ed Euro e cos via). In queste situazioni necessario utilizzare un
qualche indice di variabilit che sia un numero puro (ovvero non riferito ad alcuna unit di
misura). Lindice pi utilizzato a questo scopo il cosiddetto coefficiente di variazione
(c.v.) che dato dal rapporto fra lo s.q.m. e la media e che, quindi, una grandezza
adimensionale, espresso cio mediante un numero svincolato dalla unit di misura del
fenomeno.
73
Questo coefficiente, cos come ogni indice di variabilit relativo dato dal rapporto fra un
indice di variabilit ed uno di tendenza centrale, viene utilizzato solo se le intensit rilevate
sono tutte non negative.
Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono ai risultati
ottenuti dai primi 10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del
1988i (i tempi sono misurati in secondi e le distanze in metri), supponiamo che si sia
interessati a determinare la specialit sportiva nella quale si rileva la maggiore variabilit
dei risultati.
Tabella 4.2.1
Risultati ottenuti dai primi 10 atleti classificati in tre prove di decathlon (Olimpiadi del 1988)
salto in alto
400 metri
giavellotto
2,27 1,97 1,97 2,03 1,97 2,12 2,06 2,00 2,03 1,97
48,90 47,71 48,29 49,06 47,44 48,34 49,34 48,21 49,15 48,60
61,32 61,76 64,16 64,04 57,46 52,18 61,60 63,00 66,46 59,48
Indicata con X la variabile salto in alto, con Y la variabile 400 metri e con Z la
variabile lancio del giavellotto i coefficienti di variazione risultano pari a
sx
0,0441 ,
mx
sy
my
0,0122 ,
sz
0,0626 ,
mz
per cui la maggiore variabilit dei risultati ottenuti dai 10 atleti esaminati si ha per il lancio
del giavellotto.
Tutte le considerazioni svolte in questo paragrafo si applicano anche alla varianza, allo
s.q.m. ed al c.v. dei modelli teorici di variabili continue, la cui espressione si ricava da
quella generale dei momenti riportata nel paragrafo 3.5.
Dato, per esempio, il seguente modello distributivo teorico di una variabile X
i International Athletic Federation, London. Quoted in Lunn A.D. and McNeil D.R. (1991), Computer-interactive data analysis, Chichester: John
Wiley & Sons, 276.
74
0 x 1
altrove
2x
f(x)
0
r x 2xdx 2 x
r
xr 2
2
,
dx 2
r 2 0 r 2
r 1
per cui si ha
2
,
3
2 1
.
4 2
1 4 1
,
2 9 18
1/ 18
0,3536 .
2/3
75
mediana della distribuzione, ma in ogni caso, per semplicit, questo centro di simmetria
verr indicato qui di seguito con il simbolo x0,5 anche con riferimento a variabili discrete.
Nel caso di distribuzioni date mediante classi di valori o di modelli teorici di variabili
continue, la distribuzione simmetrica se ad ogni coppia di intervalli della stessa
ampiezza equidistanti dalla mediana associata la stessa frequenza. Esempi di
distribuzioni simmetriche sono la distribuzione normale riportata nella figura 2.6.5 ed
anche la distribuzione rappresentata nella figura 3.5.1.
Una valutazione numerica del grado di asimmetria di una distribuzione si pu ottenere
dallindice
a1 (x i x 0,5 )fi ,
4.3.1
i 1
i 1
i 1
a1 x i fi x 0,5 fi m x 0,5
e che quindi a1 uguale semplicemente alla differenza tra la media aritmetica dei dati e la
loro mediana, cosicch una media maggiore, uguale o minore della mediana indica
rispettivamente unasimmetria positiva, nulla o negativa. E importante sottolineare, per,
che la media e la mediana possono risultare uguali fra di loro anche se la distribuzione
asimmetrica e che quindi un valore di a1 uguale a zero una condizione necessaria ma
non sufficiente per la simmetria.
I dati della tabella 3.3.1, riportati nella figura 3.3.1, presentano unasimmetria positiva
con un valore di a1 uguale a 3. Altri esempi di distribuzioni con unasimmetria positiva sono
illustrati nelle figure 2.4.5, 2.6.3, 2.6.4, mentre nella figura 3.5.2 riportato un esempio di
asimmetria negativa.
76
Per valutare il grado di asimmetria viene utilizzato anche il rapporto fra a 1 e lo s.q.m.
della distribuzione che evidentemente ha lo stesso significato di a1, ma che un indice
adimensionale e non dipende quindi dallunit di misura utilizzata nella rilevazione.
L'indice di asimmetria pi comunemente utilizzato, indicato in genere con a 3, dato dal
rapporto fra il terzo momento centrale e lo s.q.m. al cubo
a3 =
m3
s3
X m 3
x
E
E U3
s x
4.3.2
Maschi:
120, 107, 110, 116, 114, 111, 113, 117, 114, 112
Femmine: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111
0,0777
j Manly B.F.J. (1991), Randomization and Monte Carlo methods in biology, London: Chapman and Hall, 4.
77
per le mandibole degli sciacalli di sesso femminile. In questo caso, quindi, la prima serie
presenta una leggera asimmetria positiva, mentre la seconda caratterizzata da una
leggera asimmetria negativa.
Nel caso dei modelli teorici l'indice di asimmetria corrispondente ad a3 viene indicato
con il simbolo 3 ed il suo valore viene determinato utilizzando le espressioni dei momenti
gi note.
Dato, per esempio, il seguente modello distributivo teorico
3 2
x
f(x) 2
0
1 x 1
4.3.3
altrove
la media di X pari a
3
3 1
xf(x) dx x 3 dx x 4 0 ,
2
2 4 1
1
1
per cui i momenti dalla media aritmetica coincidono con i momenti dall'origine. In
particolare si ha
3 2
3 x6
3 x
x dx 0
2
2 6
1
1
3
78
a4 =
m4
s4
X m 4
4
E
EU
s
4.3.4
3
3 x7
3
4 x 4 x 2 dx
2
2 7
7
1
1
3/7
(3/5)2
1,1905 .
Nella figura 4.3.1 sono riportati i grafici di tre distribuzioni che hanno tutte uno stesso
valore di m e di 3, entrambi nulli, uno stesso valore della varianza, pari a 0,25, e differenti
valori di 4.
Figura 4.3.1
Esempio di distribuzioni con diversi valori dellindice di curtosi
4>3
4=3
4<3
79
code ed, infine, quelle con valori superiori a 3 sono dette leptocurtiche ed hanno frequenze
relative pi elevate in prossimit degli estremi del campo di variazione.
Si dimostra facilmente che in ogni caso verificata la disuguaglianza di Wilkins
a 4 a 32 1,
dalla quale risulta che il valore minimo dell'indice di curtosi uguale ad 1 e che il suo
valore cresce al crescere dell'asimmetria.
Gli indici di asimmetria e di curtosi a3 ed a4, oltre che per confrontare le distribuzioni di
uno stesso fenomeno rilevato in collettivit diverse oppure nella stessa collettivit in tempi
diversi, vengono utilizzati spesso anche per controllare se la forma della distribuzione di
una variabile statistica simile a quella del modello normale. Quest'ultimo simmetrico ed
ha un valore di 4 uguale a 3.
La distribuzione riportata nella tabella 2.3.2, per esempio, ha un valore di a 3 uguale a
0,01 ed un valore di a4 uguale a 2,67 ed in effetti questa distribuzione, come abbiamo
visto nel grafico 2.6.5, pu essere approssimata in maniera soddisfacente mediante il
modello normale. Si osservi, comunque, che l'indice di curtosi pu assumere un valore
uguale a 3 anche per distribuzioni molto diverse dalla normale.
Pi in generale questi due indici possono essere utilizzati per indirizzare la scelta di un
modello matematico che sia in grado di approssimare la distribuzione di una variabile
statistica. Per facilitare questa scelta, basata sul confronto fra i valori di a 3 e a4 della
distribuzione con quelli del modello, esistono anche apposite mappe k nelle quali, per i
diversi valori di 3 ed 4, sono indicati i corrispondenti modelli teorici.
80
CAPITOLO 5
LE DISTRIBUZIONI BIVARIATE
5.1 Generalit
Nei capitoli precedenti sono stati esaminati alcuni degli strumenti che vengono
comunemente utilizzati per descrivere la distribuzione di un certo fenomeno in una
collettivit statistica e per metterne in evidenza le caratteristiche principali. Il materiale di
base in questo caso costituito da un'ennupla di osservazioni di una qualche variabile
effettuate sugli n individui componenti la collettivit. Scopo delle prossime pagine sar,
invece, quello di estendere l'analisi statistica a quei casi in cui su ogni individuo vengono
rilevate pi variabili contemporaneamente.
L'osservazione contemporanea di pi variabili su ognuna delle unit statistiche
consente, come si vedr, oltre che di studiare con gli strumenti gi noti la distribuzione e le
caratteristiche delle singole variabili, di estendere lo studio alle relazioni che nella
collettivit esaminata possono esistere fra le variabili stesse.
Nel corso di questo capitolo verr preso in considerazione il caso di due variabili e,
quindi, delle cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le
lettere maiuscole X e Y e si parler o di due variabili X e Y o di una variabile (X,Y) a due
dimensioni. Le due variabili considerate possono essere di qualsiasi tipo, possono essere,
cio, sia variabili qualitative che quantitative e queste ultime possono essere sia discrete
che continue. Le due variabili possono essere entrambe dello stesso tipo, oppure una di
un tipo e l'altra di un altro. Con le lettere minuscole x e y saranno indicate le diverse
determinazioni delle variabili stesse.
Sugli individui di una collettivit di persone pu essere rilevato, per esempio, il tipo di
diploma (perito chimico, ragioniere, geometra, ...) ed il tipo di occupazione (occupato,
studente, disoccupato, ...). In questo caso si tratta evidentemente di due variabili di tipo
qualitativo. Su una collettivit di imprese pu essere rilevato per ogni impresa il ramo di
attivit economica (commercio, trasporti, credito e cos via) ed il numero di addetti, per cui
si tratta di una variabile qualitativa e di una variabile quantitativa discreta. Su una
kcfr. C. Scala, op cit.
81
( x1, y1), ( x2, y2), ..., ( xi, yi), ..., ( xn, yn),
possono essere sistemate in una tabella analoga alla 5.1.1 in cui con xi e yi vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esimo individuo
Tabella 5.1.1
Esempio di distribuzione bivariata
X
Y
x1
y1
x2
y2
...
...
xi
yi
...
...
xn
yn
82
che la variabile Y assume nella stessa collettivit. Se le variabili sono ordinabili le modalit
sono riportate secondo il loro ordine naturale.
Tabella 5.2.1
Esempio di distribuzione bivariata
Y
y1
y2
...
yj
...
yq
totale
n11
n21
.
ni1
.
nk1
n.1
n12
n22
.
ni2
.
nk2
n.2
...
...
.
...
.
...
...
n1j
n2j
.
nij
.
nkj
n.j
...
...
.
...
.
....
...
n1q
n2q
.
niq
.
nkq
n.q
n1.
n2.
.
ni.
.
nk.
n
X
x1
x2
.
xi
.
xk
totale
Il simbolo nij, segnato all'incrocio fra la riga xi e la colonna yj, indica il numero di individui
della collettivit sui quali sono state rilevate contemporaneamente le determinazioni xi e yj
delle due variabili X e Y.
Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi
Residenza
Mese
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Totale
Italiani
Stranieri
2.863.439
2.898.551
3.518.301
4.782.364
4.091.207
6.212.762
6.566.385
7.818.714
4.647.082
3.318.629
2.924.948
3.398.903
53.041.285
1.509.739
1.951.340
2.660.268
3.662.612
4.677.447
4.992.022
5.963.598
5.232.409
5.246.572
3.718.105
1.768.584
1.446.432
42.829.128
83
Totale
4.373.178
4.849.891
6.178.569
8.444.976
8.768.654
11.204.784
12.529.983
13.051.123
9.893.654
7.036.734
4.693.532
4.845.335
95.870.413
Cos, per esempio, nella tabella 5.2.2 la frequenza 1.951.340 posta all'incrocio fra la
terza riga e la terza colonna corrisponde al numero di stranieri arrivati negli esercizi
ricettivi italiani durante il mese di febbraio del 2007.
I simboli n.1, n.2, ..., n.q riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle
diverse colonne e, quindi, il numero di individui della collettivit sui quali sono state rilevate
le determinazioni y1, y2, ..., yq della variabile Y, senza tener conto delle modalit della
variabile X. Risulta perci,
n.1 ni1
, ..., n.j ni j
i 1
i 1
Con riferimento alla tabella 5.2.2, per esempio, le coppie costituite dagli elementi della
prima e dell'ultima riga costituiscono la distribuzione degli arrivi negli esercizi ricettivi
italiani durante lanno 2007 per residenza dei clienti senza tener conto del mese.
Un significato analogo hanno i simboli ni., per cui risulta
q
j 1
j 1
j 1
Cos, per esempio, il valore 4.373.178 che compare nell'ultima casella della seconda
riga della tabella 5.2.2 indica il numero di arrivi negli esercizi ricettivi in Italia nel gennaio
2007 senza tenere conto della residenza dei clienti.
Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica, infine, il numero
totale delle unit statistiche della collettivit esaminata.
Si ha, quindi,
k
k q
i 1
j 1
i 1 j 1
Si osservi che i dati sulla distribuzione congiunta delle due variabili contenuti nella
tabella a doppia entrata sono identici a quelli della sequenza originaria e che questa
organizzazione dei dati non comporta quindi alcuna perdita di informazioni.
Anche nel caso di distribuzioni doppie le informazioni possono essere sintetizzate
utilizzando per una o per entrambe le variabili delle classi di valori per le quali valgono
84
tutte le considerazioni fatte a proposito delle distribuzioni univariate. In questo caso sulla
prima riga della tabella, sulla prima colonna o su entrambe vengono indicati non i singoli
valori xi o yj ma degli intervalli. Se, per esempio, si utilizzano classi di valori sia per la X
che per la Y, all'incrocio fra la riga indicata con l'intervallo xi1-|xi e la colonna indicata con
l'intervallo yj1-|yj il simbolo nij rappresenta il numero di individui sui quali sono stati rilevati
contemporaneamente valori della X compresi fra xi1 e xi e valori della Y compresi fra yj1 e
yj.
Date, per esempio, le due seguenti serie di dati che si riferiscono ai livelli di colesterolo,
misurati in mg per 100 ml, di due diversi gruppi di individui
Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325
Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213
si vogliano organizzare i dati in una tabella a doppia entrata in cui la variabile X identifica il
gruppo ed assume le modalit x1 ed x2, mentre la variabile Y indica i livelli di colesterolo ed
raggruppata nelle classi 130-|180, 180-|220, 220-|250, 250-|350.
La distribuzione delle variabili X ed Y cos definite assume la forma indicata nella tabella
successiva.
Tabella 5.2.3
Distribuzione di 40 individui per gruppo di appartenenza e livelli di colesterolo
Y
130 -| 180
180 -| 220
220 -| 250
250 -| 350
totale
X
x1
20
x2
20
totale
12
13
10
40
Nelle tabelle 5.2.4 e 5.2.5 sono riportati alcuni esempi di distribuzioni bivariate con
variabili di diverso tipo.
85
Tabella 5.2.4
Produzione di vino per regione e marchio di qualit - Anno 2007
Fonte ISTAT
Marchio qualit
Regione
Piemonte
Valle d'Aosta
Lombardia
Trentino-Alto Adige
Veneto
Friuli-Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
totale
D.O.C. e
D.O.C.G.
2.276.353
11.500
670.701
1.019.845
2.329.132
669.450
45.078
1.480.163
1.749.601
307.090
272.580
888.984
769.150
187.595
235.045
827.925
29.359
84.454
153.015
239.947
14.246.967
I.G.T.
0
0
181.578
179.730
4.541.373
203.881
7.957
2.300.051
711.084
399.637
362.615
323.870
130.330
0
256.206
1.058.798
24.007
28.292
1.147.173
177.775
12.034.357
Da tavola
447.593
6.000
246.785
21.820
808.550
156.159
36.019
1.976.967
357.891
291.683
121.470
605.219
1.246.985
131.665
1.161.104
3.499.152
167.874
293.361
2.641.120
444.514
14.661.931
totale
2.723.946
17.500
1.099.064
1.221.395
7.679.055
1.029.490
89.054
5.757.181
2.818.576
998.410
756.665
1.818.073
2.146.465
319.260
1.652.355
5.385.875
221.240
406.107
3.941.308
862.236
40.943.255
Tabella 5.2.5
Fallimenti dichiarati dalle societ per classe di ampiezza demografica dei comuni
e forma giuridica (Anno 2006) - Fonte ISTAT
amp. demog. Comuni fino
forma giur.
50.000
abitanti
Societ di fatto
In nome collettivo
A resp. limitata
Per azioni
In acc. semplice
In acc. per azioni
Cooperative
totale
17
472
3.152
80
691
20
119
4.551
Comuni da
50.001 a
100.000
abitanti
2
88
818
21
196
0
40
1.165
86
Comuni da
100.001 a
500.000
abitanti
5
102
1.006
24
125
2
32
1.296
Comuni
oltre
500.000
abitanti
11
95
1.843
40
280
5
46
2.320
totale
35
757
6.819
165
1.292
27
237
9.332
Nelle tabelle 5.2.6 e 5.2.7 sono invece riportate la sequenza originaria di coppie dei
valori del reddito e del consumo annui di 25 famiglie e la relativa distribuzione di frequenza
espressa mediante intervalli di valori.
Tabella 5.2.6
Reddito e consumo annui di una collettivit di 25 famiglie (dati in migliaia di euro)
Reddito
Consumo
Reddito
Consumo
Reddito
Consumo
22,2
18,4
25,8
21,0
30,2
23,4
22,6
19,0
26,2
21,6
30,6
24,2
23,2
19,8
26,8
22,2
31,2
23,6
23,4
19,4
27,2
21,8
32,0
24,4
23,8
20,2
27,6
22,0
34,2
25,8
24,2
20,6
28,0
23,0
24,6
22,2
28,4
24,0
25,0
22,2
28,6
23,6
25,2
20,0
29,0
24,2
25,6
21,4
29,4
22,0
Tabella 5.2.7
Distribuzione sintetica ottenuta dalla tabella 5.2.6
consumo
reddito
22 -| 25
25 -| 27
27 -| 29
29 -| 35
totale
18 -| 20
20 -| 22
22 -| 24
24 -| 26
4
1
0
0
5
2
3
2
1
8
2
1
3
2
8
0
0
1
3
4
totale
8
5
6
6
25
n ij
n
che si calcolano dividendo tutte le frequenze della tabella per il numero totale di
osservazioni e che indicano le quote di individui che presentano una stessa coppia di
modalit delle due variabili. Anche in questo caso tutte le successive analisi su una
distribuzione bivariata verranno effettuate, per semplicit, con riferimento alle frequenze
relative. Si ha evidentemente
87
q k
f ij 1,
5.3.1
i 1 j 1
mentre le frequenze relative riportate nellultima riga e nellultima colonna della tabella a
doppia entrata corrispondono rispettivamente a
f ij
i1
f.j
5.3.2
fi. .
5.3.3
f ij
j1
Nella tabella 5.3.1 riportata, a titolo desempio, la stessa distribuzione della tabella
5.2.7 dove le frequenze assolute sono state sostituite con quelle relative.
Tabella 5.3.1
Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.7
consumo
reddito
22 -| 25
25 -| 27
27 -| 29
29 -| 35
totale
18 -| 20
20 -| 22
22 -| 24
24 -| 26
0,16
0,04
0,00
0,00
0,20
0,08
0,12
0,08
0,04
0,32
0,08
0,04
0,12
0,08
0,32
0,00
0,00
0,04
0,12
0,16
totale
0,32
0,20
0,24
0,24
1,00
Le coppie di valori (yj, f.j) per j=1,2,...,q e (xi, fi.) per i=1,2,...,k che rappresentano
rispettivamente le distribuzioni di frequenza delle due variabili Y ed X considerate
separatamente, sono dette distribuzioni marginali della distribuzione bivariata.
La distribuzione congiunta di due variabili fornisce, evidentemente, informazioni pi
ricche di quelle che si avrebbero prendendo in considerazione le due variabili
separatamente, perch consente di analizzare e confrontare fra di loro gli assetti
distributivi di una variabile rilevata allinterno dei diversi gruppi omogenei nellaltra.
Si osservi che le diverse righe del riquadro interno di ogni tabella a doppia entrata
rappresentano, in associazione con la prima riga, altrettante distribuzioni univariate della
variabile Y. I valori fi1, fi2, ..., fiq della i-esima riga indicano la distribuzione della variabile Y
88
Tabella 5.3.2
Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1
consumo
reddito
22 -| 25
25 -| 27
27 -| 29
18 -| 20
20 -| 22
22 -| 24
24 -| 26
0,50
0,20
0,00
0,25
0,60
0,1 6
0,25
0,20
0,50
29 -| 35
0,00
0,0 3
0,1 6
0,00
0,00
0,0 3
0,50
Totale
1,00
1,00
1,00
1,00
89
si nota un incremento dell'incidenza al crescere dell'et delle pazienti, mentre per quelle
oculistiche la maggiore incidenza si ha per gli individui con un'et inferiore a 20 anni e
superiore a 60.
Tabella 5.3.3
Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed
et del pazientel - Femmine - Frequenze relative di riga
special.
et
14
1419
2029
3039
4049
5059
6064
65 e +
Cardiologiche
ostetriche
ginecologiche
oculistiche
odontoiatriche
0,062
0,060
0,064
0,072
0,160
0,208
0,388
0,371
0,019
0,090
0,615
0,549
0,363
0,226
0,048
0,075
0,158
0,129
0,073
0,054
0,069
0,066
0,214
0,157
0,442
0,527
0,164
0,201
0,224
0,203
0,126
0,177
otorinolaringoiatriche
0,146
0,050
0,048
0,044
0,059
0,091
0,044
0,049
ortopediche
totale
0,173
0,144
0,036
0,080
0,125
0,206
0,180
0,171
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Y|xi,
i = 1, 2, ..., k,
f ij
fi.
5.3.4
dove
f ij
1,
i = 1, 2, ..., k.
5.3.5
j1 i.
lFonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1
90
j = 1, 2, ..., q
f ij
f.j
5.3.6
130 -| 180
180 -| 220
220 -| 250
250 -| 350
totale
0,00
0,25
0,25
0,35
0,40
0,25
0,35
0,15
1,00
1,00
X
x1
x2
91
s 2y | x = (1552 0,25 2002 0,35 2352 0,25 3002 0,15) 212,52 = 2156,25.
2
m r,s x ri y sj f ij E Xr Y s .
i
Questi sono i momenti misti rispetto all'origine o momenti ordinari, mentre sono detti
centrali ed indicati con il simbolo m r,s i momenti calcolati sugli scarti delle due variabili
dalle rispettive medie
m r,s x i m x 2 y j m y 2 f ij E X - m x 2 Y - m y
i
2 .
m r,s
1 n r s
xi yi ,
n i1
m r,s
1
x i m x r y j m y
n i1
s .
Fra i possibili momenti misti di una distribuzione bivariata, quello che ha un'importanza
del tutto particolare il momento centrale misto d'ordine 1,1, che detto anche
covarianza e che indicato, oltre che con il simbolo m1,1, anche con sx,y e Cov(X,Y). Si
osservi che
s xy E X m x Y m y E XY Xm y Ym x m x m y m1,1 m x m y
92
5.4.1
e cio che la covarianza uguale al momento misto di ordine 1,1 meno il prodotto delle
medie delle due variabili.
Consideriamo, per esempio, i seguenti valori delle variabili X contenuto di umidit e Y
solidit rilevate su 10 assi di legno che sono riportati nella tabella seguente.
Tabella 5.4.2
Valori del contenuto di umidit (X) e della solidit (Y) rilevati su 10 assi di legno
X
11,1
8,9
8,8
8,9
8,8
9,9
10,7
10,5
10,5
10,7
Y
11,14
12,74
13,13
11,51
12,38
12,60
11,13
11,70
11,02
11,41
mx = 9,8800,
5.4.2
my = 11,8760,
5.4.3
m1,1 = 116,8445,
per cui la covarianza fra le due variabili risulta pari a
sxy = 116,8445 9,8811,876 = 0,49038.
5.4.4
Nel caso della tabella 5.2.7 le medie delle due variabili risultano
mx = 27,12,
5.4.5
my = 21,88,
5.4.6
93
5.4.7
X mx Y my
s
1 E X m x Y m y xy ,
CovU, V EUV E
sx
s y s x s y
sxsy
da cui si vede che la covarianza fra le variabili standardizzate data dal rapporto fra la
covarianza delle variabili originarie ed il prodotto dei loro scarti quadratici medi. Questo
rapporto, che viene detto coefficiente di correlazione lineare fra X ed Y, indicato con
la lettera r per cui si ha
s xy
5.4.8
sxsy
5.4.9
Per la tabella 5.4.2, per esempio, il secondo momento della variabile X pari a
E(X2)=98,40,
94
E(Y2)=141,57,
per cui le due varianze, sulla base delle medie 5.4.2 e 5.4.3, sono pari a
V(X) = 98,409,882 0,79
V(Y) = 141,5711,8762 0,53.
- 0,49038
0,79 0,53
0,76.
Nel caso della tabella 5.2.7 i secondi momenti delle variabili X ed Y assumono i valori
E(X2)=745,84
E(Y2)=482,60
per cui, tenendo presenti le medie 5.4.5 e 5.4.6, le due varianze sono pari a
V(X)=745,8427,122 = 10,3456
V(Y)=482,6021,882 = 3,8656
4,0544
10,3456 3,8656
0,6411.
95
V S = E S - m s
2 = EX + Y - m x m y 2 EX - m x Y m y 2
s 2x 2s xy s 2y .
5.4.10
ED m x m y
5.4.11
V D s 2x 2s xy s 2y .
Come si vede, la media e la varianza della somma di due variabili sono uguali
rispettivamente alla somma delle medie ed alla somma delle varianze pi due volte la
covarianza, mentre la media e la varianza della differenza sono uguali alla differenza delle
medie ed alla somma delle varianze meno due volte la covarianza.
Nello stesso modo si ricavano le espressioni analoghe per una qualsiasi combinazione
lineare delle variabili X ed Y. In particolare, consideriamo le due variabili standardizzate U
eV
U
V
X mx
,
sx
Y my
sy
e le due variabili U+V e UV. Tenendo presenti le 5.4.8, 5.4.10 e 5.4.11, la varianza di
queste due ultime variabili, di media pari a zero, risulta
EU V s
2
u
s 2v 2suv 2(1 r) .
Dato che le due espressioni precedenti sono varianze e quindi non possono assumere
valori negativi, dalle due disuguaglianze
2(1 r) 0 ,
96
2(1 r) 0 ,
si ottiene
1 r 1
5.4.12
da cui risulta che il coefficiente di correlazione lineare un valore sempre compreso fra 1
e 1.
97
CAPITOLO 6
LA CORRELAZIONE E LA REGRESSIONE
6.1 Introduzione
Nel precedente capitolo si detto che l'osservazione contemporanea di due variabili
sugli individui di una collettivit consente di evidenziare le eventuali relazioni esistenti fra
le due variabili e di valutare il loro grado di correlazione.
Due fenomeni si dicono correlati quando fra di loro esiste una certa regolarit di
rapporti, nel senso che ad una particolare manifestazione di uno di essi si accompagna, in
genere, una determinata manifestazione dellaltro.
Fra gli innumerevoli fenomeni che risultano pi o meno correlati fra di loro possiamo
citare, solo a titolo di esempio, la posizione geografica di una zona ed il tipo di vegetazione
presente in quella zona, le condizioni igieniche e le malattie, la pressione atmosferica ed il
livello di inquinamento, oppure la quantit di fertilizzante impiegata e la resa produttiva
delle coltivazioni, l'ammontare di prestiti ed il tasso di interesse, i livelli di reddito e di
consumo delle famiglie, let dei bambini e la classe che frequentano a scuola, la
professione ed il titolo di studio e cos via.
In tutti questi casi, come si vede, la modalit o l'intensit con cui si presenta un
fenomeno su un individuo o in una data situazione in grado di fornire indicazioni pi o
meno precise sulla modalit o sull'ordine di grandezza dellaltro. Cos, per esempio, l'et di
un bambino fornisce un'indicazione sulla classe che molto probabilmente frequenta a
scuola, la professione di un individuo adulto fornisce informazioni sul suo probabile titolo di
studio, sul suo reddito e cos via.
Come si vede dagli esempi, i casi che interessano da un punto di vista statistico si
riferiscono a fenomeni che consentono di fare delle valutazioni pi o meno attendibili sulle
modalit o intensit di altri, ma che, in genere, non consentono di conoscerle esattamente.
Una situazione limite, definita di correlazione o connessione perfetta invece quella
in cui a ciascuna delle modalit con cui pu manifestarsi un fenomeno associata in ogni
caso una sola delle diverse modalit dellaltro. Con riferimento agli esempi precedenti una
situazione di connessione perfetta si avrebbe quando, in una collettivit di bambini di et
diverse ed iscritti a classi diverse, tutti quelli di una stessa et frequentassero una stessa
98
classe oppure quando tutti gli individui con una stessa professione avessero lo stesso
titolo di studio o lo stesso reddito. In questi casi, evidentemente, conoscere l'et o la
professione equivarrebbe a conoscere esattamente anche la classe o il titolo di studio o il
reddito.
Nelle situazioni concrete due fenomeni possono essere pi o meno correlati fra di loro e
la loro correlazione risulta elevata quando a ciascuna delle modalit con cui pu
manifestarsi un fenomeno associata nella maggior parte dei casi una stessa modalit
dell'altro. La correlazione fra et e classe frequentata dai bambini probabilmente molto
elevata, mentre in generale lo di meno quella fra professione e titolo di studio o reddito.
E evidente quindi che in situazioni di correlazione elevata la conoscenza della modalit
di un fenomeno consente di prevedere con una qualche precisione quale sar la
manifestazione dellaltro e di stimare la sua modalit oppure lordine di grandezza della
sua intensit. Il legame fra due fenomeni risulta tanto pi stretto e, quindi, la loro
correlazione o connessione tanto pi elevata, quanto maggiore l'attendibilit di questa
stima.
Una situazione limite opposta quella in cui i fenomeni risultano indipendenti fra di
loro, nel senso che la conoscenza della modalit o dell'intensit dell'uno non fornisce
alcuna informazione sulla probabile modalit o intensit dell'altro. Esistono anche
fenomeni che sono correlati fra di loro per un gruppo di individui, ma non per un altro,
come per esempio nel caso dellet e dellaltezza che risultano correlati per i bambini, ma
evidentemente non per gli adulti.
Nelle pagine seguenti ci occuperemo dei metodi predisposti per evidenziare, sulla base
delle informazioni su due fenomeni diversi rilevati in una stessa collettivit, l'esistenza di
un eventuale legame fra i fenomeni, per descrivere il tipo di relazione e misurarne
l'intensit.
Con riferimento ad uno degli esempi precedenti supponiamo di essere interessati a
verificare se esiste una qualche relazione fra gli ammontari del reddito e del consumo di
una collettivit di famiglie. E' ovvio che una relazione fra queste due variabili esiste se ad
un determinato ammontare di reddito corrisponde, in genere, uno stesso livello
dell'ammontare del consumo o in altri termini se, prese in considerazione tutte le famiglie
con uno stesso reddito, la maggior parte di queste presenta livelli non molto diversi di
consumo. In questo caso la conoscenza del reddito di una famiglia fornisce evidentemente
una qualche indicazione sul probabile valore del consumo corrispondente.
99
Figura 6.1.1
Diagramma di dispersione dei dati della tabella 5.2.6
26
consumo
24
22
20
18
20
25
reddito
30
35
Dal grafico si nota che al crescere del reddito il consumo, sia pur con oscillazioni pi o
meno ampie, tende complessivamente a crescere, che i punti tendono a disporsi intorno
ad una retta e che quindi ad incrementi di reddito corrispondono incrementi proporzionali
di consumo. In questo caso possiamo quindi concludere che la conoscenza del valore di
una variabile per un individuo in grado di fornire informazioni sull'ordine di grandezza
dell'altra variabile.
E' chiaro che le forme che possono assumere gli insiemi di punti dello scatter sono le
pi varie. Nella figura 6.1.2, per esempio, rappresentata una situazione in cui al crescere
100
Figura 6.1.2
Esempio di diagramma di dispersione
10
8
6
Y
4
2
0
0
Figura 6.1.3
Esempio di diagramma di dispersione
10
8
6
Y
4
2
0
0
Come vedremo nelle prossime pagine, la disposizione dei punti dello scatter pu essere
spesso descritta mediante delle curve regolari generate da semplici funzioni matematiche
le quali comportano una notevole semplificazione nellanalisi dellassociazione fra le
variabili.
101
Tabella 6.2.1
Esempio di perfetta connessione bilaterale
Y
y1
y2
y3
x1
f12
x2
f21
x3
f33
In questo caso, quindi, sapere che un individuo presenta, per esempio, la modalit y 2
della Y consente di affermare con certezza che lo stesso individuo presenta la modalit x 1
della X e cos via. In questa situazione, detta di perfetta connessione bilaterale, tutte le
distribuzioni di X condizionate ad Y (e di Y condizionate ad X) presentano un'unica
modalit con frequenza pari ad 1.
In una distribuzione bivariata l'interesse pu essere rivolto non tanto al grado di
connessione bilaterale quanto, piuttosto, a quello di connessione unilaterale, con cui si
intende valutare in che misura una variabile "dipende" dall'altra. Se, per esempio,
interessa la dipendenza della Y dalla X oppure della X dalla Y, la prima variabile viene
detta variabile dipendente, mentre la seconda detta variabile indipendente, anche se con
l'uso del termine "dipendenza" non si intende affermare, in generale, che l'intensit di un
fenomeno sia la causa o una delle cause dell'intensit dell'altro. E' chiaro, d'altra parte,
che una relazione di causa-effetto non potrebbe in ogni caso essere provata con i soli
metodi statistici.
Una misura statistica della dipendenza indica soltanto che tra due variabili esiste di fatto
una associazione pi o meno stretta, mentre la natura di questa associazione pu essere
102
messa in luce solo con gli strumenti propri della Scienza che si occupa di quei particolari
fenomeni.
Nella tabella 6.2.2, per esempio, illustrata una situazione di perfetta dipendenza
unilaterale della Y dalla X.
Tabella 6.2.2
Esempio di dipendenza perfetta unilaterale della Y dalla X
Y
y1
y2
x1
f12
x2
f21
x3
f31
In questo caso, come si vede, gli individui che presentano una determinata modalit o
intensit della variabile X presentano tutti una stessa modalit o intensit di Y, cosicch
conoscere la determinazione della X per un componente della collettivit significa
conoscere con certezza anche la corrispondente modalit della Y. E' evidente che in
questo caso tutte le distribuzioni delle variabili Y|x presentano un'unica modalit con
frequenza pari ad 1. Non esiste invece una perfetta dipendenza della X dalla Y dato che,
mentre alla modalit y2 corrisponde l'unica modalit x1, ad y1 corrispondono le due
modalit x2 e x3 .
Nella tabella 6.2.3 illustrata invece una situazione di perfetta dipendenza della X dalla
Y.
Tabella 6.2.3
Esempio di perfetta dipendenza unilaterale della X dalla Y
Y
Y1
y2
y3
x1
f12
x2
f21
f23
103
Si osservi che quando le due variabili assumono un uguale numero di modalit diverse
fra di loro, la situazione di dipendenza perfetta, se esiste, necessariamente bilaterale,
mentre quando questo numero differente la dipendenza perfetta pu essere solo
unilaterale.
Nei casi concreti, la relazione fra le variabili pi o meno lontana da queste situazioni
limite, cosicch le frequenze delle diverse distribuzioni condizionate sono pi o meno
concentrate in corrispondenza di alcune modalit della distribuzione, mentre alle altre
sono associate quote di frequenza minori, come risulta per esempio dalla tabella 5.3.3.
L'altra situazione limite, opposta alla connessione perfetta, quella che viene detta di
indipendenza assoluta. Due variabili sono indipendenti in senso assoluto quando ad ogni
modalit delluna sono associate le diverse modalit dellaltra sempre nelle stesse
proporzioni o, in altri termini, quando le distribuzioni condizionate sono tutte uguali fra di
loro ed uguali quindi alla distribuzione marginale. Se facciamo riferimento alle distribuzioni
condizionate della Y, la situazione di indipendenza si pu esprimere nel modo seguente
fij
fi.
f.j
i 1,2,...,k, j 1,2,...,q ,
6.2.1
da cui si vede che a qualsiasi modalit x della X associata una distribuzione di Y che
identica a quella di qualsiasi altra. Questo, per esempio, significa che l'eventuale modalit
prevalente della Y sempre la stessa per ognuno dei gruppi omogenei in X, cosicch, in
questo caso, sapere che un individuo ha una modalit x1 oppure x2 della variabile X
irrilevante per avere indicazioni sulla determinazione modale di Y, dato che questa
informazione si pu ricavare direttamente dalla sua distribuzione marginale.
Supponiamo, per esempio, di avere rilevato i dati per due variabili X ed Y ottenendo la
distribuzione riportata nella tabella successiva.
Tabella 6.2.4
Esempio di distribuzione bivariata
Y
y1
y2
y3
0,30
0,20
0,50
0,18
0,12
0,30
0,12
0,08
0,20
totale
X
x1
x2
totale
104
0,60
0,40
1,00
Tabella 6.2.5
Distribuzioni della variabile Y|x ottenute dalla tabella 6.2.4
Y
y1
y2
y3
0,50
0,50
0,30
0,30
0,20
0,20
totale
X
x1
x2
1,00
1,00
fij
f.j
fi. ,
6.2.2
i 1,2,...,k , j 1,2,...,q
6.2.3
105
q k
i 1 j 1
fi. f.j
n
2
6.2.4
e che si basa, come si vede, sulle differenze fra le frequenze osservate e quelle calcolate
sotto ipotesi di indipendenza.
Il 2, quindi, una funzione delle differenze (dette anche contingenze) fra le frequenze
osservate fij ed i prodotti fi.f.j delle corrispondenti frequenze marginali.
E' evidente che lindice 2 pu assumere solo valori positivi ed uguale a zero se e solo
se tutte le contingenze sono uguali a zero e quindi in caso di indipendenza, mentre cresce
al crescere del grado di dipendenza.
In molte situazioni si usa anche lindice 2/n, ossia lindice 6.2.4 diviso per la numerosit
totale, che pu essere anche scritto nella forma
q k (f 2 2f f f f 2 f 2 )
fij2
2
ij
i. .j ij
i. .j
e quindi
fij2
2
1.
n
i j fi. f.j
6.2.5
i = 1,2,,k, j = 1,2,,q
e che il segno di uguaglianza vale solo nel caso in cui ad ogni modalit di Y corrisponde
una sola modalit di X, ossia quando c' una perfetta dipendenza della X dalla Y. Se si
moltiplicano entrambi i termini della disuguaglianza per f ij, si ottiene
106
fij2 f y .jfij
n i 1 j 1 fi. f.j
i 1 j 1 fi.
i 1
6.2.6
da cui risulta che in caso di perfetta dipendenza della X dalla Y il valore dell'indice
uguale al numero di modalit della X meno 1.
In maniera analoga, a partire dalla disuguaglianza
fij fi.
2
q 1,
n
6.2.7
2x
2y
2
nk 1
nq 1
107
Tabella 6.2.6
Distribuzione degli occupati dipendenti per rapporto di lavoro e sesso
(Anno 2001) - Fonte ISTAT
Sesso
Rapporto di lavoro
A tempo determinato
A tempo indeterminato
Totale
Maschi
Femmine
Totale
0,0790
0,4992
0,5782
0,0815
0,3403
0,4218
0,1605
0,8395
1,0000
Maschi
Femmine
Totale
0,0928
0,4854
0,5782
0,0677
0,3541
0,4218
0,1605
0,8395
1,0000
Gli indici di dipendenza assoluta unilaterale in questo caso coincidono con lindice di
dipendenza bilaterale ed assumono i valori
Y= X=
fra il consumo ed il reddito calcolati sulla tabella 5.2.7 risultano invece pari a 2/n = 0,6067
e
= 0,2022.
108
6.2.8
cosicch in questo caso la media del prodotto di due variabili uguale al prodotto delle
loro medie.
Dalla 5.4.1 si vede quindi che se due variabili sono indipendenti la loro covarianza
uguale a zero. Inoltre, dalle 5.4.10 e 5.4.11, risulta anche che la varianza della loro somma
o della loro differenza uguale semplicemente alla somma delle loro varianze.
Figura 6.3.1
Retta di regressione calcolata sulla distribuzione 5.2.6
consumo
25
20
15
20
25
30
reddito
109
35
L'utilizzazione di modelli teorici, come nel caso dei modelli distributivi, non ha tanto lo
scopo di approssimare nel modo pi accurato possibile i dati rilevati, quanto quello di
rappresentare il tipo di dipendenza fra le due variabili in un modo semplice e regolare.
Vengono quindi utilizzati modelli semplici che hanno lo scopo di rendere evidenti gli aspetti
pi rilevanti dell'associazione fra le due variabili, che nei dati originari si presentano in
genere in modo confuso.
Nella figura 6.3.1, come si vede, i punti sono distribuiti in modo irregolare intorno ad una
retta, cosicch in questo caso ad incrementi di una variabile corrispondono, in media,
incrementi proporzionali dell'altra. L'utilizzazione di un modello lineare consente anche di
quantificare questo tipo di relazione facendo corrispondere ad un dato incremento x di X
un incremento y di Y. Un modello di questo tipo, se adeguato, rende estremamente
agevole il confronto dell'associazione fra due fenomeni rilevati in tempi o luoghi diversi,
dato che in questo caso sufficiente fare riferimento ai valori dellintercetta e del
coefficiente angolare delle diverse funzioni lineari.
La scelta del tipo di modello pu essere effettuata con criteri empirici che si basano
sulla disposizione dei dati evidenziati dal grafico della funzione di regressione o dallo
scatter, ma in genere questa scelta non univoca dato che esistono pi funzioni
matematiche in grado di descrivere uno stesso insieme di dati. Come nel caso dei modelli
distributivi, i modelli teorici di associazione fra le variabili possono anche derivare da
conoscenze ed ipotesi sulla natura dei fenomeni che anche in questo caso, esplicitate in
modo formale, conducono alla individuazione del modello di regressione.
In generale, considerato un modello teorico di regressione a p parametri, si avr
Y* x; 1,2 ,..., p
6.3.1
dove Y* il valore teorico della variabile Y che si ottiene calcolando il valore della funzione
x; 1, 2 ,..., p
quindi, compaiono alcuni parametri 1, 2 ,..., p i cui valori devono essere determinati di
volta in volta sulla base dei dati rilevati per adattare il modello alla situazione osservata.
Il metodo normalmente utilizzato per il calcolo dei valori di questi parametri il
cosiddetto metodo dei minimi quadrati, che consiste nel determinare quei particolari
valori di 1, 2 ,..., p per i quali risulta minima la quantit
110
1
(y i y i *)2
n i 1
6.3.2
che corrisponde alla media delle differenze al quadrato fra i valori osservati della variabile
dipendente ed i valori teorici corrispondenti.
6.4.1
dove i valori dei parametri e si determinano facilmente utilizzando il metodo dei minimi
quadrati. In questo caso lapplicazione della 6.3.2 porta a scegliere, come valori dei due
parametri incogniti, quei valori a e b per i quali risulta minima la funzione
(,)
1
y i x i 2 .
n i
6.4.2
La 6.4.2 una funzione delle due variabili e , dove i valori yi e xi, data una certa
ennupla di coppie di osservazioni, sono quantit fisse. Si tratta perci di trovare quei valori
delle due variabili per i quali la funzione assume il suo valore minimo.
Come sappiamo, una funzione in pi variabili ha un massimo o un minimo nei punti in
cui si annullano le derivate parziali rispetto alle variabili stesse. Le derivate della 6.4.2
rispetto ad e , tenendo conto che la derivata di una somma uguale alla somma delle
derivate, sono rispettivamente
(, )
2
i y i x i
n
(, )
2
i y i x i x i
n
111
ed i valori a e b delle variabili e per i quali le due derivate sono uguali a zero si
ottengono dal sistema
2
n i y i a bx i 0
2 y a bx x 0
i i
n i i
6.4.3
2
y i m y bx i m x x i 0
n i
1
1
y m y x i b ix i m x x i 0
i i
n
n
1
1
x y m x m y b ix i2 m 2x 0
i i i
n
n
da cui si ottiene
s xy bs2x 0
e quindi
s xy
s 2x
6.4.4
112
a my
s xy
s 2x
mx .
6.4.5
Y* m y m x
s xy
s 2x
s xy
s 2x
x my
s xy
s 2x
x m x
6.4.6
Y* m y r
sy
sx
x m x .
6.4.7
La funzione 6.4.6 o 6.4.7, determinata con il metodo dei minimi quadrati, fornisce quindi
per ogni valore della variabile X il valore "teorico" della variabile Y.
Per quanto riguarda, per esempio, i dati contenuti nella tabella 5.2.6, la retta di
regressione del consumo Y sul reddito X la seguente
Y* 7,0317 0,5544x
e la sua rappresentazione grafica riportata nella figura 6.4.1 insieme con lo scatter dei
dati originari.
Sulla base della retta cos determinata risulta, per esempio, che il consumo medio
teorico in corrispondenza di un reddito di 24 mila euro annui pari a 20,3373 mila euro.
Dalla retta risulta anche che ad un incremento del reddito pari a x corrisponde un
incremento del consumo y = 0,5544x, cosicch, per esempio, ad un incremento di mille
euro del reddito corrisponde un incremento di 554 euro circa del consumo.
113
Figura 6.4.1
Retta di regressione calcolata sulla distribuzione 5.2.6
consumo
25
20
15
20
25
30
35
reddito
In questo caso il coefficiente angolare della retta positivo per cui si parla di
correlazione lineare positiva fra le variabili, mentre si ha una correlazione lineare
negativa quando il coefficiente angolare risulta minore di zero.
Si osservi che il segno del coefficiente angolare dipende dal segno della covarianza e
quindi dal segno di r, come si vede dalla 6.4.7, e che il coefficiente angolare zero se e
solo se r uguale a zero. In questo caso la funzione stimata risulta uguale a
Y* m y
e i valori stimati risultano quindi tutti uguali fra di loro ed uguali alla media della Y.
Se i dati sono organizzati in una tabella con classi di valori, gli scarti da prendere in
considerazione nella 6.4.2 sono ovviamente quelli fra i valori centrali delle singole classi e
la retta. E chiaro che in questo caso i risultati ottenuti sono approssimati perch
dipendono dalla suddivisione in classi, per cui preferibile utilizzare le coppie di valori
originari, quando sono disponibili.
114
y i m y r
sy
sx
x i - m x
6.5.1
X m x m y r y EX m x m y ,
E(Y*) Em y r
sx
sx
2
sy
2 sy
X m x r 2 EX m x 2 r 2 s 2y
V(Y*) E(Y * m y ) Er
sx
sx
6.5.2
e corrisponde quindi al prodotto della varianza della Y per il quadrato del coefficiente di
correlazione lineare. Questa varianza detta varianza spiegata sotto ipotesi di
linearit.
Consideriamo ora la variabile differenza fra i valori originari e stimati, ossia la variabile
W = Y Y*
i cui valori wi vengono detti anche residui. La media e la varianza di questa variabile
risultano rispettivamente pari a
115
sy
sy
s xy r 2 s 2y .
Cov(Y, Y ) E (Y m y )(Y m y ) E(Y m y )r
(X m x ) r
s
s
x
x
6.5.3
s 2y r 2 s 2y (1 r 2 )s 2y .
6.5.4
Si osservi che il valore della varianza residua, come si vede dalla figura 6.5.1,
corrisponde alla media dei quadrati degli scarti di tipo AB, mentre la varianza della Y la
media dei quadrati degli scarti di tipo AC, cosicch il criterio dei minimi quadrati equivale
ad individuare quei parametri della retta di regressione per i quali risulta minimo il valore
della varianza residua.
Figura 6.5.1
Esempio di retta di regressione
Y
A
B
my
C
1
0
0
mx
116
E evidente che la varianza residua risulta uguale a zero se e solo se tutti i punti sono
esattamente allineati, cio quando la Y una funzione lineare di X e quindi se fra le due
variabili esiste una perfetta correlazione lineare. Il suo valore massimo invece si ha
quando il coefficiente della retta di regressione uguale a zero e cio quando i valori della
Y stimati sono tutti uguali a my. In questo caso si ha assenza di correlazione lineare, dato
che la conoscenza del valore di X non fornisce alcuna informazione sul corrispondente
valore di Y stimato sotto ipotesi di linearit.
Dalla 6.5.3 risulta che fra le variabili c correlazione lineare perfetta se e solo se r2
uguale ad 1, mentre c assenza di correlazione lineare se e solo se r2 uguale a zero. In
questo caso, infatti, la varianza residua uguale alla varianza totale e la varianza spiegata
uguale a zero.
Lintensit del legame lineare fra le variabili pu essere quindi valutata mediante lindice
r2 che detto coefficiente di determinazione lineare e che assume la forma
r 2 1
V(W) V(Y )
.
V(Y)
V(Y)
6.5.5
Questo coefficiente pu essere interpretato come la quota della varianza totale s 2y che
viene "spiegata" dalla relazione lineare fra le variabili. E chiaro che lintensit del legame
lineare pu essere valutata anche mediante il valore del coefficiente di correlazione lineare
che, come abbiamo gi visto, indica anche se la correlazione positiva o negativa.
I valori di r e di r2 calcolati sui dati della tabella 5.2.6 sono
5,2848
0,92 ,
3,0875 1,8590
r 2 0,85 ,
da cui risulta che per la collettivit esaminata l'85% della variabilit totale della Y dipende o
viene spiegata dalla relazione lineare che lega il reddito ed il consumo.
Considerazioni analoghe alle precedenti valgono per la retta di regressione della X sulla
Y che, come si potrebbe controllare facilmente, assume la forma
117
X* m x r
sx
(y m y )
sy
6.5.6
e non coincide con la 6.4.7 se non in caso di perfetta correlazione lineare. E' unica, invece,
la misura della correlazione lineare della Y sulla X e della X sulla Y che misurata sempre
da r o da r2.
Si pu controllare facilmente inoltre che il valore del coefficiente di determinazione
lineare invariante rispetto a trasformazioni lineari delle variabili. In altri termini, se due
variabili X ed Y hanno un dato valore di r2, le variabili
T = a0+b0X
e
Z = a1+b1Y,
trasformate lineari delle prime due, hanno lo stesso valore di r2.
Si osservi che se due variabili X ed Y sono indipendenti in senso assoluto il loro
coefficiente di correlazione lineare risulta uguale a zero, dato che uguale a zero la loro
covarianza, mentre un valore del coefficiente uguale a zero non implica necessariamente
che le variabili siano indipendenti in senso assoluto. Il valore di questo coefficiente pu
infatti risultare molto basso o addirittura uguale a zero anche in presenza di una elevata
correlazione di tipo non lineare, cosicch se r = 0 questo significa solo che vi assenza di
correlazione lineare.
Nelle situazioni reali non sempre una funzione lineare risulta adeguata a descrivere
l'associazione fra le variabili. In questi casi vengono utilizzate funzioni di forma diversa
come, per esempio, un polinomio di grado non troppo elevato, i cui parametri
corrispondono sempre a quei valori che rendono minima la media delle differenze al
quadrato fra i valori yi osservati ed i corrispondenti valori teorici.
118
CAPITOLO 7
CENNI SUL CALCOLO DELLE PROBABILITA'
7.1 Introduzione
Abbiamo visto nel primo capitolo come, nella generalit dei casi, per ottenere
informazioni su una collettivit di N individui si debba necessariamente ricorrere ad una
indagine campionaria nel corso della quale le variabili oggetto di studio vengono rilevate
solo su una parte dei componenti la collettivit. Una rilevazione parziale consiste quindi
nell'esaminare solo un certo numero n (nN) di individui scelti fra tutti quelli che
compongono la popolazione con lo scopo di farsi un'idea della distribuzione del fenomeno,
utilizzando i dati rilevati su ciascuno degli n individui esaminati. Questi n individui
costituiscono quello che noto come "campione" della popolazione oggetto di studio.
E' ovvio che le informazioni fornite da un campione non consentono di conoscere
esattamente la struttura distributiva delle variabili considerate, ma permettono solo di
delinearla in modo pi o meno approssimato. La struttura descritta dal campione, come
facile immaginare e come sar dimostrato in seguito, tende per a somigliare sempre di
pi a quella della popolazione se il campione sufficientemente numeroso.
In unindagine campionaria il primo problema da risolvere si riferisce al criterio con cui
devono essere scelte, fra le unit statistiche della popolazione, quelle su cui effettuare le
rilevazioni che interessano. Ovviamente questa scelta pu essere effettuata con criteri
diversi, ma in seguito verr esaminato solo il metodo di campionamento basato sul criterio
di scelta casuale che quello pi adatto a fornire risultati soddisfacenti, dato che consente
di definire dei metodi adeguati non solo per stimare, sulla base dei dati campionari, le
caratteristiche ignote della popolazione, ma anche per ottenere, come vedremo, una
valutazione della precisione delle stime.
In questo caso si parla di campione casuale, ma la scelta delle unit statistiche pu
essere fatta anche con altri criteri. In alcune situazioni la rilevazione viene effettuata su un
certo numero di unit statistiche che il ricercatore, in base alle sue conoscenze, considera
come tipiche e, quindi, rappresentative dell'intera collettivit. Cos, per esempio, per avere
informazioni sulla situazione economica in una certa regione si potrebbero intervistare
delle aziende-tipo per i diversi settori economici, per ottenere indicazioni su consumi,
119
redditi o risparmio si potrebbero utilizzare famiglie-tipo dei diversi ceti sociali e cos via. In
altri casi la scelta delle unit campionarie in qualche modo obbligata, come per esempio
nella sperimentazione di nuovi farmaci sull'uomo, che pu basarsi solo su volontari,
oppure nei controlli di qualit di prodotti immagazzinati, che vengono effettuati di solito su
quelle unit che sono pi facilmente accessibili e cos via. I dati cos ottenuti presentano in
ogni caso una loro utilit, dal momento che forniscono informazioni sulle variabili che
interessano, ma in tutti questi casi risulta problematica l'estensione dei risultati alla
popolazione nel suo complesso.
Il metodo di campionamento di cui ci occuperemo nelle prossime pagine pu essere
assimilato all'estrazione casuale di palline da un'urna. Se per esempio la collettivit
oggetto di studio costituita da due sottogruppi di individui distinti tra di loro per la
presenza o l'assenza di una qualche caratteristica (uomini-donne, occupati-disoccupati,
cattolici-non cattolici, favorevoli o contrari ad un qualche provvedimento legislativo e cos
via), la situazione pu essere schematizzata assimilando la popolazione ad un'urna
contenente palline bianche e nere e l'indagine campionaria consiste semplicemente
nell'estrarre in modo casuale un certo numero di palline per avere una valutazione del
numero (o della quota) di palline bianche e nere contenute nell'urna. In generale, per
schematizzare situazioni pi complesse, si possono immaginare urne contenenti palline di
diversi colori oppure palline numerate e cos via.
Indagini di questo tipo, come si detto, sono di uso comune in tutti i campi di ricerca ed
in particolare vengono effettuate per conoscere le opinioni, gli orientamenti politici, i gusti
delle persone. In questi casi, anche se l'indagine estesa solo ad alcune centinaia di
individui, i risultati ottenuti vengono presentati, in genere, come se si riferissero all'intera
collettivit.
Questa estensione di informazioni parziali viene accettata senza particolari difficolt,
perch intuitivamente sembra ragionevole che un campione casuale, specie se
moderatamente numeroso, sia in qualche modo una miniatura abbastanza precisa della
popolazione da cui il campione stesso stato estratto, mentre sembra poco probabile che
il campione abbia una struttura molto diversa da quella della collettivit. Si osservi che
queste considerazioni sembrano ragionevoli anche quando il numero n di unit
effettivamente esaminate molto pi piccolo del numero totale N e quindi anche se la
cosiddetta frazione di campionamento n/N molto bassa.
Si intuisce anche che un secondo o un terzo campione provenienti dalla medesima
popolazione ed estratti ognuno in modo indipendente dall'altro darebbero, con ogni
120
probabilit, risultati diversi tra di loro, ma con differenze scarsamente rilevanti e che,
quindi, un aumento delle informazioni oltre un certo limite comporterebbe in generale un
aumento scarsamente significativo della precisione delle stime.
Tutte queste considerazioni intuitive e piuttosto generiche, che saranno confermate e
precisate da una analisi pi rigorosa delle questioni connesse con le indagini campionarie,
sembrano meno scontate se si fa riferimento a piccoli campioni. In questo caso, infatti,
sembra ovvio che le informazione fornite da campioni diversi presentino una maggiore
variabilit e che quindi un singolo campione possa fornire informazioni meno precise sulla
collettivit. D'altra parte un aumento della numerosit del campione, anche quando
possibile, comporta almeno un aumento di costi, cosicch in generale necessario trovare
un compromesso fra costi e precisione delle informazioni.
In ogni caso, per utilizzare in modo corretto le informazioni fornite dal campione
effettivamente osservato, di fondamentale importanza tenere presente che questo solo
uno dei campioni che possibile ottenere, dato che osservare un certo campione o un
altro qualsiasi dipende unicamente dal caso e che, quindi, il campione osservato
costituisce un evento che dipende da un esperimento casuale. Un evento casuale anche
l'insieme delle informazioni fornite dal campione, la cui valutazione, quindi, non pu
prescindere da considerazioni di carattere probabilistico.
Facciamo riferimento, per semplicit, ad un'urna contenente solo palline bianche e nere
e pensiamo di estrarre un campione di n palline, una alla volta, di esaminarne il colore e di
reinserire la pallina nell'urna prima di procedere ad una nuova estrazione. Prima di
effettuare materialmente la prova, sappiamo che il campione potr essere formato da tutte
palline nere, da 1 pallina bianca e n1 palline nere, ..., da tutte palline bianche. Questi
appena elencati, quale che sia la composizione dell'urna, sono tutti risultati campionari
possibili e, come si vede, tra i risultati possibili vi sono campioni con una composizione
anche molto diversa da quella dell'urna. E' evidente, per, che i singoli risultati hanno
probabilit diverse di verificarsi e che queste probabilit dipendono dalla composizione
dell'urna.
Il calcolo delle probabilit, data una popolazione di composizione nota, consente di
determinare la probabilit di ognuno dei possibili campioni di n elementi e di individuare i
risultati pi probabili, quelli meno probabili, quelli estremamente improbabili e cos via. Una
volta effettuata l'estrazione, per, noi avremo a disposizione solo uno dei campioni
possibili ma, basandoci sulle informazioni fornite da quest'unico campione e su
considerazioni di carattere probabilistico, saremo in grado di fare delle congetture sulla
121
7.2 Eventi
Come si detto, il campione effettivamente osservato costituisce un evento generato
da un esperimento casuale. Pi in generale con il termine evento viene indicato il risultato
di una qualche prova che pu consistere, per esempio, in un esperimento scientifico,
nell'osservazione di un fenomeno, nell'estrazione di un individuo da una popolazione o,
con riferimento ai problemi da cui ha avuto origine il calcolo delle probabilit,
nell'estrazione di una pallina da un'urna o di una carta da un mazzo, nel lancio di un dado
o di una moneta e cos via. Le prove che qui ci interessano sono quelle in cui il risultato
non pu essere previsto con certezza prima che la prova stessa sia stata effettuata e che
quindi possono produrre, con maggiore o minore probabilit, eventi diversi.
Data una popolazione di N individui, ognuno identificato con un numero da 1 a N,
supponiamo che la prova consista nell'estrarre un individuo in modo casuale. In occasione
di questa prova supponiamo che ci interessi prendere in considerazione gli N eventi Ei
(i=1,2,N) dove Ei l'evento "estrazione dell'individuo i-esimo". Questa situazione pu
essere schematizzata assimilando la popolazione ad un'urna contenente delle palline
numerate. Se, per esempio, l'urna contiene 5 palline numerate da 1 a 5, gli eventi
considerati in una estrazione casuale possono essere E 1 "uscita della pallina numero 1",
E2 "uscita della pallina numero 2", ..., E5 "uscita della pallina numero 5".
Gli eventi di questo esempio sono detti eventi necessari e incompatibili, nel senso
che in una prova uno di questi certamente si verifica e che il verificarsi dell'uno esclude il
verificarsi di un qualsiasi altro. Effettuata la prova, quindi, uno degli N eventi risulter vero
e tutti gli altri falsi.
Gli eventi con queste caratteristiche sono detti anche eventi elementari o punti
campionari, mentre l'insieme di tutti i punti campionari detto spazio campionario (o
spazio fondamentale) e verr indicato con (omega).
Se consideriamo per esempio un esperimento che consiste nel lancio di una moneta, lo
spazio campionario risulta quindi costituito dai due eventi elementari: T uscita della faccia
testa e C uscita della faccia croce
122
T, C .
Supponiamo, per esempio, che un'urna contenga 5 palline bianche, 3 palline nere e 2
gialle e che in occasione dellesperimento a noi interessi solo il colore della pallina
estratta. Gli eventi elementarim considerati in questo caso sono quindi solo tre: E1
"estrazione di una pallina bianca", E2 "estrazione di una pallina nera" ed E3 "estrazione di
una pallina gialla", per cui lo spazio campionario dato da
E1,E 2 ,E3 .
In occasione di un esperimento linteresse pu essere rivolto, oltre che agli eventi
elementari, anche ad altri eventi, che dipendono logicamente dagli Ei.
Con riferimento all'estrazione dallurna contenente palline numerate potremmo essere
interessati, per esempio, all'evento A "uscita di una pallina con un numero superiore a 2",
oppure all'evento B "uscita di una pallina con un numero dispari". Questi eventi dipendono
logicamente dagli eventi elementari, nel senso che possibile stabilire se sono veri
oppure falsi quando noto l'evento elementare che si verificato. L'evento A vero
quando la pallina estratta presenta il numero 3 o 4 o 5, mentre l'evento B vero quando la
pallina ha il numero 1 o 3 o 5.
Gli eventi A e B considerati in questo caso costituiscono due esempi di eventi
composti, che corrispondono a sottoinsiemi dellinsieme degli eventi elementari e che
si definiscono a partire da quelli elementari mediante una operazione che detta unione o
somma.
Dati i due eventi Ei ed Ej la loro somma quell'evento, indicato con il simbolo EiEj (che
si legge Ei o Ej), che si verifica quando si verifica Ei oppure Ej.
Cos, per esempio, con riferimento all'urna con le palline numerate, l'evento "pallina con
un numero pari" corrisponde all'evento somma E 2E4 "pallina con il numero 2 o pallina
con il numero 4". La somma pu estendersi evidentemente a pi di due eventi come,
sempre nello stesso esempio, nel caso dell'evento "pallina con un numero superiore a 2",
che corrisponde alla somma E3E4E5.
mSi osservi che un evento pu essere considerato come elementare anche se potrebbe essere scomposto in pi eventi diversi. La definizione di evento
elementare dipende quindi dal grado di dettaglio che interessa in una particolare occasione. Cos, per esempio, in una collettivit di persone pu
interessarci rilevare qual lattivit svolta da un individuo oppure semplicemente se l'individuo disoccupato o occupato senza tener conto del tipo di
attivit.
123
7.3 Probabilit
A ciascuno degli N eventi elementari Ei dello spazio campionario pu essere
associata una probabilit il cui valore numerico, indicato con P(Ei), misura in generale il
grado di fiducia che l'evento Ei si verifichi in quella prova. In analogia con i valori delle
frequenze relative delle distribuzioni statistiche, si pone
0 P(Ei) 1
i=1,2,,N
7.3.1
e
N
PEi = 1,
7.3.2
i 1
n Per specificare un insieme Z si possono elencare i suoi elementi tra parentesi graffe in questo modo z , z , ... oppure indicare le caratteristiche che un
1 2
elemento deve avere per fare parte dell'insieme: Z = z | z ha la caratteristica.... . Per indicare che un elemento zi appartiene ad un insieme Z si utilizza la
notazione zi Z.
124
125
Per superare questi inconvenienti Richard von Mises propose una definizione diversa di
probabilit di un evento, detta definizione frequentista, che pu essere utilizzata per
eventi ripetibili, ossia nelle situazioni in cui un determinato esperimento pu essere
ripetuto un numero qualsiasi di volte.
Prendiamo in considerazione, per esempio, lesperimento che consiste nel lancio di una
moneta. I due risultati connessi con questa prova vengono considerati equiprobabili
quando si fa riferimento ad una moneta ideale perfettamente bilanciata. In realt, con
riferimento ad una specifica moneta, le probabilit degli eventi testa e croce non sono
note ed in questo caso si pensa intuitivamente di poter effettuare una valutazione di
queste probabilit utilizzando i risultati ottenuti in un numero elevato di lanci. Si pu
constatare infatti che la frequenza relativa con cui si presenta un evento, al crescere del
numero delle prove, si stabilizza in prossimit di un dato valore che viene considerato
come unapprossimazione della probabilit di quellevento.
Su queste considerazioni si basa la definizione frequentista in base alla quale la
probabilit di un evento il limite a cui tende la frequenza relativa di quellevento
allaumentare del numero delle prove.
Si osservi che in questa definizione lesistenza del limite non pu essere dimostrata e
quindi viene semplicemente postulata.
Si osservi inoltre che secondo alcuni studiosi, come per esempio de Finetti e Savage,
nessun fenomeno o esperimento pu essere considerato ripetibile e che valutazioni di
probabilit vengono comunque abitualmente effettuate anche per eventi connessi con
prove che non possono essere ripetute, come per esempio nel caso dei risultati di una
partita di calcio o di una corsa di cavalli.
Le prove di questo tipo possono effettuarsi una sola volta, ma ci nonostante in
occasione di ciascuna prova vengono effettuate delle valutazioni quantitative delle
probabilit associate ai diversi risultati in base alle quali uno scommettitore decide se
partecipare o meno al gioco.
Altre valutazioni numeriche di probabilit associate ad eventi non ripetibili vengono
effettuate sul possibile futuro rialzo o ribasso del prezzo di un bene, di un titolo o di una
valuta e da queste valutazioni dipende la decisione di vendere o di acquistare.
Le probabilit associate ad eventi di questo tipo vengono ovviamente assegnate
tenendo presenti tutte le informazioni che si hanno su quel fenomeno, sulle frequenze con
cui le modalit di quel fenomeno o di fenomeni analoghi si sono manifestate in passato e
cos via.
126
E evidente che in questi casi individui diversi danno ad uno stesso evento valutazioni di
probabilit che possono risultare diverse fra di loro.
Lestensione della nozione di probabilit anche ad eventi di questo tipo avviene
attraverso la definizione soggettivista, secondo la quale la probabilit di un evento E la
misura del grado di fiducia che un individuo coerenteo attribuisce, secondo le sue
informazioni e opinioni, allavverarsi di E.
Per sottolineare il fatto che una valutazione soggettiva della probabilit non significa che
si tratti di una valutazione arbitraria, la probabilit viene anche definita come il prezzo p
che un individuo ritiene equo pagare per ricevere un importo unitario al verificarsi di E. Lo
stesso individuo deve essere disposto a pagare un importo unitario al verificarsi di E
contro il pagamento dello stesso prezzo p.
Una definizione pi generale di probabilit, detta definizione assiomatica, infine
dovuta a Kolmogorov. Con questa definizione vengono stabilite le regole generali, dette
appunto assiomi, che devono essere rispettate da una qualsiasi probabilit, a prescindere
dalla definizione adottata. La definizione assiomatica non una definizione operativa e
non fornisce indicazioni su come calcolare la probabilit e, proprio per questo motivo,
risulta utilizzabile sia nell'ambito di un approccio oggettivista sia in un approccio
soggettivista.
In base a tale impostazione, si definisce probabilit ogni funzione P che rispetta le tre
propriet seguenti:
a) PEi 0 per qualsiasievento Ei
b) P 1
c) P Ei E j PEi P E j
La propriet c) in base alla quale, dati due qualsiasi eventi incompatibili Ei ed Ej, la
probabilit della loro somma uguale alla somma delle loro probabilit
P(EiEj) = P(Ei) + P(Ej)
o Il concetto di coerenza riveste unimportanza fondamentale nella definizione soggettivista della probabilit. Si veda, per esempio, de Finetti B. (1970),
Teoria delle probabilit, Einaudi, Torino.
127
Questa regola di calcolo si giustifica immediatamente nel caso della definizione classica
e di quella frequentista, mentre nella definizione soggettivista viene imposta dalla
coerenza, cos com definita da de Finettip.
Nel caso dell'urna con 5 palline bianche, 3 palline nere e 2 gialle, la probabilit di
estrarre una pallina bianca o gialla , per esempio,
E1 E2 E3 E1 E2 E3 E1 E2 E3 .
In questo modo, a partire dalla probabilit degli eventi elementari, risulta definita anche
la probabilit di tutti gli eventi corrispondenti ad un qualsiasi sottoinsieme di . Si osservi
che la probabilit dellevento impossibile ovviamente sempre pari a zero.
128
Figura 7.4.1
Rappresentazione di un evento mediante diagramma di Venn
Una prima operazione, quella di unione o somma di eventi, stata gi considerata nel
paragrafo precedente con riferimento ad eventi elementari. In generale, dati due qualsiasi
eventi A e B, la loro somma quell'evento che vero quando vero l'evento A oppure
l'evento B. Il sottoinsieme corrispondente all'evento somma di due eventi A e B contiene,
quindi, tutti i punti campionari del sottoinsieme A e del sottoinsieme B, come risulta dalla
figura 7.4.2 in cui l'evento AB rappresentato, come al solito, dall'area tratteggiata.
Figura 7.4.2
Rappresentazione della somma di due eventi incompatibili
Si osservi che in questa figura i due sottoinsiemi corrispondenti agli eventi A e B non
hanno alcun elemento in comune e sono quindi disgiunti, cosicch i due eventi risultano
incompatibili, come accade per tutti gli eventi elementari.
Nel caso delle 5 palline numerate, due eventi composti incompatibili sono per esempio
gli eventi "pallina con un numero inferiore a 3" e "pallina con un numero superiore a 3", la
cui somma equivale ovviamente all'evento E1E2E4E5 .
Nella figura 7.4.3 rappresentata, invece, la somma di due eventi compatibili.
129
Figura 7.4.3
Rappresentazione della somma di due eventi compatibili
Con riferimento alla stessa urna, gli eventi "pallina con un numero pari" e "pallina con
un numero superiore a 2" sono un esempio di eventi compatibili, dato che entrambi
possono verificarsi in una stessa estrazione e che questo accade quando si verifica
l'evento elementare E4. La somma di questi due eventi corrisponde, evidentemente,
all'evento E2E3E4E5.
Si osservi che se due eventi sono compatibili la loro somma pu essere anche definita
come quell'evento che si verifica quando vero almeno uno dei due eventi considerati.
Una seconda operazione la cosiddetta negazione. Dato un evento A, si indica con A
(che si legge non A) l'evento negazione di A, che quell'evento che si verifica quando
non si verifica A. Il sottoinsieme corrispondente a A comprende, quindi, tutti gli elementi di
che non appartengono ad A e corrisponde all'area tratteggiata della figura 7.4.4.
Con riferimento all'esempio precedente, se A l'evento "pallina con un numero pari"
l'evento A l'evento "pallina con un numero dispari", mentre se A l'evento "pallina con
un numero superiore a 3", A l'evento "pallina con un numero inferiore o uguale a 3" e
cos via. Gli eventi A e A sono ovviamente sempre incompatibili fra di loro e la loro unione
corrisponde allevento certo.
Figura 7.4.4
Rappresentazione della negazione di un evento
130
Figura 7.4.5
Rappresentazione del prodotto di due eventi
Per esempio, dati gli eventi A "pallina con un numero superiore a 2" e B "pallina con un
numero dispari", l'evento prodotto AB corrisponde all'evento E3E5. Anche il prodotto
pu estendersi a pi di due eventi, cosicch se oltre ai due precedenti consideriamo anche
l'evento C "pallina con un numero inferiore a 5" si ha ABC = E3.
Lultima operazione la cosiddetta differenza. Dati i due eventi A e B, la loro differenza
quell'evento, indicato con il simbolo AB, che si verifica quando vero l'evento A senza
che sia vero contemporaneamente B. Il sottoinsieme corrispondente all'evento differenza
comprende, quindi, tutti gli eventi elementari di A che non appartengono anche a B e
corrisponde all'area tratteggiata della figura 7.4.6.
Se, per esempio, A e B sono gli eventi considerati nell'esempio precedente levento
AB = E4.
131
Figura 7.4.6
Rappresentazione della differenza fra due eventi
Figura 7.4.7
Rappresentazione di un evento B che implica un evento A
B
A
132
AA
A B A B
A B A B .
determinare
la
loro
probabilit
in
questa
situazione
occorre
modificare
proporzionalmente le P(Fi) iniziali in modo che la somma delle nuove probabilit P'(Fi)
risulti uguale ad 1. Evidentemente questo risultato si ottiene dividendo le probabilit iniziali
per la probabilit di B
P' Fi
PFi
P(B)
133
dato che
h
h PF
1 h
P' Fi P(B)i P(B) PFi 1.
i 1
i 1
i 1
P' Fi
PFi 1/5 1
P(B) 3/5 3
i=1,2,3
Levento A|B si verifica se si verifica levento F2 oppure F3 per cui la sua probabilit
data da
PA | B P' F2 P' F3
2
.
3
Il sottoinsieme connesso con l'evento A|B composto dai soli eventi Fi che risultano in
comune fra A e B e corrisponde perci al prodotto (AB) di questi due eventi. La
probabilit dell'evento A|B sar quindi uguale alla somma delle probabilit P'(Fi) degli
eventi elementari in comune fra A e B determinate sotto la condizione che B sia vero. Si
ottiene quindi che la probabilit dell'evento condizionato uguale alla probabilit iniziale
del prodotto divisa per la probabilit dellevento condizionante
PA | B
PA B
.
PB
7.5.1
134
PA | B
PE 3 PE 5
PA B
2/5 2
.
PB
PE1 PE 3 PE 5 3/5 3
E' ovvio che oltre all'evento A|B possiamo considerare anche l'evento B|A la cui
probabilit, in analogia alla 7.5.1, risulta
PB | A
PA B
.
PA
7.5.2
PA B PB PA | B PA PB | A
7.5.3
7.5.4
135
levento pallina con un numero pari, la probabilit di A|B sarebbe risultata P(A|B) =
P(AB)/P(B) = (1/5)/(2/5) = 1/2, e quindi minore di P(A).
Si osservi ora che se la probabilit di A|B risulta uguale alla probabilit di A,
linformazione su B non modifica la probabilit di A ed in questo caso l'evento A si dice
indipendente in senso stocastico da B. Dalla 7.5.3 si ha
7.5.5
P(A 1 A 2 ... A h )
7.5.6
mentre se gli eventi sono tutti indipendenti fra di loro, la probabilit del loro prodotto si
riduce semplicemente al prodotto delle probabilit dei singoli eventi
rQuesta condizione, come si vede, analoga a quella di indipendenza assoluta per le variabili statistiche.
136
7.5.7
Dato, per esempio, un esperimento che consiste nel lancio di un dado bilanciato,
verificare se gli eventi E1=1, 2, 3, 4, E2=4, 5, 6 ed E3=2, 4, 6 sono completamente
indipendenti fra di loro. In questo caso occorre siano verificate contemporaneamente le
condizioni
i) P(E1E2) = P(E1)P(E2),
ii) P(E1E3) = P(E1)P(E3),
iii) P(E2E3) = P(E2)P(E3),
iv) (E1E2E3) = P(E1)P(E2)P(E3).
Per quanto riguarda la condizione i) si osservi che l'evento (E 1E2) costituito
dall'evento elementare "uscita della faccia 4" che ha probabilit pari ad 1/6, mentre
P(E1)=4/6 e P(E2)=1/2 e di conseguenza P(E1)P(E2)=1/3 e la condizione i), quindi, non
137
verificata. I tre eventi considerati, quindi, non sono completamente indipendenti, dato che
non lo sono gli eventi E1 ed E2.
Per quanto riguarda le rimanenti condizioni facile verificare che risulta
ii) P(E1E3) =
1
= P(E1)P(E3),
3
iii) P(E2E3) =
1
1
P(E2)P(E3) = ,
4
3
iv) P(E1E2E3) =
1
= P(E1)P(E2)P(E3).
6
Finora abbiamo considerato solo spazi campionari finiti, ossia spazi campionari
costituiti da un numero finito di eventi elementari. In alcune situazioni, per, gli eventi
elementari che possibile considerare in relazione ad un determinato esperimento
possono essere infiniti.
Con riferimento allurna contenente 5 palline numerate si pensi per esempio di estrarre
una pallina e, dopo aver annotato il risultato, di rimettere la pallina nellurna e di procedere
ad una seconda estrazione e cos via. Consideriamo levento E i la pallina con il numero 1
compare per la prima volta alla i-esima estrazione. E chiaro che la pallina con il numero 1
pu comparire per la prima volta alla prima estrazione, alla seconda, ..., alla i-esima, ....
cosicch gli eventi Ei (i=1,2,...) costituiscono una infinit numerabile, dato che possono
essere messi in corrispondenza biunivoca con linsieme dei numeri naturali.
In questo caso detto spazio campionario infinito numerabile in quanto contiene
una infinit numerabile di punti campionari ed possibile considerare eventi composti
corrispondenti a sottoinsiemi che contengono anch'essi infiniti punti. Con riferimento
allesperimento precedente, un evento composto di questo tipo , per esempio, levento A
"la pallina con il numero 1 compare per la prima volta in unestrazione di ordine pari".
Si osservi infine che anche possibile che linsieme degli eventi elementari connessi
con un esperimento o un fenomeno costituisca un insieme con la potenza del continuo e
che sia quindi uno spazio campionario infinito non numerabile. Cos, per esempio, il
prezzo di un titolo di Borsa un fenomeno caratterizzato da uno spazio campionario non
numerabile, i cui eventi elementari corrispondono ai numeri reali positivi.
In questo caso gli eventi elementari possono essere messi, in generale, in
corrispondenza biunivoca con i punti di un intervallo [a, b] dellasse dei numeri reali e la
probabilit pu essere assegnata sui sottointervalli di [a, b].
138
PA | B PA
PB | A
,
PB
7.6.1
P(E1 )
9 15 2
0,26 ,
100
P(E 2 )
41 30 3
0,74
100
P(C1 )
50
0,50 ,
100
P(C 2 )
45
0,45 ,
100
P(C3 )
5
0,05 .
100
Da questi valori si nota come, senza conoscere il colore della pallina, la composizione
di materiale pi probabile di una pallina estratta in modo casuale dallurna sia C1 e,
successivamente, C2, mentre pari solo al 5% la probabilit che la composizione sia C3.
La probabilit di estrarre una pallina del colore j e composta del materiale i
139
i=1,2,3, j=1,2,
P(Ci | E j ) P(Ci )
P(E j | Ci )
P(E j )
i = 1,2,3, j = 1,2.
7.6.2
P(E1 | C1 )
9
0,18 ,
50
P(E 2 | C1 )
41
0,82 ,
50
P(E1 | C 2 )
15
0,3 ,
45
P(E 2 | C 2 )
30
0,6 ,
45
P(E1 | C3 )
2
0,40 ,
5
P(E 2 | C3 )
3
0,60 ,
5
supponiamo che nel corso dell'esperimento venga estratta una pallina di colore E 1.
Sulla base della 7.6.2 le probabilit che la pallina estratta sia composta dai 3 diversi
materiali sono uguali a
P(C1 | E1 ) 0,50
0,18
0,3462 ,
0,26
P(C 2 | E1 ) 0,45
0,3
0,5769 ,
0,26
P(C3 | E1 ) 0,05
0,40
0,0769 .
0,26
7.6.3
Come si vede, una volta noto il colore della pallina estratta, si modificano le probabilit
associate ai diversi materiali. Nell'esempio considerato, infatti, la composizione pi
probabile senza conoscere il colore della pallina C1 mentre, se la pallina risulta di colore
E1, la composizione pi probabile diventa C2.
140
Si osservi che la somma delle probabilit riportate nella 7.6.3 ovviamente pari ad 1,
perch i tre eventi (Ci|E1), i = 1,2,3, sono necessari ed incompatibili. Di conseguenza, dalla
7.6.2 la probabilit che la pallina estratta sia del colore Ej risulta pari a
j = 1,2
7.6.4
i 1
e questa uguaglianza pu risultare particolarmente utile nei casi reali perch non sempre
si conosce il valore di queste probabilit.
In generale, la formula di Bayes consente di aggiornare la probabilit associata ad un
certo evento quando vengono acquisite informazioni supplementari. In questo contesto la
probabilit P(Ci) associata all'evento Ci viene detta probabilit a priori, la probabilit
P(Ci|Ej) associata all'evento Ci una volta noto levento Ej viene detta probabilit a
posteriori, mentre la probabilit P(Ej|Ci), considerata dopo che levento Ej si verificato,
costituisce la verosimiglianza dell'ipotesi Ci.
La formula di Bayes ha delle applicazioni rilevanti quando, per esempio, si vuole
determinare la probabilit che un individuo sia affetto da una certa malattia sulla base di
alcuni sintomi, che per sono comuni anche ad altre malattie, oppure quando si vuole
determinare la probabilit che una certa pianta o un certo animale appartenga ad una
certa variet sulla base di alcune sue caratteristiche.
Pi in generale, in presenza di un certo evento E j (colore delle palline, sintomi,
caratteristiche individuali), j = 1,2,,k, che pu verificarsi in situazioni o per cause diverse
Ci (materiale delle palline, malattie, variet), i = 1,2,,h, la formula di Bayes consente di
determinare la probabilit che levento Ej sia stato prodotto dalla causa Ci.
Se ciascuna delle h cause Ci pu produrre gli stessi k eventi Ej necessario che sia
valutata la probabilit che la causa Ci produca uno qualsiasi degli eventi Ej.
Le cause devono essere necessarie e incompatibili, cio deve risultare
P(Ci ) 1,
i 1
il che significa che un qualsiasi evento Ej che si verifica stato prodotto necessariamente
da una delle cause Ci. E' necessario inoltre che sia nota per ogni Ci la probabilit P(Ej|Ci)
141
con cui la causa Ci produce levento Ej. Non invece necessario che sia nota la probabilit
P(Ej), come abbiamo visto con la 7.6.4.
Consideriamo, per esempio, il caso di una ditta che commissiona una serie di spot ad
una televisione locale. Supponiamo che successivamente la ditta intervisti ciascun cliente
per rilevare se ha visto lo spot e se ha effettuato l'acquisto. Se si indica con C l'evento "il
cliente ha visto lo spot" e con E l'evento "il cliente ha effettuato l'acquisto", supponiamo
che in base alle registrazioni sia risultato
P(E) = 6/10,
P(C|E) = 7/10,
P(C| E ) = 2/10.
Linteresse della ditta sar quello di verificare se la pubblicit risultata efficace e, a
tale scopo, sar interessata a calcolare le probabilit che il cliente, avendo visto lo spot,
abbia effettuato lacquisto oppure no.
Poich la probabilit P E che il cliente non abbia effettuato lacquisto pari a 4/10,
dalla 7.6.4 la probabilit che il cliente abbia visto lo spot risulta
7 6
2 4 1
.
10 10 10 10 2
Dal teorema di Bayes 7.6.1, la probabilit che il cliente abbia effettuato lacquisto
avendo visto lo spot risulta
PE | C
0,84 ,
PC
0,5
mentre la probabilit che non abbia effettuato lacquisto avendo visto lo spot
0,4
PCP| ECP E 0,20,5
0,16 .
PE|C
Si pu quindi concludere che la serie di spot stata molto efficace, dato che fra i clienti
che hanno visto la pubblicit una quota molto elevata ha effettuato l'acquisto.
142
- Permutazioni
Supponiamo di avere unurna contenente 5 palline numerate da 1 a 5 e che la prova
consista nellestrarre tutte le palline una alla volta senza rimetterle nellurna. Si vuole
determinare la probabilit che le palline estratte si presentino in ordine crescente.
Il numero dei possibili risultati della prova, e cio il numero degli ordinamenti possibili,
pari a 120, come si ottiene facilmente tenendo presente che al primo posto pu
presentarsi una qualsiasi delle 5 palline, al secondo posto una delle 4 rimaste nellurna e
cos via. Il numero dei diversi ordinamenti quindi pari a 54321 =120.
Nellesempio considerato l'estrazione delle palline in ordine crescente solo uno dei
possibili ordinamenti e, dato che un qualsiasi risultato ha la stessa probabilit di verificarsi
di un qualsiasi altro, la probabilit cercata pari a 1/120.
In generale, dati n oggetti o elementi qualsiasi, distinti fra di loro, tutti i possibili
ordinamenti diversi per lordine con cui compaiono gli n oggetti sono detti permutazioni di n
elementi ed il loro numero, pari a
n(n1)(n2)... 21,
144
Dn,k =
n!
.
n k !
AB
BA
CA AC BC CB.
5!
10 , mentre le coppie a cui corrisponde una somma pari a 6 sono solo quelle
3!2!
costituite dai numeri (1,5) oppure (2,4) per cui la probabilit cercata uguale a 2/10 = 0,2.
In generale, dati n elementi distinti, tutti i gruppi che possibile formare con k (con kn)
di questi elementi, estratti senza ripetizione, diversi per gli oggetti che li compongono,
sono detti combinazioni di n elementi di classe k (indicate con Cn,k) ed il loro numero
corrisponde a
145
Cn,k =
n (n 1) ... (n k 1)
n!
.
k!
k!n k !
n
anche con la notazione .
k
Supponiamo che da un gruppo di 9 persone, di cui 6 uomini e 3 donne, siano estratti
casualmente 3 nominativi per eleggere una commissione e che si voglia determinare la
probabilit degli eventi: A la commissione composta da sole donne, B la commissione
composta da un uomo e due donne, C nella commissione c almeno un uomo.
In questo caso, dato che nella commissione non pu comparire due volte uno stesso
individuo, lesperimento assimilabile ad una estrazione senza ripetizione. Il numero di
terne diverse fra di loro per almeno un elemento corrisponde al numero di combinazioni di
9
9 elementi di classe 3 ed uguale a C 9,3 84 . Nel nostro caso le terne sono
3
equiprobabili e vi una sola terna che corrisponde allevento A. Si ha quindi
PA
1
0,0119 .
84
3
Il numero di terne favorevoli allevento considerato pari quindi a 6 18 e la
2
probabilit dellevento B quindi
PB
18
0,2143 .
84
146
3
due uomini e da tre uomini, che corrispondono rispettivamente a 6 18 , a
2
6
3 45 ed a
2
PC
6
20 . Si ha quindi
3
18 45 20 83
0,9881.
84
84
Dagli esempi fatti si vede quindi che i gruppi presi in considerazione nel caso delle
combinazioni senza ripetizione differiscono fra di loro per almeno un elemento e non per
lordine in cui tali elementi si presentano.
rDn,k
= n n ... n nk .
147
Il numero di coppie che possibile costituire in questo caso con le due palline numero 2
e numero 4 uguale evidentemente a 4, e pi precisamente alle coppie (2, 2), (2, 4), (4, 2)
e (4, 4), cosicch la probabilit cercata pari a 4/25.
Per esempio, la probabilit di fare 13 al totocalcio corrisponde alla probabilit di scrivere
lunica colonna di risultati corretti sui 313 risultati possibili ed pari quindi a
1
313
1
.
1.594.323
In questo caso, come si vede dagli esempi fatti, i gruppi che vengono presi in
considerazione differiscono fra di loro per almeno un elemento oppure per lordine in cui si
presentano gli elementi.
Consideriamo infine un esperimento che consiste nel lancio di 4 dadi equilibrati e
supponiamo di voler calcolare la probabilit che si ottenga un risultato differente su
ciascuno di essi. I possibili risultati associati a questo esperimento corrispondono alle
disposizioni con ripetizione di 6 elementi di classe 4 e sono quindi 6 4, mentre i casi
favorevoli corrispondono alle disposizioni senza ripetizione di 6 elementi di classe 4 e sono
quindi pari a 6543. La probabilit associata allevento in esame, quindi, risulta pari a
6543
64
5
0,28 .
18
148
P(A1 A 2 ) P(A1)P(A 2 | A1 ) .
7.8.1
4
.
25
A D1 D2 D3
3 2 1 1
,
9 8 7 84
dato che la probabilit che nella prima estrazione si ottenga una delle 3 donne presenti nel
gruppo pari a 3/9, la probabilit che nella seconda estrazione si abbia una delle due
149
donne fra gli 8 individui rimasti 2/8, mentre la probabilit che nella terza estrazione si
abbia lunica donna rimasta 1/7.
L'evento B la commissione composta da un uomo e due donne, se si considerano
gli eventi Ui (i = 1, 2, 3) estrazione di un uomo alla i-esima prova, corrisponde a
Dato che i tre eventi prodotto sono a due a due incompatibili, la probabilit della loro
unione pari alla somma delle loro probabilit per cui si ha
PB
6 3 2 3 6 2 3 2 6
0,2143 .
9 8 7 9 8 7 9 8 7
P A A PA P A 1,
per cui si ha
PC P A 1 PA
83
0,9881.
84
Sempre con riferimento allo stesso gruppo di 9 persone determiniamo ora la probabilit
associata allevento D2 "estrazione di una donna nella seconda prova" supponendo che
lestrazione avvenga senza ripetizione. La probabilit di questo evento potrebbe essere
effettuata semplicemente mediante il rapporto fra il numero di casi favorevoli ed il numero
di casi possibili oppure tenendo presente che D2 pu essere espresso nel modo seguente
D2 (D1 D1 ) D2
150
dato che levento estrazione di una donna nella seconda prova equivalente allevento
estrazione di un uomo oppure di una donna nella prima prova ed estrazione di una donna
nella seconda prova. E chiaro infatti che in generale un qualsiasi evento A pu anche
essere espresso come lintersezione di A con levento certo. Si ha quindi
32 63 1
98 98 3
che conferma il risultato che la probabilit di ottenere un dato evento alla i-esima prova
in ogni caso uguale alla probabilit di ottenere lo stesso evento in unaltra prova qualsiasi.
Questo stesso procedimento basato sulla probabilit di un prodotto di eventi pu essere
utilizzato anche per determinare la probabilit di ottenere la sequenza 1,2,3,4,5 dallurna
contenente 5 palline numerate quando si estraggono tutte e 5 le palline senza ripetizione.
La probabilit di ottenere la pallina numero 1 alla prima prova infatti pari a 1/5, quella di
ottenere la pallina numero 2 alla seconda prova 1/4 e cos via, per cui si ha
1 1 1 1
1
.
1
5 4 3 2
120
Infine, sempre con riferimento allurna contenente 5 palline numerate, determiniamo la
probabilit che estraendo due palline senza ripetizione entrambe le palline risultino pari
quando noto che almeno una pari. Si tratta, come si vede, di determinare la probabilit
dellevento F = (A1 A 2 ) | (A1 A 2 ) dove Ai, i = 1, 2, indica levento pallina pari nella iesima prova.
I casi favorevoli allevento F sono solo 2, mentre il numero dei casi possibili uguale a
quello delle coppie nelle quali almeno una delle palline pari. Questultimo numero
uguale a 14 dato che il numero di tutte le coppie 54=20, mentre quello delle coppie
composte da soli numeri dispari 32=6. La probabilit cercata, quindi, pari a 2/14=1/7.
La stessa probabilit pu essere determinata utilizzando lespressione 7.5.1. Si tenga
presente che in questo caso levento prodotto ( A1 A 2 ) (A1 A 2 ) corrisponde a
151
Si ha quindi
P(A1 A 2 ) | (A1 A 2 )
P(A 1 A 2 )
P(A 1 A 2 )
0,1 1
.
P(A 1 A 2 ) P(A 1 ) P(A 2 ) P(A 1 A 2 ) 0,7 7
152
CAPITOLO 8
VARIABILI CASUALI
Tabella 8.1.1
Identificativo degli individui e numero di libri letti in un anno
numero assegnato allindividuo
numero di libri letti
1
7
2
10
153
3
5
4
2
5
18
Tabella 8.1.2
Distribuzione della variabile X
X
2
5
7
10
18
totale
probabilit
0,2
0,2
0,2
0,2
0,2
1,0
154
155
Tabella 8.1.3
Esempio di distribuzione di probabilit
X
x1
x2
.
xi
.
xk
totale
probabilit
p1
p2
.
pi
.
pk
1
Si ha evidentemente
pi 0
k
pi
i 1,2,..., k
8.1.1
i1
Quella riportata nella tabella 8.1.3 una generica funzione di probabilit (f.p.) di una
variabile casuale discreta, una funzione cio che concentra masse di probabilit in
corrispondenza dei k valori della X, mentre altrove sempre uguale a zero. In questo caso
la funzione di probabilit detta anche funzione di massa (f.m.).
La stessa distribuzione pu essere descritta anche mediante la corrispondente
funzione di ripartizione
F(x) P(X x)
pi
8.1.2
xi x
156
che per ciascun valore x fornisce la probabilit che in una prova la v.c. X assuma un
valore inferiore o uguale ad x. Si osservi che mediante la funzione di ripartizione, la
probabilit viene assegnata quindi a tutti i sottointervalli (, x].
Dalla definizione precedente risulta che, come nel caso delle variabili statistiche
discrete, la f.r. di una v.c. discreta X definita su tutto lasse reale, assume valori compresi
fra zero ed uno, non decrescente e costante a tratti e nei punti di salto continua a
destra.
La differenza F(xb)F(xa) fra i valori della funzione calcolata in due punti qualsiasi xa ed
xb, con xaxb, corrisponde alla probabilit che la variabile X assuma in una prova un valore
compreso nell'intervallo xa -| xb. Si ha cio
157
P(X x)
x 2
x2 .
Abbiamo ottenuto in questo modo la f.r. della v.c. X che assume quindi la forma
158
F(x) x 2
1
x0
0 x 1
x 1.
8.1.3
Dalla 8.1.3 si ottiene la probabilit che la X sia compresa in qualsiasi intervallo [x, x+x]
P(x X x x) F(x x) F(x)
e, per x che tende a zero, si ricava la funzione di densit di probabilit (f.p.) della v.c.
X che assume la forma
2x
f(x)
0
0 x 1
altrove .
8.1.4
Come nel caso delle variabili statistiche, la distribuzione di probabilit di una v.c.
continua pu essere descritta mediante la funzione di ripartizione o mediante la
corrispondente funzione di densit di probabilit. Si noti che la f.r. 8.1.3 non derivabile
negli estremi e che per x=0 e x=1 alla f.p. sono stati assegnati i valori indicati nella 8.1.4.
Questa assegnazione comunque non modifica i valori della f.r. dato che i punti isolati
hanno tutti probabilit uguale a zero.
La funzione di densit di probabilit di una v.c. continua X ha ovviamente le stesse
propriet della f.d. di una variabile statistica e cio
f(x) 0
f(x)dx 1
8.1.5
F(x)
f(t)dt .
159
Anche per le v.c. continue esistono dei modelli distributivi, alcuni dei quali sono stati gi
utilizzati per approssimare le distribuzioni di una variabile statistica.
Le distribuzioni di probabilit delle variabili casuali sono perfettamente analoghe alle
distribuzioni di frequenza delle variabili statistiche ed anche la loro descrizione viene
effettuata mediante gli stessi valori caratteristici utilizzati per queste ultime. Cos, per
esempio, il quantile xp di una v.c. X quel valore in corrispondenza del quale si ha
P(X x p ) p ,
per cui dire che un valore x di X il quantile di ordine p equivale a dire che in una prova si
ha una probabilit pari a p che la v.c. X assuma un valore inferiore o uguale ad x.
Il valore modale di una distribuzione di probabilit corrisponde evidentemente al valore
pi probabile nel caso di una variabile discreta ed al valore a cui associata la massima
densit di probabilit nel caso di una variabile continua.
La media aritmetica di una v.c. detta anche valore attesos, mentre la sua varianza
pu essere considerata come una misura del grado di incertezza sui risultati
dellesperimento.
La definizione di tutti questi indici analoga a quella che stata data per le variabili
statistiche cosicch, per esempio, i momenti ordinari corrispondono a
r E(Xr ) x r f x dx ,
8.1.6
r E (X - )r x - r f x dx .
Per quanto riguarda la f.p. 8.1.4, il primo quartile risulta uguale a 0,5 e questo vuol dire
che la probabilit che un punto cada allinterno del cerchio con un raggio pari a 1/2
uguale ad 1/4. La distanza media del punto dall'origine uguale a 2/3, mentre lo scarto
quadratico medio pari a
1
3 2
160
Tabella 8.2.1
Distribuzione di una v.c. Zero-uno o di Bernoulli
X
0
1
Totale
p(x)
1p
p
1
o mediante la f.m.
f(x) p x (1 p)1 x
x 0,1,
0 p 1.
161
E(Xr ) 0 (1 p) 1 p p
e che quindi la media della variabile e tutti i suoi momenti sono uguali fra di loro ed uguali
a p, per cui risulta anche
Si tratta, come si vede, di una v.c. che risulta adeguata per descrivere esperimenti
casuali il cui risultato dicotomico nel senso che pu assumere due sole modalit
(assente/presente, positivo/negativo, maschio/femmina, alto/basso) che in genere sono
chiamate successo ed insuccesso.
Data per esempio una popolazione composta da 20 individui di cui 15 sono occupati e 5
disoccupati, supponiamo di estrarre in modo casuale un individuo per controllare se
disoccupato. Indicata con X la v.c. numero di individui disoccupati, la sua distribuzione
pu essere descritta mediante i dati della tabella 8.2.2
Tabella 8.2.2
Esempio di distribuzione di una v.c. Zero-uno
X
0
1
Totale
p(x)
0,75
0,25
1,00
o mediante la f.m.
x
1 x
1 3
f(x)
4 4
x 0,1.
E(X) 0
V(X)
3
1 1
1 0,25
4
4 4
1 3 3
0,1875 .
4 4 16
162
Consideriamo ora una moneta truccata in cui la probabilit di ottenere la faccia testa il
doppio della probabilit di ottenere la faccia croce e supponiamo di essere interessati a
determinare la f.m. della v.c. numero di croci ottenute in un lancio. In questo caso il
valore del parametro p che caratterizza tale variabile assumer il valore 1/3, dato che se
indichiamo con E1 levento uscita della faccia testa e con E2 levento uscita della faccia
croce devono essere verificate le due condizioni
P(E1 ) P(E 2 ) 1
P(E1 ) 2P(E2 )
da cui si ottiene
2P(E2 ) P(E 2 ) 1,
1
P(E 2 ) p .
3
Consideriamo nuovamente lurna contenente N1 palline bianche ed N2 palline nere (con
N=N1+N2) e supponiamo ora di voler estrarre un campione di n palline per controllare
quante palline bianche vengono estratte dallurna. Supponiamo che lestrazione sia
effettuata con reimbussolamento utilizzando un meccanismo che assegna ad ogni pallina
la stessa probabilit di essere scelta. In questo caso sappiamo che i possibili risultati delle
n prove risultano indipendenti fra di loro.
Se indichiamo con p=N1/N la quota di palline bianche contenute nellurna, la probabilit
di ottenere un numero i di palline bianche (con 0in) ed ni palline nere in un dato ordine
pi (1 p)ni .
In molte situazioni reali, per, non interessa tanto lordine preciso in cui le palline sono
state estratte, quanto il numero di palline di un certo colore presenti nel campione.
Allo stesso modo, in un esperimento che consiste nel lancio di un certo numero di dadi
si pu essere interessati, per esempio, al numero di facce con un punteggio pari a 6 o al
numero di facce con un punteggio dispari, mentre nel caso del lancio ripetuto di una
163
n
mentre il numero di queste ennuple uguale a e cio al numero delle combinazioni di
y
n elementi di classe y. Pertanto la f.m. di Y assume la forma
n
f(y) P(Y y) p y (1 p)n y ,
y
y = 0, 1, ...,n
8.2.1
0 < p < 1; n 1.
La v.c. Y cos definita detta variabile Binomiale, dato che le probabilit associate ai
suoi possibili valori numerici corrispondono ordinatamente ai termini dello sviluppo di
Newton della quantit
p (1 p)n .
Si noti che per n = 1 la variabile Binomiale coincide con la variabile Zero-uno.
La somma delle probabilit associate a tutti i possibili valori y di Y risulta ovviamente
pari ad 1 dato che
164
P(Y y)
y 0
n
y p y (1 p)ny p (1 p) 1.
y 0
Se, per esempio, da unurna che contiene 1/3 di palline bianche e 2/3 di palline nere
pensiamo di estrarre 4 palline con reimbussolamento, la distribuzione di probabilit della Y
quella riportata nella tabella 8.2.2, mentre il suo grafico illustrato nella figura 8.2.1.
Tabella 8.2.2
Esempio di distribuzione binomiale per n=4 e p=1/3
Y
0
1
2
3
4
Totale
p(y)
0,1975
0,3951
0,2963
0,0988
0,0123
1,0000
Figura 8.2.1
Grafico della f.m. della v.c. binomiale definita nella tabella 8.2.1
0,5
0,4
0,3
0,2
0,1
0
0
Dalla tabella e dal grafico risulta subito che il valore modale di Y pari ad 1 e che quindi
il risultato pi probabile su 4 estrazioni costituito da 1 pallina bianca e 3 palline nere.
Come si vede, inoltre, poco probabile che il campione sia composto da 3 palline bianche
ed una nera e vi poco pi di una probabilit su 100 che le palline estratte siano tutte
bianche.
165
Il numero medio di palline bianche, cio la media di Y pari a 1,3 , mentre la sua
varianza uguale a 0,8 .
Il grafico della f.r. di Y, infine, riportato nella figura 8.2.2.
Figura 8.2.2
Grafico della f.r. della v.c. binomiale definita nella tabella 8.2.1
1
0,8
0,6
0,4
0,2
0
-1
Y Xi
i1
da cui si ottiene in modo molto semplice la media e la varianza della v.c. binomiale.
Risulta infatti
i1
i1
E(Y) E( Xi ) E(Xi ) np
8.2.2
ed anche
166
i1
i1
8.2.3
Y
palline bianche estratte possiamo infatti definire la v.c. P
"quota di palline bianche
n
Y
estratte". Fra i valori di Y e di P
vi una corrispondenza biunivoca dato che in
n
1
corrispondenza dei valori 0,1,...,n assunti dalla Y la v.c. P assumer i valori 0, ,...,1.
n
Pertanto la v.c. P ha una f.p. identica alla 8.2.1 della Y che, tenendo presente
luguaglianza
y np ,
p = 0, 1/n, ...,1
0 < p < 1; n 1.
167
8.2.4
Y 1
E(P ) E E(Y) p ,
n n
8.2.5
p(1- p)
Y 1
V( P ) V 2 V(Y)
n
n n
8.2.6
da cui risulta che la quota di palline bianche presenti nel campione uguale in media alla
quota di palline bianche presenti nella popolazione e che la varianza della quota
campionaria diminuisce quando aumenta il numero delle palline estratte.
Data, per esempio, una popolazione in cui la quota di individui con una certa
caratteristica A pari a p=0,7, se si estrae un campione di 10 elementi, i possibili valori
sono 0/10, 1/10, ..., 10/10 e le probabilit corrispondenti,
della quota campionaria P
ottenute in base alla 8.2.4, sono riportate nella tabella 8.2.3, mentre la rappresentazione
grafica della f.m. riportata nella figura 8.2.3
Tabella 8.2.3
Distribuzione di probabilit della quota campionaria. p = 0,7, n= 10
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
p
f(p ) 0,000.. 0,0001 0,0014 0,0090 0,0368 0,1029 0,2001 0,2668 0,2335 0,1211 0,0283
Figura 8.2.3
Rappresentazione grafica della f.m. descritta nella tabella 8.2.2
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
In questo caso la probabilit che il campione contenga una quota di palline bianche pari
per esempio a 0 a 0,1 o a 0,2 molto piccola, mentre pari a 0,9244 la probabilit che il
campione contenga una quota di palline bianche compresa tra i valori 0,5 e 0,9. Come si
vede, si ha una probabilit abbastanza elevata che un campione casuale di 10 elementi
168
contenga una quota di palline bianche pari a quella della popolazione pi o meno 0,2 e
quindi che la composizione del campione non sia molto diversa da quella dell'urna. Si
osservi inoltre che il valore pi probabile di P corrisponde in questo caso al valore di p
nella popolazione.
Data unurna contenente N1 palline bianche ed N2 palline nere, con N1+N2 = N, si pensi
ora di estrarre casualmente n palline una alla volta senza rimettere nellurna le palline
prima della nuova estrazione, cio secondo lo schema detto senza ripetizione oppure in
blocco.
Si vuole determinare la probabilit che il campione sia composto da w palline bianche
ed nw palline nere e quindi, se si indica con W la v.c. numero di palline bianche presenti
nel campione, la probabilit P(W=w). Si osservi che la probabilit di un evento di questo
tipo stata gi determinata nel corso del capitolo precedente nellesempio relativo alla
possibile composizione di una commissione scelta in un gruppo di 3 donne e 6 uomini.
Ora si vuole invece determinare in generale la funzione di probabilit della v.c. W.
Per determinare lespressione formale di questa funzione di massa conviene
considerare il rapporto fra il numero di casi favorevoli allevento considerato ed il numero
di casi possibili, cos che la probabilit P(W=w) sia data dal rapporto fra il numero di
ennuple composte da w palline bianche e da (nw) palline nere ed il numero di tutte le
possibili ennuple.
Dato lo schema di estrazione, il numero dei risultati possibili diversi fra di loro
corrisponde al numero di n-ple diverse per almeno un elemento, che pari al numero di
N
combinazioni di N elementi di classe n.
n
Il numero dei casi favorevoli, invece, il numero di n-ple composte da w palline bianche
N N
e da (nw) palline nere ed pari a 1 2 . Infatti i gruppi di w palline bianche, diversi
w n w
N
fra di loro per almeno un elemento, possono essere formati in 1 modi diversi e ad
w
ognuno di questi pu essere associato un qualsiasi gruppo di (nw) palline nere, dove il
N
numero di questi ultimi, diversi fra di loro per almeno un elemento, corrisponde a 2 .
n w
La v.c. W cos definita, che detta v.c. ipergeometrica, ha quindi la seguente funzione
di probabilit
169
N1 N2
w n w
PW w
N
n
8.2.7
Tabella 8.2.4
Esempio di distribuzione ipergeometrica
W
0
1
2
3
4
totale
p(w)
0,2817
0,4696
0,2167
0,0310
0,0010
1,0000
E(W) n
N1
np EY ,
N
8.2.8
170
V(W) np(1 p)
Nn
Nn
V Y
,
N 1
N 1
8.2.9
Nn
(che detto coefficiente di correzione per popolazioni finite)
N 1
N1 N2
n
q
n
n
q
PQ q
N
n
n N2
N
q max 0,
,..., min1, 1 ,
n
8.2.10
8.2.11
8.2.12
Come si vede, quindi, anche con questo tipo di campionamento la quota di palline
bianche presenti nel campione uguale, in media, a quella delle palline bianche contenute
nellurna mentre la varianza della quota campionaria risulta inferiore o uguale a quella
associata al campionamento con ripetizione.
171
f(x) b a
0
axb
8.3.1
altrove .
0
x a
F(x)
b a
1
x<a
axb
8.3.2
x b
dato che
x a
b a dt b a .
1
1 x2
b 2 a 2 b a b a b a
EX x
dx
a
b
a
2
2
b
a
2
b
a
2
a
b
172
EX
1
1 x3
b 3 a 3 b a a 2 ab b 2
a 2 ab b 2
x
dx
ba
b a 3 a 3b a
3b a
3
a
b
V(X)
.
3
12
12
22
Un caso particolare di distribuzione uniforme quello in cui a=0 e b=1, come per
esempio il caso in cui la X una v.c. che identifica il posizionamento di un punto allinterno
di un segmento di lunghezza unitaria. In questo caso risulta
1
f(x)
0
0
F(x) x
1
0 x 1
altrove
8.3.4
x<0
0 x 1
x 1
8.3.5
Figura 8.3.1
Funzione di densit
Figura 8.3.2
Funzione di ripartizione
0,5
0,5
0
-0,2
0,2
0,4
0,6
0,8
1,2
173
0
-0,2
0,2
0,4
0,6
0,8
1,2
CAPITOLO 9
RILEVAZIONI E STATISTICHE CAMPIONARIE
=CASUALE()
INT(CASUALE()*2000+1),
Tabella 9.1.1
Esempio di tavole dei numeri casuali
769
5046
52
2556
7564
7716
2809
9027
702
4211
8036
3705
1379
1190
3277
966
8519
6739
1740
6184
1340
1697
120
9871
5395
5008
2515
5443
9222
2530
7751
1455
3257
1610
9013
2077
6192
8646
7892
6911
8793
2512
1739
2080
4759
6968
4007
1152
In questo caso si cercano sulla tavola, partendo da un punto scelto in modo casuale e
procedendo lungo le righe oppure lungo le colonne, numeri di quattro cifre non superiori a
2000. Se, per esempio, si parte dalla settima colonna e dalla seconda riga e si procede in
senso orizzontale, si trovano i numeri 8646 e 2080 che si scartano perch superiori a
2000, mentre il primo elemento del campione corrisponder allindividuo a cui era stato
assegnato si trova il numero 52. Il secondo elemento campionario sar quello
177
contrassegnato con il numero 702, il terzo elemento sar quello contrassegnato con 1340
e cos via.
Esaurita la tabella, se necessario, si pu ricominciare dall'inizio considerando, per
esempio, 4 cifre a partire dalla seconda cifra della prima colonna e cos via. E' chiaro che
anzich procedere nel senso delle righe si pu anche procedere nel senso delle colonne e
che si pu stabilire di prendere in considerazione non tutti i gruppi di quattro cifre
consecutivi ma, per esempio, il primo di ogni gruppo di k, dove k un intero qualsiasi.
Si osservi che nella pratica i piani di campionamento possono assumere forme molto
pi complesse che dipendono dalle circostanze in cui lindagine viene effettuata, dalle
informazioni gi disponibili sulla collettivit da esaminare, dagli obiettivi dellindagine e cos
via. Schemi di campionamento diversi possono essere utilizzati, per esempio, a causa
degli elevati costi o delle difficolt di esecuzione che un campionamento casuale semplice,
con o senza ripetizione, pu comportare in situazioni particolari. Se, per esempio, la
popolazione molto vasta e dispersa su un ampio territorio si ricorre spesso a tipi di
campionamento detti a grappoli (o a clusters) oppure ad un campionamento a pi stadi. In
questo caso il territorio viene suddiviso in zone possibilmente omogenee rispetto alle
variabili che interessano ed in una prima fase vengono scelte in modo casuale, con
probabilit non necessariamente uguali, alcune di queste zone. Allinterno delle zone
selezionate vengono successivamente esaminate tutte le unit presenti oppure viene
estratto ancora un campione casuale. Un campionamento di questo tipo viene utilizzato,
per esempio, dallIstat nella rilevazione delle forze lavoro in Italia. In questa indagine,
infatti, viene selezionato dapprima un campione di Comuni, poi un campione di famiglie
che risiedono in questi Comuni ed infine vengono rilevati i dati su tutti i componenti delle
famiglie estratte.
In altre situazioni la popolazione viene suddivisa in sottogruppi, detti strati, allinterno dei
quali le unit risultano pi o meno omogenee rispetto ad alcune caratteristiche prefissate.
Da ciascuno di questi strati viene poi estratto, in modo indipendente, un campione casuale
semplice. Questo procedimento costituisce il cosiddetto campionamento casuale
stratificato che utilizzato, per esempio, quando si ha interesse ad avere informazioni
separate per ciascuno dei gruppi omogenei rispetto ai caratteri usati per la stratificazione.
Questo stesso tipo di campionamento viene anche utilizzato per ottenere, a parit di
numerosit complessiva del campione, una maggiore attendibilit delle stime sullintera
popolazione. In questo caso gli strati sono costituiti da sottogruppi omogenei per quanto
riguarda le modalit di uno o pi caratteri che si ritengono correlati con le variabili oggetto
178
di indagine, in modo che la variabilit di queste ultime allinterno dei singoli strati risulti
ridotta. Cos, per esempio, la rilevazione dei risultati economici di un gruppo di imprese
che operano su un certo territorio pu essere effettuata allinterno di sottogruppi omogenei
per quanto riguarda il settore di attivit, il numero di addetti e cos via.
Questi sono solo alcuni esempi molto generali degli schemi di campionamento che
sono effettivamente utilizzati nella pratica ed il cui studio costituisce loggetto della
cosiddetta Teoria dei Campioni.
Tabella 9.2.1
Distribuzione di 10 famiglie in base al numero dei figli
Z
0
1
2
3
totale
frequenze
4
3
2
1
10
179
Se indichiamo con X la v.c. "Numero dei figli della famiglia estratta", vediamo che la X
pu assumere il valore 0 con probabilit pari a 0,4, il valore 1 con probabilit pari a 0,3 e
cos via, per cui la sua distribuzione di probabilit quella riportata nella tabella seguente.
Tabella 9.2.2
Distribuzione della v.c. numero di figli della famiglia estratta
X
0
1
2
3
totale
probabilit
0,4
0,3
0,2
0,1
1,0
Tabella 9.2.3
Distribuzione congiunta delle v.c. numero dei figli della prima famiglia estratta
e numero dei figli della seconda famiglia estratta
X2
px1
0,16
0,12
0,08
0,04
0,40
0,12
0,09
0,06
0,03
0,30
0,08
0,06
0,04
0,02
0,20
0,04
0,03
0,02
0,01
0,10
0,40
0,30
0,20
0,10
1,00
X1
0
1
2
3
px 2
180
Tabella 9.2.4
Distribuzione della v.c. numero di figli delle due famiglie estratte
X
0, 0
0, 1
0, 2
0, 3
1, 0
1, 1
1, 2
1, 3
2, 0
2, 1
2, 2
2, 3
3, 0
3, 1
3, 2
3, 3
totale
L(x)
0,16
0,12
0,08
0,04
0,12
0,09
0,06
0,03
0,08
0,06
0,04
0,02
0,04
0,03
0,02
0,01
1,00
181
Il numero delle possibili ennuple campionarie x diverse fra di loro almeno per lordine
degli elementi che le compongono uguale al numero di disposizioni con ripetizione rDk,n
di k elementi di classe n e cio a kn. Questo numero, come si vede facilmente, risulta
estremamente elevato anche per valori di k e di n non molto grandi. Nel caso appena
esaminato k pari a 4 e n pari a 2, per cui il numero delle possibili coppie di risultati
campionari 42=16.
Si osservi che la variabile Z oggetto di indagine pu essere ovviamente di tipo continuo,
ma la v.c. X valore di Z sullindividuo estratto pu assumere solo quei valori di Z
effettivamente presenti nella collettivit, per cui la sua distribuzione di probabilit
necessariamente discreta.
Cos come abbiamo visto per la distribuzione di frequenza delle variabili statistiche
continue, anche la distribuzione di una variabile statistica discreta pu essere
approssimata mediante un modello teorico che comporter delle notevoli semplificazioni
nelle procedure di inferenza statistica. Se infatti noto che la distribuzione di un carattere
nella collettivit pu essere descritta sinteticamente mediante un qualche modello
distributivo teorico, lo scopo dellindagine solo quello di ottenere informazioni sui valori di
tutti o di alcuni dei parametri che compaiono nelle funzioni di distribuzione del modello.
Per questi motivi nelle pagine seguenti ci occuperemo anche dei metodi per
determinare i diversi risultati che possono essere forniti da un campione bernoulliano a
partire da una distribuzione teorica ed in particolare da una distribuzione normale.
182
Tabella 9.3.1
Distribuzione di un campione estratto da una popolazione normale N(10, 2)
X
7,89
7,96
8,81
10,17
10,64
11,78
12,49
12,54
12,68
13,03
quote cumulate
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Questo campione, che stato ottenuto generando delle determinazioni da una v.c.
normale N(10, 2) mediante un elaboratore elettronico, solo uno dei possibili campioni
che potrebbero essere estratti dalla stessa popolazione, ognuno con una distribuzione pi
o meno simile a quella della popolazione.
La media e la varianza del campione risultano pari rispettivamente a 10,80 ed a 3,61 e
sono quindi abbastanza prossime ai valori veri della popolazione. Nella successiva figura
9.3.1 sono messi a confronto i grafici delle funzioni di ripartizione del campione e della
variabile nella collettivit dorigine.
Figura 9.3.1
Funzione di ripartizione del campione riportato nella tabella 9.3.1
e della distribuzione normale N(10, 2)
183
1,0
0,8
0,6
0,4
0,2
0,0
5
11
13
15
Come si vede dalla figura, la f.r. campionaria si discosta abbastanza da quella vera
della variabile, ma occorre tenere presente che il campione utilizzato in questo caso di
soli 10 elementi. Se il campione osservato sufficientemente numeroso invece poco
probabile che la sua distribuzione risulti molto diversa da quella della popolazione
dorigine.
Si dimostra infatti che all'aumentare della numerosit del campione diminuisce sempre
di pi la probabilit che la f.r. del campione osservato differisca in modo rilevante dalla f.r.
della popolazione.
Per effettuare questa dimostrazione consideriamo la variabile Z oggetto di indagine ed
indichiamo con F(z) la sua funzione di ripartizione. Prefissato un qualsiasi valore z di Z ed
estratta una unit statistica dalla popolazione, la probabilit che l'intensit di Z misurata su
questa unit risulti inferiore o uguale a z pari ovviamente a F(z), mentre 1F(z) la
probabilit di ottenere un valore superiore a z.
Se si effettuano n estrazioni chiaro che si possono ottenere i (i=0,1,...,n)
determinazioni di Z inferiori o uguali a z e, perci, ni superiori a z.
Se indichiamo con P la v.c. "quota di elementi campionari con valore di Z inferiore o
uguale a z", la probabilit che P assuma il valore p si ricava dalla distribuzione binomiale
e risulta pari a
P P p Fz np 1 Fz n(1 p) ,
np
1
0 F(z) 1, p 0, ,...,1,
n
184
9.3.1
e che quindi il valore della f.r. del campione in corrispondenza di z uguale in media al
valore vero della f.r. di Z, mentre la sua varianza tende a zero al crescere della numerosit
campionaria.
In questo modo si dimostra che l'immagine fornita dal campione tende a diventare
sempre pi somigliante a quella della variabile statistica nella popolazione mano a mano
che le informazioni disponibili diventano pi numerose.
Conclusioni analoghe, come vedremo nel prossimo paragrafo, si possono ottenere
anche per quanto riguarda i momenti campionari, che costituiscono altrettante stime dei
corrispondenti momenti della variabile Z nella popolazione.
Prima che il campione venga estratto i momenti campionari costituiscono altrettante
variabili casuali, mentre i valori forniti dal campione effettivamente osservato costituiscono
le singole determinazioni di queste variabili casuali. Dato infatti che ogni campione una
singola determinazione di una v.c. ad n dimensioni costituita dalle n variabili Xi, ogni
funzione dei dati campionari a sua volta una v.c. ad una dimensione la cui f.p. dipende
dalla f.p. congiunta delle Xi.
185
1
X Xi ,
n i1
n
2
1
S Xi X
n i1
2
1
xi,
n i1
n
1
s xi x
n i1
2
X1 X 2
per un campione bernoulliano di due
2
elementi si ottiene facilmente dalla distribuzione congiunta riportata nella tabella 9.2.3 o
9.2.4 ed quella indicata nella 9.3.2.
Tabella 9.3.2
Distribuzione della media campionaria sulla base della tabella 9.2.2
px
0,16
0,24
0,25
0,20
0,10
0,04
0,01
1,00
X
0,0
0,5
1,0
1,5
2,0
2,5
3,0
totale
186
Dalle tabelle 9.2.3 o 9.2.4 risulta, per esempio, che la media del campione di due
elementi assume un valore uguale ad 1 quando il primo elemento estratto uguale a 0 ed
il secondo a 2, quando entrambi gli elementi sono uguali ad 1 oppure quando il primo 2
ed il secondo 0.
La probabilit corrispondente quindi pari a
P(X 1) P X1 0 X2 2 P X1 1 X2 1 P X1 2 X2 0 0,25 .
187
Tabella 9.3.3
Esempio di distribuzione della media campionaria
px
1/16
2/16
3/16
4/16
3/16
2/16
1/16
1,00
X
1,0
1,5
2,0
2,5
3,0
3,5
4,0
totale
Tabella 9.3.4
Esempio di distribuzione della varianza campionaria S2
S2
0,00
0,25
1,00
2,25
totale
p(s2)
4/16
6/16
4/16
2/16
1,00
Se indichiamo con
T = g(X),
una generica funzione dei dati campionari, la v.c. T detta statistica campionaria,
mentre la quantit
t = g(x)
calcolata sulla base del campione osservato indica una determinazione della v.c. T.
Come si visto, la distribuzione di probabilit di una qualsiasi statistica T, e quindi la
probabilit P(T=t) per ogni valore della variabile, si ottiene associando ad ogni valore t di T
la somma delle probabilit di tutte le ennuple che forniscono un valore di T uguale a t.
Si osservi che, in generale, il calcolo di una qualunque funzione dei dati campionari non
fine a se stessa, ma ha lo scopo di stimare una determinata caratteristica di interesse
188
della popolazione. Per questo motivo un'altra denominazione delle statistiche campionarie,
che pone maggiormente in risalto il loro scopo di stimare i parametri della popolazione,
quella di stimatori.
Uno stimatore T=g(X) di un parametro (teta) dunque una v.c. funzione delle v.c. Xi
che non dipende da e mediante la quale si intende stimare il valore ignoto del parametro.
Con l'espressione t=g(x) si indica, invece, una determinazione della v.c. T, che viene
detta stima di .
da cui risulta che la v.c. media campionaria ha una media uguale alla media del carattere
Z. Questo significa che, se si fa riferimento a tutti i possibili campioni di n elementi che
possono essere estratti dalla popolazione mediante un campionamento bernoulliano ed
alla media di ognuno di questi campioni, la media di tutte le possibili medie campionarie
uguale alla media della popolazione.
La varianza di tutte le possibili medie campionarie e, quindi, la varianza della v.c. X ,
data da
1
1
V( X) V Xi 2 V Xi
n
n
189
e corrisponde quindi alla varianza della somma di n v.c. X i divisa per n2. Queste variabili
hanno tutte la stessa varianza 2 di Z e sono indipendenti fra di loro, cosicch la varianza
della loro somma risulta uguale alla somma delle loro varianze. Si ha quindi
V X i
2
V( X)
1
n
n 2
2
2
,
n
da cui si vede che la varianza della v.c. media campionaria uguale alla varianza della
popolazione divisa per il numero degli elementi campionari. Questo risultato coincide
ovviamente con quello ottenuto in precedenza con riferimento alla media di un campione
di 2 elementi.
Si osservi che la variabilit delle stime della media dipende dalla varianza della variabile
nella collettivit ma, comunque, al crescere della numerosit del campione la varianza di
Mr
1
X ri
n i1
9.4.1
si ottengono con un procedimento identico a quello usato per la v.c. X . Basta solo fare
riferimento piuttosto che alla ennupla di v.c. indipendenti X i, alla ennupla di v.c. sempre
indipendenti X ri le quali, evidentemente, hanno tutte la stessa distribuzione del carattere
Zr con una stessa media r che corrisponde al momento r-esimo di Z ed una stessa
varianza 2r r2 , pari alla differenza fra il momento di ordine 2r ed il quadrato del
momento di ordine r di Z. Si ha, quindi,
E(Mr ) r ,
2r r2
V(M r )
,
n
190
2
2
1
1
E S 2 E X i X E X i X
n
2
1
1
E X i 2 X EX i 2 E X
n
n
9.4.2
1 2 2 n 1 2
n
.
n
n
n
Come si vede, la media della v.c. varianza campionaria non uguale alla varianza
della popolazione 2 ma, per campioni sufficientemente numerosi, il coefficiente (n1)/n
risulta praticamente uguale ad 1 per cui la varianza del campione in media risulta
allincirca uguale alla varianza della popolazione.
Si pu dimostrare infine che la varianza di S 2 tende a zero al crescere della numerosit
campionaria, per cui la v.c. S2 converge in probabilit a 2.
191
che uno stimatore dovrebbe fornire stime che si avvicinano il pi possibile al valore vero
del parametro ignoto. Dato per che non conosciamo il valore del parametro non siamo in
grado di quantificare l'errore commesso per una particolare stima, ma possibile
quantificare in qualche modo lerrore medio che si commette utilizzando un particolare
stimatore. La bont di uno stimatore quindi valutata sulla base delle propriet di cui lo
stimatore stesso dotato, alcune delle quali sono descritte sommariamente qui di seguito
con riferimento ad un campionamento di tipo bernoulliano. In particolare, le propriet che
analizzeremo qui di seguito sono
- correttezza
- efficienza
- coerenza
- sufficienza.
Data una variabile Z che nella popolazione ha una distribuzione f(z,) di forma nota in
cui compare il parametro ignoto , uno stimatore T=g(X) di si dice corretto se
E(T) =
9.5.1
Talvolta possibile correggere la distorsione di uno stimatore, come nel caso della
varianza. Infatti, se al posto di S2 si usa la funzione
n
S 2
S2 ,
n 1
192
2 ) E n S 2 n E(S 2 ) n n 1 2 2 .
E(S
n 1 n
n 1 n 1
La stima ottenuta per mezzo dello stimatore S 2
s 2
1
xi x
n 1
2 n n 1s2
MSE T ET 2
e corrisponde quindi alla media della differenza al quadrato fra lo stimatore ed il parametro
da stimare.
Dati i due stimatori T1 e T2 per il parametro il senso comune suggerisce che
preferibile utilizzare lo stimatore che, a parit di numerosit campionaria, ha MSE minore.
Se risulta
193
MSE(T1)<MSE(T2)
si dice che T1 pi efficiente di T2.
Mediante le propriet del valore atteso e sulla base della 9.5.1 si vede subito che
MSE T E T 2 ET ET ET 2 ET ET ET 2
ET ET 2 EET 2 2ET ET ET V(T) BT 2
per cui lerrore quadratico medio corrisponde alla varianza dello stimatore pi la sua
distorsione al quadrato. Se lo stimatore corretto, quindi,
MSE(T)=V(T),
e(T1, T2) =
MSE(T1 )
MSE(T 2 )
che pu assumere valori fra zero ed uno e che risulta tanto pi vicino ad uno quanto pi
lerrore quadratico medio di T1 vicino al lerrore quadratico medio di T 2. Se i due stimatori
sono entrambi corretti evidente che lefficienza relativa misurata semplicemente da
194
e(T1, T2) =
V(T1 )
.
V(T 2 )
V(T)
1
logf(z; ) 2
nE
9.5.2
e(T) =
Vmin
V(T)
cosicch quando e(T) = 1, T uno stimatore che ha varianza minima e, quindi, massima
efficienza.
Uno stimatore si dice coerente se, per ogni 0, si ha
lim P T 0
e cio se al divergere della numerosit del campione tende a zero la probabilit che la
differenza in valore assoluto tra stimatore e parametro risulti maggiore di un comunque
piccolo e, quindi, se T converge in probabilit a . Quindi, se si utilizza uno stimatore
195
196
m1
1
xi
n i1
m2
1
x i2 .
n i1
1 n
x i
n i1
n
1
2
2
2
n x i
i1
dal quale si ottengono le stime dei due parametri ignoti. Dalla prima equazione si ottiene
197
m 2 2 x
2
2
2 m 2 x s 2 .
Se si fa riferimento alla generica ennupla campionaria, gli stimatori dei parametri e 2
della distribuzione normale ottenuti utilizzando il metodo dei momenti sono rispettivamente
le v.c. X media aritmetica ed S2 varianza dei dati campionari
X,
2 S 2 .
Questo metodo in genere consente di ottenere le espressioni degli stimatori con grande
semplicit, ma questi stimatori spesso non sono corretti e non sono molto efficienti. In
generale per risultano coerenti dal momento che sono funzioni dei momenti campionari i
quali, come abbiamo gi visto, sono coerenti. Per questo motivo questi stimatori vengono
utilizzati soprattutto quando si dispone di campioni particolarmente numerosi ed in questo
caso costituiscono una valida alternativa a metodi di stima pi laboriosi.
Uno dei metodi pi importanti per la costruzione degli stimatori il metodo di massima
verosimiglianza, che si basa sulla funzione di probabilit congiunta dellennupla
campionaria X.
Data una variabile discreta Z con f.m. f(z,) in cui compare il parametro , la
distribuzione congiunta di X
Questa funzione, calcolata per gli n valori x1, x2, ..., xn del campione osservato,
corrisponde alla probabilit che da una popolazione in cui la Z ha distribuzione f(z,)
venga estratta esattamente lennupla x0 x1,x2,...,xn.
198
Dato che il parametro non noto, si possono formulare delle ipotesi sui suoi valori e
calcolare L(x 0 ,) in corrispondenza, per esempio, di =1, =2, ..., =k. Per ogni valore
j (j=1,2,...,k) si ottiene in questo modo la probabilit di estrarre da una popolazione con
distribuzione f(z, j) una ennupla campionaria identica a quella effettivamente osservata.
Se il valore di L(x0, j) basso, questo significa che poco probabile che da una
popolazione con parametro j venga estratto un campione identico a x0. L'ipotesi che il
valore del parametro sia uguale a j quindi poco verosimile.
Se per due valori di , j e j+1, risulta
L(x0, j) L(x0, j+1) ,
la probabilit di estrarre l'ennupla x0 da una popolazione con distribuzione f(z, j+1)
maggiore della probabilit di estrarre la stessa ennupla da una popolazione con
distribuzione f(z, j), cosicch l'ipotesi = j+1 pi verosimile dell'ipotesi = j.
Supponiamo, per esempio, di aver estratto 5 palline con ripetizione da unurna e di aver
ottenuto la seguente serie di palline bianche (B) e nere (N): B, B, N, B, N.
Indicata con p la quota di palline bianche contenute nellurna, possiamo calcolare la
probabilit di ottenere questo risultato x0 sotto diverse ipotesi su p:
L(x0, p=0,1) = 0,13x0,92=0,00081
L(x0, p=0,5) = 0,53x0,52=0,03125
L(x0, p=0,6) = 0,63x0,42=0,03456
L(x0, p=0,7) = 0,73x0,32=0,03087
L(x0, p=0,9) = 0,93x0,12=0,00729.
In questo caso fra le varie ipotesi considerate quella che risulta pi verosimile lipotesi
che il parametro p nella popolazione sia uguale a 0,6, ossia risulti uguale al valore della
quota di palline bianche rilevate sul campione effettivamente osservato.
Con queste premesse viene naturale assumere come stima di quel particolare valore
per cui la probabilit L(x0,) risulta massima e per il quale, quindi, l'ipotesi risulta
massimamente verosimile.
199
Si osservi che nei casi pi semplici il valore di in cui si annulla la derivata corrisponde
effettivamente al punto di massimo, come si controlla facilmente mediante la derivata
seconda.
Il valore di si ottiene pi semplicemente se si utilizza al posto della L(x0,) il suo
logaritmo, dal momento che la funzione logaritmica monotona, cosicch la logL(x0,) ha
il massimo nello stesso punto di L(x0,). Il valore cercato sar, dunque, quel per il quale
logL(x 0 , )
0.
Dato per esempio un carattere Z con distribuzione Zero-uno, la f.v. per un campione
bernoulliano di n elementi risulta
200
dlogLx 0 ,p 1
1
n x i n x i p
xi
dp
p
1 p
p(1 p) n
n xi
p 0
p (1 p ) n
1
xi .
n
Come si vede, la stima di m.v. del parametro p di una distribuzione Zero-uno uguale
alla media aritmetica dei dati campionari e quindi alla quota campionaria.
Se si fa riferimento piuttosto che al campione osservato, alla generica ennupla
campionaria, lo stimatore di m.v. P del parametro p assume quindi la forma
1
P Xi ,
n
9.6.1
201
1
L(x 0 ; , )
e
2
1 x
i
n
n
1
logL(x 0 ; , ) log 2 log2 2
2
2
2
x i
logL(x 0 ; , )
1
n
2 x i 2
logL(x 0 ; , ) n 1
x
2
2
4 i
xi
n x i
2
.
n
2 4
xi
n
2
(x i ) 2
e quindi
(x i x )2
s2 .
Se si fa riferimento alla generica ennupla campionaria, gli stimatori di m.v. dei parametri
e 2 della distribuzione normale sono rispettivamente le v.c. X media aritmetica ed S2
varianza dei dati campionari.
Gli stimatori ottenuti con questo metodo non sono sempre corretti come risulta, per
esempio, per lo stimatore di m.v. del parametro 2 di una popolazione normale che
corrisponde alla varianza campionaria non corretta.
Si pu dimostrare per che questi stimatori, sotto condizioni abbastanza generali, sono
coerenti e, per n che tende ad infinito, risultano corretti e massimamente efficienti.
202
CAPITOLO 10
DISTRIBUZIONI DI STATISTICHE DA POPOLAZIONI NORMALI
10.1 Introduzione
Nel capitolo precedente sono stati descritti alcuni risultati generali sulle principali
caratteristiche delle statistiche campionarie. Qui di seguito ci occuperemo invece della
determinazione delle distribuzioni di probabilit di alcune statistiche particolarmente
rilevanti nelle procedure di inferenza statistica. Queste distribuzioni di probabilit sono
analoghe a quelle che abbiamo ottenuto nel capitolo 9 per quanto riguarda, per esempio,
la quota campionaria che si distribuisce come una binomiale oppure come una
ipergeometrica a seconda del tipo di campionamento.
In questo capitolo studieremo le funzioni di probabilit di alcune statistiche campionarie
sotto lipotesi che la variabile oggetto di indagine si distribuisca nella popolazione dorigine
del campione in modo normale, dato che questa ipotesi risulta adeguata in molte situazioni
concrete ed in generale consente di ottenere in modo abbastanza semplice le distribuzioni
di probabilit campionarie.
Risultati analoghi possono essere ottenuti talvolta a partire da modelli diversi, anche se
non sempre si riesce a determinare la distribuzione teorica di una statistica campionaria.
In questi casi spesso si utilizzano distribuzioni approssimate oppure ottenute
empiricamente mediante elaboratori elettronici attraverso procedure numeriche. Queste
ultime consistono in campionamenti artificiali ripetuti pi volte mediante i quali si ottiene un
numero sufficientemente elevato di determinazioni di una data statistica. La distribuzione
determinata dallinsieme di questi valori, infatti, converge in probabilit alla distribuzione
vera della statistica, cosicch possibile approssimare la distribuzione teorica mediante la
corrispondente distribuzione empirica.
Per la determinazione delle distribuzioni di probabilit approssimate, in molti casi, ci si
basa anche, come vedremo nelle pagine successive, sul teorema limite centrale che
stato illustrato nel corso del paragrafo 8.3.
203
1
Xi
n
ha f.d. normale con media uguale alla media della popolazione e varianza 2/n uguale
alla varianza della popolazione divisa per n, in simboli
X N ,
n
10.2.1
X
/ n
U N(0, 1)
10.2.2
dove U la v.c. normale standardizzata con f.d. N(0, 1). Indicato con x p il quantile di
ordine p della variabile 10.2.1 risulta infatti
P X x p P
up P X up
p.
n
204
Consideriamo, per esempio, una collettivit in cui la variabile Z ha una distribuzione che
pu essere approssimata da quella di una normale con media pari a 12 e varianza pari a 9
e supponiamo di voler determinare la probabilit che, estraendo da questa popolazione un
campione bernoulliano di 16 elementi, la v.c. X media campionaria assuma un valore
compreso nellintervallo 11, 13. Poich la v.c. X si distribuisce come una v.c. normale
con media = 12 e varianza 2 /n = 9/16, effettuando l'operazione di standardizzazione si
ha
13 12
11 12
P 11 X 13 P
U
P( 1,33 U 1,33) 0,8164 .
3/4
3/4
10.2.3
che si ottiene dalla 10.2.2 sostituendo la varianza ignota della popolazione con lo
stimatore varianza campionaria corretta, ha una distribuzione nota che viene chiamata t di
Studentt.
Questa distribuzione caratterizzata da un unico parametro, detto gradi di libert
(g.d.l.), che in questo caso corrisponde alla numerosit del campione estratto diminuita di
1. Di solito il valore dei g.d.l. della t viene indicato mediante la lettera g ed in questo caso
la distribuzione t di Student viene anche indicata con il simbolo t g.
Questa variabile definita per valori compresi fra e + ed ha una f.d. simmetrica
intorno al valore t = 0, come risulta dalla figura 10.2.1 in cui rappresentata graficamente
la forma di questa funzione per alcuni valori dei gradi di libert.
tAnche in questo caso con il simbolo t si usa indicare sia la variabile che i suoi valori.
205
Figura 10.2.1
Grafico di alcune f.d. di variabili t di Student per diversi valori dei gradi di libert
S
P
t n 1(p) P X t n 1(p)
p.
n
n
S
Cos come abbiamo visto per la distribuzione normale, attraverso la distribuzione della
variabile t si calcola la probabilit di estrarre un campione la cui media risulti inferiore o
uguale ad un qualsiasi valore oppure la probabilit che la media campionaria sia
compresa in un intervallo qualsiasi.
Nella Tavola D in Appendice sono elencati, per i diversi valori di g indicati sulla prima
colonna, alcuni quantili di questa variabile corrispondenti ai valori della f.r., che sono
indicati invece sulla prima riga. Dato che si tratta di una variabile simmetrica intorno al
206
valore t=0, sono riportati i soli quantili positivi di ordine p0,5. I quantili negativi di ordine
1p sono uguali evidentemente a quelli di ordine p cambiati di segno.
Riprendiamo, per esempio, lesercizio precedente, ma supponiamo questa volta che la
variabile Z abbia una distribuzione che pu essere approssimata da quella di una normale
con media pari a 12 e varianza ignota. Supponiamo di voler determinare la probabilit che,
estraendo da questa popolazione un campione bernoulliano di 16 elementi, la v.c. X
media campionaria assuma un valore compreso nellintervallo 11, 13 sapendo che il
campione estratto ha fornito una varianza campionaria corretta pari a 9 . In questo caso si
ha
13 12
11 12
P 11 X 13 P
t15
P( 1,33 t15 1,33)
3/4
3/4
Pt15 1,33 Pt15 1,33
ed il valore della f.r. della variabile in corrispondenza di 1,33 si determina sulla tavola D
cercando sulla riga corrispondente a 15 g.d.l. un valore il pi vicino possibile a 1,33 e
andando poi a leggere il corrispondente valore della f.r. sulla prima riga. In questo caso
per cui
207
10.2.4
cos che la distribuzione della statistica a sinistra nella 10.2.4 converge a una normale
standardizzata anche quando non si conosce la varianza della distribuzione normale della
variabile Z di interesse.
Si osservi che nel paragrafo 8.3 si detto che la somma di n v.c. indipendenti ed
identicamente distribuite, quale che sia la forma di questa distribuzione, tende a distribuirsi
in modo normale al crescere di n. Per questo motivo possibile dimostrare che, quale che
sia la distribuzione di Z nella collettivit, la media aritmetica X di un campione
sufficientemente numeroso si distribuisce approssimativamente come una variabile
normale con media e s.q.m s
n.
X N ,
n
X
N(0, 1)
s / n
ossia
10.2.5
anche se, per un dato valore di n, la bont dellapprossimazione dipende dalla rapidit con
cui la distribuzione di X converge alla distribuzione normale.
2 1 X X 2.
S
i
n 1
E possibile dimostrare che la seguente funzione di tale stimatore
208
S
2
(n 1) n
1
10.3.1
ha una distribuzione nota che viene detta chi-quadrato con n-1 gradi di libert, dove n
la numerosit del campione estratto.
Come nel caso della distribuzione t di Student, anche la f.d. della variabile chi-quadrato
dipende da un solo parametro, sempre denominato gradi di libert che viene spesso
indicato con la lettera g.
Nella figura 10.3.1 sono indicati i grafici della f.d. di 2g per alcuni valori di g.
Figura 10.3.1
Grafico di alcune f.d. di variabili chi-quadrato per diversi valori dei gradi di libert
0,5
g=2
0,4
0,3
g=3
0,2
g=5
g=7
0,1
0
0
10
15
20
V 2g .
E 2g g ,
10.3.2
2
g
10.3.3
209
Nella Tavola C in Appendice sono elencati, per i diversi valori dei g.d.l. riportati sulla
prima colonna, alcuni quantili di questa variabile corrispondenti ai valori della f.r., che sono
indicati invece sulla prima riga.
Dalle 10.3.2 e 10.3.3 si ottiene facilmente la media e la varianza della 10.3.1
2
E (n 1) n 1
S
V (n 1) 2(n 1)
e quindi
2
V S
.
n 1
2 2
ES
2
10.3.1 si ha
2
2 n2 -1(p) 2
S
2
P n - 1 n -1(p) PS
p.
n -1
Si osservi che anche in questo caso, pur trattandosi di una variabile che pu assumere
solo valori non negativi, per un valore di g elevato i valori della f.r. di 2g possono essere
approssimati da quelli della f.r. normale.
210
S
(n 1) N n - 1, 2n - 1
ossia
S
(n 1) n 1
N0, 1
2n - 1
S 2 2
2 2/(n 1)
N0, 1
10.3.4
Supponiamo, per esempio, che una variabile Z abbia una distribuzione che pu essere
approssimata da quella di una normale di varianza pari a 25 e di voler determinare la
probabilit che, estraendo da questa popolazione un campione bernoulliano di 200
elementi, la v.c. S 2 varianza campionaria corretta risulti maggiore di 30. In questo caso
si ha
30 25
P S 2 30 P U
P(U 1,99) 1 0,977=0,023.
25
2
199
211
p1 - p
P N p,
n
P - p
p1 - p
n
N(0, 1)
per n
10.4.1
per n.
10.4.2
0,70 0,73
P P 0,70 P U
PU 2,14 1 0,984 0,016
0,73 0,27
1000
per cui si ha una probabilit di poco superiore all1,5% di estrarre un campione in cui la
quota di idonei alla prima sessione di esami risulti inferiore al 70%.
212
CAPITOLO 11
CENNI SUGLI INTERVALLI DI CONFIDENZA E SULLA VERIFICA DI IPOTESI
213
X-
P u1 /2
u1 /2 1
n
P u1 /2
X u1 /2
1 .
n
n
11.1.1
Abbiamo quindi una probabilit pari a 1 che il campione da una popolazione con f.d.
normale N(, ) abbia una media compresa fra i due quantili di ordine /2 ed 1/2 della
N(, / n ) , pari rispettivamente a u/2 / n ed a u/2 / n .
P X u1 /2
/2
n
11.1.2
P X u1 /2
/ 2
n
11.1.3
214
e cio che si ha una probabilit pari ad /2 che la media del campione risulti inferiore o
uguale al quantile sinistro della sua f.p. ed unuguale probabilit che risulti superiore al
quantile destro.
Dalle due espressioni precedenti si ricava anche
P X u1 /2
/2
n
11.1.4
P X u1 /2
/2 .
n
11.1.5
X u1 /2
X u1 /2
x0 u1 /2 /
n, x 0 u1 /2 / n
ed il risultato viene commentato dicendo che il valore vero di , con una probabilit pari ad
1, compreso in questo intervallo.
Figura 11.1.1
Rappresentazione grafica di alcuni intervalli di confidenza di
X-
della popolazione, una quantit pivotale essendo funzione della media campionaria, e
quindi delle n v.c. campionarie Xi, della media della popolazione ed avendo una
distribuzione N(0, 1) quale che sia il valore di nella popolazione.
Supponiamo, per esempio, che da una popolazione con f.d. normale con media
ignota e con varianza 2 = 4 sia stato tratto un campione di 16 elementi la cui media
aritmetica uguale a 5. L'intervallo di confidenza di al livello del 95% si costruisce
tenendo presente che u0,975=1,96 e risulta uguale a (4,02, 5,98). Si conclude in questo
caso che il valore vero di , con probabilit pari al 95%, compreso fra 4,02 e 5,98.
216
s
s
P t n 11- /2
X t n 11- /2 1
n
n
217
dove t n 11- /2 corrisponde al quantile della t di Student con n-1 g.d.l. che isola alla sua
destra una probabilit /2. Evidentemente le 11.1.2 e 11.1.3 in questo caso diventano
P X t n 11- /2 /2
n
P X t n 11- /2 /2 .
n
S
S
, X t n 11- /2
X t n 11- /2
n
n
10,80 2,262
2,00
10
10,80 2,262
2,00
10
per cui il valore vero di , con probabilit pari al 95%, compreso fra 9,37 e 12,23.
Come si vede, in questo caso lintervallo contiene il valore vero della media della
popolazione che uguale a 10.
Da quanto abbiamo visto nel capitolo precedente, lintervallo di confidenza della media
della popolazione per una variabile Z che si distribuisce in modo normale con varianza 2
ignota pu essere calcolato in modo approssimato anche sulla base della distribuzione
normale se la numerosit campionaria maggiore o uguale a 30 unit. In questo caso,
quindi, lintervallo di confidenza di al livello 1assume la forma
S
S
, X u1 /2
X u1 /2
.
n
n
218
Tabella 12.2.1.1
Larghezza di un campione di 243 uova di cuculo
larghezza
13,75-|14,25
14,25-|14,75
14,75-|15,25
15,25-|15,75
15,75-|16,25
16,25-|16,75
16,75-|17,25
17,25-|17,75
17,75-|18,25
18,25-|18,75
18,75-|19,25
totale
frequenza
1
1
5
9
73
51
80
15
7
0
1
243
Dai dati campionari riportati nella tabella 12.2.1.1 si ottiene x 16,54 e s x 0,66 per
cui, data lelevata numerosit campionaria, l'intervallo di confidenza approssimato della
media della variabile X al livello 1= 0,90 dato da
0,66
0,66
16,54 1,645
= (16,47, 16,61).
, 16,54 1,645
243
243
219
2
PS 2 n2 1/2
/2
n 1
2
PS 2 n2 11- /2
/2.
n 1
S 2 (n 1)
S 2 (n 1)
, 2
Si ottiene quindi l'intervallo 2
che rappresenta l'intervallo di
n 11- /2 n 1/2
confidenza di 2 al livello del 100(1)%.
Sulla base del campione riportato nella tabella 9.3.1, se si tiene presente che per
=0,025 i due quantili della chi-quadrato con 9 g.d.l. sono 92 0,025 =2,700 e
92 0,975 =19,02, lintervallo di confidenza della varianza al livello del 95% risulta uguale a
4,01 9
4,01 9
2
19,02
2,7
per cui il valore vero di 2, con probabilit pari al 95%, compreso fra 1,90 e 13,37. Anche
in questo caso lintervallo di confidenza contiene il valore vero della varianza della
popolazione che uguale a 4.
Osserviamo ora che, per lasimmetria della 2, lintervallo di confidenza basato sui
quantili n2 1/2 e n2 11 /2 non , in media, il pi corto possibile a quel livello di
confidenza, come accade invece nel caso della media. Intervalli di ampiezza minore si
u Latter O.H. (1901-02), The egg of Cuculus Canorus. Biometrika, 1, 164-176.
220
potrebbero costruire individuando i quantili che isolano sulla propria sinistra e sulla propria
destra frazioni diverse dell'area totale . Si osservi comunque che al crescere di n
lintervallo a code uguali tende a coincidere con lintervallo pi corto cos che in genere,
per semplificare i calcoli, lintervallo di confidenza della varianza viene determinato sulla
base dei due quantili di ordine /2 e 1/2.
Anche per quanto riguarda l'intervallo di confidenza della varianza, quando il campione
molto numeroso, pu essere utilizzata la distribuzione asintotica della statistica 10.3.4
che per n elevato tende a distribuirsi come una v.c. normale standard.
Dallespressione
S 2 2
P 2
u1 /2 /2
2/(n 1)
si ottiene
S 2
/2 .
P 2
u
2/(n
1)
1 /2
S 2 2
P 2
u1 /2 /2
2/(n 1)
si ottiene
S 2
/2 ,
P 2
1 u1 /2 2/(n 1)
S 2
S 2
.
,
1 u
2/(n
1)
1
u
2/(n
1)
1/2
1/2
221
0,66 2
0,66 2
.
,
1 1,645 2/242 1 1,645 2/242
p1 - p
, ossia dalla varianza della quota campionaria. Si pu per ottenere una
n
P - p
N(0, 1)
P 1- P
per n
P P p u1 / 2 P (1 P )/n / 2
P P p u1 / 2 P (1 P )/n / 2
222
P u1 / 2 P (1 P )/n .
0,65 2,576
0,65 0,35
.
1000
223
moneta stessa e registrare quindi il numero di teste e di croci ottenute. Ovviamente si sar
portati a ritenere plausibile lipotesi che la moneta sia equilibrata se le frequenze associate
alle teste ed alle croci non risultano molto diverse fra di loro, mentre in caso contrario si
sar portati a ritenere che la moneta sia sbilanciata.
E' chiaro per che sulla base delle informazioni parziali fornite da un campione, per
quanto numeroso esso sia, non sar in genere possibile stabilire con certezza se
un'ipotesi vera oppure falsa, dato che uno stesso risultato pu derivare da popolazioni
con strutture diverse. Nel procedimento appena descritto entra infatti in gioco il fattore
casuale, per cui in teoria possibile lanciare una moneta equilibrata 100 volte ed ottenere
un numero di teste che va da 0 a 100, anche se ovviamente alcuni risultati sono molto
meno probabili di altri.
Un qualsiasi criterio di decisione, quindi, comporter necessariamente il rischio di
commettere un errore che consiste nel rifiutare lipotesi quando vera oppure
nellaccettarla quando falsa. Nel caso della moneta, per esempio, il risultato campionario
potrebbe segnalare che la moneta equilibrata anche se la moneta fosse invece
sbilanciata oppure i risultati ottenuti potrebbero indicare che la faccia testa ha una
probabilit molto maggiore della faccia croce anche se la moneta fosse equilibrata o,
addirittura, se alla faccia croce fosse associata una probabilit maggiore di quella
associata allaltra faccia.
Nelle pagine seguenti prenderemo esplicitamente in considerazione solo la probabilit
di rifiutare un'ipotesi quando vera e faremo riferimento, quindi, ai cosiddetti tests di
significativit.
In generale lipotesi che si vuole verificare detta ipotesi nulla (o ipotesi zero) e viene
indicata in modo sintetico con la notazione
H0:
seguita dal suo enunciato formale, dove H liniziale del termine inglese Hypothesis.
Se si vuole verificare lipotesi che un certo parametro della distribuzione di una
variabile assume nella popolazione il valore 0, questa ipotesi viene specificata nel modo
seguente
H0 : 0.
11.3.1
224
Nel caso della moneta, se indichiamo con p la probabilit associata alluscita della
faccia testa, lipotesi che la moneta sia bilanciata pu essere quindi espressa da
H0 : p=0,5.
E ovvio che saremo portati a ritenere che la moneta sia equilibrata se, lanciando un
adeguato numero di volte la moneta, otterremo una quota campionaria di teste prossima al
valore 0,5 mentre al crescere della differenza fra il risultato campionario ottenuto e il valore
0,5 saremo sempre pi portati a ritenere che la moneta sia sbilanciata.
In generale, quindi, unipotesi sul valore del parametro pu essere considerata tanto
pi verosimile quanto pi il valore t0 della stima campionaria di risulta probabile se si
assume come vera lipotesi H0. In altri termini, la regola di decisione su cui si basano i
tests di significativit consiste nellaccettare lipotesi H0 se il valore t0 della stima
campionaria di rientra nellinsieme dei risultati pi probabili sotto H0 e nel rifiutarla in
caso contrario.
Per controllare se il risultato campionario effettivamente ottenuto un risultato probabile
quando il parametro uguale a 0 necessario fare riferimento alla distribuzione di
probabilit dello stimatore T del parametro ignoto sotto ipotesi nulla.
Nellesempio della moneta, ipotizzando lindipendenza dei lanci, la distribuzione dello
stimatore P "quota di teste ottenute nei lanci" sotto H0 una binomiale
f p pnp 1 pn1p
np
p 0,1/n, 2/n,...,1
225
La regola di decisione consiste quindi nel ritenere verosimile lipotesi nulla se la stima
campionaria ottenuta p compresa nellintervallo dei risultati pi probabili e nel rifiutarla
se p cade allesterno.
Il procedimento adottato, quindi, consiste nel creare una bipartizione dellinsieme dei
possibili risultati campionari, che viene suddiviso in una regione di accettazione
dellipotesi nulla e in una regione di rifiuto, che viene anche detta regione critica.
Questa regola di decisione comporta una probabilit di commettere un errore che
consiste nel rifiutare lipotesi nulla quando vera, dato che evidentemente possibile
ottenere un risultato campionario esterno allintervallo considerato quando H 0 vera. La
probabilit dellerrore che consiste nel rifiutare lipotesi nulla quando vera viene indicata
mediante la lettera e viene detta errore di prima specie o livello di significativit.
Lerrore di prima specie quindi la probabilit di ottenere, quando vera lipotesi nulla, un
risultato campionario che risulta compreso nella regione di rifiuto dellipotesi.
Nel caso della moneta, la regione di accettazione dellipotesi nulla sar interna ai due
quantili di ordine /2 e 1/2 che rispettivamente isolano unarea pari ad /2 sulla sinistra
e sulla destra della distribuzione dello stimatore P sotto H0. Le due regioni di rifiuto
saranno invece posizionate lungo le code di questa distribuzione.
In generale per verificare una qualunque ipotesi 11.3.1, si sceglie uno stimatore T di
e si fa riferimento alla sua distribuzione di probabilit determinata come se 0 fosse il vero
valore di . Questa la cosiddetta distribuzione dello stimatore sotto ipotesi nulla.
Una volta scelto il livello di probabilit , gli estremi dellintervallo di accettazione
dellipotesi nulla, detti valori critici, spesso corrispondono ai due quantili che in questa
distribuzione isolano il primo sulla sua sinistra ed il secondo sulla sua destra una
probabilit pari ad /2.
Come abbiamo visto, la regola di decisione consiste nel rifiutare lipotesi nulla quando il
valore campionario t di T risulta compreso nella regione critica. In questo caso si dice
anche che il valore della statistica significativo.
Allintervallo di accettazione associata evidentemente una probabilit pari ad 1,
cosicch la regola di decisione porter nel 100(1)% dei casi a non rifiutare lipotesi e nel
100% dei casi a rifiutarla anche se vera. L'essere disposti ad accettare il rischio di
commettere un errore quindi consente, se vera lipotesi H0, di decidere correttamente nel
100(1)% dei casi.
226
dellipotesi
nulla,
questo
risultato
non
implica
che
lipotesi
sia
necessariamente vera. E evidente infatti che in generale t0 rientra anche nellinsieme dei
risultati pi probabili sotto altre ipotesi diverse da H0 e risulta quindi compreso
nellintervallo di accettazione associato a queste ipotesi.
11.4.1.1
0 u1 / 2
0 u1 / 2
n
,
n
227
che isolano rispettivamente a sinistra e a destra della distribuzione unarea pari ad /2.
Gli intervalli
, 0 u1 / 2
0 u1 / 2
,
n
0 u1 / 2
0 u1 / 2
228
Se la media campionaria calcolata sul campione estratto risulta compresa nella regione
di accettazione si conclude affermando che, al livello di significativit prestabilito, non si
ha motivo di rifiutare lipotesi nulla o che questa ipotesi risulta compatibile con il risultato
campionario. Se, invece, la media campionaria cade in una delle due regioni critiche
lipotesi viene rifiutata al livello di significativit .
Per chiarire laffermazione riguardo leventuale compatibilit dellipotesi nulla con il
risultato campionario ottenuto si osservi la figura successiva nella quale sono
rappresentate le distribuzioni della media campionaria X per alcuni valori di ed i
corrispondenti intervalli di accettazione (le curve sono riportate su assi diversi per ragioni
di chiarezza, ma devono intendersi affiancate sullo stesso asse). Come si vede, il risultato
campionario x 0 di X contenuto contemporaneamente negli intervalli di accettazione di
tutto un insieme di ipotesi diverse.
Figura 11.4.1.1
Grafico delle distribuzioni della media campionaria per alcuni valori di
x0
Nella figura sono evidenziati i valori 1 e 2 che costituiscono rispettivamente il valore
pi basso e quello pi alto di che, dato il livello di significativit scelto, non possono
essere rifiutati. Si osservi infatti che x 0 coincide con l'estremo destro dell'intervallo di
accettazione associato a 1 e con l'estremo sinistro dell'intervallo associato a 2, cosicch
tutti i valori di compresi fra 1 e 2 costituiscono linsieme di ipotesi che non possono
essere rifiutate e che risultano quindi compatibili con il valore della media campionaria x 0 .
229
x 0
230
x 0
>u1/2
x 0
t n 11 /2
s n
al livello di significativit dell'1% basta tenere presente che t 9(0,995) = 3,25. Dato che in
questo caso il valore della statistica uguale a
10,80 10
1,263 ,
2 10
v Risebrough R.W. (1972), Effects of environmental pollutants upon animals other than man. Proceedings of the 6th Berkeley
Symposium on Mathematics and Statistics, VI. California: University of California Press, 443-463.
231
spessore medio del guscio sia pari a 0,3 millimetri al livello di significativit = 0,05. In
questo caso, per la verifica dellipotesi
H0 : 0,30
si utilizza la statistica 10.2.5 ed il quantile della normale standardizzata di ordine 0,975.
Dato che si ottiene
0,32 0,30
0,08
65
H0 : 2 02 ,
sulla base di un campione di n elementi, si utilizza la statistica 10.3.3 che, sotto ipotesi
nulla, si distribuisce come una chi-quadrato con n1 gradi di libert.
Anche in questo caso, per semplicit nei calcoli, la regione critica viene collocata lungo
le due code della distribuzione delimitate dai quantili n2 1 / 2 e n211 / 2 che nella
f.d. della variabile chi-quadrato con n1 g.d.l. isolano sulla loro sinistra e sulla loro destra
due aree pari ad /2. Se risulta che il valore della statistica cade fuori dall'intervallo cos
costruito, si conclude che il valore significativo e si rifiuta l'ipotesi.
Per verificare per esempio l'ipotesi
H0 : 2 = 4
sulla base dei dati della tabella 9.3.1 al livello di significativit del 10%, sufficiente tenere
presente che i due quantili della f.d. della variabile chi-quadrato con 9 g.d.l. sono 3,325 e
16,92. Poich i dati campionari forniscono un valore della statistica pari a
232
3,61
8,12
4
che compreso nell'intervallo (3,325, 16,92) non ci sono motivi per rifiutare l'ipotesi.
Anche in questo caso, se il campione sufficentemente numeroso, si pu utilizzare la
distribuzione asintotica 10.3.4 calcolata sotto ipotesi nulla, per cui non si avr motivo di
rifiutare lipotesi nulla se risulta verificata la seguente disuguaglianza
S 2 02
02 2/(n 1)
u1- /2 .
11.4.2.1
17,5 20
20 2 / 499
1,97
cos che lipotesi va rifiutata al livello di significativit del 5%. Questa stessa ipotesi non
sarebbe stata invece rifiutata se si fosse scelto un livello di significativit dell1%.
H0 : p = p0
233
p0 (1 p0 )/n .
Per la verifica dell'ipotesi ad un livello di significativit , basta quindi confrontare il
valore della statistica
p p 0
11.4.3.1
p 0 (1 p 0 )/n
H0 : p = 0,05
mentre la quota campionaria di individui disoccupati pari al 6%. La statistica 11.4.3.1
assume quindi il valore
0,06 0,05
0,05 0,95
5000
3,24
per cui, tenendo presente che il quantile di riferimento della normale standardizzata
u0,995=2,576, lipotesi viene rifiutata al livello di significativit 0,01.
11.4.4 Verifica delluguaglianza fra le medie di due popolazioni
In molte situazioni reali lo scopo dellindagine consiste nel confronto fra due o pi
popolazioni, come nel caso in cui si volesse verificare se due diversi fertilizzanti portano a
234
risultati diversi nella produttivit per ettaro o se due diversi farmaci possono essere
considerati equivalenti nella cura di una determinata malattia.
In casi come questi sembra naturale verificare lipotesi che non esistono differenze
significative fra le produttivit o fra i tempi di guarigione. Questa ipotesi particolarmente
rilevante dato che la sua accettazione porterebbe a concludere che fra i due fertilizzanti e
fra i due medicinali non esiste alcuna reale differenza, per cui la scelta potrebbe essere
effettuata semplicemente sulla base di considerazioni economiche
Se invece le eventuali differenze ottenute nei due diversi gruppi sono cos grandi da
non poter essere imputate al solo effetto di fattori casuali, si potrebbe concludere che uno
dei due fertilizzanti consente di ottenere un risultato migliore rispetto allaltro e che il tempo
di guarigione rilevato nel gruppo di pazienti trattati con un farmaco significativamente
diverso del tempo di guarigione nel gruppo di pazienti trattato con laltro.
In genere lipotesi che si vuole verificare riguardano i valori medi di una variabile Z
esaminata in due (o pi) popolazioni distinte, come quando si volesse verificare se esiste
o meno una differenza significativa nel rendimento di titoli diversi, nei punteggi ottenuti ad
un esame da gruppi di studenti che hanno utilizzato testi differenti, nella durata di
funzionamento di prodotti ottenuti con macchinari diversi e cos via.
Per semplicit ci occuperemo del caso in cui i gruppi presi in esame sono soltanto due
e supporremo inoltre che siano verificate le condizioni standard che ipotizzano che la
variabile abbia una distribuzione normale con uno stesso valore della varianza in
entrambe le popolazioni. Questultima ipotesi costituisce la cosiddetta condizione di
omoschedasticit, sotto la quale si ottengono abbastanza facilmente le distribuzioni della
statistica test (se i valori delle varianze sono invece diversi fra di loro, si parla di
condizione di eteroschedasticit).
Indicate con X1 e con X2 la variabile Z rilevata nella prima e nella seconda popolazione,
le condizioni standard sono che X1 e X2 abbiano distribuzione normale con medie 1 e 2 e
2
la stessa varianza .
Lipotesi di base assume quindi la forma
H0 : 1 = 2
11.4.4.1
e la sua verifica si basa sui valori dei due stimatori delle medie X1 e X 2 forniti dai due
campioni indipendenti di numerosit n1 ed n2.
235
X1 X 2 ,
che, vista lindipendenza fra variabili, si distribuisce in modo normale con media pari alla
differenza delle medie e varianza pari alla somma delle varianze.
Sotto ipotesi nulla, quindi, la variabile
X1 X 2
/ n1 / n 2
2
X1 X 2
11.4.4.2
n1 n 2 / n1n 2
S
2
n1 1S 12 n 2 1S 22
11.4.4.3
n1 n 2 2
che corrisponde alla media aritmetica delle due varianze campionarie corrette, ponderate
con i rispettivi gradi di libert e che viene chiamata varianza pooled.
La verifica del sistema di ipotesi 11.4.1.1 si basa quindi sulla statistica test
X1 X 2
S n1 n 2 / n1n 2
che, sotto ipotesi nulla, si distribuisce come una t di Student con n1+n22 gradi di libert.
E ovvio che lipotesi di uguaglianza delle medie viene rifiutata per valori alti della
statistica presa in valore assoluto e quindi viene accettata se
x1 x 2
s n1 n 2 /n1n 2
t n1 n2 2 1 /2 .
11.4.4.4
236
Supponiamo, per esempio, che si voglia verificare se laltezza delle piante sottoposte a
due diversi metodi di coltura sia differente o meno ad un livello di significativit =0,01
sapendo che su due campioni di piante, entrambi di numerosit pari a 12, sottoposte ai
due diversi tipi di coltura, stata rilevata la variabile X, altezza in centimetri, ottenendo i
seguenti valori delle medie aritmetiche e delle varianze corrette
x 1 96,58
s 12 25,17
x 2 90,92
s 22 28,99
La stima della varianza comune delle due popolazioni si ottiene applicando la 11.4.4.3 e
risulta pari a
s2
11 25,17 11 28,99
27,08
22
e la verifica dellipotesi 11.4.4.1 di uguaglianza sulle medie si basa sulla statistica 11.4.4.4
che assume il valore
96,58 90,92
5,20 12 12 / 144
2,67.
Dato che il quantile di ordine 0,995 della t con 22 g.d.l. risulta uguale a 2,819 si
conclude che lipotesi di uguaglianza delle medie nelle due popolazioni risulta compatibile
con i dati campionari raccolti al livello di significativit dell1%.
Anche in questa situazione, se i gradi di libert della t sono molto elevati, i suoi quantili
sono approssimati dai corrispondenti quantili della variabile normale standard e la regola
di decisione viene quindi effettuata con riferimento al quantile u1/2.
237
che non si abbiano informazioni sulla distribuzione della variabile nella popolazione da cui
il campione stato estratto.
In alcuni casi tuttavia, sulla base delle informazioni parziali in nostro possesso e di
considerazioni di varia natura, siamo in grado formulare delle ipotesi circa questa
distribuzione ignota.
In analogia con le situazioni che abbiamo esaminato in precedenza, il problema diventa
allora quello di verificare se lipotesi distributiva possa essere ritenuta compatibile con i
dati campionari raccolti o se questi ultimi ci spingano invece a ritenerla poco verosimile.
Le ipotesi di questo tipo vengono verificate attraverso i cosiddetti test funzionali che
possono essere utilizzati anche in situazioni diverse come, per esempio, quando si ha
interesse a confrontare la distribuzione di una variabile rilevata su due diverse popolazioni
oppure su una stessa popolazione in tempi diversi, al fine di valutare se questa
distribuzione si sia modificata con il passare del tempo.
Supponiamo di voler verificare se una certa variabile Z ha una funzione di ripartizione
F0(z) che, a seconda dei casi, pu essere completamente specificata, nel senso che
lipotesi riguarda anche il valore dei parametri che compaiono nel modello, oppure solo
parzialmente specificata, nel senso che non viene fatta nessuna ipotesi su alcuni o su tutti
i parametri del modello, ma solo sulla sua forma funzionale.
Lipotesi nulla assumer la forma
H0 : Fz F0 z
11.4.5.1
ed il criterio generale per la sua verifica si basa sul confronto fra la distribuzione sotto
ipotesi nulla e la distribuzione della variabile nella popolazione, dove questultima viene
stimata attraverso i dati campionari raccolti, ossia attraverso la distribuzione della v.c. X
valore di Z sullindividuo estratto.
Sempre come criterio generale sar quindi necessario individuare una qualche statistica
test in grado di misurare la diversit fra le due distribuzioni e determinare la sua
distribuzione di probabilit, in modo da individuare una conveniente regione critica.
Cominciamo con il considerare il caso in cui siamo in grado di formulare unipotesi
completa sulla funzione di ripartizione, specificando quindi anche il valore dei parametri
che compaiono nel modello.
238
P(Z=zi) = pi
la probabilit che Z assuma la generica determinazione zi.
Lipotesi da verificare pu essere espressa nel modo seguente
H0 : pi p0i
i=1,2,k
fi=ni/n.
E evidente che quanto pi i valori fi e p 0i risultano simili fra di loro, tanto pi saremo
portati a ritenere verosimile lipotesi nulla, mentre al crescere delle differenze fra valori
osservati e valori sotto ipotesi nulla saremo portati a rifiutare lipotesi di base.
Una statistica in grado di valutare complessivamente le differenze fra le k coppie di
valori fi e p 0i il noto test chi-quadrato di Pearson, che assume la forma
k21
n
i1
fi p0i 2 .
11.4.5.2
p0i
Si vede subito come la 11.4.5.2 possa assumere solo valori non negativi e risulti pari a
zero solo quando le frequenze relative campionarie sono tutte uguali alle corrispondenti
probabilit sotto ipotesi nulla, mentre assume valori via via crescenti al crescere delle
differenze fra i valori di queste coppie.
239
La distribuzione della statistica sotto ipotesi nulla per n tende ad una distribuzione
chi-quadrato con un numero di gradi di libert pari a k1 e cio al numero di
determinazioni diverse della variabile casuale X diminuito di 1. E chiaro che lipotesi viene
rifiutata per valori alti della statistica e quindi, fissato il livello di significativit , la regione
di rifiuto posizionata alla destra del quantile k21 1 .
Va osservato che affinch questa distribuzione asintotica possa essere utilizzata
necessario che ciascuno dei prodotti np 0i fra le probabilit teoriche e la numerosit
campionaria risulti maggiore o uguale a 5.
Supponiamo, per esempio, di aver lanciato 1800 volte un dado per verificare se sia
effettivamente equilibrato e di aver ottenuto i risultati riportati nella tabella successiva
Tabella 11.4.5.1
Distribuzione dei risultati ottenuti lanciando un dado
X
1
2
3
4
5
6
Totale
Frequenze
assolute
324
342
306
270
270
288
1800
Frequenze
relative
0,18
0,19
0,17
0,15
0,15
0,16
1,00
H0 : pi
1
6
i 1,2,..., 6
...
0,1 6
0,1 6
0,1 6
240
dove F(.) indica la f.r. teorica della Z. Queste probabilit vengono poi confrontate con le
frequenze relative delle classi corrispondenti calcolate sul campione osservato e la
valutazione dellentit di queste differenze si valuta attraverso la statistica vista in
precedenza in cui le p0i vengono sostituite dalle p0i
k21
n
i1
fi p0i 2 .
11.4.5.3
p 0i
241
Tabella 11.4.5.2
Esempio di distribuzione osservata e teorica
X
Fino a 2
2 -|1
1 -| 0
0 -| 1
1 -| 2
Oltre 2
Totale
Frequenze
relative
0,040
0,110
0,350
0,340
0,120
0,040
1,000
Probabilit
teoriche
0,023
0,136
0,341
0,341
0,136
0,023
1,000
Come si vede dalla tabella il prodotto delle probabilit teoriche per la numerosit del
campione (n=250) sempre maggiore di 5 ed quindi possibile utilizzare la distribuzione
asintotica che corrisponde ad una chi-quadrato con 6-1=5 gradi di libert.
Il valore della statistica test 11.4.5.3 assume il valore
52
0,04 - 0,0232
250
...
8,056
0,023
0,136
0,023
per cui, fissato un livello di significativit pari a =0,05, non si ha motivo di rifiutare lipotesi
nulla dato che il quantile della chi-quadrato con 5 gradi di libert che isola alla sua destra
unarea pari ad corrisponde a 11,07.
Si osservi, infine, che se lipotesi nulla si riferisce alla sola forma della distribuzione
della variabile (discreta o continua), senza specificare il valore dei parametri che la
caratterizzano, il test viene effettuato sostituendo al valore di questi parametri le
corrispondenti stime ottenute sul campione osservato.
Lunica differenza rispetto al caso precedentemente esaminato sta nel numero dei gradi
di libert della distribuzione chi-quadrato asintotica che, supposto pari a q il numero dei
parametri stimati, da k1 diventa kq1.
Supponiamo, per esempio, che su un campione di numerosit 100 si siano rilevati i
valori di una variabile Z ottenendo una media pari a 120 e una varianza campionaria
corretta pari a 16. Si vuole verificare se il modello normale risulta adeguato per
approssimare la distribuzione della variabile Z nella collettivit sulla base dei valori riportati
nella tabella successiva, nella quale la prima colonna riporta gli estremi delle classi e la
242
Tabella 11.4.5.3
Esempio di distribuzione osservata e teorica
X
Fino a 116
116 -| 118
118 -| 120
120 -| 122
122 -| 124
Oltre 124
Totale
Frequenze
assolute
10
16
27
25
15
7
100
Frequenze
relative
0,10
0,16
0,27
0,25
0,15
0,07
1,000
Probabilit
teoriche
0,159
0,150
0,191
0,191
0,150
0,159
1,000
26 2 1
0,07 - 0,1592
100
...
12,3278
0,159
0,15
0,159
per cui, fissato un livello di significativit pari a =0,05, lipotesi di distribuzione normale va
rifiutata dato che il quantile di riferimento della chi-quadrato con 3 gradi di libert pari a
7,815.
243
In pratica si sta tornando a considerare largomento trattato nel corso del paragrafo 6.2,
con la sola differenza che i dati raccolti, sistemati in una tabella a doppia entrata, si
riferiscono ai soli individui che sono entrati a far parte del campione. Si vuole quindi
verificare, sulla base delle osservazioni campionarie raccolte, se si pu accettare o meno
lipotesi che le due variabili nella collettivit sono indipendenti o meno.
Lipotesi da verificare pu essere espressa nel modo seguente
H0 : p ji pij* pi p j
i=1,2,k;
j=1,2,q
11.4.6.1
dove le probabilit congiunte teoriche p ij* associate alla generica coppia di determinazioni
zi della Z e wj della W corrispondono al prodotto delle corrispondenti probabilit marginali
associate alle due variabili.
In analogia a quanto visto nel paragrafo precedente, il generico valore di probabilit p ij*
deve essere confrontato con la corrispondente stima campionaria data dalla frequenza
relativa osservata
fij=nij/n.
Una statistica in grado di valutare complessivamente le differenze fra le kq coppie di
differenze fra le probabilit stimate sotto ipotesi di indipendenza e le frequenze relative
campionarie osservate assume la forma
2k 1q1 n
i1 j1
ij
p ij*
11.4.6.2
p ij*
Sotto lipotesi nulla 11.4.6.1 e per n la statistica 11.4.6.2 tende ad una distribuzione
chi-quadrato con un numero di gradi di libert pari a (k1)(q-1) sempre che il prodotto fra
ciascuna delle probabilit teoriche e la numerosit campionaria complessiva sia almeno
pari a 5.
244
Anche in questo caso lipotesi nulla viene rifiutata per valori alti della statistica per cui,
fissato il livello di significativit , la regione di rifiuto posizionata alla destra del quantile
2k 1q 1 1 .
Supponiamo, per esempio, che si voglia verificare lipotesi di indipendenza fra due
variabili Z e W al livello di significativit =0,01 sapendo che su un campione di 100
elementi si sono ottenuti i risultati riportati nella tabella successiva dove X e Y sono
rispettivamente le variabili casuali valore di Z sullindividuo estratto e valore di W
sullindividuo estratto.
Tabella 11.4.6.1
Esempio di distribuzione bivariata su 100 individui (quote)
Y
totale
0,02
0,25
0,25
0,52
0,18
0,25
0,05
0,48
0,20
0,50
0,30
1,00
X
a
b
c
totale
totale
0,096
0,240
0,144
0,480
0,200
0,500
0,300
1,000
X
a
b
c
totale
0,104
0,260
0,156
0,520
da cui si vede come il prodotto fra i valori delle probabilit teoriche congiunte moltiplicate
per n=100 risulti sempre maggiore di 5 unit.
La statistica 11.4.6.2 assume il valore
...
0,104
0,096
0,144
245
e lipotesi nulla di indipendenza va quindi rifiutata perch la statistica risulta maggiore del
quantile 9,21 che nella chi-quadrato con 2 gradi di libert isola alla sua sinistra unarea
1=0,99.
246
APPENDICE
247
Tavola A
Funzione di ripartizione della variabile casuale normale standardizzata
u
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,500
0,504
0,508
0,512
0,516
0,520
0,524
0,528
0,532
0,536
0,1
0,540
0,544
0,548
0,552
0,556
0,560
0,564
0,567
0,571
0,575
0,2
0,579
0,583
0,587
0,591
0,595
0,599
0,603
0,606
0,610
0,614
0,3
0,618
0,622
0,626
0,629
0,633
0,637
0,641
0,644
0,648
0,652
0,4
0,655
0,659
0,663
0,666
0,670
0,674
0,677
0,681
0,684
0,688
0,5
0,691
0,695
0,698
0,702
0,705
0,709
0,712
0,716
0,719
0,722
0,6
0,726
0,729
0,732
0,736
0,739
0,742
0,745
0,749
0,752
0,755
0,7
0,758
0,761
0,764
0,767
0,770
0,773
0,776
0,779
0,782
0,785
0,8
0,788
0,791
0,794
0,797
0,800
0,802
0,805
0,808
0,811
0,813
0,9
0,816
0,819
0,821
0,824
0,826
0,829
0,831
0,834
0,836
0,839
1,0
0,841
0,844
0,846
0,848
0,851
0,853
0,855
0,858
0,860
0,862
1,1
0,864
0,867
0,869
0,871
0,873
0,875
0,877
0,879
0,881
0,883
1,2
0,885
0,887
0,889
0,891
0,893
0,894
0,896
0,898
0,900
0,901
1,3
0,903
0,905
0,907
0,908
0,910
0,911
0,913
0,915
0,916
0,918
1,4
0,919
0,921
0,922
0,924
0,925
0,926
0,928
0,929
0,931
0,932
1,5
0,933
0,934
0,936
0,937
0,938
0,939
0,941
0,942
0,943
0,944
1,6
0,945
0,946
0,947
0,948
0,949
0,951
0,952
0,953
0,954
0,954
1,7
0,955
0,956
0,957
0,958
0,959
0,960
0,961
0,962
0,962
0,963
1,8
0,964
0,965
0,966
0,966
0,967
0,968
0,969
0,969
0,970
0,971
1,9
0,971
0,972
0,973
0,973
0,974
0,974
0,975
0,976
0,976
0,977
2,0
0,977
0,978
0,978
0,979
0,979
0,980
0,980
0,981
0,981
0,982
2,1
0,982
0,983
0,983
0,983
0,984
0,984
0,985
0,985
0,985
0,986
2,2
0,986
0,986
0,987
0,987
0,987
0,988
0,988
0,988
0,989
0,989
2,3
0,989
0,990
0,990
0,990
0,990
0,991
0,991
0,991
0,991
0,992
2,4
0,992
0,992
0,992
0,992
0,993
0,993
0,993
0,993
0,993
0,994
2,5
0,994
0,994
0,994
0,994
0,994
0,995
0,995
0,995
0,995
0,995
2,6
0,995
0,995
0,996
0,996
0,996
0,996
0,996
0,996
0,996
0,996
2,7
0,997
0,997
0,997
0,997
0,997
0,997
0,997
0,997
0,997
0,997
2,8
0,997
0,998
0,998
0,998
0,998
0,998
0,998
0,998
0,998
0,998
2,9
0,998
0,998
0,998
0,998
0,998
0,998
0,998
0,999
0,999
0,999
3,0
0,999
0,999
0,999
0,999
0,999
0,999
0,999
0,999
0,999
0,999
248
Tavola B
Quantili della variabile casuale normale standardizzata
p
up
0,001
-3,090
0,005
-2,576
0,010
-2,326
0,025
-1,960
0,050
-1,645
0,100
-1,282
0,150
-1,036
0,200
-0,842
0,250
-0,674
0,300
-0,524
0,350
-0,385
0,400
-0,253
0,450
-0,126
0,500
0,000
0,550
0,126
0,600
0,253
0,650
0,385
0,700
0,524
0,750
0,674
0,800
0,842
0,850
1,036
0,900
1,282
0,950
1,645
0,975
1,960
0,990
2,326
0,995
2,576
0,999
3,090
249
Tavola C
Quantili della variabile casuale chi-quadrato con g gradi di libert
p
0,005
0,010
0,025
0,050
0,950
0,975
0,990
0,995
0,000
0,000
0,001
0,004
3,841
5,024
6,635
7,879
0,010
0,020
0,051
0,103
5,991
7,378
9,210
10,60
0,072
0,115
0,216
0,352
7,815
9,348
11,34
12,84
0,207
0,297
0,484
0,711
9,488
11,14
13,28
14,86
0,412
0,554
0,831
1,145
11,07
12,83
15,09
16,75
0,676
0,872
1,237
1,635
12,59
14,45
16,81
18,55
0,989
1,239
1,690
2,167
14,07
16,01
18,48
20,28
1,344
1,646
2,180
2,733
15,51
17,53
20,09
21,95
1,735
2,088
2,700
3,325
16,92
19,02
21,67
23,59
10
2,156
2,558
3,247
3,940
18,31
20,48
23,21
25,19
11
2,603
3,053
3,816
4,575
19,68
21,92
24,72
26,76
12
3,074
3,571
4,404
5,226
21,03
23,34
26,22
28,30
13
3,565
4,107
5,009
5,892
22,36
24,74
27,69
29,82
14
4,075
4,660
5,629
6,571
23,68
26,12
29,14
31,32
15
4,601
5,229
6,262
7,261
25,00
27,49
30,58
32,80
16
5,142
5,812
6,908
7,962
26,30
28,85
32,00
34,27
17
5,697
6,408
7,564
8,672
27,59
30,19
33,41
35,72
18
6,265
7,015
8,231
9,390
28,87
31,53
34,81
37,16
19
6,844
7,633
8,907
10,12
30,14
32,85
36,19
38,58
20
7,434
8,260
9,591
10,85
31,41
34,17
37,57
40,00
21
8,034
8,897
10,28
11,59
32,67
35,48
38,93
41,40
22
8,643
9,542
10,98
12,34
33,92
36,78
40,29
42,80
23
9,260
10,20
11,69
13,09
35,17
38,08
41,64
44,18
24
9,886
10,86
12,40
13,85
36,42
39,36
42,98
45,56
25
10,52
11,52
13,12
14,61
37,65
40,65
44,31
46,93
26
11,16
12,20
13,84
15,38
38,89
41,92
45,64
48,29
27
11,81
12,88
14,57
16,15
40,11
43,19
46,96
49,64
28
12,46
13,56
15,31
16,93
41,34
44,46
48,28
50,99
29
13,12
14,26
16,05
17,71
42,56
45,72
49,59
52,34
30
13,79
14,95
16,79
18,49
43,77
46,98
50,89
53,67
250
Tavola C
Quantili della variabile casuale chi-quadrato con g gradi di libert (segue)
p
0,005
0,010
0,025
0,050
0,950
0,975
0,990
0,995
31
14,46
15,66
17,54
19,28
44,99
48,23
52,19
55,00
32
15,13
16,36
18,29
20,07
46,19
49,48
53,49
56,33
33
15,82
17,07
19,05
20,87
47,40
50,73
54,78
57,65
34
16,50
17,79
19,81
21,66
48,60
51,97
56,06
58,96
35
17,19
18,51
20,57
22,47
49,80
53,20
57,34
60,27
36
17,89
19,23
21,34
23,27
51,00
54,44
58,62
61,58
37
18,59
19,96
22,11
24,07
52,19
55,67
59,89
62,88
38
19,29
20,69
22,88
24,88
53,38
56,90
61,16
64,18
39
20,00
21,43
23,65
25,70
54,57
58,12
62,43
65,48
40
20,71
22,16
24,43
26,51
55,76
59,34
63,69
66,77
41
21,42
22,91
25,21
27,33
56,94
60,56
64,95
68,05
42
22,14
23,65
26,00
28,14
58,12
61,78
66,21
69,34
43
22,86
24,40
26,79
28,96
59,30
62,99
67,46
70,62
44
23,58
25,15
27,57
29,79
60,48
64,20
68,71
71,89
45
24,31
25,90
28,37
30,61
61,66
65,41
69,96
73,17
46
25,04
26,66
29,16
31,44
62,83
66,62
71,20
74,44
47
25,77
27,42
29,96
32,27
64,00
67,82
72,44
75,70
48
26,51
28,18
30,75
33,10
65,17
69,02
73,68
76,97
49
27,25
28,94
31,55
33,93
66,34
70,22
74,92
78,23
50
27,99
29,71
32,36
34,76
67,50
71,42
76,15
79,49
251
Tavola D
Quantili della variabile casuale t di Student con g gradi di libert
p 0,900
0,950
0,975
0,990
0,995
1 3,078
6,314
12,71
31,82
63,66
2 1,886
2,920
4,303
6,965
9,925
3 1,638
2,353
3,182
4,541
5,841
4 1,533
2,132
2,776
3,747
4,604
5 1,476
2,015
2,571
3,365
4,032
6 1,440
1,943
2,447
3,143
3,707
7 1,415
1,895
2,365
2,998
3,499
8 1,397
1,860
2,306
2,896
3,355
9 1,383
1,833
2,262
2,821
3,250
10 1,372
1,812
2,228
2,764
3,169
11 1,363
1,796
2,201
2,718
3,106
12 1,356
1,782
2,179
2,681
3,055
13 1,350
1,771
2,160
2,650
3,012
14 1,345
1,761
2,145
2,624
2,977
15 1,341
1,753
2,131
2,602
2,947
16 1,337
1,746
2,120
2,583
2,921
17 1,333
1,740
2,110
2,567
2,898
18 1,330
1,734
2,101
2,552
2,878
19 1,328
1,729
2,093
2,539
2,861
20 1,325
1,725
2,086
2,528
2,845
21 1,323
1,721
2,080
2,518
2,831
22 1,321
1,717
2,074
2,508
2,819
23 1,319
1,714
2,069
2,500
2,807
24 1,318
1,711
2,064
2,492
2,797
25 1,316
1,708
2,060
2,485
2,787
26 1,315
1,706
2,056
2,479
2,779
27 1,314
1,703
2,052
2,473
2,771
28 1,313
1,701
2,048
2,467
2,763
29 1,311
1,699
2,045
2,462
2,756
30 1,310
1,697
2,042
2,457
2,750
252