Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Prob Stat Teoria Esercizi PDF
Prob Stat Teoria Esercizi PDF
PARTE PRIMA
PROBABILITA
CAPITOLO I - Gli assiomi della probabilit`
a
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1
1.2 Definizione assiomatica di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Assiomi della probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilit`a condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
CAPITOLO II - Variabili aleatorie
2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
2.1.2 Densit`a di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Distribuzioni notevoli in Probabilit`a e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
ii
iii
***********************************************
PARTE SECONDA
STATISTICA
CAPITOLO VI - Statistica descrittiva
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.6 Regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.7 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
iv
vi
t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
vii
Introduzione
Nel Calcolo delle Probabilit`a si elaborano modelli matematici per la valutazione rigorosa del concetto primitivo di probabilit`
a che un esperimento casuale si concretizzi
in un determinato evento. Ma cos`e la probabilit`a di un evento? Ne esistono almeno
quattro definizioni principali, da cui si originano altrettante teorie matematiche,
elaborate dalla seconda met`a del XXVII secolo fino ai giorni nostri. Esse sono:
1) Definizione classica: la probabilit`a P (A) di un evento A `e il rapporto tra il
numero NA dei casi favorevoli e il numero N dei casi possibili:
P (A) = NA /N.
E questa una definizione aprioristica, nel senso che P (A) `e definita senza far ricorso
ad alcuna effettiva prova sperimentale. La sua applicabilit`a `e limitata allo studio di
quel fenomeni casuali in cui si pu`o assumere che il numero N dei casi possibili sia
finito, e che questi siano tutti, a priori, egualmente probabili.
2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare
ai fisici, di frequenza relativa di un evento: se un esperimento `e ripetuto n volte, e
levento A si presenta nA volte, allora la sua probabilit`a `e il limite della frequenza
relativa:
P (A) = lim nA /n
n
quando il numero delle prove tende ad infinito. Questa definizione implica lipotesi
preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari
della definizione classica, ne restringe lapplicabilit`a a una classe piuttosto ristretta
di fenomeni casuali.
3) Definizione soggettivista, come misura di unopinione personale: la probabilit`a
di un evento `e il grado di fiducia che si ha nel verificarsi di esso. Per esempio:
1
1.2
Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilit`a `e un generico esperimento casuale, la cui singola esecuzione `e chiamata prova dellesperimento.
Il risultato (o esito) della prova si indica con . Linsieme di tutti i possibili esiti
costituisce lo spazio campione associato allesperimento casuale. Un evento A
relativo al medesimo esperimento `e un certo insieme di risultati , ovvero un sottoinsieme dello spazio campione . Se un risultato A, si dice che esso realizza
levento A. Se linsieme A `e costituito da un solo elemento , allora questultimo
prende il nome di evento elementare; altrimenti A `e un evento composto.
1.2.1
Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formalmente rappresentare come indicato nello schema riassuntivo di Fig.1.1.
Dati due eventi A, B , si dice che A implica B se `e A B.
I due eventi sono incompatibili se non esiste alcun risultato che realizzi sia
A che B, ovvero se `e A B = , dove `e linsieme vuoto.
Al contrario, se A e B non sono incompatibili, linsieme non vuoto (A B) `e
costituito da tutti i risultati che realizzano sia A che B.
Linsieme (AB) indica invece la realizzazione dellevento A, oppure dellevento
B, oppure di entrambi.
Se non si realizza un evento A, allora si realizza il suo complementare in A =
\ A in , negazione dellevento A. Ne segue subito che `e levento certo e
`e levento impossibile.
Figura 1.1
1.2.2
Campo di Borel
Ai B
2)
Ai B
Ai = \Ai B
[
i=1
3)
B;
Ai B;
Ai B
i=1
B.
1.2.3
Siamo ora in grado di attribuire una misura di probabilit`a a ciascun evento Ai la cui
collezione, come si `e appena visto, forma nel caso pi`
u generale un campo di Borel B.
Definizione 2. La probabilit`
a `e un funzionale P : B [0, 1] che verifica i seguenti
assiomi:
I.
II.
P () = 1
i 6= j,
Ai Aj =
II )
rII)
i 6= j, Ai Aj =
i 6= j, Ai Aj =
P
P
n
[
Ai
i=1
ni=1 Ai
n
X
P (Ai )
i=1
P (Ai )
i=1
P (Ai ) P (Aj )
C4. Ai B :
0 P (Ai ) 1
C5. Ai Aj 6= :
Ai
Aj
Ai
Aj
Aj
Ai
Figura 1.2
Si `e visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a
due incompatibili, costituiscono lo spazio campione = {1, 2, 3, 4, 5, 6}. Per gli
P
assiomi I e II si ha subito: P () = P ({1} {2} . . . {6}) = i P {i} = 1 e se
ammettiamo che ciascun evento elementare abbia uguale probabilit`a di realizzarsi
(ovvero se operiamo con un dado non truccato), la probabilit`a di ciascuno vale:
i = 1, .., 6 : P (i) = 1/6.
Sempre per lassioma II, levento composto: esce un numero pari ha probabilit`a
P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2
mentre luscita di un numero che non sia primo ha probabilit`a
P (4, 6) = P (4) + P (6) = 2/6 = 1/3.
Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elementari sono 62 = 36, e la probabilit`a che esca due volte lo stesso numero vale
P (11, 22, 33, 44, 55, 66) =
X
i
(1.1)
Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce
testa} e C = {esce croce}. Lo spazio campione associato ad una singola prova
`e = {T C}; se la moneta `e lanciata due volte si ha = {T T, T C, CT, CC} e per
n prove ripetute `e formato da 2n eventi elementari equiprobabili, con probabilit`a
1/2n . Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci
ripetuti della moneta si ha:
P {C nel secondo di due lanci } = 1/2
P {C nei primi due di tre lanci } = 1/4
P {T in due qualsiasi di quattro lanci } = 3/8
P {T per la prima volta alln-esimo lancio } = 1/2n .
kT
L(A)
k
=
=
,
n
nT
L()
1.3 Probabilit`
a condizionata
P (Ai ) =
Ne segue, tra laltro, che ogni punto t di ha probabilit`a nulla: P (t) = 0, t [0, T ]
poiche t `e un insieme di misura nulla.
1.3
Probabilit`
a condizionata
P (Ai Aj )
.
P (Aj )
(1.2)
Essa indica la probabilit`a che che si realizzi Ai sapendo che Aj si `e verificato; oppure:
la probabilit`a di Ai in una prova valida solo se si verifica anche Aj . Le probabilit`a
condizionate soddisfano tutte le propriet`a che discendono dagli assiomi I, II. In
particolare:
Se Ai Aj , allora Ai Aj = Ai e quindi:
Ai Aj
Se Ai Aj , allora Ai Aj = Aj e quindi:
Ai Aj
P (Ai | Aj ) = 1.
P (Ai | Aj ) = 0.
(1.3)
(1.4)
10
Da unurna contenente 6 palline bianche e 4 nere si estrae una pallina per volta,
senza reintrodurla nellurna. Indichiamo con Bi levento: esce una pallina bianca
alla i-esima estrazione e con Ni lestrazione di una pallina nera. Levento: escono
due palline bianche nelle prime due estrazioni `e rappresentato dalla intersezione
{B1 B2 }, e la sua probabilit`a vale, per la (1.3):
P (B1 B2 ) = P (B1 )P (B2 | B1 ).
Ora, P (B1 ) vale 6/10, perche nella prima estrazione `e costituito da 10 elementi:
6 palline bianche e 4 nere. La probabilit`a condizionata P (B2 | B1 ) vale 5/9, perch`e
nella seconda estrazione se `e verificato levento B1 lo spazio campione consiste di 5
palline bianche e 4 nere. Si ricava pertanto: P (B1 B2 ) = 1/3. In modo analogo si
ha che
P (N1 N2 ) = P (N1 )P (N2 | N1 ) = (4/10) (3/9) = 4/30.
Se lesperimento consiste nellestrazione successiva di 3 palline, la probabilit`a che
queste siano tutte bianche vale, per la (1.4):
P (B1 B2 B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 B2 )
dove la probabilit`a P (B3 | B1 B2 ) si calcola supponendo che si sia verificato levento
condizionante {B1 B2 }. Lo spazio campione per questa probabilit`a condizionata
`e allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 B2 ) = 1/2 e
quindi: P (B1 B2 B3 ) = (1/3) (1/2) = 1/6. La probabilit`a dellestrazione di tre
palline nere `e invece:
P (N1 N2 N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 N2 ) =
1.4
1
4 3 2
= . /
10 9 8
30
Eventi indipendenti
(1.5)
11
e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della probabilit`a dellevento Ai da esso statisticamente indipendente.
Si noti bene che il concetto di indipendenza `e del tutto differente da quello di incompatibilit`
a. In effetti, due eventi incompatibili (per i quali si ha Ai Aj = )
sono strettamente dipendenti statisticamente, poich`e il verificarsi delluno esclude il
verificarsi dellaltro. Per la propriet`a C2 del 1.2.3, la probabilit`a della loro intersezione `e nulla: P (Ai Aj ) = 0 e di conseguenza, per confronto con la (1.5), due
eventi incompatibili possono essere anche statisticamente indipendenti solo nel caso
banale in cui almeno uno di essi abbia probabilit`a nulla, ovvero sia quasi impossibile.
Se due eventi con probabilit`a non nulla sono statisticamente indipendenti, la legge
delle probabilit`a totali espressa dalla propriet`a C5 del 1.2.3 si modifica nella relazione seguente:
P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai )P (Aj ).
La definizione di indipendenza si estende al caso di un insieme finito o infinito di
eventi Ai , i quali si dicono statisticamente indipendenti se e solo se, per qualunque
sottoinsieme {A1 , . . . , An } di n eventi, si verifica la condizione:
P (A1 A2 . . . An ) = P (A1 )P (A2 ) P (An ).
(1.6)
Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero
minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente
indipendenti. Infatti, le loro probabilit`a valgono: P (A) = P (1, 2) = 1/3; P (B) =
P (2, 4, 6) = 1/2 e la probabilit`a della loro intersezione vale:
P {(1, 2) (2, 4, 6)} = P (2) = 1/6 P (A)P (B).
Come verifica, si pu`o osservare che la probabilit`a dellevento A condizionata da B
coincide con la sua probabilit`a non condizionata:
P {(1, 2) | (2, 4, 6)} =
Nel lancio ripetuto di una moneta (cfr. lEsempio 1.4) in cui lo spazio campione `e
= {T T, T C, CT, CC}, si considerino gli eventi composti: A1 = {T T, T C}, A2 =
12
n
Y
Pi .
i=1
Nel collegamento in parallelo, P (B) `e invece eguale alla probabilit`a che almeno un
componente sia operativo, e percio vale
P (B) = 1 P (A1 A2 .. An ) = 1
n
Y
(1 Pi ).
i=1
1.5
Formula di Bayes
13
1) i 6= j : Ai Aj =
2)
i=1 Ai
= .
La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili;
la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova
dellesperimento casuale si realizza uno e uno solo tra gli eventi Ai (v. Fig. 1.3).
A2
A3
E
A1
A4
A5
Figura 1.3
Definito un arbitrario evento E con probabilit`a non nulla, `e chiaro per le ipotesi
fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi Ai ,
che in tal senso si possono considerare come possibili cause dellevento E che `e
stato registrato.
La probabilit`a condizionata P (Ai | E), detta probabilit`
a a posteriori, `e quella che
attribuiamo ad Ai sapendo che si `e verificato E, ed `e legata alla probabilit`a a priori
P (Ai ) dalla seguente formula di Bayes:
P (Ai )P (E | Ai )
P (Ai | E) = X
.
P (Aj )P (E | Aj )
(1.7)
E =E=E(
Aj ) =
[
j
(E Aj ).
(1.8)
14
Ma per lipotesi 1) anche gli eventi (EAj ) ed (EAk ), con j 6= k, sono incompatibili
a due a due. Quindi per lassioma II si ha:
[
X
X
P (E) = P (E Aj ) =
P (E Aj ) =
P (Aj )P (E | Aj )
j
(1.9)
P (A3 | E) =
P (A3 )P (E | A3 )
= 0.287.
P (A1 )P (E | A1 ) + P (A2 )P (E | A2 ) + P (A3 )P (E | A3 )
15
Figura 1.4
Canale simmetrico
Supponiamo dapprima che i due eventi (esaustivi) X0 = {X = 0} e X1 = {X = 1}
si realizzino con probabilit`a P (X0 ) = 0.4 e P (X1 ) = 0.6; e inoltre che la probabilit`a
di errore nella trasmissione del segnale 0 sia uguale alla probabilit`a di errore nella
trasmissione del segnale 1, e valga P = 0.25. Si vuole determinare le probabilit`a
di ricevere 1 e di ricevere 0.
Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme 0 ed1. Se il segnale
trasmesso `e 0 esso ha, per ipotesi, probabilit`a P di essere distorto in 1. Quindi
P (Y1 | X0 ) = P = 0.25. Se invece il segnale trasmesso `e 1, ha probabilit`a
(1 P ) di essere ricevuto inalterato: P (Y1 | X1 ) = 0.75. Applicando la (1.9) si
ricava pertanto
P (Y1 ) = P (Y1 | X0 )P (X0 ) + P (Y1 | X1 )P (X1 ) = 0.25 0.4 + 0.75 0.6 = 0.55.
La probabili`a di ricezione del segnale nella forma 0 si calcola invece come segue:
P (Y0 ) = P (Y0 | X0 )P (X0 ) + P (Y0 | X1 )P (X1 ) = 0.75 0.4 + 0.25 0.6 = 0.45
o meglio, se gi`a si conosce P (Y1 ), come probabilit`a della negazione dellevento Y1 :
P (Y0 ) = P () P (Y1 ) = 1 0.55.
Canale non simmetrico
Supponiamo ora che la probabilit`a di trasmissione del segnale in forma non distorta
vari a seconda della forma del segnale trasmesso, e precisamente:
P (X0 non distorto) = 0.8,
1
2
+ 0.2 = 0.13.
3
3
16
1.6
Problemi risolti
3
11
12 13
+
=
52 52 52
26
12 13
3
=
.
52 52
52
'$
'$
&% &%
P (A B|C) =
P [(A B) C]
P (A C)
=
= P (A|C).
P (C)
P (C)
1.3. Nel lancio ripetuto di due dadi non truccati, la somma dei risultati `e un numero
pari. Quanto vale la probabilit`a di aver totalizzato 8 ?
Risposta: La probabilit`a che la somma sia 8 `e
P {8} = P {(6 + 2) (5 + 3) (4 + 4) (3 + 5) (2 + 6)} =
5
.
36
P {8 pari}
P {8}
5
=
=
.
P {pari}
0.5
18
17
P (A1 )P (C|A1 )
0, 5 0.5
1
=
= .
P (A1 )P (C|A1 ) + P (A2 )P (C|A2 )
0.5(0.5 + 0.5)
2
1.5. Se gli eventi A, B sono incompatibili, allora P (A) P (B). Vero o falso?
Risposta: Vero , perche se sono incompatibili allora A B = B da cui si
deduce, per gli assiomi della probabilit`a, che P (A) P (B).
1.6. Lurna A contiene 2 palline bianche e 3 nere; lurna B ne contiene 4 bianche e
1 nera; lurna C ne contiene 3 bianche e 4 nere. Si sceglie a caso unurna, e si estrae
una pallina bianca. Calcolare la probabilit`a che essa provenga dallurna C.
Soluzione. Le probabilit`a di scegliere a caso una delle tre urne sono uguali: P (A) =
P (B) = P (C) = 1/3. Indichiamo con E levento {estrazione di una pallina bianca}.
Le probabilit`a che essa sia estratta dallurna A, oppure B o C sono:
P (E|A) = 2/5;
P (E|B) = 4/5;
P (E|C) = 3/7
e la probabilit`a totale di estrarre una pallina bianca da una qualsiasi delle tre urne
vale
57
1 2 4 3
+ +
=
.
P (E) =
3 5 5 7
105
La probabilit`a di averla estratta dallurna C `e data dalla formula di Bayes:
P (C|E) =
5
P (C)P (E|C)
(1/3)(3/7)
=
=
.
P (E)
57/105
19
1.7. Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, la
probabilit`a che si guasti prima dellistante t vale 1 et ; se invece proviene dalla
ditta B questa probabilit`a vale 1e2t . Il prodotto pu`o essere acquistato con uguale
probabilit`a da A o da B, e non `e nota la ditta fornitrice. Tuttavia, `e stato osservato
che il prodotto si guasta in un intervallo di tempo 1 t 2. Determinare la
probabilit`a che esso sia stato acquistato dalla ditta A.
Soluzione. Indichiamo con E levento: {guasto in 1 t 2} e con P (A) = P (B) =
0.5 le probabilit`a che il prodotto provenga da A o da B. La probabilit`a di guasto
del prodotto A nellintervallo di tempo 1 t 2 vale
P (E|A) = 1 e2 [1 e1 ] = e1 e2
e quella del prodotto B nello stesso intervallo `e
P (E|B) = 1 e22 [1 e21 ] = e2 e4 .
18
P (A)P (E|A)
P (A)P (E|A) + P (B)P (E|B)
e2 (e 1)
e1 e2
=
' 0.6652 .
e1 e2 + e2 e4
e3 1
1.8. Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori e
quattro di picche. Calcolare la probabilit`a che, scelte simultaneamente due carte a
caso, siano di seme diverso.
Soluzione. Indichiamo con {QQ}, {F F }, {P P } gli eventi: estrazione di due cuori,
2
2
= 1 evento {QQ};
3
2
4
2
= 3 eventi {F F };
= 6 eventi {P P }.
1
3
6
5
+
+
= .
36 36 36
18
13
.
18
1.9. Una sorgente emette una sequenza di tre segnali binari equiprobabili nella
forma 0 e 1. Sapendo che almeno due segnali sono stati emessi nella forma 1,
calcolare la probabilit`a che sia stato emesso 0 nella prima emissione.
Soluzione. Lo spazio campione contiene 23 = 8 eventi (= numero delle disposizioni
con ripetizione di 2 elementi a 3 a 3). Questi sono:
(000) (001) (011) (100) (010) (101) (110) (111)
e la probabilit`a che sia stato emesso 1 almeno due volte vale
P (E) P ( 1 per due o tre volte) =
4
= 0.5.
8
P [(primo 0) E]
1/8
=
= 0.25 .
P (E)
0.5
19
1.10. In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B ha
vinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagli
exit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il voto
su B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gli
exit-poll) il secondo turno?
Soluzione. Definiamo i seguenti eventi e le loro probabilit`a:
A1 = {voto per A al primo turno} :
P (A1 ) = 0.45
P (B1 ) = 0.55
E = {voto cambiato} :
P (E|A1 ) = 0.10,
P (E|B1 ) = 0.20.
P (B)P (E|B)
0.5 0.1
13
=
=
' 0.5652 .
P (A)P (E|A) + P (B)P (E|B)
0.5(0.1 + 1/13)
23
20
0.05
0.05 = 0.15 = 15% .
0.25
P (D|B) = 0.03,
P (D|C) = 0.04
P (C)P (D|C)
0.1 0.04
=
= 0.16 .
P (D)
0.025
1.14.Unurna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casualmente una pallina dallurna e, dopo averne osservato il colore, la si rimette nellurna
aggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto.
Calcolare la probabilit`a che in 4 estrazioni successive, effettuate secondo la regola
sopra stabilita, si ottenga la stringa (ordinata) BNNB.
Soluzione. Indichiamo con Bi , Ni (i = 1, . . . , 4) gli eventi: {si ha una pallina Bianca
(Nera) alla i-esima estrazione}. Dopo ogni estrazione cambia lo spazio campione, e
se gli esiti delle prime tre estrazioni seguono la sequenza voluta: B1 N2 N3 il numero
delle palline presenti nellurna quando avviene la i-esima estrazione si modifica come
segue:
i
1
2
3
4
Nere
1
4
6
8
Bianche
2
4
7
10
21
Allora si ha
2
P (B1 ) = ,
3
P (N2 |B1 ) =
P (N3 |N2 B1 ) =
6
,
13
4
1
= ,
8
2
P (B4 |N3 N2 B1 ) =
10
5
=
18
9
2 1 6 5
10
=
' 0.08547 .
3 2 13 9
117
1.15. Un segnale binario X, emesso nella forma 1 con probabilit`a P (X1 ) = 0, 75,
`e inviato su un canale di trasmissione non simmetrico nel quale la probabilit`a di
errore nella trasmissione di X1 vale p = 0, 08. Il segnale X `e ricevuto nella forma
Y = 1 con probabilit`a P (Y1 ) = 0, 70. Calcolare:
a) la probabilit`a P (Y1 |X0 ) che il segnale 0 sia ricevuto nella forma 1 ;
b) la probabilit`a totale di errore nella ricezione del segnale.
Soluzione.
a) La probabilit`a che X sia emesso nella forma 0 `e P (X0 ) = 1P (X1 ) = 0.25, e la
probabilit`a di una trasmissione corretta del segnale 1 `e P (Y1 |X1 ) = 10.08 = 0.92.
Per la formula delle probabilit`a totali, la probabilit`a (nota) che il segnale sia ricevuto
nella forma 1 si pu`o scrivere:
P (Y1 ) = 0.70 = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y1 |X1 ) = 0.25P (Y1 |X0 ) + 0.75 0.92
e risolvendo rispetto a P (Y1 |X0 ):
P (Y1 |X0 ) =
22
B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nellurna da cui
`e stata estratta, e sempre dalla stessa urna estrae una seconda pallina.
Quale tra le due procedure `e pi`
u conveniente per la vittoria di Luca?
Soluzione. Indichiamo con Ui la scelta di una delle due urne, con Ni levento:
{pallina nera alla i-esima estrazione} e con E levento {estrazione di almeno una
pallina bianca}. Si ha anzitutto:
IP(Ui ) = 0.5 ;
IP(E) = 1 IP(N1 N2 ).
IPA (E) = 1
1 p1 1 p2
+
2
2
= p1 + p2
(p1 + p2 )2
.
4
Con la procedura B, la probabilit`a di estrarre due Nere dalla medesima urna vale:
i = 1, 2 :
Quindi:
IP(N1 N2 ) = IP(U1 )IP(N1 N2 |U1 ) + IP(U2 )IP(N1 N2 |U2 )
= 0.5(1 p1 )2 + 0.5(1 p2 )2
e si ottiene:
"
(1 p1 )2 (1 p2 )2
IPB (E) = 1
+
2
2
#2
= p1 + p2
p21 + p22
.
2
VARIABILI ALEATORIE
2.1
Definizioni
23
24
VARIABILI ALEATORIE
x = X(w )
X
W
w
Ai
B i = X(A i )
X
P*
P
P(A i ) = P*(B i )
Figura 2.1
Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il
generico valore reale che essa pu`o assumere sar`a indicato con la lettera minuscola
corrispondente. La v.a. X() assume un valore x IR con una ben definita probabilit`a, che `e indotta in X() IR dalla probabilit`a P () che si verifichi . In
conclusione, una variabile aleatoria `e la trasformazione
X
(, B, P ) (IR, B , P )
che associa ad ogni elemento una coppia di numeri reali (x, P (x)) = (X(),
P ()) con P (x) = P () [0, 1].
Esempio 2.1
Nel lancio di una moneta per due volte, in cui = {T T, T C, CT, CC}, definiamo la
v.a. X() che a ciascuno dei 4 possibili eventi elementari associa un guadagno 1
se esce T , e una perdita di una unit`a se esce C. La v.a. X() assume allora tre
valori discreti:
x1 = X( = CC) = 2
x2 = X( = T C) = X( = CT ) = 0
x3 = X( = T T ) = 2
e limmagine di `e il sottoinsieme: X() = {2, 0, 2} IR. Poiche i quattro eventi
elementari sono equiprobabili con probabilit`a P () = 1/4, si ha che la probabilit`a
immagine, indotta in X() per ciascuno dei tre valori di X, vale rispettivamente:
P (2) = P (T T ) = 1/4
P (0) = P (T C CT ) = 1/2
P (2) = P (CC) = 1/4. /
2.1 Definizioni
2.1.1
25
Funzione di distribuzione
x+
ed `e continua a destra:
lim FX () FX (x+ ) = FX (x).
x+
FX (x) =
i
X
r=1
Pr ,
con
Pi = 1.
(2.1)
26
VARIABILI ALEATORIE
F (x)
F (x)
F (x)
.75
.25
-2
a) v.a. discreta
b) v.a. continua
.25
.75
c) v.a. mista
Figura 2.2
La v.a. definita nellEsempio 2.1 a proposito del lancio ripetuto di una moneta `e
discreta perche pu`o assumere solo i tre valori x1 = 2, x2 = 0, x3 = 2. La sua
funzione di distribuzione vale:
1/4
per
per
FX (x) = P (X x) =
3/4 per
1
per
x < 2
x [2, 0)
x [0, 2)
x2
(2.2)
U (x x ) =
1 per ogni x x
0 per ogni x < x .
(2.3)
(2.20 )
2.1 Definizioni
27
per x < 0
per x [0, 1]
per x > 1
(2.4)
`e tale che FX (0) = 0; FX (1) = 1 e la sua derivata FX0 (x) = 6x(1 x) `e non
negativa per ogni x [0, 1]. Essa pu`o dunque essere riguardata come la funzione di
distribuzione di una v.a. X() continua nellintervallo [0, 1], il cui grafico `e riportato
in Fig. 2.2b). /
Esempio 2.4
A2 = { : x ( 14 , 34 ] },
A3 = { : x ( 34 , 1] }
se A1
X() = x se A2
1 se A3 .
La sua funzione di distribuzione si calcola come segue:
x<0 :
1
4
3
4
0x
1
4 <x
3
4 <x<1
x1
:
:
:
:
F (x) = P (X < 0) = 0
F (x) = P (X
F (x) = P (X
F (x) = P (X
F (x) = P (X
(2.5)
1
4
0) = P (A1 ) =
0) + P ( 14 < X x) = 14 + (x 14 ) = x
0) + P ( 14 < X 34 ) = 34
0) + P ( 41 < X 34 ) + P (X 1) = 34 +
1
4
= 1.
2.1.2
Densit`
a di probabilit`
a
V.a. continue. Data una v.a. X() continua in X() IR e scelto un insieme
B X(), introduciamo la funzione integrabile fX (x) : IR [0, +) tale che
Z
fX (x)dx = P (X B).
(2.6)
fX (x) 0;
fX (x)dx = 1
(2.7)
28
VARIABILI ALEATORIE
f (x)
X
P(X
dP(w) = f X ( x )d x
x)
dx
x
Figura 2.3
fX (t)dt = P (X x) = FX (x)
(2.8)
Z x+dx
x
fX (t)dt
= fX (x)dx.
(2.9)
dFX (x)
dx
(2.10)
quasi ovunque in X(), ovvero: la densit`a di probabilit`a `e uguale alla derivata della
funzione di distribuzione di X(), tranne al pi`
u in un insieme di punti di misura
nulla, nei quali FX (x) non `e derivabile.
2.1 Definizioni
29
f X( x)
f X( x)
f X( x)
1/2
1/4
1/4
-2
1 x
a) v.a. discreta
b) v.a. continua
0 1/4
3/4
c) v.a. mista
Figura 2.4
Esempio 2.5
La v.a. continua con funzione di distribuzione definita dalla (2.3) dellEsempio 2.3,
ha come densit`a di probabilit`a la funzione
per x < 0
fX (x) = 6x(1 x) per x [0, 1]
0
per x > 1,
che `e un arco di parabola su un supporto di ampiezza unitaria, come mostrato in
Fig. 2.4b). /
V.a. discrete e miste. Affinche le formule precedenti continuino a valere in presenza di v.a. discrete o miste, `e necessario utilizzare la funzione impulsiva o funzione
delta di Dirac. Si tratta della funzione generalizzata cos` definita:
x
Z 6= x : (x x ) = 0 ,
(x x )dx = 1 ,
(x x ) `e infinita per x = 0
Z
(x)(x x )dx = (x )
U (x x ) =
Z x
( x )d.
Per mezzo della funzione impulsiva, la densit`a di una v.a. discreta che assume valori
in x1 , x2 , . . . con probabilit`a pi , i = 1, 2, . . . si pu`o esprimere nel modo seguente:
fX (x) =
X
i
pi (x xi )
con
X
i
pi = 1
(2.11)
30
VARIABILI ALEATORIE
(2.12)
La v.a. mista considerata nellEsempio 2.4 ha invece una densit`a che si pu`o esprimere
come segue:
fX (x) = U (x 41 ) U (x 34 ) + 14 (x) + 41 (x 1)
ed `e mostrata in Fig. 2.4c). La densit`a (2.11) di una v.a. discreta si scrive anche
spesso nella seguente forma semplificata:
fX (xi ) = pi ,
i = 1, 2, . . . ;
fX (x) = 0,
x 6= xi
2.2
Si chiama momento di ordine q di una v.a. reale X(), dotata di densit`a fX (x), la
quantit`a
Z
Z
E{X q } =
xq fX (x)dx =
X q ()P ()d
(2.13)
(per q intero positivo) se esiste, finito, lintegrale |x|q fX (x)dx. Se X() `e una
v.a. discreta, tenuto conto della (2.11) e della propriet`a integrale della funzione
impulsiva, i suoi momenti valgono:
q
E{X } =
pi
xq (x xi )dx =
pi xqi .
(2.14)
x fX (x)dx
(2.15)
X
i
pi xi ,
i = 1, 2, . . . .
(2.150 )
31
Z b
a
Z b
a
Fx (x)dx = b
Z b
a
FX (x)dx.
(2.15)
(x mX )q fX (x)dx
il pi`
u importante dei quali `e quello di ordine 2, chiamato varianza di X() e indicato
2 :
con X
2
X
= E{(X mX ) } =
(x mX )2 fX (x)dx.
(2.16)
pi (xi mX )2 .
2.160
i
2
X
Le dimensioni di
sono ovviamente diverse da quelle della v.a. cui si riferisce;
anche per questo motivo `e spesso usata la sua radice quadrata positiva X , che
`e chiamata scarto quadratico medio o deviazione standard, la quale conserva le
dimensioni di X().
La varianza si pu`o interpretare come il momento dinerzia della distribuzione di
probabilit`
a, rispetto alla retta baricentrica x = mX e, insieme con la deviazione
standard, `e un parametro che misura la dispersione della distribuzione rispetto al
suo valor medio. Dalla sua definizione si ricava:
2
X
=
32
VARIABILI ALEATORIE
ovvero:
2
X
= E{X 2 } E 2 {X}
dove E{X 2 } `e il momento (non centrale!) del secondo ordine di X(). E poich`e
2 0, ovvero
un momento di ordine pari non pu`o essere negativo, si ha sempre X
2
2
anche: E{X } E {X}.
Il significato della varianza `e ben illustrato dalla seguente
Diseguaglianza di Tchebyshev. Si pu`o dimostrare che data una v.a. X() con varianza finita, per ogni reale k > 0 risulta:
2
IP(|X mX | k) X
/k 2 .
Questa diseguaglianza mostra che la probabilit`a che X() assuma valori al di fuori di
un intorno di raggio k del suo valor medio, non supera il rapporto x2 /k 2 . Quindi, al
2 aumenta la probabilit`
decrescere di X
a che tutti i valori di X() siano concentrati
attorno al suo valor medio.
Una v.a. X() pu`o essere priva di alcuni suoi momenti, o anche di tutti: infatti,
perche esistano E{X q } con q = 1, 2, . . . devono esistere finiti gli integrali
R
|x|q fX (x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli.
Ad esempio, tutte le v.a. che hanno una densit`a di probabilit`a simmetrica, tale cioe
che fX (x) `e una funzione pari, hanno momenti di ordine dispari che sono nulli:
fX (x) = fX (x)
E{X q } = 0 per q = 1, 3, 5, . . .
perche definiti dallintegrale di una funzione dispari; e ci`o vale anche per le v.a.
discrete, se definite da una successione simmetrica di impulsi.
Daltra parte, accertata lesistenza dei momenti finiti di una v.a., non `e assicurato
che essi individuino la sua densita di probabilit`a fX (x). Infatti, possono esistere
variabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni di
probabilit`a. Perche una successione {E{X q }} di momenti individui univocamente
una densit`a di probabilit`a, devono essere soddisfatte ulteriori condizioni. Una di
queste `e la seguente, che citiamo senza dimostrazione.
Condizione sufficiente per lunicit`
a di fX (x). Data una successione di momenti
finiti di una v.a. X(), se esiste un k 6= 0 tale che
E{X 2q }
k 2q
0 per q +
(2q)!
(2.17)
33
Esempio 2.6
La v.a. discreta definita nellEsempio 2.1, che ha densit`a data dalla (2.12), ha
momenti di ordine dispari che sono nulli (infatti fX (x) `e simmetrica), e quelli di
ordine pari valgono:
E{X q } =
X
i
1
1
pi xqi = (2)q + 2q = 2(q1) ,
4
4
q = 2, 4, 6, . . .
2.3
2.3.1
(1/2)2q
22q (1/2)2q
1
=
=
0 per q +. /
(2q)!
2 (2q)!
2 (2q)!
1
per a x b ;
ba
fX (x) = 0
altrove.
(2.18)
Si noti che fX (x) soddisfa entrambe le condizioni (2.7) richieste ad una funzione
densit`a di probabilit`a. La funzione di distribuzione cumulata `e
FX (x) =
per x < a
per a x b
per x > b
(x a)/(b a)
fX( x )
FX ( x )
1
1
b-a
34
VARIABILI ALEATORIE
ed i momenti valgono
E{X q } =
Z b
a
xq
bq+1 aq+1
dx =
.
ba
(b a)(q + 1)
2.3.2
a+b
2
(b a)2
a2 + ab + b2
m2X =
.
3
12
Distribuzione normale
Una v.a. reale X() ha una distribuzione normale o gaussiana se la sua densit`a vale
"
(x mX )2
1
exp
,
fX (x) =
2
2X
2X
x IR
(2.19)
1
FX (x) =
2X
Z x
"
x mX
(x mX )2
1
exp
dx = + erf
2
2
X
2X
(2.20)
Z z
0
t2
e 2 dt,
x mX
,
X
(2.21)
35
1
f ( x)
X
FX ( x)
sX2 = 0.05
sX2 = 0.05
0.1
0.2
0.1
0.5
0.2
0.3
0.3
mX
mX
FZ (z) =
1
+ erf (z).
2
(2.22)
La grande importanza che la legge di distribuzione normale riveste nei metodi della
Statistica matematica `e dovuta al seguente Teorema, che trover`
a svariate applicazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.
36
VARIABILI ALEATORIE
n
X
Xi ()
i=1
2.3.3
Distribuzione Gamma
Una v.a. che assume valori in IR+ `e distribuita con legge Gamma di parametri e
> 0 se ha densit`a di probabilit`a
fX (x) =
x 1
e
x
,
()
x 0.
(2.23)
Z
0
et t1 dt,
(2.24)
le cui propriet`a sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo
in particolare che
( 12 ) =
( + 1) = () = !
per
IN+
( + 12 ) = 1 3 5 (2 1) /2 .
Questa distribuzione ha valor medio e varianza che valgono:
mX =
2
X
=
,
2
37
f ( x)
X
l =4
a = 0.5
a = 1 : esponenziale
2
a=2
a=3
2.3.4
= 1)
Distribuzione esponenziale
x0
(2.26)
E{X q } =
Z
0
xq ex dx =
1
q
Z
0
tq et dt =
q!
q
1
,
2
X
= E{X 2 } m2X =
1
.
2
(2q)!
2q
2q
La distribuzione esponenziale `e assai utilizzata negli studi di affidabilit`a (di un dispositivo o di un materiale) con tasso di guasto costante . Se X() `e il tempo
38
VARIABILI ALEATORIE
1
fX (t).
La distribuzione esponenziale dei tempi di attesa ha una notevole propriet`a: per ogni
t, s IR la probabilit`a di attendere un evento per un tempo t + s, sapendo di aver
gi`a atteso il tempo s, `e uguale alla probabilit`a di attendere levento per una durata
di tempo t. Infatti, ricordando la definizione (1.2) di probabilit`a condizionata, si ha
P (X > t + s | X > s) =
Si dice perci`o che la legge esponenziale `e senza memoria, nel senso che il tempo
s gi`a trascorso non influenza la probabilit`a che levento si verifichi in qualunque
istante successivo allistante s in cui `e iniziata losservazione.
2.3.5
Distribuzione di Maxwell
fV (v) =
2 v2
v2
exp
3
2 2
v 0.
(2.27)
V2 = 2 (3 8/)
(2.28)
dove 2 `e, come detto, la varianza delle componenti di V (). Si osservi anche che
fV (v)
non `e simmetrica rispetto al suo valor medio: infatti ha un massimo per
v = 2 6= E{V }.
La distribuzione di Maxwell `e di grande importanza nella Meccanica statistica,
perche `e il modello probabilistico della velocit`a di agitazione termica delle molecole
di un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare,
con T la sua temperatura e con k la costante di Boltzmann, allora risulta
2 =
kT
,
m
39
e il valor medio dellenergia cinetica T della molecola del gas in equilibrio `e uguale
a E{T } = 21 mE{V 2 }. Ma sostituendo il valore di 2 nelle (2.28) si ottiene:
kT
E{V } =
m
8
3
8kT
3kT
=
,
m
m
da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in
equilibrio possiedono una energia cinetica media che vale
3
E{T } = kT.
2
f V (v )
s =1
s=2
s =3
0
Assai simile alla maxwelliana `e la distribuzione di Rayleigh, riguardante le propriet`a probabilistiche di un vettore bidimensionale
q
V () =
X12 () + X22 ()
v
v2
fV (v) = 2 exp 2
v 0,
E{V } = /2,
2.3.6
V2 = 2 (2 /2).
Distribuzione t-Student
La v.a. X() che pu`o assumere qualsiasi valore x IR ha una distribuzione chiamata
t-Student con n gradi di libert`a, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico
40
VARIABILI ALEATORIE
n+1
! n+1
2
x2
2
fX (x) =
1+
n
n
n
2
(2.29)
N (0, 1)
n=6
n=4
n=2
x
0
Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard
1
,
(1 + x2 )
che ha valor medio nullo ma `e priva dei momenti di ordine superiore, perche lintegrale
(2.13) che li definisce diverge per q 2.
Poiche n `e intero, il coefficiente di normalizzazione nella (2.29) si determina facilmente utilizzando le propriet`a della funzione Gamma, in modo che per n pari:
n = 2k, k = 1, 2, . . . la densit`a t-Student si pu`o riscrivere nella forma:
!(k+ 1 )
2
1 3 5 (2k 1)
x2
fX (x) =
1+
2k
2k 2k(k 1)!
(2.290 )
x2
2k k!
1+
fX (x) =
2k + 1
1 3 5 (2k 1) 2k + 1
!(k+1)
(2.2900 )
41
2.3.7
Distribuzione Chi-quadrato
Una v.a. che assume valori x IR+ ha una distribuzione Chi-quadrato con n gradi di
libert`a, che si indica con il simbolo 2n , se la sua densit`a di probabilit`a `e la funzione
n
x 2 1 e 2
fX (x) = n/2
,
2
(n/2)
x0
(2.30)
0.25
n=4
fX ( x )
n=6
n = 10
20
Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo
nella (2.23) = n/2, = 1/2. Ha valor medio e varianza che valgono
E{X} = n,
2
X
= 2n,
Xi2 (),
E{Xi } = 0,
2
X
= 1.
i
i=1
Per questo motivo, `e assai utile in Statistica per la valutazione delle varianze di
campioni estratti da una popolazione (v. Capitolo 8).
Per una sua notevole propriet`a asintotica, al crescere di n la distribuzione Chiquadrato tende ad assumere una forma a campana simmetrica rispetto al suo
42
VARIABILI ALEATORIE
valor medio, e si pu`o dimostrare che per n >> 1 `e ben approssimata da una legge
normale N (n, 2n) con media n e varianza 2n.
2.3.8
Distribuzione F di Fisher
Unaltra distribuzione di frequente uso nei test statistici (v. Capitolo 9) `e quella di
una v.a. X() definita come il rapporto:
X() =
n2m ()
m2n ()
fX (x) =
m
n
m
2
m+n
m
x( 2 1)
2
m+m ,
n
m
2
mx
1+
2
2
n
x0
(2.31)
f X( x )
n = 4, m = 2
n = 6, m = 4
n = 8, m = 6
F (m, n) di Fisher
dove () `e sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dal
parametro n, vale
n
E{X} =
se n > 2
n2
e quindi tende a 1 per n ; la varianza vale invece
s2X =
2n2 (m + n 2)
m(n 2)2 (n 4)
se n > 4.
2.3.9
43
Distribuzione binomiale
1
2,
e la
2.420
k2
X
k=k1
P (Ek ) =
k2
X
k=k1
n k nk
p q
.
k
(2.33)
44
VARIABILI ALEATORIE
Esempio 2.7
1) Si lancia per dieci volte una moneta. In ogni lancio levento testa e levento
croce sono equiprobabili, per cui la probabilit`a che esca testa per cinque volte
vale, per la (2.42):
P10,5 =
10
5
(1/210 ) =
10!
= 0.246.
5!(10 5)! 210
P10,k5 = (1/2 )
5
X
k=0
10
k
5
10! X
1
= 10
= 0.623. /
2 k=0 k!(10 k)!
Pn,5 =
n
5
(1/4)5 (3/4)n5 =
n
5
n5
3
4n
Dunque, dopo n = 5 estrazioni la probabilit`a cercata vale 1/45 = 9.76 104 ; dopo
6 estrazioni cresce al valore 6 3/46 = 4.39 103 , ecc. /
Primo principio delle prove ripetute.
Per la formula di Bernoulli la probabilit`a di non avere alcun successo dopo n prove
di un esperimento casuale in cui p > 0 vale
!
Pn,0 =
n 0 n0
p q
= qn
0
45
E{T } =
X
k=1
kPk =
kpqk1 = p +
k=1
=p+q
kpqk1 = p + q
k=2
(r + 1)pq r1 =
r=1
r1
rpq
r=1
Pr
= p + q(E{T } + 1).
r=1
(2.34)
Resta cos provato il seguente risultato: il numero medio delle prove che occorre
eseguire per ottenere il primo successo `e il reciproco della probabilita di successo.
La variabile aleatoria discreta X() che assume un numero finito di valori x =
k = 0, 1, 2.., n con una probabilita data dalla (2.32) si dice dotata di distribuzione
binomiale ed `e indicata con la notazione B(n, p). La sua densit`a di probabilit`a `e la
successione di n + 1 impulsi:
fX (x) =
n
X
k=0
n k nk
p q
(x k),
k
p+q =1
FX (x) =
n
X
k=0
n k nk
p q
U (x k)
k
(2.35)
46
VARIABILI ALEATORIE
fX ( x )
N (10, 6)
0.1
10
20
15
n = 25, p = 0.4.
E{x} =
n
X
k=0
n
X
n k nk
n k nk
p q
(x k)dx =
k
p q
=
k
k
k=0
n
X
n1
X n1
k(n 1)! k1 nk
= np
p q
= np
pr q n1r = np(p + q)n1 = np
k!(n
k)!
r
r=0
k=1
2 = npq.
e in modo analogo si pu`o calcolare che la sua varianza `e X
lim Pn,k
1
(k np)2
=
exp
2npq
2npq
(2.36)
47
uniformemente per tutti gli interi k per i quali il rapporto z = (k np)/npq assume
valori in un intervallo finito.
Il secondo membro della (2.36) `e la densit`a di una v.a. normale N (np, npq) con media
np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente
grandi, la distribuzione binomiale `e approssimabile nel continuo dalla legge normale:
B(n, p) N (np, npq)
(2.360 )
n, npq >> 1.
Z k2
k1
"
(x np)2
dx
exp
2npq
(2.37)
uniformemente in [k1 , k2 ].
Usando la funzione degli errori erf (z) per il calcolo dellintegrale definito, la (2.37)
mostra che se n `e grande e npq >> 1 la probabilit`a in oggetto si pu`o calcolare con
buona approssimazione mediante la formula asintotica:
"
"
k2 np
k1 np
Pn (k1 k k2 )
erf
.
= erf
npq
npq
(2.38)
48
VARIABILI ALEATORIE
Pn,k
(40 50)2
1
exp
= 0.0207.
=
2 49.75
49.75 2
Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), `e invece: Pn.k =
0.0197. Per calcolare la probabilit`a che tra i 10.000 esemplari scelti a caso ve ne siano
non pi`
u di 70 che risultano difettosi, bisogna valutare Pn (k 70) e per ottenerne
una buona approssimazione basta applicare la (2.38) assumendo k1 = 0 e k2 = 70.
Si ricava:
P (k 70)
= erf
70 np
erf
npq
np
npq
49
il quale indica che il numero k di teste risultante da n prove `e compreso tra 0.45n
e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinche la probabilit`a
di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la
diseguaglianza: P (E) 0.997. Applicando la (2.39) con = 0.05 si ha:
q
P (E)
= 2erf (0.05 n/pq) = 2erf (0.05 4n) 0.997
per cui n deve soddisfare la condizione: erf (0.05 4n) 0.4985. Dai valori tabulati
della funzione degli errori si desume che, arrotondando per eccesso, deve essere:
f ( x)
X
l =5
l = 1.5
0.2
0.2
0 1 2 3 4 5 6
10
2.3.10
Distribuzione di Poisson
Si `e detto che lapprossimazione di Pn,k fornita dalla formula asintotica (2.36) peggiora al descescere del prodotto npq. Se allora p `e molto piccolo, bisogna che n sia
comunque cos grande da rendere soddisfatta la condizione: npq
= np >> 1. Ci`o si
verifica per lappunto nel caso dellEsempio 2.8 in cui, pur essendo p = 0.005, si ha
np = 50 e npq = 49.75. Se invece si ha: n >> 1, p << 1 in modo che il prodotto np
`e dellordine dellunit`a, la (2.46) non `e pi`
u valida. Si dimostra che essa pu`o essere
sostituita dalla nuova formula asintotica:
(np)k np
Pn,k
e
=
k!
che nella sua forma limite esprime il seguente
(2.40)
50
VARIABILI ALEATORIE
k
e .
k!
(2.41)
Esempio 2.9
Pn,0 =
1000
0
(1 103 )1000
= e1 = 0.368. /
La variabile aleatoria discreta X() che assume valori k = 0, 1, 2, ..n, . . . con probabilit`a data dalla (2.41) ha densit`a costituita dalla successione di impulsi
fX (x) = e
X
k
k=0
k!
(x k)
(2.42)
X
k=0
ke
X
X
k
r
k
= e
= e
= e e =
k!
(k
1)!
r!
r=0
k=0
(nt0 /T )k
nt0
exp
.
k!
T
51
k
X
t
0
k!
k=0
(x k).
Pi`
u in generale, la legge (2.42) `e anche il modello di esperimenti casuali caratterizzati
dal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti
(Processi di Poisson), aventi un numero medio di realizzazioni per unit`a di tempo
uguale ad . Si dismostra infatti che il numero di tali eventi che si verificano in un
intervallo temporale di ampiezza t << T ha legge di Poisson (2.42) con parametro
= t.
2.3.11
0.2
f (x)
X
0.1
10
30
20
p = 0.2.
La variabile casuale X() che assume valori discreti k = 0, 1, 2, . . . con la probabilit`a ora definita, ha una distribuzione chiamata geometrica, avente come densit`a
di probabilit`a la funzione:
fX (x) =
X
k=0
0<p<1
(2.43)
52
VARIABILI ALEATORIE
mostrata in Fig. 2.14. Questa v.a. rappresenta quindi il numero di prove che occorre
fare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unit`a
coincidenti con il numero di prove effettuate, X() `e anche chiamata tempo di attesa
(discreto) del primo successo.
Si badi a non confondere questo tempo di attesa X() con la v.a. T () sopra
introdotta per ricavare il Secondo principio delle prove ripetute, la quale non pu`o
avere valore nullo. X = k con k = 0, 1, . . . indica il numero dei fallimenti F che
precedono il successo S, mentre T = k con k = 1, 2, . . . indica la prima prova in cui
si verifica un successo.
La funzione di distribuzione cumulata del tempo di attesa X() vale
FX (x) =
x
X
k=0
(2.44)
Ricordando il risultato espresso dalla (2.34), il valor medio della distribuzione geometrica vale:
1p
1
mX = E{T } 1 = 1 =
p
p
mentre la sua varianza risulta:
1p
2
X
=
.
p2
Cos come la distribuzione esponenziale, anche la geometrica `e senza memoria. Infatti, scelti due interi positivi i, j si ricava, applicando anche la (2.44):
IP(X > i + j | X > j) =
e questo risultato si pu`o cos interpretare: la circostanza che gi`a si sono verificati j
insucessi consecutivi non influenza il tempo di attesa del prossimo successo.
Per quanto detto, la distribuzione geometrica `e lanalogo discreto della distribuzione
esponenziale 2.3.4, definita sullintero semiasse IR+ , e trova frequenti applicazioni
nella teoria dei giochi o negli studi di affidabilit`a riguardanti fenomeni in cui si pu`o
individuare una variabile casuale definita sullinsieme dei numeri naturali.
53
Esempio 2.10
Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13
volte uno dei 3 possibili risultati: 1, X, 2 e gioca la stessa colonna ad ogni concorso.
Quante giocate deve fare, in media, prima di vincere con un 13 ?
Consideriamo qui il caso teorico che `e anche il pi`
u sfavorevole. Se il giocatore segna
ciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13
partite, ognuna delle 13 previsioni ha probabilit`a 1/3 di successo. Di conseguenza,
la probabilit`a che si realizzi un insieme di 13 previsioni esatte di altrettanti risultati
indipendenti (ossia la probabilit`a di successo) `e p = 1/313 ' 6 107 .
Il numero di giocate che `e necessario effettuare prima di fare un 13 con quella sola
colonna ha una distribuzione geometrica con tale probabilit`a p, e il numero medio
di giocate da effettuare prima di avere un successo `e
mX = 313 1 = 1 594 322.
Per sollevare il giocatore dallo sconforto, si pu`o aggiungere che questo parametro
di posizione `e comunque assai poco significativo. Infatti, la varianza della stessa
distribuzione geometrica `e enormemente elevata:
2
X
= (313 1) 313 ' 2.54 1012 ,
per cui ci si pu`o aspettare che la probabilit`a di ottenere il primo successo dopo un
numero pi`
u ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante.
Dalla (2.44) si ricava per`o: IP(X 50) = 1 [1 1/313 ]51 ' 0.000032, ed `e presumibile che questo risultato cos` poco favorevole riesca a scoraggiare definitivamente il
giocatore. /
Distribuzione ipergeometrica
Un insieme `e costituito da N elementi di cui NA sono di tipo A, e NB = N NA di
tipo B. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione),
nel campione di n elementi cos` estratto il numero di elementi del tipo A `e una
variabile casuale discreta X(), la cui densit`a di probabilit`a `e definita dalla seguente
formula ipergeometrica:
fX (x) =
NA
x
NB
nx
N
n
per x = 0, 1, 2, . . . , n
(2.440 )
ed `e nulla altrove.
Infatti, fissato un intero x, il numeratore che compare nella (2.44) `e il numero degli
eventi favorevoli: {x elementi di tipo A su n estratti }, che si calcola come
54
VARIABILI ALEATORIE
nNA
,
N
2
X
=
nNA (N NA )(N n)
.
N 2 (N 1)
Esempio 2.11
IP(Rossa N era) =
2.3.12
4
1
3
1
7
2
12
' 0.57. /
21
Distribuzione Beta
Una v.a. che assume valori nellintervallo unitario [0, 1] ha una distribuzione Beta
se la sua densit`a vale
fX (x) =
Axb (1 x)c
0
(b + c + 2)
,
(b + 1)(c + 1)
b, c > 1
(2.45)
55
f X (x)
2.5
6
2.0
4
1.5
1.0
0.5
0.5
x [0, 1].
Per la grande generalit`a con cui, modificando i due parametri, pu`o essere definita
analiticamente la distribuzione delle probabilit`a nellintervallo unitario, questa legge
`e molto utile per rappresentare le propriet`a statistiche di coefficienti aleatori che
possono essere presenti in molti modelli matematici di fenomeni reali.
Il valor medio e la varianza di fX (x) si esprimono in funzione dei parametri b e c, e
valgono:
b+1
(b + 1)(c + 1)
2
E{X} =
;
X
=
.
(2.46)
b+c+2
(b + c + 2)2 (b + c + 3)
La Fig. 2.15 mostra alcuni grafici della distribuzione Beta, ottenuti assumendo per
b e c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A,
calcolati in base alle propriet`a della funzione Gamma:
grafico 1:
2:
3:
4:
5:
6:
b = 1/2
b = 1/2
b=1
b=1
b=3
b=3
c = 1/2
c = 1/2
c=1
c=2
c=2
c=3
A = 1/
A = 8/
A=6
A = 12
A = 20
A = 140
56
VARIABILI ALEATORIE
f X(x)
a =1
a =3
b = 0.5
2
b =2
b=1
1
0.5
2.3.13
1.5
W (, ) al variare di e .
Distribuzione di Weibull
fX (x) =
x1 exp(x ), 0 x < +;
0
altrove.
, IR+
(2.47)
Utilizzando la definizione della funzione Gamma (2.24), si pu`o ricavare che il valore
atteso e la varianza di fX (x) valgono:
E{X} =
1
(1 + 1/),
2
X
= 2/ [(1 + 2/) 2 (1 + 1/)].
x=
1/
57
R(t) = 1 FX (t) = et
x < +;
, , IR+
2.4
Problemi risolti
f () =
6(1 )
0
per [0, 1] ,
altrove
si ricava
P (x < 0.3) = P ( 0.2) = 6
Z 0.2
0
2.2. Calcolare la funzione di distribuzione cumulata di una variabile casuale uniformemente distribuita nellintervallo x [0, 2].
58
VARIABILI ALEATORIE
Soluzione. Indichiamo con X() questa variabile casuale. La sua densit`a di probabilit`a `e fX (x) = 1/2 per x [0, 2] ed `e nulla altrove.
La funzione di distribuzione cumulata `e il suo integrale tra e x, ossia
FX (x) =
per x < 0
Z x
FX (0) +
dx/2 = x/2
FX (2) = 1
per 0 x 2
per x > 2.
2.3. Una variabile aleatoria X() ha media nota e varianza 2 = 2. Utilizzando la diseguaglianza di Tchebyshev, determinare un limite inferiore alla seguente
probabilit`a: IP(|X | 1.5).
Soluzione. Se si applica la diseguaglianza di Tchebyshev si ha che
IP(|X | 1.5)
2
X
8
=
2
(1.5)
9
da cui si ricava
IP(|X | < 1.5) = 1 IP(|X | 1.5) 1
2.4. Data la funzione
f (x) =
8
1
=
.
9
9
Z /2
0
/2
cos x]0
=c
1 =1
2
2
2
Z x
0
t cos tdt =
2
2
[t sin t + cost]x0 =
(x sin x + cos x 1).
2
2
Dunque si ottiene:
2
IP(X /4) =
2
2
2
2
+
1 =
+ 1 2 ' 0.46 ,
4 2
2
2 4
59
Z 2
dx
= +1 = =1
x2
2
2
= 2
Z 2
dx
1
= E{X2 }
m2X
=2
Z 2
1
0x2
3
=
2
Z 2
0
"
3 x4 x2 2x3
+
x(x 1) dx =
2 4
2
3
#2
=1
0
3
2
Z 3/2
1/2
(x 1)2 dx = 3
Z 3/2
1
(x 1)2 dx =
1 3
x 4x
per 0 x 2
altrove
1
.
8
60
VARIABILI ALEATORIE
Soluzione.
E(X) =
E(X 2 ) =
2
X
Z 2
0
Z 2
0
x3
x x
4
x2 x
16
15
x3
"
x3 x5
dx =
3
20
"
dx =
= 16
x4
4
1
16
12 225
#2
0
#2
6
x
24
16
15
4
3
da cui:
' 0.195 .
x3
x
4
"
x2 x4
dx =
2
16
#x
0
1
x
4
=
x
2
2
8
1
= .
2
x
4
4 + 22 x
1,2 = 4 + 2 2 ' 2.613 , da scartare
q
y=
4 2 2 ' 1.0924 .
F (x) = 1 ex/11 ,
0 x < +.
!
4
1 0 5 4
5
6
' 0.48226
61
P8 (0 k 1) =
8
0
1
6
5
6
!
7
8
1
1
6
5
6
5
6
8
6
5
6
' 0.6046
62
VARIABILI ALEATORIE
P5 (4 k 5) =
5
5
(0.6)4 0.4 +
(0.6)5 = (0.6)4 (2 + 0.6) ' 0.337 .
4
5
Per Nick che effettua 3 tiri, ciascuno con probabilit`a di successo p = 0.45, la probablit`a di superare la prova `e
!
P3 (2 k 3) =
3
3
(0.45)2 0.55 +
(0.45)3 = (0.45)2 (3 0.55 + 0.45) ' 0.425 .
2
3
Quindi la pi`
u alta probabilit`a di vittoria spetta a Nick .
2.13. La ricezione casuale di un numero k di telefonate nellintervallo di tempo [0, t0 ]
ha legge di Poisson con parametro = t0 . Calcolare la probabilit`a IP(2 k 4) di
ricevere da due a quattro telefonate (2 incluso) entro listante t0 = 1.
Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametro
= t0 = 1 `e
1X
1
F (x; = 1) =
U (x k)
e k=0 k!
ed esprime la probabilit`a di ricevere x telefonate entro listante t0 = 1. La probabilit`a
richiesta vale:
1
IP{1 < x 4} = F (4; = 1) F (1; = 1) =
e
1
1
1
+ +
2 3! 4!
17
' 0.26 .
24e
2.14. Si effettuano 600 lanci di un dado non truccato. Calcolare un valore approssimato della probabilit`a che il 5 esca un numero di volte compreso tra 94 e
106.
Soluzione. La probabilit`a di successo (esce il 5) in ogni prova vale p = 1/6. Per
il Teorema integrale di asintoticit`a delle prove bernoulliane, in n = 600 prove la
probabilit`a richiesta si approssima con
"
"
94 100
106 100
erf p
=
P600 (94 k 106) ' erf p
600 (1/6)(5/6)
600 (1/6)(5/6)
6
= 2 erf
= 2 erf(0.657) ' 0.4844 .
9.1287
2.15. Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetrico
con probabilit`a di errore p = 0.25. Determinare una approssimazione valida della
probabilit`a di ricevere da 250 a 320 simboli errati.
63
320 300
250 300
erf
225
225
' 0.4082 + 0.4996 = 0.9078 .
= erf
4
3
+ erf
10
3
2.16. Lesperimento consiste nel lancio, effettuato per due volte, di un dado non
truccato. Se si effettuano tre prove di questo esperimento, qual`e la probabilit`a che
in una delle tre prove esca due volte lo stesso numero ?
Risposta. Indichiamo con E = {11, 22, 33, 44, 55, 66} levento: esce due volte lo
stesso numero. Lo spazio campione `e costituito da 62 = 36 eventi (= numero di
disposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si
realizzi levento E vale P (E) = 6/36 = 1/6 p. Per la formula di Bernoulli con
n = 3, k = 1 si trova:
!
P3,1 =
3
1
6
1
5
6
25
= 0.34722 .
72
!
150
P150,2 =
(0.01)2 (0.99)148 .
2
Poiche np `e prossimo allunit`a, questa si approssima con la legge di Poisson degli
eventi rari:
9
(1.5)2 1.5
e
= e3/2 ' 0.251 .
P150,2 '
2
8
2.18. Calcolare il valore atteso della variabile aleatoria Y = 1 + X 2 dove X() ha
una distribuzione binomiale B(n, p) con n = 10, p = 0.5.
Soluzione. Si deve calcolare E{1 + X 2 } = 1 + E{X 2 }, dove X() B(10, 0.5) ha
valor medio e varianza che valgono:
E{X} = np = 5 ;
2
X
= np(1 p) = 5/2.
64
VARIABILI ALEATORIE
si ricava:
E{1 + X 2 } = 1 + 55/2 = 57/2 .
2.19. Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare:
1) la probabilit`a che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2)
la probabilit`a che la somma sia compresa tra 6 e 7 in non pi`
u di due lanci.
Soluzione. Indichiamo con E1 = {11, 12, 13,
14, 22, 23} levento: { la somma `e minore
7
di 6 }. Lo spazio campione `e costituito da 2 = 21 eventi (= numero di combinazioni
con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si realizzi levento
E1 vale
2
6
= p.
P (E1 ) =
21
7
1) Per la formula di Bernoulli con n = 5, k = 5 si trova:
5
2
7
P5,5 =
' 0.002 .
2) Anche levento E2 = {15, 24, 33, 16, 25, 34} = { la somma `e compresa tra 6 e 7 }
`e costituito da 6 eventi semplici, per cui ha una probabilit`a ancora uguale a 2/7. La
probabilit`a che E2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci `e allora
P5 (0 k 2) =
2
X
k=0
!
k
5k
5
k
5
7
5
7
2
7
2
+5
7
5
7
2 3
+ 10
2
7
5
7
5
7
115
' 0.855 .
49
2.20. Nella successione di prove indipendenti di un esperimento casuale, la probabilit`a di successo `e p = 0.35. Applicando la legge dei grandi numeri, calcolare il
numero delle prove che `e necessario effettuare perche con probabilit`a non inferiore
a 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n.
Soluzione. Se p = 0.35, per il Teorema integrale di asintoticit`
a al crescere di n la
probabilit`a che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a:
0.4n 0.35n
IP{0.3n k 0.4n} = erf p
0.35(1 0.35)n
0.3n 0.35n
erf p
0.35(1 0.35)n
65
Se si vuole che questa probabilit`a sia non inferiore a 0.90, occorre che erf(0.1048 n)
0.45. Dalla tabella della funzione degli errori si ricava:
z = 0.1048 n 1.65
1.65
0.1048
= 248
500
5
nA
=
=
n
1200
12
nB
700
7
=
=
n
1200
12
7
5
0.005 +
0.002 ' 0.00325 .
12
12
Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che si
effettuano prima di trovare un elemento difettoso `e linverso di P (E):
E{tempo di attesa} = 1/0.00325 = 308
arrotondato per eccesso alle unit`a.
2.22. Un evento ha una probabilit`a costante p = 0, 01 di verificarsi in ogni prova di
un certo esperimento. Calcolare la probabilit`a che esso si verifichi almeno 3 volte su
100 prove indipendenti dellesperimento in questione:
a) facendone una valutazione esatta;
b) facendone una valutazione approssimata con luso della distribuzione di Poisson.
Soluzione
a) Per ottenere una valutazione esatta si applica la formula di Bernoulli:
P100 (k 3) = 1 P100 (0 k 2) =
"
100
= 1 (0.99)
99
+ 100 0.01(0.99)
100
+
(0.01)2 (0.99)98 =
2
66
VARIABILI ALEATORIE
b) Utilizzando la legge di Poisson degli eventi rari con np = 100 0.01 = 1, si ricava
P (k 2) '
2
X
e1
k=0
k!
5 1
e = 0.9196986
2
e di conseguenza:
P (k 3) = 1 P (k 2) ' 0.080 .
2.23. Si effettuano tre tiri verso un medesimo bersaglio. Le probabilit`a di colpirlo al
primo, al secondo e al terzo colpo sono, rispettivamente, uguali a p1 = 0.4, p2 = 0.5
e p3 = 0.7.
a) Qual `e la probabilit`a di aver colpito il bersaglio una sola volta dopo i tre tiri?
b) Qual `e la probabilit`a di aver colpito il bersaglio almeno una volta dopo i tre tiri?
Soluzione. Indichiamo con Sk = {successo: bersaglio colpito al k-esimo tiro} oppure
Fk = {fallimento: bersaglio mancato al k-esimo tiro} i possibili esiti di ognuno dei
tre tiri. Questi eventi hanno probabilit`a:
P (Sk ) = pk ,
P (Fk ) = 1 pk ,
k = 1, 2, 3,
a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi in
cui si verifica un solo successo sono tre, e le rispettive probabilit`a sono le seguenti:
P {S1 F2 F3 } = p1 (1 p2 )(1 p3 ) = 0.4 0.5 0.3 = 0.06
P {F1 S2 F3 } = (1 p1 )p2 (1 p3 ) = 0.6 0.5 0.3 = 0.09
P {F1 F2 S3 } = (1 p1 )(1 p2 )p3 = 0.6 0.5 0.7 = 0.21 .
La probabilit`a di aver colpito il bersaglio una sola volta `e la somma di queste:
P {(S1 F2 F3 ) (F1 S2 F3 ) (F1 F2 S3 )} = 0.06 + 0.09 + 0.21 = 0.36 .
b) La probabilit`a di avere avuto almeno un successo vale:
1 P {F1 F2 F3 } = 1 (1 p1 )(1 p2 )(1 p3 ) = 1 0.6 0.5 0.3 = 0.91 .
2.24. Da una recente indagine della polizia stradale risulta che il 45% degli automobilisti guida ancora in citt`a senza allacciare le cinture di sicurezza. Se un agente
controlla a caso 10 vetture in circolazione, qual`e la probabilit`a che egli riscontri
questa infrazione almeno 8 volte ?
67
10
X
k=8
10 k
p (1 p)10k =
k
10
(0.45)8 (0.55)2 + 10 (0.45)9 0.55 + (0.45)10 =
8
h
68
VARIABILI ALEATORIE
VARIABILI ALEATORIE
MULTIDIMENSIONALI
Linsieme {X1 (), X2 (), . . . , Xn ()} di n variabili aleatorie, definite su un medesimo spazio di probabilit`a (, B, P ), costituisce le n componenti di un vettore aleatorio
X() ndimensionale che opera la trasformazione (, B, P ) (IRn , B , P ) associando ad lennupla (x1 , . . . , xn ) IRn , e allevento A B linsieme B = X1 (A)
IRn con probabilit`a P (B) = P (X1 (B)) = P (A).
In questo Capitolo esamineremo le principali propriet`a del vettore aleatorio X() generalizzando le definizioni ed i risultati gi`a esposti nel precedente Capitolo a proposito di una v.a. unidimensionale. Per comprendere le novit`
a che questa analisi comporta, conviene iniziare a trattare il caso n = 2.
3.1
70
FXY (+, +) = 1.
y
W
X
B'
(x,y) = X(w )
w
x
A
X
Figura 3.1
2 FXY (x, y)
xy
Z Z
fXY (x, y) 0 ,
(3.2)
La Fig. 3.2 mostra il grafico qualitativo della densit`a congiunta di una coppia di
v.a. che assumono valori reali in X() = Dx (y) Dy (x) IR2 . La probabilit`a che
esse abbiano valori in un insieme B `e data dallintegrale doppio:
Z Z
P (X B) =
(3.3)
Z x
dx0
Z y
Il volume che nella stessa figura `e compreso tra due piani paralleli a distanza infinitesima dy, misura la probabilit`a dellevento E = {(X Dx ) (Y [y, y + dy])}
e vale:
Z
P (E) = dy
fXY (x, y)dx.
(3.4)
Dx (y)
(3.40 )
71
f ( x,y )
XY
dF ( y )
Y
B'
dy
X( W )
x
Figura 3.2
dove FY (y) = FXY (+, y) `e la funzione di distribuzione della v.a. Y (), che ora
prende il nome di funzione di distribuzione marginale di Y (). Confrontando la
(3.4) con la (3.4) risulta pertanto:
Z
Dx (y)
dFY (y)
= fY (y).
dy
(3.5)
fX (x) =
3.1.1
Dy (x)
Momenti congiunti
Z Z
Z Z
72
Z Z
(3.6)
ed `e sicuramente il pi`
u importante dal punto di vista applicativo. Sviluppando
lintegrale a secondo membro si ricava subito limportante relazione:
Cov(X, Y ) = E{XY } mY E{X} mX E{Y } + mX mY = E{XY } mX mY (3.7)
la quale mostra che la covarianza `e la differenza tra il momento misto del secondo
ordine e il prodotto delle medie marginali. Se queste due quantit`
a sono uguali,
ovvero se la covarianza `e nulla, le v.a. si dicono non correlate.
La covarianza interviene sempre nella espressione della varianza di una combinazione
lineare di due o pi`
u variabili aleatorie. Infatti, per la propriet`a di linearit`a del valor
medio, la varianza di Z() = aX() + bY () vale:
Z2
(3.8)
Se poi X() e Y () sono non correlate, allora la (3.8) si riduce alla seguente:
(X, Y ) non correlate
2
Z2 = a2 X
+ b2 Y2
n
X
2
a2i X
+2
i
i=1
n1
X
n
X
ai aj Cov(Xi Xj )
i=1 j=i+1
che si riduce alla prima sommatoria se ciascuna coppia (Xi Yj ) `e non correlata.
Pur essendo un momento di ordine pari, la covarianza pu`o anche essere negativa,
come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra X ed Y il rapporto
(X, Y ) =
Cov(X, Y )
,
X Y
|(X, Y )| 1
(3.9)
73
tra la covarianza e il prodotto degli scarti quadratici medi di X() ed Y (). Vedremo
in un prossimo Capitolo, nellambito del metodi regressivi di previsione relativi
allanalisi statistica di campioni estratti da due popolazioni, che questo coefficiente
adimensionale `e una misura della interdipendenza lineare tra le due v.a., nel senso
che d`a una indicazione sulla accuratezza con cui una variabile aleatoria pu`o essere
approssimata come funzione lineare di unaltra. Se X() e Y () sono non correlate
(linearmente), si ha (x, y) = 0; se invece il modulo del coefficiente di correlazione `e
prossimo allunit`a, allora `e giustificata lapprossimazione: X() ' aY () + b che le
lega mediante una legge lineare.
3.1.2
(3.12)
xp fX (x)dx
(3.13)
Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non correlate:
(X, Y ) indipendenti
E{XY } = mX mY
Cov(X, Y ) = 0.
Si badi per`o che non `e vero il contrario: infatti lindipendenza `e una condizione
sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covarianza nulla, anche se non sono statisticamente indipendenti. Dunque, lindipendenza
statistica `e una condizione pi`
u restrittiva della non correlazione.
OSSERVAZIONE
74
Si assuma che la traccia di un oggetto su uno schermo radar circolare, di raggio a, si possa trovare con eguale probabilit`a in qualsiasi punto P dello schermo.
Allesperimento consistente nella ricezione casuale di una traccia sullo schermo, `e
naturale associare le variabili aleatorie R(), (), coordinate polari del punto P. Si
vuole determinare la loro densit`a di probabilit`a congiunta fR (r, ), le due densit`a
marginali ed i momenti misti.
fXY ( x,y )
1/ p a
R
0
Q
a
2p
a
x
Figura 3.3
d
r
=
drd
2
a
a2
fR (r, ) =
r/(a2 ), 0 r a;
0,
altrove
0 2;
(3.14)
75
Z 2
r
Z0 a
0
2r
,
a2
1
r
dr =
,
2
a
2
a2
d =
0ra
0 2
Z a Z 2
0
r
2
drd = a = mR m ,
a2
3
Z r0
r
0
dr =
2
r0
a
Esempio 3.2
fXY (x, y) =
8xy, per 0 x 1;
0
altrove
0y<x
ed assume valori maggiori di zero nel dominio D = DX (y) DY (x) = [0, x) (y, 1].
Si vuole determinare le densit`a e i momenti marginali, e il loro momento congiunto
di ordine due.
Le densit`a marginali si calcolano come segue:
Z
fX (x) =
DX (y)
fY (y) =
DY (x)
Z 1
y
Z x
0
xydy = 4x3 ,
xydx = 4y(1 y 2 ),
x [0, 1]
y [0, 1],
76
e il loro grafico `e mostrato, insieme con la densit`a mista, in Fig. 3.4. I valori medi e
le varianze delle distribuzioni marginali si calcolano, come di consueto, applicando
le loro definizioni:
E{X} = 4
Z 1
Z01
x4 dx =
4
5
8
15
Z01
2 16
2
5
2
= 4
x dx E {X} =
=
3
25
75
Z01
1
64
11
= 4
y 3 (1 y 2 )dy E 2 {Y } =
=
.
3 225
225
0
E{Y } = 4
2
X
Y2
y 2 (1 y 2 )dy =
Il prodotto delle densit`a marginali non `e uguale alla densit`a congiunta: ci`o significa
che la coppia X(), Y ()) non `e statisticamente indipendente. Calcoliamo perci`o il
loro momento misto:
E{XY } =
Z 1
0
dx
Z x
0
Z 1
0
x2 dx
Z x
0
y 2 dy =
4
9
f XY( x,y )
4
f (x)
X
1
x
DX( y) DY ( x)
x=
f ( y)
Y
y
0
Figura 3.4
4
.
225
Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale
(X, Y ) =
225
4
' 0.492366
2 11
75 225
e il suo valore sensibilmente minore dellunit`a mostra che le due variabili aleatorie
sono poco correlate statisticamente, nel senso precisato alla fine del 3.1.2.
3.1.3
77
Pij = 1.
i=1 j=1
n X
m
X
Pij U (x xi )U (y yj )
(3.15)
i=1 j=1
n X
m
X
Pij (x xi )(y yj ).
(3.16)
i=1 j=1
n X
m
X
i=1 j=1
m X
n
X
Pij U (x xi ),
x Dx
Pij U (y yj ),
y Dy
j=1 i=1
m
n X
X
i=1 j=1
m X
n
X
Pij (x xi ),
x Dx
Pij (y yj ),
y Dy .
j=1 i=1
n X
m
X
i=1 j=1
(3.17)
78
E{(X mX )p (Y mY )q } =
(3.18)
i=1 j=1
Cov (X, Y ) =
(3.19)
i=1 j=1
Esempio 3.3
In una coppia di v.a. discrete, X() pu`o assumere i valori (2, 0, 2) e Y () i valori
(1, 0, 1). Le probabilit`a miste Pij , con i, j = 1, 2, 3 hanno i valori riportati nella
tabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densit`a mista FXY (x, y)
che `e rappresentata dalla distribuzione di impulsi di Fig. 3.6. Si vuole calcolare le
densit`a marginali, la covarianza e il coefficiente di correlazione della coppia.
j
j Pij
y1 = - 1
y2 = 0
y3 = 1
x1 = - 2
1/8
1/3
1/8
7/12
x 2= 0
1/12
1/12
x 3= 2
1/4
1/12
1/3
i Pij
3/8
5/12
5/24
ij Pij =
Figura 3.5
Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilit`a che si
ottengono sommando, per ogni i, rispetto a tutti i valori dellindice j. I risultati delle
somme forniscono le probabilit`a marginali di X(), che per la prima delle (3.17) ha
densit`a
1
1
7
fX (x) = (x + 2) + (x) + (x 2).
12
12
3
Allo stesso modo, le probabilit`a marginali di Y () sono ricavate nella riga sottostante
la stessa tabella, e forniscono la densit`a marginale:
3
5
5
fY (y) = (y + 1) + (y) + (y 1).
8
12
24
Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine:
mX
= 2
7
1
1
+2 = ;
12
3
2
E{X 2 } =
7 4
11
+ = ;
3 3
3
2
X
=
11 1
41
=
3
4
12
mY
3
5
1
= +
= ;
8 24
6
79
E{Y 2 } =
3
5
7
+
= ;
8 24
12
Y2 =
7
1
5
= .
12 36
9
Poiche il prodotto delle densit`a marginali non `e uguale alla densit`a mista assegnata,
le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianza
si pu`o calcolare applicando la (3.19), ma `e pi`
u comodo determinarla ricordando la
(3.7):
Cov (X, Y ) = E{XY } mX mY =
2 2 2
2
1
1
5
+
mX mY =
= .
8 8 4 12
3 12
12
Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che per
la (3.9) risulta:
5
(X, Y ) = r
' 0.3024.
41 5
12
12 9
fXY ( x,y )
f X ( x)
-2
-2
-1
fY ( y)
2
x
-1
Figura 3.6
3.2
(3.20)
80
n FX (x1 , . . . , xn )
x1 . . . xn
...
(3.21)
mXi =
i, j = 1, 2, . . . , n.
12
21 2 1
CX =
...
n1 n 1
12 1 2
22
...
n2 n 2
. . . 1n 1 n
. . . 2n 2 n
...
...
...
n2
(3.22)
81
CX = DX RX DX
1
12 . . . 1n
21
1 . . . 2n
RX =
... ... ... ... .
n1 n2 . . . 1
Il suo determinante ha propriet`a che richiamano quelle del coefficiente di correlazione
(3.9) tra due v.a. Infatti, poich`e anche RX `e simmetrica, si vede subito che 0
det(RX ) 1, e questo determinante vale 1 nel caso in cui le Xi () sono tutte a due
a due non correlate, perche allora la matrice di correlazione si riduce alla matrice
identica, e la matrice di covarianza degenera nella matrice diagonale delle varianze:
2
...
CX = . . . . . .
0 ...
1
RX = I;
0
...;
n2
det CX = i i2 .
Nel caso limite opposto, si pu`o invece dimostrare che lannullarsi del determinante
della matrice di covarianza e quindi per la (3.22) anche di det(RX ) `e condizione
necessaria e sufficiente perch`e almeno una delle Xi () sia una combinazione lineare
delle altre (n 1) variabili aleatorie:
Xi () = a0 + a1 X1 () + . . . + ai1 Xi1 () + ai+1 Xi+1 () + . . .
. . . + an Xn ()
Det (CX ) = 0,
Det (RX ) = 0
con a1 , .., ai1 , ai+1 , .., an costanti non nulle. Si osservi che la condizione ora enunciata non implica affatto (tranne nel caso banale n = 2) che ciascuna coppia (Xi , Xj ) sia
legata da una relazione lineare del tipo Xi () = aXj () + b. Come vedremo subito
nellEsempio che segue, `e possibile definire sistemi di tre (o pi`
u) v.a. che non sono
linearmente dipendenti a due a due, in cui tuttavia almeno una Xi () `e combinazione
lineare delle rimanenti. Il caso che tratteremo riguarda un insieme di tre variabili
aleatorie discrete, per il quale `e immediato applicare i risultati appena ottenuti,
che sono validi per un generico vettore aleatorio con componenti sia continue che
discrete.
Esempio 3.4
bianca
nera o rossa
X=1
X=0
82
nera
bianca o rossa
Y =1
Y =0
rossa
bianca o nera
Z=1
Z = 0.
Si vuole studiare la statistica mista del vettore aleatorio: X() = [X, Y, Z]T . A tal
fine calcoliamo dapprima le probabilit`a
Pijk = P {(X = i) (Y = j) (Z = k)},
i, j, k = 0, 1
dellintersezione di tre degli eventi sopra definiti. Tenuto conto della equiprobabilit`a
dellestrazione di una pallina di colore bianco, nero o rosso, le Pijk valgono:
P100 =
3
;
10
1
P010 = ;
5
1
P001 = ;
2
1
X
i,j,k=0
1
X
i=0
fY (y) =
fZ (z) =
1
X
j=0
1
X
1
X
(x i)
(y j)
Pijk =
j,k=0
1
X
(z k)
k=0
3
7
(x) + (x 1)
10
10
4
1
Pijk = (y) + (y 1)
5
5
i,k=0
1
X
1
1
Pijk = (z) + (z 1).
2
2
i,j=0
X
i,j,k
i Pijk =
3
,
10
mY =
1
j Pijk = ,
5
i,j,k
mZ =
k Pijk =
i,j,k
1
2
3 1
3
=
10
5
50
i,j,k
X
3 1
3
Cov(X, Z) = E{XZ} mX mZ =
ik Pijk mX mZ = 0
=
10 2
20
i,j,k
X
1 1
1
Cov(Y, Z) = E{Y Z} mY mZ =
jk Pijk mY mZ = 0 =
5 2
10
i,j,k
Cov(X, Y ) = E{XY } mX mY =
ij Pijk mX mY = 0
83
poiche i loro momenti del secondo ordine (non centrali) sono tutti nulli. Dunque le
tre variabili aleatorie sono correlate a due a due. Calcoliamo anche le loro varianze:
2
X
X
i,j,k
Z2
21
;
100
1
= ,
4
(i mX )2 Pijk =
2
(k mZ ) Pijk
i,j,k
Y2 =
(j mY )2 Pijk =
i,j,k
4
25
(X.Z)
= 0.654,
(Y, Z) = 0.5
e ci indicano che X, Y, Z non formano coppie di v.a. linearmente dipendenti. Tuttavia, la matrice di covarianza di X() = [X, Y, Z]T `e la seguente:
CX = 3/50
4/25 1/10
3/20 1/10
1/4
e ha determinante nullo, cos come RX . Il rango di queste matrici `e 2: ci`o significa
che una delle tre v.a. `e combinazione lineare delle altre due. Precisamente, `e facile
vedere che sussiste la relazione: Z() = X() + Y (). Infatti, dai calcoli svolti si
pu`o verificare che il valor medio di Z() `e la somma di mX ed mY , mentre la sua
varianza soddisfa la propriet`a (3.8) con a = b = 1:
2
Z2 = X
+ Y2 + 2 Cov(X, Y ) =
4
3
1
21
+
2
= ,
100 25
50
4
che vale per una combinazione lineare di v.a. X() e Y () tra loro correlate.
3.3
3.3.1
eiux fX (x)dx.
(3.23)
Per la definizione di momento di una v.a., essa rappresenta il valor medio della
funzione complessa
g(X) = eiuX = cos(uX) + i sin(uX)
84
eiuxk pk =
cos(uxk )pk + i
sin(uxk )pk .
(3.230 )
iux
iux
|X (u)| =
e fX (x)dx
|e |fX (x)dx =
fX (x)dx = 1.
85
X (0) = iq E{X q }.
Se esiste
Se esiste
(r)
X (0)
(r)
X (0)
(3.24)
Ne segue anzitutto che la (3.24) permette il calcolo dei momenti di ordine pari di
X(), che si possono ottenere per derivazione della sua funzione caratteristica. Se
poi X (u) ammette uno sviluppo in serie di Mc Laurin, allora per la (3.24) si ricava
anche:
X (u) =
X
uq (q)
q=0
q!
X (0) =
X
(iu)q
q=0
q!
E{X q }
(3.25)
che pu`o essere utilizzata per la determinazione di X (u) qualora non si conosca la
densit`a ma siano noti, ed esistano finiti, tutti i momenti della variabile aleatoria.
6. Dalla teoria delle trasformate di Fourier si ha che, sotto la condizione di assoluta
integrabilit`a della funzione caratteristica, vale la formula di inversione:
1
fX (x) =
2
eiux X (u)du
(3.26)
86
1
4 2
Z Z
Esempio 3.5
X
(iu)s1
1 X
(iu)s
(iu)q
=
=
.
X (u) =
q!(q + 1) s=1 s!
iu s=1 s!
q=0
X
xs
s=0
s!
=1+
X
xs
s=1
s!
si ottiene:
eiu 1
sin u
cos u 1
=
i
.
iu
u
u
La funzione trovata `e la trasformata di Fourier della funzione:
X (u) =
fX (x) =
1 se x [0, 1]
0 altrove
1 eiux dx =
1 h iux i1 eiu 1
e
=
= X (u).
0
iu
iu
87
1 iu
1
e + eiu = [(cos u + i sin u) + (cos u i sin u)] = cos u.
2
2
-1 0
(u)
f X (x)
(u)
-a
-1
c
X
(u)
a/2
(u)
f X (x)
f X (x)
Esempio 3.7
Calcoliamo la funzione caratteristica di una v.a. uniformemente distribuita nellintervallo a x a, che ha densit`a
fX (x) =
(3.27)
"
1
1 eiux
X (u) =
eiux dx =
2a
2a iu
a
#a
=
a
eiua eiua
2i sin(ua)
sin(ua)
=
=
2iua
2iua
ua
88
Esistono tutti i momenti E{X q } della densit`a uniforme (2.18): per la definizione
(2.13) quelli di ordine dispari sono tutti nulli, e quelli di ordine pari valgono:
E{X 2k } =
k = 1, 2, . . . :
Z a
x2k
1
1
dx =
2a
a
Z a
0
a2k
.
2k + 1
x2k dx =
X
(iu)2k
k=0
2k+1
X
a2k
1 X
(ua)2k+1
sin(ua)
2k (ua)
=
i
=
(1)k
=
(2k)! 2k + 1 k=0 ua(2k + 1)!
ua k=0
(2k + 1)!
ua
a
2
Z 0
eiux eax dx +
a ex(iu+a)
=
2 iu + a
#0
"
a
2
Z
0
eiux eax dx =
a ex(iua)
+
2 iu a
=
0
a
2
1
1
iu + a iu a
a2
.
a2 + u2
Esempio 3.9
(3.28)
"
iuy
y2
1
exp 2 dy =
2
2
ey(py+q) dy =
q2 /2p
e
p
y
exp y
iu
2 2
dove p =
1
,
2 2
q = iu
dy.
e fornisce
89
u2 2
Y (u) = exp
2
u2 2
X (u) = exp iu
2
3.3.2
2 /2
X (u) = eu
(0, 1].
eux fX (x)
(3.27)
X (0) = E{xq }.
(3.28)
90
X
X
uq (q)
uq
X (0) =
E{X q }.
(3.29)
X (u) =
q!
q!
q=0
q=0
Si noti che, a differenza della funzione caratteristica X (u), lesistenza di X (u)
garantisce lesistenza di tutti i momenti di X(), i quali sono calcolabili utilizzando
le formule precedenti che non coinvolgono lunit`a immaginaria.
Esempio 3.10
La funzione generatrice dei momenti di una v.a. X() con distribuzione esponenziale
fX (x) = ex , > 0, x IR+ vale
X (u) =
Z
0
eux ex dx =
Z
0
e(u)x dx =
h (u)x i
e
=
0
u
u
m ( u)
X
f (x)
X
Infatti:
q = 1, 2, 3, . . . :
(q)
X (u)
dq
= q
du
X (0) = E{X q } =
q!
.
q
q!
( u)q+1
91
Al contrario, a partire dalla conoscenza dei momenti si pu`o determinare univocamente la legge di X(). Infatti, `e soddisfatta la condizione (2.17) per lunicit`a di
fX (x):
k 2q
(2q)! k 2q
E{X }
= 2q
=
(2q)!
(2q)!
2q
2q
k
X
uq
q=0
X
u
q!
q =
q!
q=0
=
= X (u)
1 u/
u
perch`e la serie geometrica di ragione u/ converge per |u| < . Una volta ricavata
X (u), da questa si ottiene, con una antitrasformata, la densit`a esponenziale fX (x).
3.4
Problemi risolti
P12 = 1/3.
2
X
fX (1) =
j=0
fY (0) =
fY (2) =
2
X
j=0
1
X
i=0
1
X
fY (1) =
1
X
i=0
i=0
92
sxy =
1 X
2
X
i=0 j=0
0 x 1; 0 y x
e nulla altrove. a) Determinare le densit`a marginali di X e Y ; b) dire se sono statisticamente indipendenti giustificando la risposta; c) calcolare il momento congiunto
E{XY }.
Soluzione.
a) Il supporto della densit`a congiunta `e il triangolo del piano (x, y) delimitato dalle
rette y = x; y = 0 e x = 1. La densit`a marginale di X si ottiene integrando f (x, y)
rispetto ad y sullintervallo Dy (x) = [0, x] ; quella di Y integrando f (x, y) rispetto
ad x sullintervallo Dx (y) = [y, 1] :
fX (x) = 8x
fY (y) = 8y
Z x
0
Z 1
y
ydy = 4x3 ,
0x1
xdx = 4y(1 y 2 ) ,
0 y 1.
E{XY } =
Z 1
0
x dx
Z x
0
8
y dy =
3
2
Z 1
0
x5 dx =
4
.
9
3.4. Calcolare la covarianza della coppia (X, Y ) di variabili casuali discrete che
hanno valori xi = 0, 1 e 2 ed yj = 0 e 2 con probabilit`a congiunte P00 = P20 = P22 =
1/6; P10 = 1/3; P02 = P12 = 1/12.
Soluzione. Occorre dapprima calcolare le densit`a marginali e i valori medi di X e
Y:
fX (0) =
2
X
j=0
fX (2) =
2
X
j=0
P0j
1 1
1
= + = ,
6 2
4
P2j =
1 1
1
+ =
6 6
3
fX (1) =
2
X
j=0
P1j =
1
1
5
+
=
3 12
12
fY (0) =
2
X
i=0
E{X} =
Pi0 =
93
1 1 1
2
+ + = ,
6 3 6
3
1
13
5
+2 =
,
12
3
12
fY (2) =
2
X
i=0
Pi2 =
1
1
1
1
+
+ =
12 12 6
3
1
2
E{Y } = 2 =
3
3
da cui si ottiene:
sxy =
2 X
2
X
i=0 j=0
Pij xi yj E{X}E{Y } = 2
1 13 2
5 13
1
1
+4
=
==
12
6 12 3
6 18
9
94
3.5. Date due variabili aleatorie X, Y e due costanti non nulle a, b, vale lidentit`
a:
Cov(aX, bY ) = (a + b)Cov(X, Y ). Vero o Falso, e perch`e ?
Risposta: `e Falso , perch`e vale a b Cov(X, Y ).
3.6. X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poisson
con parametri rispettivamente X = 2 e Y = 3. Calcolare la probabilit`a IP[(X
1) (Y 1)] e il momento E{XY }.
Soluzione. Le densit`a di probabilit`a marginali di X e Y sono:
fX (x) = e2
k
X
2
k=0
k!
fY (y) = e3
(x k) ;
X
3h
h=0
h!
(y h)
X
i j
X
23
i=0 j=0
i!j!
U (x xi )U (y yj )
1 X
1
X
2i 3j
i=0 j=0
= e
i!j!
20 30 20 3 2 30 2 3
+
+
+
0!0!
0!1!
1!0!
1!1!
sxy
2.6
= ' 0.9192 .
X Y
2 2
TRASFORMAZIONI DI
VARIABILI ALEATORIE
4.1
Generalit`
a
(4.1)
96
g(x)
W
X( w)
g(x)
Y( w)
Y( w)
w
X( w)
x
Figura 4.1
4.2
4.2.1
97
FY (y) = P [X Ex (y)] =
Ex (y)
fX (x)dx.
(4.2)
g(x)
fY (y)
-y
f X (x)
g(x)
f Y (y)
y
b
f X (x)
y
f Y (0)
0
a,b
Ex (y) =
Z y
y
1
2
fX (x) = e(x1) ,
y>0
98
i
dFX (y) dFX (y)
1 h
2
2
x se x 0,
0 se x < 0
e ingresso con la medesima legge normale N (1, 12 ), sopprime invece i segnali negativi
e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2)
vale:
y<0:
Ex (y) = 0
y0:
Ex (y) = (, y]
FY (y) = 0
=
FY (y) =
Z y
fX (x)dx = FX (y).
g(x) =
1, x 0
1,
x>0
che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una
variabile casuale discreta con valori 1. Infatti la funzione di distribuzione in uscita
FY (y) si determina come segue:
y < 1 :
Ex (y) = 0
FY (y) = 0
1 y < 1 :
Ex (y) = (, 0]
y1:
Ex (y) = IR
99
Z 0
FY (y) =
FY (y) =
Z +
fX (x)dx = FX (0)
fX (x)dx = 1.
fY (y)
f X (x)
-1
0
-1
g(x)
1
F (x)
X
-1
0
f Y (y)
FY (y)
f X (x)
-1
-1
Figura 4.2 - Casi
c,d
x < 1
1,
1 x 1
g(x) = x,
+1,
x>1
100
Ex (y) = 0
FY (y) = 0
Ex (y) = (, y]
Ex (y) = IR
FY (y) =
Z y
FY (y) =
Z +
fX (x)dx = FX (y)
fX (x)dx = 1.
+[1 FX (1)](y 1) =
1
1
2
+ erf(1) [(y + 1) + (y 1)].
= ey /2 [U (y + 1) U (y 1)] +
2
2
Questa `e una densit`a mista che ha ancora legge normale standard per y [1, 1],
`e nulla allesterno di tale intervallo, e presenta due impulsi uguali per y = 1
di intensit`a p(1) = 0.1587, che `e uguale alla massa di probabilit`a contenuta in
ciascuna delle due code della distribuzione di ingresso che sono state eliminate
nella risposta del sistema (v. Fig. 4.2d).
4.2.2
101
g(x)
dy
y
dx 1
dx 2
E x (y)
x(1)
x ( 2)
Figura 4.3
fY (y)dy =
fX (x(1) )
fX (x(2) )
+
|g 0 (x(1) )| |g 0 (x(2) )|
dy
102
y+1 y+1
FY (y) =
= y,
0 y 1.
(4.4)
2
2
g( x)
f ( y)
Y
f X (x )
0.5
E x ( y)
0
- y
-1
x(1) (y) = y;
x(2) (y) = y
e sono reali solo se y 0. Poich`e Dx = [1, 1], si hanno due soluzioni distinte per
0 y 1. Dunque il dominio Dy `e lintervallo [0, 1] e in esso, tenuto conto che
g 0 (x(1) ) = 2x(1) = 2 y;
g 0 (x(2) ) = 2x(2) = 2 y,
la densit`a incognita vale:
1
1
1 1
+
2 2
1
=
2 y
4.2.3
103
Trasformazioni invertibili
La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistema
`e una funzione g(x) che, oltre ad essere continua e derivabile, `e anche invertibile in
Dx . In tale ipotesi, lequazione g(x) y = 0 ha al pi`
u una sola radice reale x(1) =
g 1 (y) coincidente con la funzione inversa di g(x). Per il teorema di derivazione
delle funzioni inverse, vale lidentit`
a
1
g 0 (x(1) (y))
dg 1 (y)
dy
dg 1 (y)
(y)]
.
dy
(4.5)
Z g1 (y)
fX (x)dx = FX [g 1 (y)].
(4.6)
Z
g 1 (y)
fX (x)dx = 1 FX [g 1 (y)].
(4.60 )
Applicando la teoria delle trasformazioni invertibili, `e possibile determinare la caratteristica che deve avere un dispositivo da utilizzare per trasformare un ingresso casuale in una uscita avente prescritte propriet`a statistiche. Si assuma che lingresso
sia dotato di densit`a continua in DX IR. La sua funzione di distribuzione FX (x) `e
allora una funzione continua, monotona crescente in IR. Se la funzione caratteristica
104
g(x) del dispositivo in cui `e immesso il segnale coincide con FX (x), in uscita si ricava
per la (4.6):
FY (y) =
Z g1 (y)
con y [0, 1]. Inoltre, si constata subito che per y < 0 `e FY (y) = 0, e per y > 1
si ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita `e quella di una
variabile casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivo
genera numeri casuali equiprobabili in tale intervallo.
Inversamente, proponiamoci di generare una uscita casuale continua Y () con una
assegnata funzione di distribuzione FY (y) anchessa, ovviamente, monotona crescente e quindi invertibile in DY IR. Allo scopo, `e sufficiente trasformare un
ingresso uniformemente distribuito in DX = [0, 1] con un dispositivo avente caratteristica g(x) = FY1 (x) uguale alla inversa della funzione caratteristica richiesta in
uscita. Infatti per tale trasformazione si ha:
Ex (y) = {x [0, 1] : g 1 (x) < y} = [0, FY (y)].
Quindi, tenuto conto che fX (x) = 1 in [0, 1], la funzione di distribuzione in uscita,
che si calcola ancora con la (4.6), vale:
Z FY (y)
0
1 dx = FY (y)
fX( x )
g( x )
f Y( y )
1
FX ( x )
E ( y)
g( x )
F -1
(y)
X
F -1 ( x )
Y
fX( x )
f Y( y )
E ( y)
X
F ( y)
Y
105
4.2.4
y2
(y) = ;
4
FY (y) =
Z g1 (y)
dx =
y2
;
4
fY (y) =
dFY (y)
y
= .
dy
2
Momenti di Y () = g[X()]
Una volta determinata la densit`a della funzione di variabile aleatoria, i suoi momenti
di ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione:
Z
q
E{Y } =
DY
y q fY (y)dy.
(4.7)
E{Y } =
Dx
g q (x)fX (x)dx
(4.8)
che definisce il momento di ordine q di una generica funzione g della variabile casuale
dotata di densit`a fX (x). Si pu`o facilmente dimostrare la (4.8) nellipotesi che g(x)
sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha:
dg 1 (y)
E{Y q }) =
y q fY (y)dy =
y q fX (x = g 1 (y))
dy =
dy
Dy
Dy
Z
Z
dg 1 dy
q
g q (x)fX (x)dx.
=
g (x)fX (x)
dx =
dy
dx
Dx
Dx
Z
mY = E{Y } =
DX
g(x)fX (x)dx
(4.9)
106
E{Y 2 } =
4.2.5
Dx
g 2 (x)fX (x)dx.
Trasformazioni lineari
dg 1 (y)
1
= = cost.
dy
a
yb
;
a
fY (y) = fX
yb
x=
a
1
|a|
(4.10)
mY =
Dx
E{Y 2 } =
DX
(4.11)
Essa `e uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata
per a2 .
Esempio 4.4: Distribuzione parabolica in [a, b].
Si `e visto nel 2.3.12 che la distribuzione parabolica sul supporto {x [0, 1]} `e una
particolare distribuzione Beta con densit`a fX (x) = 6x(1 x). Per determinare una
107
y [a, b]
dg 1 (y)
1
=
.
dy
ba
ya
,
ba
fY (y) =
f [x = g 1 (y)]
0
altrove.
1
6
=
(y a)(b y), y [a, b]
|b a|
(b a)3
f d (d)
v
q
0
Dd
3A
2
108
g 0 ((2) ) = g 0 ((1) )
3
d<A
A
per
Z /3
/6
A sin 2
3A
6
d =
4.3
6A2
Z /3
sin2 2d m2d =
!
!
3 3
9
3A2
3
2
2 1
+
md = A
+
2 .
=
2 3
2
2
4
/6
Z
EX (y)
(4.12)
La densit`a di probabilit`a di Y () si ottiene poi come derivata della funzione di distribuzione calcolata con la (4.12), e in casi particolari si pu`o anche determinare
109
E{Y q } =
DX
(4.13)
110
y = x1 + x 2
E (y)
12
x1
Figura 4.7
Z +
dx2
Z yx2
f (x1 , x2 )dx1
(4.14)
e derivando rispetto ad y:
fY (y) =
Z +
f (y x2 , x2 )dx2 .
(4.15)
Un caso notevole si ha nellipotesi che X1 () e X2 () siano statisticamente indipendenti, con densit`a che indichiamo con f1 (x1 ) e f2 (x2 ) in IR. Poich`e la loro densit`a
congiunta `e uguale al prodotto di queste due densit`a marginali, le (4.13) e (4.14)
diventano:
Z
Z
FY (y) =
fY (y) =
Z +
f2 (x2 )dx2
yx2
f1 (x1 )dx1
(4.130 )
(4.140 )
Z +
111
Z
0
Z y
0
(4.16)
x2
1
y = x1 + x 2
C22
C1
x1
Figura 4.8
per y < 0
0,
C ,
per 0 y < 1
1
E12 (y) =
C ,
per 1 y < 2
2
[0, 1] [0, 1], per y 2.
Pertanto, indicando con m(Ci ) la misura degli insiemi Ci , si ricava:
0,
per y < 0
m(C1 ) = y 2 /2,
per 0 y < 1
FY (y) =
1,
per y 2
112
fY (y) =
y,
per 0 y < 1
2 y, per 1 y < 2.
Dunque la v.a. Y () = X1 () + X2 () somma di distribuzioni uniformi indipendenti, ha la distribuzione triangolare di Fig. 4.9. Essa si poteva anche calcolare
direttamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f1
ed f2 sono nulle al di fuori dellintervallo [0,1], si ricava infatti:
0y<1:
fY (y) =
1y<2:
fY (y) =
=
Z y
Z01
Z 0y
f1 (y x2 ) 1 dx2 =
f1 (y x2 ) 1 dx2 +
y1
f1 (x1 )dx1 =
Z 1
y1
Z y
Z 0y
1
f1 (x1 )dx1 = y
f1 (y x2 )f2 (x2 )dx2 =
dx1 = 2 y.
F Y (y)
1
f Y (y)
mY =
D12
E{Y } =
D12
dove E{X12 } = E{X22 } = 1/3 ed inoltre: E{X1 X2 } = E{X1 }E{X2 } = 1/4, perche
lindipendenza statistica implica una covarianza nulla. Pertanto si ricava:
E{Y 2 } =
2 1
7
+ = ,
3 2
6
Y2 = E{Y 2 } m2Y =
7
1
1=
6
6
113
Z +
1
=
21 2
Z +
"
"
(y x2 m1 )2
(x2 m2 )2
exp
exp
dx2 =
212
222
"
(y m1 )2
m22
"
!#
exp
212
222 Z +
12 + 22
y m1 m2
exp x2
=
dx2 .
x2
2
21 2
212 22
12
2
q2 /4p
e
p
con p =
12 + 22
y m1 m2
, q=
2,
2
2
21 2
12
2
(y m1 m2 )2
fY (y) = q
exp
2(12 + 22 )
2(12 + 22 )
1
V = g(X1 , X2 ) =
X12 + X22
114
`e una variabile aleatoria la cui funzione di distribuzione si pu`o determinare applicando la (4.12) con
1
x21 + x22
f (x1 , x2 ) = f1 (x1 )f2 (x2 ) =
exp
2 2
2 2
0 v; 0 2}
Z 2
0
Z v
0
1 2 /22
1
e
d = 2
2
2
Z v
0
2 /2 2
(4.17)
v
dF (v)
2
2
= 2 ev /2 ,
dv
v0
che `e una distribuzione di Rayleigh (cfr. 2.3.5) con parametro uguale alla deviazione standard delle densit`a normali delle due componenti.
Il metodo di calcolo appena applicato si pu`o agevolmente estendere allo studio del
modulo di un vettore aleatorio in IR3 :
q
V () =
le cui componenti sono variabili casuali indipendenti, ancora distribuite con legge
normale N (0, 2 ) e densit`a congiunta
2 2
(2)3/2
FV (v) =
EX (v)
0 v; 0 ; 0 2}.
FV (v) =
Z 2
0
Z
0
Z v
0
115
Z
v
1
2
2
2
2 /2 2 2
send = 3
e
2 e /2 d
3/2
3
0
(2)
!
2
dF (v)
2v
v2
fV (v) =
= 3 exp 2 ,
v 0.
dv
2
Si ricava cos la distribuzione di Maxwell gi`a presentata nel 2.3.5 del Capitolo II.
` di un guasto
Esempio 4.8: Probabilita
Nella teoria della previsione dei guasti, il tempo che intercorre tra listante in cui un
sistema inizia il suo funzionamento e quello in cui cessa di funzionare `e una variabile
aleatoria con la distribuzione esponenziale definita nel 2.3.4. Consideriamo ora
un sistema S costituito da due componenti S1 , S2 e indichiamo con X1 (), X2 ()
gli istanti in cui ciascuno di questi cessa il suo funzionamento. Assumendo come
modello di probabilit`a dei guasti due leggi esponenziali:
f1 (x1 ) = c1 ec1 x1 ,
f2 (x2 ) = c2 ec2 x2 ,
x1 , x2 0
(4.18)
x2
A
t
x1
Figura 4.10
116
= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}
= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}.
Z t
0
f1 (x1 )dx1 +
Z t
0
f2 (x2 )dx2
Z t
0
f1 (x1 )dx
Z t
0
f2 (x2 )dx2 =
dF (t)
= [1 F2 (t)]f1 (t) + [1 F1 (t)]f2 (t).
dt
t 0.
Dunque, nel sistema con componenti in serie il tempo di attesa del guasto ha ancora
legge esponenziale. Il suo valor medio (e quindi la vita media del sistema complessivo)
`e mT = 1/(c1 + c2 ), minore della vita media dei singoli componenti, e la varianza
vale T2 = 1/(c1 + c2 )2 .
2. Esaminiamo ora la statistica del sistema con componenti che funzionano in parallelo. Per esso listante del guasto `e la variabile casuale
T () = g(X1 , X2 ) = max[X1 (), X2 ()]
e il dominio di integrazione nella (4.12) diventa
EX (t) = {(x1 , x2 ) : (0 x t) (0 x t)} B(t).
Si ricava perci`o
FT (t) =
Z t
0
f1 (x1 )dx
Z t
0
117
e la densit`a di probabilit`a
fT (t) = F2 (t)f1 (t) + F1 (t)f2 (t)
la quale, usando le (4.18), si riscrive:
fT (t) = c1 ec1 t + c2 ec2 t (c1 + c2 )e(c1 +c2 )t .
Il valor medio e la varianza di questa distribuzione valgono:
Z
1
1
1
+
c1 c2 c1 + c2
Z0
1
1
1
2
=
t fT (t)dt m2T = 2 + 2
c1 c2 (c1 + c2 )2
0
mT
T2
fT (t)tdt =
per cui il sistema in esame ha vita media maggiore di quella del sistema con componenti in serie; tuttavia cresce anche la dispersione di fT (t) rispetto al suo valor
medio.
3
f T (t)
2
in serie
in parallelo
1
ausiliario
Z t
0
Z t
0
Z t
0
118
da cui risulta:
c1 6= c2 :
fT (t)
c1 = c2 = c :
fT (t)
c1 c2 c1 t
e
ec2 t
c2 c1
= c2 tect .
La vita media del sistema e la varianza di T () sono quelle proprie di una somma
di variabili casuali indipendenti, e risultano quindi uguali alla somma delle medie e
delle varianze di X1 (), X2 ():
mT =
1
1
+ ;
c1 c2
T2 =
1
1
+ 2.
2
c1 c2
La Fig. 4.11 mostra le densit`a che si ricavano assumendo c1 = 1, c2 = 2 nei tre casi
ora considerati.
4.4
Transformazioni n-dimensionali
N
X
fX (x(k) (y))
k=1
|J(x(k) (y))|
(4.20)
dove fX (x) `e la densit`a nota del vettore X(), e J(x) `e il determinante jacobiano
della trasformazione (4.19) con m = n, entrambi da calcolare per x = x(k) (y). Se
esistono valori y per cui il sistema g(x) y = 0 non ammette soluzioni reali, allora
fY (y) = 0.
119
(4.21)
g1
(y) = det
y
xi
= det
yj
i, j = 1, 2, . . . , n.
i = 1, .., n
fX [x = A1 (y b)]
= fX [x = A1 (y b)] | det(A1 )|,
| det(A)|
(4.22)
120
E{Yq } =
DX
gq (x) fX (x)dx,
x DX IRn
0 x1 1;
2
f2 (x2 ) = x2 ,
3
1 x2 2
e nulle al di fuori degli intervalli sopra definiti. Queste sono le densit`a marginali del
vettore aleatorio X() : DX IR2 che ha densit`a di probabilit`a
8
fX (x) = f1 (x1 )f2 (x2 ) = x31 x2
3
sul dominio DX = {(x1 , x2 ) : 0 x1 1; 0 x2 2}. Un dispositivo con
caratteristica
g(x) = {g1 (x), g2 (x)},
g1 (x) = a(x1 + x2 );
g2 (x1 ) = bx1
a a
Y() = AX(),
con
A=
b 0
e la sua densit`a si ricava dalla (4.22). Con semplici calcoli si ottiene:
det(A) = ab;
A1 =
0
1/b
1/a 1/b
121
x2
2
g:D
3a
2a
y1
0
C1
1
C2
-b
0
x1
Figura 4.12
= y2 /b
+y1 /a + y2 /b.
8
1
8 3 y1 y2
fY (y) = f1 (x1 = y2 /b)f2 (x2 = y1 /a + y2 /b)
=
+
.
y
3
ab
3ab4 2 a
b
Le densit`a marginali di ciascuna componente si possono determinare integrando
fY (y) rispetto allaltra variabile (si ricordi la (3.5)). Cos , per ottenere la densit`a
marginale f (y1 ) di Y1 () si deve integrare per verticali sui due sottoinsiemi C1 , C2
di Fig. 4.12, tali che C1 C2 = DY , e si ricava:
a y1 2a :
f (y1 ) =
Z 0
b(1y
"1 /a)
fY (y)dy2 =
y1
2
=
5y1 1
2
15a
a
2a y1 3a :
f (y1 ) =
Z b(2y1 /a)
b
2
=
15a2
y1
1 2
a
4 #
Z 0
b(1y1 /a)
#
y1 5
+ 4a 1
fY (y)dy2 =
"
5y1
8
3ab4
a
"
y23
y1 y2
+
dy2
a
b
y1
4a 1 + 2
a
5 #)
Z a(2y2 /b)
a(1y2 /b)
8
fY (y)dy1 =
3ab4
Z a(2y2 /b)
a(1y2 /b)
4y23
b4
122
a=2
b=4
f(y1 )
f(y2 )
-4
Figura 4.13
4.5
Problemi risolti
4.1. Nel circuito di Fig. 4.14, che `e percorso da una corrente I di 0.02 Ampere, le
resistenze valgono ro = 500 Ohm e r1 = 1000 10% Ohm. La tolleranza con cui
si conosce il valore di r1 suggerisce di considerare questultima come una variabile
casuale distribuita nellintervallo 900 r1 1100 con legge parabolica. Calcolare
il valor medio, la varianza e la densit`a di probabilit`a della differenza di potenziale
V () e della conduttanza () = 1/r1 .
Soluzione. La densit`a di probabilit`a della resistenza r1 si determina applicando la
formula ricavata nelEsempio 4.4:
fR (r1 ) =
6
3
(r1 900)(1100 r1 ) =
3
200
400
r1
9
100
11
r1
, r1 [900, 1100].
100
123
r0
V
I
r1
Figura 4.14
f( G )
f(V )
28
3
(V 28)(32 V )
32
32 V
1
1100
1
900
Figura 4.15
1
900 + 200x
124
dg 1 ()
1
=
d
2002
1
9
;
200 2
f () = 6
1
9
200 2
1
9
+
200 2
1
=
2002
=
3
(200)2
1
900
1100
Z 1
x(1 x)
3
99
9
dx =
5+
log
900 + 200x
100
4
11
' 0.001002
Z 1
0
x(1 x)
dx m2 =
(900 + 200x)2
11
6
10
log
2
m2 ' 2.0393 109 .
=
(200)2
9
0t1
(4.23)
125
z 2 = v0
DX
D Z (t)
y
v0 = t
v0 =
y-1
t
1+t
z 1= y
Figura 4.16
dove il dominio
DZ (t) = {(z1 , z2 ) : z2 t z1 1 + z2 t; 0 z2 1}
`e mostrato in Fig. 4.16. Studiamo la trasformazione z = g(x; t) con t parametro,
definita da
z1 = g1 (x; t) = y0 + v0 t
z2 = g2 (x2 ) = v0 .
La trasformazione inversa `e
x1 = y0 = g11 (z; t) = z1 z2 t
x2 = v0 = g21 (z) = z2
ed ha determinante jacobiano che vale:
det(A
dg1
1 t
)=
=
= 1.
0 1
dz
fY (y; t) = 6
DY (t)
v0 (1 v0 )dv0
126
[0, y/t],
DY (t) =
fY (y ; t)
per 0 y t
[0, 1],
per t y 1
t=0
t = 0.5
t=1
t [0, 1]
fY (y; t) =
per 0 y t
1,
per t y 1
La Fig. 4.17 mostra il grafico di tale densit`a per alcuni valori di t. Nella applicazione
meccanica, da essa si pu`o ricavare, per esempio, la probabilit`a che in un istante
generico del moto il sistema abbia percorso uno spazio non superiore ad un assegnato
valore y.
PROCESSI STOCASTICI
5.1
Definizioni
n = 1, 2, . . .
(5.1)
n Fn (x1 , . . . , xn ; t1 , . . . , tn )
.
x1 . . . xn
127
(5.2)
128
PROCESSI STOCASTICI
f2 (x1 , x2 ; t1 , t2 )dx2
(5.3)
5.1.1
Momenti
Il valore atteso di X(, t) `e il valore atteso della variabile casuale X() in un assegnato istante t:
Z
m(t) = E(X)t = xf1 (x, t)dx
(5.4)
ed `e dunque, in generale, una funzione ordinaria della variabile reale t.
Fissati due istanti t1 , t2 , il momento congiunto del secondo ordine delle variabili
casuali X1 , X2 `e chiamato autocorrelazione R(t1 , t2 ) del processo:
Z Z
R(t1 , t2 ) = E(X1 X2 ) =
(5.5)
(5.6)
5.1 Definizioni
5.1.2
129
Processi indipendenti
Due processi X(, t), Y (, t) si dicono statisticamente indipendenti se, date le successioni di istanti {t1 , . . . , tn }, {t01 , . . . , t0m } linsieme di variabili aleatorie X(, tk ), k =
1, . . . , n `e indipendente dallinsieme delle Y (, t0h ), h = 1, . . . , m ovvero se la loro
densit`a congiunta di ordine n + m soddisfa:
fn+m (x1 , . . . , xn ; t1 , . . . tn ; y1 , . . . , ym ; t01 , . . . t0m ) = fn (x1 , . . . , tn )fm (y1 . . . , t0m )
per ogni intero n ed m.
5.1.3
5.1.4
Processi stazionari
130
PROCESSI STOCASTICI
E(X) =
xf1 (x)dx = mX ;
densit`a del secondo ordine e autocorrelazione che dipendono solo dalla differenza = t2 t1 tra gli istanti considerati:
Z Z
R(t1 , t2 ) =
(5.6)
= cost < +
< +,
R(t1 , t2 ) = R( ).
(5.7)
La stazionariet`a debole riguarda dunque solo i momenti del primo e secondo ordine
del processo, e non le corrispondenti densit`a, come avviene nella definizione in senso
stretto: questultima implica la stazionariet`a in senso lato ma non viceversa.
5.2
Esempi notevoli
Nel definire il modello matematico di un fenomeno fisico mediante un processo stocastico, si usa spesso esprimerlo in termini analitici come una funzione ordinaria di
t contenente una o pi`
u variabili casuali i () come parametri:
X(, t) = X(i (), t).
In tal caso le statistiche del processo dipendono dalla distribuzione di probabilit`a
congiunta che si assegna allinsieme delle variabili casuali i (), e si ricavano con
i metodi noti descritti dalla teoria della trasformazione di variabili casuali, che ora
sono da applicare trattando il tempo t come un parametro della trasformazione.
In altre applicazioni si definiscono invece processi stocastici speciali, che sono il
risultato di una modellizzazione del fenomeno reale basata su opportune ipotesi di
natura probabilistica.
Esempio 5.1
131
Esso `e costituito da una famiglia di rette, che sono le realizzazioni del processo, e la
sua media nellistante t `e la funzione lineare del tempo che si ricava in termini delle
medie di a(), b():
E(X) = E(a) + E(b)t.
Fissati gli istanti t1 , t2 , lautocorrelazione del processo vale
R(t1 , t2 ) = E(a + bt1 )E(a + bt2 ) = E(a2 ) + E(ab)(t1 + t2 ) + E(b2 )t1 t2
e la sua autocovarianza `e
C(t1 , t2 ) = a2 + b2 t1 t1 + Cov(a, b)(t1 + t2 ).
La varianza del processo al tempo t `e perci`o
2 (t) = a2 + b2 t2 + 2tCov(a, b)
e poich`e a(), b() sono indipendenti si riduce a
2 (t) = a2 + b2 t2 .
Si tratta di un processo non stazionario, nemmeno in senso debole.
5.2. Rumore di Rice
n
X
Aj cos(j t + j )
j=1
(5.8)
con fase aleatoria uniformemente distribuita in [0, 2], ed a, costanti reali deterministiche. Le realizzazioni di questo processo sono funzioni cosinusoidali del tempo,
con eguale ampiezza e frequenza ma con fasi differenti, probabilisticamente definite
da una densit`a uniforme in [0, 2]. Si ottiene facilmente:
E(x) = E[a cos(t + )] =
a
2
Z 2
0
cos(t + )d = 0
1
R(t1 , t2 ) = a2 E[cos(t1 + ) cos(t2 + )] = a2 cos (t2 t1 );
2
Dunque il processo (5.8) `e debolmente stazionario.
2
X
=
a2
.
2
132
PROCESSI STOCASTICI
(n 1)T t nT
(5.9)
Y(t)
X(t)
1
1
A(w )
t
-1
-1
rumore binario
Figura 5.1
=
1
R(t1 , t2 ) =
1
0
se
(n 1)T t1 , t2 < nT
altrimenti.
133
E una generalizzazione della trasmissione binaria semicasuale, in cui ciascuna realizzazione `e traslata nel tempo di una quantit`
a aleatoria A() indipendente dalle Xn
e avente densit`a uniforme nellintervallo [0, T ]. La sua rappresentazione analitica `e
perci`o
Y (, t) = X(, t)[t A()]
(5.10)
Z T | |
0
dA = 1
| |
= R( )
T
E uno speciale caso limite del rumore binario, che si definisce quando T 0 e
2 in modo che il prodotto 2 T tende a un valore finito. Per le sue particolari propriet`a e per la semplicit`a della sua descrizione in termini matematici, `e
ampiamente usato per approssimare un gran numero di fenomeni fisici aleatori.
5.6. Passeggiate a caso
134
PROCESSI STOCASTICI
n
X
k=0
n (2k n)s
= 0.
k
2n
(t) = s
n
X
k=0
n (2k n)2
ts2
= ns2 =
.
n
2
T
k
"
(2k n)2
2
exp
.
n
2n
X(t)
s
0
Se infine a t costante
effettuiamo un passaggio al limite per s, T 0, e se s tende
a zero come T , si ottiene un nuovo processo stocastico chiamato moto browniano o processo di WienerLevy, che rappresenta il modello matematico del moto
irregolare di particelle libere di muoversi in un mezzo fluido.
135
10
X(t)
5
1
0
ti
Figura 5.3 - Processo di Poisson
La statistica del primo ordine del processo `e quella della distribuzione di Poisson:
2
X
(t) = t.
mX (t) = t,
R(t1 , t2 ) = E(X1 X2 ) =
t2 + 2 t1 t2
t1 + 2 t1 t2
se t1 t2
se t1 t2
e quindi
C(t1 , t2 ) = R(t1 , t2 ) mX (t1 )mX (t2 ) = min(t1 , t2 ).
Il processo di Poisson non `e stazionario; `e per`o un processo con incrementi stazionari
in senso lato. Si definisce incremento di Poisson il processo
Y (, t) =
X(, t + ) X(, t)
(5.11)
136
PROCESSI STOCASTICI
che per ogni t fissato ha valori uguali al rapporto k/, dove k `e il numero di punti
nellintervallo [t, t + ]. Il valor medio degli incrementi di Poisson `e costante e vale:
E(Y ) =
E(X(t + )) E(X(t))
= ,
e lautocorrelazione risulta:
(
R(t1 , t2 ) =
2
2 +
| |
2
se
se
| | >
| | <
dove = t2 t1 .
Facendo tendere a zero, si ottiene un nuovo processo stocastico debolmente stazionario Z(, t), che definisce gli impulsi di Poisson:
Z(, t) = lim Y (, t) =
0
dX(, t) X
=
(t ti ).
dt
i
(5.13)
Questo processo consiste nella successione di infiniti impulsi unitari negli istanti
casuali ti , ed `e facile verificare che ha media ed autocorrelazione date da
E(Z) =
R(t1 , t2 ) = 2 + (t1 t2 ) = [ + ( )].
5.3
Processi di Markov
X(, t) `e chiamato processo di Markov se per ogni n e per t1 < t2 < ... < tn IR+
si ha:
P [X(, tn ) xn |xn1 , tn1 , . . . , x1 , t1 ] = P [X(, tn ) xn |xn1 , tn1 ].
In tale processo la distribuzione in probabilit`a allistante tn `e condizionata soltanto
dalle propriet`a statistiche che ha avuto nellistante immediatamente precedente tn1 ,
e ha perso la memoria della sua storia prima di tn1 . Ne segue che la densit`a di
probabilit`a di ordine n del processo vale:
fn (x1 , t1 , . . . , xn , tn ) = f1 (x1 , t1 )f (x2 , t2 |x1 , t1 ) f (xn , tn |xn1 , tn1 )
e per la definizione di probabilit`a condizionata si pu`o calcolare come:
fn (x1 , t1 , . . . , xn , tn ) =
137
f (x1 , x2 , x3 )
,
f1 (x2 )
5.4
Catene di Markov
138
PROCESSI STOCASTICI
t T IN;
le variabili casuali Xn assumono tutte valori nello stesso insieme numerabile
discreto E IN, chiamato spazio degli stati;
esistono reali non negativi pij (n) con i, j E, n N tali da soddisfare la
propriet`a di Markov:
pij (n)=P (Xn+1 = j|Xn = i, Xn1 = in1 , . . . , X1 = i1 ) = P (Xn+1 = j|Xn = i).
Se pij non dipendono da n, la catena `e omogenea.
5.4.1
Matrice di transizione
Se linsieme E degli stati `e finito, i numeri pij sono gli elementi di una matrice
quadrata P il cui ordine `e uguale alla cardinalit`a di E. Questa matrice si chiama
matrice di transizione ed ha le seguenti propriet`a:
pij 0;
la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degli
assiomi della probabilit`a per ogni i si deve avere:
X
j
pij =
Pij
(m)
cio`e la probabilit`a che dopo m passi successivi allistante t = n (nel quale la catena si
(m)
trova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con Pm = [pij ] la
matrice di transizione dopo m passi successivi allnesimo, sfruttando la definizione
(m)
di pij si ricava che essa `e il risultato del prodotto matriciale
Pm = Pm1 P
da cui ponendo m = 2, 3, . . . si ottiene: P2 = PP = P2 , P3 = P2 P = P3 , . . . e per
ricorrenza:
Pm = Pm .
139
Poiche la variabile aleatoria Xn assume valori in E, la sua legge probabilistica `e descritta da un vettore riga con dimensioni uguali alla cardinalit`a di E, che indichiamo
con
w = (w1 , w2 , . . . , wk , . . .);
wk = P (Xn = k)
e tale da soddisfare per ogni valore intero dellindice k:
X
wk 0;
wk = 1
vh = P (X0 = h)
lo stato probabilistico della catena nellistante iniziale t0 . Dopo n passi della catena,
la legge degli stati `e definita dal vettore w avente le componenti:
wk =
X (n)
phk vh .
Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi)
sono legate dalla relazione:
w = vPn .
Se ne conclude che le leggi congiunte degli stati n = 1, 2, . . . sono determinate univocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si pu`o
dimostrare che data una matrice di transizione P e una legge su E, esiste sempre
una catena di Markov associata a P e con legge iniziale v.
Esempio 5.8
2
0.8
0.3
0.4
0.5
0.3
0.2
1
0.5
Figura 5.4
140
PROCESSI STOCASTICI
Supponiamo di dover studiare una successione di transizioni tra questi stati, che
avviene in successivi istanti t1 , t2 , . . . tn , . . . sempre con le medesime probabilit`a di
transizione, e a partire dallistante t0 nel quale lo stato del sistema si trova nel
nodo 2 con probabilit`a 1. Si ha un problema di questo tipo, per esempio, quando
si studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni della
concentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modello
matematico naturale `e una catena di Markov omogenea definita sullo spazio degli
stati E = (1, 2, 3) in cui le variabili casuali Xn = X(tn ) possono assumere i valori di
E con probabilit`a da determinare. E nota la legge iniziale perche per t = t0 si ha
P (X0 = 1) = 0, P (X0 = 2) = 1, P (X0 = 3) = 0, e quindi
v = (v1 , v2 , v3 ) = (0, 1, 0).
Se pij `e la probabilit`a di transizione dallo stato i allo stato j, essa si trova sulla
iesima riga e jesima colonna della matrice di transizione della catena, che vale
P = 0.4
0.8 0.2
0.3
0.5 0.5
0.3 .
Se vogliamo conoscere la legge w(1) dello stato X1 = X(t1 ) basta applicare a v questa
matrice di transizione. Si scrive allora
(1)
(1)
(1)
(2)
(2)
0.42 0.34
0.24
P = PP = 0.27
0.56
0.17 .
0.2
0.55
0.25
141
5.4.2
Nella teoria delle catene di Markov, dati due stati i, j E si dice che i comunica
(n)
con j se esiste un intero n > 0 tale che pij > 0, e si scrive in tal caso: i j.
Ci`o significa che nella catena `e possibile passare dallo stato i allo stato j in n passi.
Si badi che i j non implica necessariamente linverso: j i; si pu`o tuttal pi`
u
affermare che:
i j, j h
ih
(n)
(m)
pih
X (n) (m)
(n) (m)
Se esiste un intero m > 0 tale che pij > 0 per ogni coppia (i, j), la matrice di
transizione P si dice regolare e tale `e la catena di Markov associata a tale matrice
regolare. Una catena regolare `e irriducibile, ma non vale sempre linverso: esistono
catene irriducibili che non sono regolari. Un criterio sufficiente per la regolarit`a della
catena `e il seguente:
Se la catena `e irriducibile e inoltre esiste un h E tale che phh > 0, allora la
catena `e regolare.
142
PROCESSI STOCASTICI
Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente,
sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenga
nel verso indicato e con le probabilit`a indicate.
0.5
1
0.5
1
0.5
2
0.25
0.25
5
3
4
1
Figura 5.5
A questo grafo si pu`o associare una catena di Markov costituita da cinque stati,
identificati dal vettore E = {1, 2, 3, 4, 5} con matrice di transizione
143
1/2
1/2
P= 0
1
0
0 0
0 1/4
0
1
0
0
1
0
1/2
0
0
0
0
0
1/4
0
0
5.4.3
Probabilit`
a invarianti
Supponiamo che linsieme E degli stati sia finito, con cardinalit`a N . Una probabilit`a
v = (v1 , v2 , . . . , vN ) si dice invariante o stazionaria se
v = vP ,
(5.12)
ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesima
legge. Se gli stati iniziali di X0 hanno una legge stazionaria, allora Xn ha legge
w = vPn = vPPn1 = vPn1 = . . . = v,
per cui se la legge iniziale `e stazionaria, tutte le Xn hanno la stessa legge.
Si pu`o dimostrare (Teorema di MarkovKakutani) che una matrice di transizione su
un insieme finito di stati ha sempre almeno una probabilit`a invariante. Per la sua
unicit`
a `e per`o necessario che la matrice di transizione sia anche regolare nel senso
definito nel paragrafo precedente. Vale infatti a tale proposito il
144
PROCESSI STOCASTICI
= j
(n)
vi pij
iE
vi j = j .
iE
Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge di
Xn converge alla distribuzione invariante .
Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfa
lequazione matriciale:
[P I] = 0
dove I `e la matrice identica. Perche essa abbia soluzioni non banali occorre che
det[P I] = 0, ovvero che = 1 sia un autovalore di P. Dunque `e lautovettore
riga associato allautovalore unitario della matrice regolare di transizione, e le sue
componenti j si possono ricavare risolvendo il seguente sistema lineare di N equazioni:
j = 1, . . . , N :
j =
N
X
pij i
(5.13)
i=1
N
X
j = 1
(5.140 )
j=1
145
(5.14)
Si pu`o dunque affermare che la catena, con il trascorrere del tempo (ovvero in una
successione di infinite transizioni che avvengono con le probabilit`a indicate) cadr`a
in uno dei tre stati rispettivamente con le probabilit`a invarianti date dalla (ref5e15).
Esempio 5.10
Nel grafo di Fig. 5.6 sia E = {1, 2, 3, 4, 5} linsieme dei suoi nodi. Assumiamo che dal
nodo i = 1, 2, . . . , 5 avvengano transizioni casuali ad un nodo adiacente, con eguale
probabilit`a di passaggio a tutti i nodi contigui. Se indichiamo con ki il numero dei
5
3
4
Figura 5.6
nodi adiacenti alliesimo, con questa ipotesi si definisce su E una catena di Markov
con le seguenti probabilit`a di transizione:
pij =
1/ki
0
se j `e adiacente a i
altrimenti.
0 1/3 0
1/3 1/3
1/3
0 1/3 0 1/3
P = 0 1/3 0
1/3 1/3 .
1/3
0 1/3 0 1/3
1/4 1/4 1/4 1/4 0
Questa `e una matrice regolare: infatti, qualunque sia lo stato iniziale della catena,
dopo un passo il processo si pu`o trovare con probabilit`a non nulla in ciascuno degli
altri stati. Ci`o ci assicura che P2 `e composta da elementi tutti positivi, e soddisfa
la definizione di regolarit`a con m = 2. Per il Teorema di Markov esiste dunque una
unica probabilit`a invariante = {1 , . . . , 5 } per gli stati della catena. Questa si
determina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive:
1 =
1
1
(2 + 4 ) + 5
3
4
146
PROCESSI STOCASTICI
1
1
(1 + 3 ) + 5
3
4
1
1
(2 + 4 ) + 5
3
4
1
1
(1 + 3 ) + 5
3
4
1
(1 + 2 + 3 + 4 ).
3
2 =
3 =
4 =
5 =
3 3 3 3 1
, , , ,
.
16 16 16 16 4
Qualunque sia la legge iniziale degli stati della catena, per n essa tende alla
legge ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo,
assumeremo la legge iniziale v = {0, 0, 0, 0, 1}. Dopo un passo gli stati della catena
hanno legge:
1 1 1 1
w(1) = vP =
, , , ,0 ;
4 4 4 4
dopo due passi:
(2)
=w
(1)
P=
1 1 1 1 1
, , , ,
6 6 6 6 3
STATISTICA DESCRITTIVA
6.1
Introduzione
148
STATISTICA DESCRITTIVA
6.2
Distribuzioni di frequenze
Consideriamo dunque una serie di n dati numerici {x1 , x2 , . . . , xn } ricavati da altrettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo
carattere quantitativo X continuo, oppure discreto ma con un numero elevato di
modalit`a. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori
empirici. Indicato con IR linsieme delle modalit`a del carattere, definiamone
una partizione {i }, i = 1, . . . , m in m classi tra loro disgiunte, tale che la loro
unione coincida con , e con intervalli i aperti a destra:
i = [ai , bi ),
i ,
i j = ,
i 6= j = 1, 2, .., m.
149
i
X
nj ;
j=1
i
Ni
1X
=
nj .
n
n j=1
,
x i , i = 1, .., m
ni
i
e la sua area complessiva `e uguale ad 1 (ovvero alla probabilit`a dellevento certo).
Una distribuzione di frequenze relative, riguardante il campione esaminato nellEsempio
6.1 che segue, `e mostrata in Fig. 6.1. Al crescere della numerosit`
a n del campione e
per intervalli parziali i sufficientemente piccoli, la funzione fn (x) sar`a una buona
approssimazione della densit`a di probabilit`a fX (x) di quel particolare carattere X
della popolazione da cui `e stato estratto il campione. Se la popolazione `e composta
da infiniti elementi, nel passaggio al limite si ha:
Z
ni
lim
lim fi = IP(X i ) =
fX (x)dx.
n n
n
i
Agli istogrammi delle frequenze si possono associare:
150
STATISTICA DESCRITTIVA
6.3
6.3.1
Cos come nel calcolo delle probabilit`a si usano i momenti per individuare alcune
propriet`a rappresentative della distribuzione probabilistica di una variabile aleatoria,
nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le
distribuzioni di frequenze.
La media pesata
x=
m
1X
ni xi
n i=1
(6.1)
(6.2)
151
n
k
Nk1 = ak +
2
fk
1
Fk1 .
2
(6.3)
Quando la serie di dati non `e raggruppata in classi, allora si procede some segue.
se n `e dispari, la mediana x
coincide con il dato che occupa la (n + 1)/2-esima
posizione nella serie ordinata;
se n `e pari, la mediana `e la media aritmetica tra i due dati della serie ordinata
che occupano la (n/2)-esima posizione e quella successiva.
Per distribuzioni unimodali (in cui listogramma delle frequenze ha un solo massimo)
e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale
ci`o non avviene.
Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici
di posizione chiamati quantili o frattili, i quali suddividono lasse reale (sul
quale si riportano le modalit`a del carattere) in due intervalli con probabilit`a
152
STATISTICA DESCRITTIVA
assegnata. Precisamente, dato il reale q [0, 1], si chiama quantile q-esimo del
carattere X() il valore xq IR tale che
IP(X xq ) = FX (xq ) = q
ovvero: `e il valore massimo delle modalit`a per cui la frequenza cumulata relativa non supera il valore q.
Se la funzione di distribuzione cumulata FX (x) di X() `e continua e invertibile,
allora si deduce subito che xq = FX1 (q). Se espressi in percentuale, i quantili
vengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini.
Ad esempio: il decimo quantile x0,1 `e chiamato primo decile; il quantile x0,25 `e il
primo quartile; il quinto decile x0,5 non `e altro che la mediana x
, e cos via.
Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine
q si determina come per la mediana. Precisamente, indicata con k la classe cui
appartiene l(n q)-esimo dato, se n `e pari, oppure l(n + 1) q-esimo dato, se n `e
dispari, allora ripetendo il calcolo gi`a fatto per la mediana risulta:
xq = ak +
k
k
(nq Nk1 ) = ak +
(q Fk1 )
nk
fk
(6.30 )
k
X
j=1
pj xt+j ,
con t = 0, 1, 2, . . . , n k ;
X
j
pj = 1
6.3
153
serie temporale
15
media
mobile
10
28
21
14
Figura 6.0
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
4
5
3
6
8
12
10
5
7
6
9
12
13
11
0
1
2
3
4
5
6
7
8
9
10
media
mobile
6,43
7,00
7,28
7,71
8,14
8,71
8,86
9,00
9,43
9,14
8,57
xi
media
mobile
15
16
17
18
19
20
21
22
23
24
25
26
27
28
8
5
2
7
8
11
14
8
5
9
12
16
14
13
11
12
13
14
15
16
17
18
19
20
21
8,28
7,71
7,43
7,86
7,51
7,86
8,86
9,57
10,71
11,14
11,00
La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valore
sia collocato al centro dellintervallo di dati di riferimento (h = (k + 1)/2 = 4), e
assumendo pesi costanti pj = 1/7, ha il valore indicato nella quarta colonna e il suo
grafico `e mostrato in Figura 6.0.
154
6.3.2
STATISTICA DESCRITTIVA
Indici di dispersione
Quando i dati sono raggruppati in classi, lindice di dispersione centrale della distribuzione di frequenze `e la varianza:
2 =
m
1X
ni (xi x)2
n i=1
(6.4)
ovvero la somma dei quadrati degli scarti xi x tra ogni valore centrale e la media
pesata della distribuzione. La sua radice quadrata positiva `e lo scarto quadratico
medio o deviazione standard della distribuzione.
Si chiama inoltre coefficiente di variazione il numero puro Cv = /x, rapporto tra
la deviazione standard e la media dei dati.
Se gli n dati xi non sono raggruppati in classi, la loro varianza `e diversa dalla (6.4),
e vale:
n
1X
2 =
(xi x)2 .
(6.40 )
n i=1
Una interessante propriet`a di questultima varianza (6.4) `e la seguente. Supponiamo
che i dati osservati si riferiscano a un miscuglio di m gruppi Ai , i = 1, . . . , m (come
caso molto speciale, questo miscuglio pu`o anche identificarsi con linsieme delle classi
i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni , la media
aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente:
xAi
ni
1 X
=
xr ,
ni r =1 i
i2
fi
1 X
=
(xr xAi )2 .
fi r =1 i
(6.4)
Il parametro:
2
W
=
m
1X
ni i2
n i=1
`e la media pesata delle varianze calcolate allinterno (within) dei singoli gruppi,
e si avvicina alla varianza (6.4) se tutti i gruppi riproducono in modo omogeneo la
dispersione che caratterizza gli n dati osservati. Il parametro:
2
B
=
m
1X
ni (xAi x)2
n i=1
`e la varianza delle singole medie rispetto alla media aritmetica, ed `e un indice della
eterogeneit`a tra (between) i vari gruppi. Con alcuni calcoli si pu`o dimostrare che
la varianza (6.4) si pu`o scomporre nella somma delle due precedenti:
2
2
2 = W
+ B
,
155
per cui si pu`o sinteticamente esprimere come la somma tra la media delle varianze
2 e 2 pu`
e la varianza delle medie. Il confronto tra i valori di W
o essere utile per
B
effettuare una scelta corretta di un campione della popolazione, secondo le procedure
che verranno illustrate nel prossimo Capitolo.
Il momento centrale di ordine 3 di una distribuzione `e, per definizione:
m3 =
m
1X
ni (xi x)3 .
n i=1
(6.5)
3 =
m3
3
(6.6)
156
STATISTICA DESCRITTIVA
classe D i
xi
ni
fi
Ni
Fi
fi
Di
[59.5 , 62.5)
61
0,05
0,05
0,0166
[62.5 , 65.5)
64
18
0,18
23
0,23
0,06
[65.5 , 68.5)
67
42
0,42
65
0,65
0,14
[68.5 , 71.5)
70
27
0,27
92
0,92
0,09
[71.5 , 74.5)
73
0,08
100
1,00
0,0266
1
(61 5 + 64 18 + 67 42 + 70 27 + 73 8) = 67.45,
100
1
[64 18 + 67 42 + 70 27 + 73 (8 5)] = 67.50.
90
3
(50 23) = 67.42.
42
5
1 X
ni (xi 67.45)2 = 8.5275,
100 i=1
157
0.15
fi
Di
0.10
Di
0.05
xx
0
61
64
67
70
73
Kg
Figura 6.1
Fi
0.75
ogiva percentuale
0.50
0.25
61
64
67
70
73
Kg
Figura 6.2
mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4), vale 8.7092.
Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe
i , le loro medie aritmetiche e varianze, fornite dalla (6.4), valgono:
x1 = 60.34
12 = 0.5984
x2 = 64.477
22 = 0.9364
x3 = 67.233
32 = 0.85716
x4 = 69.831
42 = 0.8446
x5 = 72.71
52 = 0.8486.
Si noti, in particolare, che le medie xi non sono i valori centrali xi delle classi. Si
ricavano le seguenti varianze parziali del miscuglio:
2
W
= 0.8547,
2
B
= 7.8545
la cui somma: 0.8547 + 7.8545 = 8.7092 `e appunto uguale alla varianza dei dati
2 >> 2 si deduce, come daltra parte `
e ovvio, che le
non raggruppati. Poiche B
W
158
STATISTICA DESCRITTIVA
cinque classi sono molto eterogenee, ossia che non `e possibile assumerne una sola per
rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di
ordine 3 si calcola applicando la (6.5):
m3 =
5
1 X
ni (xi 67.45)3 = 2.6932,
100 i=1
3 = p
Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la
moda) `e minore della frequenza dei dati nelle classi superiori (la quarta e la quinta). /
6.3.3
Stem-and-leaf e box-plot
Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana,
dei dati di una serie statistica. Uno di essi `e il diagramma stem-and-leaf (a ramo e
foglia) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m
classi di uguale ampiezza delle modalit`a di un carattere quantitativo. Si dispongono
su una colonna (il ramo) le prime cifre significative (le centinaia, o le decine
o le unit`a,...) dellestremo inferiore di ogni classe, e alla destra di ogni numero
incolonnato si riportano le foglie, ovvero la cifra successiva (le decine, o le unit`a,
o i decimi,...) di ciascun dato xi che appartiene a quella classe. Ne risulta un
diagramma di m righe si completa scrivendo in una prima colonna, posta a sinistra
del ramo, le frequenze cumulate a partire dalle due classi estreme, in modo che
risultino incolonnati i seguenti valori: N1 , N2 , . . . , 1 Nm2 , 1 Nm1 . Fa eccezione
la riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) la
sua frequenza assoluta anzich`e quella cumulata.
Ad esempio, data la serie statistica degli n = 11 dati seguenti:
1.7 1.9 1.95
2.11
2.2 2.25
799
(6)
122458
13.
159
99
5
9
29
(25)
46
16
6
6
6
6
6
7
001
2223
44444555555555555555
6666666666777777777777777
888888888888888889999999999999
0011111111
223334.
59
68
4
5
8
9
14
29
39
(15)
46
29
16
14
6
4
60
61
62
63
64
65
66
67
68
69
70
71
72
73
23
8
579
3
11349
011223344566679
0123566779
012356667788889
01122333344566779
0123566677888
89
01122358
02
028
74
2.
160
STATISTICA DESCRITTIVA
1.5
2.0
2.5
3.0
3.5
58 60 62 64 66 68 70 72 74 76
La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statistica
sopra introdotta. Poiche (n + 1)/4 = 12/4 = 3 `e intero, il suo primo quartile `e il
terzo dato della serie ordinata, e il terzo quartile `e il nono dato:
x0.25 = 1.95 ;
x0.75 = 2.85.
161
6.4
I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti
si possono impiegare anche quando il campione `e la collezione di n dati riguardanti
due caratteri differenti di una medesima popolazione, che indichiamo con X e Y . In
tal caso il campione si presenta come un insieme di n coppie
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
(6.7)
i = 1, 2, . . . , m;
j = 1, 2, . . . , `
`
1X
fi =
nij ;
n j=1
j = 1, . . . , ` :
m
1X
fj =
nij .
n i=1
162
STATISTICA DESCRITTIVA
Lorganizzazione dei dati raccolti nel campione (6.7) si pu`o effettuare costruendo
tabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe
ij i valori di una delle grandezze sopra elencate.
Covarianza
Il pi`
u importante momento centrale di una distribuzione empirica congiunta `e la
covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con
sxy e, in analogia con le (3.19), (3.7) vale:
sxy
m X
`
m X
`
1X
1X
=
nij (xi x)(y j y)
nij xi y j x y
n i=1 j=1
n i=1 j=1
(6.8)
n
n
1X
1X
(xk x)(yk y) =
xk yk x y,
n k=1
n k=1
(6.80 )
dove x, y sono le medie aritmetiche dei dati xk e yk . Nel paragrafo che segue vedremo
come, insieme con le varianze marginali di X e Y , la covarianza (6.8) sia di fondamentale importanza per definire, attraverso lanalisi del campione (6.7), il grado di
correlazione lineare esistente tra le modalit`a dei due caratteri della popolazione che
sono stati esaminati.
Contingenza e indice di connessione
Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale
ipotesi, ogni realizzazione di X non `e condizionata dalle realizzazioni di Y o viceversa, e ricordando la propriet`a (3.12) del Capitolo 3 le frequenze relative congiunte
fij = nij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto:
fi fj = (ni /n)(nj /n) delle probabilit`a empiriche marginali, per ogni i = 1, . . . , m e
j = 1, . . . , `. E assai raro che ci`o si verifichi in una generica coppia del campione
esaminato, e per valutare in che misura sia rispettata nel campione questa legge di
indipendenza si pu`o determinare la differenza tra queste due quantit`
a, moltiplicate
per n. Il parametro statistico che ne risulta `e
cij = nij
ni nj
n
e si chiama contingenza della coppia (i, j). Poich`e coinvolge unicamente le frequenze
assolute (miste e marginali) delle varie classi, essa si pu`o impiegare anche quando si
`e in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza
si riferisce esclusivamente a caratteri quantitativi).
Pi`
u utile ai fini pratici `e un indice che si basa sulla media quadratica delle contingenze
rilevate per ogni coppia del campione, che prende il nome di indice di connessione
163
m X
`
X
(nij ni nj /n)2
ni nj
i=1 j=1
m X
`
X
n2ij
= n
1 .
i=1 j=1
ni nj
Questo indice, che `e nullo solo quando tutti i dati del campione soddisfano rigorosamente la gi`a citata legge di indipendenza (3.12), `e usato nei tests che saranno
trattati nel 10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statistica
tra due caratteri qualsiasi di una popolazione.
6.5
Regressione lineare
(6.9)
n
n
1X
1X
[yk f (xk )]2 =
(yk a bxk )2
n k=1
n k=1
(6.10)
S
b
n
2X
(a yk + bxk )
n k=1
n
2X
(bx2 xk yk + axk )
n k=1 k
164
STATISTICA DESCRITTIVA
(6.11)
a=
dove x, y sono i valori medi di X, Y . Usando ora lespressione (6.8) della covarianza
dei dati, si ottiene:
sxy
sxy
a = y 2 x,
b= 2
(6.12)
x
x
dove x2 `e la varianza della distribuzione marginale di X.
Il punto di stazionariet`a (6.12) `e un minimo per S(a, b). Infatti, sia le derivate
seconde di S(a, b) che il determinante della matrice Hessiana sono positivi:
2S
a2
= 2;
det(H) =
2S
2X 2
x > 0;
=
2
b
n k k
2S 2S
a2 b2
2S
ab
!2
2S
= 2x
ab
1X 2
=4
x x2
n k k
= 4x2 > 0.
Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delle
osservazioni del carattere X secondo la legge lineare (6.9), `e fornita dalla retta di
regressione:
sxy
y = y + 2 (x x)
(6.13)
x
il cui coefficiente angolare `e direttamente proporzionale alla covarianza dei dati
(xk , yk ). Se indichiamo con
= x x,
=yy
(6.14)
gli scarti delle due modalit`a rispetto alle loro medie aritmetiche, la (6.13) si scrive
pi`
u semplicemente:
= b
(6.130 )
che nel piano traslato (, ) con origine in (x, y) `e lequazione della retta di regressione
per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella
(6.12), si chiama coefficiente di regressione lineare di Y su X, ed `e il parametro pi`
u
165
importante nella stima della regressione che abbiamo effettuato: esso `e una misura
della variazione del carattere Y per una assegnata variazione del carattere X.
La legge lineare (6.13) non `e esatta: esiste una differenza tra f (xk ) = a + bxk e i
dati yk effettivamente osservati. Questa differenza si chiama residuo:
rk = yk f (xk ) = yk a bxk
ed in generale `e diversa da zero per ogni k. Tuttavia, la somma dei residui `e nulla:
infatti ricordando il risultato (6.12) si ha sempre:
X
rk =
1X
sxy
k 2 k
n k
x
s2xy X 2 2sxy X
1X 2
k +
k k =
n k
nx4 k k
nx2 k
y2
s2xy
s2xy
s2xy
+ 2 2 2 = y2 1 2 2
x
x
x y
=
dove:
(X, Y ) =
= y2 [1 2 (X, Y )]
sxy
[1, 1]
x y
`e il coefficiente di correlazione tra i dati delle coppie (cfr. la 3.9), detto anche
coefficiente di determinazione lineare.
Dunque, la stima effettuata mediante la relazione lineare (6.13) `e esatta se || = 1 e
in tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima `e valida
se || `e molto prossimo a 1, e non `e efficace per piccoli valori di ||, perche allora
i caratteri X e Y sono scarsamente correlati e lerrore quadratico medio cresce,
avvicinandosi al valore y2 della varianza dei dati yk , che pu`o anche essere elevata.
Al limite per 0, la covarianza sxy e il coefficiente di regressione b tendono a
zero, con la conseguenza che i valori stimati di yk tendono alla loro media aritmetica
y. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non si
pu`o dire che esista una relazione lineare che lega le loro realizzazioni.
Dobbiamo per`o anche osservare che la non correlazione non esclude la possibilit`a di
una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica,
come descritto nel 6.7 che segue). A conferma di questa affermazione basta ricordare
che la non correlazione `e una propriet`a pi`
u debole della indipendenza statistica
(3.1.1, 3.1.2).
166
STATISTICA DESCRITTIVA
xy = y 1 2 (X, Y ).
(6.14)
Esempio 6.2
(63, 66)
(62, 66)
(67, 67)
(67, 68)
(70, 68)
(69, 68)
(64, 65)
(66, 65)
(71, 70)
che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare
se, e con quale errore standard, si pu`o affermare che le modalit`a di Y dipendono da
quelle di X con una legge di regressione lineare del tipo (6.13).
y
sxy
72
70
68
. .
.
.
. .
66
64
62
y = a + bx
x
60
62
64
66
68
70
72
74
1 X
800
xk =
= 66.6
12 k
12
1 X
811
yk =
= 67.583
12 k
12
1 X 2
53418
4444.44 = 7.056
x x2 =
12 k k
12
54849
1 X 2
4567.5 = 3.243.
y y2 =
12 k k
12
1 X
54107
4505.55 = 4508.916 4505.55 = 3.36117.
xk yk 66.6 67.583 =
12 k
12
167
Sulla base dei valori osservati, la migliore stima dei valori di Y `e dunque fornita
dalla retta di regressione:
y = 35.826 + 0.4763 x
che `e indicata in Fig. 6.4, e nel piano traslato degli scarti (, ) con origine nel punto
(x = 66.6, y = 67.583) ha equazione
= 0.4763 .
Per valutare lerrore quadratico medio della regressione effettuata, `e sufficiente
calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale:
(X, Y ) =
3.36117
sxy
=
= 0.7027.
x y
2.656 1.8
xy = = 1.28125.
Se si riportano in Fig. 6.4 le rette di equazione y = a + bx xy , si pu`o osservare
che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari:
dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate
nel campione con numerosit`a n = 12. Questo risultato percentuale d`a una indicazione approssimata sulla significativit`a della regressione effettuata. Nellambito
della teoria dei campioni, che sar`a sviluppata nei prossimi Capitoli, si vedr`
a che al
crescere di n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normali
con medie rispettivamente uguali a x e y. Ci`o significa che al crescere di n anche
la distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende alla
legge normale, e in tale circostanza il calcolo delle probabilit`a per leggi normali (cfr.
2.3.2) prevede che il 68.27% (anzich`e il 66.6%) dei punti campionari siano interni
alle rette y = a + bx xy /.
6.6
Regressione multipla
Il metodo di regressione lineare visto nel precedente paragrafo si pu`o estendere allo
studio della dipendenza di un carattere Y da pi`
u caratteri X, Z, . . . della medesima
168
STATISTICA DESCRITTIVA
= y y,
= z z,
si pone
= f (, ) = b1 + b2
(6.15)
1X
(k b1 k b2 k )2 .
n k
(6.16)
S
b2
n
2X
(b1 k2 + b2 k k k k )
n k=1
n
2X
(b2 k2 + b1 k k k k ),
n k=1
si ottiene il sistema
b1
n
b2
n
b2 X
1X
k k =
k k
n k
n k
k
X
b1 X
1X
k2 +
k k =
k k .
n
n
k
k
k
k2 +
(6.17)
Se teniamo conto che per definizione le varianze marginali e le covarianze tra i dati
delle coppie (xk , yk ), (xk , zk ), (yk , zk ) sono rispettivamente:
x2 =
sxy =
1X 2
,
n k k
1X
k k ,
n k
1X 2
1X 2
k ,
z2 =
n k
n k k
1X
1X
sxz =
k k ,
syz =
k k ,
n k
n k
y2 =
b2 =
(6.18)
Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15),
determinano lequazione del piano di regressione di Y sui due caratteri X e Z,
stimata in modo da rendere minimo lerrore quadratico medio (6.16).
169
(6.160 )
6.7
(6.19)
per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica,
iperbolica,..) che pensiamo siano pi`
u adatte a rappresentare la relazione cercata.
Nel caso della regressione (6.19), i coefficienti b1 , b2 si possono ancora calcolare minimizzando lo scarto quadratico medio tra k e f (k ), ma `e pi`
u comodo determinarli utilizzando i risultati della regressione multipla appena effettuata nel paragrafo
precedente.
A tal fine, si introduce la definizione di un carattere fittizio Z = X 2 e si sostituisce
il suo scarto = z z al posto di 2 nella (6.19). Con tale posizione, la regressione quadratica (6.19) `e equivalente alla regressione lineare multipla (6.15), che `e
certamente non singolare perche , pur essendo una funzione di , non dipende linearmente da questultima. I coefficienti parziali di questa regressione multipla, gi`a
determinati nella (6.18), sono anche quelli che rendono minimo lerrore quadratico
medio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, la
regressione quadratica di Y su X risulta definita da
y = f (x) = a + b1 x + b2 x2
(6.200 )
b2 X 2
x .
n k k
(6.20)
170
STATISTICA DESCRITTIVA
(15, 27)
(40, 45)
(20, 31)
(45, 51)
(25, 27)
(50, 62)
(30, 36)
(55, 66) ,
80
y
60
. .
.
40
20
0
10 20 30 40 50 60 70
Figura 6.5 - Regressione quadratica
225,
400,
625,
900,
1225,
1600,
2025,
2500,
3025
1 X 2
1 X 2
k = 206.25
y2 =
= 169.84
10 k
10 k k
1 X 2
1 X
k = 904406.30
sxy =
k k = 167
10 k
10 k
1 X
1 X
k k = 13406.25
syz =
k k = 11745
10 k
10 k
b2 = 0.0269
171
e dalla (6.20):
a = 39.209.
La parabola che rende minimo lerrore quadratico medio della regressione (6.20) `e
pertanto:
y = 39.209 0.9433x + 0.0269x2
e il suo grafico `e mostrato in Fig. 6.5. Il minimo della parabola di regressione si
trova nel punto
!
b21 4ab2
b1
,
= (17.4887, 30.96)
2b2
4b2
del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente non
sarebbe stato possibile ottenere attraverso una regressione lineare. /
6.8
Problemi risolti
179
1
[5 + 6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15 + 17] =
= 11.1875 .
16
16
1
157
[6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15] =
= 11.214286 .
14
14
x8 + x9
11 + 12
=
= 11.5 .
2
2
172
STATISTICA DESCRITTIVA
xAi
4.4
5.3
6.3
7.3
ni
2
3
3
2
i2
0.09
0.115
0.02666
0.09
1
[4.1 + 4.7 + 5 + 5.2 + 5.8 + 6.1 + 6.3 + 6.5 + 7 + 7.6] = 5.83.
10
4
1 X
ni i2 = 0.0787
10 i=1
4
1 X
ni (xAi 5.83)2 = 0.9814 .
10 i=1
10
1 X
2
2
(xk 5.83)2 = W
+ B
= 0.0787 + 0.9814 = 1.0601 .
10 k=1
6.3. Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si ricavano questi campioni:
A : (5, 124) (9, 300) (4, 112) (7, 160)
Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteri
osservati?
173
Soluzione. Indichiamo con (xi , yj ), i, j = 1, . . . , 4 i dati delle quattro coppie campionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta di
ciascuna coppia e quelle marginali valgono:
n11 = n22 = n33 = n44 = 1,
ni = nj = 1.
nij = 0 per i 6= j
2A = n
1 1 = 4(4 1) = 12.
i=j
112
1
0
1
120
0
1
1
124
1
1
2
nj
2
2
4
2B
1
1
1
1
=4
+
+
+
1 = 2.
21 22 21 22
Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A ,
perch`e il suo indice 2 `e maggiore di quello di B.
6.4. Determinare la mediana dei seguenti insiemi di dati campionari, non raggruppati in classi:
A = {10 5
11
9}
B = {11 8
17
9 11
C = {12
11
10
12
7}
15
8}
174
STATISTICA DESCRITTIVA
x
(C) = (10 + 11)/2 = 10.5 .
(50, 38)
ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare lerrore standard della regressione effettuata.
Soluzione.
x =
y =
x2 =
y2 =
sxy =
a =
1
(10 + 20 + . . . + 50) = 30
5
1
(121 + 98 + . . . + 38) = 78.2
5
1
[(10 30)2 + . . . + (50 30)2 ] = 200
5
1
[(121 78.2)2 + . . . + (38 78.2)2 ] = 843.76
5
1
[(10 30)(121 78.2) + . . . + (50 30)(38 78.2)] = 410
5
410
410
78.2 +
30 = 139.7 ;
b=
= 2.05.
200
200
xy =
6.6. Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemi
di dati campionari non raggruppati:
A = {8 22 23 12 29 15 11 7 31 8};
B = {18 15 6 21 19.}
175
Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti {xk } con
k = 1, . . . , 10:
7 8 8 11 12 15 22 23 29 31,
la mediana x
, il secondo decile x0.2 e il terzo quartile x0.75 valgono:
x
= (x5 + x6 )/2 = (12 + 15)/2 = 13.5
(n + 1) 0.2 = 2.2
(n + 1) 0.75 = 8.25
15
18
19 21,
la mediana x
e i quantili x0.2 , x0.75 valgono:
x
x3 = 18
(n + 1) 0.2 = 1.2
(n + 1) 0.75 = 4.5
ricavato da 5 osservazioni (xk , yk ) dei caratteri (X, Y ). Dopo aver operato la regressione lineare di Y su X determinando la stima y, calcolare i residui rk = yk yk .
Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto:
x = 2;
y = 23;
x2 = 10;
sxy = 43.4
da cui si ottiene:
a = 23
43.4
2 = 14, 32;
10
b=
43.4
= 4.34.
10
176
STATISTICA DESCRITTIVA
6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scritta
desame sono le seguenti:
n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) =
4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3
e la media aritmetica dei voti `e 20.98. Si vuole costruire un istogramma delle frequenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente le
insufficienze, e le altre sei di ampiezza x = 2, centrate sui voti 19, 21, . . . , 29. Quale
deve essere lampiezza della prima classe (insufficienze) perche la media pesata che
ne risulta sia uguale a quella aritmetica?
Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza:
i
1
2
3
4
5
6
7
classe i
?
[18,20)
[20,22)
[22,24)
[24,26)
[26,28)
[28,30]
xi
?
19
21
23
25
27
29
ni
15
5
6
3
9
6
6
1
(15x1 + 5 19 + 6 21 + 3 23 + 9 25 + 6 27 + 6 29)
50
da cui si ricava:
198
= 13.2.
15
Poiche x1 `e il valore centrale della classe 1 , questa deve avere ampiezza uguale a
x1 =
1 = [8.4, 18).
n1
;
501
i = 2, . . . , 7 :
hi =
ni
ni
=
= 0.01 ni
50i
50 2
15
= 0.03125
50 9.6
0.05 h3 = 0.06 h4 = 0.03
h5 = 0.09
h6 = 0.06
h7 = 0.06 .
177
Verifica:
7
X
i=1
a = 20 6 3 = 2 .
6.11. In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta per
lacquisto di quotidiani e quella annuale Y effettuata per lacquisto di CD musicali.
Limporto delle spese `e espresso in migliaia di lire e raggruppato in 3 classi xi per
i quotidiani e 4 classi yj per i CD. La tabella riporta il numero nij di famiglie che
hanno sostenuto spese appartenenti alle classi xi e yj .
X [50 250)
[250 450)
[450 650)
Y [0 200)
15
12
6
[200 400)
35
22
12
[400 600)
26
10
24
[600 800)
10
8
0
178
STATISTICA DESCRITTIVA
x2 = 350, n2 = 52;
x3 = 550, n3 = 42.
y 2 = 300, n2 = 69;
y 3 = 500, n3 = 60;
y 4 = 700, n4 = 18.
1
(150 86 + 350 52 + 550 42) = 301.1
180
1
(3300 + 20700 + 30000 + 12600) = 370
180
sxy = E(XY ) X Y =
2 + 2 + 2s
X
xy dove:
Y
e sostituendo si ottiene:
Z =
64402.56 = 253.776 .
6.12. (a) Determinare la retta di regressione y = f (x) per la seguente serie statistica
di 5 coppie (xk , yk ) di osservazioni: (2, 2) (1, 0) (2, 2) (3, 1) (6, 4).
(b) Calcolare la varianza dei residui rk = yk f (xk ).
Soluzione (a):
x = 2;
179
x2 =
y = 1;
sxy =
b=5
4 + 1 + 9 + 4 + 36
34
4=
5
5
4 + 3 + 4 + 24
xy =72=5
5
5
25
= ;
34
34
a=1
25
25
2=1 .
34
17
25 25
+
x ' -0.47 + 0.7353 x .
17 34
(b) La varianza dei residui `e uguale al valore minimo dello scarto quadratico medio,
ovvero al quadrato dellerrore standard xy . Infatti, poiche la variabile residuo
r = yk (a + bxk ),
k = 1, . . . , 5
ha media nulla, si ha
r2 = E{[r E{r}]2 } = E{r2 } =
5
s2xy
1X
[yk a bxk ]2 = y2 2 = (xy )2 .
5 k=1
x
4 + 1 + 4 + 16
1=4
5
per ottenere:
r2 = 4 52
5
11
=
' 0.3235 .
34
34
180
STATISTICA DESCRITTIVA
DISTRIBUZIONI
CAMPIONARIE
7.1
Modelli statistici
182
DISTRIBUZIONI CAMPIONARIE
N (, ) :
= IR,
1
(x )2
f (x, ) =
exp
.
2 2
(2)1/2
"
N (, ) :
= IR+ ,
1
(x )2
f (x, ) =
,
exp
2
(2)1/2
N (1 , 2 ) :
1
(x 1 )2
f (x, 1 , 2 ) =
exp
22
(22 )1/2
= (0, 1),
f (x, ) =
n
X
k=0
n k
(1 )nk (x k),
k
= IR+ ,
f (x, ) = e
k
X
k=0
k!
(x k).
Infine, negli studi di affidabilit`a e per la previsione statistica dei guasti si pu`o ricorrere al modello esponenziale:
E() :
= IR+ ,
f (x, ) = ex ,
x 0.
7.2
183
184
DISTRIBUZIONI CAMPIONARIE
1 q
(X + X2q + . . . .. + Xnq )
n 1
(7.1)
1
(X1 + X2 + . . . . + Xn ).
n
(7.2)
Lindice n introdotto nella notazione sta ad indicare che tale media risulta dallesame
di un campione di grandezza n del carattere X della popolazione, e serve per distinguere tale media campionaria dal valor medio (eventualmente incognito) della
distribuzione teorica del carattere X, che `e stata definita nel modello statistico.
La varianza campionaria `e la variabile aleatoria definita dalla seguente statistica:
Sn2 =
n
1X
(Xi n )2
n i=1
(7.3)
185
che in generale potr`a assumere valori diversi dalla varianza teorica 2 (eventualmente
incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata
positiva Sn `e la deviazione standard campionaria.
Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora
i valori che assumono le loro statistiche e in particolare la media campionaria
(7.2) e la varianza campionaria (7.3) saranno in generale diversi e distribuiti con
leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei
due paragrafi che seguono ricaveremo in dettaglio le propriet`a delle distribuzioni
campionarie di queste due statistiche.
7.3
Per valutare il valore atteso della distribuzione campionaria delle medie n definita
dalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di grandezza n che possono essere estratti dalla popolazione, e fissare lattenzione sulliesimo elemento Xi di questi campioni. Questo `e una variabile casuale con la medesima distribuzione teorica del carattere X della popolazione, poiche `e il risultato di
estrazioni casuali dalla popolazione stessa. Indichiamo con fX (x) tale distribuzione
teorica del carattere, con la sua media e con 2 la sua varianza, eventualmente
sconosciute. Si ricava:
(
E{n } = E
1X
Xi
n i
1X
1
1
E{Xi } = nE{X} = n =
n i
n
n
(7.4)
(7.40 )
7.3.1
Se il campione `e stato estratto con ripetizione da una popolazione finita di N elementi, oppure se N , allora le variabili casuali Xi sono statisticamente indipendenti, con uguali densit`a di probabilit`a f (xi ) = fX (x). Si ha in tal caso:
Z
E{(X1 + . . . + Xn )2 } =
186
DISTRIBUZIONI CAMPIONARIE
(x21 + . . . + x2n + 2x1 x2 + 2x1 x3 + . . . + 2xn1 xn )f (x1 )f (x2 ) f (xn )dx1 dxn =
= E{X12 } + . . . + E{Xn2 } + 2
n
X
E{Xi }E{Xj }.
i,j=1
E{X 2 } n 1 2
1
2
+
2 = [E{X 2 } 2 ] =
.
n
n
n
n
(7.5)
Dunque, la varianza della distribuzione campionaria delle medie `e uguale alla varianza teorica della distribuzione del carattere X, divisa per la numerosit`
a del campione.
La radice quadrata positiva della quantit`
a (7.5):
n =
n
(7.50 )
n2
2
=
2
n2
(7.6)
187
Infine, `e di grande importanza il fatto che per grandi campioni `e possibile determinare non solo i momenti del primo e del secondo ordine, ma anche la densit`a stessa
della distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema
Limite Centrale enunciato nel 2.3.2, si pu`o dimostrare che:
al crescere di n la distribuzione campionaria delle medie approssima la legge normale N (, 2 /n) che ha media e varianza data dalla (7.5).
Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripetizione da una popolazione finita (oppure da una popolazione infinita) si pu`o anche
esprimere come n = Sn /n, dove Sn `e la somma di n variabili casuali indipendenti che hanno la medesima densit`a di probabilit`a. Quindi, per il Teorema Limite
Centrale, la sua densit`a converge, per n , alla distribuzione normale con media
E{n } =
e varianza
n2 =
1
1
E{Sn } = n =
n
n
1 2
1
2
2
,
(S
)
=
n
=
n
n2
n2
n
7.3.2
2 N n
.
n N 1
(7.7)
188
DISTRIBUZIONI CAMPIONARIE
A parit`a di grandezza n del campione, se N > n non `e molto elevato essa `e dunque
minore della (7.5) che `e valida per un campionamento con ripetizione, ma tende al
valore (7.5) quando N .
Esempio 7.1
Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costituita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i
valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza
n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore
teorico = 6.
Campionamento con ripetizione. Il numero di campioni con numerosit`
a 2 che possiamo casualmente estrarre con ripetizione dalla popolazione `e uguale al numero delle
disposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, i
possibili campioni sono i seguenti:
2, 2
3, 2
6, 2
8, 2
11, 2
2, 3 2, 6
2, 8
3, 3 3, 6 3, 8
6, 3 6, 6 6, 8
8, 3 8, 6 8, 8
11, 3 11, 6 11, 8
2, 11
3, 11
6, 11
8, 11
11, 11.
(7.8)
2.5
3
4.5
5.5
7
4
4.5
6
7
8.5
5
5.5
7
8
9.5
6.5
7
8.5
9.5
11
(7.9)
e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possiamo costruire il grafico a) di Fig. 7.1. Esso rappresenta una densit`a di probabilit`a
discreta che definisce la distribuzione campionaria delle medie relativa alla statistica
in oggetto. Il valor medio di questa distribuzione vale:
E{n } =
1
[2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6
25
135
1
[(2 6)2 + 2(2.5 6)2 + . . . + 2(9.5 6)2 + (11 6)2 ] =
= 5.4.
25
25
189
4/20
f (m n )
20
4/25
2/20
2/25
1/25
0
1 2 3 4 5 6 7 8 9 10 11
mn
1 2 3 4 5 6 7 8 9 10 11
mn
Questa varianza della distribuzione delle medie campionarie `e legata alla varianza
teorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) con
n = 2, `e la met`a della varianza teorica 2 che vale:
1
2 = [(2 6)2 + (3 6)2 + . . . + (11 6)2 ] = 10.8 .
5
La radice quadrata di n2 vale n = 2.32379. Questo `e lerrore standard che si
commette nel valutare il valor medio del carattere, attraverso lanalisi della statistica
n effettuata su un suo campione di grandezza n = 2.
Campionamento senza ripetizione. In tal caso, il numero totale di campioni che
possiamo estrarre `e uguale alle disposizioni senza ripetizione di 5 elementi a due a
due, e vale
5!
= 20.
(5 2)!
I campioni sono quelli dellinsieme (7.8) privato degli elementi sulla diagonale principale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora
indicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diagonale principale. La distribuzione delle frequenze relative di queste medie campionarie
`e mostrata nel grafico b) di Fig. 7.1. Questa distribuzione ha ancora valor medio
E{n } = 6 ma varianza minore che, in accordo con la (7.7), vale:
n2 =
2
3 2
[(2.5 6)2 + (4 6)2 + . . . + (9.5 6)2 ] = 4.05 .
20
4 2
Lerrore standard nella valutazione della media del carattere `e quindi leggermente
inferiore, e vale n = 2.01.
Esempio 7.2: Distribuzione della differenza di medie campionarie
Le lampadine prodotte dallazienda A hanno una vita media A di 1400 ore, con
deviazione standard A = 200 ore; quelle dellazienda B hanno vita media B = 1200
ore, con deviazione standard B = 100 ore. Si prova un campione casuale di n = 125
lampadine estratte dalla produzione dellazienda A, e un campione di m = 100
190
DISTRIBUZIONI CAMPIONARIE
E{m } = B = 1200.
(d) =
2 =
n2 + m
d 200
d E{d}
=
(d)
20.49
che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per
d = 160 e per d = 150. Si trova subito:
d = 160 :
d = 150 :
d = 150 :
z0 = 1.952
z1 = 17.08
z2 = 2.44 .
7.4
7.4.1
191
1 X
nSn2
2
(Xi n )2
2
(7.10)
s2 = 1
f ( S 2n )
2
f (^
Sn )
n = 21
1
n = 11
0.5
2
E{ ^
Sn }
E{S 2n }
0
2
Qn ,
n
e usando le formule di trasformazione per funzioni di variabili casuali la sua distribuzione campionaria ha una densit`a di probabilit`a che si ricava applicando la (4.5)
o la (4.10) del Capitolo 4. Poiche si ha
g 1 (Sn2 ) =
nSn2
;
2
dg 1
n
= 2 ,
2
dSn
192
DISTRIBUZIONI CAMPIONARIE
si ricava:
f (Sn2 )
= f2
n1
nS 2
Qn = 2n
!
dg 1
nSn2
n
Qn = 2 2 .
= f2
n1
dSn2
(7.11)
In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di Sn2 ,
calcolate assumendo 2 = 1 e n = 11 e 21. Il loro valor medio vale:
E{Sn2 } =
2
n1 2
E{Qn } =
n
n
(7.12)
(Sn2 )
E{(Sn2 )2 }
4 (n 1)2
=
n2
2
n
!2
E{Q2n }
4 (n 1)2
=
n2
4
4
4 2
2(n 1) 4
2
2
2
2
[E{Q
}
(n
1)
]
=
[E{Q
}
E
{Q
}]
=
{Qn } =
n
n
n
2
2
2
n
n
n
n2
(Sn2 )
= 2 2/n.
(7.13)
n
1 X
Sn2
(Xi n )2
n1
n1 i
(7.14)
n
E{Sn2 } = 2 .
n1
(7.15)
n
n 1 2
Sn2 =
Sn ,
2
193
e vale:
n1
n 1 2
n1
n 1 2
= f2
Sn
.
f (Sn2 ) = f Sn2 =
Sn
Qn =
2
n1
n
n
(7.16)
(Sn2 )
E{(Sn2 )2 }
E{Q2n }
4
2
1
=
2 (Qn ) =
4.
2
2
(n 1)
(n 1)
n1
(Sn2 )
2
n1
(7.17)
e per n >> 1 `e assai vicina a quella della distribuzione delle varianze campionarie
Sn2 .
7.4.2
.
(7.18)
N 1
n
Da questultima segue che la varianza campionaria corretta Sn2 con valor medio
uguale alla varianza teorica, si modifica in tal caso nella statistica:
n
N 1
1 X
N 1
Sn2 =
(Xi n )2 ,
Sn2 =
N
n1
N
n1 i
da usare al posto della statistica (7.14).
(7.19)
194
DISTRIBUZIONI CAMPIONARIE
Esempio 7.3
Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizione
dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si `e gi`a
visto ha varianza teorica 2 = 10.8. Ciascuno di essi ha una statistica Sn2 (con n =
2) che vale:
0
0.25
4
9
20.25
0.25
0
2.25
6.25
16
4
2.25
0
1
6.25
(7.20)
9
6.25
1
0
2.25
20.25
16
6.25
2.25
0
e il calcolo delle frequenze relative porta alla definizione di una distribuzione campionaria discreta, che `e mostrata nel grafico a) di Fig. 7.3. Il valor medio di tale
distribuzione vale:
E{Sn2 } =
1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 5.4
25
5
e, in accordo con il risultato (7.12), `e la met`a della varianza teorica 2 . Ne segue che
la varianza campionaria corretta, il cui valor medio coincide con 2 , `e la statistica
Sn2 = 2Sn2 i cui valori possibili sono il doppio di quelli riportati nella (7.20).
f (S 2n )
25
f (S 2n )
20
4/20
5/25
4/25
2/20
2/25
E{S 2n }
E{S 2n }
s2
S 2n
2 4 6 8 10 12 14 16 18 20 22
s2
2 4 6 8 10 12 14 16 18 20 22
S 2n
Figura 7.3
1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 6.75.
20
4
Osservando che
5 27
5 1
27
=
= 2 ,
4
4 5
4 2
si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senza
ripetizione. Inoltre, in tal caso la varianza campionaria corretta `e definita, per la
195
4
8
Sn2 = 2 Sn2 = Sn2 ,
5
5
il cui valor medio coincide con la varianza teorica della popolazione. Infatti:
8
8 27
54
E{Sn2 } = E{Sn2 } =
=
= 2.
5
5 4
5
7.5
ki np
zi =
.
npq
La frequenza relativa dei successi: Y = ns /n, `e invece una variabile aleatoria con
valori in IR+ , la cui distribuzione `e definita dalla densit`a
fY (y) = f (ns = ny) n
n N (p, pq/n).
np
E{ns }
=
= p,
n
n
196
DISTRIBUZIONI CAMPIONARIE
N (8, 7.84)
f(n s)
10
12
14
ns
Y2
2 (ns )
npq
p(1 p)
= 2 =
.
2
n
n
n
(7.22)
Esempio 7.4
Dallanalisi della produzione di un utensile, risulta che il 2% del prodotto di fabbricazione `e difettoso. Si vuole calcolare la probabilit`a che in un lotto di 400 utensili
appena consegnati a un cliente quelli difettosi siano almeno 12.
Il lotto in questione si pu`o considerare un campione estratto con n = 400 prove
ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta
del campione, ciascuna estrazione avviene con una probabilit`a teorica p = 0.02 di
avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso `e il
successo).
La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig.
7.4, `e approssimabile con una curva normale con media e deviazione standard che
valgono:
E{ns } = q
np = 400 0.02 = 8
(ns ) =
np(1 p) = 400 0.02 0.98 = 2.8.
Si deve determinare la probabilit`a IP(ns 12), rappresentata dallarea ombreggiata
in figura. Per calcolarla, utilizziamo la variabile standardizzata
Z=
ns E{ns }
,
(ns )
1
1
erf (1.43) = 0.4236 = 0.0764.
2
2
197
In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle
probabilit`a (2.42) di avere un campione con ns successi. La probabilit`a ora calcolata
`e approssimata dallarea di questi rettangoli che si trova a destra di ns = 12.
Si badi per`o che linsieme di questi rettangoli non deve essere confuso con listogramma delle frequenze empiriche delle modalit`a di un carattere X, che `e stato
definito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano due possibili modalit`a (successo o fallimento) di un carattere,
listogramma delle loro frequenze sar`a costituito da due soli rettangoli, con altezza
proporzionale rispettivamente al numero dei successi e dei fallimenti che si osservano
in quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece base
unitaria, centrata sulle possibili frequenze ns della modalit`a successo, e altezza
uguale alla probabilit`a bernoulliana di osservare queste frequenze di successo.
7.6
Problemi risolti
n
n
p = IP{X 0} =
0
1
+ erf
2
1
1
erf(2) = 0.4772 = 0.0228.
2
2
198
DISTRIBUZIONI CAMPIONARIE
7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popolazione, la cui deviazione standard `e nota e vale = 120. Qual`e la probabilit`a che
la media campionaria differisca per pi`
u di 3 unit`a da quella incognita del carattere
X ?
Risposta. La distribuzione campionaria delle medie si approssima con una legge
normaleavente media E{n } uguale alla media teorica e deviazione standard
n = / 100 = 12.
Se Zn `e la corrispondente variabile standardizzata, la probabilit`a richiesta vale
P (|n | > 3) = P (n |Zn | > 3) = P (|Zn | > 0.25) = 1 2 erf(0.25)
e dalla Tabella di erf(z) si ricava:
P (|n | > 3) ' 1 2 0.0987 = 0.9026 .
7.4. In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standard
di 25V . Se da questo lotto ne estraiamo senza ripetizione n = 25, qual`e la probabilit`a che la media delle pile estratte differisca per pi`
u di 1 Volt dalla media teorica
dichiarata dal costruttore ?
Risposta. Poiche il campione di n = 25 pile `e estratto in blocco da una popolazione
di N = 50 elementi, la distribuzione campionaria della tensione media ha legge
normale con deviazione standard
s
n =
N n
=2
n(N 1)
50 25
2
=
25(50 1)
7
7
n
= (n ).
n
2
199
Nx = 80 0.6687 ' 53
X
2
2
X = /n.
Soluzione.
a) Media e varianza valgono
=
20
= 4 ,
5
2 =
16 + 4 + 4 + 16
= 8 .
5
0,2
2,2
4,2
6,2
8,2
0,4
2,4
4,4
6,4
8,4
0,6
2,6
4,6
6,6
8,6
0,8
2,8
4,8
6,8
8,8 .
1
2
3
4
5
2
3
4
5
6
3
4
5
6
7
4
5
6
7
8
200
DISTRIBUZIONI CAMPIONARIE
2
X
p(1) = 2/25,
p(6) = 3/25,
p(2) = 3/25,
p(7) = 2/25,
p(3) = 4/25,
p(8) = 1/25.
p(4) = 1/25,
1
100
(2 + 3 2 + 4 3 + 5 4 + 4 5 + 3 6 + 2 7 + 8) =
= 4
25
25
1
100
(16 + 2 9 + 3 4 + 4 + 4 + 3 4 + 2 9 + 16) =
= 4 2 /2 .
25
25
9.2 E{n }
IP Zn
n
= IP(Zn 0.7071) =
1
1
+ erf(0.7071) ' + 0.26 = 0.76 .
2
2
7.8. Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%,
e il secondo il 30% del totale. Da unindagine campionaria della ditta acquirente
risulta che il 94% dei CD del primo fornitore ha un diametro maggiore di 12.45 cm.
e il 10% maggiore di 12.58 cm. Inoltre, l8% dei CD del secondo fornitore ha un
diametro minore di 12.45 cm. e il 95% `e minore di 12.6 cm. Assumendo che la
distribuzione dei diametri dei CD sia normale,
a) determinare la percentuale dei CD ricevuti dal negozio con diametro compreso
tra 12.4 e 12.6 cm.
b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qual`e
la probabilit`a che quel CD provenga dal secondo fornitore?
Soluzione.
a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campionarie normali dei CD ricevuti dai due fornitori. Se X `e la variabile casuale che
indica il diametro, e Z quella standardizzata, dai dati del problema si ha che per
quelli del primo fornitore:
12.45 1
12.45 1
= 0.5 erf
1
1
12.58 1
12.58 1
= 0.5 erf
0.10 = IP(X 12.58) = IP Z
1
1
0.94 = IP(X 12.45) = IP Z
ossia:
201
1 12.45
= 0.44 ;
1
Dalla Tabella di erf (z) si trova:
erf
erf
12.58 1
1
= 0.40.
1 12.45 = 1.56 1
12.58 1 = 1.285 1
e risolvendo il sistema si ricava: 1 = 12.5213 , 1 = 0.0457.
Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava:
12.45 2
12.45 2
0.08 = IP(X 12.45) = IP Z
= 0.5 + erf
2
2
12.6 2
12.6 2
0.95 = IP(X 12.6) = IP Z
= 0.5 + erf
2
2
ossia:
12.6 2
2 12.45
= 0.42 ;
erf
= 0.45.
erf
2
2
Dalla Tabella di erf (z) si trova:
2 12.45 = 1.41 2
12.6 2 = 1.645 2
e risolvendo il sistema si ricava: 2 = 12.519 , 1 = 0.049.
Definiamo ora gli eventi: E = {12.4 cm. X 12.6 cm.}; F1 = {CD del primo f ornitore};
F2 = {CD del secondo f ornitore} e calcoliamo:
12.6 1
12.4 1
IP(E|F1 ) = erf
erf
1
1
= erf(1.7221) + erf(2.654) ' 0.4575 + 0.496 = 0.9535
12.6 2
12.4 2
erf
2
2
= erf(1.653) + erf(2.4285) ' 0.45 + 0.4924 = 0.9424.
IP(E|F2 ) = erf
La probabilit`a totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. `e
IP(E) = IP(F1 )IP(E|F1 )+IP(F2 )IP(E|F2 ) = 0.70.9537+0.30.9424 = 0.95017 ' 95% .
b) Levento E 0 = {X 6 (12.4, 12.6)} ha probabilit`a IP(E 0 ) = 1 IP(E) = 0.05, e
inoltre:
IP(E 0 |F1 ) = 1 IP(E|F1 ) = 0.0465 ;
202
DISTRIBUZIONI CAMPIONARIE
STIME DI PARAMETRI
Dopo aver precisato le propriet`a di due tra le statistiche campionarie pi`
u importanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamo
delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione
della popolazione, consentono di determinare i valori pi`
u attendibili da attribuire
ai parametri incogniti i presenti nel modello statistico che `e stato adottato per la
popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi:
stima puntuale, se si utilizza una statistica campionaria Gn = g(X1 , . . . , Xn )
con lobiettivo di determinare il valore corretto di un parametro incognito
della popolazione;
stima per intervalli di confidenza se, oltre al valore approssimato del parametro
incognito da stimare, si precisa anche il grado di approssimazione della stima
puntuale effettuata, determinando la probabilit`a che il valore stimato appartenga a un prefissato intervallo.
Nei due paragrafi che seguono sono illustrate le modalit`a con cui si perviene a questi
due tipi di stima parametrica.
8.1
Stima puntuale
Una statistica campionaria Gn = g(X1 , . . . , Xn ), utilizzata per stimare il valore incognito di un parametro del modello statistico della popolazione, si chiama stimatore
puntuale di .
Avendo a disposizione le realizzazioni (x1 , . . . , xn ) di un campione, sono molti gli
stimatori puntuali che possiamo definire. Per esempio: se `e un valor medio,
possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3)
della distribuzione di frequenze nel campione esaminato. Se `e una varianza, due
suoi stimatori possono essere la statistica (7.3), oppure quella corretta (7.14).
Quale statistica scegliere, per avere i risultati pi`
u attendibili? Il criterio da seguire
nella scelta si basa sulla verifica che lo stimatore abbia ben definite propriet`a, che
sono precisate dalle definizioni che seguono.
203
204
STIME DI PARAMETRI
P (x, ) P.
(8.1)
Stimatore consistente. La statistica Gn `e uno stimatore consistente in probabilit`a se, per qualsiasi compatibile con il modello statistico, esso converge
al valore teorico con probabilit`a 1 quando la numerosit`
a del campione tende
ad infinito:
lim IP(|Gn | ) = 1,
> 0.
(8.2)
n
(8.20 )
(1)
(2)
(8.3)
per ogni numerosit`a n del campione e per ogni valore teorico del parametro
da stimare.
Tenuto conto delle precedenti propriet`a di una statistica campionaria, siamo ora in
grado di enunciare il seguente:
CRITERIO DI STIMA PUNTUALE: Una statistica Gn (X1 , . . . , Xn ) `e il miglior
stimatore di se `e il pi`
u efficiente nellinsieme degli stimatori corretti e consistenti.
Il valore = gn (x1 , . . . , xn ) del miglior stimatore, calcolato utilizzando le n determinazioni xi del campione, `e la stima ottima del parametro .
8.1.1
205
Sulla base del criterio appena enunciato, non `e difficile definire la stima ottima per
le medie e per le varianze di una popolazione di infiniti elementi, descritta da un
modello statistico normale.
Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle
(7.4) e (7.6) mostrano che la media campionaria n definita dalla (7.2) `e uno stimatore corretto e consistente (sia in probabilit`a che in media quadratica) della media
teorica . Ma essa `e anche il pi`
u efficiente tra gli stimatori corretti e consistenti.
Limitiamoci a chiarire questultima affermazione con due esempi.
1). Dato un campione estratto da una popolazione con media e varianza 2 ,
consideriamo come statistica Gn una generica combinazione lineare delle variabili
casuali indipendenti X1 , . . . , Xn :
Gn =
n
X
ai Xi
n
X
in cui
i=1
ai = 1
(8.4)
i=1
e con almeno due coefficienti ai che siano diversi da 1/n (perche altrimenti Gn
coinciderebbe con la media campionaria n ). Il valore atteso della statistica (8.4)
vale:
n
n
E{Gn } =
ai E{Xi } =
i=1
ai =
i=1
e quindi anche Gn `e uno stimatore non distorto della media . Ricordando i calcoli
gi`a effettuati nel 3.1.1, la sua varianza vale
2 (Gn ) =
n
X
a2i 2 (Xi ) =
i=1
n
X
a2i 2
i=1
n
X
ai
i=1
1
1
+
n n
= 2
n
X
ai
i=1
1
n
2
> n2
n
perche per almeno due coefficienti ai la differenza ai 1/n `e diversa da zero. Dunque
la varianza di Gn `e sempre maggiore della varianza n2 della media campionaria n ,
e per la (8.3) si deduce che n `e pi`
u efficiente della statistica (8.4). Inoltre, 2 (Gn )
`e maggiore di zero per qualsiasi numerosit`
a del campione, e tale che
lim 2 (Gn ) = 2
a2i > 0.
i=1
206
STIME DI PARAMETRI
Dunque x
`e anche uno stimatore consistente, perch`e la sua varianza tende a zero
per n . Tuttavia, per n finito questultima `e maggiore della varianza (7.5) della
distribuzione campionaria di n , e quindi n `e pi`
u efficiente di x
. /
Poiche si pu`o dimostrare che n `e pi`
u efficiente di qualsiasi stimatore della media,
si pu`o concludere che la statistica (7.2) `e il miglior stimatore di , e di conseguenza
la stima ottima del valor medio vale :
n
1X
xi .
n i=1
(8.5)
Riguardo alla stima puntuale della varianza di una popolazione normale, nel 7.4
si `e ricavato che il valor medio della distribuzione campionaria di Sn2 , definita nella
(7.3), non soddisfa la condizione (8.1). Pertanto, la statistica Sn2 `e uno stimatore
distorto della varianza 2 della popolazione.
Al contrario, in un campionamento con ripetizione la statistica corretta (7.14)
soddisfa entrambe le propriet`a di non distorsione e di consistenza perche, ricordando
i risultati gi`a ottenuti nel 7.4.1, `e tale che
2
2
E{Qn } =
(n 1) = 2
n1
n1
2
lim 2 (Sn2 ) = lim
4 = 0.
n
n n 1
E{Sn2 } =
=
(xi n )2 .
n 1 i=1
2
(8.50 )
E proprio questo valore che viene restituito dalla maggior parte dei software di
elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati.
Se il campione `e estratto in blocco da un numero N non elevato di elementi, ricordando la (7.19) la stima (8.5) si corregge moltiplicandola per il coefficiente
(N 1)/N .
8.1.2
E un metodo di stima puntuale assai efficace e attendibile, che spesso pu`o essere
applicato con successo per valutare qualsiasi parametro incognito (non necessariamente coincidente con le medie o le varianze) presente nel modello statistico che
si adotta per studiare una popolazione. Il procedimento per ottenere una stima di
massima verosimiglianza `e il seguente.
207
1
= 0.
f (, xi )
(8.7)
(xi )2
1
,
f (xi , ) = exp
2 2
2
i = 1, . . . , n
208
STIME DI PARAMETRI
"
n
Y
"
n
X
1
1
(xi )2
(x )2
exp i 2
L(; x) =
=
exp
.
2
2 2
(2 2 )n/2
i=1 2
i=1
(xi )2
df (xi , )
1
xk
xk
exp
f (xi , )
=
=
2
2
d
2
2
2
per cui lequazione di verosimiglianza (8.7) si scrive:
n
1 X
(xi ) = 0.
2 i=1
1
(x1 + x2 + . . . + xn ) = n .
n
Al contrario, con calcoli del tutto analoghi si pu`o mostrare che in un modello N (, )
Normale-2, la stima di massima verosimiglianza per non concide con la stima
ottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenuto
conto che le densit`a di ciascuna osservazione Xi del campione sono
#
"
1
(xi )2
f (xi , ) =
,
exp
2
2
le loro derivate valgono:
"
1
(xi )2
df (xi , )
=
exp
d
2
2
#"
(xi )2
(xi )2
1
=
f (xi , )
22
2
22
n
n
1 X
1 X
2
[(x
]
=
(xi )2 n = 0.
i
22 i=1
22 i=1
n
1X
(xi )2
n i=1
e coincide con la varianza campionaria (7.2) che `e una stima distorta della varianza
teorica 2 .
Questo metodo di stima puntuale `e comunque particolarmente efficace quando si
devono determinare parametri incogniti che non siano la media o la varianza della
209
distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguono
illustrano la sua applicazione per questo tipo di stime.
Esempio 8.1
1
xi f (xi , c)
+c
n
X
1
n
1
xi =
xi = n
n = 0.
+c
+ c i=1
+c
df (xi , b)
1
= xbi [1 + (1 + b) log xi ] =
+ log xi f (xi , b).
db
1+b
Lequazione di verosimiglianza (8.7) si scrive:
n
X
i=1
n
X
1
n
n
+ log xi =
+
log xi =
+ log(x1 x2 xn ) = 0,
1+b
1 + b i=1
1+b
n
./
log(x1 x2 xn )
210
8.1.3
STIME DI PARAMETRI
q = 1, . . . , M
(8.8)
1
E{X 2 } = (21 + 1 2 + 22 ).
3
Per stimare i due estremi incogniti, si estrae un campione casuale con numerosit`
a
n = 10 dal quale si ricavano i seguenti dati xi :
1.4,
3.05,
1.9,
0.45,
2.2,
4.1,
3.5,
2.7,
4.25,
0.95.
1 X
xi = 2.45,
10 i
gn(2) =
1 X 2
x = 7.523.
10 i i
211
2 = 4.8857. /
Esempio 8.4
b+1
b+c+2
(b + 1)(c + 1)
(b + c + 2)2 (b + c + 3)
2 (1
)
(1 +
)
2
2
(1
)
c =
2+
2
b =
con
e
2 definite rispettivamente dalle (8.5) e (8.5) /.
8.2
212
STIME DI PARAMETRI
sul valore empirico calcolato, e prende anche il nome di stima a due code se la
condizione:
IP( + )
IP(min )
8.2.1
a n del campione.
deviazione standard / n, per qualunque valore della numerosit`
Se la popolazione ha una distribuzione teorica che non `e normale, per il Teorema
Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale
N (, 2 /n) se la numerosit`a del campione `e sufficientemente elevata (in pratica, se
n 30).
213
IP n z n + z
n
n
= IP |n | z
n
= IP(|Zn | z) = 2 erf (z) = . (8.10)
Questo valore di z che soddisfa la (8.10), e che indichiamo con zq z(1+)/2 (v.
il grafico a) di Fig. 8.1) `e il quantile di ordine q = (1 + )/2 della legge Normale
standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile zq di
ordine q della distribuzione N (0, 1) `e quel valore di Z tale che
FZ (zq ) =
1
+ erf(zq ) = q ,
2
esso si pu`o ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle
sue colonne il numero pi`
u prossimo al valore q 0.5 (ovvero al valore /2), eventualmente interpolando tra due valori vicini.
N (0,1)
N (0,1)
g
1 g
2
1 g
2
-z 1+ g
2
z 1+ g
1 g
zg
n z(1+)/2 n + z(1+)/2
n
n
(8.11)
n z(1+)/2 .
n
(8.110 )
214
STIME DI PARAMETRI
IP n + z = IP n z
= IP(Zn z) =
n
n
= 1 IP(Zn z) = 1 [1/2 + erf (z)] = 1/2 + erf (z) =
`e il quantile di ordine q = della legge N (0, 1) e definisce il limite fiduciario superiore
per il seguente intervallo di confidenza a una coda:
< n + z
(8.12)
n
che `e mostrato nel grafico b) di Fig. 8.1. Esso si determina ricercando nella Tabella
di erf(z) il valore di z che corrisponde a una probabilit`a uguale a 1/2. Allo stesso
modo si determina il limite fiduciario inferiore dellintervallo di confidenza:
n z < + ,
(8.13)
n
dove z `e ancora il quantile di ordine di N (0, 1), soddisfacente la condizione:
IP n z = IP n z
n
n
OSSERVAZIONE 8.1
I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti problemi di stima, collegati a quello della determinazione di un intervallo di confidenza
simmetrico.
Determinazione del livello fiduciario. Fissato lo scarto
= |n | = z(1+)/2
n
nella stima del valor medio attraverso il risultato empirico n , la probabilit`a
fiduciaria con cui si pu`o affermare che = n `e data dal valore di che
soddisfa la condizione:
n
z(1+)/2 =
,
!
n
= 2 erf z =
.
(8.14)
z(1+)/2
n
215
n z(1+)/2
(8.15)
(n ) n
(8.16)
Tn =
Sn
ha una distribuzione t-Student con = n 1 gradi di libert`a.
Ne segue che se la popolazione ha una distribuzione teorica normale, una volta determinate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerosit`
a
n qualsiasi, una stima intervallare simmetrica per con livello fiduciario si potr`a
effettuare determinando quel valore tq di t che soddisfa la condizione:
Sn
Sn
IP n t n + t
n
n
Sn
= IP |n | t
n
= IP(|Tn | t) = .
=
(8.17)
Il coefficiente fiduciario tq per questa stima a due code `e il quantile della distribuzione t-Student con = n 1 gradi di libert`a, che lascia alla sua destra unarea uguale
alla probabilit`a (1 )/2. Esso si pu`o ricavare da una apposita Tabella dei quantili
delle distribuzioni t-Student che `e riportata in Appendice, e per un prefissato grado
di libert`a `e il valore che si trova nella colonna del quantile
q =1
1
1+
=
.
2
2
(8.170 )
216
STIME DI PARAMETRI
Sn
n tq < + ,
n
(8.19)
Sn =
n
Sn .
n1
(8.20)
i=1
Esempio 8.5
217
Sn =
200
0.042 = 0.04210 cm
199
al livello = 0.95 :
al livello = 0.99 :
2) Per stimare il valor medio con un errore inferiore a = 0.001, occorre che n
soddisfi la condizione (8.15) con Sn = 0.0421 al posto di incognita. Al livello di
fiducia del 95% si deve perci`o avere (arrotondando per eccesso perche n `e intero):
0.0421
n 1.96
0.001
= 6778. /
esempio 8.6
Dieci misurazioni della lunghezza di un oggetto danno come risultato una media
n = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare i
limiti fiduciari al 95% e al 99% della lunghezza effettiva delloggetto.
Il campione `e linsieme di dieci prove ripetute e indipendenti consistenti nella misurazione della lunghezza delloggetto, e si pu`o considerare estratto con ripetizione
dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il
Teorema di asintoticit`a per prove ripetute e indipendenti (v. 2.3.9 del Capitolo II), il
modello statistico da adottare `e quello Normale-2, con media e varianza sconosciute.
Poich`e abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per
la media si calcolano usando la distribuzione t-Student con = n 1 = 9 gradi
di libert`a, e sono definiti dalla (8.18) con
r
Sn =
10
0.0036 ' 0.0632 cm
9
218
STIME DI PARAMETRI
1 + 0.99
= 0.995 .
2
La Tabella dei quantili della distribuzione t-Student con 9 gradi di libert`a (v. Appendice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25.
Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor medio
della lunghezza delloggetto sono:
al livello = 0.95 :
al livello = 0.99 :
0.0632
= 4.38
2.262 = 4.38 0.04516 cm.
10
0.0632
3.25 = 4.38 0.06495 cm. /
= 4.38
10
Esempio 8.7
Sn =
50
200 1
S2 =
200
50 1 n
199
100 = 10.0762.
196
Il coefficiente fiduciario z per = 0.95 vale z = 1.96 (v. lEsempio 8.5 precedente).
Pertanto i limiti fiduciari per la stima della media dei voti sono:
= 75
10.0762
1.96 == 75 2.793.
50
2) Per valutare il livello fiduciario di una stima intervallare del valor medio con un
errore non superiore a 1, si applica la (8.14) con = 1 e Sn = 10.0762 al posto di
. Si ricava allora:
!
50
= 2 erf
' 2 erf (0.70) = 2 0.258 = 0.516 .
10.0762
219
Ci`o significa che una stima in cui si afferma che `e uguale al valore empirico con lo
scarto massimo di una unit`a, ha soltanto il 51.6% di probabilit`a di essere vera. /
Esempio 8.8
n 300
n E(n )
=
,
n
10
1
1
+ erf(2.8) = + 0.4974 = 0.9974.
2
2
8200
P n
n
= 0.999
1
+ erf(z ) = 0.999 .
2
Dallesame della Tabella dei valori di erf(z) risulta: z = 3.1 per cui, ricordando
lespressione della variabile stardardizzata Zn , si ricava che deve essere:
z = 3.1 =
8200/n 300
.
50/ n
220
STIME DI PARAMETRI
60n + 31 n 1640 = 0
che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite
di sicurezza con probabilit`a fiduciaria = 0.999, `e necessario caricare un numero
massimo di 24 casse. /
Esempio 8.9
!
500 0.02
= 2 erf
= 2erf (1.49) = 2 0.4319 = 0.8638.
0.30
2) Nel secondo problema, occorre determinare la distribuzione campionaria delle
medie dei pesi, che risulta da un generico campione di n = 100 sferette estratto
senza ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite
Centrale, questa distribuzione campionaria `e ben approssimata dalla legge normale
con valor medio E{n } = = 5.02, e varianza da calcolare applicando la (7.7):
n2 =
2 500 100
n E{n }
n 5.02
p
=
2
0.027
n
z1 = 2.22
z2 = 0.74
z3 = 2.96
221
E{ m n }
4.9
4.96
5.1
5 5.02
mn
Figura 8.2
1
erf (2.96) = 0.0015. /
2
Esempio 8.10
E(ns )
=p
100
s
p(1 p)
(ns )
=
.
100
100
Y p
Y p
=p
.
Y
p(1 p)/n
222
STIME DI PARAMETRI
Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello
fiduciario = 0.95 il candidato avr`
a una percentuale di voti che va dal 45% al 65%;
al livello fiduciario = 0.99 avr`a una percentuale compresa tra il 42% e il 68%.
2) Il candidato sar`a eletto se Y > 0.50, e per stimare al livello di fiducia = 0.95 la
probabilit`a che venga eletto, bisogna imporre che
IP(Y > 0.50) = IP(Z > z0 ) =
1
erf (z0 ) = 0.95 ,
2
0.5 0.55
z0 = p
= 0.1005 n.
(8.22)
0.55 0.45/n
Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0 ) = 0.45 e
ricordando che erf (z) = erf (z), si ricava: z0 = 1.645. Se sostituiamo questo
valore nella (8.22) si ottiene, arrotondando per eccesso:
n=
1.645
0.1005
= 268.
223
Si considerino due campioni che supponiamo statisticamente indipendenti: quello costituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Ya e Yb con
cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente:
Ya =
280
= 0.4 = pa ;
700
Yb =
240
= 0.8 = pb .
300
pa (1 pa )
0.4 0.6
=
= 0.000343
na
700
pb (1 pb )
0.8 0.2
=
= 0.000533.
nb
300
224
8.2.2
STIME DI PARAMETRI
n 1 2
Sn 2 =
2
n 1 2
n 1 2
= IP
Sn 2
Sn = .
2
1
IP(1 Qn 2 ) = IP 1
(8.24)
f ( Qn )
1 g
2
g
2
g
2
c1
E{Qn }
1 g
2
c2
Figura 8.3
225
1
;
2
q2 =
1+
2
(8.25)
e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio
della distribuzione campionaria di Sn2 , la suddivide in due parti con uguale area
/2, a destra e a sinistra del valor medio il quale, come si `e visto nel 7.4, coincide
proprio con la varianza teorica della popolazione. La probabilit`a che 2 assuma
valori in questo intervallo `e uguale alla probabilit`a fiduciaria assegnata. La stima
intervallare al livello fiduciario , per la varianza di una popolazione distribuita con
legge normale, `e dunque:
n 1 2
n 1 2
Sn 2
Sn
2
1
(8.26)
con quantili dati dalla (8.25) e dove Sn2 `e una realizzazione della varianza campionaria
corretta (7.14).
In modo analogo si possono effettuare stime a una coda della varianza, tali da
soddisfare condizioni del tipo:
n 1 2
IP(Qn 1 ) = IP
S =
1 n
n 1 2
IP(Qn 2 ) = IP 2
S =
2 n
2
(8.27)
q2 = ,
e tagliano unarea della distribuzione campionaria che `e uguale a 1 , rispettivamente a sinistra di 1 e a destra di 2 .
Caso di grandi campioni
Nel 2.3.7 si `e detto che per n >> 1 la distribuzione Chi-quadrato `e ben approssimata
dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato
per una stima intervallare della varianza ha numerosit`
a n elevata (almeno maggiore
di 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e la
variabile
(n 1)Sn2
n
Qn n
2
Zn =
=
(8.28)
2n
2n
`e prossima alla Normale standard. In tal caso, la stima intervallare di 2 al livello
fiduciario si pu`o effettuare imponendo che sia IP(|Zn | zq ) = , dove Zn `e dato
dalla posizione (8.28) e zq `e, al solito, il quantile della Normale standard di ordine
q = (1 + )/2 = q2 che soddisfa
erf (zq ) = /2.
226
STIME DI PARAMETRI
(8.260 )
che `e pi`
u comodo da calcolare perche richiede solo la determinazione di zq anziche
quella di 1 e 2 .
Esempio 8.12
1
= 0.05 ;
2
q2 =
1+
= 0.95
2
11 0.01636
11 0.01636
2 (Cx )
= 0.0393.
19.7
4.57
2) per determinare il livello fiduciario per una stima a una coda tale che 2 (Cx )
0.03, usiamo la prima delle (8.27) ricercando il valore del quantile 1 che soddisfa
la condizione:
n 1 2
11 0.01636
Sn =
= 0.03 ,
1
1
227
ossia: 1 = 5.998. Per = 11, la Tabella dei quantili fornisce i valori = 5.58
per q = 0.1, e = 7.58 per q = 0.25. Interpolando linearmente tra questi dati per
ottenere il valore di q corrispondente al quantile 5.998, ricaviamo:
q = 0.1 +
0.25 0.1
(5.998 5.58) ' 0.13
7.58 5.58
da cui = 1 q = 0.87 . Questo `e il livello fiduciario con cui si pu`o affermare che
2 (Cx ) 0.03.
Esempio 8.13
n 1 2
IP(1 Qn 2 ) = IP 1
Sn 2 =
2
!
2
2
2
= IP
1 Sn
2 = 0.98
n1
n1
e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato
con = 100 gradi di libert`a, corrispondenti a
q1 =
1 0.98
= 0.01 ;
2
q2 =
1 + 0.98
= 0.99 ,
2
150 70.1
150 136
Sn2
= 204.
100
100
Ricordando poi che il campione `e stato estratto senza ripetizione, questa statistica
`e legata alla varianza campionaria Sn2 dalla relazione (7.19):
N 1
n
299 101 2
Sn2 =
Sn2 =
S = 1.00663 Sn2 ,
N
n1
300 100 n
per cui la stima intervallare richiesta `e
105.84 Sn2 205.35 .
(8.29)
I limiti fiduciari per Sn2 sono molto vicini a quelli calcolati per Sn2 , perche la numerosit`a del campione `e superiore a 30.
228
STIME DI PARAMETRI
n
2
zq 2
Sn2 1 +
n
n1
n
2
zq 2
.
n
n1
8.3
Problemi risolti
k = 0, 1, 2, . . .
che ha media
1
1
= 1.
Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie campionarie di X `e linverso della probabilit`a :
E{Y } =
E{n } = E
X1 + . . . + Xn
n
1
= E{Y } + 1 = E{X}.
229
per 0 x 1
n
1
6X
Sn =
Xk ,
12 n k=1
n
1X
1
Tn = 12
Xk
,
n k=1
2
x + 1
dx = + 1 = 1.
2
2
2
E{X} =
Z 1
0
"
x3 x2 x2
x x + 1
dx =
+
2
3
2
4
#1
=
0
+
.
2 12
1
6
E
12 n
1
E
E{Tn } = 12
n
( n
X
Xk
k=1
( n
X
k=1
Xk
=
1
1
6
1
1
nE{X} =
6
+
12 n
12
2 12
1
1
= 12
nE{X}
n
2
35
12 2
1
= 12
+
2 12 2
= .
230
STIME DI PARAMETRI
Soluzione.
Poiche la media campionaria `e una stima corretta del valor medio della popolazione,
= 21 cm.
si ha subito che
Il campione `e estratto senza ripetizione da N elementi, per cui la distribuzione
campionaria delle medie ha uno scarto quadratico medio che vale
s
n =
n
N n
N 1
2 =
Sn2 =
0.25 ' 0.251
N
n1
5 199
e sostituendo la sua radice quadrata si ricava:
s
n =
200
1000 200
=
1000 1
0.251 4
' 0.0317 cm.
999
numero studenti
10
14
16
20
18
12
20
ni
10
14
16
20
18
12
20
xi
62.5
67.5
72.5
77.5
82.5
87.5
92.5
xi x
-14.9
-9.9
-4.9
0.1
5.1
10.1
15.1
(xi x)2
222.01
98.01
24.01
0.01
26.01
102.01
228.01
231
1
(62.510+67.514+72.516+77.520+82.518+87.512+92.510) = 77.4 .
100
La stima ottima della varianza incognita della popolazione, effettuata con un campione estratto con ripetizione, `e
2 =
1
(222.01 10 + 98.01 14 + 24.01 16 + 0.01 20 +
99
+26.01 18 + 102.01 12 + 228.01 10) =
7949
99
n = =
n
7949
' 0.896 .
9900
n =
n
N n
=
N 1
7949
9900
2900
' 0.896 0.983 ' 0.880 .
2999
2 =
232
STIME DI PARAMETRI
i
1h 2
1
2
(X1 ) + 2 (X2 ) + 2 (X3 ) = 3 2 =
9
9
3
i
1 h 2
11 2
2
2
(X1 ) + (X2 ) + 9 (X3 ) =
25
25
3 `e il pi`
3 ) < 2 (S3 ), ne segue che X
u efficiente .
e poiche 2 (X
8.7. Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cui
peso medio `e x
= 195 g. Sapendo che la varianza delluniverso `e 2 = 156.25 g 2 ,
determinare lintervallo di confidenza per la stima della media al livello = 1 =
0.95.
Soluzione. La popolazione `e molto grande, e la numerosit`
a del campione `e maggiore
di 30. Qualunque sia il modello statistico della popolazione, si pu`o approssimare la
distribuzione campionaria delle medie con una Normale con media x = = 195 g.
e deviazione standard
n = =
n
156.25
= 3.125 ' 1.7677 g .
50
Lintervallo di confidenza I per la media `e tale che: 195 n z < < 195 + n z ,
dove z `e il coefficiente fiduciario per la variabile standardizzata Zn = (n )/n
al livello fiduciario = 0.95. Si determina z usando la Tabella di erf(z) :
erf(z ) =
= 0.475
2
z = 1.96.
e sostituendo si ricava:
1.95 1.7677 1.96 < < 1.95 + 1.7677 1.96
I = (191.53, 198.46) .
233
= 30(48 ).
/ n
= 0.495
2
z = 2.58
z
z
< < 48 +
30
30
I = (47.914, 48.086) .
2 =
n
200
s2 =
20.25 = 20.35176
n1
199
= 4.511.
n =
N n
= 4.511
n(N 1)
14
' 0.308.
2999
= 0.49
2
z = 2.33
I = (169.28, 170.72) .
8.10. Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimentatore stima che la deviazione standard `e di 0.05 mm. Quanto deve essere grande il
234
STIME DI PARAMETRI
campione delle misure affinche egli abbia la fiducia del 99% che lerrore, nello stimare
il coefficiente medio, non sia superiore a 0.01 mm ?
Risposta. La variabile standardizzata per la distribuzione campionaria dei coefficienti medi n `e
n
n
Zn =
=
(n )
n
0.55
e il suo coefficiente fiduciario al livello = 0.99 (lo stesso dellesercizio VI.2) `e
z = 2.58.
Affinche lerrore n nella stima di sia minore o uguale a 0.01 mm, deve essere:
0.05
z = n 0.01
n
ossia
0.05 2.58
0.01
= (12.9)2 = 166.41
(
x ) n
n
Tn =
= (28.2 )
Sn
Sn
in cui
r
1
s
Sn
n
5.29
= s
=
= 1.763 cm.
=
n
n
n1
3
n1
Lintervallo richiesto `e
28.2 1.763 t < < 28.2 + 1.763 t ,
dove t `e il quantile di ordine q = (1+)/2 della distribuzione t-Student con n1 = 9
gradi di libert`a.
Al livello di fiducia = 0.95, si ha: q = 0.975 ; t = 2.262 e sostituendo si ottiene
lintervallo fiduciario:
I = (28.2 1.763 2.262, 28.2 + 1.763 2.262) ' (24.21, 32.19) cm.
8.12. Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di un
certo elemento in un materiale, e si osserva una media n = 1.23 e una varianza
corretta Sn2 = 0.4. Nellipotesi che questa concentrazione abbia un modello statistico
normale con parametri sconosciuti, determinare lintervallo fiduciario al livello 0.95
235
per la sua media e la sua varianza. Quale sarebbe invece lintervallo fiduciario per
la media, se si supponesse che il modello normale avesse varianza nota 2 = 0.4 ?
Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione campionaria delle medie ha legge t-Student con n 1 = 19 gradi di libert`a. In una stima
intervallare della media si ha:
Sn
Sn
n tq < < n + tq
n
n
con tq = quantile di ordine q = (1 + )/2 = 0.975 della t-Student con 19 gradi di
libert`a, che vale tq = 2.093. Sostituendo si ottiene:
r
1.23
0.4
2.093 < < 1.23 +
20
0.4
2.093
20
Se il modello normale avesse varianza nota 2 = 0.4, si dovrebbe assumere una distribuzione
campionaria delle medie con legge normale e deviazione standard n =
236
dove
STIME DI PARAMETRI
r
Sn
1
n
=
S2 =
n
n
n1 n
3.5
' 0.6236
9
2
A
2
0.12 0.12
+ B =
+
= 0.002 (Volt)2 .
nA nB
100
150
237
3
3
2.131 < < 68 + 2.131
4
4
1+
= 0.95
2
da cui:
= 0.90 .
2
2
10
2.064 < < 10 +
2.064
238
STIME DI PARAMETRI
Determinare la probabilit`a fiduciaria con cui si pu`o affermare che la media della
popolazione `e compresa in un intervallo di estremi 100 0, 5.
Soluzione. La probabilit`a si definisce come segue:
Sn
= IP(|Tn | tq ) = IP |xn | = tq 0.5
n
dove tq `e il coefficiente fiduciario per una variabile Tn che ha legge t-Student con 8
gradi di libert`a. Esso deve soddisfare la condizione
r
tq 0.5
9
' 1.861,
0.65
e dalla tavola della distribuzione t-Student con = 8 si ricava che il quantile che
soddisfa tale condizione con il segno di uguaglianza vale q = 0.95. Si ricava perci`o
q
1+
= 0.95
2
= 0.9 .
8.18. Si estrae un campione da una popolazione il cui carattere X ha media incognita e varianza 2 = 9. Qual`e la numerosit`
a minima che deve avere il campione per
poter affermare, con probabilit`a almeno del 90%, che la media campionaria si scosta
per non pi`
u di 2 da quella incognita di X ?
Risposta. La probabilit`a richiesta si calcola imponendo:
z = z
n
9
2
n
3
n 1.65
2
= 6.125 ' 7 .
TEST PARAMETRICI DI
IPOTESI STATISTICHE
9.4
Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle propriet`a della
distribuzione probabilistica osservata in un esperimento che coinvolge una variabile
aleatoria.
Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione
dei metodi per verificare la validit`
a di ipotesi fatte riguardo a questa variabile aleatoria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un
campione.
Lipotesi formulata su un generico fenomeno aleatorio `e usualmente chiamata ipotesi
nulla, e indicata con H0 . Possiamo suddividere le ipotesi statistiche in due grandi
categorie:
Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione
teorica di una o pi`
u popolazioni, la quale si assume gi`a definita nella famiglia
delle funzioni di distribuzione FX (x) compatibili con il modello statistico adottato per ciascuna popolazione. In generale, una ipotesi parametrica `e specificata da una ipotesi nulla del tipo:
H0 :
(9.28)
240
TEST PARAMETRICI
Una ipotesi non parametrica `e specificata da una ipotesi nulla del tipo:
H0 :
FX (x) F0 F
(9.29)
con 1 = \ 0
(9.10 )
H1 :
FX (x) F1 con F1 = F \ F0 .
(9.20 )
(9.30)
(9.31)
241
Il livello di significativit`
a del test `e la massima probabilit`a con la quale siamo
disposti a rischiare di commettere un errore di prima specie.
Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo
definire la probabilit`a di commettere un errore di prima specie, e quindi riconoscere
il livello di significativit`a del test ovvero, in modo equivalente, il livello di fiducia
del test che `e specificato dalla quantit`
a 1 .
Le probabilit`a , di errore variano, ovviamente, al variare degli insiemi A e C
con cui abbiamo scelto la regione di accettazione e quella di rifiuto. Daltra parte,
sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di
regola si opera in modo da scegliere la regione di accettazione A in modo da rendere
piccolo lerrore di prima specie (solitamente, = 0.05 oppure 0.01). Tuttavia, mantenendo fissa la numerosit`a n dei campioni, al decrescere di cresce la probabilit`a
dellerrore di seconda specie. Fissato , si deve pertanto ricercare la suddivisione
dello spazio G che rende minimo lerrore .
Si definisce potenza di un test la quantit`
a W = 1 [0, 1] che misura la
probabilit`a di respingere lipotesi nulla H0 quando `e vera lipotesi alternativa H1 .
La determinazione della potenza di un test `e spesso difficile, perche per il suo calcolo
esplicito occorre conoscere anche la distribuzione campionaria di Gn quando `e vera
lipotesi alternativa H1 la quale, per giunta, spesso non `e semplice ma composta.
Nei casi in cui ci`o `e possibile, il test (se esiste) in cui fissato lerrore `e minimo
si chiama il test pi`
u potente tra quelli con assegnato.
A sua volta, la potenza di un test con assegnato cresce al crescere della numerosit`
a
dei campioni, che `e comunque limitata per motivi di ordine pratico. Fissato anche
n, se lipotesi alternativa `e composta, il grafico della potenza W (gn ) in funzione dei
possibili valori empirici gn che pu`o assumere la statistica campionaria Gn si chiama
curva di potenza del test. Se invece di riportare la potenza W (gn ) si riporta lerrore
di seconda specie , si ha la curva caratteristica operativa (gn ) del test.
In questo Capitolo tratteremo pi`
u in dettaglio alcune tecniche in uso per effettuare
la verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certe
condizioni un criterio per la definizione di un test di massima potenza. Nel Capitolo
seguente tratteremo infine i metodi pi`
u comuni per effettuare test di ipotesi non
parametriche.
9.5
Test parametrici
H1 : = 1 ,
(9.32)
si imposta un test fra due ipotesi semplici, perche queste sono definite su due insiemi
0 e 1 costituiti entrambi da un solo elemento. Se invece si assume:
H0 : = 0 ;
H1 : > 0
oppure 6= 0 ,
(9.33)
242
TEST PARAMETRICI
1 = 10 , 2 = 20 ;
0 IR2 = {10 , 20 },
questa `e una ipotesi semplice per i due parametri incogniti (media e varianza); se
invece lipotesi nulla `e H0 : 1 = 10 e si lascia la varianza indeterminata, allora
H0 `e composta.
Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre
ristrette alla classe delle distribuzioni FX (x; ) ammissibili dal modello statistico,
le quali si suppone abbiano legge nota anche se dipendente da certi parametri da
stimare. Questa circostanza consente almeno in certi casi in cui le ipotesi alternative sono soggette ad opportune restrizioni di valutare anche i rischi di seconda
specie e quindi la potenza del test parametrico effettuato.
Accettato un livello di significativit`a , per riconoscere il test parametrico di massima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo
da avere un rischio di seconda specie che sia il minore possibile. La soluzione di
questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che
consideriamo nel paragrafo che segue.
9.6
L(0 , x)
C = x : `(x) =
<c
L(1 , x)
c IR+
243
Esempio 9.1
n
Y
"
n
X
1
x2
1
x2i
exp i2 =
L(0 ; x) =
.
exp
2
2 2
(2 2 )n/2
i=1 2
i=1
#
#
"
" n
n
Y
X (xi 2)2
1
(xi 2)2
1
exp
L(1 ; x) =
=
exp
2 2
2 2
(2 2 )n/2
i=1 2
i=1
`(x) =
"
1 X 2
x
exp 2
2 i i
1
exp 2
2
x2i
+ 4n 4
!# =
xi
exp
2n
= exp (n 1) ,
2nn
2
2n
exp 2
2
2
log c h.
2n
(9.34)
Scelto ora un rischio di prima specie , si determina il valore di h tenendo conto che
la distribuzione campionaria delle medie ha legge normale N (n , 2 /n). Infatti, se
H0 `e vera, il valor medio di questa distribuzione `e nullo e dunque:
!
!
Z
n2n
1
h n
n
= IP(n > h |H0 ) =
exp 2 dn = erf
. (9.35)
2
2
2 h
Una volta valutato h, tenuto conto che se `e vera H1 la distribuzione campionaria ha
media E{n } = 2, si determina anche lerrore di seconda specie :
= IP(n h |H1 ) =
!
"
Z h
#
n
n(n 2)2
1
(h 2) n
=
exp
dn = + erf
, (9.36)
2 2
2
244
TEST PARAMETRICI
H 0 : N ( q 0 ,1)
H 1 : N ( q1 ,1)
0
1
A : accetto H 0
mn
C : rifiuto H 0
2n(1 h)
c = exp
= e0.57 ' 0.565 .
2
Dalla (9.36) si ricava allora:
= 0.5 + erf (0.7) ' 0.24
e la potenza del test vale W ' 0.76.
Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significativit`a
= 0.01,
se la media empirica osservata da un campione di 16 elementi `e minore di n =
h = 1.3, si accetta lipotesi nulla dichiarando che la media teorica della distribuzione
normale nel modello N (, 16) `e = 0;
se la media empirica `e maggiore di n = 1.3, si rifiuta lipotesi nulla e si accetta
lipotesi alternativa, dichiarando che = 2.
Per definire la regione critica C, si pu`o anche fissare un valore positivo di c, per
esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione
ottimale di rifiuto definita dalla (9.34) `e n > h = 1, per un test con rischi di prima
245
9.7
Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato,
si incontra raramente nelle applicazioni. E invece assai pi`
u frequente il caso in
cui entrambe le ipotesi H0 , H1 (o almeno una di esse) sono composte. In questo
paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo
lipotesi alternativa sia composta.
Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano pi`
u spesso
sono:
1) H1 : 6= 0
2) H1 : > 0
3) H1 : < 0 .
(9.37)
Nel caso 1) il test si chiama bidirezionale; nel caso 2) `e unidirezionale superiore
o concon coda a destra, e nel caso 3) `e unidirezionale inferiore o con coda a
sinistra.
C`e una stretta relazione tra un test con ipotesi di questo tipo e la determinazione di
un intervallo di confidenza per , gi`a trattato nel Capitolo 8. Infatti, consideriamo
un test bidirezionale per H0 al livello di significativit`a . Una volta definita la distribuzione campionaria della statistica Gn , da usare quando `e vera lipotesi nulla su
, una regione A di accettazione di H0 `e un intervallo delle realizzazioni campionarie
contenente gn = 0 (v. Fig. 9.2). Larea sottesa dalla distribuzione campionaria in
questo intervallo deve essere uguale ad 1 , perch`e `e il rischio di prima specie
definito dalla (9.30) e misura la somma delle due aree della distribuzione che sono
esterne alla regione di accettazione. Dunque, la regione di accettazione del test bidirezionale al livello di significativit`a `e un intervallo I soddisfacente la condizione:
IP(Gn A |H0 vera) = IP(gn I ) = 1 ,
(9.38)
246
TEST PARAMETRICI
H0
H1
H1
H1
1 -a= g
b
C
q0
A = Ig
gn
Figura 9.2
9.7.1
247
0 z1/2 n 0 + z1/2
n
n
(9.39)
n 0
,
/ n
(9.40)
ovvero il suo quantile di ordine 1 /2 che `e legato al rischio di prima specie dalla
condizione (8.10) che qui si riscrive nella forma:
1 = IP(|Zn | z1/2 ) = 2erf(z1/2 ).
Nel test bilaterale lipotesi nulla H0 `e da accettare se il valore empirico della variabile
Zn definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartiene
allintervallo (9.39). In caso contrario, si conclude che i dati forniti dal campione
non sono compatibili, al livello di significativit`a , con lipotesi H0 .
Il rischio di seconda specie si determina come segue:
Z
"
0 +n z1/2
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2 0 n z1/2
0 1
1 0
= erf z1/2 +
+ erf z1/2 +
.
(9.41)
n
n
1 0
n 0 n 1
=
,
n
n
n
(9.42)
ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla
H0 e alla ipotesi alternativa H1 , il rischio di seconda specie si pu`o pi`
u sinteticamente
riscrivere in funzione di zn0 nella forma:
(zn0 ) = erf(z1/2 zn0 ) + erf(z1/2 + zn0 ).
Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico
con linea continua di Fig. 9.3) che tende a zero per 1 , `e monotona crescente
per < 1 < 0 (ossia per zn0 < 0); vale (0 ) = 1 per 1 = 0 (ossia per
zn0 = 0); ed `e monotona decrescente per 0 < 1 < + (zn0 > 0).
248
TEST PARAMETRICI
1- a
H1 : m 1 m 0
0.5
H1 : m 1 < m 0
H1 : m 1 > m 0
m0
- z 1- a
m1
z 1- a
z'n
Figura 9.3 - Curve caratteristiche operative per tests sul valor medio
< n 0 + z1
n
1
+ erf(z1 ), )
2
(9.43)
"
0 +n z1
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2
0 + n z1 1
1
0 1
= erf
erf() = + erf z1 +
.(9.44)
n
2
n
1
+ erf(z1 zn0 )
2
(9.170 )
0 z1 < +
n
249
1
+ erf(z1 ).
2
"
+
1
(n 1 )2
(1 ) = IP(n A|H1 N (1 , n )) =
exp
dn
2n2
n 2 0 n z1
0 n z1 1
1
0 1
= erf(+) erf
= erf z1 +
(9.45)
n
2
n
1
+ erf(z1 + zn0 ).
2
(9.180 )
Lerrore di seconda specie `e in tal caso una funzione monotona crescente, simmetrica
della (9.17) rispetto allasse zn0 = 0: tende teoricamente a zero per zn0 ; `e
uguale a 0.5 per zn0 = z1 , vale ancora 1 per 1 = 0 (ossia per zn0 = 0) e
tende allunit`a per 1 , zn0 +.
La Fig. 9.3 mostra che a parit`a di ed n i rischi di seconda specie dei test unilaterali (indicati con linea tratteggiata) sono minori di quello del corrispondente test
bilaterale, in tutto lintervallo di 1 definito dalla particolare ipotesi alternativa che
si considera. Ne segue che, sempre a parit`a di e n, un test unilaterale `e pi`
u potente
di un test bilaterale.
Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3]
citato in Bibliografia) in cui il rischio di seconda specie `e riportato in funzione di
|0 1 |/ al variare di e n. I diagrammi mostrano, tra laltro, che la pendenza
delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di prima
specie `e tanto pi`
u potente quanto maggiore `e la numerosit`
a del campione. In definitiva, questi diagrammi consentono quindi di valutare la numerosit`
a campionaria che
`e necessaria per effettuare un test con prefissata potenza W (zn0 ) = 1 (zn0 ).
9.4.1.2 Modello Normale generale: popolazione con varianza sconosciuta.
Se la varianza 2 della popolazione normale `e sconosciuta, essa dovr`
a essere stimata
con la statistica campionaria corretta Sn2 definita nella (7.14). Sulla base del Teorema
8.1 (t-Student), il test si effettua osservando se il valore empirico della statistica Tn
definita nella (8.16) appartiene alla regione di accettazione di H0 oppure alla regione
di rifiuto dellipotesi nulla.
Se si effettua un test bidirezionale, la regione di accettazione `e fornita dallintervallo
di confidenza (8.18), che ora si scrive:
A:
sn
sn
0 t1/2 n 0 + t1/2
n
n
(9.46)
250
TEST PARAMETRICI
dove sn `e il valore empirico della radice quadrata di Sn2 , e t1/2 `e il quantile di ordine
(1 /2) della distribuzione t-Student con (n 1) gradi di libert`a. Confrontandola
con la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente sn al posto
di e t1/2 al posto di z1/2 .
In modo analogo, applicando le (8.19) e indicando con t1 il quantile di ordine
(1) della t-Student con (n1) gradi di libert`a, si ricavano le regioni di accettazione
per un test unidirezionale superiore (coda a destra):
A:
sn
< n 0 + t1
n
(9.47)
sn
0 t1 n < +.
n
(9.48)
n 0
,
sn / n
(9.49)
251
W(z'n )
H1
1- a
-2.58 -1.96
1.96 2.58
zn
1623.52 1630.96
mn
A
A
1569.04 1576.48
1600
-3
-2
-1
z'n
Figura 9.4
Effettuando tests con livelli di significativit`a = 0.05 e 0.01, quando si pu`o affermare
che il peso medio dellintera popolazione di quel prodotto, confezionato dalla stessa
ditta `e di 1600 gr ?
Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice
e una ipotesi alternativa composta:
H0 : = 1600 gr
H1 : 6= 1600 gr.
252
TEST PARAMETRICI
gr. Al contrario, con un livello di significativit`a 0.01 (cio`e con un rischio massimo
di sbagliare dell1%), risulta zn A ed accettiamo lipotesi nulla concludendo che il
peso medio `e di 1600 gr.
Il rischio di seconda specie di questo test `e fornito dalla (9.41) e in funzione della
differenza standardizzata (9.42) che qui si scrive zn0 = (1 1600)/12, vale:
(zn0 ) = erf(1.96 zn0 ) + erf(1.96 + zn0 )
(zn0 ) = erf(2.58 zn0 ) + erf(2.58 + zn0 )
se = 0.05,
se = 0.01.
La curva di potenza del test W (zn0 ) = 1 (zn0 ) ha un grafico che `e mostrato in Fig.
9.4 per un livello di significativit`a = 0.05 /.
Esempio 9.3
I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio = 1800
Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo
di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla
nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura
`e n = 1850 con varianza campionaria corretta Sn2 = 10.000Kg 2 . Si pu`o affermare,
a un livello di significativit`a = 0.01, che i nuovi cavi hanno un carico medio di
rottura pi`
u elevato?
Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta:
H0
H1
:
:
= 1800 Kg
> 1800 Kg
Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione,
poich`e il campione esaminato `e sufficientemente grande la distribuzione campionaria
delle medie si pu`o approssimare con una legge normale avente media 0 = 1800 Kg
se H0 `e vera, e varianza Sn2 /n = 10.000/50 = 200 Kg2 .
Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) che
nel nostro caso, se H0 `e vera, vale:
Zn =
n 1800
.
200
(9.50)
1
+ erf (z1 ) = 0.99
2
e quella di rifiuto `e
C:
253
W(z n' )
H1
1- a
0.5
zn
2.33
C
1833
1800
-3
1850
-2
-1
mn
z1- a
z'n
Figura 9.5
1
+ erf(2.33 zn0 ).
2
Una ditta farmaceutica afferma che un suo analgesico `e efficace per un periodo di
dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato
in effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello di
significativit`a = 0.01, la ditta farmaceutica pu`o legittimamente sostenere quanto
affermato.
Se p `e la probabilit`a che lanalgesico abbia effetto per dodici ore, si chiede di procedere a un test unidirezionale scegliendo fra le seguenti ipotesi:
H0
H1
:
:
p = p0 = 0.9
p = p1 < 0.9
(laffermazione `e corretta);
(laffermazione `e falsa).
0 =
p0 (1 p0 )
=
n
0.9 0.1
= 0.0212.
200
254
TEST PARAMETRICI
W( p )
1
H0
H1
0.5
a
0.8506
0.8
1- a
0.9
-4.71
Y = n s /n
C
-2.33
-2
0.9
0.8506
-1
z'
Figura 9.6
Y p0
Y 0.9
=
0
0.0212
1
+ erf (z1 ) = 0.99 ,
2
vale z1 = 2.33 come nellEsempio precedente. La regione di accettazione dellipotesi nulla `e dunque lintervallo aperto a destra:
A = {z : 2.33 z < +} = {Y : 0.8506 Y < +}
indicata in Fig. 9.6, mentre la regione di rifiuto `e
C = {z : < z < 2.33} = {Y : < Y < 0.8506}.
Il valore empirico di zn osservato nel campione `e
zn =
0.8 0.9
= 4.71
0.0212
255
+
(Y p1 )2
1
exp
dY =
(p1 ) = IP[Y A | H1 '
==
212
1 2 p0 0 z1
p0 0 z1 p1
1
p1 p0
0
= erf(+) erf
= + erf
z1 +
.
1
2
1
1
N (p1 , 12 )]
Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): `e
sempre una funzione monotona crescente, e vale 0.5 per p1 = p0 0 z1 = 0.8506
che `e lestremo inferiore dallintervallo di accettazione A. Per ricercare una analogia
formale con la (9.18), si pu`o anche definire la differenza standardizzata:
s
p1 p0
Z =
= (p1 p0 )
1
0
n
,
p1 (1 p1 )
(z 0 ) =
0
1
+ erf
z1 + z 0
2
1
p0 (1 p0 )
= 1.96.
(p0 0 z1 )(1 p0 + 0 z1 )
Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti
di una malattia. Al campione A, unitamente alla terapia usuale si somministra una
nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare
unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono
guariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamo
ritenere che la nuova cura `e efficace, ai livelli di significativit`a = 0.01, 0.05 e 0.10
?
Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazione
dei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza relativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente
da YA . Definiamo quindi la variabile aleatoria differenza tra le frequenze relative:
d() = YA YB ,
256
TEST PARAMETRICI
:
:
d=0
(la nuova cura non ha effetto)
d = d1 > 0 (la nuova cura `e pi`
u efficace di quella usuale).
In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelle
due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali,
rispettivamente con valor medio
E{YA } =
75
= pA = 0.75 ;
100
E{YB } =
65
= pB = 0.65
100
2 (YB ) =
0.65 0.35
= 0.002275 .
100
0.75 0.25
= 0.001875 ,
100
d =
2 (YA ) + 2 (YB ) =
257
H 0 , n = 300
H0 , n = 100
H1
dn
b
-0.15
-0.05
-0.1
0.05
0.1
0.15
Figura 9.7
1
d1
(d1 ) = + erf z1
2
d
1
+ erf
2
1.28
0.10
0.06442
1
erf (0.2723) = 0.5 0.107 = 0.393 .
2
Ne segue che in base allanalisi dei campioni il rifiuto della nuova terapia sarebbe
controproducente, con una probabilit`a che `e circa del 40%, ai fini di un miglioramento
della terapia in uso.
Daltra parte, esiste un modo per diminuire il rischio di prima specie senza aumentare lentit`a del rischio di seconda specie : esso consiste nellaumentare la numerosit`a n dei campioni, perch`e in tal modo si aumenta laffidabilit`a della decisione
che si assume a seguito del test.
Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti
ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con
258
TEST PARAMETRICI
225
= 0.75 ;
300
YB0 =
195
= 0.65.
300
2 (YA0 )
2 (YB0 )
che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato
empirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore:
zn0 =
0.10
0.10
=
= 2.688 > 2.33,
0
d
0.0372
0.10
2.33
0.0372
1
erf (0.358) ' 0.361.
2
La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due distribuzioni campionarie con differente numerosit`
a, nel caso in cui sia vera lipotesi
nulla H0 : d = 0. Per n = 300, il quantile d1 = 0.0372 z1 della differenza
d = YA0 YB0 ai vari livelli di significativit`a vale:
= 0.01 ,
= 0.05 ,
= 0.01 ,
z1 = 2.33 : d1 = 0.0866
z1 = 1.645 : d1 = 0.061
z1 = 1.28 : d1 = 0.0476
e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regione
di rifiuto anche se si assume il minore tra i tre rischi di prima specie. /
9.7.2
Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il
campione sia normalmente distribuita, perch`e questa condizione `e necessaria per determinare gli intervalli di confidenza ricavati nel 8.2.2. Quando `e possibile accettare
quasta ipotesi preliminare, un test bilaterale con ipotesi:
H0 :
H1 :
2 = 02
2 = 12 6= 02
259
n 1 2
n
Sn 2 Sn2 ,
2
0
0
(9.51)
definita nel Teorema Chi-quadrato del 7.4.1, appartiene alla regione di accettazione
risultante dalla scelta di un determinato rischio di prima specie .
Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n 1) gradi di libert`a,
questa regione di accettazione `e lintervallo
A = {qn : /2 qn 1/2 } = {Sn2 : 02 /2 /n Sn2 02 1/2 /n}
(9.52)
(9.250 )
H1 : 12 < 02 :
(Sn 0 ) 2n
,
(9.26)
Zn =
0
260
TEST PARAMETRICI
z1/2
z1/2
=
Sn : 0 1
Sn 0 1 +
2n
2n
A =
{zn : < zn z1} =
z1
=
Sn : Sn 0 1 +
2n
A = {z
:
z
z
<
+}
=
n
1
n
z1
=
Sn : 0 1
Sn < +
2n
|calN (1 , 12 /2n))
1
=
1
"
Z
A
(Sn 1 )2
exp
dSn
212 /2n
12
6=
02
H1 : 12 > 02 :
H1 : 12 < 02 :
0
0
(1 ) = erf 2n
1 + z1/2
1
1
0
0
erf 2n
1 z1/2
1
1
1
0
0
(1 ) = erf 2n
1 + z1 +
1
2
1
0
1
0
1 z1
(1 ) = erf 2n
2
1
1
Fissati ed n, il suo andamento qualitativo `e mostrato per i tre casi in Fig. 9.8.
Per 1 = 0 esso vale sempre 1 , che `e il valore massimo di nel test bilaterale,
ma tende allunit`a per il test unilaterale superiore quando 1 0, e per quello
unilaterale inferiore quando 1 . Pi`
u dettagliati diagrammi di in funzione
del rapporto 1 /0 si possono consultare in [3] al variare di e della numerosit`
a del
campione.
Esempio 9.6
261
b
1
1- a
H1 : s 21 s 20
H1: s 21 < s 20
H1 : s 21 > s 20
s1
s0
Figura 9.8 - Curve caratteristiche operative per tests sulla varianza
20 2
S = 1000Sn2
02 n
2 6= 0.02
Il valore empirico della statistica Qn che si ottiene sostituendo in essa Sn2 = 0.028
vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 9.9).
Si pu`o perci`o concludere, al livello = 0.10, che il campione `e compatibile con
laffermazione che le misurazioni effettuate in quella galleria del vento hanno una
varianza 2 = 0.02.
Si noti che si perviene invece a un risultato opposto se si effettua un test unidirezionale superiore assumendo lipotesi alternativa H1 : 2 > 0.02. Infatti in tal
caso lintervallo di accettazione di H0 sarebbe:
A = [0, 1 ] = [0, 0.90 ] = [0, 27.2]
e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +).
262
TEST PARAMETRICI
f(Q n )
H0
E Q
qn
0.05
10
20
0.05
30
40
A
Figura 9.9
Per confrontare questi risultati con quelli che si ottengono per grandi campioni,
supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32
prove, anzich`e 20. In tal caso si pu`o usare la statistica (??) che vale:
8(Sn 0.02)
Zn =
.
0.02
Al livello = 0.10, si ha z1/2 = z0.95 = 1.645, e per questa statistica la regione di
accettazione di H0 , definita dalla prima delle (9.27), `e il seguente intervallo di zn :
A = [1.645, 1.645].
Il valore empirico di Zn vale
0.028 0.02
zn = 8
= 1.4657
0.02
ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava
dallesame del piccolo campione. In modo analogo, nel test unidirezionale superiore
si ricava: A = (, z1 ] = (, z0.90 ] = (, 1.288] che non contiene zn ; dunque
lipotesi nulla sarebbe in tal caso da rigettare, come gi`a rilevato nel caso in cui
n = 20.
Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare
usando le formule (9.53). In particolare,
se si fa coincidere 1 con il valore empirico
della deviazione standard Sn = 0.028 ' 0.167, si ha 0 /1 ' 0.8468 e per il test
bilaterale si ricava il seguente errore di seconda specie:
(0.167) = erf[8(0.8468 1) + 0.8468 1.645] erf[8(0.8468 1) 0.8468 1.645]
= erf(0.167) erf(2.6186) = 0.065 + 0.4955 ' 0.56
mentre per il test unilaterale superiore si ha invece:
(0.167) =
1
+ erf[8(0.8468 1) + 0.8468 1.288] =
2
263
9.7.3
2 (Y )
(n 1)Qm
2 Sm
= X
(m 1)Qn
Y2 Sn2 (X)
(9.53)
`e distribuita con densit`a F di Fisher, definita nella (2.41) del 2.3.8, avente m 1 e
n 1 gradi di libert`a.
Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno
2 = 2 , ed effettuare un
la medesima varianza. Si pu`o allora porre nella (9.53): X
Y
test sulla statistica
S2 (Y )
Vm,n = m
Sn2 (X)
ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y .
Definita lipotesi nulla
2
H0 : X
= Y2
e quella alternativa
H1 :
2
X
6= Y2 ,
1
.
f1/2 (n, m)
(9.54)
264
TEST PARAMETRICI
In seguito alle due serie di misurazioni del coefficiente di resistenza Cx gi`a considerate
negli Esempi 9.6 e 8.12 si vuole verificare, al livello di significativit`a = 0.10, lipotesi
che le distribuzioni di frequenza dei risultati (che come gi`a detto sono approssimabili
con leggi normali) abbiano la medesima varianza.
Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate
sul modello dellEsempio 8.12, e con Y quella delle m = 20 misure dellEsempio 9.6.
Poich`e le varianze campionarie sono risultate, rispettivamente: Sn2 (X) = 0.015 e
2 (Y ) = 0.028, le varianze empiriche corrette valgono:
Sm
12
Sn2 (X) =
0.015 = 0.01636,
11
20
2
Sm
(Y ) =
0.028 = 0.02947,
19
Vm,n = 1
0.02947
= 1.80.
0.01636
1
4
f0.95 (10, 15) + f0.95 (10, 20) = 2.3872
5
5
1
4
f0.95 (15, 15) + f0.95 (15, 20) = 2.243
5
5
1
4
1
f0.95 (10, 19) + f0.95 (15, 19) = f0.95 (10, 15) +
5
5
25
4
4
16
+ f0.95 (10, 20) + f0.95 (15, 15) + f0.95 (15, 20) = 2.27184.
25
25
25
In definitiva si ottiene:
f0.05 (19, 11) =
1
' 0.44
f0.95 (11, 19)
9.7.4
265
Test di incorrelazione
Cov(X, Y )
Rn =
=
Sn,X Sn,Y
(Xk X)(Yk Y )
k=1
nSn,X Sn,Y
(9.55)
(X, Y ) = 0 ;
H1 :
(X, Y ) 6= 0
(9.56)
relative al coefficiente di correlazione teorico dei due caratteri, si pu`o dimostrare che
se lipotesi nulla `e vera, la statistica
s
Tn = Rn
n2
1 Rn2
(9.57)
dove t1/2 `e il quantile della distribuzione t-Student con n 2 gradi di libert`a, che
esclude una coda di probabilit`a /2.
Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione,
appartiene alla regione di accettazione cos determinata, si concluder`a che i due
caratteri sono non correlati al livello di significativit`a .
Esempio 9.8
Nella regressione lineare effettuata nellEsempio 6.2 del Capitolo 6 `e gi`a stato calcolato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico
Rn = 0.7027. Poiche esso `e relativamente prossimo allunit`a, si `e dedotto che i dati
(xk , yk ) ricavati dal campione di numerosit`
a n = 12 sono sufficientemente correlati
statisticamente.
266
TEST PARAMETRICI
Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si possono trarre le medesime conclusioni anche nei confronti delle propriet`a statistiche
della coppia di caratteri della popolazione dalla quale `e stato estratto il campione
esaminato.
Il valore empirico che si ricava per la statistica (9.57) vale
s
tn = 0.7027
10
= 3.1232.
1 (0.7027)2
Lesame della tabella dei quantili della distribuzione t-Student con n 2 = 10 gradi
di libert`a mostra che t1/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente per
= 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significativit`a le
regioni di rifiuto di H0 sono:
= 0.05 :
= 0.02 :
= 0.01 :
C = (, 2.228) (2.228, +)
C = (, 2.764) (2.764, +)
C = (, 3.169) (3.169, +)
9.7.5
Ipotesi H0 e H1 composte
Nel caso in cui anche lipotesi nulla sia composta, e genericamente del tipo:
H0 :
0 IR ,
1
1, 200
4
2, 200
9
3, 200
a
0
mn
267
Figura 9.10
lerrore di prima specie del test dipende dagli effettivi valori empirici gn 0 che
la statistica campionaria Gn pu`o assumere nellinsieme 0 compatibile con lipotesi
nulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30),
lerrore di prima specie `e ora la funzione
(gn ) = IP(Gn C | ogni H0 vera, con = gn 0 ) ,
e come livello di significativit`a del test si assume in tal caso lestremo superiore dei
possibili errori di prima specie:
= sup (gn ).
(9.58)
gn 0
Esempio 9.9
1/ 0 = [0, 3]
1/ > 3.
0n 3
1
erf (zc ) = = 0.01
2
268
TEST PARAMETRICI
(c n ) n
c
Zc =
=
1
200.
n
3
Usando come di consueto la tabella di erf(z), si ricava zc = 2.33 da cui
zc
c=3 1+
200
= 3.494.
1.29
c=3 1+
200
= 3.27365,
per cui in tal caso lipotesi nulla `e da rifiutare perche il dato empirico appartiene
alla regione di rifiuto C = (3.27365, +) determinata con il nuovo livello di significativit`a. /
9.7.6
:
:
0 IRd
1 = \0 .
(9.59)
sup L(, X)
(9.60)
269
dove c > 0 `e scelto in modo che il test abbia un prescritto livello disignificativit`a ,
ovvero tale da soddisfare la condizione
Z
0 .
Questo metodo `e ampiamente usato per effettuare test di verifica per unampia
classe di ipotesi composte sebbene, in generale, non porti alla costruzione di un test
di massima potenza come invece avviene nel caso di ipotesi semplici.
Si pu`o comunque dimostrare, sotto particolari condizioni di regolarit`a della stima di
massima verosimiglianza, che il test possiede propriet`a ottimali in una sua variante
asintotica, vale a dire quando la numerosit`
a del campione tende ad infinito. Questa
teoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguarda
per`o soltanto problemi in cui lipotesi nulla `e definita su un sottospazio di , ossia
tale che H0 : 0 con dim(0 ) < dim(). Questo `e il caso, per esempio, di un
test sulla varianza per il modello Normale-2: N (1 , 2 ) in cui
= { = (1 , 2 ) : < 1 < +, 2 > 0}
`e un semipiano, e
0 = { = (1 , 2 ) : 1 = 10 , 2 > 0}
`e la semiretta dei valori positivi di 2 , per 1 assegnato.
9.8
Problemi risolti
3250
n = =
= 230
n
200
A = (44206.6, 45393.4)
270
TEST PARAMETRICI
A = (44504, 45096)
ex
= 44500 non appartiene ad A, bens` alla regione critica e dunque rifiuto H0 .
Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normale
standard Zn il cui valore empirico, se H0 `e vera, vale zn = (44500 44800)/230 '
1.30.
Infatti, al livello = 0.01 esso appartiene alla regione di accettazione
A = (z0.995 , z0.995 ) = (2.58, 2.58)
e al contrario, al livello = 0.20 non appartiene allintervallo A = (1.287, 1.287).
9.2. Si dispone del seguente campione: x1 = 7, x2 = 6, x3 = 8, x4 = 5, x5 = 6, x6 =
10 di sei osservazioni di un carattere X di cui non `e noto il modello statistico. In
un test bilaterale sul valor medio di X, si pu`o accettare, al livello di significativit`a
= 0.1, lipotesi che esso valga = 6 ?
Soluzione. Per procedere nel test occorre assumere che la popolazione con varianza
sconosciuta abbia legge normale, e usare una distribuzione campionaria con legge
t-Student.
Lipotesi nulla `e H0 : 0 = 6 e lipotesi alternativa `e H1 : 6= 6. I valori empirici
della media e della varianza campionaria sono
x = 42/6 = 7
1
8
s2n =
(4 + 1 + 1 + 1 + 9) = .
6
3
In un test bilaterale al livello = 0.1, se H0 `e vera lintervallo di accettazione `e
sn
sn
6 t0.95 6 + t0.95
6
6
dove
s
1
n =
n
n
n
s2 =
n1 n
8
' 0.7303
15
271
n 0
Tn =
n = (n 0 )
sn
15
8
H1 : 2 < 0.09.
Se H0 `e vera, la statistica
Qn =
n 1 2
7 2
S = 77.7 Sn2
Sn =
2
0.09 n
0
n
8
s2n = 0.098 ' 0.112,
n1
7
6 8.
Sviluppare un test con livello di significativit`a = 0.1, per verificare se la media del
carattere vale = 5 oppure = 6. Qual`e la potenza del test effettuato ?
Soluzione. I valori empirici della media e della varianza campionaria sono:
x
=
28
= 5.6,
5
s2n =
16 + 25 + 25 + 36 + 64
(5.6)2 = 1.84,
5
2 =
n
5
s2 = 1.84 = 2.3
n1 n 4
272
TEST PARAMETRICI
2
2.3
n =
=
' 0.678.
n
5
Definite lipotesi nulla H0 : = 0 = 5, lipotesi alternativa H1 : = 1 = 6 e la
variabile standardizzata
n 5
n 0
=
Zn =
n
0.678
della distribuzione campionaria delle medie quando H0 `e vera, la regione critica
(c , +) del test si calcola imponendo che
c 5
0.678
1
c 5
= erf
2
0.678
erf
c 5
0.678
= 0.4
c 5
= 1.287
0.678
c 6
= IP (n c | H1 vera) = IP Zn
n
1
1
=
+ erf(0.1874) ' 0.074 = 0.426.
2
2
5.873 6
= IP Zn
0.678
p = p0 = 0.05
(5 transistor difettosi)
p = p1 > 0.05
(pi`
u di 5 transistor difettosi).
273
erf(z0.9 ) = 0.4
x
5
' (4.9 5) 31.62 = 3.162
0.2/ 40
274
TEST PARAMETRICI
9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600
ore. In un campione di 100 lampadine la vita media risulta x
= 1570 ore, con uno
scarto quadratico medio s = 120 ore. Controllare lipotesi nulla H0 : = 1600 ore
ai livelli di significativit`a del 5% e dell1% rispettivamente.
Soluzione. Poiche abbiamo un campione con numerosit`
a sufficientemente elevata,
anche se non si conosce il modello statistico della popolazione la distribuzione campionaria delle medie si approssima con una legge Normale con media n = 1750 ore
e deviazione standard stimata attraverso lo scarto quadratico medio campionario:
r
Sn
1
n
120
n = =
s = ' 12.06 ore.
n
n
n1
99
n 1600
n 1600
=
n
12.06
ha regioni di accettazione:
A = (z0.975 , z0.975 ) = (1.96, 1.96)
A = (z0.995 , z0.995 ) = (2.58, 2.58)
al livello = 0.05
al livello = 0.01.
x
1600
1570 1600
=
' 2.4875.
12.06
12.06
sn = s
n
= 1.2
n1
10
' 1.265 mm ,
9
275
9.5 10
' 4.42.
0.113
276
TEST PARAMETRICI
un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore.
Per provare ci`o, si prende un campione di 50 lampadine e si trova che la durata
media `e di 1830 ore.
a) Al livello di significativit`a dell 1 % (rischio del produttore) valutare se c`e stato
un reale miglioramento, confrontando lipotesi nulla H0 : 0 = 1850 (effettivo
miglioramento) con lipotesi alternativa H1 : 1 = 1800 (situazione immutata).
b) Calcolare la probabilit`a di commettere un errore di seconda specie (rischio del
consumatore), cio`e di dichiarare una durata media di 1850 ore quando invece `e vera
lipotesi alternativa.
Soluzione.
a) Si deve effettuare un test con ipotesi semplici su una popolazione normale con
varianza nota. Poiche in questo test si ha 0 > 1 , la regione di accettazione di
H0 e quella critica sono rispettivamente A = (c , +), C = (, c ) con c da
determinare.
Introduciamo la variabile standardizzata che definisce la distribuzione campionaria
delle medie. Se H0 `e vera, essa vale
Zn =
n 1850
n 1850
n 1850
=
=
.
/ n
100 50
200
c 1850
= 0.01 = IP(n < c | H0 ) = IP Zn < zc =
200
e dalle Tavole di erf(z) si ricava:
erf(zc ) = 0.49
zc = 2.33 ;
c = 1850 +
1
+ erf(zc )
2
Si noti che zc = 2.33 non `e altro che il quantile z0.99 di ordine 1 della distribuzione Normale standard.
Dunque la regione critica `e lintervallo aperto a sinistra:
C = {zn : < zn < 2.33} = {n : < n < 1817.049}.
Il valore empirico di
n rilevato nel campione (al quale corrisponde il valore empirico
zn = (1830 1850)/ 200 ' 1.414 di Zn ) non appartiene alla regione critica.
In seguito alle osservazioni sul campione, si deve pertanto accettare lipotesi nulla,
dichiarando che con il nuovo materiale c`e un effettivo miglioramento .
b) Il rischio di seconda
specie si determina introducendo la variabile standardizzata
1817.049 1800
c 1
= IP Z1
=
= IP(n c |H1 ) = IP Z1
200
200
1
1
17.049
=
' erf(1.21) = 0.5 0.3869 = 0.1131 ' 11.3% .
erf
2
2
200
277
C = (, 1.65)
e poiche il dato empirico zn non appartiene alla regione critica ora calcolata, si
deduce che lipotesi nulla deve essere accettata al livello di significativit`a del 5%.
b) Se si usa lo stesso metodo dellEsercizio precedente, per calcolare lerrore di seconda specie occorre prima determinare il valore critico c della media campionaria:
zc
1.65
c = 25 +
= 25
' 24.3125
n
2.4
e quindi scrivere:
1
1.3125
c 23
= erf
= IP(n c |H1 ) = IP Z1
n
2
0.41
6
1
'
erf(3.15) = 0.5 0.4992 = 0.0008
2
dove Z1 = (n 1 )/n `e la variabile standardizzata che rappresenta la distribuzione
campionaria quando `e vera lipotesi altermativa.
Oppure, con procedura pi`
u rapida, si pu`o applicare la formula:
1
= + erf(z1 z 0 )
2
in cui z 0 `e la differenza tra le Normali standard associate alla ipotesi nulla e alla
ipotesi alternativa, e vale:
2
n 25 n 23
=
= 4.8.
z0 =
n
n
0.41
6
Si ha cos` il medesimo risultato:
= 0.5 + erf(1.65 4.8) = 0.5 erf(3.15) ' 0.0008.
278
TEST PARAMETRICI
In gran parte dei test statistici trattati nel Capitolo precedente `e stata sfruttata
lipotesi preliminare che il modello statistico della popolazione in esame fosse facilmente identificabile, ed esprimibile mediante leggi probabilistiche note (normale,
binomiale, esponenziale,. . .). Capita spesso che ci`o non sia possibile, o per lo meno
che la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazione
sia da verificare. Questa verifica si effettua con metodi chiamati anche test per la
bont`a delladattamento, i pi`
u noti dei quali sono il test di Kolmogorov-Smirnov e il
test Chi-quadrato, che si impostano come segue.
Si abbia in campione X = (X1 , X2 , . . . , Xn ) estratto da una popolazione il cui carattere X ha una funzione di distribuzione incognita FX (x). Per verificare se un modello
statistico con assegnata legge F (x) `e adatto a descrivere le propriet`a probabilistiche del carattere X, si effettua un test per la seguente ipotesi nulla:
H0 :
FX (x) = F (x),
x IR
(10.1)
(10.2)
In molte applicazioni, non si hanno informazioni sufficienti per individuare completamente la legge F (x) da assumere per il modello statistico, e occorre stimarne
simultaneamente uno o pi`
u parametri. In tal caso, il test consiste nel verificare
lipotesi nulla composta:
H0 :
FX (x) F0 = {F (x; ), }
(10.10 )
280
6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questo
contesto `e anche chiamata funzione di distribuzione empirica e si esprime come:
Fn (x) =
m
1X
nk U (x ak ),
n k=1
x IR
(10.3)
n
1X
U (x xi ),
n i=1
x IR.
(10.4)
10.1.1
Test di Kolmogorov-Smirnov
Questo test si applica quando la funzione F (x) `e continua, e per verificare lipotesi
nulla (10.1) usa la statistica:
Dn =
sup
<x<
(10.5)
n dn ,
(10.6)
281
(1)j e2j
2 2
=1
j=
sup
<x<
n
X
U (z zi ).
i=1
Nei punti di discontinuit`a zi essa vale: Fn+ (zi ) = 0.05 i, e il suo limite sinistro per
z zi vale invece Fn (zi ) = 0.05 (i 1). E perci`o immediato ricavare le differenze
Fn+ (zi ) F (zi ) e Fn (zi ) F (zi ) che sono riportate nelle ultime due colonne.
Poich`e la distanza tra Fn (z) e F (z) per ogni z 6= zi `e minore di quelle ora determinate
nei punti di discontinuit`a di Fn (z), si ricava che il valore empirico della statistica
(10.5) vale dn = 0.1551, perche `e il massimo valore assoluto delle differenze calcolate.
La Tabella della distribuzione Dn in Appendice mostra, alla riga n = 20, che il
quantile d1 vale 0.2315 per = 0.20 e aumenta al descescere di . Dunque, per
= 0.20 la regione critica del test `e C = (0.2315, 1] ed ha ampiezza minore se si
assumono livelli di significativit`a minori. Poiche il dato empirico non appartiene
a questi intervalli si conclude, con un rischio di prima specie inferiore o uguale ad
= 0.20, che i valori generati hanno effettivamente una distribuzione normale con
media 2 e varianza 1.
282
xi
zi
F(zi )
1
2
3
4
5
0,36
0,82
0,86
1,04
1,06
-1,64
-1,18
-1,14
-0,96
-0,94
0,0505
0,1190
0,1271
0,1685
0,1736
-0,0005
-0,0190
0,0229
0,0315
0,0764
-0,0505
-0,0690
-0,0271
-0,0185
0,0264
6
7
8
9
10
1,12
1,14
1,44
1,47
1,78
-0,88
-0,86
-0,56
-0,53
-0,22
0,1894
0,1949
0,2877
0,2981
0,4129
0,1106
0,1551
0,1123
0,1519
0,0871
0,0606
0,1051
0,0623
0,1019
0,0371
11
12
13
14
15
1,80
1,90
2,29
2,67
2,73
-0,20
-0,10
0,29
0,67
0,73
0,4207
0,4602
0,6141
0,7486
0,7673
0,1293
0,1398
0,0359
-0,0486
-0,0173
0,0793
0,0898
-0,0141
-0,0986
-0,0673
16
17
18
19
20
2,75
3,11
3,18
3,24
3,56
0,75
1,11
1,18
1,24
1,56
0,7734
0,8665
0,8810
0,8925
0,9406
0,0266
-0,0165
0,0190
0,0575
0,0594
-0,0234
-0,0665
-0,0310
0,0075
0,0094
10.1.2
Test Chi-quadrato
Si tratta di un criterio di verifica di ipotesi del tipo (10.1) e (10.1) che `e ampiamente
usato perche, a differenza del test di Kolmogorov-Smirnov, si applica a qualsiasi tipo
di distribuzione, anche non continua, e si avvale di una statistica che si pu`o calcolare
pi`
u facilmente dellestremo superiore Dn definito nella (10.5).
Per applicare il test Chi-quadrato `e necessario suddividere il supporto della distribuzione F (x) da testare in m intervalli o classi k = [ak , bk ), e per ogni classe valutare
le seguenti quantit`a:
1. la frequenza (assoluta) nk delle osservazioni desunte da un campione di numerosit`a n, che appartengono allintervallo [ak , bk );
2. la probabilit`a teorica p0k = IP(X k | H0 ) che il carattere X con distribuzione
(ipotetica) F (x) abbia valori in k , nellipotesi che H0 sia vera.
Se si dispone di una espressione analitica della funzione di distribuzione teorica,
ciascuna probabilit`a p0k non `e altro che la differenza p0k = F (ak+1 )F (ak ). Tuttavia,
283
il test `e applicabile anche quando il modello statistico che vogliamo verificare non `e
riconducibile alle usuali leggi probabilistiche richiamate nel 7.1.
Lipotesi nulla `e qui individuata completamente dallinsieme m-dimensionale p0 =
{p01 , . . . , p0m } delle probabilit`
a teoriche relative alle m classi, le quali sono soggette
P
allunica condizione: k p0k = 1 imposta dagli assiomi della Probabilit`a.
Con le quantit`a sopra definite, costruiamo la statistica
Tn =
m
X
(nk np0k )2
k=1
(10.7)
np0k
m
X
n2k
np0k
k=1
m
X
nk + n
k=1
m
X
k=1
p0k =
m
X
n2k
np0k
k=1
n,
(10.70 )
(10.9)
284
poste su n e nk occorre disporre di un numero sufficientemente elevato di osservazioni campionarie, le quali devono essare significative per tutte le classi prese in
considerazione.
Per contro, tra i suoi vantaggi merita sottolineare:
la sua universalit`a: come gi`a accennato, si pu`o applicare anche a distribuzioni
discrete, multidimensionali, o non espresse analiticamente da una assegnata
funzione F (x).
Il test si pu`o effettuare anche per verificare ipotesi sulle propriet`a di un generico
esperimento casuale, cui si pu`o associare uno spazio campione costituito da
m eventi incompatibili A1 , . . . , Am . Allo scopo, basta valutare le frequenze
osservate nk e quelle teoriche p0k con cui gli m eventi Ak si realizzano.
Il test Chi-quadrato `e consistente, in senso affine alla definizione gi`a usata nel
6.1 per uno stimatore. Infatti, definito linsieme p 6= p0 delle probabilit`a
teoriche
p = {p1 , . . . , pm },
k = 1, . . . , m : pk = IP(X k |H1 )
sotto lipotesi alternativa che sia vera H1 , si dimostra che per ogni F H1 la
potenza Wn (p) del test tende ad 1 per n che tende ad infinito.
u generale in cui lipotesi nulla `e composta come in (10.1), a dif Nel caso pi`
ferenza del test di Kolmogorov-Smirnov non `e difficile definire una appropriata
regione critica. Vale infatti il seguente ulteriore risultato.
285
np0k ()
k=1
che diventa una funzione dei soli dati campionari, e pu`o essere determinata per ogni
realizzazione del campione X.
ricordiamo (cfr. 8.1.2) che se r = 1 e `e il valor medio di F , la
Per determinare ,
sua stima di massima verosimiglianza coincide con la media campionaria n . Nel caso
generale di un insieme di r parametri incogniti da determinare sperimentalmente, si
dimostra che la stima di massima verosimiglianza di = {1 , . . . , r } `e la soluzione
rispetto a (se esiste) del sistema:
m
X
nk
0 ()
p
k=1 k
j = 1, . . . , r :
p0k ()
= 0.
j
(10.11)
TABELLA 10.2
[a k , b k )
nk
p0k
n k2
200 p k0
[0,1)
52
0,3297
41,00698
[1,3)
81
0,3691
88,87835
[3,6)
46
0,2105
50,26128
21
0,0907
42,31091
[6, +
tende
Nel 1924 Fisher ha dimostrato che quando n la distribuzione di Tn ()
alla legge Chi-quadrato con (m 1 r) gradi di libert`a, dove r `e il numero dei
parametri incogniti di F (x, ).
Ne segue che la regione di rifiuto dellipotesi nulla composta (10.1) `e ancora lintervallo (10.8) in cui per`o 1 `e il quantile della Chi-quadrato con (m 1 r) gradi
di libert`a, e la regola del test per ipotesi composte si modifica come segue.
. Siano nk le frequenze osservate in un campione di numerosit`
a n, tali da soddisfare
le condizioni n 50; nk 5 k = 1, . . . , m. Al livello di significativit`a , se il
286
NellEsempio 9.9 del Capitolo precedente `e stato proposto un test sulle medie degli
intervalli di tempo tra due controlli di manutenzione di unapparecchiatura di bordo.
Vediamo ora se le n = 200 osservazioni campionarie gi`a utilizzate sono compatibili
con lipotesi che il tempo X() intercorso tra due successivi controlli abbia una
distribuzione esponenziale con valor medio X = 1/ = 2.5 mesi. Lipotesi nulla `e
H0 :
2
FX (x) = 1 exp x ,
5
x IR+
e per verificarla applicando il test Chi-quadrato occorre suddividere IR+ in m opportuni intervalli, ad esempio:
IR+ = [0, 1) [1, 3) [3, 6) [6, +).
Supponiamo che dalla serie ordinata dei 200 dati campionari si ricavi per ciascuno
dei 4 intervalli le frequenze assolute nk riportate nella terza colonna della Tabella
10.2.
Se H0 `e vera, le probabilit`a teoriche per ciascuna classe, riportate nella quarta
colonna, valgono:
k = 1, . . . , 4 :
p0k
2
2
= F (ak+1 ) F (ak ) = exp ak exp ak+1
5
5
Calcoliamo ora il valore empirico della statistica Tn definita nella (10.7), sommando
le quantit`a n2k /200p0k riportate nellultima colonna, e sottraendo n = 200. Si ottiene:
tn = 4.45752.
Scelto un livello di significativit`a = 0.01, la Tabella dei quantili della distribuzione
Chi-quadrato mostra che la regione di rifiuto di H0 `e lintervallo:
C = (6.25, +).
Poiche tn non vi appartiene, concludiamo che al livello = 0.01 o inferiori lipotesi
di una distribuzione esponenziale con media 2.5 mesi `e consistente con le osservazioni
del campione.
Supponiamo invece di non assegnare il parametro della distribuzione teorica esponenziale con cui intendiamo esprimere le propriet`a della variabile X(). In tal caso,
lipotesi nulla `e composta:
H0 :
(10.12)
Per valutare si assume la sua stima di massima verosimiglianza, che coincide con
il reciproco della media campionaria gi`a utilizzata nellEsempio 9.9:
1
1
=
=
.
n
3.4
287
Ne segue che se lipotesi nulla `e vera, le probabilit`a teoriche da calcolare son ora:
= exp
p0k ()
ak
3.4
exp
ak+1
3.4
e per k = 1, . . . , 4 valgono:
= 0.2548,
p01 ()
= 0.3314,
p02 ()
= 0.2426,
p03 ()
= 0.1712.
p04 ()
(Si noti che la loro somma `e sempre uguale ad 1, probabilit`a dellevento certo).
1
Fk
1 )
F(x, q = 3,4
1
l = 2,5
10
5 6
15
Figura 10.1
288
Con quale livello di significativit`a si pu`o affermare che quella roulette non `e truccata
?
Gli eventi da considerare sono tre:
A1 = {esce il rosso},
A2 = {esce il nero},
A3 = {esce lo zero},
e assumendo come ipotesi nulla che luscita di uno tra i 37 numeri, compreso lo zero,
sia equiprobabile (ovvero che la roulette non sia truccata), le probabilit`a teoriche
dei tre eventi sono:
18
18
1
p01 = IP(A1 ) = ,
p02 = IP(A2 ) = ,
p03 = IP(A3 ) = .
37
37
37
Le frequenze osservate dei tre eventi sono:
n1 = 4.828,
n2 = 4.921,
n3 = 251
2, 31 1, 39
= 0, 6667.
2, 77 1, 39
Dunque, al livello di significativit`a = 10, 6667 = 0, 3333 la regione critica del test
`e C = (2.31, +), e non contiene il valore empirico tn = 2, 301. Si pu`o concludere
che la roulette non `e truccata al livello di significativit`a 0, 333, ovvero con circa il
33% di probabilit`a di rigettare lipotesi nulla mentre essa `e vera. /
Esempio 10.4: test Chi-quadrato per il modello di Poisson
X
k=m1
e k1
,
(k 1)!
f (k, ) = e
k = 1, 2, . . . , m 1
k
.
k!
k=m1
(10.13)
289
TABELLA 10.3
numero
contravvenzioni
xi
nk
p 0 (m n )
n k - 104p 0( m n )
0
1
2
3
4
5
6
7
8
9
10 o piu'
1
2
3
4
5
6
7
8
9
10
11
5
5
8
15
17
16
13
9
5
6
5
0,0083
0,0396
0,0949
0,1518
0,1821
0,1747
0,1397
0,0958
0,0574
0,0306
0,0251
4,1368
0,8816
-1,8696
-0,7872
-1,9384
-2,1688
-1,5288
-0,9632
-0,9696
2,8176
2,3896
Poiche il parametro della distribuzione di Poisson coincide con il suo valore atteso,
la sua stima di massima verosimiglianza `e uguale alla media campionaria: = n ,
per cui nella statistica (10.10) si devono inserire le probabilit`a
=
p0k ()
en k1
n
,
(k 1)!
= en
p0m ()
k = 1, 2, . . . , m 1
m1
X
kn
=1
pk ().
k!
k=m1
k=1
(10.14)
11
1 X
(k 1)nk = 4, 798 .
104 k=1
(10.15)
Per tale valore di le probabilit`a teoriche, nellipotesi che H0 sia vera, sono quelle
indicate nella quarta colonna. Nellultima colonna sono infine mostrati i corrispon-
290
denti valori delle differenze nk np0k (4, 798). Da questi si ricava il valore empirico
tn = 26, 14655 della statistica (10.10).
Se si assume un ragionevole livello di significativit`a: = 0.10, il quantile 0.9 della
distribuzione Chi-quadrato con 9 gradi di libert`a mostra che la regione di rifiuto
del test `e C = (14.7, +) e contiene tn . Dunque, al livello = 0.10 si conclude
che lipotesi di una distribuzione di Poisson del numero di contravvenzioni non `e
consistente con le risultanze dei verbali esaminati. /
Esempio 10.5: test Chi-quadrato per il modello normale
k = 2, . . . , m 1 :
bm = +
1
=
22
Z bk
ak
"
(x 1 )2
exp
dx,
22
k = 1, . . . , m
(10.16)
"
=
=
bk
(x 1 )2
1
(x 1 ) exp
dx
22
2 22 ak
#
"
Z bk
1
p0k ()
(x 1 )2
2
dx
.
(x
)
exp
2
22
22
222 22 ak
m
X
bk
nk
1
(x 1 )2
(x
)
exp
dx = 0
1
22
p0 () 3/2 2 ak
k=1 k
2
(
"
#
)
Z bk
m
X
nk
1
(x 1 )2
2
0
(x 1 ) exp
dx 2 pk () = 0.
22
p0 ()
22 ak
k=1 k
P
k
1 =
(x 1 )2
x exp
dx
22
m
ak
1X
nk Z
bk
n k=1
ak
"
"
(x 1 )2
exp
dx
22
2 =
m
1X
nk
n k=1
ak
291
"
(x 1 )2
dx
(x 1 ) exp
22
2
Z bk
ak
"
(x 1 )2
exp
dx
22
(10.17)
m
1X
2 '
nk (xk 1 )2
n k=1
(10.18)
TABELLA 10.4
1
2
3
4
5
6
7
8
9
10
11
12
13
Dk
(- , -0.5)
[-0.5, 0.5)
[0.5, 1.5)
[1.5, 2.5)
[2.5, 3.5)
[3.5, 4.5)
[4.5, 5.5)
[5.5, 6.5)
[6.5, 7.5)
[7.5, 8.5)
[8.5, 9.5)
[9.5, 10.5)
[10.5, + )
xk
nk
zk
erf( z k )
p0
n k - n p 0k
-0,5
0
1
2
3
4
5
6
7
8
9
10
10,5
0
5
5
8
15
17
16
13
9
5
6
5
0
-2,0955
-1,7000
-1,3000
-0.9090
-0,5134
-0,1178
0,2776
0,6732
1,0680
1,4640
1,8590
2,2550
-0,5000
-0,4820
-0,4554
-0,4032
-0,3186
-0,1950
-0,0470
0,1103
0,2486
0,3577
0,4280
0,4686
0,4878
0,0180
0,0266
0,0522
0,0846
0,1236
0,1480
0,1573
0,1383
0,1091
0,0703
0,0406
0,0192
0,0122
1,8700
2,2335
0,4288
0,7984
2,1455
1,6080
0,3591
1,3832
2,3464
2,3112
1,7776
3,0033
1,2688
Valutando quindi il parametro incognito bidimensionale con le stime (10.18), `e possibile determinare il valore empirico tn della statistica Tn definita con la (10.10).
Se H0 `e vera ed n `e sufficientemente grande, la distribuzione di Tn ha legge Chiquadrato con m 3 gradi di libert`a. Lipotesi di una legge normale per il carattere
X `e allora da accettare, al livello di significativit`a , se tn `e minore del quantile
1 della distribuzione Chi-quadrato con m 3 gradi di libert`a.
. Per sviluppare un caso numerico concreto, supponiamo ora che le 104 osservazioni
con frequenze nk riportate nella Tabella 10.3 dellEsempio precedente siano state
estratte da un carattere X definito con continuit`
a su IR, e che con esse si voglia
verificare se X `e normalmente distribuito.
292
Usando queste stime, si calcolano le probabilit`a teoriche che per la (10.16) valgono:
p0k (1 , 2 ) = erf
b 1
k
q
erf
a 1
k
q
10.2
Test di omogeneit`
a
Siano X e Y due campioni estratti dalla medesima popolazione in modo indipendente, per esempio in tempi diversi o in condizioni generali diverse. Uno dei problemi
pi`
u importanti nella Statistica applicata consiste nel verificare se X e Y sono campioni omogenei, nel senso che si possono considerare estratti da una popolazione
con propriet`a identiche oppure se, al contrario, la sua distribuzione `e variata da
campione a campione. Problemi di questa natura si incontrano, ad esempio, nel
controllo di qualit`a della produzione, in medicina, nella pianificazione dellassetto
del territorio e nelle Scienze economiche.
Nella sua formulazione generale, si indicano con FX (t) e FY (t) le funzioni di distribuzione (incognite) della popolazione da cui sono stati estratti i due campioni, e
si effettua un test assumendo le ipotesi:
H0 :
H1 :
FX (t) = FY (t)
FX (t) 6= FY (t)
t IR
per almeno un t IR.
(10.19)
293
10.2.1
|sn | <
n n0
z1 .
2
(10.21)
E bene osservare che per la verifica dellipotesi nulla questo test si avvale di una
condizione piuttosto debole, ossia che la distribuzione di Sn abbia mediana nulla.
Questa `e certamente una condizione necessaria perche H0 sia vera, ma non certo
sufficiente per affermare che i due campioni provengono da popolazioni ugualmente
distribuite per ogni z IR. In questo senso, il test non sfrutta in modo efficiente
le informazioni fornite dal campione, e deve essere utilizzato per la sua praticit`a
soltanto nella fase preliminare di uno studio statistico che potr`a avere bisogno di
approfondimenti.
Esempio 10.6
294
n = 6,
n0 = 1,
sn = 2.
0.4
f Y (t)
0.2
f (t)
X
0
-5
-4
-3
-2
-1
X e Y.
|sn | <
15 1
1.96 = 5.1856.
2
295
popolazione normale con media 0.8 e varianza 1, mentre Y `e stato estratto da una
popolazione con legge parabolica (cfr. 2.3.11) nellintervallo [1, 3]. Dal confronto
tra le due densit`a teoriche fX (t) e fY (t), mostrato in Fig. 10.2, risulta evidente
la diversit`a, soprattutto qualitativa, tra le due distribuzioni. Si pu`o per`o anche
sostenere che esse grossolanamente si somigliano, nel senso che concentrano gran
parte delle masse di probabilit`a nello stesso intervallo dellasse reale: e questo `e, in
definitiva, il responso che `e in grado di fornire il test che abbiamo appena effettuato.
10.2.2
Esiste una classe speciale di test, che sono stati proposti per effettuare la statistica su
uno o pi`
u caratteri qualitativi della popolazione, che sono definibili in termini di una
qualche relazione tra le osservazioni effettuate anziche dal loro valore numerico. Essi
prendono il nome di test dei ranghi, perche le osservazioni sono ordinate secondo un
determinato criterio di preferenza, e la posizione che ciascun dato assume in questa
sequenza `e chiamata rango della osservazione.
Un test sui ranghi pu`o avere per oggetto, come caso particolare, anche campioni
di caratteri quantitativi, e quello elaborato da Wilcoxon per verificare lipotesi di
omogeneit`a (10.19) pur essendo semplice come quello dei segni, ha il vantaggio,
rispetto a questultimo, di essere applicabile a campioni con differente numerosit`
a.
Siano X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) due campioni indipendenti di numerosit`a n ed m, estratti con le solite modalit`a da una popolazione. Si procede
ordinando in ununica sequenza crescente gli n + m dati provenienti dai due campioni, e si associa a ciascun dato il suo rango, definito dal numero dordine che esso
occupa nella sequenza cos ordinata. Se alcuni dati si ripetono due o pi`
u volte, il loro
rango `e la media delle posizioni da essi occupate nella sequenza ordinata. Chiamate
rispettivamente con SX ed SY le somme dei ranghi degli elementi Xi , Yj dei due
campioni, si considera quindi la statistica
U = min{UX , UY }
(10.23)
in cui
n(n + 1)
m(m + 1)
SX ,
UY = nm +
SY .
2
2
E stato dimostrato da Wilcoxon che se lipotesi nulla (10.19) `e vera, per n, m
+ la statistica (10.23) tende alla distribuzione normale con media U = nm/2 e
varianza U2 = nm(n + m + 1)/12. Questa sua propriet`a asintotica pu`o gi`a essere
utilizzata se n, m 4 con n + m 20, e sotto queste condizioni fornisce una buona
approssimazione della regione critica per un test bidirezionale sulla corrispondente
statistica normalizzata:
UX = nm +
U nm/2
nm(n + m + 1)/12
Zn,m = p
(10.230 )
che sotto lipotesi H0 vera deve avere media pressoche nulla. Infatti, se z1 `e il
coefficiente fiduciario al livello della distribuzione Normale standard, la regione
296
Per illustrare una applicazione del test dei ranghi utilizziamo ancora le osservazioni
ricavate dai campioni (10.22) dellEsempio precedente, ma per sfruttare larbitrariet`a
sulla scelta del numero di osservazioni che possono essere fornite dai due campioni,
supponiamo ora che X contenga questi 5 ulteriori dati:
0.92, 1.2, 0.566, 0.422, 0.962
in modo che la numerosit`a del campione X diventa n = 20, e quella di Y rimane
m = 15.
Disponiamo i 35 dati campionari in una sequenza ordinata crescente, che `e riprodotta
nella Tabella 10.5 insieme con la indicazione del campione da cui i dati provengono
e del rango da attribuire a ciascun dato. La somma dei ranghi delle osservazioni
fornite dai due campioni `e rispettivamente SX = 361.5 e SY = 268.5 (si noti che
deve risultare: SX + SY = nm), da cui si ottiene: UX = 148.5 e UY = 151.5.
TABELLA 10.5
dato
campione rango
dato
campione rango
dato
campione rango
-0,5730
0,4507
13
1,1060
25
-0,5187
0,5660
14
1,1480
26
-0,3928
0,5954
15
1,2000
27
-0,2092
0,5972
16
1,2420
28
-0,1413
0,8863
17
1,4590
29
-0,0836
0,8939
18
1,7130
30
0,1714
0,9200
19
1,9210
31
0,2084
0,9272
20
1,9520
32
0,2178
0,9620
21
2,0800
33
0,2730
10
0,9974
22
2,5400
34
0,3239
11
1,0740
23,5
2,6200
35
0,4220
12
1,0740
23,5
Se H0 `e vera, la distribuzione della statistica U definita con la (10.23) `e approssimabile con una Normale con media U = nm/2 = 150 e varianza U2 = 900; il suo valore
empirico risulta: min{UX , UY } = 148.5, e ad esso corrisponde un valore empirico
zn,m =
148.5 150
= 0.05
30
297
Al livello di significativit`a = 0.05, il valore assoluto di zn,m `e minore del coefficiente fiduciario z1 z0.95 = 1.645 e di conseguenza, tenuto anche conto che la
numerosit`a dei due campioni `e maggiore di 4 con n + m > 20, il test dei ranghi si
conclude nellaccettare lipotesi nulla H0 : FX (t) = FY (t).
10.2.3
Test di Smirnov
E una estensione del test di Kolmogorov-Smirnov, esposto nel 10.1.1, per la verifica di ipotesi di omogeneit`a del tipo (10.19) riguardanti una coppia di funzioni di
distribuzione continue FX (t) e FY (t).
Questo test si basa sulla statistica
Dn,m =
sup
<t<+
(10.24)
dove Fn,X (t) e Fm,Y (t) sono le funzioni di distribuzione empiriche (10.4) costruite
con due campioni X, Y rispettivamente di numerosit`
a n ed m.
1.00
n,X
(t)
0.75
m,Y
(t)
0.50
n,X
0.25
(t) F
m,Y
(t)
0
-1
-0.25
Figura 10.3 - Distribuzioni empiriche di
X, Y e loro differenza.
Al crescere di n, m queste due distribuzioni empiriche sono stime ottime delle corrispondenti funzioni di distribuzione teoriche FX (t), FY (t) delle popolazioni da cui
sono estratti i due campioni. Se lipotesi nulla (10.19) `e vera, ne segue che per n ed
m sono sufficientemente grandi la statistica Dn,m non si scosta praticamente da zero,
ed H0 `e da accettare se il valore empirico dn,m della statistica (10.24) non supera
un certo valore limite, prescritto dal livello di significativit`a scelto.
Questo valore limite `e fornito da una propriet`a asintotica di Dn,m analoga a quella
della statistica (10.5), e dimostrata da un Teorema dovuto a Smirnov. Da esso
si deduce la regola seguente: indipendentemente dalla forma delle funzioni di distribuzione (continue) da confrontare, lipotesi H0 di omogeneit`a `e da accettare al
298
35
1.3581 = 0.46388.
300
La condizione (10.25) `e dunque soddisfatta, per cui anche con questo test lipotesi
nulla sulla omogeneit`a dei due campioni `e da accettare al livello prescritto.
10.2.4
Questo metodo `e assai generale, perche si pu`o usare per verificare lomogeneit`a di un
numero finito qualsiasi M di campioni, estratti da una popolazione il cui carattere
X pu`o assumere valori reali sia discreti che continui.
Se X() `e una variabile aleatoria discreta, indichiamo con xk , k = 1, . . . , m i suoi m
valori che possono essere registrati nelle osservazioni campionarie; se X() `e continua
e il numero delle osservazioni `e molto elevato, suddividiamo come di consueto in m
classi k linsieme IR delle sue modalit`a, e chiamiamo con k-esima realizzazione
di X() la generica osservazione campionaria che cade nella classe k .
Supponiamo ora di avere a disposizione un numero M di campioni Xj , j = 1, . . . , M
estratti con procedure statisticamente indipendenti dalla medesima popolazione, ciascuno con numerosit`a differente, che indichiamo con nj . Analizzando questi campioni, determiniamo la frequenza assoluta nkj della k-esima realizzazione nel j-esimo
campione, in modo che, sommando su tutte le osservazioni di ogni singolo campione,
si avr`a tra laltro:
m
X
j = 1, . . . , N :
nkj = nj = numerosit`
a del campione Xj ,
k=1
nkj =
M
X
j=1
299
Poich`e si vuole verificare lipotesi H0 che tutte le osservazioni siano state tratte dalla
medesima popolazione, questa ipotesi si precisa ora imponendo che
j = 1, . . . , M :
1
(n1j , . . . , nmj ) = (p01 , . . . , p0m ) = p0 ,
nj
ossia che le frequenze relative di ogni k-esima realizzazione siano uguali in tutti i
campioni, e definite da un valore comune (ma per ora incognito) p0k il quale forma
un insieme di probabilit`a p0 tale che p01 + . . . + p0m = 1.
Seguendo il metodo Chi-quadrato, come misura delle deviazioni esistenti tra le osservazioni campionarie e i loro valori teorici assumiamo la seguente statistica:
TN (p0 ) =
M X
m
X
(nkj nj p0k )2
nj p0k
j=1 k=1
(10.26)
p0k =
M
nk
1 X
=
nkj
N
N j=1
dove nk `e il numero totale delle osservazioni del dato xk che risultano negli M
campioni. Usando queste stime si pu`o ora calcolare la statistica
TN (
p0 ) = N
M X
m
X
(nkj nj nk /N )2
j=1 k=1
nj nk
=N
M X
m n2
X
kj
n n
j=1 k=1 j k
(10.260 )
e verificare se il suo valore empirico tN cade nella regione critica del test.
Questa regione critica `e ancora definita dalla (10.8), ma con 1 che ora `e il quantile
di ordine (1) della distribuzione Chi-quadrato con (m1)(M 1) gradi di libert`a,
e la regola di accettazione dellipotesi nulla sulla omogeneit`a dei campioni consiste
nel verificare che la statistica (10.25) soddisfi la condizione:
tN < 1
(10.27)
300
nj p0 ()
j=1 k=1
In tal caso, per accettare lipotesi nulla `e richiesto che il valore empirico della (10.27)
sia minore del quantile della distribuzione Chi-quadrato con (m 1)M r gradi di
libert`a, dove r `e il numero dei parametri incogniti nella distribuzione teorica.
Un caso speciale di notevole rilevanza per le applicazioni sia ha quando m = 2,
ed `e relativo a problemi in cui il carattere della popolazione ha due sole modalit`a
(vero/falso, in/out,...) rappresentabili, in generale, da due eventi A e B = \A
incompatibili ed esaustivi dello spazio campione . Lipotesi nulla sulla omogeneit`a
di M campioni estratti da questa popolazione consiste in tal caso nella affermazione
(da verificare) che levento A abbia la medesima probabilit`a di realizzarsi in tutti
gli M campioni. Indichiamo per semplicit`a di scrittura con pA questa probabilit`a
teorica. Se H0 `e vera, la sua stima si effettua calcolando la frequenza relativa
dellevento A nellinsieme degli N dati forniti da tutti i campioni, e vale
M
1 X
nA
pA =
nAj =
N j=1
N
dove abbiamo indicato con nAj il numero di realizzazioni da A nel j-esimo campione,
e con nA il numero totale di realizzazioni da A. La probabilit`a teorica dellevento B
sar`a di conseguenza
nA
pB = 1 pA = 1
,
N
mentre, per gli assiomi della probabilit`a, il numero nBj di realizzazioni di B nei
singoli campioni sar`a tale che
nAj + nBj = nj ,
j = 1, . . . , M ;
nA + nB =
M
X
j=1
nAj +
M
X
j=1
nBj =
M
X
nj = N.
j=1
Inserendo allora p01 = pA e p02 = pB nella (10.26), dopo alcuni calcoli si ricava una
espressione assai comoda della statistica da usare in questo speciale problema. Essa
si pu`o scrivere:
TN (nA ) =
M n2
N
N X
Aj
nA
N nA nA j=1 nj
(10.29)
e per calcolare il suo valore empirico occorre semplicemente inserirvi il numero delle
realizzioni di A rilevate nei singoli campioni. Per la condizione (10.27), lipotesi sulla
omogeneit`a dei campioni sar`a da accettare se questo valore empirico `e minore del
quantile della distribuzione Chi-quadrato con M 1 gradi di libert`a.
Esempio 10.9
301
n2 = 113,
n3 = 93,
n4 = 147.
(10.300 )
Indicato con A levento: produzione di un esemplare difettoso, si rilevano le frequenze assolute nAj , j = 1, . . . , 4 degli elementi difettosi in ciascun campione. Esse
sono:
nA1 = 7,
nA2 = 13,
nA3 = 5,
nA4 = 15.
(10.30)
Si vuole effettuare un test di omogeneit`a sui campioni, per verificare se `e variata in
modo apprezzabile la probabilit`a di produzione di oggetti difettosi.
302
TABELLA 10.6
k
n k1
n k2
n k3
n k4
nk
p0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
3
11
7
9
14
9
0
6
5
2
0
4
3
1
3
2
0
1
0
0
0
2
7
15
11
9
17
5
16
8
4
2
6
5
4
3
0
6
0
2
1
1
9
15
14
21
15
21
9
0
10
8
7
5
6
5
4
0
2
0
3
1
2
4
8
12
5
0
9
6
0
14
8
0
12
15
14
10
7
6
4
5
3
2
18
41
48
46
38
56
20
22
37
22
9
27
29
24
20
9
14
5
10
5
6
0,0356
0,0810
0,0949
0,0909
0,0751
0,1107
0,0395
0,0435
0,0731
0,0435
0,0178
0,0534
0,0573
0,0474
0,0395
0,0178
0,0277
0,0099
0,0198
0,0099
0,0119
n j=
80
125
157
144
N = 506
1,0000
Il numero totale degli oggetti difettosi osservati `e nA = 40, e il numero totale degli
oggetti osservati `e N = 492. Assumiamo lipotesi nulla H0 che la frequenza relativa
degli elementi difettosi sia inalterata: essa `e descritta da una probabilit`a teorica
pA = 40/492 = 0.0813, e da una probabilit`a di elementi non difettosi che vale
1 pA = 0.9187.
Per procedere al test Chi-quadrato di omogeneit`a `e sufficiente usare le (??), che
introdotte nella statistica (10.29) forniscono il valore empirico: t492 = 3.077. Al
livello di significativit`a = 0.10, il quantile 0.9 della distribuzione Chi-quadrato
con 1 3 = 3 gradi di libert`a vale 6.25, ed `e maggiore di t492 . Dunque, con un rischio
di prima specie del 10% si deve accettare H0 , concludendo che la percentuale di
prodotti difettosi `e rimasta invariata.
10.3
303
Test di indipendenza
10.3.1
(Y )
(Xi , Yi ) : Xi h , Yi k
(X)
nhk = nk ;
h=1
mY
X
nhk = nh ;
k=1
(Y )
k . Queste frequenze
m
mY
X X
X
nhk = n
h=1 k=1
(Y )
h = 1, . . . , mX , k = 1, . . . , mY ,
304
nhk
1
nh nk
0
0
ph pk =
nhk
n
n
n
dovrebbero essere sufficientemente piccole in valore assoluto. Seguendo il metodo
Chi-quadrato si considera perci`o la statistica
m
mY
X X
X
n2hk
(nhk nh nk /n)2
Tn (
p )=n
=n
1
nh nk
n n
h=1 k=1 h k
h=1 k=1
m
mY
X X
X
(10.31)
che per nhk sufficientemente grandi ha una distribuzione Chi-quadrato con (mX mY
1r) gradi di libert`a, dove r `e il numero dei parametri indipendenti da stimare nella
ipotesi che H0 sia vera. Gli (mX + mY ) parametri p0h , p0k appena stimati sono legati,
per il primo assioma delle probabilit`a, dalle due condizioni:
m
X
X
p0h =
h=1
mY
X
p0k = 1 ,
k=1
per cui solo r = mX +mY 2 sono indipendenti, e i gradi di libert`a della distribuzione
di Tn (p0 ) risultano: mX mY 1 (mX + mY 2) = (mX 1)(mY 1). La regola
del test `e pertanto la seguente.
. Al livello di significativit`a , lipotesi nulla (10.30) `e da rifiutare se e solo se il
valore empirico tn della statistica (10.31) soddisfa, per nhk sufficientemente grandi
(> 5 circa per ogni h, k), la condizione:
tn 1
dove 1 `e il quantile della distribuzione Chi-quadrato con (mX 1)(mY 1) gradi
di libert`a.
Esempio 10.11
Una casa automobilistica vuole verificare se il colore della carrozzeria scelto dagli
acquirenti delle proprie vetture a benzina `e statisticamente indipendente dal particolare tipo di modello acquistato.
Indichiamo con X il carattere: modello di autovettura, e suddividiamo lintera
produzione in mX = 5 classi, comprendenti nellordine i modelli del segmento
1 : utilitario;
2 : medio-basso;
3 : medio;
4 : medio-alto;
5 : alto.
2 : grigio;
3 : nero;
4 : verde;
5 : rosso;
6 : giallo e altri.
305
TABELLA 10.7
modello
blu
grigio
nero
k=1
nh
utilitario
42
55
32
26
28
190
medio-basso
58
32
40
31
33
199
medio
66
48
12
35
24
19
204
medio-alto
32
52
21
10
131
alto
12
21
11
64
n k=
210
208
41
134
100
95
n = 788
10.3.2
Test di Spearman
306
semplicemente i loro ranghi, ossia la posizione che ciascun dato viene ad occupare in
una delle due sequenze ordinate di tutte le osservazioni Xk e di tutte le osservazioni
Yk (cfr. anche 10.2.2).
Se indichiamo con
dk = rango(Xk ) rango(Yk ),
k = 1, . . . , n
la differenza tra i ranghi occupati dai due elementi di ciascuna coppia di osservazioni,
il coefficiente di correlazione di Spearman `e la statistica
RS = 1
n
X
6
dk ,
n(n2 1) k=1
TS = RS
n2
1 RS2
(10.32)
(10.33)
Per illustrare una semplice applicazione del test dei ranghi di Spearman riconsideriamo il campione con numerosit`a n = 10 utilizzato nellEsempio 6.3 per effettuare una
regressione quadratica del carattere Y su un carattere X della stessa popolazione.
Numerate in ordine crescente con lindice k = 1, . . . , 10 le dieci coppie di dati,
determiniamo il posto occupato da ciascun Xk nella sequenza ordinata di tutte le
osservazioni del carattere X, e operiamo nello stesso modo per ricavare il rango delle
307
TABELLA 10.8
k=
10
Xk
10
15
20
25
30
35
40
45
50
55
Yk
37
27
31
27
36
44
45
51
62
66
rango(X k )
10
rango(Y k )
1,5
1,5
10
dk
-4
0,5
2,5
Yk . Risultano i ranghi indicati nella Tabella 10.8 e le differenze dk che sono riportate
nellultima riga. Si ricava facilmente:
10
X
dk = 23.5 ;
rS = 1
k=1
tS = 0.8575
6 23.5
= 0.8575 ;
10 99
8
= 4.7157.
1 (0.8575)2
Il valore empirico tS cos calcolato `e maggiore dei quantili della distribuzione tStudent con n 2 = 8 gradi di libert`a, che sono riportati nella Tabella in Appendice.
Poich`e `e soddisfatta la condizione (10.33), il test di Spearman porta a rifiutare
lipotesi che i due caratteri siano incorrelati. Di conseguenza, si pu`o anche affermare
che lipotesi di indipendenza tra X ed Y non `e compatibile con i dati osservati.
10.4
Concludiamo la rassegna dei test non parametrici esaminando i metodi atti a verificare se i dati campionari in nostro possesso costituiscano effettivamente un insieme
di informazioni statisticamente indipendenti.
I metodi statistici esposti in questo e nei precedenti Capitoli si basano tutti sul
presupposto che i campioni di cui disponiamo siano casualmente estratti da una
popolazione che mantiene uguali le propriet`a probabilistiche dei suoi caratteri durante tutte le estrazioni effettuate per la raccolta delle osservazioni. Se un campione
`e veramente casuale, non ha alcuna importanza lordine temporale con cui `e stata
raccolta la sequenza di osservazioni campionarie.
Se per`o i dati di un campione X = (X1 , . . . , Xn ) costituiscono una sequenza temporale, e sono stati raccolti in un arco di tempo ragionevolmente esteso, pu`o esserci
motivo di ritenere che la sequenza delle osservazioni fatte non si comporti pi`
u come
308
(10.34)
E assai arduo definire in modo completo una statistica che consenta di verificare,
con un prescritto livello di significativit`a, se `e valida lipotesi (10.34). Ci si pu`o per`o
accontentare di costruire tests di facile uso, che si basano sullordine temporale in
cui ciascun elemento del campione si realizza nelle ripetute osservazioni.
10.4.1
n
X
(Xk X)(Xk+1 X)
2
nSX
k=1
(10.35)
n
X
k=1
(10.36)
309
Riguardo a questultima, si pu`o dimostrare che se il campione X `e estratto casualmente da una popolazione con distribuzione dotata di momenti finiti del primo e
X ha una distribuzione che per n tende a una Normale
secondo ordine, allora R
con valore atteso e varianza
X } =
E{R
dove:
2
X } = S2 S4
2 {R
n1
S2
,
n1
q = 2, 4.
X E{R
X }
R
,
X }
{R
(10.37)
questa dovr`a assumere valori assoluti prossimi a zero, se `e vera lipotesi H0 di casualit`a di un campione con numerosit`
a elevata (almeno n = 10 circa).
La regola di questo test sulla casualit`a del campione `e pertanto la seguente: il
campione esaminato non pu`o considerarsi casuale, al livello di significativit`a , se la
realizzazione zX della statistica normalizzata (10.37) soddisfa la condizione
|zX | > z1/2
dove z1/2 `e il quantile della distribuzione normale standard che esclude una coda
di probabilit`a /2, ossia tale che: 2erf(z1/2 ) = 1 .
Esempio 10.13
Per 15 giorni consecutivi si rileva il numero dei passeggeri di nazionalit`a italiana che
utilizzano un certo volo di linea. Ne risulta il seguente campione:
16 18
14
21
19
15
24
20
16
12
23
20
17
14
19.
165.73
= 11.8381,
14
2
X } = (165.73) 3974.62 = 1678.065.
2 {R
14
310
34.26 + 11.8381
= 0.5475,
1678.065
da confrontare con il quantile z0.975 = 1.96 della normale standard. Poiche |zX | =
0.5475 < 1.96, si deduce che zX cade nella regione di accettazione del test, e si
conclude che il campione `e effettivamente casuale.
Si osservi che lordine in cui le osservazioni si dispongono nel campione `e essenziale
in questo test. Infatti, supponiamo che gli stessi dati siano disposti nel campione
con questa diversa sequenza temporale:
18 16
14
21
19
15
12 16 20
23
24
20
17
14
19.
10.4.2
Run test
Se le modalit`a del carattere X sono soltanto due, ogni estrazione consiste nella realizzazione di uno tra due eventi dicotomici che indicheremo con A, B e il campione
che ne risulta `e una successione del tipo:
AABBAABBBABBBAAAABBB . . .
(10.38)
311
2nA nB
,
nA + nB
U2 =
2nA nB (2nA nB nA nB )
.
(nA + nB )2 (nA + nB 1)
U E{U }
.
U
(10.39)
Si controlla la qualit`a dei pezzi prodotti da una macchina, indicando con d la rilevazione di un difetto, e con n lesito favorevole del controllo. In un campione di 27
estrazioni si rilevano 10 eventi d e 17 eventi n, cos distribuiti in ordine di tempo:
n n n n n d d d d n n n n n n n n n n d d n n d d d d.
Si vuole verificare se il campione in esame `e casuale, al livello di significativit`a 0.01.
Poiche nd = 10, nn = 17, la distribuzione campionaria del numero di runs ha valore
atteso e varianza:
2 10 17
= 13.59
10 + 17
2 10 17(2 10 17 10 17)
= 5.6169.
(10 + 17)2 (10 + 17 1)
E{U } = 1 +
U2
Il numero di runs nella sequenza `e u = 6 (si noti che `e molto minore del valore
atteso), e la statistica standardizzata (10.39) ha il valore empirico zU = 3.20.
Se si assume = 0.01, la regione di accettazione del test ha come estremo superiore
il quantile della distribuzione normale standard che soddisfa: erf(z0.995 ) = (1
0.01)/2 = 0.495. Lesame della Tabella di erf(z) fornisce: z0.995 = 2.575 < |zU |,
per cui si deve rifiutare lipotesi che i dati contigui nella serie campionaria siano
incorrelati. Se ne deduce che il campione non `e casuale, perche il test porta ad
escludere che esso possa soddisfare la propriet`a (10.34).
312
Esempio 10.15
40 successive misurazioni in pollici del diametro medio dei pezzi lavorati da un tornio
automatico forniscono le seguente serie statistica di dati {xk }:
0.261
0.252
0.248
0.247
0.258
0.250
0.252
0.250
0.249
0.253
0.254
0.253
0.251
0.247
0.250
0.247
0.247
0.251
0.247
0.249
0.256
0.243
0.253
0.253
0.250
0.258
0.251
0.246
0.247
0.251
0.246
0.251
0.255
0.245
0.249
0.249
0.243
0.250
0.252
0.253.
Si vuole verificare, con un run test al livello = 0.01, lipotesi H0 che questo campione sia casuale, oppure se si debba accettare lipotesi alternativa che le osservazioni
hanno evidenti fluttuazioni periodiche, che potrebbero essere addebitate a troppo
frequenti messe a punto della macchina utensile.
Se ordiniamo per valori crescenti le osservazioni del campione, gli elementi centrali
valgono 0.250: questo `e perci`o anche il valore della mediana x della serie temporale.
Escludendo le 5 osservazioni che coincidono con x
= 0.250, i dati osservati danno
luogo, a seconda che il loro valore sia maggiore o minore della mediana, alla seguente
successione temporale di eventi A = {xk > 0.250} e B = {xk < 0.250}:
A A B A B A B A B A A B A B A A B B A A B A A B B A B A B B A B A B A.
In questa sequenza si ha: nA = 19, nB = 16, u = 27, per cui la distribuzione
campionaria dei pacchetti di eventi ha valore atteso e varianza
2 19 16
= 18.37
19 + 16
2 19 16(2 19 16 19 16)
= 8.3521
(19 + 16)2 (19 + 16 1)
E{U } = 1 +
U2
e il valore empirico di ZU `e
27 18.37
zU =
= 2.98.
8.3521
La regione di rifiuto del test `e quella gi`a determinata nellEsempio precedente:
C = (, 2.575) (2.575, +)
e poiche zU vi appartiene, si deve concludere che il campione analizzato non e casuale.
Visto che il numero di runs che esso contiene `e molto maggiore del suo valore atteso,
`e ragionevole supporre che la macchina abbia subito aggiustamenti troppo frequenti.
313
BIBLIOGRAFIA
314
APPENDICE
Tavole delle distribuzioni statistiche
Normale standard
t-Student
Poisson
Chi-quadrato
F (m, n) di Fisher
Dn di Kolmogorov-Smirnov
315
316
APPENDICE
Distribuzioni
317
318
APPENDICE
Distribuzioni
319
320
APPENDICE
Distribuzioni
321
322
APPENDICE