Sei sulla pagina 1di 166

Politecnico di Torino

Corso di laurea in Ingegneria Aerospaziale


a.a. 2002/2003

ELEMENTI DI
PROBABILITA’ E STATISTICA

a cura di
RICCARDO RIGANTI

i
ii
INDICE

CAPITOLO I - Gli assiomi della probabilità


1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1
1.2 Definizione assiomatica di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.3 Assiomi della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

CAPITOLO II - Variabili aleatorie


2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Densità di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Distribuzioni notevoli in Probabilità e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.8 Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.9 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.10 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.11 Distribuzione geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
2.3.12 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43
2.3.13 Distribuzione di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

CAPITOLO III - Problemi con più variabili casuali


3.1 Coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.2 Coppie di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.3 Coppie di v.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.1 Calcolo della funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .58
3.2.2 Calcolo diretto della densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.3 Trasformazioni invertibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.4 Momenti di Y (ω) = g[X(ω)] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.5 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

iii
CAPITOLO IV - Statistica descrittiva
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

CAPITOLO V - Distribuzioni campionarie


5.1 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 Teoria dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3 Distribuzione campionaria delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.3.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.3.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4 Distribuzione campionaria delle varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101
5.4.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.5 Distribuzione campionaria delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

CAPITOLO VI - Stime di parametri


6.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.1.1 Stima puntuale di medie e varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.1.2 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.3 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2.1 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2.1.1 Popolazione con varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2.1.2 Popolazione con varianza sconosciuta . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.2.2 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

CAPITOLO VII - Test parametrici di ipotesi statistiche


7.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.3 Test di Neyman-Pearson tra ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.4 Test parametrici con ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.4.2 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.4.3 Test di Fisher per il rapporto tra varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.4.4 Test di incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

APPENDICE - Tavole di alcune distribuzioni statistiche

iv
CAPITOLO PRIMO

GLI ASSIOMI DELLA PROBABILITA’

1.1 INTRODUZIONE

Nel Calcolo delle Probabilità si elaborano modelli matematici per la valutazione ri-
gorosa del concetto primitivo di probabilità che un esperimento casuale si concretizzi
in un determinato evento. Ma cos’è la probabilità di un evento? Ne esistono almeno
quattro definizioni principali, da cui si originano altrettante teorie matematiche, ela-
borate dalla seconda metà del XXVII secolo fino ai giorni nostri. Esse sono:

1) Definizione classica: la probabilità P (A) di un evento A è il rapporto tra il numero


NA dei casi favorevoli e il numero N dei casi possibili:

P (A) = NA /N.

E’ questa una definizione aprioristica, nel senso che P (A) è definita senza far ricorso
ad alcuna effettiva prova sperimentale. La sua applicabilità è limitata allo studio di
quel fenomeni casuali in cui si può assumere che il numero N dei casi possibili sia
finito, e che questi siano tutti, a priori, egualmente probabili.
2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare ai
fisici, di frequenza relativa di un evento: se un esperimento è ripetuto n volte, e
l’evento A si presenta nA volte, allora la sua probabilità è il limite della frequenza
relativa:
P (A) = lim nA /n
n→∞

quando il numero delle prove tende ad infinito. Questa definizione implica l’ipotesi
preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari
della definizione classica, ne restringe l’applicabilità a una classe piuttosto ristretta
di fenomeni casuali.

1
3) Definizione soggettivista, come misura di un’opinione personale: la probabilità
di un evento è il grado di fiducia che si ha nel verificarsi di esso. Per esempio:
la probabilità che in un processo giudiziario l’imputato sia giudicato colpevole è
una misura della nostra conoscenza dei fatti e della nostra abilità deduttiva. Tale
definizione si formalizza adottando lo schema tipico delle scommesse regolate da
condizioni di equità: la probabilità dell’evento è misurata dal prezzo che un individuo
ritiene equo pagare per ricevere ”1” se l’evento si realizza, e ”0” se non si verifica.
4) Definizione assiomatica, la cui formalizzazione matematica (che è quella che segui-
remo) risale ad A. N. Kolmogorov (1933). Essa consiste nell’introdurre un opportuno
insieme di assiomi, verificando a posteriori il significato fisico e la validità della teoria
matematica cosı́ precisata.

1.2 DEFINIZIONE ASSIOMATICA DI PROBABILITA’

Oggetto della teoria matematica sviluppata nel Calcolo delle probabilità è un gener-
ico esperimento casuale, la cui singola esecuzione è chiamata prova dell’esperimento.
Il risultato (o esito) della prova si indica con ω. L’insieme di tutti i possibili esiti cos-
tituisce lo spazio campione Ω associato all’esperimento casuale. Un evento A relativo
al medesimo esperimento è un certo insieme di risultati ω, ovvero un sottoinsieme
dello spazio campione Ω . Se un risultato ω ∈ A, si dice che esso realizza l’evento A.
Se l’insieme A ⊂ Ω è costituito da un solo elemento ω, allora quest’ultimo prende il
nome di evento elementare; altrimenti A è un evento composto.

1.2.1 Logica degli eventi.


Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formal-
mente rappresentare come indicato nello schema riassuntivo di Fig.1.1.
• Dati due eventi A, B ⊆ Ω, si dice che A implica B se è A ⊂ B.
• I due eventi sono incompatibili se non esiste alcun risultato ω che realizzi sia A che
B, ovvero se è A ∩ B = , dove è l’insieme vuoto.
• Al contrario, se A e B non sono incompatibili, l’insieme non vuoto (A ∩ B) è
costituito da tutti i risultati ω che realizzano sia A che B.
• L’insieme (A ∪ B) indica invece la realizzazione dell’evento A, oppure dell’evento
B, oppure di entrambi.
• Se non si realizza un evento A, allora si realizza il suo complementare in A = Ω \ A
in Ω, negazione dell’evento A. Ne segue subito che Ω è l’evento certo e è l’evento
impossibile.

1.2.2 Campo di Borel


Gli eventi Ai , 1, . . . relativi ad un determinato esperimento casuale sono sottoinsiemi
dello spazio campione Ω, sui quali effettuiamo operazioni di unione, intersezione,
differenza come indicato in Fig. 1. Al fine di attribuire a ciascun evento una misura
di probabilità, si richiede a tali eventi di soddisfare il seguente requisito fondamentale:
qualunque operazione su di essi deve essere a sua volta un evento definito in Ω.

2
Figura 1.1

Questa proprietà si formalizza dicendo che gli eventi devono costituire un campo C,
ovvero una classe additiva di insiemi Ai , non vuota e chiusa rispetto alla negazione
e all’unione. Se esiste un insieme numerabile1 di infiniti eventi Ai , questi devono
formare un campo di Borel (o σ-algebra) cosı́ definito:
Definizione 1. Un campo di Borel B è la classe costituita da una infinità numerabile
di insiemi Ai ∈ Ω, tale che:
1) Ai ∈ B ⇔ Ai = Ω\Ai ∈ B

[ ∞
\
2) Ai ∈ B ⇔ Ai ∈ B; Ai ∈ B
i=1 i=1
3) ∈ B; Ω ∈ B.
Dunque, un campo di Borel è caratterizzato dalla proprietà che qualsiasi operazione
sugli insiemi che lo formano dà luogo ad un insieme nello stesso campo, anche se gli
insiemi sono una infinità numerabile.
1
Ricordiamo che un insieme di infiniti elementi è numerabile se esiste una corrispondenza
uno-a-uno tra gli elementi dell’insieme e tutti gli interi positivi. Ad esempio: l’insieme IR
dei numeri reali non è numerabile; l’insieme {1, 2, 3, ..} è numerabile.

3
Esempio 1.1: lancio di un dado
Consideriamo come singola prova di un esperimento casuale il classico esempio del
lancio di un dado, che ha come risultati (eventi) possibili ω l’uscita di un numero in-
tero, compreso tra 1 e 6. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}, ovvero è costituito
da un numero finito di elementi ω, cui si attribuisce il significato di eventi elemen-
tari. Essi formano un insieme di eventi necessari e a due a due incompatibili, poiché
{i} ∩ {j} = per ogni i 6= j = 1, .., 6. Ma esistono molti altri eventi in questo espe-
rimento casuale: ad esempio, l’uscita di un numero pari, che è costituita dall’evento
E = {2, 4, 6} composto dai tre eventi elementari che lo realizzano; oppure l’uscita
di un numero ”basso” definita dall’evento E 0 = {1, 2}; ecc. Inoltre: l’intersezione
{2, 4, 6} ∩ {1, 2}, che coincide con l’evento elementare {2}, indica l’evento: ”uscita
di un numero pari e basso”. L’evento: {1, 3, 5} ∪ {5, 6} indica l’uscita di un numero
dispari, oppure di un numero maggiore di 4, oppure di un numero dispari e maggiore
di 4” (ovvero dell’intersezione dei due eventi, costituita dall’evento elementare {5}).
Il complementare dell’insieme A = {1, 2, 3, 5} composto dai numeri primi minori di
7, ovvero l’evento Ω\A = {4, 6}, indica l’uscita di un numero che non sia primo
(negazione di A).
Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di Ω ,
ed è facile verificare che il loro numero complessivo è la somma delle combinazioni di
classe k di sei elementi:
6  
X 6
= 26 = 64,
k
k=0

compresi l’insieme vuoto (per k = 0) e l’insieme Ω (per k = 6). Essi costituiscono un


campo C, perchè soddisfano tutte le condizioni di additività sopra precisate.
Se però siamo interessati solo ad alcuni eventi relativi a questo esperimento, è preferi-
bile definire una diversa classe additiva, che costituisca un campo C 0 contenente il
minor numero possibile di eventi, compresi quelli che interessano. Si può costruire
questo campo C 0 con successive operazioni di unione e negazione che, a partire dagli
insiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se
siamo interessati all’evento: ”uscita di un numero pari”, il campo C 0 da considerare
è composto dai quattro insiemi:

C0 : , {2, 4, 6}, {1, 3, 5}, Ω

che costituiscono rispettivamente: la ”negazione” {1, 3, 5} dell’evento ”numero pari”;


l’unione Ω degli eventi ”pari” e ”dispari”, e la negazione dell’evento unione Ω . C’
è un campo, perché qualsiasi operazione sugli insiemi che lo compongono dà luogo a
un insieme anch’esso contenuto in C 0 . Al contrario, la classe:

C” : , {2, 4, 6}, {1, 3, 5}, {1, 2}, Ω

non è un campo, perché {2, 4, 6} ∪ {1, 2} = {1, 2, 4, 6} 6∈ C”.

4
Esempio 1.2: misura di una grandezza
Il valore teorico di una generica grandezza fisica è espresso da un numero reale, e in
tal senso alla sua misura sperimentale associamo uno spazio campione Ω costituito
dall’asse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Per
definire una classe additiva di eventi che sia compatibile con l’esperimento della mis-
urazione, suddividiamo l’asse reale in intervalli di ampiezza assegnata (ad esempio:
gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi per
centro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possa
appartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione e
negazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Il
limite a cui tende la classe degli eventi cosı́ definiti è il campo di Borel B associato alla
misura sperimentale che effettuiamo. Si può dimostrare che tale campo di Borel si
genera anche a partire da tutti gli intervalli (−∞, x1 ] con x1 reale qualsiasi; esso con-
tiene anche tutti gli intervalli [x1 , x2 ], (x1 , x2 ), i punti x = x1 e l’infinità numerabile
delle loro unioni e intersezioni.

1.2.3 Assiomi della probabilità


Siamo ora in grado di attribuire una misura di probabilità a ciascun evento A i la cui
collezione, come si è appena visto, forma nel caso più generale un campo di Borel B.
Definizione 2. La probabilità è un funzionale P : B → [0, 1] che verifica i seguenti
assiomi:
I. P (Ω) = 1
II. i 6= j, Ai ∩ Aj = ⇐⇒ P (Ai ∪ Aj ) = P (Ai ) + P (Aj ).
La formulazione matematica del modello probabilistico è cosı́ completa: essa con-
siste nell’insieme (Ω, B, P ) chiamato spazio di probabilità, e permette di assegnare un
numero reale non negativo P (Ai ) che chiamiamo probabilità di Ai , agli eventi che
formano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione Ω
associato all’esperimento casuale.
L’assioma I attribuisce probabilità 1 all’evento certo Ω, senza tuttavia escludere a
priori che esistano altri eventi, diversi da Ω, con probabilità 1. Se è teoricamente
possibile un evento A 6= Ω tale che P (A) = 1, si dice che questo evento è quasi certo.
L’assioma II esprime la proprietà additiva del funzionale P tra due eventi fra loro
incompatibili. Tale proprietà si generalizza subito a un insieme finito o infinito di
eventi a due a due incompatibili, con una delle due relazioni seguenti:
n
! n
[ X
II 0 ) i 6= j, Ai ∩ Aj = ⇐⇒ P Ai = P (Ai )
i=1 i=1

! ∞
[ X
II”) i 6= j, Ai ∩ Aj = ⇐⇒ P ni=1 Ai = P (Ai )
i=1

l’ultima delle quali esprime la additività infinita, o σ-additività, dell’insieme {A i , i =


1, 2, . . .} di eventi a due a due incompatibili.

5
W
Ai Aj
Ai Aj

Aj
Ai

Figura 1.2

Dagli assiomi I), II) della probabilità si deducono svariate proprietà di P . Le più
significative sono le seguenti:

• C1. P (Ai ) = 1 − P (Ai )


• C2. P ( ) = 0
• C3. A i ⊂ Aj : P (Ai ) ≤ P (Aj )
• C4. ∀Ai ∈ B : 0 ≤ P (Ai ) ≤ 1
• C5. Ai ∩ Aj 6= : P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ).

La proprietà C1 si dimostra considerando che per l’assioma I si ha P (Ω) = P (A i ∪


Ai ) = 1, e poichè Ai e il suo complementare sono incompatibili, si ricava per l’assioma
II: P (Ai ) + P (Ai ) = 1.
La C2 si deduce dalla C1 perchè l’insieme vuoto è il complementare di Ω e quindi
P ( ) = 1 − P (Ω) = 0.
La C3 afferma che P è un funzionale crescente di B in [0, 1], e si dimostra applicando
l’assioma II agli eventi (incompatibili) Ai e (Aj \Ai ). Si trova: P (Aj ) = P (Ai ∪
(Aj \Ai )) = P (Ai ) + P (Aj \Ai ) e poiche’ l’insieme (Aj \Ai ) non è vuoto per ipotesi,
risulta P (Aj \Ai ) ≥ 0.
La C4 si prova osservando che se Ai ⊂ Ω non è vuoto, è anche = Ω ⊂ Ai e per la
C3 valgono entrambe le diseguaglianze: P (Ai ) ≥ P ( ) = 0 e P (Ai ) ≤ P (Ω) = 1.
La C5 è la generalizzazione dell’assioma II per eventi non incompatibili, e si dimostra
come segue. Consideriamo l’evento Ai ∪ Aj = Ai ∪ (Ai ∩ Aj ) che si può esprimere
(v. Fig. 1.2) mediante l’unione dei due eventi incompatibili Ai e (Ai ∩ Aj ). Per
l’assioma II si ha allora P (Ai ∪ Aj ) = P (Ai ) + P (Ai ∩ Aj ). Ma anche Aj è esprimibile
con l’unione: (Ai ∩ Aj ) ∪ (Ai ∪ Aj ) di due eventi incompatibili, e per esso l’assioma
II fornisce: P (Aj ) = P (Ai ∩ Aj ) + P (Ai ∩ Aj ). Eliminando P (Ai ∩ Aj ) dalle due
precedenti eguaglianze, si ricava la C5.

6
Esempio 1.3: eventi elementari equiprobabili
Si è visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a due
incompatibili, costituiscono lo spazio campione Ω =P{1, 2, 3, 4, 5, 6}. Per gli assiomi I
e II’ si ha subito: P (Ω) = P ({1}∪{2}∪. . .∪{6}) = i P {i} = 1 e se ammettiamo che
ciascun evento elementare abbia uguale probabilità di realizzarsi (ovvero se operiamo
con un dado ”non truccato”), la probabilità di ciascuno vale:

∀i = 1, .., 6 : P (i) = 1/6.

Sempre per l’assioma II’, l’evento composto: ”esce un numero pari” ha probabilità

P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2

mentre l’uscita di un ”numero che non sia primo” ha probabilità

P (4, 6) = P (4) + P (6) = 2/6 = 1/3.

Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elemen-
tari sono 62 = 36, e la probabilità che esca due volte lo stesso numero vale
X
P (11, 22, 33, 44, 55, 66) = P (ii) = 6/36 = 1/6.
i

Questo esempio esprime il seguente risultato di carattere generale:


Se lo spazio campione consiste di un numero finito N di eventi elementari equipro-
babili, la probabilità di un evento Ai composto da NA eventi elementari vale

P (Ai ) = NA /N (1.1)

e coincide con la definizione ”classica” di probabilità, ricordata nell’Introduzione.

Esempio 1.4
Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce
”testa”} e C = {esce ”croce”}. Lo spazio campione associato ad una singola prova
è Ω = {T C}; se la moneta è lanciata due volte si ha Ω = {T T, T C, CT, CC} e per
n prove ripetute Ω è formato da 2n eventi elementari equiprobabili, con probabilità
1/2n . Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci
ripetuti della moneta si ha:
P {C nel secondo di due lanci } = 1/2
P {C nei primi due di tre lanci } = 1/4
P {T in due qualsiasi di quattro lanci } = 3/8
P {T per la prima volta all’n-esimo lancio } = 1/2n .

7
Esempio 1.5: distribuzione uniforme in [0, T ]
Estendiamo al caso continuo il risultato dell’Esempio 1.3. Supponiamo che lo spazio
campione sia l’intervallo [0, T ] ∈ IR e che gli eventi Ai relativi ad un esperimento
casuale siano una infinità numerabile di intervalli in [0, T ]. Supponiamo inoltre che
si richieda di assegnare uguali probabilità ad eventi definiti da intervalli di uguale
ampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme di
probabilità in [0, T ], e determina univocamente P (Ai ). Infatti, se pensiamo di sud-
dividere Ω in n intervalli I di eguale ampiezza T /n e senza elementi comuni, per
l’assioma II’ la loro probabilità vale P (I) = 1/n. Un evento A definito dalla unione
di k intervalli I ha probabilità

k kT L(A)
P (A) = = = ,
n nT L(Ω)

uguale al rapporto tra le ampiezze L(A), L(Ω) degli intervalli A ed Ω. In particolare,


se Ω è l’intervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poiché la
misura di Lebesgue è una funzione continua degli intervalli, se ne deduce il seguente
risultato.
In una distribuzione uniforme di probabilità nell’intervallo [O, T ], la probabilità del
generico evento Ai di ampiezza L(Ai ) vale:

L(Ai )
P (Ai ) = .
T
Ne segue, tra l’altro, che ogni punto t di Ω ha probabilità nulla: P (t) = 0, ∀t ∈ [0, T ]
poiché t è un insieme di misura nulla.

1.3 PROBABILITA’ CONDIZIONATA

Assegnato un evento Aj ∈ B con probabilità non nulla, la probabilità di un altro


evento Ai ∈ B, condizionata da Aj si indica con P (Ai | Aj ) e vale:

P(Ai ∩ Aj )
P(Ai | Aj ) = . (1.2)
P(Aj )
Essa indica la probabilità che che si realizzi Ai sapendo che Aj si è verificato; oppure:
la probabilità di Ai in una prova valida solo se si verifica anche Aj . Le probabilità
condizionate soddisfano tutte le proprietà che discendono dagli assiomi I, II. In par-
ticolare:
• Se Ai ⊂ Aj , allora Ai ∩ Aj = Ai e quindi:

Ai ⊂ A j =⇒ P (Ai | Aj ) = P (Ai )/P (Aj ) > P (Ai ).

• Se Ai ⊃ Aj , allora Ai ∩ Aj = Aj e quindi:

Ai ⊃ A j =⇒ P (Ai | Aj ) = 1.

8
• Se Ai e Aj sono incompatibili, allora Ai ∩ Aj = e quindi:

Ai ∩ A j = =⇒ P (Ai | Aj ) = 0.

La definizione (1.2) si può anche scrivere:

P(Ai ∩ Aj ) = P(Aj )P(Ai | Aj ) (1.3)

e si estende al caso di n eventi A1 , .., An ∈ B nella forma seguente

P(A1 ∩ A2 ∩ ... ∩ An ) = P(A1 )P(A2 | A1 )P(A3 | A1 ∩ A2 ) · · ·

· · · P(An | A1 ∩ A2 ∩ · · · ∩ An−1 ) (1.4)


che esprime la legge delle probabilità composte, molto utile in svariate appli-
cazioni, come mostra l’esempio che segue.

Esempio 1.6: estrazione senza reimbussolamento


Da un’urna contenente 6 palline bianche e 4 nere si estrae una pallina per volta,
senza reintrodurla nell’urna. Indichiamo con Bi l’evento: ”esce una pallina bianca
alla i-esima estrazione” e con Ni l’estrazione di una pallina nera. L’evento: ”escono
due palline bianche nelle prime due estrazioni” è rappresentato dalla intersezione
{B1 ∩ B2 }, e la sua probabilità vale, per la (1.3):

P (B1 ∩ B2 ) = P (B1 )P (B2 | B1 ).

Ora, P (B1 ) vale 6/10, perché nella prima estrazione Ω è costituito da 10 elementi:
6 palline bianche e 4 nere. La probabilità condizionata P (B 2 | B1 ) vale 5/9, perchè
nella seconda estrazione se è verificato l’evento B1 lo spazio campione consiste di 5
palline bianche e 4 nere. Si ricava pertanto: P (B1 ∩ B2 ) = 1/3. In modo analogo si
ha che
P (N1 ∩ N2 ) = P (N1 )P (N2 | N1 ) = (4/10) · (3/9) = 4/30.
Se l’esperimento consiste nell’estrazione successiva di 3 palline, la probabilità che
queste siano tutte bianche vale, per la (1.4):

P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 )

dove la probabilità P (B3 | B1 ∩B2 ) si calcola supponendo che si sia verificato l’evento
condizionante {B1 ∩ B2 }. Lo spazio campione per questa probabilità condizionata
è allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 ∩ B2 ) = 1/2 e
quindi: P (B1 ∩ B2 ∩ B3 ) = (1/3) · (1/2) = 1/6. La probabilità dell’estrazione di tre
palline nere è invece:

4 3 2 1
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) = · · = .
10 9 8 30

9
1.4 EVENTI INDIPENDENTI

Due eventi Ai , Aj si dicono statisticamente indipendenti se e solo se:

P(Ai ∩ Aj ) = P(Ai )P(Aj ). (1.5)

Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un altro,


nel senso che il verificarsi di Ai non influisce sulla probabilità del verificarsi di Aj ,
ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilità condizionata,
si ha che se vale la (1.5) risulta:

P (Ai | Aj ) = P (Ai )P (Aj )/P (Aj ) = P (Ai ).

e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della proba-


bilità dell’evento Ai da esso statisticamente indipendente.
Si noti bene che il concetto di indipendenza è del tutto differente da quello di incom-
patibilità. In effetti, due eventi incompatibili (per i quali si ha A i ∩ Aj = ) sono
strettamente dipendenti statisticamente, poichè il verificarsi dell’uno esclude il veri-
ficarsi dell’altro. Per la proprietà C2 del §1.2.3, la probabilità della loro intersezione
è nulla: P (Ai ∩ Aj ) = 0 e di conseguenza, per confronto con la (1.5), due eventi
incompatibili possono essere anche statisticamente indipendenti solo nel caso banale
in cui almeno uno di essi abbia probabilità nulla, ovvero sia quasi impossibile.
Se due eventi con probabilità non nulla sono statisticamente indipendenti, la legge
delle probabilità totali espressa dalla proprietà C5 del §1.2.3 si modifica nella relazione
seguente:

P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai )P (Aj ).


La definizione di indipendenza si estende al caso di un insieme finito o infinito di
eventi Ai , i quali si dicono statisticamente indipendenti se e solo se, per qualunque
sottoinsieme {A1 , . . . , An } di n eventi, si verifica la condizione:

P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 ) · · · P (An ). (1.6)

Ciò significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti


se lo sono a due a due, e se inoltre:

P (A ∩ B ∩ C) = P (A)P (B)P (C).

Esempio 1.7
Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero
minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente
indipendenti. Infatti, le loro probabilità valgono: P (A) = P (1, 2) = 1/3; P (B) =
P (2, 4, 6) = 1/2 e la probabilità della loro intersezione vale:

P {(1, 2) ∩ (2, 4, 6)} = P (2) = 1/6 ≡ P (A)P (B).

10
Come verifica, si può osservare che la probabilità dell’evento A condizionata da B
coincide con la sua probabilità non condizionata:

P {(1, 2) ∩ (2, 4, 6)} 1/6


P {(1, 2) | (2, 4, 6)} = = = 1/3 ≡ P (1, 2)
P (2, 4, 6) 1/2

Nel lancio ripetuto di una moneta (cfr. l’Esempio 1.4) in cui lo spazio campione è
Ω = {T T, T C, CT, CC}, si considerino gli eventi composti: A1 = {T T, T C}, A2 =
{T C, CT } e A3 = {T T, CT }, ciascuno con probabilità 1/2. I tre eventi non sono
statisticamente indipendenti, anche se lo sono a due a due. Infatti:

P (A1 ∩ A2 ) = P {T C} = 1/4 = P (A1 )P (A2 )

P (A1 ∩ A3 ) = P {T T } = 1/4 = P (A1 )P (A3 )


P (A2 ∩ A3 ) = P {CT } = 1/4 = P (A2 )P (A3 ),
ma si ha anche:

P (A1 ∩ A2 ∩ A3 ) = P ( ) = 0 6= P (A1 )P (A2 )P (A3 )


e dunque non è verificata la condizione (1.6) per n = 3.

Esempio 1.9: componenti in serie e in parallelo


Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un
circuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n componenti
con funzionamento statisticamente indipendente, che sono operativi ciascuno con
probabilità Pi , i = 1, . . . , n. Il collegamento è in serie se tutti i componenti devono
essere operativi perché lo sia il sistema; è in parallelo se è sufficiente il funzionamento
di un solo componente per rendere operativo il sistema.
Indichiamo con Ai l’evento: ”è operativo l’i-esimo componente” e con B l’evento:
”il sistema è operativo”. L’intersezione degli eventi Ai , i = 1, . . . , n indica l’evento:
”tutti i componenti sono operativi”, e l’intersezione delle loro negazioni A i = Ω\Ai
è l’evento: ”nessun componente è operativo”.
Poichè Ai sono indipendenti, le loro probabilità soddisfano la (1.6), per cui nel col-
legamento in serie si ha subito:
n
Y
P (B) = P (A1 ∩ A2 ∩ .. ∩ An ) = P (A1 )P (A2 )..P (An ) = Pi .
i=1

Nel collegamento in parallelo, P (B) è invece eguale alla probabilità che almeno un
componente sia operativo, e perció vale
n
Y
P (B) = 1 − P (A1 ∩ A2 ∩ .. ∩ An ) = 1 − (1 − Pi ).
i=1

11
W A2

A3
A1 E
A4

A5

Figura 1.3

1.5 FORMULA DI BAYES

Si abbia una sequenza finita o numerabile di eventi Ai ∈ B ⊂ Ω con probabilità non


nulle, e soddisfacente alle seguenti ipotesi:
1) i 6= j : Ai ∩ Aj =
S∞
2) i=1 Ai = Ω.
La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili;
la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova
dell’esperimento casuale si realizza uno e uno solo tra gli eventi A i (v. Fig. 1.3).
Definito un arbitrario evento E ⊂ Ω con probabilità non nulla, è chiaro per le ipotesi
fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi A i , che
in tal senso si possono considerare come possibili ”cause” dell’evento E che è stato
registrato.
La probabilità condizionata P (Ai | E), detta probabilità a posteriori, è’ quella che
attribuiamo ad Ai sapendo che si è verificato E, ed è legata alla probabilità a priori
P (Ai ) dalla seguente formula di Bayes:
P (Ai )P (E | Ai )
P (Ai | E) = P . (1.7)
j P (Aj )P (E | Aj )
Essa mostra che conoscenza del verificarsi di E modifica la probabilità che ”a priori”
siamo portati ad attribuire all’evento Ai .
Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di proba-
bilità condizionata, si ha anzitutto:

P (Ai ∩ E) P (E ∩ Ai ) P (Ai )P (E | Ai )
P (Ai | E) = = = . (1.8)
P (E) P (E) P (E)
Inoltre, per l’ipotesi 2) e tenendo conto che E ⊂ Ω, si può scrivere:
[ [
E = E ∩ Ω = E ∩ ( Aj ) = (E ∩ Aj ).
j j

12
Ma per l’ipotesi 1) anche gli eventi (E ∩Aj ) ed (E ∩Ak ), con j 6= k, sono incompatibili
a due a due. Quindi per l’assioma II” si ha:
 
[ X X
P (E) = P  (E ∩ Aj ) = P (E ∩ Aj ) = P (Aj )P (E | Aj ) (1.9)
j j j

che, sostituita nella (1.8), prova la (1.7).


La (1.9) è detta Formula delle probabilità totali, ed è assai utile in molte ap-
plicazioni perchè permette di valutare la probabilità dell’evento E se è nota la sua
probabilità condizionata dalla sequenza degli eventi Ai di cui si conoscono le proba-
bilità a priori.

Esempio 1.10: Controllo statistico della qualità


Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilità dif-
ferenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultano perfette
nel 90% dei casi; il secondo ne monta 85, perfette all’80%, e il terzo ne monta 65,
perfette nel 70% dei casi. Si vuole determinare la probabilità che un apparecchio di
buona qualità, scelto a caso, sia stato montato del terzo tecnico.
Indichiamo con E l’evento rappresentato dalla buona qualità del montaggio, e con
A1 , A2 , A3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi Ai sono
esaustivi (la loro unione è lo spazio campione dei 200 apparecchi montati) ed incom-
patibili (il montaggio da parte di un tecnico esclude quello di un altro). Le probabilità
a priori di questi tre eventi sono note:

50 85 65
P (A1 ) = = 0.25, P (A2 ) = = 0.425, P (A3 ) = = 0.325.
200 200 200
La probabilità dell’evento E nella ipotesi che l’apparecchio scelto sia stato montato
dal primo tecnico, è la probabilità condizionata: P (E | A 1 ) = 0.90 che è nota dal
collaudo; e cosı́ pure risulta: P (E | A2 ) = 0.80, P (E | A3 ) = 0.70. La probabilità da
determinare è quella relativa al montaggio effettuato dal terzo tecnico, sapendo che
è stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) e vale:

P (A3 )P (E | A3 )
P (A3 | E) = = 0.287.
P (A1 )P (E | A1 ) + P (A2 )P (E | A2 ) + P (A3 )P (E | A3 )

Esempio 1.11: trasmissione di un segnale binario


In un sistema di comunicazione digitale, un segnale binario X è trasmesso nella
forma ”0” oppure ”1”, con probabilità di trasmissione di ciascuna delle due forme
che indichiamo rispettivamente con P (X0 ) e P (X1 ). La trasmissione è affetta da
disturbi aleatori (rumore), per cui esiste una probabilità non nulla che il segnale
ricevuto, che indichiamo con Y , sia diverso da quello emesso X (v. Fig. 1.4).

13
Figura 1.4

Canale simmetrico
Supponiamo dapprima che i due eventi (esaustivi) X0 = {X = 0} e X1 = {X = 1}
si realizzino con probabilità P (X0 ) = 0.4 e P (X1 ) = 0.6; e inoltre che la probabilità
di errore nella trasmissione del segnale ”0” sia uguale alla probabilità di errore nella
trasmissione del segnale ”1”, e valga P ∗ = 0.25. Si vuole determinare le probabilità
di ricevere ”1” e di ricevere ”0”.
Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme ”0” ed”1”. Se il segnale
trasmesso è ”0” esso ha, per ipotesi, probabilità P ∗ di essere distorto in ”1”. Quindi
P (Y1 | X0 ) = P ∗ = 0.25. Se invece il segnale trasmesso è ”1”, ha probabilità
(1 − P ∗ ) di essere ricevuto inalterato: P (Y1 | X1 ) = 0.75. Applicando la (1.9) si
ricava pertanto

P (Y1 ) = P (Y1 | X0 )P (X0 ) + P (Y1 | X1 )P (X1 ) = 0.25 · 0.4 + 0.75 · 0.6 = 0.55.

La probabilià di ricezione del segnale nella forma ”0” si calcola invece come segue:

P (Y0 ) = P (Y0 | X0 )P (X0 ) + P (Y0 | X1 )P (X1 ) = 0.75 · 0.4 + 0.25 · 0.6 = 0.45

o meglio, se già si conosce P (Y1 ), come probabilità della negazione dell’evento Y1 :

P (Y0 ) = P (Ω) − P (Y1 ) = 1 − 0.55.

Canale non simmetrico


Supponiamo ora che la probabilità di trasmissione del segnale in forma non distorta
vari a seconda della forma del segnale trasmesso, e precisamente:

P (X0 non distorto) = 0.8, P (X1 non distorto) = 0.9

essendo P (X0 ) = 1/3. Si vuole determinare la probabilità P (E) che il segnale rice-
vuto sia errato. Essa si calcola applicando ancora la (1.9) e vale:
2 1
P (E) = P (Y0 | X1 )P (X1 ) + P (Y1 | X0 )P (X0 ) = 0.1 · + 0.2 · = 0.13.
3 3

14
CAPITOLO SECONDO

VARIABILI ALEATORIE

2.1 DEFINIZIONI

Il risultato di una prova di un generico esperimento casuale non è sempre esprimibile


direttamente in termini di numeri reali (si pensi per esempio al lancio di una moneta,
o all’estrazione da un’urna di palline con colori diversi). Tuttavia, nello sviluppo del
Calcolo delle probabilità siamo interessati ad associare un numero reale x = X(ω) a
qualsiasi risultato ω di ogni prova dell’esperimento casuale.
Il funzionale X : Ω → IR che cosı́ si viene a definire è chiamato variabile aleatoria o
casuale (abbreviata nel seguito con v.a. o v.c) se soddisfa a queste due condizioni:
1. X è una funzione a valori reali definita sullo spazio di probabilita’ (Ω, B, P ) e
misurabile, nel senso che le immagini inverse di intervalli Bi ⊆ IR appartengono
al campo di Borel degli eventi Ai :
X −1 (Bi ) = Ai ∈ B ;
2. per ogni numero reale x, l’insieme {ω : X(ω) ≤ x} è ancora un evento in B.

La v.a. X(ω) è dunque una funzione che fa corrispondere a ciascun risultato ω


dell’esperimento casuale un elemento x di IR, e ad ogni evento Ai ∈ B ⊆ Ω un in-
tervallo Bi ⊆ IR come è illustrato in Fig. 2.1. L’intervallo Bi appartiene a una
infinità numerabile di insiemi che costituiscono un campo di Borel B ∗ su X(Ω) ⊆ IR.
In particolare, all’evento impossibile ∈ Ω è associato l’insieme vuoto dei numeri
reali, e all’evento certo Ω è associato l’intervallo X(Ω) ⊆ IR. Inoltre, poiché il
funzionale X è definito su uno spazio di probabilità, la v.a. associa alla proba-
bilità P (Ai ) = P [X −1 (Bi )], definita su Ω, una eguale probabilità immagine P ∗ (Bi ),
definita su X(Ω). Quest’ultima misura la probabilità che la v.a. X(ω) assuma valori
reali x ∈ Bi , ed è tale che
P ∗ (Bi ) = P [X −1 (Bi )] = P (Ai ).

15
R

X x = X(w )
W w

Ai B i = X(A i )
X
P*
P

0 P(A i ) = P*(B i ) 1 R

Figura 2.1

Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il
generico valore reale che essa può assumere sarà indicato con la lettera minuscola
corrispondente. La v.a. X(ω) assume un valore x ∈ IR con una ben definita proba-
bilità, che è indotta in X(Ω) ⊆ IR dalla probabilità P (ω) che si verifichi ω ∈ Ω. In
conclusione, una variabile aleatoria è la trasformazione

X
(Ω, B, P ) −→ (IR, B ∗ , P ∗ )

che associa ad ogni elemento ω ∈ Ω una coppia di numeri reali (x, P ∗ (x)) = (X(ω),
P (ω)) con P ∗ (x) = P (ω) ∈ [0, 1].

Esempio 2.1
Nel lancio di una moneta per due volte, in cui Ω = {T T, T C, CT, CC}, definiamo la
v.a. X(ω) che a ciascuno dei 4 possibili eventi elementari associa un ”guadagno” 1
se esce T , e una ”perdita” di una unità se esce C. La v.a. X(ω) assume allora tre
valori discreti:
x1 =X(ω = CC) = −2
x2 =X(ω = T C) = X(ω = CT ) = 0
x3 =X(ω = T T ) = 2
e l’immagine di Ω è il sottoinsieme: X(Ω) = {−2, 0, 2} ⊂ R. Poiché i quattro eventi
elementari sono equiprobabili con probabilità P (ω) = 1/4, si ha che la probabilità
immagine, indotta in X(Ω) per ciascuno dei tre valori di X, vale rispettivamente:

P ∗ (−2) = P (T T ) = 1/4
P ∗ (0) = P (T C ∪ CT ) = 1/2
P ∗ (2) = P (CC) = 1/4.

16
2.1.1 Funzione di distribuzione
Per la proprietà 2 di X(ω), l’insieme {ω : X ≤ x} è un evento in B, che d’ora in
poi scriveremo più sinteticamente con (X ≤ x). Ad esso è possibile assegnare una
probabilità P (X ≤ x) = P {X −1 (−∞, x)} che al variare di x ∈ IR definisce la funzione
ordinaria di variabile reale:
FX (x) = P (X ≤ x).
Questa funzione è chiamata funzione di distribuzione (cumulata), o funzione di ri-
partizione di X(ω). Dunque, FX (x) definisce la distribuzione delle probabilità di
eventi in un esperimento casuale e, con riferimento alla v.a. X(ω) che associamo a
tale esperimento, misura la probabilità che X(ω) assuma valori minori o uguali al
reale x. Sulla base degli assiomi del Calcolo delle probabilità, è sempre non negativa,
monotona non decrescente tra 0 e 1, tale che:

lim FX (x) ≡ FX (−∞) = 0, lim FX (x) ≡ FX (+∞) = 1


x→−∞ x→+∞

ed è continua a destra:

lim FX (ξ) ≡ FX (x+ ) = FX (x).


ξ→x+

Se X(ω) assume un numero finito o una infinità numerabile di valori reali x i , i =


1, .., n,.. con probabilità Pi , allora è chiamata v.a. discreta. La sua funzione di
distribuzione, illustrata in Fig. 2.2a), è una funzione costante a tratti con punti di
discontinuità in xi :
i
X X
xi ≤ x < xi+1 : FX (x) = Pr , con Pi = 1.
r=1 i

Al contrario, se FX (x) è continua e derivabile ovunque tranne al più in un insieme


numerabile di punti, allora X(ω) è una v.a. continua, definita in un insieme continuo
X(Ω) ⊆ R come illustrato in Fig. 2.2b).
Se infine l’immagine di Ω attraverso X è un insieme continuo X(Ω) ⊆ IR, ma F X (x)
ha un insieme numerabile di punti di discontinuità, allora la v.a. si definisce di tipo
misto (v. Fig. 2.2c).
La probabilità che una v.a. X(ω) assuma valori in un intervallo (x 1 , x2 ] aperto a
sinistra, è data da:

P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ). (2.1)

Infatti si ha: (−∞, x2 ] = (−∞, x1 ] ∪ (x1 , x2 ] e poichè gli intervalli a secondo membro
rappresentano eventi incompatibili ne segue che

P (X ≤ x2 ) = FX (x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 )

17
F (x) F (x) F (x)
X X X
1 1 1

.75

.25

-2 0 2 x 0 1 x 0 .25 .75 1 x
a) v.a. discreta b) v.a. continua c) v.a. mista

Figura 2.2

da cui la (2.1). Se se però X(ω) è continua, la probabilità che assuma un valore


assegnato x1 è nulla, perchè x1 è un insieme di misura nulla (cfr. l’Esempio 1.5). Ne
segue, tenuto conto della incompatibilità degli eventi (X = x1 ) e (x1 < X ≤ x2 ), che
per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza:

P (x1 ≤ X ≤ x2 ) = P (X = x1 ) + P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ).

Esempio 2.2
La v.a. definita nell’Esempio 2.1 a proposito del lancio ripetuto di una moneta è
discreta perché può assumere solo i tre valori x1 = −2, x2 = 0, x3 = 2. La sua
funzione di distribuzione vale:
0 per x < −2


1/4 per x ∈ [−2, 0)

FX (x) = P (X ≤ x) = (2.2)
 3/4 per x ∈ [0, 2)

1 per x ≥ 2

ed il suo grafico è riportato in Fig. 2.2a). Un modo più espressivo per scrivere questa
funzione costante a tratti consiste nel far uso della funzione scalino unitario o di
Heaviside, cosı̀ definita:

∗ 1 per ogni x ≥ x∗
U (x − x ) = (2.3)
0 per ogni x < x∗ .

Con essa, la (2.2) diventa

FX (x) = 14 U (x + 2) + 12 U (x) + 14 U (x − 2) (2.20 )

ed ha il vantaggio di mostrare sia i punti di discontinuità di F X (x), sia l’ampiezza


del gradino in ognuno di tali punti.

18
Esempio 2.3
La funzione di variabile reale:
(0 per x < 0
2 3
FX (x) = 3x − 2x per x ∈ [0, 1] (2.4)
1 per x > 1
0
è tale che FX (0) = 0; FX (1) = 1 e la sua derivata FX (x) = 6x(1 − x) è non
negativa per ogni x ∈ [0, 1]. Essa può dunque essere riguardata come la funzione di
distribuzione di una v.a. X(ω) continua nell’intervallo [0, 1], il cui grafico è riportato
in Fig. 2.2b).

Esempio 2.4
L’esperimento consiste nell’estrazione a caso di un numero x compreso tra 0 e 1.
Definiti i tre eventi composti:
A1 = {ω : x ∈ [0, 14 ] }, A2 = {ω : x ∈ ( 41 , 43 ] }, A3 = {ω : x ∈ ( 43 , 1] }
aventi probabilità P (A1 ) = P (A3 ) = 14 ; P (A2 ) = 21 , associamo ad essi la v.a.
0 se ω ∈ A1
(
X(ω) = x se ω ∈ A2
1 se ω ∈ A3 .
La sua funzione di distribuzione si calcola come segue:
x < 0 : F (x) = P (X < 0) = 0
1
0≤x≤ 4 : F (x) = P (X ≤ 0) = P (A1 ) = 14
1 3
4 <x≤ 4 : F (x) = P (X ≤ 0) + P ( 14 < X ≤ x) = 1
4 + (x − 14 ) = x (2.5)
3
4 < x < 1 : F (x) = P (X ≤ 0) + P ( 14 < X ≤ 34 ) = 3
4
x ≥ 1 : F (x) = P (X ≤ 0) + P ( 14 < X ≤ 34 ) + P (X ≤ 1) = 3
4 + 1
4 = 1.
Questa funzione è discontinua nei punti x = 0 ed x = 1 e continua altrove, e definisce
una v.a. mista la cui distribuzione di probabilità è indicata nella Fig. 2.2c).

2.1.2 Densità di probabilità

• V.a. continue. Data una v.a. X(ω) continua in X(Ω) ⊆ IR e scelto un insieme
B ⊆ X(Ω), introduciamo la funzione integrabile fX (x) : IR → [0, +∞) tale che
Z
fX (x)dx = P (X ∈ B). (2.6)
B

Tale funzione fX (x) si chiama densità di probabilità o funzione di densità di X(ω),


e il suo integrale misura la probabilità che X(ω) abbia valori x ∈ B. Per gli assiomi
del Calcolo delle probabilità, essa deve soddisfare le seguenti proprietà:
Z
fX (x) ≥ 0; fX (x)dx = 1 (2.7)
S

19
f (x)
X

dP(w) = f X ( x )d x
P(X x)

0 x dx

Figura 2.3

dove S è il supporto di fX (x), ossia l’insieme S = {x ∈ IR : fX (x) > 0}. Per la


definizione di funzione di distribuzione cumulata, si ha
Z x
fX (t)dt = P (X ≤ x) = FX (x) (2.8)
−∞

e quindi anche, se B è l’intervallo elementare (x, x + dx]:


Z x+dx
P (x < X ≤ x + dx) = FX (x + dx) − FX (x) = fX (t)dt ∼
= fX (x)dx. (2.9)
x

La quantità elementare dP (ω) = dFX (x) = fX (x)dx misura pertanto, a meno di


infinitesimi di ordine superiore, la probabilità elementare che X(ω) assuma valori in
(x, x + dx]. Da quanto esposto discende anche che

dFX (x)
fX (x) = (2.10)
dx
quasi ovunque in X(Ω), ovvero: la densità di probabilità è uguale alla derivata della
funzione di distribuzione di X(ω), tranne al più in un insieme di punti di misura
nulla, nei quali FX (x) non è derivabile.

Esempio 2.5
La v.a. continua con funzione di distribuzione definita dalla (2.3) dell’Esempio 2.3,
ha come densità di probabilità la funzione
(0 per x < 0
fX (x) = 6x(1 − x) per x ∈ [0, 1]
0 per x > 1,
che è un arco di parabola su un supporto di ampiezza unitaria, come mostrato in
Fig. 2.4b).

• V.a. discrete e miste. Affinché le formule precedenti continuino a valere in presenza


di v.a. discrete o miste, è necessario utilizzare la funzione impulsiva o funzione delta
di Dirac. Si tratta della funzione generalizzata cosı̀ definita:

20
f X( x) f X( x) f X( x)
1
1/2

1/4
1/4

-2 0 2 x 0 1 x 0 1/4 3/4 1 x
a) v.a. discreta b) v.a. continua c) v.a. mista

Figura 2.4

∀x 6= x∗ : δ(x − x∗ ) = 0 , δ(x − x∗ ) è infinita per x∗ = 0


Z ∞ Z ∞
δ(x − x∗ )dx = 1 , ϕ(x)δ(x − x∗ )dx = ϕ(x∗ )
−∞ −∞

dove ϕ(x) è una arbitraria funzione di x, continua per x = x∗ . La primitiva di


δ(x − x∗ ) che si annulla per x → −∞ è la funzione gradino unitario definita nella
(2.3): Z x

U (x − x ) = δ(ξ − x∗ )dξ.
−∞

Per mezzo della funzione impulsiva, la densità di una v.a. discreta che assume valori
in x1 , x2 , . . . con probabilità pi , i = 1, 2, . . . si può esprimere nel modo seguente:
X X
fX (x) = pi δ(x − xi ) con pi = 1 (2.11)
i i

e si rappresenta graficamente con una successione di impulsi come indicato in Fig.


2.4a). Essa mostra la densità di probabilità della v.a. che abbiamo associato al lancio
ripetuto di una moneta, che si ricava derivando la (2.2’) e vale

fX (x) = 41 δ(x + 2) + 12 δ(x) + 14 δ(x − 2). (2.12)

La v.a. mista considerata nell’Esempio 2.4 ha invece una densità che si può esprimere
come segue:
fX (x) = U (x − 41 ) − U (x − 34 ) + 41 δ(x) + 41 δ(x − 1)
ed è mostrata in Fig. 2.4c). La densità (2.11) di una v.a. discreta si scrive anche
spesso nella seguente forma semplificata:

fX (xi ) = pi , i = 1, 2, . . . ; fX (x) = 0, ∀x 6= xi

che non richiede l’introduzione della funzione impulsiva.

21
2.2 MOMENTI DI VARIABILI ALEATORIE

Si chiama momento di ordine q di una v.a. reale X(ω), dotata di densità f X (x), la
quantità Z ∞ Z
q q
E{X } = x · fX (x)dx = X q (ω)P (ω)dω (2.13)
−∞ Ω

(per q intero positivo) se esiste, finito, l’integrale |x|q fX (x)dx. Se X(ω) è una v.a.
R

discreta, tenuto conto della (2.11) e della proprietà integrale della funzione impulsiva,
i suoi momenti valgono:
X Z ∞ X
q
E{X } = pi xq δ(x − xi )dx = pi xqi . (2.14)
i −∞ i

I momenti sono importanti parametri indicatori di certe proprietà di X(ω). Poiché


fX (x) ≥ 0, i momenti di ordine pari, se esistono, sono sempre non negativi. I più
noti sono senza dubbio quelli per q = 1 e q = 2.
Si chiama valor medio o valore atteso o ancora speranza matematica di X(ω) il
momento del primo ordine:
Z ∞
E{X} = x · fX (x)dx (2.15)
−∞

indicato anche con la notazione mX , che per v.a. discrete vale:


X
E{X} = p i xi , i = 1, 2, . . . . (2.150 )
i

Il valor medio è un parametro di posizione, e si può interpretare come il baricentro


della distribuzione di probabilità definita dalla densità fX (x). L’integrale (2.15) che lo
definisce può essere esteso al supporto S di fX (x), se questo è diverso da IR. Inoltre,
se il supporto è limitato: S = [a, b], E{X} può essere determinato agevolmente
anche se, invece della densità, si conosce la funzione di distribuzione F X (x). Infatti,
calcolando per parti l’integrale e tenendo conto che FX (a) = 0, FX (b) = 1, si ricava:
Z b Z b Z b
E{X} = xfX (x)dx = [xFX (x)]ba − Fx (x)dx = b − FX (x)dx. (2.15”)
a a a

Osserviamo ancora che il valor medio ha proprietà di linearità analoghe a quelle


dell’integrale con cui è definito: date n v.a. X1 (ω), .., Xn (ω), la media di una loro
combinazione lineare è uguale alla combinazione lineare delle medie:

E{a1 X1 + . . . + an Xn } = a1 E{X1 } + . . . . + an E{Xn }.

Spesso i momenti di ordine superiore al primo vengono calcolati proprio rispetto al


valor medio mx di X(ω), operando una traslazione x0 = x − mx che individua lo
scarto dalla media. Si definiscono cosı̀ i momenti centrali di ordine q = 2, 3, ..n:

22
Z ∞
q
E{(X − mX ) } = (x − mX )q · fX (x)dx
−∞

il più importante dei quali è quello di ordine 2, chiamato varianza di X(ω) e indicato
2
con σX : Z ∞
2
σX = E{(X − mX )2 } = (x − mX )2 · fX (x)dx. (2.16)
−∞

Per v.a. discrete la varianza è definita come la somma:


X
2
σX = pi (xi − mX )2 . (2.160 )
i
2
Le dimensioni di σX sono ovviamente diverse da quelle della v.a. cui si riferisce; anche
per questo motivo è spesso usata la sua radice quadrata positiva σ X , che è chiamata
scarto quadratico medio o deviazione standard, la quale conserva le dimensioni di
X(ω).
La varianza si può interpretare come il momento d’inerzia della distribuzione di proba-
bilità, rispetto alla retta baricentrica x = mX e, insieme con la deviazione standard,
è un parametro che misura la dispersione della distribuzione rispetto al suo valor
medio. Dalla sua definizione si ricava:
Z ∞
2
σX = (x2 − 2xmX + m2X ) · fX (x)dx = E{X 2 } − 2mX mX + m2X
−∞

ovvero:
2
σX = E{X 2 } − E 2 {X}
dove E{X 2 } è il momento (non centrale!) del secondo ordine di X(ω). E poichè un
2
momento di ordine pari non può essere negativo, si ha sempre σX ≥ 0, ovvero anche:
2 2
E{X } ≥ E {X}.
Il significato della varianza è ben illustrato dalla seguente diseguaglianza di Tcheby-
shev. Si può dimostrare che data una v.a. X(ω) con varianza finita, per ogni reale
k > 0 risulta:
2
IP(|X − mX | ≥ k) ≤ σX /k 2 .
Questa diseguaglianza mostra che la probabilità che X(ω) assuma valori al di fuori di
un intorno di raggio k del suo valor medio, non supera il rapporto σ x2 /k 2 . Quindi, al
2
decrescere di σX aumenta la probabilità che tutti i valori di X(ω) siano concentrati
attorno al suo valor medio.
Una v.a. X(ω) può essere priva di alcuni suoi momenti, o anche di tutti: in-
q
fatti,
R q perché esistano E{X } con q = 1, 2, . . . devono esistere finiti gli integrali
|x| fX (x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli.
Ad esempio, tutte le v.a. che hanno una densità di probabilità simmetrica, tale cioé
che fX (x) è una funzione pari, hanno momenti di ordine dispari che sono nulli:

fX (x) = fX (−x) ⇔ E{X q } = 0 per q = 1, 3, 5, . . .

23
perché definiti dall’integrale di una funzione dispari; e ciò vale anche per le v.a.
discrete, se definite da una successione simmetrica di impulsi.
D’altra parte, accertata l’esistenza dei momenti finiti di una v.a., non è assicurato
che essi individuino la sua densita’ di probabilità fX (x). Infatti, possono esistere
variabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni
di probabilità. Perché una successione {E{X q }} di momenti individui univocamente
una densità di probabilità, devono essere soddisfatte ulteriori condizioni. Una di
queste è la seguente, che citiamo senza dimostrazione.

Condizione sufficiente per l’unicità di fX (x). Data una successione di momenti


finiti di una v.a. X(ω), se esiste un k 6= 0 tale che
k 2q
E{X 2q } · → 0 per q → +∞ (2.17)
(2q)!
allora la successione E{X q }, q = 1, 2, . . . individua univocamente la densità di proba-
bilità di X(ω).

Esempio 2.6
La v.a. discreta definita nell’Esempio 2.1, che ha densità data dalla (2.12), ha mo-
menti di ordine dispari che sono nulli (infatti fX (x) è simmetrica), e quelli di ordine
pari valgono:
X 1 1
E{X q } = pi xqi = (−2)q + 2q = 2(q−1) , q = 2, 4, 6, . . .
i
4 4

La successione di questi momenti individua univocamente la densità (2.12), perchè è


soddisfatta la condizione (2.17) con k = 1/2:
(1/2)2q 22q (1/2)2q 1
E{X 2q } · = = → 0 per q → +∞.
(2q)! 2 · (2q)! 2 · (2q)!

2.3 DISTRIBUZIONI NOTEVOLI IN PROBABILITA’ E STATISTICA

2.3.1 Distribuzione uniforme


E’ la generalizzazione della legge di eventi equiprobabili già esaminata nell’Esempio
1.5. Una v.a. X(ω) uniformemente distribuita nell’intervallo [a, b] ha densità
1
fX (x) = per a ≤ x ≤ b ; fX (x) = 0 altrove. (2.28)
b−a
Si noti che fX (x) soddisfa entrambe le condizioni (2.7) richieste ad una funzione
densità di probabilità. La funzione di distribuzione cumulata è
(0 per x < a
FX (x) = (x − a)/(b − a) per a ≤ x ≤ b
1 per x > b

24
fX( x ) FX ( x )

1
1
b-a

a b x 0 a b x

Figura 2.5 - Distribuzione uniforme

ed i momenti valgono
b
xq bq+1 − aq+1
Z
q
E{X } = dx = .
a b−a (b − a)(q + 1)

In particolare, si ha subito che il valor medio di X(ω) è ovviamente:

a+b
mX =
2
e la varianza vale:
2 a2 + ab + b2 (b − a)2
σX = − m2X = .
3 12

2.3.2 Distribuzione normale


Una v.a. reale X(ω) ha una distribuzione normale o gaussiana se la sua densità vale

(x − mX )2
 
1
fX (x) = √ exp − 2 , x ∈ IR (2.29)
2πσX 2σX
2
dove i parametri mX ∈ IR e σX > 0 sono rispettivamente il valor medio e la varianza
2
di X(ω). La distribuzione normale, che si indica con la notazione N (m X , σX ), ha la
seguente funzione di distribuzione:
Z x
(x − mX )2
   
1 1 x − mX
FX (x) = √ exp − 2 dx = + erf (2.30)
2πσX −∞ 2σX 2 σX

dove erf (z) è la funzione degli errori:


z
1
Z
t2
erf (z) = √ e− 2 dt,
2π 0

soddisfacente tra l’altro le proprietà:

erf (−z) = −erf (z) ; lim erf (z) = 1/2


z→∞

25
1
f ( x) FX ( x) sX2 = 0.05
X
sX2 = 0.05

0.1
0.3
0.2 0.1 0.2
0.5

0.3

0
mX mX

Figura 2.6 - Distribuzioni normali

e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che F X (x) è


monotona crescente tra 0 e 1, e vale 1/2 per x = mX perché la densità (2.29) è
simmetrica rispetto al suo valor medio (v. Fig. 2.6).
La v.a. Z(ω) che è distribuita con legge normale N (0, 1), ovvero ha media nulla e
varianza unitaria, prende il nome di normale standard. Si può facilmente provare
(con i metodi che saranno esposti nel prossimo Capitolo) che la sua densità si ricava
dalla (2.29) mediante il cambiamento di variabile:
x − mX
z= , (2.31)
σX
il che significa che la densità e la funzione di distribuzione di Z(ω) sono:
1 z2 1
fZ (z) = √ e− 2 , FZ (z) = + erf (z). (2.32)
2π 2

Si noti che nella (2.31) σX è la deviazione standard di X(ω), e quindi z è un numero


puro. Poiché erf (z) si ricava direttamente dalla tabella dei valori della funzione
degli errori, nel calcolo di misure di probabilità riguardanti distribuzioni normali con
media e varianza note, è spesso assai più comodo effettuare la trasformazione (2.31)
e operare sulla variabile standardizzata Z(ω) che ha legge N (0, 1). Questa procedura
è usuale nei metodi statistici che saranno esposti nei prossimi Capitoli.
Ad esempio, dalla tabella di erf (z) che è riportata in Appendice si ricava subito:

P (|X − mX | ≤ σX ) = P (|Z| ≤ 1) = FZ (1) − FZ (−1) = 2 erf (1) ' 0.6826


P (|X − mX | ≤ 2.15 σX ) = P (|Z| ≤ 2.15) = 2 erf (2.15) ' 2 · 0.4842 = 0.9684
P (|X − mX | ≤ 3σX ) = P (|Z| ≤ 3) = FZ (3) − FZ (−3) = 2 erf (3) ' 0.9974.
2
Da questo calcolo si deduce, tra l’altro, che ogni v.a. normale N (m X , σX ) assume
valori compresi tra mX − σX e mX + σX con probabilità che è circa uguale a 0.6826,
e la probabilità sale a 0.9974 (avvicinandosi a quella dell’evento certo) se si considera
l’intervallo [mX − 3σX , mX + 3σX ].

26
La grande importanza che la legge di distribuzione normale riveste nei metodi della
Statistica matematica, è dovuta al seguente

Teorema Limite Centrale


Si abbia una successione {Xi (ω)}, i ∈ IN+ di variabili aleatorie statisticamente in-
dipendenti, con uguali densità di probabilità fi (xi ) aventi valor medio E{Xi } = µ e
varianza σi2 = σ 2 finite. Allora la densità di probabilità della loro somma:
n
X
Sn (ω) = Xi (ω)
i=1

converge, per n → +∞, alla distribuzione normale N (nµ, nσ 2 ).

Sulla base di questo Teorema, è possibile usare la legge normale per descrivere in ter-
mini probabilistici tutti quei fenomeni fisici che si possono considerare come prodotti
dalla sovrapposizione di un elevato numero di cause statisticamente indipendenti ed
aventi la medesima natura aleatoria. In Statistica, il Teorema Limite Centrale è
indispensabile, come vedremo, per definire le proprietà aleatorie dei valori medi di
campioni estratti casualmente da una popolazione.

2.3.3 Distribuzione Gamma


Una v.a. che assume valori in IR+ è distribuita con legge Gamma di parametri λ e
α > 0 se ha densità di probabilità

λα −λx α−1
fX (x) = e x , x ≥ 0. (2.33)
Γ(α)

Γ(α) è la funzione speciale cosı̀ definita:


Z ∞
Γ(α) = e−t tα−1 dt, (2.34)
0

le cui proprietà sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo
in particolare che

Γ( 12 ) = π
Γ(α + 1) = αΓ(α) = α! per α ∈ IN + (2.340 )

Γ(α + 2 ) = 1 · 3 · 5 · · · (2α − 1) π/2α .
1

Questa distribuzione ha valor medio e varianza che valgono:


α 2 α
mX = , σX = ,
λ λ2

e se α ≥ 1 ha un massimo per x = (α − 1)/λ (v Fig. 2.7).

27
f ( x)
X
l =4
a = 0.5
4

a = 1 : esponenziale

2 a=2
a=3

0 x

Figura 2.7 - Distribuzioni Gamma ed esponenziale (per α = 1)

2.3.4 Distribuzione esponenziale


Per α = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalla
densità
fX (x) = λe−λx , λ > 0; x ≥ 0. (2.35)
La sua funzione di distribuzione cumulata è

FX (x) = 1 − e−λx , x≥0 (2.36)

ed ha momenti finiti di qualsiasi ordine, che valgono


Z ∞ Z ∞
q q −λx 1 q!
q = 1, 2, . . . : E{X } = λ x e dx = q tq e−t dt = q
0 λ 0 λ

poiché l’ultimo integrale è la funzione Gamma Γ(q + 1) = q! definita con la (2.34).


In particolare, valor medio e varianza valgono

1 2 1
mX = , σX = E{X 2 } − m2X = .
λ λ2
Si noti che la successione dei momenti di X(ω) definisce univocamente la densità
esponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k ∈ (0, λ):
 2q
2q k 2q 2q)! k 2q k
E{X } · = 2q · = → 0 per q → 0 : 0 < k < λ.
(2q)! λ (2q)! λ

La distribuzione esponenziale è assai utilizzata negli studi di affidabilità (di un dispo-


sitivo o di un materiale) con tasso di guasto costante λ. Se X(ω) è il tempo di attesa
perché si verifichi il guasto, l’affidabilità del dispositivo, definita come la probabilità
di non subire guasti nell’intervallo di tempo (0, t), è data da

1
R(t) = 1 − FX (t) = e−λt = fX (t).
λ

28
La distribuzione esponenziale dei tempi di attesa ha una notevole proprietà: per ogni
t, s ∈ IR la probabilità di attendere un evento per un tempo t + s, sapendo di aver
già atteso il tempo s, è uguale alla probabilità di attendere l’evento per una durata
di tempo t. Infatti, ricordando la definizione (1.2) di probabilità condizionata, si ha
P ({X > t + s} ∩ {X > s}) P (X > t + s)
P (X > t + s | X > s) = = =
P (X > s) P (X > s)
1 − FX (t + s)
= = e−λt = 1 − FX (t) = P (X > t).
1 − FX (s)
Si dice perciò che la legge esponenziale è “senza memoria”, nel senso che il tempo s
già trascorso non influenza la probabilità che l’evento si verifichi in qualunque istante
successivo all’istante s in cui è iniziata l’osservazione.

2.3.5 Distribuzione di Maxwell


Si dimostrerà nel Capitolo IV che il vettore V (ω) avente come componenti cartesiane
ortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distri-
buzione normale N (0, σ 2 ), è una v.a. con densità di probabilità
r
2 v2 v2
 
fV (v) = exp − 2 , v ≥ 0. (2.37)
π σ3 2σ
La densità (2.37) definisce la distribuzione di Maxwell, che ha valor medio e varianza
uguali a p
E{V } = 2σ 2/π ; σV2 = σ 2 (3 − 8/π) (2.38)
dove σ 2 è, come detto, la varianza delle componenti di V (ω). Si osservi anche che
fV (v) non è simmetrica rispetto al suo valor medio: infatti ha un massimo per v =

2σ 6= E{V }.
La distribuzione di Maxwell è di grande importanza nella Meccanica statistica, perché
è il modello probabilistico della velocità di agitazione termica delle molecole di un
gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare, con T la
sua temperatura e con k la costante di Boltzmann, allora risulta
kT
σ2 = ,
m
e il valor medio dell’energia cinetica T della molecola del gas in equilibrio è uguale a
E{T } = 12 mE{V 2 }. Ma sostituendo il valore di σ 2 nelle (2.38) si ottiene:
 
2 kT 8 8kT 3kT
E{V } = 3− − = ,
m π mπ m
da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in
equilibrio possiedono una energia cinetica media che vale
3
E{T } = kT.
2

29
f V (v )

s =1

s=2

s =3

0 v

Figura 2.8 - Distribuzioni di Maxwell

Assai simile alla maxwelliana è la distribuzione di Rayleigh, riguardante le pro-


prietà probabilistiche di un vettore bidimensionale
q
V (ω) = X12 (ω) + X22 (ω)

le cui componenti, statisticamente indipendenti, hanno legge normale N (0, σ 2 ). La


sua densità di probabilità è la funzione

v2
 
v
fV (v) = 2 exp − 2 , v ≥ 0,
σ 2σ

con valor medio e varianza che valgono:


p
E{V } = σ π/2, σV2 = σ 2 (2 − π/2).

2.3.6 Distribuzione t-Student


La v.a. X(ω) che può assumere qualsiasi valore x ∈ IR ha una distribuzione chiamata
t-Student con n gradi di libertà, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico
britannico W.S. Gosset) se la sua densità di probabilità vale:
 
n+1
Γ − n+1
x2

2 2

fX (x) = √ n 1 + (2.39)


nπ · Γ n
2

dove Γ(·) è la funzione Gamma (2.34).


Il suo valor medio è nullo: E{X} = 0 per ogni n e la sua varianza, che è definita solo
per n > 2, vale
2 n
σX = .
n−2

30
f (x )
X
N (0, 1)
n=6

n=4

n=2

0 x
Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard

Per n = 1, la distribuzione t-Student si riduce alla distribuzione di Cauchy:


1
fX (x) = ,
π(1 + x2 )

che ha valor medio nullo ma è priva dei momenti di ordine superiore, perché l’integrale
(2.13) che li definisce diverge per q ≥ 2.
Poiché n è intero, il coefficiente di normalizzazione nella (2.39) si determina facilmente
utilizzando le proprietà (2.34’) della funzione Gamma, in modo che per n pari: n =
2k, k = 1, 2, . . . la densità t-Student si può riscrivere nella forma:
√  −(k+ 1 )
1 · 3 · 5 · · · (2k − 1) π x2 2
fX (x) = √ 1+ (2.390 )
2k 2kπ(k − 1)! 2k

e per n dispari: n = 2k + 1, k = 1, 2, . . . si ha:


−(k+1)
2k · k! x2

fX (x) = √ 1+ . (2.3900 )
1 · 3 · 5 · · · (2k − 1)π 2k + 1 2k + 1

La distribuzione t-Student ha questa interessante proprietà: per n → ∞ essa tende


alla distribuzione normale standard N (0, 1), ma ha una dispersione più elevata per
piccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni in Sta-
tistica, quando la stima dei valori medi di una popolazione è da effettuare su piccoli
campioni (v. pag. 148 e seguenti del Capitolo 8).

2.3.7 Distribuzione Chi-quadrato


Una v.a. che assume valori x ∈ IR+ ha una distribuzione Chi-quadrato con n gradi di
libertà, che si indica con il simbolo χ2n , se la sua densità di probabilità è la funzione
n x
x 2 −1 e− 2
fX (x) = n/2 , x≥0 (2.40)
2 · Γ(n/2)

31
0.25
fX ( x ) n=4

n=6

n = 10

0 x 20

Figura 2.10 - Distribuzioni Chi-quadrato

Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo
nella (2.33) α = n/2, λ = 1/2. Ha valor medio e varianza che valgono
2
E{X} = n, σX = 2n,

e si può dimostrare che è la distribuzione di una v.a. definita come la somma dei
quadrati di n variabili aleatorie indipendenti Xi (ω) aventi distribuzioni normali stan-
dard:
Xn
2
χn (ω) = Xi2 (ω), E{Xi } = 0, σX 2
i
= 1.
i=1

Per questo motivo, è assai utile in Statistica per la valutazione delle varianze di
campioni estratti da una popolazione (v. pag. 158 e seguenti del Capitolo 8).
Per una sua notevole proprietà asintotica, al crescere di n la distribuzione Chi-
quadrato tende ad assumere una forma “a campana” simmetrica rispetto al suo valor
medio, e si può dimostrare che per n >> 1 è ben approssimata da una legge normale
N (n, 2n) con media n e varianza 2n.

2.3.8 Distribuzione F di Fisher


Un’altra distribuzione di frequente uso nei test statistici è quella di una v.a. X(ω)
definita come il rapporto:
nχ2m (ω)
X(ω) =
mχ2n (ω)
tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di libertà (e
divise per il loro grado di libertà). Questa distribuzione, che si indica con la notazione
F (m, n) ed è anche chiamata di Snedecor, ha densità di probabilità
 
m+n
Γ
x( 2 −1)
m
 m  m2 2
fX (x) = · m n · h m+m , x≥0 (2.41)
n Γ Γ mx i 2
2 2 1+
n

32
1
f X( x ) n = 4, m = 2

n = 6, m = 4

n = 8, m = 6

0 1 2 3 x 4

Figura 2.11 - Distribuzioni F (m, n) di Fisher

dove Γ(·) è sempre la funzione Gamma (2.34). Il suo valor medio dipende solo dal
parametro n, vale
n
E{X} = se n > 2
n−2
e quindi tende a 1 per n → ∞; la varianza vale invece

2n2 (m + n − 2)
s2X = se n > 4.
m(n − 2)2 (n − 4)

2.3.9 Distribuzione binomiale


Proseguiamo l’illustrazione delle leggi probabilistiche più note, considerando alcune
importanti distribuzioni discrete, il cui interesse è legato allo studio degli esiti di
una successione di prove ripetute ed indipendenti di un esperimento casuale, la cui
formulazione probabilistica è dovuta a Bernoulli. Esaminiamo anzitutto i risultati
fondamentali di questa teoria.
Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi,
che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamo
inoltre che n prove di tale esperimento siano ripetute ”in modo indipendente”, vale
a dire in modo tale che l’esito di una prova sia indipendente da qualsiasi prefissata
sequenza di esiti nelle prove precedenti. Indichiamo con p la probabilità di successo
e con q = 1 − p la probabilità del fallimento. Poichè le prove sono statisticamente
indipendenti, la probabilità di una assegnata sequenza di successi e fallimenti è data
dal prodotto delle probabilità degli eventi S ed F . Ne segue che una sequenza di n
prove, contenente k successi e n − k fallimenti, ha probabilità p k q n−k . D’altra parte,
il numero di sequenze costituite da n esiti e contenenti k successi è uguale al numero
di combinazioni di classe k di n elementi, dato dal coefficiente binomiale nk . Inoltre,
ciascuna sequenza è statisticamente indipendente dalle altre, per cui la probabilità
Pn,k di ottenere, in n prove, k successi e n-k fallimenti vale (formula di Bernoulli):
 
n k n−k
Pn,k = p q (2.42)
k

33
Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q = 12 , e la
formula diventa:  
n 1
Pn,k = , (2.420 )
k 2n
in cui la probabilità in oggetto è il rapporto tra i casi favorevoli e i casi possibili
definiti in uno spazio campione costituito da 2n eventi equiprobabili.
In modo analogo, la probabilità Pn (k1 ≤ k ≤ k2 ) che in n prove il numero di successi
sia compreso tra k1 e k2 si valuta considerando l’unione degli eventi: Ek = {S si
presenta k volte} con k1 ≤ k ≤ k2 , ciascuno dei quali ha probabilità espressa dalla
(2.42). Poichè gli eventi Ek sono incompatibili a due a due, la probabilità della loro
unione vale, per il secondo assioma:
k2 k2  
X X n k n−k
Pn (k1 ≤ k ≤ k2 ) = P (Ek ) = p q . (2.43)
k
k=k1 k=k1

Esempio 2.7
1) Si lancia per dieci volte una moneta. In ogni lancio l’evento ”testa” e l’evento
”croce” sono equiprobabili, per cui la probabilità che esca ”testa” per cinque volte
vale, per la (2.42’):
 
10 10!
P10,5 = (1/210 ) = = 0.246.
5 5!(10 − 5)! · 210
Per determinare la probabilità che ”testa” esca non più di cinque volte, bisogna invece
considerare come ”successi” anche tutte le sequenze che contengono k = 0, 1, .., 4 volte
”testa”. Ne segue che la probabilità totale è data dalla (2.43) e vale
5   5
10
X 10 10! X 1
P10,k≤5 = (1/2 ) = 10 = 0.623.
k 2 k!(10 − k)!
k=0 k=0

2) Da un’urna contenente 5 palline bianche e 15 nere si fanno n estrazioni, con


reimbussolamento della pallina estratta in ogni prova. La probabilità di estrarre
tutte le palline bianche si determina considerando che in ogni prova, la probabilità
di estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera è
q = 3/4. Applicando la (2.42) si ottiene:
    n−5
n 5 n−5 n 3
Pn,5 = · (1/4) (3/4) = .
5 5 4n
Dunque, dopo n = 5 estrazioni la probabilità cercata vale 1/4 5 = 9.76 · 10−4 ; dopo 6
estrazioni cresce al valore 6 · 3/46 = 4.39 · 10−3 , ecc.

Primo principio delle prove ripetute.


Per la formula di Bernoulli la probabilità di non avere alcun successo dopo n prove
di un esperimento casuale in cui p > 0 vale
 
n 0 n−0
Pn,0 = p q = qn
0

34
e quella di ottenere almeno un successo è Pn,k>0 = 1 − q n . Poichè 0 < q < 1,
ripetendo all’infinito le prove si ottiene

lim Pn,k>0 = 1
n→∞

ovvero: continuando le prove all’infinito, prima o poi si avrà certamente almeno un


successo.

Secondo principio delle prove ripetute.


Chiediamoci ora quale è il numero medio delle prove che si dovranno eseguire per
ottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (ω), o numero
d’ordine delle prima prova in cui si verifica il successo. T (ω) è una variabile aleatoria
discreta, che assume valori interi positivi k = 1, 2, .., n,.. aventi ciascuno la probabilità
Pk = pq k−1 con cui si realizza una sequenza di (k − 1) fallimenti seguiti dal primo
successo. Se si ripetono le prove all’infinito,
P e se p > 0, si sa per il Primo principio
che le Pk soddisfano la condizione k Pk = 1. Dalla definizione di valor medio di
T (ω) si ricava allora

X ∞
X ∞
X ∞
X
k−1 k−1
E{T } = kPk = kpq =p+ kpq =p+q· (r + 1)pq r−1 =
k=1 k=1 k=2 r=1
∞ ∞
!
X X
=p+q rpqr−1 + Pr = p + q(E{T } + 1).
r=1 r=1

Da questa si ottiene: p E{T } = p + q = 1, e quindi


1
E{T } = . (2.44)
p
Resta cosı́ provato il seguente risultato: il numero medio delle prove che occorre
eseguire per ottenere il primo successo è il reciproco della probabilitá di successo.

La variabile aleatoria discreta X(ω) che assume un numero finito di valori x = k =


0, 1, 2.., n con una probabilitá data dalla (2.42) si dice dotata di distribuzione bino-
miale (∗) ed è indicata con la notazione B(n, p). La sua densità di probabilità è la
successione di n + 1 impulsi:
n  
X n k n−k
fX (x) = p q δ(x − k), p+q =1 (2.45)
k
k=0

e la corrispondente funzione di distribuzione è la funzione a gradini


n  
X n k n−k
FX (x) = p q U (x − k)
k
k=0

(∗)
Se n = 1, la distribuzione è detta di Bernoulli.

35
fX ( x )
N (10, 6)

0.1

0 5 10 15 20 x
Figura 2.12 - Approssimazione di una distribuzione binomiale con n = 25, p = 0.4.

dove U (x − k) è la funzione di Heaviside (2.3), primitiva della funzione impulsiva. Il


valor medio della distribuzione binomiale vale:
n   n  
n n k n−k
Z X X
k n−k
E{x} = x p q δ(x − k)dx = k p q =
k k
k=0 k=0
n
X k(n − 1)! n−1
X n − 1

k−1 n−k
= np p q = np pr q n−1−r = np(p + q)n−1 = np
k!(n − k)! r=0
r
k=1

2
e in modo analogo si può calcolare che la sua varianza è σ X = npq.
L’applicazione delle formule (2.42),(2.43) può comportare difficoltà pratiche per valori
elevati di n e di k. Esistono però formule asintotiche che permettono un rapido
calcolo approssimato di Pn,k e Pn (k1 ≤ k ≤ k2 ), con una accuratezza che cresce con
il numero n delle prove. Queste formule approssimate si basano su due teoremi, che
ora enunciamo senza dimostrazione.

Teorema locale di asintoticità (di Moivre - Laplace)


Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti si
abbiano k successi è tale che:

(k − np)2
 
1
lim Pn,k = √ exp − (2.46)
n→∞ 2πnpq 2npq

uniformemente per tutti gli interi k per i quali il rapporto z = (k − np)/npq assume
valori in un intervallo finito.

Il secondo membro della (2.46) è la densità di una v.a. normale N (np, npq) con media
np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente
grandi, la distribuzione binomiale è approssimabile nel continuo dalla legge normale:

B(n, p) ∼ N (np, npq) n, npq >> 1. (2.460 )

36
e a parità di n l’approssimazione è migliore quando p = q = 0.5. La Fig. 2.12 mostra il
confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quella normale definita
dalla densità (2.29) con mX = np = 10, σx2 = npq = 6. La binomiale B(25, 0.4) non
è simmetrica rispetto al suo valor medio, perché ciò si verifica solo se p = q = 21 .
Inoltre, n è ben lontano dai valori elevati che garantiscono una buona approssimazione
della probabilità Pn,k . Tuttavia, un controllo numerico mostra che il massimo valore
assoluto della differenza tra Pn,k e i valori fX (k) della densità normale per x = k
(che si verifica per k = 11) rimane comunque inferiore a 3.34 · 10−3 .

Teorema integrale di asintoticità


Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti il
numero dei successi sia compreso tra k1 e k2 soddisfa la condizione
k2
(x − np)2
 
1
Z
lim Pn (k1 ≤ k ≤ k2 ) = √ exp − dx (2.47)
n→∞ 2πnpq k1 2npq

uniformemente in [k1 , k2 ].

Usando la funzione degli errori erf (z) per il calcolo dell’integrale definito, la (2.47)
mostra che se n è grande e npq >> 1 la probabilità in oggetto si può calcolare con
buona approssimazione mediante la formula asintotica:
   
∼ k2 − np k1 − np
Pn (k1 ≤ k ≤ k2 ) = erf √ − erf √ . (2.48)
npq npq

Applichiamo quest’ultimo teorema per calcolare la probabilità che, dato un  > 0


piccolo a piacere, sia verificata la diseguaglianza: |k/n − p| ≤ . Per la (4.28) con n
grande si ha

P {|k/n − p| ≤ } = Pn [n(p − ) ≤ k ≤ n(p + )] ∼


=

p p p
= erf ( n/pq) − erf (− n/pq) = 2erf ( n/pq) (2.49)

e passando al limite per n → ∞ :


p
lim P {|k/n − p| ≤ } = 2 lim erf ( n/pq) = 1.
n→∞ n→∞

Il risultato ottenuto esprime l’importante

Legge dei grandi numeri (o Teorema di Bernoulli) :


Dato un  > 0 piccolo a piacere, la probabilità dell’evento {|k/n − p| ≤ } tende ad
1 col crescere del numero delle prove indipendenti.
In altre parole, se il numero delle prove è sufficientemente grande, allora il rapporto
tra il numero dei successi e quello delle prove è ”quasi certamente” prossimo alla
probabilità p che si attribuisce al singolo successo.

37
Allo stesso tempo, bisogna anche tenere conto che se X(ω) ha una distribuzione
binomiale, lo scarto assoluto V (ω) = X − np tra il valore di X e il suo valore atteso
è una variabile casuale che al crescere di n tende alla Normale con media nulla e
varianza
σV2 = E{(V − 0)2 } = E{(X − np)2 } = σX 2
= npq.
Dunque, a parità di p la dispersione degli esiti delle prove rispetto al loro valore atteso
cresce con il numero delle prove effettuate. E’ questa circostanza che può causare la
“rovina del giocatore” che dopo ogni perdita decide di ripetere la stessa scommessa
nella speranza che, prima o poi, il prossimo esito gli sia favorevole.

Esempio 2.8
1. Sapendo che la probabilità che un certo prodotto sia difettoso è p = 0.005, si
vuole calcolare la probabilità che tra 10.000 esemplari di questo prodotto, scelti a
caso, ve ne siano 40 difettosi. Essa è data dalla (2.42) con n = 10.000, k = 40, e
il suo valore è ben approssimato dalla formula asintotica (2.46). Tenuto conto che
np = 50, npq = 49.75 si ottiene:
2
 
1 (40 − 50)
Pn,k ∼
=√ exp − = 0.0207.
49.75 · 2π 2 · 49.75

Il valore esatto alla quarta cifra decimale, calcolato con la (2.42), è invece: P n.k =
0.0197. Per calcolare la probabilità che tra i 10.000 esemplari scelti a caso ve ne siano
non più di 70 che risultano difettosi, bisogna valutare Pn (k ≤ 70) e per ottenerne
una buona approssimazione basta applicare la (2.48) assumendo k 1 = 0 e k2 = 70. Si
ricava:
   
∼ 70 − np −np
P (k ≤ 70) = erf √ − erf √ = erf (2.84) − erf (−7.09) = 0.9975.
npq npq

2. Si lancia n volte una moneta. Come sappiamo, l’evento ”testa” ha probabilità


p = 1/2. Definiamo ora l’evento:

E = {|k/n − 1/2| ≤ 0.05}

il quale indica che il numero k di ”teste” risultante da n prove è compreso tra 0.45n
e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinché la probabilità
di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la
diseguaglianza: P (E) ≥ 0.997. Applicando la (2.49) con  = 0.05 si ha:

P (E) ∼
p
= 2erf (0.05 n/pq) = 2erf (0.05 4n) ≥ 0.997

per cui n deve soddisfare la condizione: erf (0.05 4n) ≥ 0.4985. Dai valori tabulati
della funzione degli errori si desume che, arrotondando per eccesso, deve essere:

0.05 4n > 2.95, da cui: n > 871.

38
f ( x)
X
l =5
l = 1.5
0.2 0.2

0 1 2 3 4 5 6 x 0 5 10 x
Figura 2.13 - Distribuzioni di Poisson

2.3.10 Distribuzione di Poisson


Si è detto che l’approssimazione di Pn,k fornita dalla formula asintotica (2.46’) peg-
giora al descescere del prodotto npq. Se allora p è molto piccolo, bisogna che n sia
comunque cosı́ grande da rendere soddisfatta la condizione: npq ∼ = np >> 1. Ciò si
verifica per l’appunto nel caso dell’Esempio 2.8 in cui, pur essendo p = 0.005, si ha
np = 50 e npq = 49.75. Se invece si ha: n >> 1, p << 1 in modo che il prodotto np
è dell’ordine dell’unità, la (2.46’) non è più valida. Si dimostra che essa può essere
sostituita dalla nuova formula asintotica:

(np)k −np
Pn,k ∼
= e (2.50)
k!
che nella sua forma limite esprime il seguente

Teorema di Poisson (degli eventi rari):


Se n → ∞ e p → 0 in modo che il prodotto np → λ ∼ 1, allora

λk −λ
Pn,k → e . (2.51)
k!

Esempio 2.9
In un sistema costituito da 1000 componenti, la probabilità che ciascun componente
si guasti indipendentemente dagli altri in un certo intervallo di tempo vale p = 10 −3 .
Si vuole conoscere la probabilità che il sistema sia in funzione nell’intervallo di tempo
in esame. L’evento che qui si considera è E = {nessun componente si guasta}, ed il
guasto con probabilità p rappresenta il singolo successo nel nostro problema di prove
ripetute. Si ha pertanto: n = 1000, k = 0, np = 1 e la probabilità da determinare
non si approssima con la (2.46’), bensı́ con la formula di Poisson (2.50):
 
1000
Pn,0 = (1 − 10−3 )1000 ∼
= e−1 = 0.368. /
0

39
La variabile aleatoria discreta X(ω) che assume valori k = 0, 1, 2, ..n, . . . con proba-
bilità data dalla (2.51) ha densità costituita dalla successione di impulsi

−λ
X λk
fX (x) = e δ(x − k) (2.52)
k!
k=0

che definisce una distribuzione di Poisson. Il valor medio e la varianza di X(ω)


coincidono con il parametro λ. Infatti:
∞ k ∞ ∞
X
−λ λ
X λk X λr
E{X} = ke =e −λ
= λe −λ
= λe−λ eλ = λ
k! (k − 1)! r=0
r!
k=0 k=0

2
e con calcoli analoghi si ricava che anche σX = λ. La Fig. 2.13 mostra i grafici di
fX (x) per due diversi valori del suo parametro λ.
La distribuzione di Poisson ha notevole interesse nella definizione statistica della legge
di emissione di particelle. Si consideri infatti il fenomeno costituito dalla emissione
casuale di un numero n >> 1 di particelle nel tempo T . La probabilità di emissione
di una singola particella nell’intervallo di tempo [0, t0 ) è p = t0 /T . Se l’intervallo
[0, t0 ) che si considera è molto minore di T , risulta: p << 1 e la probabilità che k
particelle siano emesse prima di t0 è data con buona approssimazione dalla formula
di Poisson (2.50) con np = nt0 /T = λ:

(nt0 /T )k
 
nt0
P {k particelle emesse in [0, t0 )} ' exp − .
k! T

Se n, T → +∞ in modo che n/T → 1, allora λ → t0 e la distribuzione del numero di


particelle emesse in [0, t0 ) tende alla densità di Poisson:
∞ k
−t0
X t 0
fX (x) = e δ(x − k).
k!
k=0

Più in generale, la legge (2.52) è anche il modello di esperimenti casuali caratterizzati


dal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti
(Processi di Poisson), aventi un numero medio di realizzazioni per unità di tempo
uguale ad α. Si dismostra infatti che il numero di tali eventi che si verificano in un
intervallo temporale di ampiezza t << T ha legge di Poisson (2.52) con parametro
λ = αt.

2.3.11 Distribuzioni geometrica e ipergeometrica


Nello schema di Bernoulli delle prove ripetute e indipendenti di un esperimento ca-
suale con probabilità di successo p, la probabilità che in una sequenza di (k + 1)
prove si realizzino k fallimenti seguiti dal primo successo vale: IP{F F F · · · F F S} =
p(1 − p)k .

40
0.2
f (x)
X

0.1

0 10 20 30 x

Figura 2.14 - Distribuzione geometrica per p = 0.2.

La variabile casuale X(ω) che assume valori discreti k = 0, 1, 2, . . . con la proba-


bilità ora definita, ha una distribuzione chiamata geometrica, avente come densità di
probabilità la funzione:


X
fX (x) = p(1 − p)k δ(x − k), 0<p<1 (2.53)
k=0

mostrata in Fig. 2.14. Questa v.a. rappresenta quindi il numero di prove che occorre
fare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unità
coincidenti con il numero di prove effettuate, X(ω) è anche chiamata tempo di attesa
(discreto) del primo successo.1
La funzione di distribuzione cumulata del tempo di attesa X(ω) vale

x
X
FX (x) = p(1 − p)k U (x − k).
k=0

Se in particolare x = n ∈ IN, essa misura la probabilità IP(X ≤ n) ed è uguale al


prodotto p · sn , dove
1
sn = [1 − (1 − p)n+1 ]
p

è la ridotta n-esima della serie geometrica k (1 − p)k di ragione 1 − p, la quale è


P
convergente perché (1 − p) è un reale positivo minore di 1. Dunque si ha:

IP(X ≤ n) = FX (n) = psn = 1 − (1 − p)n+1 . (2.54)

1
Si badi a non confondere questo tempo di attesa X(ω) con la v.a. T (ω) sopra introdotta
per ricavare il Secondo principio delle prove ripetute, la quale non può avere valore nullo.
X = k con k = 0, 1, . . . indica il numero dei fallimenti F che precedono il successo S ,
mentre T = k con k = 1, 2, . . . indica la prima prova in cui si verifica un successo.

41
Ricordando il risultato espresso dalla (2.44), il valor medio della distribuzione geo-
metrica vale:
1 1−p
mX = E{T } − 1 = − 1 =
p p
mentre la sua varianza risulta:
2 1−p
σX = .
p2
Cosı́ come la distribuzione esponenziale, anche la geometrica è senza memoria. Infatti,
scelti due interi positivi i, j si ricava, applicando anche la (2.54):

IP({X > i + j} ∩ {X > j}) IP(X > i + j)


IP(X > i + j | X > j) = = =
P (X > j) P (X > j)
(1 − p)i+j+1
= j+1
= (1 − p)i = 1 − FX (i) = IP(X > i),
(1 − p)

e questo risultato si può cosı́ interpretare: la circostanza che già si sono verificati j
insucessi consecutivi non influenza il tempo di attesa del prossimo successo.
Per quanto detto, la distribuzione geometrica è l’analogo discreto della distribuzione
esponenziale §2.3.4, definita sull’intero semiasse IR+ , e trova frequenti applicazioni
nella teoria dei giochi o negli studi di affidabilità riguardanti fenomeni in cui si può
individuare una variabile casuale definita sull’insieme dei numeri naturali.

Esempio 2.10
Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13
volte uno dei 3 possibili risultati: “1, X, 2” e gioca la stessa colonna ad ogni concorso.
Quante giocate deve fare, in media, prima di vincere con un “13” ?
Consideriamo qui il caso teorico che è anche il più sfavorevole. Se il giocatore segna
ciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13
partite, ognuna delle 13 previsioni ha probabilità 1/3 di successo. Di conseguenza,
la probabilità che si realizzi un insieme di 13 previsioni esatte di altrettanti risultati
indipendenti (ossia la probabilità di successo) è p = 1/3 13 ' 6 · 10−7 .
Il numero di giocate che è necessario effettuare prima di “fare un 13” con quella sola
colonna ha una distribuzione geometrica con tale probabilità p, e il numero medio di
giocate da effettuare prima di avere un successo è

mX = 313 − 1 = 1 594 322.

Per sollevare il giocatore dallo sconforto, si può aggiungere che questo parametro
di posizione è comunque assai poco significativo. Infatti, la varianza della stessa
distribuzione geometrica è enormemente elevata:
2
σX = (313 − 1) · 313 ' 2.54 · 1012 ,

per cui ci si può aspettare che la probabilità di ottenere il primo successo dopo un
numero più ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante.

42
Dalla (2.54) si ricava però: IP(X ≤ 50) = 1−[1−1/313 ]51 ' 0.000032, ed è presumibile
che tale risultato probabilistico poco allettante scoraggi definitivamente il giocatore.

Distribuzione ipergeometrica
Un insieme è costituito da N elementi di cui NA sono di tipo ”A”, e NB = N − NA di
tipo ”B”. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione),
nel campione di n elementi così estratto il numero di elementi del tipo ”A” è una
variabile casuale discreta X(ω), la cui densità di probabilità è definita dalla seguente
formula ipergeometrica:
  
NA NB
x n−x
fX (x) =   per x = 0, 1, 2, . . . , n (2.540 )
N
n
ed è nulla altrove.
Infatti, fissato un intero x, il numeratore che compare nella (2.54’) è il numero degli
eventi ”favorevoli”: {x elementi di tipo ”A” su n estratti }, che si calcola come
prodotto tra il numero di combinazioni di x elementi del tipo ”A” e il numero di
combinazioni di (n − x) elementi di tipo ”B”; il denominatore è il numero di eventi
”possibili” (ed equiprobabili) che si possono verificare nella estrazione in blocco di n
elementi da un insieme di N ; e dunque per la definizione classica di Probabilità, il
loro rapporto definisce la probabilità che X(ω) assuma il valore x.
Il valor medio e la varianza di fX (x) valgono:
nNA 2 nNA (N − NA )(N − n)
E(X) = , σX = .
N N 2 (N − 1)

Esempio 2.11
Si effettua l’estrazione simultanea di due palline da un’urna che ne contiene N A = 4
rosse e NB = 3 nere. Calcolare la probabilità di estrarre due palline di colore diverso.
Si applica la (2.54’) con n = 2, x = 1, N = 7 e si ottiene subito:
  
4 3
1 1 12
IP(Rossa ∩ N era) =   = ' 0.57.
7 21
2

2.3.12 Distribuzione Beta


Una v.a. che assume valori nell’intervallo unitario [0, 1] ha una distribuzione Beta se
la sua densità vale

b c
fX (x) = Ax (1 − x) per x ∈ [0, 1], b, c > −1 (2.55)
0 altrove

43
f X (x)
2.5
6
2.0 5
4
1.5 1 3

2
1.0

0.5

0 0.5 1 x

Figura 2.15 - Distribuzioni Beta

con A definito come segue:

Γ(b + c + 2)
A= ,
Γ(b + 1)Γ(c + 1)

dove Γ(·) è la funzione Gamma (2.34).


Questa densità, dipendente da due parametri b, c, ha un massimo per x = b/(b + c) se
b e c sono entrambi positivi, ma diventa infinita agli estremi dell’intervallo unitario se
b e c sono entrambi negativi: b, c ∈ (−1, 0). Inoltre, se b = c = 0 la (2.55) coincide con
la densità uniforme fX (x) = 1 nell’intervallo unitario, e per b = c = 1 rappresenta la
densità parabolica:
fX (x) = 6x(1 − x), x ∈ [0, 1].
Per la grande generalità con cui, modificando i due parametri, può essere definita
analiticamente la distribuzione delle probabilità nell’intervallo unitario, questa legge
è molto utile per rappresentare le proprietà statistiche di coefficienti aleatori che
possono essere presenti in molti modelli matematici di fenomeni reali.
Il valor medio e la varianza di fX (x) si esprimono in funzione dei parametri b e c, e
valgono:
b+1 2 (b + 1)(c + 1)
E{X} = ; σX = . (2.56)
b+c+2 (b + c + 2)2 (b + c + 3)
La Fig. 2.15 mostra alcuni grafici della distribuzione Beta, ottenuti assumendo per b e
c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A, calcolati
in base alle proprietà (2.34’) della funzione Gamma:

grafico 1: b = −1/2 c = −1/2 A = 1/π


2: b = 1/2 c = 1/2 A = 8/π
3: b=1 c=1 A=6
4: b=1 c=2 A = 12
5: b=3 c=1 A = 20
6: b=3 c=3 A = 140.

44
3
a =1
f X(x)
b = 0.5 a =3

b =2
b=1
1

0 0.5 1 1.5 x

Figura 2.16 - Distribuzioni di Weibull W (α, β) al variare di α e β .

2.3.13 Distribuzione di Weibull


Una legge probabilistica che generalizza il modello esponenziale, e dipendente da due
parametri come la densità Beta, è la distribuzione di Weibull W (α, β) la cui densità
è la funzione

β−1
fX (x) = αβx exp(−αxβ ), 0 ≤ x < +∞; α, β ∈ IR+ (2.57)
0 altrove.

Utilizzando la definizione della funzione Gamma (2.34), si può ricavare che il valore
atteso e la varianza di fX (x) valgono:

1 2
E{X} = Γ(1 + 1/β), σX = α−2/β [Γ(1 + 2/β) − Γ2 (1 + 1/β)].
αβ
Al pari della distribuzione Beta, la disponibilità di due parametri α, β rende questa
legge assai adatta a rappresentare il modello probabilistico di certe grandezze che
possono assumere valori casuali sull’intero semiasse positivo.
Il parametro β > 0 è il più significativo, e definisce la forma della distribuzione di
Weibull. Se 0 < β < 1, fX (x) ha un asintoto verticale x = 0; se β = 1 la distribuzione
coincide con quella esponenziale con parametro λ = α; e se β > 1, fX (x) si annulla
per x → 0+ e presenta un massimo per
 1/β
β−1
x= .
αβ

Il parametro α > 0 è un fattore di scala che concentra su bassi valori di x (oppure


disperde sul semiasse positivo) le masse di probabilità della distribuzione stessa, come
è illustrato in Fig. 2.16.
Questa distribuzione ha un ruolo importante negli studi di affidabilità di materiali o
di sistemi per i quali si assume che il tasso di guasto non sia costante (come è stato
fatto a proposito della distribuzione esponenziale), ma sia una assegnata funzione

λ(t) = αβ(αt)β−1

45
del tempo di attesa t del guasto. In tal caso, individuati i parametri α e β, l’affidabilità
del materiale diventa la seguente funzione del tempo di attesa:
β
R(t) = 1 − FX (t) = e−αt

dove FX (x) è la funzione di distribuzione cumulata di W (α, β), ossia la primitiva di


fX (x) che si annulla per x = 0.
Se la variabile casuale può assumere soltanto valori nell‘intervallo γ ≤ x < +∞ con
γ > 0, il semplice cambio di variabile y = x − γ porta alla definizione di una dis-
tribuzione di Weibull W (α, β, γ) dipendente da tre parametri α, β, γ, avente densità

fX (x) = αβ(x − γ)β−1 exp[−α(x − γ)β ], γ ≤ x < +∞; α, β, γ ∈ IR+

con valor medio traslato della quantità γ e la stessa varianza di W (α, β).

46
CAPITOLO TERZO

PROBLEMI CON PIU’ VARIABILI CASUALI

L’insieme {X1 (ω), X2 (ω), . . . , Xn (ω)} di n variabili aleatorie, definite su un medesi-


mo spazio di probabilità (Ω, B, P ), costituisce le n componenti di un vettore aleatorio
X(ω) n−dimensionale che opera la trasformazione (Ω, B, P ) → (IR n , B ∗ , P ∗ ) asso-
ciando ad ω l’ennupla (x1 , . . . , xn ) ∈ IRn , e all’evento A ∈ B l’insieme B = X−1 (A) ⊆
IRn con probabilità P ∗ (B) = P (X−1 (B)) = P (A). Nel prossimo paragrafo esami-
neremo le principali proprietà del vettore aleatorio bidimensionale X(ω) con n = 2,
generalizzando le definizioni ed i risultati già esposti a proposito di una v.a. unidi-
mensionale.
Nel paragrafo successivo tratteremo invece il caso in cui una coppia (X, Y ) di v.a.
sia legata da una ben definita relazione del tipo Y (ω) = g[X(ω)], ed esamineremo
alcuni metodi per la determinazione delle proprietà di Y (ω), in funzione di quelle di
X(ω) che si suppongono note.

3.1 COPPIE DI VARIABILI ALEATORIE


Consideriamo due variabili aleatorie reali X(ω) e Y (ω), componenti di un vettore
aleatorio bidimensionale X(ω) = {X1 = X(ω), X2 = Y (ω)}, che ad ogni evento
elementare ω di un esperimento casuale associano rispettivamente i numeri reali x ∈
Dx ⊆ IR ed y ∈ Dy ⊆ IR come illustrato nello schema di Fig. 3.1.
L’intersezione B 0 dei due eventi: (X ≤ x) e (Y ≤ y), cioè l’area ombreggiata in
figura, è ancora un evento in B, la cui probabilità è una funzione F XY (x, y) delle due
variabili reali:
FXY (x, y) = P {(X ≤ x) ∩ (Y ≤ y)} (3.1)
che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabili
aleatorie. Essa misura la probabilità che si verifichino entrambi gli eventi: (X ≤ x) e
(Y ≤ y); è sempre positiva con valori compresi tra 0 e 1, non decrescente e continua
a destra rispetto a ciascuna delle variabili x, y. Le sue proprietà sono:
FXY (−∞, −∞) = FXY (−∞, y) = FXY (x, −∞) = 0;
FXY (+∞, +∞) = 1.

47
y
W
X
(x,y) = X(w )
B' w

B x A
X

Figura 3.1

Se esiste la derivata mista di FXY (x, y), si chiama densità di probabilità congiunta
della coppia (X(ω), Y (ω)) la funzione

∂ 2 FXY (x, y)
fXY (x, y) = (3.2)
∂x∂y
soddisfacente le condizioni:
Z Z ∞
fXY (x, y) ≥ 0 , fXY (x, y)dxdy = 1.
−∞

La Fig. 3.2 mostra il grafico qualitativo della densità congiunta di una coppia di v.a.
che assumono valori reali in X (Ω) = Dx (y) · Dy (x) ⊂ R2 . La probabilità che esse
abbiano valori in un insieme B è data dall’integrale doppio:
Z Z
P (X ∈ B) = fXY (x, y)dxdy. (3.3)
B

In particolare, se questo insieme è l’intersezione B 0 = (X ≤ x) ∩ (Y ≤ y), la proba-


bilità P (B 0 ) è data dal volume indicato in figura, che vale
Z x Z y
0 0
P (B ) = dx fXY (x0 , y 0 )dy 0 = FXY (x, y).
−∞ −∞

Il volume che nella stessa figura è compreso tra due piani paralleli a distanza in-
finitesima dy, misura la probabilità dell’evento E = {(X ∈ Dx ) ∩ (Y ∈ [y, y + dy])}
e vale: Z
P (E) = dy · fXY (x, y)dx. (3.4)
Dx (y)

Ma poiché (X ∈ Dx ) = (X ≤ +∞) è l’evento certo, risulta anche

P (E) = P {Y ∈ [y, y + dy]} = FY (y + dy) − FY (y) = dFY (y) (3.40 )

48
f ( x,y )
XY

dF ( y )
Y
P(B') = FXY( x,y ) B'

dy y

X( W )
x

Figura 3.2

dove FY (y) = FXY (+∞, y) è la funzione di distribuzione della v.a. Y (ω), che ora
prende il nome di funzione di distribuzione marginale di Y (ω). Confrontando la (3.4)
con la (3.4’) risulta pertanto:

dFY (y)
Z
fXY (x, y)dx = = fY (y). (3.5)
Dx (y) dy

L’integrale a primo membro ha il significato di densità di probabilità relativa alla sola


v.a. Y (ω), e individua la densità di probabilità marginale di Y (ω). Essa si ottiene
integrando la densità mista su tutti i valori che può assumere l’altra v.a. con cui
fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginale di
X(ω):
FX (x) = FXY (x, +∞) ≡ P {(X ≤ x) ∩ (Y ≤ y)}
e la sua densità di probabilità marginale:
Z
fX (x) = fXY (x, y)dy.
Dy (x)

3.1.1 Momenti congiunti


Data una coppia di v.a. X(ω), Y (ω) entrambe definite in (−∞, +∞), si chiama
momento congiunto (o misto) di ordine (p + q) l’integrale doppio:
Z ∞ Z ∞
p q
E{X Y } = xp y q fXY (x, y)dxdy (p,q interi positivi.)
−∞ −∞

Il momento centrale congiunto di ordine (p + q) della coppia è definito dall’integrale


doppio:
Z ∞ Z ∞
p q
E{(X − mX ) (Y − mY ) } = (x − mX )p (y − mY )q fXY (x, y)dxdy
−∞ −∞

49
in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle loro
distribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 si
identificano rispettivamente con le varianze di X(ω) ed Y (ω). Il momento centrale
congiunto del secondo ordine si chiama covarianza di X(ω) ed Y (ω):
Z ∞Z ∞
Cov (X, Y ) = (x − mX )(y − mY )fXY (x, y)dxdy (3.6)
−∞ −∞

ed è sicuramente il più importante dal punto di vista applicativo. Sviluppando


l’integrale a secondo membro si ricava subito l’importante relazione:

Cov(X, Y ) = E{XY } − mY E{X} − mX E{Y } + mX mY = E{XY } − mX mY (3.7)

la quale mostra che la covarianza è la differenza tra il momento misto del secondo
ordine e il prodotto delle medie marginali. Se queste due quantità sono uguali, ovvero
se la covarianza è nulla, le v.a. si dicono non correlate.
La covarianza interviene sempre nella espressione della varianza di una combinazione
lineare di due o più variabili aleatorie. Infatti, per la proprietà di linearità del valor
medio, la varianza di Z(ω) = aX(ω) + bY (ω) vale:
2
σZ = E{(Z − mZ )2 } = E{[(aX + bY ) − E{aX + bY }]2 } =
= E{[a(X − E{X}) + b(Y − E{Y })]2 } = E{a2 (X − E{X})2 + b2 (Y − E{Y })2 +
+2ab(X − E{X})(Y − E{Y })} = a2 σX
2
+ b2 σY2 + 2ab Cov(X, Y ). (3.8)

Se poi X(ω) e Y (ω) sono non correlate, allora la (3.8) si riduce alla seguente:
2
(X, Y ) non correlate =⇒ σZ = a 2 σX
2
+ b2 σY2

e dunque la varianza di una loro combinazione lineare è la somma delle varianze,


moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso di
una combinazione lineare Z(ω) = a1 X1 (ω) + . . . + an Xn (ω) di n variabili aleatorie,
per la quale si ricava:
n
X n−1
X n
X
2
σZ = a2i σX
2
i
+2 ai aj Cov(Xi Xj ).
i=1 i=1 j=i+1

che si riduce alla prima sommatoria se ciascuna coppia (Xi Yj ) è non correlata.
Pur essendo un momento di ordine pari, la covarianza può anche essere negativa, come
si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra
X ed Y il rapporto

Cov(X, Y )
ρ(X, Y ) = , |ρ(X, Y )| ≤ 1 (3.9)
σX σY

tra la covarianza e il prodotto degli scarti quadratici medi di X(ω) ed Y (ω). Ve-
dremo in un prossimo Capitolo, nell’ambito del metodi regressivi di previsione relativi

50
all’analisi statistica di campioni estratti da due popolazioni, che questo coefficiente
adimensionale è una misura della interdipendenza lineare tra le due v.a., nel senso
che dà una indicazione sulla accuratezza con cui una variabile aleatoria può essere
approssimata come funzione lineare di un’altra. Se X(ω) e Y (ω) sono non correlate
(linearmente), si ha ρ(x, y) = 0; se invece il modulo del coefficiente di correlazione è
prossimo all’unità, allora è giustificata l’approssimazione: X(ω) ' aY (ω) + b che le
lega mediante una legge lineare.

3.1.2 Coppie di v.a. indipendenti


Come diretta conseguenza del concetto di indipendenza di due eventi, X(ω) e Y (ω)
sono dette statisticamente indipendenti se lo sono gli eventi (X ≤ x) e (Y ≤ y), in
modo che
P {(X ≤ x) ∩ (Y ≤ y)} = P (X ≤ x) · P (Y ≤ y).
In tale ipotesi, la funzione di distribuzione congiunta è il prodotto delle funzioni di
distribuzione marginali:
FXY (x, y) = FX (x)FY (y)
da cui discende subito una analoga proprietà per la loro densità mista:

fXY (x, y) = fX (x)fY (y). (3.12)

Se X(ω) e Y (ω) sono statisticamente indipendenti, tenuto conto della (3.12) si ha


che il loro momento congiunto si identifica con il prodotto dei rispettivi momenti di
ordine p e q:

(X, Y ) indipendenti=⇒
Z ∞ Z ∞
p q p
E{X Y } = x fX (x)dx y q fY (y)dy = E{X p }E{Y q }. (3.13)
−∞ −∞

Ne segue, tenuto conto della (3.7) che due v.a. indipendenti sono anche non correlate:

(X, Y ) indipendenti =⇒ E{XY } = mX mY =⇒ Cov(X, Y ) = 0.

Si badi però che non è vero il contrario: infatti l’indipendenza è una condizione
sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covari-
anza nulla, anche se non sono statisticamente indipendenti. Dunque, l’indipendenza
statistica è una condizione più restrittiva della non correlazione.

OSSERVAZIONE
La statistica congiunta di una coppia di v.a. è completamente nota solo se si conosce
la loro densità mista fXY (x, y), ovvero anche la funzione di ripartizione congiunta
FXY (x, y). Da essa, infatti, è possibile dedurre le distribuzioni marginali ed i momenti
di ogni ordine, semprechè esistano. Se però le v.a. sono statisticamente indipendenti,
per quanto si è visto in questo paragrafo la conoscenza delle singole distribuzioni
marginali è sufficiente a descrivere compiutamente la loro statistica congiunta.

51
fXY ( x,y )
1/ p a

R
Q
0 a
2p y

a
x

Figura 3.3

Esempio 3.1
Si assuma che la traccia di un oggetto su uno schermo radar circolare, di rag-
gio a, si possa trovare con eguale probabilità in qualsiasi punto P dello schermo.
All’esperimento consistente nella ricezione casuale di una traccia sullo schermo, è
naturale associare le variabili aleatorie R(ω), Θ(ω), coordinate polari del punto P. Si
vuole determinare la loro densità di probabilità congiunta f RΘ (r, θ), le due densità
marginali ed i momenti misti.
La probabilità che la traccia P si trovi nell’elemento di superficie dσ = rdrdθ vale:
dσ r
dP (ω) = P {(R, Θ) ∈ dσ} = 2
= drdθ
πa πa2
e ricordando la (3.3) si può scrivere
dP (ω) = fRΘ (r, θ)drdθ.
Eguagliando si ricava la densità mista:

r/(πa2 ), 0 ≤ r ≤ a; 0 ≤ θ ≤ 2π;
fRΘ (r, θ) = (3.14)
0, altrove
il cui grafico è mostrato in Fig. 3.3. Le densità marginali si ricavano applicando la
(3.5):
Z 2π
r 2r
fR (r) = 2
dθ = 2 , 0≤r≤a
0 πa a
Z a
r 1
fΘ (θ) = 2
dr = , 0 ≤ θ ≤ 2π
0 πa 2π
e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densità di probabilità di
R(ω) per 0 ≤ r ≤ a è un segmento di retta, e quella di Θ(ω) è uniforme in [0, 2π].
Il prodotto delle due densità marginali è uguale alla densità mista: f R (r)fΘ (θ) =
fRΘ (r, θ), per cui si può concludere che le due v.a. sono statisticamente indipendenti.
Il loro momento del secondo ordine è uguale al prodotto dei rispettivi valori medi:
Z a Z 2π
r 2
E{RΘ} = rθ 2 drdθ = a · π = mR · mΘ ,
0 0 πa 3

52
e ovviamente la covarianza tra R e Θ è nulla, perché essendo indipendenti sono anche
non correlate.
La probabilità che la traccia si trovi nel centro dello schermo in un cerchio di raggio
r0 << a (oppure anche: nel centro di un bersaglio circolare, nella ipotesi che la
traccia cada comunque sul bersaglio) si può facilmente calcolare utilizzando la densità
congiunta (3.14), e vale:
Z r0
r  r 2
0
P {R ≤ r) ; 0 ≤ Θ ≤ 2π} = 2π 2
dr = .
0 πa a

Esempio 3.2
E’ nota la densità congiunta di una coppia di variabili aleatorie. Essa vale
8xy, per 0 ≤ x ≤ 1; 0 ≤ y < x
n
fXY (x, y) =
0 altrove
ed assume valori maggiori di zero nel dominio D = DX (y) ∪ DY (x) = [0, x) ∪ (y, 1].
Si vuole determinare le densità e i momenti marginali, e il loro momento congiunto
di ordine due.
Le densità marginali si calcolano come segue:
Z Z x
fX (x) = fXY (x, y)dy = 8 xydy = 4x3 , x ∈ [0, 1]
DX (y) 0
Z Z 1
fY (y) = fXY (x, y)dy = 8 xydx = 4y(1 − y 2 ), y ∈ [0, 1],
DY (x) y

e il loro grafico è mostrato, insieme con la densità mista, in Fig. 3.4. I valori medi
e le varianze delle distribuzioni marginali si calcolano, come di consueto, applicando
le loro definizioni:
Z 1
4
E{X} = 4 x4 dx =
0 5
Z 1
8
E{Y } = 4 y 2 (1 − y 2 )dy =
0 15
Z 1
2 2 16 2
σX =4 x5 dx − E 2 {X} = − =
0 3 25 75
Z 1
1 64 11
σY2 = 4 y 3 (1 − y 2 )dy − E 2 {Y } = − = .
0 3 225 225
Il prodotto delle densità marginali non è uguale alla densità congiunta: ciò significa
che la coppia X(ω), Y (ω)) non è statisticamente indipendente. Calcoliamo perciò il
loro momento misto:
Z 1 Z x Z 1 Z x
2 4
E{XY } = dx xyfXY (x, y)dy = 8 x dx y 2 dy =
0 0 0 0 9

53
f XY( x,y )
4
f (x)
X
0 1
y
f ( y)
Y

1
x
.
DX( y) DY ( x)
x=
y
0 1
Figura 3.4

dal quale si deduce la seguente covarianza:

4
Cov (X, Y ) = E{XY } − E{X}E{Y } = .
225

Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale

4
ρ(X, Y ) = r ' 0.492366
2 11
225 ·
75 225

e il suo valore sensibilmente minore dell’unità mostra che le due variabili aleatorie
sono poco correlate statisticamente, nel senso precisato alla fine del §3.1.2.

3.1.3 Coppie di v.a. discrete.


Se X(ω) e Y (ω) assumono rispettivamente valori reali xi ed yj con i = 1, 2, . . . , n,
j = 1, 2, . . . m, indichiamo con Pij = P {(X = xi ) ∩ (Y = yj )} la probabilità che la
coppia (X, Y ) assuma i valori (xi , yj ). Ovviamente, per gli assiomi della probabilità
le Pij devono soddisfare la condizione:
n X
X m
Pij = 1.
i=1 j=1

La distribuzione mista, i momenti e le distribuzioni marginali della coppia discreta si


esprimono, sulla base delle definizioni date nei paragrafi precedenti, facendo uso della
funzione scalino unitario (2.3) e della funzione impulsiva. Cosı́ , la loro funzione di
distribuzione congiunta è data da
n X
X m
FXY (x, y) = Pij U (x − xi )U (y − yj )
i=1 j=1

54
e la corrispondente densità di probabilità congiunta è l’insieme bidimensionale di
impulsi:
Xn Xm
fXY (x, y) = Pij δ(x − xi )δ(y − yj ). (3.16)
i=1 j=1

Le rispettive funzioni di distribuzione marginali si ottengono sommando rispetto a


tutti i valori assunti dall’altra v.a.:
n X
X m
FX (x) = Pij U (x − xi ), ∀x ∈ Dx
i=1 j=1
Xm X n
FY (y) = Pij U (y − yj ), ∀y ∈ Dy
j=1 i=1

mentre le densità marginali valgono rispettivamente:


n X
X m
fX (x) = Pij δ(x − xi ), ∀x ∈ Dx
i=1 j=1
m X n
(3.17)
X
fY (y) = Pij δ(y − yj ), ∀y ∈ Dy .
j=1 i=1

I loro momenti congiunti sono definiti dalle somme:


n X
X m
p
E{X Y } =q
Pij xpi yjq
i=1 j=1
n X m
(3.18)
X
p q p q
E{(X − mX ) (Y − mY ) } = Pij (xi − mX ) (yj − mY ) .
i=1 j=1

e in particolare la loro covarianza vale


n X
X m
Cov (X, Y ) = Pij (xi − mX )(yj − mY ). (3.19)
i=1 j=1

Esempio 3.3
In una coppia di v.a. discrete, X(ω) può assumere i valori (−2, 0, 2) e Y (ω) i valori
(−1, 0, 1). Le probabilità miste Pij , con i, j = 1, 2, 3 hanno i valori riportati nella
tabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densità mista F XY (x, y)
che è rappresentata dalla distribuzione di impulsi di Fig. 3.6. Si vuole calcolare le
densità marginali, la covarianza e il coefficiente di correlazione della coppia.
Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilità che si
ottengono sommando, per ogni i, rispetto a tutti i valori dell’indice j. I risultati delle

55
j
i
y1 = - 1 y2 = 0 y3 = 1 j Pij

x1 = - 2 1/8 1/3 1/8 7/12

x 2= 0 0 1/12 0 1/12

x 3= 2 1/4 0 1/12 1/3

i Pij 3/8 5/12 5/24 ij Pij = 1

Figura 3.5

somme forniscono le probabilità marginali di X(ω), che per la prima delle (3.17) ha
densità
7 1 1
fX (x) = δ(x + 2) + δ(x) + δ(x − 2).
12 12 3
Allo stesso modo, le probabilità marginali di Y (ω) sono ricavate nella riga sottostante
la stessa tabella, e forniscono la densità marginale:

3 5 5
fY (y) = δ(y + 1) + δ(y) + δ(y − 1).
8 12 24
Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine:

7 1 1 7 4 11 11 1 41
mX = −2 · + 2 · = − ; E{X 2 } = + = ; 2
σX = − =
12 3 2 3 3 3 3 4 12
3 5 1 3 5 7 7 1 5
mY = − + =− ; E{Y 2 } = + = ; σY2 = − = .
8 24 6 8 24 12 12 36 9
Poiché il prodotto delle densità marginali non è uguale alla densità mista assegnata,
le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianza
si può calcolare applicando la (3.19), ma è più comodo determinarla ricordando la
(3.7):

2 2 2 2 1 1 5
Cov (X, Y ) = E{XY } − mX mY = − − + − m X mY = − − =− .
8 8 4 12 3 12 12
Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che per
la (3.9) risulta:
5
ρ(X, Y ) = − r ' −0.3024.
41 5
12 ·
12 9

56
fXY ( x,y ) f X ( x)

-2
-2 0 2 x

fY ( y)
-1 0 1 y

2
x -1 0 1 y

Figura 3.6

3.2 FUNZIONI DI UNA VARIABILE CASUALE

Si presenta di frequente il problema di determinare le proprietà statistiche di una


variabile casuale Y (ω) che è il risultato della trasformazione subita da un’ altra
variabile casuale X(ω) con distribuzione nota. Ad esempio, Y (ω) può essere l’uscita
di un sistema con caratteristica di funzionamento nota ed espressa matematicamente
dalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casuale
X(ω) secondo lo schema indicato in Fig. 3.7. La variabile casuale X(ω) associa
ad ogni evento ω di un esperimento casuale il numero reale x ∈ Dx , realizzazione
dell’ingresso aleatorio. Questo ingresso è trasformato dal sistema secondo la legge
deterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzione
g(x), definita in Dx , fa corrispondere all’evento ω il numero reale y ∈ DY , generica
realizzazione della funzione di variabile aleatoria:
Y (ω) = g[X(ω)]. (3.20)

g(x)
W
y
X( w) Y( w) Y( w)
g(x)
w X( w)
x

Figura 3.7

3.2.1 Calcolo della funzione di distribuzione di Y (ω).


Un metodo generale per ottenere la statistica della funzione di variabile casuale
definita nella (3.20), per il quale non si richiedono ipotesi restrittive sulla funzione

57
caratteristica g(x), consiste nel determinare la sua funzione di distribuzione F Y (y)
mediante una opportuna integrazione della densità in ingresso f X (x), che per ipotesi
è nota e definita sul supporto Dx . Per la definizione di funzione di distribuzione di
una variabile casuale si ha:

FY (y) = P (Y ≤ y) = P [g(X) ≤ y].

Se ora indichiamo con Ex (y) = {x ∈ Dx : g(x) ≤ y} l’insieme dei valori di x apparte-


nenti a Dx e tali da verificare la condizione: g(x) ≤ y, si può dire che P [g(X) ≤ y] è
la probabilità che X(ω) assuma valori in Ex (y). Dunque, per la definizione di densità
di probabilità risulta
Z
FY (y) = P [X ∈ Ex (y)] = fX (x)dx. (3.21)
Ex (y)

La densità di probabilità fY (y) si ottiene quindi, come ci è noto, per derivazione:


fY (y) = dF (y)/dy.

Esempio 3.4: dispositivi elettronici


a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento:
g(x) = |x| è sottoposto a un ingresso aleatorio X(ω) con distribuzione normale
N (1, 1/2). Per valutare la funzione di distribuzione FY (y) in uscita, osserviamo
che 
{x ∈ IR : |x| < y} = [−y, y], se y > 0,
Ex (y) =
0 se y ≤ 0.
Pertanto la (3.21) fornisce:
Z y
FY (y) = fX (x)dx = FX (y) − FX (−y), y>0
−y

dove
1 2 √
fX (x) = √ e−(x−1) , FX (x) = 1/2 + erf [ 2(x − 1)]
π
sono la densità e la funzione di distribuzione dell’ingresso normale con media 1 e
varianza 1/2. Per y ≤ 0 si ha invece FY (y) = 0.
La densità in uscita si ricava per derivazione:

dFX (y) dFX (−y) 1 h 2 2


i
fY (y) = − = fX (y) + fX (−y) = √ e−(y−1) + e−(y+1)
dy dy π

se y > 0, mentre fY (y) = 0 per y ≤ 0. Il dispositivo trasforma i segnali negativi

58
g(x)
fY (y)
y
a
f X (x)

-y y x 0 1

g(x)
f Y (y)

y
b
f X (x)
f Y (0)

0 y x 0 1

Figura 3.8 - Casi a,b

restituendoli, con una eguale misura di probabilità, in valori positivi nel segnale di
uscita (v. Fig. 3.8a).
b) Il raddrizzatore a semionda con caratteristica:

x + |x| n x se x ≥ 0,
g(x) = =
2 0 se x < 0

e ingresso con la medesima legge normale N (1, 21 ), sopprime invece i segnali negativi
e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (3.21)
vale:

y<0: Ex (y) = 0 =⇒ FY (y) = 0


Z y
y≥0: Ex (y) = (−∞, y] =⇒ FY (y) = fX (x)dx = FX (y).
−∞

Dunque FY (y) ha una discontinuità per y = 0, e si può scrivere

FY (y) = FX (y)U (y)

dove U (y) è la funzione a gradino unitario in y = 0. Per derivazione rispetto ad y


otteniamo quindi la seguente densità:

fY (y) = fX (y)U (y) + FX (0)δ(y)

che è illustrata in Fig. 3.8b). L’uscita del dispositivo è dunque una variabile casuale
mista, perché dotata di una distribuzione continua in [0, +∞) che riproduce il segnale
di ingresso in tale intervallo, alla quale si aggiunge l’impulso F X (0) per y = 0. Si

59
osservi che l’entità di tale impulso è uguale alla misura di probabilità da attribuire
all’insieme dei segnali negativi che sono stati soppressi.

c) Il dispositivo con caratteristica



−1, x≤0
g(x) =
1, x>0

che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una
variabile casuale discreta con valori ±1. Infatti la funzione di distribuzione in uscita
FY (y) si determina come segue:

y < −1 : Ex (y) = 0 =⇒ FY (y) = 0


Z 0
−1 ≤ y < 1 : Ex (y) = (−∞, 0] =⇒ FY (y) = fX (x)dx = FX (0)
−∞
Z +∞
y≥1: Ex (y) = IR =⇒ FY (y) = fX (x)dx = 1.
−∞

Dunque FY (y) è la funzione costante a tratti:

FY (y) = FX (0)U (y + 1) + [1 − FX (0)]U (y − 1)

g(x)
fY (y)
1
f X (x)
0 x c

-1
-1 0 1 2
1
g(x)
1 F (x)
X
f Y (y)
-1 FY (y)
d
0 1 x
f X (x)
-1

-1 0 1
Figura 3.8 - Casi c,d

dove FX (0) è la funzione di distribuzione della normale in ingresso, calcolata per


x = 0:
FX (0) = 0.5 + erf[(0 − mx )/σ] = 0.5 − erf(1) ' 0.16.

60
La distribuzione in uscita ha pertanto due “gradini”, di altezza rispettivamente 0.16
per y = −1 ed 1 − 0.16 = 0.84 per y = 1. Per derivazione rispetto ad y si ricava
subito la densità in uscita:

fY (y) = FX (0)δ(y + 1) + [1 − FX (0)]δ(y − 1)

che è quella di una v.a. discreta (v. Fig. 3.8c) che assume valori ±1 con probabilità
p(1) = 0.84 e p(−1) = 0.16.

d) Un ingresso normale standard N (0, 1) è applicato a un limitatore di segnale la cui


caratteristica: ( −1, x < −1
g(x) = x, −1 ≤ x ≤ 1
+1, x>1
è mostrata in Fig. 3.8d). Calcoliamo la distribuzione in uscita F Y (y) suddividendo
DY = IR in tre intervalli:

y < −1 : Ex (y) = 0 =⇒ FY (y) = 0


Z y
−1 ≤ y < 1 : Ex (y) = (−∞, y] =⇒ FY (y) = fX (x)dx = FX (y)
−∞
Z +∞
y ≥ 1 : Ex (y) = IR =⇒ FY (y) = fX (x)dx = 1.
−∞

Pertanto FY (y) è la funzione

FY (y) = FX (y)U (y + 1) + [1 − FX (y)]U (y − 1),

dove FX (y) = 0.5 + erf(y) è la distribuzione normale in ingresso, calcolata per x = y.


Nell’intervallo −1 ≤ y < +1 la distribuzione in uscita riproduce quella in ingresso
ed ha due discontinuità agli estremi di questo intervallo, con “gradini” di ampiezza
FX (−1) = 0.5 + erf(−1) = 0.1587 (v. Fig. 3.8d).
Per derivazione di FY (y) – che in questo caso deve essere effettuata derivando oppor-
tunamente i prodotti di due funzioni di y – si ottiene la seguente densità di probabilità:

fY (y) = fX (y)U (y + 1) + FX (−1)δ(y + 1) − fX (y)U (y − 1)+


+[1 − FX (1)]δ(y − 1) =
 
1 −y2 /2 1
=√ e [U (y + 1) − U (y − 1)] + + erf(−1) [δ(y + 1) + δ(y − 1)].
2π 2

Questa è una densità mista che ha ancora legge normale standard per y ∈ [−1, 1],
è nulla all’esterno di tale intervallo, e presenta due impulsi uguali per y = ±1 di
intensità p(±1) = 0.1587, che è uguale alla massa di probabilità contenuta in ciascuna
delle due “code” della distribuzione di ingresso che sono state eliminate nella risposta
del sistema (v. Fig. 3.8d).

61
3.2.2 Calcolo diretto della densità
Se è nota fX (x) e se g(x) è continua e derivabile in Dx , si può ottenere direttamente
la densità di probabilità fY (y) applicando il seguente

TEOREMA
Se {x(j) (y)}, j = 1, .., N è l’insieme numerabile delle radici reali dell’equazione

g(x) − y = 0

nella variabile x, allora la densità di probabilità della variabile casuale Y (ω) definita
dalla (4.1) vale:
N
X fX (x(j) (y))
fY (y) = 0 (x(j) (y))|
(3.22)
j=1
|g

dove con g 0 (x(j) (y)) si indica la derivata di g, calcolata per x = x(j) (y). Qualora
esistano valori y per cui l’equazione: g(x) − y = 0 non ammette soluzioni reali, si ha
fY (y) = 0.

g(x)
dy
y

dx 1 dx 2
E x (y)

x(1) x ( 2) x

Figura 3.9

Dimostrazione. Con riferimento alla Fig. 3.9, la probabilità elementare dP che Y (ω)
assuma valori compresi tra y e y + dy vale

fY (y)dy = P (y < Y ≤ y + dy) = P [y < g(X) ≤ y + dy] =


= P [x(1) − |dx1 | < X ≤ x(1) ]+
+P [x(2) < X ≤ x(2) + dx2 ] = fX (x(1) )|dx1 | + fX (x(2) )dx2

dove x(1,2) sono le due radici reali che si ricavano dall’equazione g(x)−y = 0, e inoltre:
dxj = dy/g 0 (x(j) ), j = 1, 2, sono gli incrementi elementari subiti dalla variabile reale
x a seguito di un incremento positivo dy della variabile dipendente. Pertanto:

fX (x(1) ) fX (x(2) )
 
fY (y)dy = + dy
|g 0 (x(1) )| |g 0 (x(2) )|
che, dividendo per dy, dimostra la (3.22) con N = 2.

62
Esempio 3.5: Caratteristica con legge quadratica
Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in D x =
[−1, 1], con la legge quadratica:
g(x) = x2 .
Scelto un generico y ∈ IR, i valori di x ∈ Dx che soddisfano la condizione: x2 ≤ y
√ √
appartengono al dominio Ex (y) = [− y, y] se 0 ≤ y ≤ 1, e per la formula (3.21) si
ricava Z √y
√ √
FY (y) = √ fX (x)dx = FX ( y) − FX (− y).
− y

Se la distribuzione in ingresso è uniforme in −1 ≤ x ≤ 1, si ha in tale intervallo:


fX (x) = 1/2; FX (x) = (x + 1)/2 e quindi:
√ √
y+1 − y+1 √
FY (y) = − = y, 0 ≤ y ≤ 1. (3.23)
2 2

g( x) f ( y)
Y

y f X (x )

0.5
E x ( y)

- y 0 y x -1 0 1

Figura 3.10 - Trasformazione con legge quadratica

La densità fY (y) si può calcolare per derivazione, oppure applicando direttamente la


(3.22) come segue. Assegnato y ∈ IR, le radici dell’equazione g(x) − y = x 2 − y = 0
sono:
√ √
x(1) (y) = − y; x(2) (y) = y
e sono reali solo se y ≥ 0. Poichè Dx = [−1, 1], si hanno due soluzioni distinte per
0 ≤ y ≤ 1. Dunque il dominio Dy è l’intervallo [0, 1] e in esso, tenuto conto che
√ √
g 0 (x(1) ) = 2x(1) = −2 y; g 0 (x(2) ) = 2x(2) = 2 y,

la densità incognita vale:


 
1 √ √ 1 1 1 1
fY (y) = √ [fX (− y) + fX ( y)] = √ + = √
2 y 2 y 2 2 2 y

che coincide con la derivata della (3.23).

63
3.2.3 Trasformazioni invertibili
La (3.22) si modifica in una formula assai notevole (Teorema del cambio di variabile)
quando la caratteristica del sistema è una funzione g(x) che, oltre ad essere continua
e derivabile, è anche invertibile in Dx . In tale ipotesi, l’equazione g(x) − y = 0 ha al
più una sola radice reale x(1) = g −1 (y) coincidente con la funzione inversa di g(x).
Per il teorema di derivazione delle funzioni inverse, vale l’identità

1 dg −1 (y)
=
g 0 (x(1) (y)) dy

che, sostituita nella (4.3) con N = 1, porta al risultato:


−1
−1
dg (y)
fY (y) = fX [x = g (y)] . (3.24)
dy

Anche la determinazione diretta della funzione di distribuzione F Y (y) si risolve, nel


caso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzione
è però necessario distinguere i due casi seguenti.
• g(x) invertibile e crescente in Dx : il dominio Ex (y) è l’intervallo aperto a sinistra:

Ex (y) = {x ∈ Dx : g(x) ≤ y} = (−∞, g −1 (y)]

per cui si ricava


Z g −1 (y)
FY (y) = fX (x)dx = FX [g −1 (y)]. (3.25)
−∞

• g(x) invertibile e decrescente in Dx : il dominio Ex (y) è l’aperto a destra

Ex (y) = {x ∈ Dx : g(x) ≤ y} = [g −1 (y), +∞)

e di conseguenza:
Z ∞
FY (y) = fX (x)dx = 1 − FX [g −1 (y)]. (3.26)
g −1 (y)

Esempio 3.6: Generazione di numeri casuali


Applicando la teoria delle trasformazioni invertibili, è possibile determinare la carat-
teristica che deve avere un dispositivo da utilizzare per trasformare un ingresso ca-
suale in una uscita avente prescritte proprietà statistiche. Si assuma che l’ingresso
sia dotato di densità continua in DX ⊆ R. La sua funzione di distribuzione FX (x) è
allora una funzione continua, monotona crescente in R. Se la funzione caratteristica
g(x) del dispositivo in cui è immesso il segnale coincide con FX (x), in uscita si ricava
per la (3.25):
Z g −1 (y)
FY (y) = fX (x)dx = FX [g −1 (y)] = FX [F −1 (y)] = y
−∞

64
con y ∈ [0, 1]. Inoltre, si constata subito che per y < 0 è FY (y) = 0, e per y > 1 si
ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita è quella di una variabile
casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivo genera numeri
casuali equiprobabili in tale intervallo.

f Y( y )
fX( x ) g( x )
1
1
y

FX ( x )

E ( y) 0 0
x X F -1
X
(y) x 1 y

g( x )
F -1 ( x )
Y
fX( x ) y f Y( y )
1 E ( y)
X
0 1 x
F ( y)
Y
0 1 x y

Figura 3.11 - Generazione di numeri casuali

Inversamente, proponiamoci di generare una uscita casuale continua Y (ω) con una
assegnata funzione di distribuzione FY (y) anch’essa, ovviamente, monotona crescente
e quindi invertibile in DY ⊆ R. Allo scopo, è sufficiente trasformare un ingresso
uniformemente distribuito in DX = [0, 1] con un dispositivo avente caratteristica
g(x) = FY−1 (x) uguale alla inversa della funzione caratteristica richiesta in uscita.
Infatti per tale trasformazione si ha:

Ex (y) = {x ∈ [0, 1] : g −1 (x) < y} = [0, FY (y)].

Quindi, tenuto conto che fX (x) = 1 in [0, 1], la funzione di distribuzione in uscita,
che si calcola ancora con la (3.25), vale:
Z FY (y)
1 · dx = FY (y)
0

che è la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiti


con continuità nell’intervallo DY = [0, 2] con densità fY (y) = y/2, si calcola anzi-
tutto la corrispondente funzione di distribuzione FY (y) = y 2 /4, e si determina la
caratteristica √
g(x) = FY−1 (x) = 2 x.

65
Il dispositivo che √trasforma un segnale uniformemente distribuito in [0,1] secondo
la legge g(x) = 2 x ha in uscita segnali casuali con la distribuzione probabilistica
richiesta. Infatti
g −1 (y)
y2 y2 dFY (y) y
Z
−1
g (y) = ; FY (y) = dx = ; fY (y) = = .
4 0 4 dy 2

3.2.4 Momenti di Y (ω) = g[X(ω)]


Una volta determinata la densità della funzione di variabile aleatoria, i suoi momenti
di ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione:
Z
q
E{Y } = y q fY (y)dy. (3.27)
DY

Tuttavia, qualora non interessi calcolare esplicitamente la densità f Y (y) ma solo


alcuni suoi momenti, è possibile determinarli direttamente utilizzando la conoscenza
della densità del segnale di ingresso. A tal fine si utilizza la formula seguente:
Z
q
E{Y } = g q (x)fX (x)dx (3.28)
Dx

che definisce il momento di ordine q di una generica funzione g della variabile casuale
dotata di densità fX (x). Si può facilmente dimostrare la (3.28) nell’ipotesi che g(x)
sia invertibile. Infatti, utilizzando infatti la (3.24) e integrando per sostituzione si
ha:
−1
dg (y)
Z Z
q q q −1
E{Y }) = y fY (y)dy = y fX (x = g (y)) dy =
Dy Dy dy
−1
dg dy
Z Z
q
= g (x)fX (x) · dx = g q (x)fX (x)dx.
Dx dy dx Dx

In particolare, il valor medio mY si può calcolare come segue:


Z
mY = E{Y } = g(x)fX (x)dx (3.29)
DX

e la varianza con la nota formula:

σY2 = E{Y 2 } − m2Y

dove il momento di ordine q = 2 è dato da


Z
2
E{Y } = g 2 (x)fX (x)dx.
Dx

66
3.2.5 Trasformazioni lineari
Un sistema lineare opera la trasformazione dell’ingresso X(ω) con legge: g(x) =
ax + b dove a, b ∈ R sono costanti ed a 6= 0. Si tratta dunque di una particolare
trasformazione invertibile in DX (−∞, +∞), in cui

y−b dg −1 (y) 1
g −1 (y) = ; = = cost.
a dy a
Per la (3.24) la densità di probabilità in uscita vale:
 
y−b 1
fY (y) = fX x = · (3.30)
a |a|
e, a meno di un fattore costante, ha la medesima legge probabilistica dell’ingresso
X(ω). Questo risultato mostra una rilevante proprietà dei sistemi lineari: essi non
alterano la legge probabilistica del segnale di ingresso: Se ad esempio X(ω) è un
segnale gaussiano, essi restituiscono in uscita un segnale che è ancora gaussiano,
sebbene con momenti diversi.
Il valor medio del segnale di uscita da un sistema lineare vale, per la (3.29):
Z
mY = (ax + b)fX (x)dx = a · mX + b
Dx

ed è perciò calcolabile immediatamente, come funzione lineare del valor medio m X


della variabile aleatoria di ingresso. Il momento del secondo ordine risulta:
Z
2
E{Y } = (a2 x2 + 2abx + b2 )fX (x)dx = a2 E{X 2 } + 2abmX + b2 ,
DX

per cui la varianza di Y (ω) vale:

σY2 = E{Y 2 } − m2Y = a2 [E{X 2 } − m2X ] = a2 σX


2
. (3.31)

Essa è uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata
per a2 .

Esempio 3.7
1) Distribuzione parabolica in [a, b]. Si è visto nel §2.3.12 che la distribuzione
parabolica sul supporto {x ∈ [0, 1]} è una particolare distribuzione Beta con den-
sità fX (x) = 6x(1 − x). Per determinare una densità di probabilità parabolica F Y (y)
su un supporto limitato generico [a, b], è sufficiente operare la trasformazione lineare:

y = g(x) = a + (b − a)x, y ∈ [a, b]

la cui inversa vale


y−a dg −1 (y) 1
x = g −1 (y) = , = .
b−a dy b−a

67
Applichiamo quindi la (3.30) per ottenere:

1 6
(
fY (y) = f [x = g −1 (y)] = (y − a)(b − y), y ∈ [a, b]
|b − a| (b − a)3
0 altrove.

2) Nel circuito di Fig. 3.12, percorso da una corrente I di 0.02 Ampere, le resistenze
valgono ro = 500 Ohm e r1 = 1000 ± 10% Ohm. La tolleranza con cui si conosce
il valore di r1 suggerisce di considerare quest’ultima come una variabile casuale di-
stribuita nell’intervallo 900 ≤ r1 ≤ 1100 con legge parabolica. Si vuole valutare in
termini probabilistici la differenza di potenziale V (ω) e la conduttanza Γ(ω) = 1/r 1 .

r0

r1 I

Figura 3.12

La densità di probabilità della resistenza r1 si determina applicando la formula ap-


pena ricavata al punto 1):

6 3  r1  r1 
fR (r1 ) = (r 1 − 900)(1100 − r 1 ) = − 9 11 − , r1 ∈ [900, 1100].
2003 400 100 100

La differenza di potenziale è la funzione:

V (ω) = g(r1 ) = I(ro + r1 ) = 10 + 0.02r1 (ω),

anch’essa definita da una trasformazione lineare, la cui densità di probabilità si ricava


subito applicando la (3.30):

dg −1
r1 = g −1 (V ) = 50(V − 10); = 50
dV

3
fV (V ) = fR [r1 = 50(V − 10)] · 50 = (V − 28)(32 − V )
32
e rappresenta una distribuzione parabolica nell’intervallo 28 ≤ V ≤ 32 Volt. Il suo
valor medio è mV = 28 + 4mX = 30 Volt, e la sua varianza vale, per la (3.31):
σV2 = 16σX
2
.

68
f(V ) f( G )

28 32 V 1 1 G
1100 900
Figura 3.13

La conduttanza è definita dalla trasformazione


1
Γ(ω) = g[X(ω)] =
900 + 200x

che è invertibile in DX = [0, 1]. La trasformazione inversa è

1 9 dg −1 (Γ) 1
x = g −1 (Γ) = − ; =−
200Γ 2 dΓ 200Γ2
e applicando la (4.5) conduce alla seguente densità di Γ(ω):
  
1 9 1 9 1
f (Γ) = 6 − 1− + =
200Γ 2 200Γ 2 200Γ2
  
3 1 1
= − 900 1100 −
(200Γ)2 Γ Γ

che ha come supporto l’intervallo DΓ = [1/1100, 1/900]. Per la non-linearità della


trasformazione, questa distribuzione non è più simmetrica in D Γ (v. Fig. 3.13).
Infatti il suo valor medio si può ottenere applicando la (3.29):
1  
x(1 − x) 3 99 9
Z
mΓ = 6 dx = 5+ log ' 0.001002
0 900 + 200x 100 4 11

ed è minore del punto medio dell’intervallo DΓ . In modo analogo si calcola la varianza


di Γ(ω), che risulta:
1
x(1 − x)
Z
σΓ2 2
= E{Γ } − m2Γ =6 2
dx − m2Γ =
0 (900 + 200x)
 
6 11
= 10 log − 2 − m2Γ ' 2.0393 · 10−9 .
(200)2 9

69
f d (d)

q
0 Dd d 0 d 3A A
2

Figura 3.14 - Moto aleatorio di un grave

Esempio 3.8: traiettoria di un grave


Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenza
dell’aria) con una velocità iniziale v nella direzione individuata dall’angolo ϑ indicato
in Fig. 3.14. Se ϑ(ω) è una variabile aleatoria uniformemente distribuita in D ϑ =
[π/6, π/3], la distanza d del punto di caduta è la funzione di variabile aleatoria
d(ω) = g[ϑ(ω)] = A sin 2ϑ(ω)
2
con A = v /g, dove g è l’accelerazione di gravità. Poiché g(ϑ) non è invertibile in D ϑ ,
cerchiamo le radici dell’equazione: A sin 2ϑ − d = 0 appartenenti a D ϑ . Esse sono:
1 d π 1 d
ϑ(1) (d) = arcsin ; ϑ(2) (d) = − arcsin
2 A 2 2 A

e sono reali, non coincidenti, se 3A/2 ≤ d < A. In tale intervallo si ha
p
g 0 (ϑ(1) ) = 2A cos 2ϑ(1) = 2 A2 − d2 ; g 0 (ϑ(2) ) = −g 0 (ϑ(1) )
e quindi, per la (3.22):
1
fd (d) = √ [fϑ (ϑ(1) (d)) + fϑ (ϑ(2) (d))].
2 A −d2 2

Poiché fϑ (ϑ) = 6/π = cost, si ottiene



6 3
fd (d) = √ , per ≤d<A
2
π A −d 2 A
mentre fd (d) = 0 al di fuori di tale intervallo. Il valor medio di d(ω) si calcola
agevolmente applicando la (3.29):
Z π/3
6 3A
md = A sin 2ϑ · dϑ =
π/6 π π
e per la sua varianza si ottiene:
π/3
√ !
6A2 1 3 3 9
Z
2 2 2
σd = E{d } − md = sin2 2ϑdϑ − m2d = A2 + − 2 .
π π/6 2 4π π

70
CAPITOLO QUARTO

STATISTICA DESCRITTIVA

4.1 INTRODUZIONE

Una valutazione approssimata della misura di probabilità da assegnare a un evento


casuale si può effettuare in modo empirico se, sulla base della definizione frequen-
tista di probabilità già accennata nella Introduzione del Capitolo I, si determina
la frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Se
l’esperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popo-
lazione (o universo), ovvero di un generico insieme di N oggetti o individui (con N
che può anche essere infinito), il risultato di n prove è una serie di dati, la cui ana-
lisi porta a determinare una legge di probabilità empirica per la caratteristica della
popolazione che vogliamo studiare.
E’ bene precisare subito che le serie di dati da esaminare statisticamente sono quelle
che si deducono dalla osservazione di un campione della popolazione, ossia di un
numero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risul-
tati attendibili sulle caratteristiche dell’intera popolazione, occorre perciò che i cam-
pioni siano adeguatamente scelti in modo da essere effettivamente rappresentativi
dell’universo dal quale sono stati estratti. In secondo luogo, occorre sviluppare i
metodi che attraverso l’analisi dei campioni consentano di stimare in modo attendibile
le caratteristiche o parametri della popolazione che si intende esaminare. Il campio-
namento e i metodi di stima dei parametri sono oggetto della Statistica inferenziale,
di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo ci limiteremo, in
via preliminare, ad esporre le tecniche in uso per l’organizzazione degli n dati raccolti,
e per la rappresentazione delle probabilità empiriche che da essi si deducono.
Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteri
qualitativi della popolazione, consistenti in certe caratteristiche di natura non nu-
merica (come ad esempio il colore, il grado di istruzione, l’attività professionale, la
preferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, la

71
lunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile. A
loro volta, i caratteri quantitativi possono essere discreti se assumono solo un numero
limitato di valori, oppure continui con valori in un assegnato intervallo di IR.
Nei riguardi dei possibili risultati dell’esame di un carattere qualitativo, che sono
chiamati modalità, osserviamo che in certi casi essi sono comunque suscettibili di un
ordinamento (come ad esempio il grado di istruzione sopra citato), mentre spesso
non hanno alcun ordinamento rispetto alle altre modalità (il colore, il sesso,...). In
entrambi i casi, è sempre possibile associare a ciascuna modalità un numero reale, in
modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile ad un
insieme di numeri reali, definito su un sottoinsieme (discreto) di IR.
Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di dati relativi
a tutti quei caratteri di una popolazione che siano comunque rappresentabili con punti
discreti dell’asse reale, oppure appartenenti ad uno o più intervalli di IR.

4.2 DISTRIBUZIONI DI FREQUENZE

Consideriamo dunque una serie di n dati numerici {x1 , x2 , . . . , xn } ricavati da al-


trettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo
carattere quantitativo X continuo, oppure discreto ma con un numero elevato di
modalità. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori
empirici. Indicato con ∆ ⊆ IR l’insieme delle modalità del carattere, definiamone una
partizione {∆i }, i = 1, . . . , m in m classi tra loro disgiunte, tale che la loro unione
coincida con ∆, e con intervalli ∆i aperti a destra:
[
∆i = [ai , bi ), ∆= ∆i , ∆i ∩ ∆j = , i 6= j = 1, 2, .., m.
i
Ad ogni classe ∆i , avente ai e bi come confini inferiore e superiore, si associa poi la
sua ampiezza bi − ai (non necessariamente uguale per ogni indice i) e il suo valore
centrale xi che è la semisomma dei suoi confini.
La scelta delle classi ∆i è arbitraria, ma deve essere fatta in modo da ottenere una
rappresentazione significativa dei dati raccolti sul carattere da studiare: è preferibile
che il loro numero sia elevato, ma nello stesso tempo occorre evitare di definire
intervalli parziali che contengano pochi dati della serie. Di regola, è bene che i
dati in ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi
che non si scosti troppo dalla parte intera di m0 = 1 + (10/3) log10 n.
Se la serie si riferisce a un carattere discreto con modalità appartenenti all’insieme
IN dei numeri naturali, si può assumere queste modalità come valori centrali di al-
trettante classi di ampiezza uguale e unitaria.
Poiché per definizione ogni dato raccolto appartiene ad una ed una sola classe ∆ i
della partizione, si può procedere al calcolo delle seguenti quantità:
• la frequenza assoluta ni di ciascuna classe (a volte chiamata anche “incidenza”)
che è il numero di elementi della serie che appartengono alla classe ∆ i . Si noti che
si avrà: n1 + n2 + . . . + nm = n;

72
• la frequenza relativa fi = ni /n di ciascuna classe, detta anche probabilità empirica,
e tale che f1 + f2 + . . . + fm = 1.
• la frequenza cumulata Ni , somma delle prime i frequenze assolute:
i
X
Ni = n1 + n2 + .. + ni = nj ;
j=1

• la frequenza cumulata relativa Fi , somma delle prime i probabilità empiriche:


i
Ni 1X
Fi = f1 + f2 + . . . + f i = = nj .
n n j=1

Con i dati raccolti si può costruire un istogramma che rappresenta la distribuzione


delle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulle
ascisse le varie classi ∆i , e sulle ordinate i valori della funzione costante a tratti:
ni
ϕn (x) = , x ∈ ∆i , i = 1, .., m
∆i
che misura la frequenza assoluta per unità di ampiezza della classe ∆ i . Per semplicità
di scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo ∆ i
sia la i-esima classe, sia la misura della sua ampiezza bi − ai . In tal modo ciascun
rettangolo dell’istogramma ha un’area proporzionale alla frequenza assoluta n i , e la
sua area totale è proporzionale alla numerosità n della serie di dati.
In modo analogo si può costruire l’istogramma delle frequenze relative, chiamato
anche distribuzione delle probabilità empiriche. Esso si ottiene riportando la funzione
costante a tratti:
ni fi
fn (x) = ≡ , x ∈ ∆i , i = 1, .., m
n∆i ∆i
e la sua area complessiva è uguale ad 1 (ovvero alla probabilità dell’evento certo). Una
distribuzione di frequenze relative, riguardante il campione esaminato nell’Esempio
4.1 che segue, è mostrata in Fig. 4.2. Al crescere della numerosità n del campione
e per intervalli parziali ∆i sufficientemente piccoli, la funzione fn (x) sarà una buona
approssimazione della densità di probabilità fX (x) di quel particolare carattere X
della popolazione da cui è stato estratto il campione. Se la popolazione è composta
da infiniti elementi, nel passaggio al limite si ha:
ni
Z
lim ≡ lim fi = IP(X ∈ ∆i ) = fX (x)dx.
n→∞ n n→∞ ∆i

Agli istogrammi delle frequenze si possono associare:


• il poligono delle frequenze relative, che unisce le ordinate fn (xi ) calcolate in cor-
rispondenza dei valori centrali xi delle singole classi (v. Fig. 4.2). Se si effettua
il doppio passaggio al limite di fn (xi ) per n → ∞ e ∆i → 0, ∀ i, il poligono delle
frequenze relative tende al grafico della densità fX (x) del carattere X dell’intera
popolazione;

73
• il grafico delle frequenze cumulate Ni e delle frequenze cumulate relative Fi . Un
esempio di quest’ultimo è mostrato in Fig. 4.3. Al crescere di n e per ∆ i sufficien-
temente piccoli, esso approssima il grafico della funzione di distribuzione cumulata
FX (x) della variabile casuale X(ω) che rappresenta il carattere della popolazione
oggetto di studio.
• Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiamato
ogiva, il quale è la spezzata che unisce i punti (sup ∆i , Ni ) di ogni classe, a partire
dal punto (a1 , 0) coincidente con l’estremo inferiore della prima classe. Con lo stesso
criterio, si costruisce anche l’ogiva percentuale che unisce i punti (sup ∆ i , Fi ) nella
distribuzione delle frequenze cumulate relative. L’ogiva percentuale (v. Fig. 4.3)
fornisce una immediata valutazione approssimata (per difetto) della percentuale
di elementi del campione che hanno un valore minore o uguale a una quantità
prefissata.

4.3 INDICI DI TENDENZA CENTRALE E DI DISPERSIONE

4.3.1 Medie, moda, mediana, quantili


Cosı́ come nel calcolo delle probabilità si usano i momenti per individuare alcune
proprietà rappresentative della distribuzione probabilistica di una variabile aleato-
ria, nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le
distribuzioni di frequenze.
• La media pesata
m
1X
x= n i xi (4.1)
n i=1
dove xi è il valore centrale delle classi. Se la serie di dati non è raggruppata in
classi, in modo che m ≡ n e ni = 1 per ogni i, allora x è la media aritmetica, che
in generale non è uguale alla media pesata.
• La media spuntata xt (trimmed mean), che è la media dei dati calcolata con-
siderando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa si deter-
mina ordinando anzitutto la serie dei dati secondo la sequenza crescente:

x1 ≤ x 2 ≤ x 3 ≤ . . . ≤ x n (4.2)

Si eliminano il primo 5% e l’ultimo 5% dei dati della serie cosı́ ordinata, e si effettua
la media (4.1) dei rimanenti.
• La moda (Mo), che è il valore centrale della classe con la frequenza più elevata. Se
esiste più di una classe con un valore massimo delle frequenze, la distribuzione è
detta multimodale e questo parametro perde il suo significato di indice di posizione
centrale.
• La mediana x̃, che si può definire come il valore di x che divide in parti uguali
la superficie coperta dall’istogramma delle frequenze relative. Se i dati x i sono n
determinazioni del carattere X(ω), la mediana è tale che

IP(X ≤ x̃) = IP(X > x̃) = 1/2.

74
Per calcolarla bisogna fare riferimento alla serie di dati ordinata come nella (4.2), e
si determina la classe ∆k = [ak , bk ) con indice k = 1, 2, . . . , m alla quale appartiene
l’(n/2)-esimo dato nella serie cosı́ ordinata, se n è pari, oppure l’(n + 1)/2-esimo dato
della serie, se n è dispari.
Se nk , fk sono la frequenza assoluta e relativa di questa classe e Nk−1 , Fk−1 sono le
frequenze cumulate della classe che la precede, allora per la definizione di mediana
deve essere: Z x̃
1 Nk−1 nk Nk−1 nk
= + dx = + (x̃ − ak )
2 n ak n∆k n n∆k
per cui il valore delle mediana risulta:
 
∆k  n  ∆k 1
x̃ = ak + − Nk−1 = ak + − Fk−1 . (4.3)
nk 2 fk 2
Quando la serie di dati non è raggruppata in classi, allora:
− se n è dispari, la mediana x̃ coincide con il dato che occupa la (n + 1)/2-esima
posizione nella serie ordinata;
− se n è pari, la mediana è la media aritmetica tra i due dati della serie ordinata che
occupano la (n/2)-esima posizione e quella successiva.
Per distribuzioni unimodali (in cui l’istogramma delle frequenze ha un solo massimo)
e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale
ciò non avviene.
• Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici
di posizione chiamati quantili o frattili, i quali suddividono l’asse reale (sul quale
si riportano le modalità del carattere) in due intervalli con probabilità assegnata.
Precisamente, dato il reale q ∈ [0, 1], si chiama quantile q-esimo del carattere X(ω)
il valore xq ∈ IR tale che
IP(X ≤ xq ) = FX (xq ) = q
ovvero: è il valore massimo delle modalità per cui la frequenza cumulata relativa
non supera il valore q.
Se la funzione di distribuzione cumulata FX (x) di X(ω) è continua e invertibile, allora
−1
si deduce subito che xq = FX (q). Se espressi in percentuale, i quantili vengono
chiamati percentili, e inoltre in casi particolari assumono anche nomi affini. Ad
esempio: il decimo quantile x0,1 è chiamato primo decile; il quantile x0,25 è il primo
quartile; il quinto decile x0,5 non è altro che la mediana x̃, e cosı́ via.
Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine
q si determina come per la mediana. Precisamente, indicata con ∆k la classe cui
appartiene l’(n · q)-esimo dato, se n è pari, oppure l’(n + 1) · q-esimo dato, se n è
dispari, allora ripetendo il calcolo già fatto per la mediana risulta:
∆k ∆k
xq = a k + (nq − Nk−1 ) = ak + (q − Fk−1 ) (4.30 )
nk fk
che si riduce alla (4.3) per q = 0.5.

75
Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q si
definisce come quel dato che è preceduto da (n · q) dati della serie ordinata. Quindi
si trova nella (n + 1) · q-esima posizione della sequenza x1 < x2 < . . . < xk < . . . xn ,
e si calcola come segue:
- se (n + 1)q è un numero intero, allora xq coincide con l’(n + 1)q-esimo dato xk con
k = (n + 1)q;
- se (n + 1)q non è intero ed è compreso tra gli interi k e k + 1, si assume come
quantile xq la media aritmetica tra i dati xk e xk+1 della serie ordinata.
• Media mobile. Si usa di frequente per analizzare le serie temporali che si ottengono
nel rilevamento di dati su fenomeni caratterizzati da una qualche periodicità (set-
timanale, mensile o stagionale, come ad esempio il traffico urbano o aeroportuale,
la vendita di quotidiani,...) per evitare che le fluttuazioni periodiche dei dati rac-
colti impediscano di mettere in evidenza le tendenze a medio e lungo termine che
interessa rilevare. Data la serie temporale {x1 , x2 , . . . , xn }, la sua media mobile
x̄t+h su ogni sequenza di k dati consecutivi è definita da

k
X X
x̄M (t + h) = pj xt+j , con t = 0, 1, 2, . . . , n − k ; pj = 1 (4.3”)
j=1 j

dove: k indica la periodicità delle rilevazioni; h (compreso tra 1 e k) è un indice


che determina la collocazione delle medie mobili all’interno dell’intervallo di k dati
della serie (di solito: h = 1; h = (k + 1)/2 se k è dispari; oppure h = k); e infine
pj sono pesi che di solito si scelgono costanti (pj = 1/k, ∀j) ma che possono anche
essere scelti arbitrariamente per rappresentare nel modo più adeguato il particolare
fenomeno rilevato con la serie statistica.
Ad esempio, data la serie temporale raccolta in quattro settimane di osservazioni
giornaliere xi che è riportata nella seconda colonna della Tabella, la media mobile
settimanale (k = 7) dei dati, calcolata in modo che ogni valore sia collocato al centro
dell’intervallo di dati di riferimento (h = (k + 1)/2 = 4), e assumendo pesi costanti
pj = 1/7, ha il valore indicato nella quarta colonna e il suo grafico è mostrato in
Figura 4.1.

media media
i xi t i xi t
mobile mobile
1 4 15 8 11 8,28
2 5 16 5 12 7,71
3 3 17 2 13 7,43
4 6 0 6,43 18 7 14 7,86
5 8 1 7,00 19 8 15 7,51
6 12 2 7,28 20 11 16 7,86
7 10 3 7,71 21 14 17 8,86
8 5 4 8,14 22 8 18 9,57
9 7 5 8,71 23 5 19 10,71
10 6 6 8,86 24 9 20 11,14
11 9 7 9,00 25 12 21 11,00
12 12 8 9,43 26 16
13 13 9 9,14 27 14
14 11 10 8,57 28 13

76
serie temporale
15

media
mobile
10

1 7 14 21 28

Figura 4.1

4.3.2 Indici di dispersione


Quando i dati sono raggruppati in classi, l’indice di dispersione centrale della distri-
buzione di frequenze è la varianza:

m
2 1X
σ = ni (xi − x)2 (4.4)
n i=1

ovvero la somma dei quadrati degli scarti xi − x tra ogni valore centrale e la media
pesata della distribuzione. La sua radice quadrata positiva σ è lo scarto quadratico
medio o deviazione standard della distribuzione.
Si chiama inoltre coefficiente di variazione il numero puro Cv = σ/x, rapporto tra la
deviazione standard e la media dei dati.
Se gli n dati xi non sono raggruppati in classi, la loro varianza è diversa dalla (4.4),
e vale:
n
2 1X
σ = (xi − x)2 . (4.40 )
n i=1

Una interessante proprietà di quest’ultima varianza (4.4’) è la seguente. Supponiamo


che i dati osservati si riferiscano a un miscuglio di m gruppi A i , i = 1, . . . , m (come
caso molto speciale, questo miscuglio può anche identificarsi con l’insieme delle classi
∆i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni , la media
aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente:

ni fi
1 X 1 X
x Ai = xr , σi2 = (xr − xAi )2 . (4.4”)
ni r =1 i fi r =1 i
i i

Il parametro:
m
2 1X
σW = ni σi2
n i=1

77
è la media pesata delle varianze calcolate all’interno (“within”) dei singoli gruppi,
e si avvicina alla varianza (4.4’) se tutti i gruppi riproducono in modo omogeneo la
dispersione che caratterizza gli n dati osservati. Il parametro:
m
2 1X
σB = ni (xAi − x)2
n i=1

è la varianza delle singole medie rispetto alla media aritmetica, ed è un indice della
eterogeneità tra (“between”) i vari gruppi. Con alcuni calcoli si può dimostrare che
la varianza (4.4’) si può scomporre nella somma delle due precedenti:

σ 2 = σW
2 2
+ σB ,

per cui si può sinteticamente esprimere come la somma tra la media delle varianze
2 2
e la varianza delle medie. Il confronto tra i valori di σW e σB può essere utile per
effettuare una scelta corretta di un campione della popolazione, secondo le procedure
che verranno illustrate nel prossimo Capitolo.
Il momento centrale di ordine 3 di una distribuzione è, per definizione:
m
1X
m3 = ni (xi − x)3 . (4.5)
n i=1

Quest’ultimo è utile per calcolare il coefficiente di asimmetria della distribuzione di


frequenze, il quale è il numero puro:

α3 = m3 /σ 3 (4.6)

dove σ è lo scarto quadratico medio della distribuzione. Questo coefficiente è nullo


se la distribuzione è simmetrica; è negativo se è asimmetrica “a sinistra” (ciò si
verifica quando la moda è minore della mediana e della media); ed è positivo se la
distribuzione di frequenze è asimmetrica “a destra”.

Esempio 4.1
Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a caso
da una popolazione. La sequenza degli n = 100 valori osservati x i , ordinata come
nella (4.2), è la seguente:

59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02,
65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9,
66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35,
67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17,
68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78,
68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8,
70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, 74.2.

78
Poichè il minimo vale 59.6 Kg e il massimo è 74.2 Kg, scegliamo un intervallo ∆ =
[59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di eguale
ampiezza ∆i = 3 (sebbene per la regola citata in precedenza il numero di classi più
adeguato sarebbe 8 perchè m0 = 1 + (10/3) · 2 = 7.6). Utilizzando le osservazioni
fatte si può costruire la seguente tabella di contingenza:

i classe D i xi ni fi Ni Fi fi
Di

1 [59.5 , 62.5) 61 5 0,05 5 0,05 0,0166

2 [62.5 , 65.5) 64 18 0,18 23 0,23 0,06

3 [65.5 , 68.5) 67 42 0,42 65 0,65 0,14

4 [68.5 , 71.5) 70 27 0,27 92 0,92 0,09

5 [71.5 , 74.5) 73 8 0,08 100 1,00 0,0266

la quale riporta: i valori centrali, le frequenze assolute e relative e quelle


P cumulate, per
ognuna
P delle classi scelte. Dalla tabella si può notare subito che i ni = 100 = n e
i fi = 1. L’ultima colonna serve per costruire l’istogramma delle frequenze relative
che è mostrato in Fig. 4.2. L’ogiva percentuale è invece mostrata in Fig. 4.3.
Valutando la sua ordinata per x = 70, si ricava che almeno l’80% degli individui
del campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serie
ordinata, è 84%).
La moda della distribuzione di frequenze è x̃ = 67 (il valore centrale della classe in
cui ni è massima). La media pesata vale:
1
x= (61 · 5 + 64 · 18 + 67 · 42 + 70 · 27 + 73 · 8) = 67.45,
100
mentre la media aritmetica dei dati è 67.5275. La media spuntata è più vicina alla
media aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori,
perché si ottiene “tagliando le code” della serie, ossia sopprimendo i primi 5 dati e
gli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale:
1
xt =[64 · 18 + 67 · 42 + 70 · 27 + 73 · (8 − 5)] = 67.50.
90
La mediana cade nella terza classe, e applicando la (4.3) con k = 3 si ricava:
3
x̂ = 65.5 + (50 − 23) = 67.42.
42
La varianza definita dalla (4.4) vale:
5
2 1 X
σ = ni (xi − 67.45)2 = 8.5275,
100 i=1

79
0.15
fi
Di
0.10
Di

0.05

xx
0 61 64 67 70 73 Kg

Figura 4.2

1
Fi

0.75

ogiva percentuale
0.50

0.25

0 61 64 67 70 73 Kg

Figura 4.3

mentre quella relativa ai 100 dati non raggruppati, definita dalla (4.4’), vale 8.7092.
Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe
∆i , le loro medie aritmetiche e varianze, fornite dalla (4.4”), valgono:
x∆1 = 60.34 x∆2 = 64.477 x∆3 = 67.233 x∆4 = 69.831 x∆5 = 72.71
σ12 = 0.5984 σ22 = 0.9364 σ32 = 0.85716 σ42 = 0.8446 σ52 = 0.8486.

Si noti, in particolare, che le medie x∆i non sono i valori centrali xi delle classi. Si
ricavano le seguenti varianze “parziali” del miscuglio:
2 2
σW = 0.8547, σB = 7.8545
la cui somma: 0.8547 + 7.8545 = 8.7092 è appunto uguale alla varianza dei dati
2 2
non raggruppati. Poiché σB >> σW si deduce, come d’altra parte è ovvio, che le
cinque classi sono molto eterogenee, ossia che non è possibile assumerne una sola per
rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di
ordine 3 si calcola applicando la (4.5):
5
1 X
m3 = ni (xi − 67.45)3 = −2.6932,
100 i=1

80
per cui il coefficiente di asimmetria (4.6) della distribuzione di frequenze vale:

2.6932
α3 = − p = −0.14.
(8.5275)3

Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la
moda) è minore della frequenza dei dati nelle classi superiori (la quarta e la quinta).

4.3.3 Stem-and-leaf e box-plot


Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana,
dei dati di una serie statistica. Uno di essi è il diagramma stem-and-leaf (“a ramo e
foglia”) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m
classi di uguale ampiezza delle modalità di un carattere quantitativo. Si dispongono
su una colonna (il “ramo”) le prime cifre significative (le centinaia, o le decine o le
unità,...) dell’estremo inferiore di ogni classe, e alla destra di ogni numero incolonnato
si riportano le “foglie”, ovvero la cifra successiva (le decine, o le unità, o i decimi,...)
di ciascun dato xi che appartiene a quella classe. Ne risulta un diagramma di m
righe si completa scrivendo in una prima colonna, posta a sinistra del “ramo”, le fre-
quenze cumulate a partire dalle due classi estreme, in modo che risultino incolonnati
i seguenti valori: N1 , N2 , . . . , 1 − Nm−2 , 1 − Nm−1 . Fa eccezione la riga della classe
che contiene la mediana, nella quale si scrive (tra parentesi) la sua frequenza assoluta
anzichè quella cumulata.
Ad esempio, data la serie statistica degli n = 11 dati seguenti:

1.7 1.9 1.95 2.11 2.2 2.25 2.4 2.52 2.85 3.1 3.35

e suddiviso l’insieme dei dati in m = 3 classi di ampiezza unitaria, questo risulta


rappresentato dal seguente diagramma stem-and-leaf:

unità decimi
3 1 799
(6) 2 122458
2 3 13.

Ovviamente si può costruire più di un diagramma per ciascuna serie di dati, e la scelta
più conveniente è quella che meglio illustra la disposizione dei dati nella serie ordinata,
in modo che il diagramma si presenti come una struttura a barre la cui lunghezza
ricorda, almeno grossolanamente, l’istogramma delle frequenze che si ricava con le
modalità precisate nel §4.2.
Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nell’Esempio
4.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf che
ha come ramo le decine è il seguente:

81
decine unità
2 5 99
5 6 001
9 6 2223
29 6 44444555555555555555
(25) 6 6666666666777777777777777
46 6 888888888888888889999999999999
16 7 0011111111
6 7 223334.

Se però costruiamo il diagramma a partire da un “ramo” che rappresenti le unità,


allora si deve considerare un numero doppio di classi (m = 16) e si ottiene uno
stem-and-leaf plot molto più dettagliato, ma anche più complicato da determinare:

unità decimi
2 59 68
4 60 23
5 61 8
8 62 579
9 63 3
14 64 11349
29 65 011223344566679
39 66 0123566779
(15) 67 012356667788889
46 68 01122333344566779
29 69 0123566677888
16 70 89
14 71 01122358
6 72 02
4 73 028
1 74 2.

Entrambi i diagrammi rappresentano con efficacia l’addensarsi dei dati nell’intervallo


(65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale.
Un altro grafico di semplice esecuzione che si traccia per avere una sommaria indi-
cazione sulla distribuzione dei dati di una serie statistica è il box-plot o diagramma
a scatola.
In una cornice, con base graduata sui valori del carattere rappresentato, si disegna
una “scatola” rettangolare che si estende dal primo quartile x0.25 al terzo quartile
x0.75 1 . Si suddivide poi la scatola in due rettangoli riportando anche il valore della
mediana x0.5 , e si tracciano due segmenti esterni che collegano le parti laterali della
“scatola” ai valori estremi x1 ed xn della serie statistica ordinata (v. Fig. 4.4).
Il grafico che ne risulta indica in modo efficace la dislocazione della metà centrale
dei dati della serie (cioé di quel 50% dei dati che sono contenuti nella “scatola”) e la
eventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cui
la posizione della mediana suddivida la scatola in due parti fortemente disuguali.
1
La differenza x0.75 − x0.25 è chiamata escursione interquartile.

82
a b

1.5 2.0 2.5 3.0 3.5 58 60 62 64 66 68 70 72 74 76

Figura 4.4 - Esempi di diagrammi a scatola

La Fig. 4.4a) mostra il box-plot che rappresenta gli 11 dati della serie statistica sopra
introdotta. Poiché (n + 1)/4 = 12/4 = 3 è intero, il suo primo quartile è il terzo dato
della serie ordinata, e il terzo quartile è il nono dato:

x0.25 = 1.95 ; x0.75 = 2.85.

Quindi la scatola ha una ampiezza uguale all’escursione interquartile 2.85−1.95 = 0.9


ed è suddivisa in due parti disuguali dal valore della mediana x 0.5 = 2.25, che è il
sesto dato della serie ordinata.
La Fig. 4.4b) riporta invece il box-plot relativo alla serie di 100 dati dell’Esempio 4.1.
Poiché (n+1)/2 non è intero, il suo primo quartile è la media aritmetica tra il 25-esimo
e il 26-esimo dato della serie, ovvero x0.25 = 65.6 (questi due dati sono addirittura
uguali); e il terzo quartile è la media aritmetica tra il 75-esimo e il 76-esimo:
69.55 + 69.6
x0.75 = = 69.575.
2
La mediana della serie di dati non raggruppati, che è diversa da quella prima calcolata
applicando la (4.3), è la media aritmetica tra il 50-esimo dato e il 51-esimo:
67.8 + 67.81
x0.5 = = 67.805.
2
Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursione
interquartile e una moderata asimmetria della distribuzione dei dati.

4.4 DISTRIBUZIONI CONGIUNTE DI FREQUENZE

I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti
si possono impiegare anche quando il campione è la collezione di n dati riguardanti
due caratteri differenti di una medesima popolazione, che indichiamo con X e Y . In
tal caso il campione si presenta come un insieme di n coppie

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) (4.7)

83
in cui i numeri reali xk e yk , k = 1, . . . , n, sono le determinazioni di X e di Y . Indicati
con ∆x , ∆y ⊆ IR gli insiemi delle modalità dei due caratteri, suddividiamo ∆ x in m
intervalli, ∆y in ` intervalli, e definiamo una arbitraria partizione di ∆ = ∆ x × ∆y ⊆
IR2 in m · ` classi disgiunte, costituite dai rettangoli

∆ij = [ai , bi ) × [cj , dj ), i = 1, 2, . . . , m; j = 1, 2, . . . , `

aventi come valore centrale il punto

(xi , y j ) = ((ai + bi )/2, (cj + dj )/2).

L‘analisi delle coppie di dati (4.7) porta allora alla valutazione empirica approssimata
delle quantità già definite nel Capitolo 3. Precisamente, si può determinare:
• il numero nij di coppie in cui la modalità di X appartiene all’intervallo [a i , bi )
e quella di Y appartiene all’intervallo [cj , dj ). Questo numero nij è la frequenza
assoluta congiunta della classe ∆ij ;
• la frequenza relativa congiunta fij = nij /n che, se divisa per l’area della classe
∆ij , porta alla costruzione di un istogramma tridimensionale rappresentante la
distribuzione delle probabilità empiriche congiunte;
• la frequenza cumulata congiunta Nij , che è la somma delle frequenze assolute
congiunte delle classi ∆rs con r ≤ i ed s ≤ j ;
• la frequenza cumulata relativa congiunta Fij = Nij /n, che è la somma delle pro-
babilità empiriche congiunte frs con r ≤ i, s ≤ j ;
• le probabilità empiriche marginali dei caratteri X e Y , che sono rispettivamente:

m
1 X̀ 1X
i = 1, . . . , m : fi = nij ; j = 1, . . . , ` : fj = nij .
n j=1 n i=1

L’organizzazione dei dati raccolti nel campione (4.7) si può effettuare costruendo
tabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe
∆ij i valori di una delle grandezze sopra elencate.
Covarianza
Il più importante momento centrale di una distribuzione empirica congiunta è la
covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con
sxy e, in analogia con le (3.19), (3.7) vale:

m m
1 X X̀ 1 X X̀
sxy = nij (xi − x)(y j − y) ≡ nij xi y j − x · y (4.8)
n i=1 j=1 n i=1 j=1

dove xi , y j sono i valori centrali di X e Y nella classe ∆ij , e x, y sono le medie delle
distribuzioni empiriche marginali di X e Y , definite come nella (4.1). Se le modalità

84
delle n coppie di dati (xk , yk ) non sono state raggruppate in classi, allora la covarianza
dei dati si può calcolare con la somma:
n n
1X 1X
sxy = (xk − x)(yk − y) = xk yk − x · y, (4.80 )
n n
k=1 k=1

dove x, y sono le medie aritmetiche dei dati xk e yk . Nel paragrafo che segue vedremo
come, insieme con le varianze marginali di X e Y , la covarianza (4.8) sia di fonda-
mentale importanza per definire, attraverso l’analisi del campione (4.7), il grado di
correlazione lineare esistente tra le modalità dei due caratteri della popolazione che
sono stati esaminati.
Contingenza e indice di connessione
Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale
ipotesi, ogni realizzazione di X non è condizionata dalle realizzazioni di Y o vice-
versa, e ricordando la proprietà (3.12) del Capitolo 3 le frequenze relative congiunte
fij = nij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto:
fi fj = (ni /n)(nj /n) delle probabilità empiriche marginali, per ogni i = 1, . . . , m e
j = 1, . . . , `. E’ assai raro che ciò si verifichi in una generica coppia del campione
esaminato, e per valutare in che misura sia rispettata nel campione questa legge di
indipendenza si può determinare la differenza tra queste due quantità, moltiplicate
per n. Il parametro statistico che ne risulta è
ni nj
cij = nij −
n
e si chiama contingenza della coppia (i, j). Poichè coinvolge unicamente le frequenze
assolute (miste e marginali) delle varie classi, essa si può impiegare anche quando si
è in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza
si riferisce esclusivamente a caratteri quantitativi).
Più utile ai fini pratici è un indice che si basa sulla media quadratica delle contingenze
rilevate per ogni coppia del campione, che prende il nome di indice di connessione χ 2
di Pearson ed è cosı́ definito:
 
m X̀ m X̀ 2
X (nij − ni nj /n) 2 X nij
χ2 = n = n − 1 .
i=1 j=1
n n
i j n n
i=1 j=1 i j

Questo indice, che è nullo solo quando tutti i dati del campione soddisfano rigoro-
samente la già citata legge di indipendenza (3.12), è usato nei test statistici atti a
verificare ipotesi di indipendenza stocastica tra due caratteri qualsiasi di una popo-
lazione.

4.5 REGRESSIONE LINEARE

Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazione


è in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti con

85
coordinate (xk , yk ) forniti dal campione (4.7), si ottiene un cosiddetto diagramma
di dispersione (del tipo che verrà mostrato in Fig. 4.5), dal quale si può in certi
casi intuire che il carattere X influenza il carattere Y . Una valutazione statistica
quantitativa di come ciò avviene si ha solo se si ipotizza una relazione analitica
y = f (x) in cui le modalità di Y sono espresse in funzione di quelle del carattere X,
pensato come una variabile indipendente. La stima di questa funzione è chiamata
regressione di Y su X.
La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa di
solito è anche la più semplice: la funzione lineare. In altre parole, si effettua una
regressione lineare quando si ipotizza che i dati yk forniti dal campione (4.1) siano
deducibili dai dati xk secondo la legge:

y = f (x) = a + bx (4.9)

e si determinano i coefficienti a, b in modo che la stessa descriva “nel miglior modo


possibile” il legame tra i dati osservati nel campione.
La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tra
tutti i valori yk osservati e quelli che si ottengono in funzione di xk dalla relazione
lineare (4.9). Questo scarto quadratico medio vale:
n n
1X 1X
S(a, b) = [yk − f (xk )]2 = (yk − a − bxk )2 (4.10)
n n
k=1 k=1

e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali


n
∂S 2X
= (a − yk + bxk )
∂a n
k=1
n
∂S 2 X
= (bx2k − xk yk + axk )
∂b n
k=1

le quali si annullano per

1X bX

 a− yk + xk = 0
n n



k k
(4.11)
bX 2 1X aX
xk − x k yk + xk = 0.



n n n
k k k

Ricerchiamo i punti di stazionarietà di S(a, b). Dal sistema (4.11) si ricava:

1X bX
a= yk − xk = y − bx
n n
k k
bX 2 1X
xk − xk yk + x(y − bx) = 0
n n
k k

86
dove x, y sono i valori medi di X, Y . Usando ora l’espressione (4.8’) della covarianza
dei dati, si ottiene:
sxy sxy
a = y − 2 x, b= 2 (4.12)
σx σx
dove σx2 è la varianza della distribuzione marginale di X.
Il punto di stazionarietà (4.12) è un minimo per S(a, b). Infatti, sia le derivate seconde
di S(a, b) che il determinante della matrice Hessiana sono positivi:

∂2S ∂2S 2X 2 ∂2S


= 2; = x k > 0; = 2x
∂a2 ∂b2 n ∂a∂b
k
 2 2 !
∂2S ∂2S ∂ S 1X 2
det(H) = − =4 xk − x2 = 4σx2 > 0.
∂a2 ∂b2 ∂a∂b n
k

Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delle
osservazioni del carattere X secondo la legge lineare (4.9), è fornita dalla retta di
regressione:
sxy
y = y + 2 (x − x) (4.13)
σx
il cui coefficiente angolare è direttamente proporzionale alla covarianza dei dati
(xk , yk ). Se indichiamo con

ξ = x − x, η =y−y (4.14)

gli scarti delle due modalità rispetto alle loro medie aritmetiche, la (4.13) si scrive
più semplicemente:
η = bξ (4.130 )
che nel piano traslato (ξ, η) con origine in (x, y) è l’equazione della retta di regressione
per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella
(4.12), si chiama coefficiente di regressione lineare di Y su X, ed è il parametro più
importante nella stima della regressione che abbiamo effettuato: esso è una misura
della variazione del carattere Y per una assegnata variazione del carattere X.
La legge lineare (4.13) non è esatta: esiste una differenza tra f (xk ) = a + bxk e i dati
yk effettivamente osservati. Questa differenza si chiama residuo:

rk = yk − f (xk ) = yk − a − bxk

ed in generale è diversa da zero per ogni k. Tuttavia, la somma dei residui è nulla:
infatti ricordando il risultato (4.12) si ha sempre:
X X
rk = (yk − a − bxk ) = n(y − a − bx) = 0.
k k

Se valutiamo l’errore commesso, calcolando il minimo dello scarto quadratico medio


S(a, b), che si ha per a, b definiti dalla (4.12), questo errore minimo fornisce una

87
indicazione quantitativa sulla validità della ipotesi fatta sulla dipendenza lineare di
Y da X. Sostituiamo nella (4.10) le espressioni (4.12) di a, b, usando le definizioni
(4.14) degli scarti ξ, η. Si trova che l’errore quadratico medio di cui sono affette le
(4.13), (4.13’) vale:
2
s2xy X 2 2sxy X

1X sxy 1X 2
= η k − 2 ξk = ηk + ξk − ξk η k =
n σx n nσx4 nσx2
k k k k
!
2 2 2
s xy s xy s xy
= σy2 + 2 − 2 2 = σy2 1 − 2 2 = σy2 [1 − ρ2 (X, Y )]
σx σx σx σy

dove:
sxy
ρ(X, Y ) = ∈ [−1, 1]
σx σy
è il coefficiente di correlazione (3.9), detto anche coefficiente di determinazione lineare.
Dunque, la stima effettuata mediante la relazione lineare (4.13) è esatta se |ρ| = 1 e
in tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima è valida
se |ρ| è molto prossimo a 1, e non è efficace per piccoli valori di |ρ|, perché allora
i caratteri X e Y sono scarsamente correlati e l’errore quadratico medio  cresce,
avvicinandosi al valore σy2 della varianza dei dati yk , che può anche essere elevata. Al
limite per ρ → 0, la covarianza sxy e il coefficiente di regressione b tendono a zero,
con la conseguenza che i valori stimati di yk tendono alla loro media aritmetica y. In
questo caso limite i caratteri X e Y sono non correlati, nel senso che non si può dire
che esista una relazione lineare che lega le loro realizzazioni.
Dobbiamo però anche osservare che la non correlazione non esclude la possibilità di
una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica,
come descritto nel §4.7 che segue). A conferma di questa affermazione basta ricor-
dare che la non correlazione è una proprietà più debole della indipendenza statistica
(§3.1.1, 3.1.2).
La radice quadrata positiva dell’errore  sopra calcolato si chiama errore standard
σxy della regressione lineare, e vale:
p
σxy = σy 1 − ρ2 (X, Y ). (4.15)

Esempio 4.2
Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguente
coppie di dati (xk , yk ):
(65, 68) (63, 66) (67, 68) (64, 65)
(68, 69) (62, 66) (70, 68) (66, 65)
(68, 71) (67, 67) (69, 68) (71, 70)
che in Fig. 4.5 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare
se, e con quale errore standard, si può affermare che le modalità di Y dipendono da
quelle di X con una legge di regressione lineare del tipo (4.13).

88
y h
72 sxy y = a + bx
.
70 .
.
y . . . .
68
. x
66 . .
. .
64
x
62
60 62 64 66 68 70 72 74 x
Figura 4.5 - Regressione lineare

Le medie aritmetiche e le varianze marginali valgono:

1 X 800
x= xk = = 66.6
12 12
k
1 X 811
y= yk = = 67.583
12 12
k
1 X 53418
σx2 = x2k − x2 = − 4444.44 = 7.056
12 12
k
1 X 54849
σy2 = yk2 − y 2 = − 4567.5 = 3.243.
12 12
k

La covarianza della coppie di dati, da calcolare applicando la (4.8’), vale:

1 X 54107
sxy = xk yk − 66.6 · 67.583 = − 4505.55 = 4508.916 − 4505.55 = 3.36117.
12 12
k

Ne segue, applicando la (4.12), che i coefficienti a, b della retta di regressione di Y su


X valgono:
3.36117
b= = 0.4763
7.056
a = 67.583 − 0.4763 · 66.6 = 35.826.
Sulla base dei valori osservati, la migliore stima dei valori di Y è dunque fornita dalla
retta di regressione:
y = 35.826 + 0.4763 · x

che è indicata in Fig. 4.5, e nel piano traslato degli scarti (ξ, η) con origine nel punto
(x = 66.6, y = 67.583) ha equazione

η = 0.4763 · ξ.

89
Per valutare l’errore quadratico medio  della regressione effettuata, è sufficiente
calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale:

sxy 3.36117
ρ(X, Y ) = = = 0.7027.
σx σy 2.656 · 1.8

Il suo valore “ragionevolmente” vicino all’unità indica che la legge di dipendenza


lineare di Y da X può essere sostenuta, almeno in un modello di previsione statistica
di prima approssimazione. Da questo calcolo si ricava:

 = σy2 [1 − ρ2 (X, Y )] = 3.243(1 − 0.49378) = 1.6416

la cui radice quadrata è l’errore standard della regressione lineare:



σxy =  = 1.28125.

Se si riportano in Fig. 4.5 le rette di equazione y = a + bx ± σxy , si può osservare


che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari:
dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate nel
campione con numerosità n = 12. Questo risultato percentuale dà una indicazione
approssimata sulla significatività della regressione effettuata. Nell’ambito della teoria
dei campioni, che sarà sviluppata nei prossimi Capitoli, si vedrà che al crescere di
n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normali con medie
rispettivamente uguali a x e y. Ciò significa che al crescere di n anche la distribuzione
dei punti del piano (x, y) attorno alla retta di regressione tende alla legge normale, e in
tale circostanza il calcolo delle probabilità per leggi normali (cfr. §2.3.2) prevede che il
68.27% (anzichè il 66.6%) dei punti campionari siano interni alle rette y = a+bx±σ xy .

90
CAPITOLO QUINTO

DISTRIBUZIONI CAMPIONARIE

5.1 MODELLI STATISTICI

I primi tre Capitoli di questi appunti hanno trattato la formulazione matematica di un


modello probabilistico per un generico esperimento casuale. Si è visto che un modello
probabilistico è definito in modo completo quando si precisa lo spazio di probabilità
(Ω, B, P ) da associare all’esperimento in studio, ovvero lo spazio campione Ω dei
possibili esiti, il campo di Borel B degli eventi Ai , e il funzionale P : B → [0, 1]. In
tale modello la probabilità P che si assegna al generico evento A i ∈ B è univocamente
definita, e si calcola sulla base della distribuzione probabilistica che si assume nota,
ed adeguata a descrivere il fenomeno aleatorio oggetto di studio.
Tuttavia, nell’analisi di un fenomeno reale cui si attribuisce natura casuale, o di una
popolazione di individui o di oggetti dotati di caratteri aventi anch’essi natura casuale,
la legge di probabilità cui questi obbediscono è raramente nota in forma completa.
Piú spesso si può soltanto affermare a priori che P appartiene a una famiglia P di
leggi probabilistiche (per esempio: alla famiglia delle leggi normali, o binomiali, ....)
che è la collezione delle leggi di probabilità ammissibili nella descrizione matematica
di quel particolare carattere aleatorio. Ci si trova cosı́ di fronte a un problema
che per certi aspetti è l’inverso di quello affrontato nel Calcolo delle probabilità,
ovvero: determinare la legge P ∈ P del carattere, sulla base di informazioni relative
a probabilità empiriche ricavate da un campione estratto dalla popolazione.
Di questo problema si occupa la Statistica inferenziale la quale, attraverso l’analisi
dei dati forniti dal campione, ha lo scopo di definire univocamente, e “nel miglior
modo possibile”, la legge probabilistica incognita P che descrive la natura aleatoria
di quel particolare carattere della popolazione.
Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili,
l’insieme (Ω, B, P) costituisce il modello statistico per il fenomeno casuale (o per il

91
carattere della popolazione) che si sta studiando. Nel seguito supporremo di esami-
nare un carattere quantitativo di una popolazione o, al piú, un carattere in qualche
modo suscettibile di un ordinamento. In tal caso, ogni elemento P ∈ P dipenderà in
generale da un insieme di parametri incogniti θi ∈ Θ ⊆ IR, che varia a seconda della
famiglia P che caratterizza il modello statistico.
I modelli che più frequentemente si adottano nella Statistica inferenziale fanno rife-
rimento a note leggi di distribuzione di probabilità, tra cui quelle citate nel §2.3. Se
ad esempio stiamo studiando un carattere che può assumere casualmente qualsiasi
modalità in un intervallo limitato ma incognito, il modello statistico più pertinente
è quello uniforme con due parametri, che si indica con R(θ1 , θ2 ) ed è definito dalla
famiglia di densità:

1
f (x, θ1 , θ2 ) = , x ∈ [θ1 , θ2 ],
θ2 − θ 1

i cui parametri incogniti sono da ricercarsi nel dominio

Θ = {(θ1 , θ2 ) : −∞ < θ1 < θ2 < +∞}.

Se si suppone che il carattere sia distribuito normalmente, con valor medio da deter-
minarsi, si ricorre al seguente modello Normale-1:

(x − θ)2
 
2 1
N (θ, σ ) : θ ∈ Θ = IR, f (x, θ) = exp − .
(2πσ)1/2 2σ 2

Se invece della distribuzione normale teorica si conosce il valor medio e si vuole


determinare la varianza, si definisce il modello Normale-2:

(x − µ)2
 
1
N (µ, θ) : θ ∈ Θ = IR+ , f (x, θ) = exp − ,
(2πθ)1/2 2θ

e se si vuole determinare sia il valor medio che la varianza, il modello statistico di


riferimento è quello Normale generale:

(x − θ1 )2
 
1
N (θ1 , θ2 ) : f (x, θ1 , θ2 ) = exp
(2πθ2 )1/2 2θ2

nel quale i due parametri incogniti sono da ricercare nel dominio

Θ = {(θ1 , θ2 ) : −∞ < θ1 < +∞, θ2 > 0}.

Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenza
di n prove ripetute e indipendenti, con probabilità di successo incognita, è quello
Binomiale:
n  
X n k
Bi(n, θ) : θ ∈ Θ = (0, 1), f (x, θ) = θ (1 − θ)n−k δ(x − k),
k
k=0

92
e se la probabilità di successo teorica è molto piccola si usa, come prescritto dalla
legge degli eventi rari, il modello di Poisson:

−θ
X θk
Π(θ) : θ ∈ Θ = IR+ , f (x, θ) = e δ(x − k).
k!
k=0

Infine, negli studi di affidabilità e per la previsione statistica dei guasti si può ricorrere
al modello esponenziale:

E(θ) : θ ∈ Θ = IR+ , f (x, θ) = θeθx , x≥0

o a quello più sofisticato di Weibull (§2.3.13).

5.2 TEORIA DEI CAMPIONI

La valutazione dei parametri incogniti che sono presenti in un modello statistico del
tipo, per esempio, di quelli appena citati, si effettua con l’esame di una piccola parte
della popolazione, opportunamente scelta con criteri di casualità mediante estrazione
di n elementi della popolazione. Questa parte della popolazione, sulla quale si con-
centrano le osservazioni atte a fornire le informazioni mancanti al modello statistico,
è il campione di grandezza (o numerosità) n.
La scelta degli elementi di popolazione che vanno a costituire il campione può es-
sere effettuata in molti modi diversi, ma deve comunque seguire regole precise con
l’obiettivo di riprodurre nel miglior modo possibile tutte le proprietà di quel carattere
della popolazione che si vuole studiare. I metodi di campionamento più noti sono:
• il campionamento casuale, che si ottiene effettuando estrazioni statisticamente in-
dipendenti da un insieme di individui che hanno tutti la medesima probabilità di
essere estratti ;
• il campionamento stratificato, nel quale la popolazione è anzitutto suddivisa in
gruppi di individui con caratteristiche omogenee. Da ciascuno di questi strati
di popolazione si estrae quindi un numero di individui che è proporzionale alla
numerosità del gruppo stesso;
• il campionamento a grappoli, il cui metodo consiste invece nella suddivisione della
popolazione in tanti gruppi di individui eterogenei, ognuno dei quali sia rappresen-
tativo delle caratteristiche dell’intera popolazione. Il campione da esaminare è in
tal caso uno qualsiasi di questi gruppi, che può essere scelto per estrazione o per
comodità di elaborazione dei dati.
Si utilizzano anche metodi di campionamento più raffinati, che con tecniche diverse
combinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattare
unicamente le tecniche da sviluppare quando si effettua un campionamento casuale.
In questo contesto, la condizione di equiprobabilità delle estrazioni implica teorica-
mente che nella definizione del campione, l’estrazione di ciascuno degli n elementi da

93
una popolazione finita debba essere effettuata con ripetizione, ovvero assicurando la
possibilità che l’elemento scelto possa ripresentarsi ad una qualsiasi estrazione succes-
siva.1 Se questa condizione non si verifica, l’estrazione è chiamata senza ripetizione,
e modifica le probabilità teoriche delle successive estrazioni, perchè condizionate da
quella già effettuata che non può più ripetersi. I risultati che ricaveremo nell’ipotesi di
equiprobabilità delle estrazioni, dovranno pertanto essere corretti, se esse avvengono
senza ripetizione. Tuttavia, questa correzione è significativa solo se la popolazione è
costituita da pochi individui, mentre diventa trascurabile se la numerosità N degli
individui della popolazione è elevata, ed è teoricamente nulla per N → ∞, ossia per
popolazioni di infiniti elementi.
In ogni caso, un campione casuale di grandezza (numerosità) n, scelto per effettuare
la statistica su un carattere quantitativo X della popolazione, sarà descritto da un
insieme X = {X1 , X2 , . . . , Xn } di n elementi, al quale corrisponde l’insieme x =
{x1 , x2 , . . . , xn } degli n valori osservati.
Teoricamente, se facessimo tendere a +∞ la numerosità del campione che estra-
iamo da una popolazione infinita, allora il campione coinciderebbe con la popolazione
stessa, e la distribuzione delle probabilità empiriche che si potrebbe ricavare secondo
la tecnica spiegata nel Capitolo precedente si identificherebbe con la densità di pro-
babilità del carattere X della popolazione. Ma i metodi della indagine statistica si
basano proprio sull’ipotesi opposta: quella di avere a disposizione un campione con
numerosità n molto minore degli N individui della popolazione.
Se la collezione degli n elementi del campione è casuale, in generale a ciascuna pos-
sibile scelta corrisponderà un valore diverso della osservazione x i fatta a proposi-
to dell’i-esimo elemento del campione estratto dalla popolazione. Di conseguenza,
l’insieme X che descrive il generico campione di grandezza n deve essere riguardato
come un vettore aleatorio, insieme di n variabili casuali Xi , i = 1, .., n, le quali sono
statisticamente indipendenti nel caso che il campione sia stato estratto casualmente
e con ripetizione.
Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantità
g(X) che si esprime per mezzo delle n variabili casuali Xi , e che interessa valutare in
vista della stima dei parametri del modello statistico. Una statistica campionaria è
anch’essa una variabile casuale Gn = g(X), e come tale è dotata di una distribuzione
di probabilità che chiameremo distribuzione campionaria della statistica G n .
Un esempio di statistica di un campione di ordine n è la variabile casuale
1
Gn = (X1q + X2q + . . . .. + Xnq ) (5.0)
n
che ha il significato di momento campionario di ordine q, e per q = 1 diventa la media
campionaria cosı́ definita:
1
µn = (X1 + X2 + . . . . + Xn ). (5.1)
n
1
Questa condizione si verifica, per esempio, quando nella estrazione di n palline da un’urna,
ogni pallina estratta viene reimbussolata, al fine di non modificare la popolazione da cui si
effettua ogni estrazione successiva.

94
L’indice n introdotto nella notazione sta ad indicare che tale media risulta dall’esame
di un campione di grandezza n del carattere X della popolazione, e serve per di-
stinguere tale media campionaria dal valor medio µ (eventualmente incognito) della
distribuzione teorica del carattere X, che è stata definita nel modello statistico.
La varianza campionaria è la variabile aleatoria definita dalla seguente statistica:
n
1X
Sn2 = (Xi − µn )2 (5.2)
n i=1

che in generale potrà assumere valori diversi dalla varianza teorica σ 2 (eventualmente
incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata
positiva Sn è la deviazione standard campionaria.
Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora
i valori che assumono le loro statistiche – e in particolare la media campionaria
(5.1) e la varianza campionaria (5.2) – saranno in generale diversi e distribuiti con
leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei
due paragrafi che seguono ricaveremo in dettaglio le proprietà delle distribuzioni
campionarie di queste due statistiche.

5.3 DISTRIBUZIONE CAMPIONARIA DELLE MEDIE


Per valutare il valore atteso della distribuzione campionaria delle medie µ n definita
dalla (5.1), dobbiamo prendere in considerazione tutti i possibili campioni di grandez-
za n che possono essere estratti dalla popolazione, e fissare l’attenzione sull’i-esimo
elemento Xi di questi campioni. Questo è una variabile casuale con la medesima di-
stribuzione teorica del carattere X della popolazione, poiché è il risultato di estrazioni
casuali dalla popolazione stessa. Indichiamo con fX (x) tale distribuzione teorica del
carattere, con µ la sua media e con σ 2 la sua varianza, eventualmente sconosciute.
Si ricava:
( )
1X 1X 1 1
E{µn } = E Xi = E{Xi } = · nE{X} = · n · µ = µ (5.3)
n i n i n n

Dunque, il valor medio della distribuzione campionaria della statistica µ n coincide


con il valor medio µ della distribuzione teorica del carattere X.
La varianza della distribuzione campionaria delle medie (che è diversa dalla statistica
(5.2), di cui ci occuperemo nel paragrafo che segue) è per definizione la quantità

σn2 = E{[µn − E{µn }]2 } = E{µ2n + µ2 − 2µn µ} = E{µ2n } − µ2 =


1
= 2 E{(X1 + . . . + Xn )2 } − µ2 , (5.4)
n
e per ricavarne una espressione significativa, occorre distinguere a seconda della pro-
cedura che è stata seguita per estrarre il campione.

95
5.3.1 Campionamento con ripetizione
Se il campione è stato estratto con ripetizione da una popolazione finita di N elementi,
oppure se N → ∞, allora le variabili casuali Xi sono statisticamente indipendenti,
con uguali densità di probabilità f (xi ) = fX (x). Si ha in tal caso:
Z
E{(X1 + . . . + Xn ) } = (x1 + . . . + xn )2 f (x1 )f (x2 ) · · · f (xn )dx1 · · · dxn =
2

Z
= (x21 + . . . + x2n + 2x1 x2 + 2x1 x3 + . . . + 2xn−1 xn )f (x1 )f (x2 ) · · · f (xn )dx1 · · · dxn =
n
X
= E{X12 } + ... + E{Xn2 } +2 E{Xi }E{Xj }.
i,j=1

Ma poichè le distribuzioni di tutte le Xi hanno momenti uguali a quelli della densità


teorica fX (x), e inoltre il numero di combinazioni di n elementi a due a due vale
n(n − 1)/2 , risulta:

E{(X1 + . . . + Xn )2 } = n E{X 2 } + n(n − 1)µ2 .

Sostituendo questo risultato nella (5.4) si ottiene:

E{X 2 } n − 1 2 1 σ2
σn2 = + µ − µ2 = [E{X 2 } − µ2 ] = . (5.5)
n n n n
Dunque, la varianza della distribuzione campionaria delle medie è uguale alla varianza
teorica della distribuzione del carattere X, divisa per la numerosità del campione.
La radice quadrata positiva della quantità (5.5):
σ
σn = √ (5.50 )
n

è chiamata errore standard della media campionaria.


Dalla (5.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popo-
lazione con varianza σ 2 non nulla, valgono le seguenti notevoli proprietà di conver-
genza della media campionaria:
• Convergenza in media quadratica della statistica µn al valor medio µ della
distribuzione teorica fX (x). Infatti:

lim σn2 = lim E{(µn − µ)2 } = 0.


n→∞ n→∞

• Legge debole dei grandi numeri. Fissato un  > 0 arbitrario, per la disegua-
glianza di Chebyshev (v. §2.2) si ha:

σn2 σ2
IP{|µn − µ| ≥ } ≤ =
2 n2

96
per cui, passando al limite:

lim IP{|µn − µ| ≥ } = 0. (5.6)


n→∞

E’ cosı́ dimostrato che la statistica µn converge in probabilità al valor medio teorico


µ, quando la numerosità del campione tende ad infinito.

Infine, è di grande importanza il fatto che per grandi campioni è possibile determinare
non solo i momenti del primo e del secondo ordine, ma anche la densità stessa della
distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema Limite
Centrale enunciato nel §2.3.2, si può dimostrare che al crescere di n la distribuzione
campionaria delle medie approssima la legge normale N (µ, σ 2 /n) che ha media µ e
varianza data dalla (5.5).
Dimostrazione. La media campionaria (5.1) relativa a campioni estratti con ripe-
tizione da una popolazione finita (oppure da una popolazione infinita) si può anche
esprimere come µn = Sn /n, dove Sn è la somma di n variabili casuali indipendenti che
hanno la medesima densità di probabilità. Quindi, per il Teorema Limite Centrale,
la sua densità converge, per n → ∞, alla distribuzione normale con media

1 1
E{µn } = E{Sn } = · nµ = µ
n n
e varianza
1 2 1 σ2
σn2 = σ (S n ) = · nσ 2
= ,
n2 n2 n
ossia converge alla legge N (µ, σ 2 /n).
Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria µ n
si usa spesso la variabile media campionaria standardizzata già introdotta nel §2.3.2,
e definita dal rapporto
µn − µ
Zn = . (5.60 )
σn
In base al Teorema Limite Centrale, si può affermare che per n sufficientemente
grande la distribuzione di Zn è ben approssimata dalla legge normale standard N (0, 1)
con media nulla e varianza uguale ad 1.

5.3.2 Campionamento senza ripetizione


Se il campione è estratto senza ripetizione (si dice anche “in blocco”) da una popo-
lazione con un numero finito N di elementi, le n variabili aleatorie X i non sono più
indipendenti, perché ogni estrazione modifica la composizione della popolazione da
cui devono essere scelti i successivi elementi del campione. Ne segue, per la legge
delle probabilità composte (1.4), che la densità di probabilità congiunta del campio-
ne X non è più il prodotto delle densità f (xi ), bensı́ il seguente prodotto di densità
condizionate:

f (x1 , . . . , xn ) = f (x1 )f (x2 |x1 )f (x3 |x1 , x2 ) · · · f (xn |x1 , x2 , . . . , xn−1 ).

97
Si può dimostrare che in tal caso il valor medio della distribuzione campionaria della
statistica µn è ancora uguale alla media teorica µ, ma la sua varianza vale:

σ2 N − n
σn2 = · . (5.7)
n N −1

A parità di grandezza n del campione, se N > n non è molto elevato essa è dunque
minore della (5.5) che è valida per un campionamento con ripetizione, ma tende al
valore (5.5) quando N → ∞.

Esempio 5.1
Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costi-
tuita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i
valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza
n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore
teorico µ = 6.
• Campionamento con ripetizione. Il numero di campioni con numerosità 2 che pos-
siamo casualmente estrarre con ripetizione dalla popolazione è uguale al numero delle
disposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, i
possibili campioni sono i seguenti:

2, 2 2, 3 2, 6 2, 8 2, 11
3, 2 3, 3 3, 6 3, 8 3, 11
6, 2 6, 3 6, 6 6, 8 6, 11 (5.8)
8, 2 8, 3 8, 6 8, 8 8, 11
11, 2 11, 3 11, 6 11, 8 11, 11.

Ciascuno di questi campioni ha una media campionaria µn che vale, rispettivamente:

2 2.5 4 5 6.5
2.5 3 4.5 5.5 7
4 4.5 6 7 8.5 (5.9)
5 5.5 7 8 9.5
6.5 7 8.5 9.5 11

e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possia-


mo costruire il grafico a) di Fig. 5.1. Esso rappresenta una densità di probabilità
discreta che definisce la distribuzione campionaria delle medie relativa alla statistica
in oggetto. Il valor medio di questa distribuzione vale:

1
E{µn } = [2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6
25

e, in accordo con la (5.3), coincide con il valore teorico µ prima citato.

98
f (m n )
25 4/20

4/25 f (m n )
20
2/20
2/25

1/25

0 1 2 3 4 5 6 7 8 9 10 11 mn 0 1 2 3 4 5 6 7 8 9 10 11 mn
a) campionamento con ripetizione b) campionamento senza ripetizione
Figura 5.1

Se ci proponiamo di valutare µ attraverso il valore della statistica µ n che ricaviamo


da un solo campione estratto casualmente, è assai probabile che il risultato non
sia uguale a 6. L’errore medio che possiamo compiere è legato alla dispersione della
distribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianza
σn2 definita dalla (5.4). Si trova:

1 135
σn2 = [(2 − 6)2 + 2(2.5 − 6)2 + . . . + 2(9.5 − 6)2 + (11 − 6)2 ] = = 5.4.
25 25
Questa varianza della distribuzione delle medie campionarie è legata alla varianza
teorica del carattere X, Infatti si verifica subito che, come previsto dalla (5.5) con
n = 2, è la metà della varianza teorica σ 2 che vale:
1
σ2 = [(2 − 6)2 + (3 − 6)2 + . . . + (11 − 6)2 ] = 10.8 .
5
La radice quadrata di σn2 vale σn = 2.32379. Questo è l’errore standard che si
commette nel valutare il valor medio del carattere, attraverso l’analisi della statistica
µn effettuata su un suo campione di grandezza n = 2.
• Campionamento senza ripetizione. In tal caso, il numero totale di campioni che
possiamo estrarre è uguale alle disposizioni senza ripetizione di 5 elementi a due a
due, e vale
5!
= 20.
(5 − 2)!
I campioni sono quelli dell’insieme (5.8) privato degli elementi sulla diagonale princi-
pale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora
indicate nella (5.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diago-
nale principale. La distribuzione delle frequenze relative di queste medie campionarie
è mostrata nel grafico b) di Fig. 5.1. Questa distribuzione ha ancora valor medio
E{µn } = 6 ma varianza minore che, in accordo con la (5.7), vale:

2 3 σ2
σn2 = [(2.5 − 6)2 + (4 − 6)2 + . . . + (9.5 − 6)2 ] = 4.05 ≡ · .
20 4 2

99
L’errore standard nella valutazione della media del carattere è quindi leggermente
inferiore, e vale σn = 2.01.

Esempio 5.2: Distribuzione della differenza di medie campionarie


Le lampadine prodotte dall’azienda A hanno una vita media µ A di 1400 ore, con
deviazione standard σA = 200 ore; quelle dell’azienda B hanno vita media µB = 1200
ore, con deviazione standard σB = 100 ore. Si prova un campione casuale di n =
125 lampadine estratte dalla produzione dell’azienda A, e un campione di m = 100
lampadine provenienti dalla produzione dell’azienda B. Calcolare la probabilità che
le lampadine fornite dal produttore A abbiano una vita media:
1) di almeno 160 ore maggiore di quelle fornite da B;
2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B.
Le distribuzioni campionarie delle medie µn e µm dei due campioni sono entrambe ap-
prossimabili con leggi normali, aventi valore atteso uguale a quello della popolazione
da cui sono estratti:

E{µn } = µA = 1400, E{µm } = µB = 1200.

Le loro deviazioni standard, per la (5.5’), sono rispettivamente:

σA σB
σn = √ = 17.888 ; σm = √ = 10.
125 100

Definiamo la variabile casuale d(ω) che denota la differenza tra le medie campionarie:

d(ω) = µn − µm .

Essa ha una distribuzione con valor medio

E{d} = E{µn } − E{µm } = 1400 − 1200 = 200 ore,

e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto:
a = 1, b = −1, X ≡ µn , Y ≡ µm :

σ 2 (d) = σn2 + σm
2
− 2 Cov (µn , µm ).

Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza è nulla


e anche d(ω) ha legge normale, come dimostrato nell’Esempio 4.6, con deviazione
standard p p
σ(d) = σn2 + σm 2 = (17.888)2 + 102 ' 20.49 ore.
Per calcolare le probabilità richieste, usiamo la variabile casuale standardizzata:

d − E{d} d − 200
Z(ω) = =
σ(d) 20.49

100
che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per
d = 160 e per d = ±150. Si trova subito:
d = 160 : z0 = −1.952
d = −150 : z1 = −17.08
d = 150 : z2 = −2.44 .
Le probabilità cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valori
di erf(z) che si trova in Appendice:
1
IP(d ≥ 160) = P (Z ≥ z0 ) = + erf (1.952) = 0.9744
2
IP(|d| < 150) = IP(z1 < Z < z2 ) = erf (−2.44) − erf (−17.08) =
1
' − erf (2.44) = 0.5 − 0.4927 = 0.0073 .
2

5.4 DISTRIBUZIONE CAMPIONARIA DELLE VARIANZE

5.4.1 Campionamento con ripetizione.


Se il modello statistico che si assume per studiare la popolazione è quello normale,
e se il campione è estratto con ripetizione da una popolazione finita, oppure se la
popolazione è infinita, la statistica (5.2), chiamata varianza campionaria, ha una
distribuzione che si può dedurre applicando il seguente, importante:

TEOREMA (Chi-quadrato)
Se da una popolazione normalmente distribuita con varianza σ 2 si estraggono cam-
pioni casuali di numerosità n, la variabile aleatoria
nS 2 1 X
Qn (ω) = 2n ≡ 2 (Xi − µn )2 (5.10)
σ σ i
ha una distribuzione χ2n−1 con (n − 1) gradi di liberta’.

Ricordando le proprietà della distribuzione Chi-quadrato, già presentata nel Capitolo


2, la variabile Qn ha dunque la densità (2.40) con n − 1 al posto di n, ha valor medio
E{Qn } = n − 1 e varianza σ 2 {Qn } = 2(n − 1).
La varianza campionaria Sn2 è definita, per la (5.10), dalla trasformazione lineare
σ2
Sn2
= g(Qn ) = Qn ,
n
e usando le formule di trasformazione per funzioni di variabili casuali la sua distri-
buzione campionaria ha una densità di probabilità che si ricava applicando la (3.24)
del Capitolo 3. Poiché si ha
nSn2 dg −1 n
g −1 (Sn2 ) = ; = ,
σ2 dSn2 σ2

101
1.5
s2 = 1

f ( S n2 )
1 n = 21
f (^ 2
Sn )
n = 11

0.5

E{ ^ 2
Sn }
E{S 2n }

0 1 2 3

Figura 5.2 - Distribuzioni campionarie della varianza

si ricava:
nSn2 2
  −1  
dg nS n n
f (Sn2 ) = fχ2n−1 Qn = 2 · 2
= f χ2 Qn = 2 · 2 . (5.11)
σ dSn n−1 σ σ

In Fig. 5.2 sono riportate con linea continua due distribuzioni campionarie di S n2 ,
calcolate assumendo σ 2 = 1 e n = 11 e 21. Il loro valor medio vale:
σ2 n−1 2
E{Sn2 } = E{Qn } = σ (5.12)
n n
e la sua varianza si può calcolare come segue:
 2 2
2 2 2 2 σ 4 (n − 1)2 σ 2 σ 4 (n − 1)2
σ (Sn ) = E{(Sn ) } − = E{Q n } − =
n2 n n2
σ4 σ4 σ4 2(n − 1) 4
= 2 [E{Q2n } − (n − 1)2 ] = 2 [E{Q2n } − E 2 {Qn }] = 2 σ 2 {Qn } = ·σ
n n n n2
dove σ 2 è la varianza teorica della popolazione con distribuzione normale. Per n >>
1, si può accettare il risultato: σ 2 (Sn2 ) ∼
= 2σ 4 /n, e di conseguenza la deviazione
standard della distribuzione campionaria delle varianze è ben approssimata da:

σ(Sn2 ) ∼
p
= σ 2 2/n. (5.13)

La (5.12) mostra un risultato degno di nota: il valor medio della statistica S n2 non
coincide con la varianza teorica σ 2 della popolazione. Questa proprietà, che come ve-
dremo è assai importante ai fini della stima della varianza sconosciuta di un carattere
della popolazione, è invece soddisfatta dalla seguente statistica:
n 1 X
Ŝn2 = Sn2 ≡ (Xi − µn )2 (5.14)
n−1 n−1 i

che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio


n
E{Ŝn2 } = E{Sn2 } = σ 2 . (5.15)
n−1

102
La distribuzione campionaria di questa varianza corretta Ŝn2 si ricava facilmente in-
vertendo la trasformazione (5.14) e usando la (5.11). Anche essa si esprime in termini
della densità Chi-quadrato della variabile

n n−1
Qn = 2
· Sn2 = · Ŝn2 ,
σ σ2
e vale:
   
n−1 2 n−1 n−1 2 n−1
f (Ŝn2 ) =f Sn2 = Ŝn · = fχ2n−1 Qn = Ŝ · . (5.16)
n n σ2 n σ2

Le distribuzioni (5.16) che si ottengono per n = 11 e n = 21 sono riportate con linea


tratteggiata in Fig. 5.2, e sono confrontate con le distribuzioni campionarie (5.11)
della statistica Sn2 . La varianza della distribuzione “corretta” (5.16) vale:

E{Q2n } σ4
 
2 2
σ (Ŝn2 ) = E{(Ŝn2 )2 } 4
−σ =σ 4
2
− 1 = 2
σ 2 (Qn ) = σ4 .
(n − 1) (n − 1) n−1

La sua deviazione standard è perciò


r
2
σ(Ŝn2 ) =σ 2
(5.17)
n−1

e per n >> 1 è assai vicina a quella della distribuzione delle varianze campionarie
Sn2 .

5.4.2 Campionamento senza ripetizione


Se il campione è estratto “in blocco” da una popolazione con un numero finito N
di elementi, tenuto conto delle osservazioni fatte nel §5.3.2 la distribuzione campio-
naria di Sn2 non è più quella definita con la (5.11). Calcoli più laboriosi mostrano,
in particolare, che anche il suo valor medio è diverso dal valore (5.12), e deve essere
modificato in:
N n−1 2
E{Sn2 } = · σ . (5.18)
N −1 n
Da quest’ultima segue che la varianza campionaria corretta Ŝn2 con valor medio uguale
alla varianza teorica, si modifica in tal caso nella statistica:

N −1 n N −1 1 X
Ŝn2 = · · Sn2 = · (Xi − µn )2 , (5.19)
N n−1 N n−1 i

da usare al posto della statistica (5.14).

Esempio 5.3
Riprendiamo lo studio dei 25 campioni (5.8) che si possono estrarre con ripetizione
dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si è già

103
f (S 2n ) f (S 2n )
25 20
5/25 4/20
4/25

2/20
2/25
E{S 2n } s2 E{S 2n } s2

0 2 4 6 8 10 12 14 16 18 20 22 S 2n 0 2 4 6 8 10 12 14 16 18 20 22 S 2n
a) campionamento con ripetizione b) campionamento senza ripetizione

Figura 5.3

visto ha varianza teorica σ 2 = 10.8. Ciascuno di essi ha una statistica Sn2 (con n =
2) che vale:
0 0.25 4 9 20.25
0.25 0 2.25 6.25 16
4 2.25 0 1 6.25 (5.20)
9 6.25 1 0 2.25
20.25 16 6.25 2.25 0
e il calcolo delle frequenze relative porta alla definizione di una distribuzione cam-
pionaria discreta, che è mostrata nel grafico a) di Fig. 5.3. Il valor medio di tale
distribuzione vale:

1 27
E{Sn2 } = [4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] = = 5.4
25 5

e, in accordo con il risultato (5.12), è la metà della varianza teorica σ 2 . Ne segue che
la varianza campionaria corretta, il cui valor medio coincide con σ 2 , è la statistica
Ŝn2 = 2Sn2 i cui valori possibili sono il doppio di quelli riportati nella (5.20).
Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizione
dalla stessa popolazione hanno tutti varianze Sn2 non nulle, definite nella (5.20) con
esclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenze
relative è mostrata nel grafico b) di Fig. 5.3, ed ha valor medio

1 27
E{Sn2 } = [4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] = = 6.75.
20 4

Osservando che
27 5 27 5 1
= · = · · σ2 ,
4 4 5 4 2
si riconosce che il risultato ottenuto verifica la (5.18), valida per campioni senza
ripetizione. Inoltre, in tal caso la varianza campionaria corretta è definita, per la
(5.19), dalla statistica
4 8
Ŝn2 = · 2 · Sn2 = Sn2 ,
5 5

104
il cui valor medio coincide con la varianza teorica della popolazione. Infatti:
8 8 27 54
E{Ŝn2 } = E{Sn2 } = · = = σ2 .
5 5 4 5

5.5 DISTRIBUZIONE CAMPIONARIA DELLE FREQUENZE

Supponiamo che il carattere X della popolazione da cui si estrae il campione abbia


due sole modalità, il cui esame può dar luogo a realizzazioni di due soli eventi casuali
incompatibili ed esaustivi (vero/falso, bianco/nero,....). In tale ipotesi il modello
statistico per X è quello Binomiale, in cui p è la probabilità teorica di “successo” (X
è vero, bianco,...) e q = 1 − p è la probabilità di “fallimento”.
Indichiamo ora con ns il numero (ossia anche la frequenza assoluta) di “successi” rile-
vati in un campione casuale estratto da questa popolazione con n prove indipendenti.
La distribuzione campionaria f (ns ) di queste frequenze è definita dalla probabilità di
osservare ns successi, la quale è data dalla formula di Bernoulli (2.42). Dunque an-
che f (ns ) è binomiale, descritta dalla densità discreta (2.45) del Capitolo 2 e definita
sull’insieme dei numeri interi positivi. Se n è sufficientemente grande, essa si ap-
prossima nel continuo con una legge normale (v. Fig. 5.4) con media e varianza che
valgono:
E{ns } = np , σ 2 (ns ) = npq . (5.21)
Ne segue, ad esempio, che le probabilità di osservare un numero di successi maggiore
di k0 oppure compreso tra k1 e k2 si approssimano, per un campione di numerosità
n sufficientemente grande, con
1
IP(ns > k0 ) ' IP(Z > z0 ) = − erf (z0 )
2
IP(k1 ≤ ns ≤ k2 ) ' IP(z1 ≤ Z ≤ z2 ) = erf (z2 ) − erf (z1 )
dove si è posto:
ki − np
zi = √ .
npq

La frequenza relativa dei successi: Y = ns /n, è invece una variabile aleatoria con
valori in IR+ , la cui distribuzione è definita dalla densità

fY (y) = f (ns = ny) · n ∼ n · N (p, pq/n).

Per n sufficientemente grande, essa si approssima con una distribuzione normale


avente valor medio e varianza che valgono:
E{ns } np
E{Y } = = = p,
n n (5.22)
σ 2 (ns ) npq p(1 − p)
σY2 = 2
= 2 = .
n n n

105
f(n s) N (8, 7.84)

0 2 4 6 8 10 12 14 ns
Figura 5.4 - Distribuzione campionaria delle frequenze nell’Esempio 5.4

Esempio 5.4
Dall’analisi della produzione di un utensile, risulta che il 2% del prodotto di fabbri-
cazione è difettoso. Si vuole calcolare la probabilità che in un lotto di 400 utensili
appena consegnati a un cliente quelli difettosi siano almeno 12.
Il lotto in questione si può considerare un campione estratto con n = 400 prove
ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta
del campione, ciascuna estrazione avviene con una probabilità teorica p = 0.02 di
avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso è il
“successo”).
La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig.
5.4, è approssimabile con una curva normale con media e deviazione standard che
valgono:
E{ns } = np = 400 · 0.02 = 8
p √
σ(ns ) = np(1 − p) = 400 · 0.02 · 0.98 = 2.8.
Si deve determinare la probabilità IP(ns ≥ 12), rappresentata dall’area ombreggiata
in figura. Per calcolarla, utilizziamo la variabile standardizzata

ns − E{ns }
Z= ,
σ(ns )

che per ns = 12 vale z = 1.428. Ricordando quindi la (2.32) e usando la Tabella di


erf(z) in Appendice, si ricava:

1 1
IP(ns ≥ 12) = 1 − IP(Z < 1.428) ' − erf (1.43) = − 0.4236 = 0.0764.
2 2

In Fig. 5.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle
probabilità (2.42) di avere un campione con ns successi. La probabilità ora calcolata
è approssimata dall’area di questi rettangoli che si trova a destra di n s = 12.

106
Si badi però che l’insieme di questi rettangoli non deve essere confuso con l’istogram-
ma delle frequenze empiriche delle modalità di un carattere X, che è stato definito del
Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano
due possibili modalità (“successo” o “fallimento”) di un carattere, l’istogramma delle
loro frequenze sarà costituito da due soli rettangoli, con altezza proporzionale rispet-
tivamente al numero dei successi e dei fallimenti che si osservano in quel particolare
campione esaminato. I rettangoli di Fig. 5.4 hanno invece base unitaria, centrata
sulle possibili frequenze ns della modalità “successo”, e altezza uguale alla probabilità
bernoulliana di osservare queste frequenze di successo.

107
CAPITOLO SESTO

STIME DI PARAMETRI

Dopo aver precisato le proprietà di due tra le statistiche campionarie più impor-
tanti, ossia la media (5.1) e la varianza (5.2), in questo Capitolo ci occupiamo
delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione
della popolazione, consentono di determinare i valori più attendibili da attribuire
ai parametri incogniti θi presenti nel modello statistico che è stato adottato per la
popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi:
• stima puntuale, se si utilizza una statistica campionaria G n = g(X1 , . . . , Xn ) con
l’obiettivo di determinare il valore corretto di un parametro incognito ϑ della popo-
lazione;
• stima per intervalli di confidenza se, oltre al valore approssimato del parametro
incognito da stimare, si precisa anche il grado di approssimazione della stima pun-
tuale effettuata, determinando la probabilità che il valore stimato appartenga a un
prefissato intervallo.
Nei due paragrafi che seguono sono illustrate le modalità con cui si perviene a questi
due tipi di stima parametrica.

6.1 STIMA PUNTUALE

Una statistica campionaria Gn = g(X1 , . . . , Xn ), utilizzata per stimare il valore inco-


gnito di un parametro θ del modello statistico della popolazione, si chiama stimatore
puntuale di ϑ.
Avendo a disposizione le realizzazioni (x1 , . . . , xn ) di un campione, sono molti gli
stimatori puntuali che possiamo definire. Per esempio: se ϑ è un valor medio, pos-
siamo scegliere come suo stimatore il riassunto (5.1), oppure la mediana (4.3) della
distribuzione di frequenze nel campione esaminato. Se ϑ è una varianza, due suoi
stimatori possono essere la statistica (5.2), oppure quella “corretta” (5.14).

109
Quale statistica scegliere, per avere i risultati più attendibili? Il criterio da seguire
nella scelta si basa sulla verifica che lo stimatore abbia ben definite proprietà, che
sono precisate dalle definizioni che seguono.

• Stimatore corretto. La statistica Gn è uno stimatore corretto, o imparziale, o


non distorto (“unbiased”) di θ se il suo valore atteso coincide con il valore teorico del
parametro da stimare, per qualsiasi legge probabilistica compatibile con il modello
statistico della popolazione:

E{Gn } = θ, ∀ P (x, θ) ∈ P. (6.1)

• Stimatore consistente. La statistica Gn è uno stimatore consistente “in pro-


babilità” se, per qualsiasi ϑ compatibile con il modello statistico, esso converge
al valore teorico ϑ con probabilità 1 quando la numerosità del campione tende ad
infinito:
lim IP(|Gn − ϑ| ≤ ) = 1, ∀ > 0. (6.2)
n→∞

Gn è invece consistente “in media quadratica” se per n → ∞ si annulla il suo errore


quadratico medio:
lim E{(Gn − ϑ)2 } = 0 (6.20 )
n→∞

e in tal caso è anche consistente in probabilità.


Se Gn è uno stimatore corretto, il suo errore quadratico medio coincide con la va-
rianza σ 2 (Gn ). Pertanto è anche consistente (in media quadratica e in probabilità)
se la varianza della sua distribuzione campionaria tende a zero per n → ∞:

lim σ 2 (Gn ) = 0. (6.200 )


n→∞

(1) (2)
• Stimatore efficiente. Scelti due stimatori Gn e Gn entrambi corretti, diciamo
(1)
che Gn è lo stimatore più efficiente tra i due se ha una distribuzione campionaria
(2)
con una varianza minore di quella della distribuzione campionaria di G N :

σ 2 (G(1) 2 (2)
n ) ≤ σ (Gn ) (6.3)

per ogni numerosità n del campione e per ogni valore teorico ϑ del parametro da
stimare.
Tenuto conto delle precedenti proprietà di una statistica campionaria, siamo ora in
grado di enunciare il seguente:

CRITERIO DI STIMA PUNTUALE


Una statistica Gn (X1 , . . . , Xn ) è il miglior stimatore di ϑ se è il più efficiente
nell’insieme degli stimatori corretti e consistenti. Il valore ϑ̂ = gn (x1 , . . . , xn ) del
miglior stimatore, calcolato utilizzando le n determinazioni x i del campione, è la
stima ottima del parametro ϑ.

110
6.1.1 Stima puntuale di medie e di varianze
Sulla base del criterio appena enunciato, non è difficile definire la stima ottima per
le medie e per le varianze di una popolazione di infiniti elementi, descritta da un
modello statistico normale.
Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle
(5.3) e (5.6) mostrano che la media campionaria µn definita dalla (5.1) è uno stimatore
corretto e consistente (sia in probabilità che in media quadratica) della media teorica
µ. Ma essa è anche il più efficiente tra gli stimatori corretti e consistenti. Limitiamoci
a chiarire quest’ultima affermazione con due esempi.
1). Dato un campione estratto da una popolazione con media µ e varianza σ 2 ,
consideriamo come statistica Gn una generica combinazione lineare delle variabili
casuali indipendenti X1 , . . . , Xn :
n
X n
X
Gn = ai X i in cui ai = 1 (6.4)
i=1 i=1

e con almeno due coefficienti ai che siano diversi da 1/n (perché altrimenti Gn coin-
ciderebbe con la media campionaria µn ). Il valore atteso della statistica (6.4) vale:

n
X n
X
E{Gn } = ai E{Xi } = ai µ = µ
i=1 i=1

e quindi anche Gn è uno stimatore non distorto della media µ. Ricordando i calcoli
già effettuati nel §3.1.1, la sua varianza vale
n
X n
X
σ 2 (Gn ) = a2i σ 2 (Xi ) = a2i σ 2
i=1 i=1

e si può anche scrivere


n  2 n  2
2
X
2 1 1 2
X 1 σ2
σ (Gn ) = σ ai − + =σ ai − + > σn2
i=1
n n i=1
n n

perché per almeno due coefficienti ai la differenza ai − 1/n è diversa da zero. Dunque
la varianza di Gn è sempre maggiore della varianza σn2 della media campionaria µn ,
e per la (6.3) si deduce che µn è più efficiente della statistica (6.4). Inoltre, σ 2 (Gn )
è maggiore di zero per qualsiasi numerosità del campione, e tale che

X
lim σ 2 (Gn ) = σ 2 a2i > 0.
n→∞
i=1

Quindi Gn non è nemmeno uno stimatore consistente della media µ.

111
2). La mediana x̃ di una distribuzione campionaria di frequenze, definita nella (4.3),
è anch’essa uno stimatore non distorto di µ, e si può calcolare che per n >> 1 ha
una varianza che vale:
π 2
σ 2 (x̂) = σ .
2n
Dunque x̃ è anche uno stimatore consistente, perchè la sua varianza tende a zero per
n → ∞. Tuttavia, per n finito quest’ultima è maggiore della varianza (5.5) della
distribuzione campionaria di µn , e quindi µn è più efficiente di x̂.
Poiché si può dimostrare che µn è più efficiente di qualsiasi stimatore della media, si
può concludere che la statistica (5.1) è il miglior stimatore di µ, e di conseguenza la
stima ottima del valor medio vale :
n
1X
µ̂ = xi . (6.5)
n i=1

Riguardo alla stima puntuale della varianza di una popolazione normale, nel §5.4 si è
ricavato che il valor medio della distribuzione campionaria di S n2 , definita nella (5.2),
non soddisfa la condizione (6.1). Pertanto, la statistica S n2 è uno stimatore distorto
della varianza σ 2 della popolazione.
Al contrario, in un campionamento con ripetizione la statistica “corretta” (5.14)
soddisfa entrambe le proprietà di non distorsione e di consistenza perché, ricordando
i risultati già ottenuti nel §5.4.1, è tale che

σ2 σ2
E{Ŝn2 } = E{Qn } = (n − 1) = σ 2
n−1 n−1
2
lim σ 2 (Ŝn2 ) = lim · σ 4 = 0.
n→∞ n→∞ n − 1

Inoltre, anche per Ŝn2 si può dimostrare che è il più efficiente tra gli stimatori corretti
e consistenti della varianza. Si può pertanto concludere che la statistica (5.14) è
il miglior stimatore della varianza σ 2 della popolazione, e che la sua stima ottima
effettuata con campioni estratti con ripetizione vale:
n
1 X
σ̂ 2 = (xi − µn )2 . (6.50 )
n − 1 i=1

E’ proprio questo valore che viene restituito dalla maggior parte dei software di
elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati.
Se il campione è estratto in blocco da un numero N non elevato di elementi, ricor-
dando la (5.19) la stima (6.5’) si corregge moltiplicandola per il coefficiente (N −1)/N .

6.1.2 Stima di massima verosimiglianza


E’ un metodo di stima puntuale assai efficace e attendibile, che spesso può essere ap-
plicato con successo per valutare qualsiasi parametro incognito (non necessariamente

112
coincidente con le medie o le varianze) presente nel modello statistico che si adotta
per studiare una popolazione. Il procedimento per ottenere una stima di massima
verosimiglianza è il seguente.
Supponiamo che la popolazione sia descritta da un modello statistico con densità
f (x, ϑ) dipendente da un parametro incognito ϑ ∈ Θ ⊂ IR, ed occorra stimare ϑ con
l’analisi di una statistica campionaria Gn , di cui sono note n osservazioni indipendenti
x1 , x2 , . . . , xn . Queste osservazioni sono le realizzazioni di n variabili casuali indipen-
denti: Xi , i = 1, . . . , n, ciascuna con densità f (xi , ϑ). Poichè sono indipendenti, la
loro densità di probabilità congiunta è il prodotto delle densità (cfr. Capitolo 3):

L(ϑ; x1 , . . . , xn ) = f (x1 , ϑ)f (x2 , ϑ) · · · f (xn , ϑ). (6.6)

Questa densità congiunta, interpretata come una funzione ordinaria della variabile
reale ϑ e dipendente dagli n parametri xi , è detta verosimiglianza per la realizzazione
x = {x1 , .., xn } del campione.
Si chiama stima di massima verosimiglianza per il parametro ϑ quel valore (se esi-
ste) della variabile indipendente, per cui la funzione L(ϑ; x1 , . . . , xn ) ha un massimo
nel dominio di interesse Θ del parametro da stimare. Questo valore si indica con
M LE(ϑ) (Maximum Likelihood Estimation), e deve soddisfare la condizione:

L[ϑ = M LE(ϑ); x1 , . . . , xn ] = sup L(ϑ; x1 , . . . , xn ).


ϑ∈Θ

Se per qualsiasi realizzazione del campione la verosimiglianza L(ϑ; x 1 , . . . , xn ) ha


un massimo in Θ, e se L(ϑ; x1 , . . . , xn ) è derivabile rispetto a ϑ, allora la stima
di massima verosimiglianza M LE(ϑ) è un suo punto di stazionarietà che soddisfa
l’equazione: dL(ϑ; x)/dϑ = 0. Poiché L(ϑ; x) non è identicamente nulla in Θ,
quest’ultima equazione si può anche scrivere:
n
d d d X
log L(ϑ; x) = log[f (ϑ; x1 ) · · · f (ϑ; xn )] = log f (ϑ; xi ) = 0
dϑ dϑ dϑ i=1

ed effettuando la derivata si ricava la seguente equazione di verosimiglianza:


n
X ∂f (ϑ, xi ) 1
· = 0. (6.7)
i=1
∂ϑ f (ϑ, xi )

Per la maggior parte dei modelli statistici di uso più frequente non è difficile verificare
che i punti di stazionarietà che soddisfano la (6.7) corrispondono effettivamente a un
massimo di L(ϑ; x), per cui la soluzione della equazione di verosimiglianza (supposto
che esista e sia unica in Θ) fornisce la stima M LE(ϑ), espressa in termini delle
osservazioni xi rilevate nel campione.
Se il parametro incognito ϑ è il valor medio µ di una popolazione di infiniti elementi,
si può anche dimostrare che la stima di massima verosimiglianza del valor medio
coincide con la media campionaria µn e di conseguenza, per quanto si è visto nel
paragrafo precedente, fornisce la stima ottima del valor medio della popolazione.

113
Verifichiamo questa sua proprietà nell’ipotesi che siano state fatte n osservazioni su
una popolazione cui si attribuisce un modello statistico normale N (ϑ, σ 2 ). Ogni
osservazione ha una distribuzione
(xi − ϑ)2
 
1
f (xi , ϑ) = √ exp − , i = 1, . . . , n
σ 2π 2σ 2
e la funzione di verosimiglianza vale:
n
" n #
(xi − ϑ)2 X (xi − ϑ)2
 
Y 1 1
L(ϑ; x) = √ exp − 2
= 2 )n/2
exp − 2
.
i=1
σ 2π 2σ (2πσ i=1

Per determinare il suo punto di massimo calcoliamo le derivate prime:
(xi − ϑ)2
 
df (xi , ϑ) 1 xk − ϑ xk − ϑ
= √ · 2
exp − 2
= f (xi , ϑ)
dϑ σ 2π σ 2σ σ2
per cui l’equazione di verosimiglianza (6.7) si scrive:
n
1 X
(xi − ϑ) = 0.
σ 2 i=1

Poichè σ 2 > 0, si ricava: x1 + x2 + . . . + xn − nϑ = 0, da cui


1
M LE(ϑ) = (x1 + x2 + . . . + xn ) = µn .
n
Al contrario, con calcoli del tutto analoghi si può mostrare che in un modello N (µ, ϑ)
Normale-2, la stima di massima verosimiglianza per ϑ non concide con la stima ottima
della varianza che si ottiene invece con la statistica (5.14). Infatti, tenuto conto che
le densità di ciascuna osservazione Xi del campione sono
(xi − µ)2
 
1
f (xi , ϑ) = √ exp − ,
2πϑ 2ϑ
le loro derivate valgono:
(xi − µ)2 (xi − µ)2 (xi − µ)2 − ϑ
  
df (xi , ϑ) 1 1
=√ exp − − = · f (xi , ϑ)
dϑ 2πϑ 2ϑ 2ϑ2 2ϑ 2ϑ2
e l’equazione di verosimiglianza per ϑ è in tal caso:
n
" n #
1 X 1 X
[(xi − µ)2 − ϑ] = 2 (xi − µ)2 − nϑ = 0.
2ϑ2 i=1 2ϑ i=1

La sua soluzione è:


n
1X
M LE(ϑ) = (xi − µ)2
n i=1
e coincide con la varianza campionaria (5.2) che è una stima distorta della varianza
teorica σ 2 .

114
Questo metodo di stima puntuale è comunque particolarmente efficace quando si
devono determinare parametri incogniti che non siano la media o la varianza della
distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguono
illustrano la sua applicazione per questo tipo di stime.

Esempio 6.1
Si vuole stimare il valore del parametro c ∈ IR nel modello statistico esponenziale del
tipo
E(λ + c) ∼ f (x, c) = (λ + c)e−(λ+c)x , x≥0
che si attribuisce a una popolazione dalla quale è stato estratto, con ripetizioni, un
campione di numerosità n. Definita la funzione di verosimiglianza (6.6) con ϑ = c, le
derivate delle densità f (xi , c) valgono:
 
df (xi , c) −(λ+c)xi −(λ+c)xi 1
=e − xi (λ + c)e = − xi f (xi , c)
dc λ+c

e di conseguenza l’equazione di verosimiglianza è


n   n  
X 1 n X 1
− xi = − xi = n − µn = 0.
i=1
λ + c λ + c i=1
λ + c

La stima di massima verosimiglianza per il parametro c è pertanto:

1
M LE(c) = − λ.
µn

Si noti che M LE(c) = 0 implica: µn = 1/λ, e questo risultato verifica che la stima di
massima verosimiglianza per il valor medio µ = 1/λ di una popolazione con modello
esponenziale E(λ) coincide con la media campionaria µn .

Esempio 6.2
Si estrae con ripetizioni un campione di numerosità n da una popolazione avente un
carattere X con valori in (0, 1], al quale si decide di assegnare un modello statistico
descritto dalla densità

(1 + b)xb per x ∈ (0, 1]
fX (x, b) =
0 altrove,

con b ∈ IR parametro incognito. Per stimarlo, osserviamo che ogni elemento X i del
campione ha densità
f (xi , b) = (1 + b)xbi
la cui derivata vale
 
df (xi , b) 1
= xbi [1 + (1 + b) log xi ] = + log xi f (xi , b).
db 1+b

115
L’equazione di verosimiglianza (6.7) si scrive:
n   n
X 1 n X n
+ log xi = + log xi = + log(x1 x2 · · · xn ) = 0,
i=1
1+b 1 + b i=1 1+b

e risolvendola rispetto a b si ottiene:


n
M LE(b) = −1 − .
log(x1 x2 · · · xn )

6.1.3. Metodo dei momenti


Si tratta di un metodo di stima puntuale che è concettualmente assai semplice, e
sebbene in generale non fornisca risultati molto precisi, è molto utile per ottenere
simultaneamente la stima di più di un parametro incognito presente nel modello
statistico.
Precisamente, assumiamo che il modello di popolazione sia descritto da una densità
fX (x; ϑ1 , ϑ2 , . . . , ϑM ) dipendente da M parametri incogniti, e che questa sia dotata
dei suoi primi M momenti:

E{X q }(ϑ1 , ϑ2 , . . . , ϑM ), q = 1, . . . , M

noti come assegnate funzioni degli M parametri incogniti.


Estratto dalla popolazione un campione di numerosità n, consideriamo gli M momenti
(q)
campionari di ordine q, già definiti nella (5.0). Indichiamo con g n (x1 , . . . , xn ) le
realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzando
i dati xi . Imponendo che ciascuna realizzazione uguagli il corrispondente momento
della densità teorica, si perviene al seguente sistema di M equazioni nelle M incognite
ϑq :
q = 1, . . . , M : E{X q }(ϑ1 , ϑ2 , . . . , ϑM ) = gn(q) (x1 , . . . , xn ) (6.8)
la cui soluzione (se esiste, e se è unica in Θ) fornisce la stima degli M parametri
incogniti, espressa in termini degli n dati osservati. Al posto di qualche momento
campionario del tipo (5.0) si può anche utilizzare, per migliorare l’approssimazione
dei risultati, i corrispondenti momenti campionari centrali, come per esempio la stima
ottima della varianza.

Esempio 6.3
Si assume che il carattere X di una popolazione possa avere valori uniformemente
distribuiti in un intervallo di IR da determinare. Il modello statistico per X è perciò
quello uniforme R(ϑ1 , ϑ2 ) avente come parametri incogniti gli estremi di tale inter-
vallo, ed è descritto dalla densità uniforme (2.28) con momenti del primo e secondo
ordine che valgono:
1 1 2
E{X} = (ϑ1 + ϑ2 ), E{X 2 } = (ϑ1 + ϑ1 ϑ2 + ϑ22 ).
2 3

116
Per stimare i due estremi incogniti, si estrae un campione casuale con numerosità
n = 10 dal quale si ricavano i seguenti dati xi :

1.4, 3.05, 1.9, 0.45, 2.2, 4.1, 3.5, 2.7, 4.25, 0.95.

La media campionaria e il momento campionario di ordine 2 risultano rispettiva-


mente:
1 X 1 X 2
gn(1) ≡ µn = xi = 2.45, gn(2) = x = 7.523.
10 i 10 i i

Applichiamo il metodo dei momenti, scrivendo la (6.8) per q = 1, 2. Si ricava il


sistema: (
ϑ1 + ϑ2 = 2 · 2.45
ϑ21 + ϑ1 ϑ2 + ϑ22 = 3 · 7.523
la cui soluzione fornisce:

ϑ1 = 0.3143 , ϑ2 = 4.8857.

Esempio 6.4
Si ha motivo di ritenere che un parametro X, presente nel modello matematico di un
fenomeno fisico aleatorio, possa assumere casualmente valori compresi nell’intervallo
[0, 1], con legge non uniforme, bensı́ soddisfacente un modello statistico Beta B(b, c),
descritto dalla densità che è definita nella (2.55) del Capitolo II. Essa dipende dai
due parametri incogniti b, c > −1, che ci proponiamo di stimare mediante l’analisi di
un campione costituito, per esempio, dai risultati xi di n osservazioni indipendenti
del fenomeno fisico oggetto di studio.
Poichè il valor medio e la varianza della distribuzione teorica sono funzioni note dei
due parametri incogniti, riportate nella (2.56), conviene usare i dati del campione per
calcolare le stime ottime µ̂, σ̂ 2 della media e della varianza, e uguagliarle alle loro
espressioni teoriche. Si ricava in tal modo il seguente sistema:

b+1
= µ̂


b+c+2



 (b + 1)(c + 1)
= σ̂ 2



(b + c + 2)2 (b + c + 3)

che ha come soluzione:

µ̂2 (1 − µ̂)
b= − (1 + µ̂)
σ̂ 2
µ̂(1 − µ̂)2
c = µ̂ − 2 +
σ̂ 2
con µ̂ e σ̂ 2 definite dalle (8.5) e (8.5’).

117
6.2 STIMA PER INTERVALLI

La stima ottima ϑ̂ di un parametro ϑ che abbiamo ricavato nel paragrafo precedente,


si determina esaminando i dati forniti da uno dei tanti campioni che casualmente è
possibile estrarre dalla popolazione. Ciò significa che il valore empirico ottenuto è da
considerare approssimato, perché assai raramente esso coinciderà con il vero valore
del parametro.
Se però si conosce la distribuzione campionaria della statistica usata per stimare
questo parametro, siamo in grado di valutare l’errore commesso, e di definire l’inter-
vallo [ϑmin ≤ ϑ̂ ≤ ϑmax ] che, con probabilità γ ∈ [0, 1] molto prossima ad 1, contiene
il vero valore del parametro in questione.
Questo metodo di stima, che evidentemente migliora e completa i risultati che si ot-
tengono con una semplice stima puntuale, si chiama stima per intervalli. L’intervallo
[ϑmin , ϑmax ] tale che

IP(ϑmin ≤ ϑ ≤ ϑmax ) ≥ γ ∀ϑ∈Θ

si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limiti


fiduciari, e γ è il livello fiduciario o probabilità fiduciaria, che si sceglie in anticipo
e quantifica, per cosı́ dire, il “nostro grado di accettazione” dell’errore commesso
nella stima. Espressa in percentuale, la probabilità γ esprime anche il livello di
significatività della stima effettuata. Fissato γ, quanto più piccolo è l’intervallo di
confidenza, tanto migliore è l’approssimazione della stima puntuale effettuata.
La stima intervallare più frequente usa un intervallo fiduciario simmetrico, centrato
sul valore empirico ϑ̂ calcolato, e prende anche il nome di stima a due code se la
condizione:
IP(ϑ̂ − δ ≤ ϑ ≤ ϑ̂ + δ) ≥ γ ∀ϑ∈Θ
implica l’esclusione delle regioni più esterne (le “code”) di una distribuzione di tipo
normale.
In altri casi, è invece preferibile effettuare stime a una coda, che sono definite da
condizioni del tipo:

IP(ϑ ≤ ϑmax ) ≥ γ, IP(ϑmin ≤ ϑ) ≥ γ ∀ϑ∈Θ

in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra.


Le definizioni delle distribuzioni campionarie delle medie e delle varianze che è stata
effettuata nei §7.3 e 7.4 del Capitolo precedente, ci permettono di determinare per
questi due parametri le stime intervallari che seguono.

6.2.1 Intervalli di confidenza per la media


6.2.1.1. Popolazione con varianza nota.
Supponiamo dapprima che la popolazione da cui è stato estratto il campione abbia
una distribuzione teorica con media µ incognita da determinare, e varianza nota σ 2 .

118
Se la popolazione ha un modello statistico Normale N (θ, σ 2 ), anche la media cam-
pionaria µn ha una distribuzione
√ normale, che per le (5.3) e (5.5’) ha media µ e
deviazione standard σ/ n, per qualunque valore della numerosità n del campione.
Se la popolazione ha una distribuzione teorica che non è normale, per il Teorema
Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale
N (µ, σ 2 /n) se la numerosità del campione è sufficientemente elevata (in pratica, se
n ≥ 30).
In entrambi i casi, fissato il livello fiduciario γ e introdotta la variabile normale
standard
µn − µ
Zn = √ ∼ N (0, 1), (6.9)
σ/ n
si può determinare un intervallo di confidenza simmetrico, centrato sul valore empirico
µn della media campionaria, calcolando il valore di z per cui si ha:
   
σ σ σ
IP µn − √ z ≤ µ ≤ µn + √ z = IP |µn − µ| ≤ √ z =
n n n
= IP(|Zn | ≤ z) = 2 erf (z) = γ. (6.10)
Questo valore di z che soddisfa la (6.10), e che indichiamo con z q ≡ z(1+γ)/2 (v.
il grafico a) di Fig. 6.1) è il quantile di ordine q = (1 + γ)/2 della legge Normale
standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile z q di
ordine q della distribuzione N (0, 1) è quel valore di Z tale che
1
FZ (zq ) = + erf(zq ) = q ,
2
esso si può ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle sue
colonne il numero più prossimo al valore q −0.5 (ovvero al valore γ/2), eventualmente
interpolando tra due valori vicini.
Calcolati il valore empirico µn e il coefficiente fiduciario zγ , l’intervallo di confidenza
simmetrico per una stima al livello fiduciario γ risulta pertanto:
σ σ
µn − √ z(1+γ)/2 ≤ µ ≤ µn + √ z(1+γ)/2 (6.11)
n n
ed ha come estremi i limiti fiduciari:
σ
µn ± √ z(1+γ)/2 . (6.110 )
n
In modo analogo si può procedere per determinare i limiti superiori o inferiori di
intervalli di confidenza per le stime a una coda. Ad esempio, il valore z γ di z che
soddisfa la seguente condizione:
   
σ σ
IP µ ≤ µn + √ z = IP µn − µ ≥ −z √ = IP(Zn ≥ −z) =
n n
= 1 − IP(Zn ≤ −z) = 1 − [1/2 + erf (−z)] = 1/2 + erf (z) = γ
è il quantile di ordine q = γ della legge N (0, 1) e definisce il limite fiduciario superiore
per il seguente intervallo di confidenza a una coda:

119
N (0,1) N (0,1)
g g

1 g 1 g
2 1 g
2

-z 1+ g 0 z 1+ g z 0 zg z
2 2
a) stima con intervallo simmetrico b) stima a una coda

Figura 6.1 - Intervalli di confidenza

σ
−∞ < µ ≤ µn + √ zγ (6.12)
n
che è mostrato nel grafico b) di Fig. 6.1. Esso si determina ricercando nella Tabella
di erf(z) il valore di z che corrisponde a una probabilità uguale a γ − 1/2. Allo stesso
modo si determina il limite fiduciario inferiore dell’intervallo di confidenza:
σ
µn − √ zγ ≤ µ < +∞ , (6.13)
n
dove zγ è ancora il quantile di ordine γ di N (0, 1), soddisfacente la condizione:
   
σ σ
IP µ ≥ µn − √ z = IP µn − µ ≤ z √ = IP(Zn ≤ z) = 1/2 + erf (z) = γ.
n n

OSSERVAZIONE 6.1
I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti pro-
blemi di stima, collegati a quello della determinazione di un intervallo di confidenza
simmetrico.
• Determinazione del livello fiduciario. Fissato lo scarto
σ
δ = |µn − µ| = √ z(1+γ)/2
n
nella stima del valor medio µ attraverso il risultato empirico µ n , la probabilità
fiduciaria con cui si può affermare che µ = µn ± δ è data dal valore di γ che
soddisfa la condizione: √
n
z(1+γ)/2 = δ,
σ
il quale per la (6.10) vale:
 √ 
n
γ = 2 erf z = δ . (6.14)
σ

120
• Determinazione della numerosità del campione. Fissato il livello fiduciario γ, la
numerosità del campione che è necessaria per sostenere che il valor medio stimato
vale µ = µn ± δ si calcola imponendo la condizione:
σ
z(1+γ)/2 √ ≤ δ
n

con z(1+γ)/2 che soddisfa la (6.10). Da questa si ottiene:


 σ 2
n ≥ z(1+γ)/2 . (6.15)
δ

6.2.1.2 Popolazione con varianza sconosciuta.


Supponiamo ora che la popolazione da cui è stato estratto il campione abbia una
distribuzione teorica in cui anche la varianza σ 2 , in aggiunta alla media µ da deter-
minare, sia sconosciuta.
In tal caso, per effettuare una stima intervallare di µ ci si basa sulla densità t-Student
illustrata nel §2.3.6 del Capitolo II, alla quale fa riferimento il seguente:

TEOREMA 6.1 (t-Student)


Se da una popolazione normalmente distribuita si estraggono campioni casuali di
numerosità n con media campionaria µn e varianza campionaria corretta Ŝn2 , allora
la variabile casuale √
(µn − µ) n
Tn = (6.16)
Ŝn
ha una distribuzione t-Student con ν = n − 1 gradi di libertà.
Ne segue che se la popolazione ha una distribuzione teorica normale, una volta deter-
minate le realizzazioni delle due statistiche campionarie (5.1) e (5.14) con numerosità
n qualsiasi, una stima intervallare simmetrica per µ con livello fiduciario γ si potrà
effettuare determinando quel valore tq di t che soddisfa la condizione:
! !
Ŝn Ŝn Ŝn
IP µn − √ t ≤ µ ≤ µn + √ t = IP |µn − µ| ≤ √ t =
n n n
= IP(|Tn | ≤ t) = γ. (6.17)

Il coefficiente fiduciario tq per questa stima a due code è il quantile della distribuzione
t-Student con ν = n − 1 gradi di libertà, che lascia alla sua destra un’area uguale
alla probabilità (1 − γ)/2. Esso si può ricavare da una apposita Tabella dei quantili
delle distribuzioni t-Student che è riportata in Appendice, e per un prefissato grado
di libertà ν è il valore che si trova nella colonna del quantile
1−γ 1+γ
q =1− = . (6.170 )
2 2

121
L’intervallo di confidenza simmetrico per una stima di µ al livello fiduciario γ è
pertanto:
Ŝn Ŝn
µn − √ t q ≤ µ ≤ µ n + √ t q . (6.18)
n n
Si noti che i suoi limiti fiduciari si ottengono dalla (6.11’) sostituendo σ, ora incognito,
con Ŝn (n qualsiasi), e il coefficiente zq con tq . In modo simile, si ricavano i seguenti
intervalli di confidenza a una coda:
Ŝn Ŝn
−∞ < µ ≤ µn + √ tq , µn − √ tq ≤ µ < +∞ , (6.19)
n n
i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficiente
tq che è ora il quantile della distribuzione t-Student con ν = n − 1 gradi di libertà,
con q = γ.

Le formule (6.17)-(6.19) sono state ricavate nella ipotesi che la popolazione sia nor-
malmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casual-
mente da questa. Se invece la popolazione non è normalmente distribuita, non sono
soddisfatte le ipotesi del precedente Teorema. In tal caso si può però dimostrare che
il Teorema 6.1 vale ancora per n sufficientemente grande, circostanza in cui, come
si è detto nel §3.2.6, la distribuzione t-Student tende alla legge Normale standard
identificandosi con la variabile aleatoria Zn definita con la (6.9).
Ne segue che le stime intervallari per la media di una popolazione con distribuzione
diversa da quella normale si ottengono ancora, se la numerosità del campione è suffi-
cientemente elevata (n ≥ 30), calcolando i coefficienti fiduciari zγ che compaiono nelle
(6.11)-(6.15), dopo aver sostituito in queste formule la deviazione standard incognita
σ con il valore empirico della statistica campionaria Ŝn .

Riportiamo qui, per comodità, le espressioni di Ŝn che si deducono dall’analisi della
distribuzione campionaria delle varianze effettuata nel §5.4.
Se il campione di numerosità n è estratto con ripetizione da una popolazione finita,
oppure se la popolazione è infinita, si ha
r
n
Ŝn = Sn . (6.20)
n−1
Se il campione è estratto senza ripetizione da una popolazione con un numero finito
di N elementi, allora r
N −1 n
Ŝn = Sn , (6.21)
N n−1
dove Sn è la radice quadrata positiva della varianza campionaria (5.2):
v
u n
u1 X
Sn = t (Xi − µn )2 .
n i=1

122
Esempio 6.5
La media e la deviazione standard del diametro di un campione di 200 utensili
prodotti da una fabbrica sono rispettivamente µn = 0.824 cm e Sn = 0.042 cm.
Nell’ipotesi che il campione sia stato estratto con ripetizione da un numero elevato
di pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro
medio dei tondini in produzione; 2) la numerosità n del campione che si dovrebbe
esaminare per poter concludere, al livello fiduciario γ = 0.95, che l’errore nella stima
della media è inferiore a 0.001 cm.
1) Il campione è estratto da una popolazione avente distribuzione non nota, con
media e varianza pure sconosciute. La numerosità n è sufficiente per asserire che i
limiti fiduciari sono dati da
Ŝn
µn ± √ · zq
200
con Ŝn che per la (6.20) vale
r
200
Ŝn = · 0.042 = 0.04210 cm
199
e zq con q = (1 + γ)/2 si ricava dalla Tabella di erf(z).
Al livello fiduciario γ = 0.95, si trova dalla Tabella che γ/2 = 0.475 = erf (1.96), e
quindi zq = 1.96. Al livello γ = 0.99, si ha invece zq = 2.575, interpolando tra i valori
più vicini a γ/2 = 0.495. Si ottengono pertanto i seguenti risultati:
0.0421
al livello γ = 0.95 : µ = 0.824 ± √ · 1.96 = 0.824 ± 0.00583 cm.
200
0.0421
al livello γ = 0.99 : µ = 0.824 ± √ · 2.575 = 0.824 ± 0.00766 cm.
200
2) Per stimare il valor medio con un errore inferiore a δ = 0.001, occorre che n soddisfi
la condizione (6.15) con Ŝn = 0.0421 al posto di σ incognita. Al livello di fiducia del
95% si deve perciò avere (arrotondando per eccesso perché n è intero):
 2
0.0421
n≥ 1.96 · = 6778.
0.001

esempio 6.6
Dieci misurazioni della lunghezza di un oggetto danno come risultato una media
µn = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare i
limiti fiduciari al 95% e al 99% della lunghezza effettiva dell’oggetto.
Il campione è l’insieme di dieci prove ripetute e indipendenti consistenti nella mi-
surazione della lunghezza dell’oggetto, e si può considerare estratto con ripetizione
dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il
Teorema di asintoticità per prove ripetute e indipendenti (v. §2.3.9 del Capitolo II), il
modello statistico da adottare è quello Normale-2, con media e varianza sconosciute.

123
Poichè abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per la
media µ si calcolano usando la distribuzione t-Student con ν = n − 1 = 9 gradi di
libertà, e sono definiti dalla (6.18) con
r
10
Ŝn = · 0.0036 ' 0.0038 cm
9

calcolato applicando la (6.20). Al livello fiduciario γ = 0.95 il quantile q dato dalla


(6.17’) vale
1 + 0.95
q= = 0.975
2
e al livello fiduciario γ = 0.99:

1 + 0.99
q= = 0.995 .
2

La Tabella dei quantili della distribuzione t-Student con 9 gradi di libertà (v. Appen-
dice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25.
Pertanto, in applicazione della (6.18) si ricava che i limiti fiduciari per il valor medio
della lunghezza dell’oggetto sono:

0.0038
al livello γ = 0.95 : µ = 4.38 ± √ · 2.262 = 4.38 ± 0.0027 cm.
10
0.0038
al livello γ = 0.99 : µ = 4.38 ± √ · 3.25 = 4.38 ± 0.0039 cm.
10

Esempio 6.7
Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae un
campione casuale di 50 voti che ha media µn = 75 e varianza Sn2 = 100. Calcolare:
1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciario con
cui potremo affermare che tale media vale 75 ± 1.
1) Il campione è estratto senza ripetizione da una popolazione finita con N = 200
elementi, con media e varianza sconosciute. Poiché n > 30, possiamo calcolare i limiti
fiduciari applicando la (6.11’) dopo aver sostituito, al posto di σ incognita, la stima
corretta di Ŝn che questa volta è data dalla (6.21). Il suo valore è prossimo a quello
della deviazione standard campionaria, e vale
r r
200 − 1 50 199
Ŝn = · S2 = · 100 = 10.0762.
200 50 − 1 n 196

Il coefficiente fiduciario zγ per γ = 0.95 vale zγ = 1.96 (v. l’Esempio 6.5 precedente).
Pertanto i limiti fiduciari per la stima della media dei voti sono:

10.0762
µ = 75 ± √ · 1.96 == 75 ± 2.793.
50

124
2) Per valutare il livello fiduciario di una stima intervallare del valor medio con un
errore non superiore a ±1, si applica la (6.14) con δ = 1 e Ŝn = 10.0762 al posto di
σ. Si ricava allora:
√ !
50
γ = 2 erf ' 2 erf (0.70) = 2 · 0.258 = 0.516 .
10.0762

Ciò significa che una stima in cui si afferma che µ è uguale al valore empirico con lo
scarto massimo di una unità, ha soltanto il 51.6% di probabilità di essere vera.

Esempio 6.8
Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare 25
casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio di ciascuna
cassa è µ = 300 kg, con deviazione standard σ = 50 kg. Si vuole calcolare:
1) la probabilità che il peso delle 25 casse non superi il limite di sicurezza del mon-
tacarichi;
2) il numero massimo di casse che è possibile caricare, se si vuole rimanere al di sotto
del limite di sicurezza di 8200 kg. con una probabilità del 99.9%.
1) In questo problema si assume di conoscere i parametri µ e σ 2 del modello statistico
per la popolazione delle casse, e poiché non conosciamo il numero N di elementi della
popolazione da cui è stato estratto il campione di n = 25 casse, si intende che questo
è stato scelto da una popolazione infinita.
La distribuzione campionaria delle medie dei pesi ha valor
√ medio E(µ n ) = µ = 300
kg e deviazione standard che per la (5.5’) vale σn = σ/ 25 = 10 kg.
Si deve determinare la probabilità fiduciaria γ per un test a una coda sul peso delle
25 casse del campione, al quale si richiede di non superare il limite di sicurezza di
8200 kg. Questo limite di sicurezza è raggiunto se ciascuna cassa ha un peso medio
di µ∗n = 8200/25 = 328 kg. Quindi, la probabilità da calcolare è γ = IP(µ n < 328).
Introducendo, al solito, la variabile standardizzata

µn − E(µn ) µn − 300
Zn = = ,
σn 10

al peso limite µ∗n di ciascuna cassa corrisponde il valore standardizzato z ∗ = 2.8. Si


ricava dunque:

1 1
γ = IP(µn < 328) = IP(Zn < 2.8) = + erf(2.8) = + 0.4974 = 0.9974.
2 2

2) Nella seconda domanda è invece fissato il livello fiduciario γ = 0.999, e si richiede


il numero n di casse che soddisfa la condizione:
 
8200
P µn ≤ = 0.999
n

125
ovvero anche il valore zγ di Zn che soddisfa:

1
IP(Zn ≤ zγ ) = + erf(zγ ) = 0.999 .
2
Dall’esame della Tabella dei valori di erf(z) risulta: zγ = 3.1 per cui, ricordando
l’espressione della variabile stardardizzata Zn , si ricava che deve essere:

8200/n − 300
zγ = 3.1 = √ .
50/ n

Si ottiene perciò la seguente equazione nella incognita n:



60n + 31 n − 1640 = 0

che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite di si-
curezza con probabilità fiduciaria γ = 0.999, è necessario caricare un numero massimo
di 24 casse.

Esempio 6.9
Dall’analisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava che
esse hanno un peso medio di 5.02 grammi, con deviazione standard σ = 0.30 gr.
1) Determinare la probabilità fiduciaria con cui si può affermare che il peso medio
delle sferette in produzione vale µ = 5.02 ± 0.02 gr.
2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100
sferette. Calcolare la probabilità che questo campione abbia un peso complessivo
compreso tra 496 e 500 gr., oppure maggiore di 510 gr.
1) Per il primo problema, si assume che il modello statistico per il peso delle sferette
abbia varianza nota σ 2 = (0.3)2 = 0.09 gr2 , e media µ da stimare mediante i dati for-
niti da un campione di numerosità n = 500 estratto con ripetizione dalla popolazione
degli elementi in produzione. Si richiede la probabilità fiduciaria γ per una stima
intervallare di µ con uno scarto massimo δ = 0.02 gr. Essa si determina applicando
la (6.14), e dalla Tabella di erf(z) si ricava:
√ !
500 0.02
γ = 2 erf = 2erf (1.49) = 2 · 0.4319 = 0.8638.
0.30

2) Nel secondo problema, occorre determinare la distribuzione campionaria delle me-


die dei pesi, che risulta da un generico campione di n = 100 sferette estratto senza
ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite Centrale,
questa distribuzione campionaria è ben approssimata dalla legge normale con valor
medio E{µn } = µ = 5.02, e varianza da calcolare applicando la (5.7):

σ 2 500 − 100
σn2 = · = 7.2144 · 10−4 gr2 .
100 499

126
E{ m n }

4.9 4.96 5 5.02 5.1 mn

Figura 6.2

Si chiede di determinare le probabilità IP(4.96 ≤ µn ≤ 5) e IP(µn ≥ 5.10) che sono


rappresentate dalle aree evidenziate in Fig. 6.2. La variabile casuale standardizzata

µn − E{µn } µn − 5.02
Zn = p =
σn2 0.027

assume, in corrispondenza degli estremi richiesti per µn , i seguenti valori:

µn = 4.96 : z1 = −2.22
µn = 5 : z2 = −0.74
µn = 5.10 : z3 = 2.96

per cui le probabilità cercate sono:

IP(4.96 ≤ µn ≤ 5) = IP(−2.22 ≤ Zn ≤ −0.74) = erf (2.22) − erf (0.74) = 0.2164

1
IP(µn ≥ 5.10) = IP(Zn ≥ 2.96) = − erf (2.96) = 0.0015.
2

Esempio 6.10
Da un campione di n = 100 votanti intervistati all’uscita dai seggi in un ballottaggio
elettorale risulta che il 55% di essi si è espresso a favore del candidato A. Si vuole
determinare:
1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidato
A;
2) Il numero n di interviste necessarie per affermare, al livello fiduciario γ = 0.95,
che il candidato sarà eletto.
L’universo costituito dall’elettorato attivo si suddivide in elettori favorevoli o contrari
al nostro candidato A. Se indichiamo con p la probabilità (incognita) che l’elettore
sia a lui favorevole, la popolazione degli elettori che hanno votato A è distribuita con

127
legge binomiale, avente una media E{ns } = 100p e varianza σ 2 (ns ) = 100p(1 − p),
dove ns è il numero di “successi” (voti a favore) riscontrati nel campione di elettori
intervistati. Consideriamo tutti i possibili campioni di grandezza n = 100 estratti da
questa popolazione, e valutiamo la distribuzione campionaria delle frequenze relative
Y = ns /100. Nel §5.5 è stato ricavato che anche Y ha una distribuzione binomiale, che
si può approssimare con una legge normale avente valor medio e deviazione standard
date da
E(ns )
E{Y } = =p
100 r
σ(ns ) p(1 − p)
σY = = .
100 100
1) La prima domanda richiede una stima intervallare per la frequenza relativa Y di
voti favorevoli, che effettuiamo introducendo la variabile standardizzata:

Y −p Y −p
Z= =p .
σY p(1 − p)/n

Si deve determinare l’intervallo di confidenza:

p − z q σY ≤ p ≤ p + z q σY

con zq da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e pre-
cisamente: zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99.
Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione delle
frequenze relative di voti favorevoli è E{Y } = p = 0.55, e la sua deviazione standard
vale: r
0.55 · 0.45
σY = = 0.04975.
100
Si ottengono cosı́ i seguenti limiti fiduciari:

al livello γ = 0.95 : p = 0.55 ± 1.96 · 0.04975 = 0.55 ± 0.0975


al livello γ = 0.99 : p = 0.55 ± 2.58 · 0.04975 = 0.55 ± 0.128.

Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello
fiduciario γ = 0.95 il candidato avrà una percentuale di voti che va dal 45% al 65%;
al livello fiduciario γ = 0.99 avrà una percentuale compresa tra il 42% e il 68%.
2) Il candidato sarà eletto se Y > 0.50, e per stimare al livello di fiducia γ = 0.95 la
probabilità che venga eletto, bisogna imporre che
1
IP(Y > 0.50) = IP(Z > z0 ) = − erf (z0 ) = 0.95 ,
2
dove z0 è il valore della variabile standardizzata per Y = 0.5, che scriviamo in funzione
di n:
0.5 − 0.55 √
z0 = p = −0.1005 n. (6.22)
0.55 · 0.45/n

128
Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0 ) = −0.45 e ricor-
dando che erf (−z) = − erf (z), si ricava: z0 = −1.645. Se sostituiamo questo valore
nella (6.22) si ottiene, arrotondando per eccesso:
 2
1.645 ∼
n= = 268.
0.1005
Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliare
limitato al 5%, che il candidato A vincerà il ballottaggio.

Esempio 6.11: Differenza di frequenze relative


Un campione Auditel di 1000 spettatori di un programma televisivo è costituito da
na = 700 adulti e nb = 300 bambini. Dal rilevamento dei dati di ascolto di un
programma di nuova produzione risulta che questo è gradito da 280 adulti e da 240
bambini. Si vuole conoscere, ai livelli di fiducia γ = 0.95 e 0.99, i limiti fiduciari per il
maggior gradimento del programma da parte dei bambini, rispetto a quello mostrato
dagli adulti.
Si considerino due campioni che supponiamo statisticamente indipendenti: quello co-
stituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Y a e Yb con
cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente:
280 240
Ya = = 0.4 = pa ; Yb = = 0.8 = pb .
700 300
Le distribuzioni campionarie di queste due frequenze relative, che indicano anche la
percentuale pa , pb di gradimento del programma da parte dei due campioni, sono
approssimabili (cfr. §7.5) con leggi normali aventi hanno valori medi E{Y a } = pa =
0.4 e E{Yb } = pb = 0.8. Le rispettive varianze valgono, per la (7.22):
pa (1 − pa ) 0.4 · 0.6
σa2 = = = 0.000343
na 700
pb (1 − pb ) 0.8 · 0.2
σb2 = = = 0.000533.
nb 300
Definiamo ora la variabile casuale

d(ω) = Yb − Ya

che rappresenta la differenza tra la frequenza relativa di gradimento da parte dei


bambini, e quella riscontrata negli adulti. Se d(ω) ha realizzazioni maggiori di zero, si-
gnifica che il programma ha un maggior gradimento da parte dei bambini, e viceversa
se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio è ovviamente

E{d} = E{Yb } − E{Ya } = 0.4 ,

e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) del


Capitolo III: q √
σd = σa2 + σb2 = 0.000343 · 0.000533 = 0.0296.

129
Una stima per intervalli del maggior gradimento da parte dei bambini si effettua
calcolando il seguente intervallo di confidenza:

E{d} − zq σd ≤ d ≤ E{d} + zq σd

dove, al solito, zq è il coefficiente fiduciario per la differenza standardizzata Z =


(d − 0.4)/σd , e vale zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99.
I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sono allora:

al livello γ = 0.95 : d = 0.4 ± 1.96 · 0.0296 = 0.4 ± 0.058


al livello γ = 0.99 : d = 0.4 ± 2.58 · 0.0296 = 0.4 ± 0.076.

In termini percentuali, il risultato è il seguente:


• al livello fiduciario del 95%, il maggior gradimento del programma da parte dei
bambini (rispetto a quello dimostrato dagli adulti) è da valutare tra il 34.2% e il
45.8%;
• al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6%.

6.2.2 Intervalli di confidenza per la varianza


Se si conosce la distribuzione campionaria delle varianze, è possibile determinare un
intervallo di confidenza per la varianza σ 2 della popolazione da cui è stato estratto il
campione di numerosità n.
Nel §5.4 si è visto che ciò è possibile se il modello statistico della popolazione ha legge
normale, perché in tal caso dal Teorema Chi-quadrato si deduce che la stima ottima
della varianza:
2 σ2
Ŝn = Qn (6.23)
n−1
è distribuita con la densità (5.16), la quale a sua volta è calcolabile attraverso la legge
Chi-quadrato con ν = n − 1 gradi di libertà della variabile aleatoria Q n .
Non è facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20)
e, come per la legge t-Student, si ricorre di solito ai valori tabulati dei suoi quantili
χq , che sono riportati per diversi gradi di libertà in una Tabella della Appendice.
Denotiamo allora per comodità con χj = χq=qj il quantile della distribuzione Chi-
quadrato che, per definizione, è tale da soddisfare la condizione:

IP(Qn ≤ χj ) = qj ∈ [0, 1].

Se si impone che Qn assuma valori in un intervallo [χ1 , χ2 ] con un assegnato livello


fiduciario γ, tenendo conto della (6.23) si ha
 
n−1 2
IP(χ1 ≤ Qn ≤ χ2 ) = IP χ1 ≤ Ŝn ≤ χ2 =
σ2
 
n−1 2 2 n−1 2
= IP Ŝn ≤ σ ≤ Ŝn = γ. (6.24)
χ2 χ1

130
f ( Qn )

1 g g g
2 2 2 1 g
2

0 c1 E{Qn } c2 c
Figura 6.3

Un intervallo di confidenza per la varianza σ 2 si ricava perciò, al livello fiduciario


γ, determinando due quantili χ1 , χ2 che soddisfano la (6.24). La scelta non è unica,
ma di solito si determinano quelli che escludono due code della distribuzione Chi-
quadrato, aventi la medesima area uguale a (1 − γ)/2. Con tale scelta (v. Fig. 6.3)
i due quantili sono tali che:
1−γ 1+γ
q1 = ; q2 = (6.25)
2 2
e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio
della distribuzione campionaria di Ŝn2 , la suddivide in due parti con uguale area γ/2,
a destra e a sinistra del valor medio il quale coincide proprio con la varianza teorica
della popolazione. La probabilità che σ 2 assuma valori in questo intervallo è uguale
alla probabilità fiduciaria γ assegnata. La stima intervallare al livello fiduciario γ,
per la varianza di una popolazione distribuita con legge normale, è dunque:
n−1 2 n−1 2
Ŝn ≤ σ 2 ≤ Ŝn (6.26)
χ2 χ1
con quantili dati dalla (6.25), dove la statistica Ŝn2 è la varianza campionaria corretta
(5.14).
In modo analogo si possono effettuare stime a una coda della varianza, tali da sod-
disfare condizioni del tipo:
 
2 n−1 2
IP(Qn ≥ χ1 ) = IP σ ≤ Ŝ =γ
χ1 n
  (6.27)
2 n−1 2
IP(Qn ≤ χ2 ) = IP σ ≥ Ŝ =γ
χ2 n
nelle quali χ1 , χ2 sono i quantili della Chi-quadrato per cui
q1 = 1 − γ ; q2 = γ ,
e “tagliano” un’area della distribuzione campionaria che è uguale a 1 − γ, rispettiva-
mente a sinistra di χ1 e a destra di χ2 .

131
Caso di grandi campioni
Nel §2.3.7 si è detto che per n >> 1 la distribuzione Chi-quadrato è ben approssimata
dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato
per una stima intervallare della varianza ha numerosità n elevata (almeno maggiore
di 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e la
variabile
(n − 1)Ŝn2
Qn − n 2
−n
Zn = √ = σ√ (6.28)
2n 2n
è prossima alla Normale standard. In tal caso, la stima intervallare di σ 2 al livello
fiduciario γ si può effettuare imponendo che sia IP(|Zn | ≤ zq ) = γ, dove Zn è dato
dalla posizione (6.28) e zq è, al solito, il quantile della Normale standard di ordine
q = (1 + γ)/2 = q2 che soddisfa
erf (zq ) = γ/2.
Se ricaviamo σ 2 dalla (6.28) e, tenuto conto che n >> 1, assegnamo un valore unitario
al rapporto (n − 1)/n, si deduce allora che l’intervallo di confidenza (6.26) può essere
ben approssimato dal seguente:
Ŝ 2 Ŝ 2
rn ≤ σ2 ≤ rn (6.260 )
2 2
1+ zq 1− zq
n n
che è più comodo da calcolare perché richiede solo la determinazione di z q anziché
quella di χ1 e χ2 .

Esempio 6.12
Per stimare la varianza di un coefficiente di resistenza aerodinamica C x , si effettuano
12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dai
risultati delle prove si ricava che il valor medio empirico del coefficiente di resistenza
è circa 0.3, con varianza campionaria Sn2 = 0.015. Si vuole determinare:
1) i limiti fiduciari per la varianza teorica σ 2 (Cx ) del coefficiente di resistenza, al
livello di fiducia γ = 0.9 ;
2) il livello fiduciario con cui si può affermare che σ 2 (Cx ) ≤ 0.03.
Teoricamente, non sarebbe possibile assumere per Cx un modello statistico normale,
perché N (µ, σ 2 ) è definito sull’insieme dei numeri reali, mentre Cx > 0. Tuttavia, si
può facilmente verificare che la curva gaussiana (2.29) con un valor medio µ X ' 0.3
e varianza di un’ordine di grandezza inferiore, ha valori trascurabili al di fuori di un
intervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normale
si può ritenere compatibile con il nostro Cx e una stima intervallare di σ 2 (Cx ) si può
effettuare applicando le precedenti formule (6.24)-(6.27).
1) Per una distribuzione Chi-quadrato con ν = n − 1 = 11 gradi di libertà, i quantili
calcolati con la (6.25) sono:
1−γ 1+γ
q1 = = 0.05 ; q2 = = 0.95
2 2

132
e la Tabella dei quantili χq in Appendice fornisce: χ1 = 4.57; χ2 = 19.7. Il valore
empirico della varianza campionaria corretta è:

12 2
Ŝn2 = S = 0.01636
11 n

e applicando la (6.26) si ottiene, al livello fiduciario γ = 0.9, la seguente stima


intervallare della varianza teorica:
11 · 0.01636 11 · 0.01636
0.0091 = ≤ σ 2 (Cx ) ≤ = 0.0393.
19.7 4.57

2) per determinare il livello fiduciario per una stima a una coda tale che σ 2 (Cx ) ≤
0.03, usiamo la prima delle (6.27) ricercando il valore del quantile χ 1−γ che soddisfa
la condizione:
n−1 2 11 · 0.01636
Ŝn = = 0.03 ,
χ1−γ χ1−γ
ossia: χ1−γ = 5.998. Per ν = 11, la Tabella dei quantili fornisce i valori χ = 5.58
per q = 0.1, e χ = 7.58 per q = 0.25. Interpolando linearmente tra questi dati per
ottenere il valore di q corrispondente al quantile 5.998, ricaviamo:

0.25 − 0.1
q = 0.1 + · (5.998 − 5.58) ' 0.13
7.58 − 5.58

da cui γ = 1 − q = 0.87 . Questo è il livello fiduciario con cui si può affermare che
σ 2 (Cx ) ≤ 0.03.

Esempio 6.13
Da una popolazione di N = 300 elementi avente un carattere X distribuito con
legge normale N (µ, σ 2 = 150) si estraggono senza ripetizione n = 101 esemplari.
Si desidera effettuare, al livello fiduciario γ = 0.98, una stima intervallare per la
varianza del carattere X risultante nei 101 elementi del campione.
In questo problema la varianza teorica è nota, e il suo valore è da utilizzare per
effettuare una stima sulla varianza campionaria Sn2 . Si riscrive la (6.24) nella forma
seguente:
 
n−1 2
IP(χ1 ≤ Qn ≤ χ2 ) = IP χ1 ≤ Ŝn ≤ χ2 =
σ2
 2
σ2

σ 2
= IP χ1 ≤ Ŝn ≤ χ2 = 0.98
n−1 n−1

e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato


con ν = 100 gradi di libertà, corrispondenti a

1 − 0.98 1 + 0.98
q1 = = 0.01 ; q2 = = 0.99 ,
2 2

133
che valgono: χ1 = 70.1 ; χ2 = 136. Si deducono i seguenti limiti fiduciari per la stima
ottima della varianza campionaria:

150 · 70.1 150 · 136


105.15 = ≤ Ŝn2 ≤ = 204.
100 100
Ricordando poi che il campione è stato estratto senza ripetizione, questa statistica è
legata alla varianza campionaria Sn2 dalla relazione (5.19):

N −1 n 299 101 2
Ŝn2 = · Sn2 = · S = 1.00663 Sn2 ,
N n−1 300 100 n

per cui la stima intervallare richiesta è

105.84 ≤ Sn2 ≤ 205.35 . (6.29)

I limiti fiduciari per Sn2 sono molto vicini a quelli calcolati per Ŝn2 , perché la numerosità
del campione è superiore a 30.
Per lo stesso motivo, è anche possibile approssimare il risultato richiesto effettuando
una stima intervallare sulla variabile normale standard (6.28). Nel nostro caso, per
avere risultati coerenti con i precedenti non è però lecito approssimare all’unità il
rapporto (n − 1)/n, perché il suo valore esatto è stato usato nel ricavare la (6.29).
Risolvendo la posizione (6.28) rispetto a Ŝn2 ricaviamo il seguente intervallo di confi-
denza approssimato:
r ! r !
2 n 2 n
1− zq σ2 ≤ Ŝn2 ≤ 1+ zq σ2 .
n n−1 n n−1

Se sostituiamo zq = 2.33 risulta:

101.81 ≤ Ŝn2 ≤ 201.17

e dividendo i limiti fiduciari per 1.00663, si ottiene la seguente approssimazione


dell’intervallo di confidenza per Sn2 :

102.48 ≤ Sn2 ≤ 202.50,

da confrontare con il risultato “esatto” (6.29) che è stato ottenuto usando i coefficienti
fiduciari della distribuzione Chi-quadrato.

134
CAPITOLO SETTIMO

TEST PARAMETRICI DI IPOTESI STATISTICHE

7.1 PRINCIPI GENERALI DI UN TEST STATISTICO

Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle proprietà della
distribuzione probabilistica osservata in un esperimento che coinvolge una variabile
aleatoria.
Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione dei
metodi per verificare la validità di ipotesi fatte riguardo a questa variabile aleatoria,
sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un
campione.
L’ipotesi formulata su un generico fenomeno aleatorio è usualmente chiamata ipotesi
nulla, e indicata con H0 . Possiamo suddividere le ipotesi statistiche in due grandi
categorie:
Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione
teorica di una o più popolazioni, la quale si assume già definita nella famiglia delle
funzioni di distribuzione FX (x) compatibili con il modello statistico adottato per
ciascuna popolazione. In generale, una ipotesi parametrica è specificata da una
”ipotesi nulla” del tipo:
H0 : ϑ ∈ Θ 0 ⊂ Θ (7.1)
per un parametro incognito ϑ (eventualmente multidimensionale) che si assume
appartenente ad un determinato sottoinsieme Θ0 del dominio Θ compatibile con il
modello statistico. Il test ha come obiettivo la verifica della validità della ipotesi
(7.1).
Ipotesi non parametriche, fatte per esempio sulla forma o sulla natura stessa
della funzione di distribuzione FX (x) del carattere aleatorio da studiare, oppure
riguardanti proprietà aleatorie congiunte di più caratteri delle medesima popo-
lazione, oppure ancora relativi a popolazioni differenti.

135
Una ipotesi non parametrica è specificata da una ipotesi nulla del tipo:

H0 : FX (x) ∈ F0 ⊂ F (7.2)

in cui F0 è una classe appropriata di funzioni — appartenente alla famiglia F delle


funzioni di distribuzione compatibili con il modello statistico — che si assume con-
tenga la vera funzione di distribuzione FX (x) carattere X (eventualmente multidi-
mensionale) che esaminiamo con il campione.
Le ipotesi nulle del tipo (7.1) o (7.2) si chiamano semplici se Θ 0 oppure F0 contengono
solo un elemento; si dicono composte in caso contrario.
Si chiama test statistico la regola che ci permette di decidere se, e in quale misura, ac-
cettare o respingere una ipotesi nulla del tipo (7.1) o (7.2), esaminando le osservazioni
fatte su una statistica campionaria.
L’impostazione di un test statistico si effettua nel modo seguente.
• Si definisce una legge probabilistica per il carattere aleatorio X, compatibile con il
modello statistico della popolazione su cui si effettua il test.
• Si definisce l’ipotesi nulla H0 da verificare.
• Si definisce una ipotesi alternativa H1 che è una ipotesi da considerare valida
quando si rifiuta H0 , e nei due casi sopra esaminati è rispettivamente del tipo:

H1 : ϑ ∈ Θ1 con Θ1 = Θ \ Θ0 (7.10 )
H1 : FX (x) ∈ F1 con F1 = F \ F0 . (7.20 )

• Si definisce una statistica campionaria Gn (X1 , . . . , Xn ) con distribuzione nota


quando l’ipotesi nulla H0 è vera.
• Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemi
disgiunti: l’insieme A detto regione di accettazione di H0 , e il suo complementare
C = G \ A detto regione di rifiuto o regione critica.
• Si assume come criterio decisionale la regola di accettare l’ipotesi nulla H 0 se
la realizzazione osservata della statistica Gn appartiene ad A, e di rifiutarla se
appartiene alla regione critica.
La decisione di accettare o rifiutare l’ipotesi nulla in seguito alle osservazioni del
campione è sempre affetta da due tipi di errore, e precisamente:
• l’errore di prima specie, che è quello che commettiamo se rigettiamo l’ipotesi nulla
H0 quando essa è vera:

α = IP(H1 |H0 ) ≡ IP(Gn ∈ C | H0 vera) ; (7.3)

• l’errore di seconda specie, che commettiamo se accettiamo H0 mentre invece è vera


l’ipotesi alternativa:

β = IP(H0 |H1 ) ≡ IP(Gn ∈ A | H1 vera). (7.4)

Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo
definire la probabilità α di commettere un errore di prima specie. Scegliendo un

136
determinato valore di α, definiamo allora un livello di significatività del test,
che è misurato dalla massima probabilità con la quale siamo disposti a rischiare di
commettere un errore di prima specie. In modo equivalente, la quantità 1−α specifica
il livello di fiducia del test.
Le probabilità α, β di errore variano, ovviamente, al variare degli insiemi A e C con
cui abbiamo scelto la regione di accettazione e quella di rifiuto. D’altra parte, sono
possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di regola
si opera in modo da scegliere la regione di accettazione A in modo da rendere piccolo
l’errore di prima specie (solitamente, α = 0.05 oppure 0.01). Tuttavia, mantenendo
fissa la numerosità n dei campioni, al decrescere di α cresce la probabilità β dell’errore
di seconda specie. Fissato α, si deve pertanto ricercare la suddivisione dello spazio G
che rende minimo l’errore β.
Si definisce potenza di un test la quantità W = 1 − β ∈ [0, 1] che misura la
probabilità di respingere l’ipotesi nulla H0 quando è vera l’ipotesi alternativa H1 .
La determinazione della potenza di un test è spesso difficile, perché per il suo calcolo
esplicito occorre conoscere anche la distribuzione campionaria di G n quando è vera
l’ipotesi alternativa H1 la quale, per giunta, spesso non è semplice ma composta. Nei
casi in cui ciò è possibile, il test (se esiste) in cui fissato α l’errore β è minimo si
chiama “il test più potente” tra quelli con α assegnato.
A sua volta, la potenza di un test con α assegnato cresce al crescere della numerosità
dei campioni, che è comunque limitata per motivi di ordine pratico. Fissato anche
n, se l’ipotesi alternativa è composta, il grafico della potenza W (g n ) in funzione dei
possibili valori empirici gn che può assumere la statistica campionaria Gn si chiama
curva di potenza del test. Se invece di riportare la potenza W (gn ) si riporta l’errore
di seconda specie β, si ha la curva caratteristica operativa β(gn ) del test.
In questo Capitolo tratteremo le tecniche in uso per effettuare la verifica di alcune
ipotesi parametriche per le quali, come vedremo, esiste sotto certe condizioni un
criterio per la definizione di un test di massima potenza.

7.2 TEST PARAMETRICI

In un test statistico sul parametro ϑ di una distribuzione FX (x; ϑ) compatibile con il


modello statistico della popolazione, l’ipotesi nulla e quella alternativa sono del tipo
(7.1), (7.1’). Tre esempi molto particolari sono i seguenti. Se si assume:
H0 : ϑ = ϑ 0 ; H1 : ϑ = ϑ 1 , (7.5)
si imposta un test fra due ipotesi semplici, perché queste sono definite su due insiemi
Θ0 e Θ1 costituiti entrambi da un solo elemento. Se invece si assume:
H0 : ϑ = ϑ 0 ; H1 : ϑ > ϑ 0 oppure ϑ 6= ϑ0 , (7.6)
l’ipotesi alternativa è composta, perché Θ1 = (ϑ0 , +∞) oppure Θ1 = (−∞, ϑ0 ) ∪
(ϑ0 , +∞). E ancora: se per un modello Normale-2 N (ϑ1 , ϑ2 ) si fa l’ipotesi nulla:
H0 : ϑ1 = ϑ10 , ϑ2 = ϑ20 ; Θ0 ∈ IR2 = {ϑ10 , ϑ20 },

137
questa è una ipotesi semplice per i due parametri incogniti (media e varianza); se
invece l’ipotesi nulla è H0 : ϑ1 = ϑ10 e si lascia la varianza indeterminata, allora H0
è composta.
Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre
ristrette alla classe delle distribuzioni FX (x; ϑ) ammissibili dal modello statistico, le
quali si suppone abbiano legge nota anche se dipendente da certi parametri da sti-
mare. Questa circostanza consente — almeno in certi casi in cui le ipotesi alternative
sono soggette ad opportune restrizioni — di valutare anche i rischi di seconda specie
β e quindi la potenza del test parametrico effettuato.
Accettato un livello di significatività α, per riconoscere il test parametrico di massima
potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo da
avere un rischio di seconda specie β che sia il minore possibile. La soluzione di
questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che
consideriamo nel paragrafo che segue.

7.3 TEST DI NEYMAN-PEARSON TRA IPOTESI SEMPLICI


Assumiamo le due ipotesi semplici (7.5) per il parametro ϑ ∈ IR di una distribuzione
FX (x, ϑ) assolutamente continua con densità fX (x, ϑ). La regione critica per il test
più potente tra quelli che hanno un prefissato livello di significatività si può deter-
minare applicando un Teorema che si può cosı́ enunciare.

TEOREMA (di Neyman-Pearson, 1933)


Sia Gn (X) una statistica campionaria, con valore empirico noto attraverso le n osser-
vazioni (x1 , . . . , xn ) = x su un campione X estratto da una popolazione con funzione
di distribuzione assolutamente continua. Scelto arbitrariamente un reale positivo c,
il test più potente, tra quelli per cui si ha α = IP(Gn (X) ∈ C |H0 ), esiste ed è quello
per cui la regione critica C è l’insieme
 
L(ϑ0 , x)
C= x : `(x) = <c , c ∈ IR+ (7.6)
L(ϑ1 , x)

dove `(x) è il “rapporto di verosimiglianza” tra le funzioni (8.6), calcolate per ϑ = ϑ 0


e ϑ = ϑ1 .

Ad ogni c > 0 corrisponde dunque in questo test una partizione ottimale dello spazio
campionario. Reciprocamente, scelto un livello di significatività α, la condizione (7.6)
definisce la regione critica C che rende minimo l’errore di seconda specie β. Illustriamo
questo Teorema con l’esempio che segue.

Esempio 7.1
Assumiamo un modello statistico Normale-1 N (ϑ, σ 2 ) con varianza nota e media da
determinare, scegliendo tra l’ipotesi nulla che essa valga ϑ0 = 0 e l’ipotesi alternativa
che il suo valore sia ϑ1 = 2. Nelle due ipotesi che ci interessano, le funzioni di

138
verosimiglianza per le realizzazioni di un campione di numerosità n sotto l’ipotesi
nulla e quella alternativa, sono (cfr. §6.1.2):

n
" n #
x2i X x2
 
Y 1 1 i
L(ϑ0 ; x) = √ exp − 2 = 2 )n/2
exp − 2
.
i=1
σ 2π 2σ (2πσ i=1

n
" n #
(xi − 2)2 X (xi − 2)2
 
Y 1 1
L(ϑ1 ; x) = √ exp − 2
= 2 )n/2
exp −
i=1
σ 2π 2σ (2πσ i=1
2σ 2

e il rapporto di verosimiglianza vale:


" #
1 X 2
exp − 2 x
2σ i i
`(x) = " !# =
1 X X
exp − x2i + 4n − 4 xi
2σ 2 i i
 
1 2n
=     = exp − 2 (µn − 1) ,
2n 2nµn σ
exp − 2 exp − 2
σ σ

dove è stata introdotta la realizzazione µn della statistica campionaria da usare nel


test, che è la media campionaria (5.1).
Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test più potente
è quello per cui `(x) < c. Nel nostro caso, ciò comporta che nella distribuzione cam-
pionaria delle medie la regione “ottimale” di rifiuto è quella definita dalla condizione:

σ2
µn > 1 − log c ≡ h. (7.7)
2n
Scelto ora un rischio di prima specie α, si determina il valore di h tenendo conto che
la distribuzione campionaria delle medie ha legge normale N (µn , σ 2 /n). Infatti, se
H0 è vera, il valor medio di questa distribuzione è nullo e dunque:
√ Z ∞  √ 
nµ2n
 
n 1 h n
α = IP(µn > h |H0 ) = √ exp − 2 dµn = − erf . (7.8)
σ 2π h 2σ 2 σ

Una volta valutato h, tenuto conto che se è vera H1 la distribuzione campionaria ha


media E{µn } = 2, si determina anche l’errore di seconda specie β:

β = IP(µn ≤ h |H1 ) =
√ Z h √ 
n(µn − 2)2
  
n 1 (h − 2) n
= √ exp − dµn = + erf , (7.9)
σ 2π −∞ 2σ 2 2 σ

dal quale si ricava la potenza W = (1 − β) del test.

139
H 0 : N ( q 0 ,1) H 1 : N ( q1 ,1)

b
a
0 1 2 mn
A : accetto H 0 C : rifiuto H 0

Figura 7.1 - Test di Neyman-Pearson per ipotesi semplici

Scelto invece un arbitrario c > 0, la (7.7) definisce la regione di rifiuto per il test
più potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (7.8)
e (7.9).
La Fig. 7.1 illustra le distribuzioni campionarie delle medie µ n per le due ipotesi
semplici, nel caso in cui la varianza nota del modello statistico vale σ 2 = 16, e si
effettua un test tra le ipotesi semplici sopra precisate, al livello di significatività
α = 0.1, disponendo di un campione di numerosità n = 16. Dalla (7.8) si ha subito:
erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h ∼= 1.3. A questo
valore di h corrisponde, ancora per la (7.7), un valore di c uguale a
 
2n(1 − h)
c = exp = e−0.57 ' 0.565 .
σ2

Dalla (7.9) si ricava allora:

β = 0.5 + erf (−0.7) ' 0.24

e la potenza del test vale W ' 0.76.


Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significatività
α = 0.01,
• se la media empirica osservata da un campione di 16 elementi è minore di µ n = h =
1.3, si accetta l’ipotesi nulla dichiarando che la media teorica della distribuzione
normale nel modello N (ϑ, 16) è µ = 0;
• se la media empirica è maggiore di µn = 1.3, si rifiuta l’ipotesi nulla e si accetta
l’ipotesi alternativa, dichiarando che µ = 2.
Per definire la regione critica C, si può anche fissare un valore positivo di c, per
esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione
ottimale di rifiuto definita dalla (7.7) è µn > h = 1, per un test con rischi di prima e
seconda specie che valgono:

α = IP(µn > 1 |H0 ) = 1/2 − erf(1) ' 0.1587


β = P (µn < 1 |H1 ) = 1/2 + erf(−1) = α

140
e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valore
W = 0.8413, bisogna tener conto che essa è determinata per l’insieme dei test in cui
si accetta un rischio di prima specie α = 0.1587 che è ben maggiore del precedente.
Si osservi infatti, più in generale, che:
• al diminuire di α, aumenta h e quindi si restringe la regione di rifiuto; in tal caso
però cresce β e quindi diminuisce la potenza del test;
• fissato un h < 2, al crescere della grandezza n del campione decrescono sia α che β
(infatti l’argomento della funzione degli errori nella (7.9) è negativo). Ne consegue
che, una volta definito il livello di significatività α, al crescere della grandezza del
campione aumenta la potenza del test.

7.4 TEST PARAMETRICI CON IPOTESI COMPOSTE


Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato,
si incontra raramente nelle applicazioni. E’ invece assai più frequente il caso in
cui entrambe le ipotesi H0 , H1 (o almeno una di esse) sono composte. In questo
paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo
l’ipotesi alternativa sia composta.
Data una ipotesi nulla del tipo (7.1), le ipotesi alternative che si usano più spesso
sono:
1) H1 : ϑ 6= ϑ0 2) H1 : ϑ > ϑ0 3) H1 : ϑ < ϑ0 . (7.10)
Nel caso 1) il test si chiama bidirezionale; nel caso 2) è unidirezionale superiore o
con“con coda a destra”, e nel caso 3) è unidirezionale inferiore o “con coda a sinistra”.
C’è una stretta relazione tra un test con ipotesi di questo tipo e la determinazione
di un intervallo di confidenza per ϑ, già trattato nel Capitolo precedente. Infatti,
consideriamo un test bidirezionale per H0 al livello di significatività α. Una volta
definita la distribuzione campionaria della statistica Gn , da usare quando è vera
l’ipotesi nulla su ϑ, una regione A di accettazione di H0 è un intervallo delle re-
alizzazioni campionarie contenente gn = ϑ0 (v. Fig. 7.2). L’area sottesa dalla
distribuzione campionaria in questo intervallo deve essere uguale ad 1 − α, perchè α
è l’errore di prima specie definito dalla (7.3) e misura la somma delle due aree
della distribuzione che sono esterne alla regione di accettazione. Dunque, la regione
di accettazione del test bidirezionale al livello di significatività α è un intervallo I γ
soddisfacente la condizione:

IP(Gn ∈ A |H0 vera) = IP(gn ∈ Iγ ) ≥ γ = 1 − α, (7.11)

ossia è un intervallo di confidenza per una stima di ϑ al livello fiduciario γ = 1 − α.


Questo intervallo non è unico: esiste, in generale, una famiglia I γ,α = {Iγ } di insiemi
che soddisfano la (7.11). Il test più potente (se esiste) è quello in cui la regione di
accettazione A dell’ipotesi nulla è l’intervallo Iγ ∈ Iγ,α che ha ampiezza minore.
Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2)
e 3) nella (7.10), ai quali corrispondono intervalli di confidenza aperti rispettivamente
a sinistra o a destra.

141
H0
H1 H1
H1

1 -a= g

b b b

q0 gn
C A = Ig C

Figura 7.2

Per la valutazione dell’errore di seconda specie β del test, che è definito dalla
(7.4), occorre tenere presente che nelle ipotesi alternative composte si ammette che
il parametro ϑ possa assumere qualsiasi altro valore ϑ1 ∈ IR − ϑ0 , e quindi a ciascuna
realizzazione campionaria gn = ϑ1 corrisponde un differente errore di seconda specie.
Esso è dunque una funzione β(ϑ1 ) del valore empirico ϑ1 osservato nella statistica
campionaria, e la potenza del test è la funzione W (ϑ1 ) = 1 − β(ϑ1 ).
Stabilito il rischio di prima specie α che si è disposti ad accettare, la valutazione
esplicita della regione di accettazione di H0 si effettua applicando i metodi per la
determinazione degli intervalli di confidenza che sono stati esposti nel Capitolo 6, e per
tale motivo dipende dal parametro su cui si deve effettuare il test, dalla numerosità
del campione di cui disponiamo, e dal modello statistico della popolazione da cui tale
campione è stato estratto.

7.4.1 Test sul valor medio per il modello normale


Consideriamo in dettaglio il caso di più frequente interesse nelle applicazioni: quello
in cui la popolazione ha un modello statistico normale e quindi le distribuzioni
campionarie sono anche esse normali con media ϑ0 = µ0 se H0 è vera, oppure
ϑ1 = µ1 ∈ IR − µ0 se è vera l’ipotesi alternativa H1 . Per procedere nel test oc-
corre anzitutto distinguere il caso in cui la varianza della popolazione è nota (in
cui si applicheranno i metodi del §6.2.2.1) da quello in cui è incognita (ed è quindi
necessario usare le distribuzioni t-Student come spiegato nel §6.2.2.2).

Modello Normale-1: popolazione con varianza σ 2 nota


In tal caso le distribuzioni campionarie normali associate alle ipotesi H 0 ed H1 hanno
uguale varianza σn2 = σ 2 /n e non devono essere stimate. Per qualunque numerosità
n del campione, si può determinare la regione di accettazione del test e l’errore di
seconda specie usando la Tabella di erf(z) come segue.
• Test bidirezionale. Il test bidirezionale più potente per il valor medio, al livello
di significatività α, è quello in cui si assume come regione di accettazione di H 0

142
l’intervallo di confidenza simmetrico rispetto a µ0 , del tipo (6.11) con γ = 1 − α:
σ σ
A: µ0 − √ z1−α/2 ≤ µn ≤ µ0 + √ z1−α/2 (7.12)
n n

dove z1−α/2 è il coefficiente fiduciario per la variabile standardizzata

µn − µ 0
Zn = √ , (7.13)
σ/ n

ovvero il suo quantile di ordine 1 − α/2 che è legato al rischio di prima specie α dalla
condizione (6.10) che qui si riscrive nella forma:

1 − α = IP(|Zn | ≤ z1−α/2 ) = 2erf(z1−α/2 ).

Nel test bilaterale l’ipotesi nulla H0 è da accettare se il valore empirico della variabile
Zn definita dalla (7.13), calcolato attraverso le osservazioni del campione, appartiene
all’intervallo (7.12). In caso contrario, si conclude che i dati forniti dal campione non
sono compatibili, al livello di significatività α, con l’ipotesi H 0 .
Il rischio di seconda specie si determina come segue:
Z µ0 +σn z1−α/2 
(µn − µ1 )2

1
β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − dµn =
σn 2π µ0 −σn z1−α/2 2σn2
   
µ0 − µ 1 µ1 − µ 0
= erf z1−α/2 + + erf z1−α/2 + . (7.14)
σn σn

Se introduciamo la nuova variabile standardizzata


µn − µ 0 µn − µ 1 µ1 − µ 0
Zn0 = − = , (7.15)
σn σn σn
ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla
H0 e alla ipotesi alternativa H1 , il rischio di seconda specie si può più sinteticamente
riscrivere in funzione di zn0 nella forma:

β(zn0 ) = erf(z1−α/2 − zn0 ) + erf(z1−α/2 + zn0 ). (7.140 )

Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico


con linea continua di Fig. 7.3) che tende a zero per µ1 → ±∞, è monotona crescente
per −∞ < µ1 < µ0 (ossia per zn0 < 0); vale β(µ0 ) = 1 − α per µ1 = µ0 (ossia per
zn0 = 0); ed è monotona decrescente per µ0 < µ1 < +∞ (zn0 > 0).

• Test unidirezionale superiore. La regione di accettazione in questo test, per il quale


l’ipotesi alternativa è H1 : µ = µ1 > µ0 , è l’intervallo aperto a sinistra:
σ
A: −∞ < µn ≤ µ0 + √ z1−α
n

143
b
1
1- a
H1 : m 1 m 0

H1 : m 1 < m 0 0.5
H1 : m 1 > m 0

m0 m1
- z 1- a 0 z 1- a z'n

Figura 7.3 - Curve caratteristiche operative per tests sul valor medio

dove z1−α è il quantile di ordine 1 − α della normale standard (7.13), che al livello di
significatività α soddisfa la condizione

1
1 − α = IP(Zn ≤ z1−α ) = + erf(z1−α ), (7.16)
2
mentre il rischio di seconda specie vale
Z µ0 +σn z1−α 
(µn − µ1 )2

1
β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − dµn =
σn 2π −∞ 2σn2
   
µ0 + σn z1−α − µ1 1 µ0 − µ 1
= erf − erf(−∞) = + erf z1−α + . (7.17)
σn 2 σn

Espresso in funzione della differenza standardizzata (7.15), esso vale

1
β(zn0 ) = + erf(z1−α − zn0 ) (7.170 )
2

ed è una funzione monotona decrescente di µ1 e zn0 : tende a zero per zn0 → +∞; è
uguale a 0.5 per zn0 = z1−α ; è ancora uguale ad 1 − α per µ1 = µ0 (ossia per zn0 = 0)
e teoricamente tende all’unità per µ1 , zn0 → −∞ (v. Fig. 7.3).

• Test unidirezionale inferiore. La regione di accettazione in questo test, per il quale


l’ipotesi alternativa è H1 : µ = µ1 < µ0 , è l’intervallo aperto a destra:
σ
A: µ0 − √ z1−α ≤ µ < +∞
n

dove z1−α è ancora il quantile di ordine 1 − α della normale standard (7.13) il quale,
fissato il rischio di prima specie α, è tale da soddisfare la condizione

1
1 − α = IP(Zn ≥ −z1−α ) = + erf(z1−α ).
2

144
Il rischio di seconda specie vale
Z +∞
(µn − µ1 )2
 
1
β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − dµn =
σn 2π µ0 −σn z1−α 2σn2
   
µ0 − σn z1−α − µ1 1 µ0 − µ 1
= erf(+∞) − erf = − erf −z1−α + (7.18)
σn 2 σn

o anche, se espresso in funzione della differenza standardizzata (7.15):

1
β(zn0 ) = + erf(z1−α + zn0 ). (7.180 )
2
L’errore di seconda specie è in tal caso una funzione monotona crescente, simmetrica
della (7.17’) rispetto all’asse zn0 = 0: tende teoricamente a zero per zn0 → −∞; è
uguale a 0.5 per zn0 = −z1−α , vale ancora 1 − α per µ1 = µ0 (ossia per zn0 = 0) e
tende all’unità per µ1 , zn0 → +∞.
La Fig. 7.3 mostra che a parità di α ed n i rischi di seconda specie dei test unila-
terali (indicati con linea tratteggiata) sono minori di quello del corrispondente test
bilaterale, in tutto l’intervallo di µ1 definito dalla particolare ipotesi alternativa che
si considera. Ne segue che, sempre a parità di α e n, un test unilaterale è più potente
di un test bilaterale.
Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3]
citato in Bibliografia) in cui il rischio di seconda specie è riportato in funzione di
|µ0 − µ1 |/σ al variare di α e n. I diagrammi mostrano, tra l’altro, che la pendenza
delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di
prima specie è tanto più potente quanto maggiore è la numerosità del campione. In
definitiva, questi diagrammi consentono quindi di valutare la numerosità campionaria
che è necessaria per effettuare un test con prefissata potenza W (zn0 ) = 1 − β(zn0 ).

Modello Normale generale: popolazione con varianza sconosciuta.


Se la varianza σ 2 della popolazione normale è sconosciuta, essa dovrà essere stimata
con la statistica campionaria corretta Ŝn2 definita nella (5.14). Sulla base del Teorema
6.1 (t-Student), il test si effettua osservando se il valore empirico della statistica T n
definita nella (6.16) appartiene alla regione di accettazione di H 0 oppure alla regione
di rifiuto dell’ipotesi nulla.
Se si effettua un test bilaterale, la regione di accettazione è fornita dall’intervallo di
confidenza (6.18), che ora si scrive:

ŝn ŝn
A: µ0 − √ t1−α/2 ≤ µn ≤ µ0 + √ t1−α/2 (7.19)
n n

dove ŝn è il valore empirico della radice quadrata di Ŝn2 , e t1−α/2 è il quantile di ordine
(1 − α/2) della distribuzione t-Student con (n − 1) gradi di libertà. Confrontandola
con la (7.12), si nota che la (7.19) si ricava sostituendo semplicemente ŝ n al posto di
σ e t1−α/2 al posto di z1−α/2 .

145
In modo analogo, applicando le (6.19) e indicando con t1−α il quantile di ordine (1−α)
della t-Student con (n − 1) gradi di libertà, si ricavano le regioni di accettazione per
un test unilaterale superiore (“coda a destra”):
ŝn
A: −∞ < µn ≤ µ0 + √ t1−α (7.20)
n

oppure unilaterale inferiore (“coda a sinistra”):


ŝn
A: µ0 − √ t1−α ≤ µn < +∞. (7.21)
n

L’ipotesi nulla sarà da accettare solo se il valore empirico t n = (µn − µ0 ) n/ŝn
ricavato dal campione appartiene a una delle regioni ora definite.
Le formule precedenti sono valide per qualsiasi numerosità n del campione, ma si
usano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distri-
buzione t-Student tende alla normale standard per n → ∞, per cui quando n > 30
i quantili t1−α/2 e t1−α possono essere sostituiti dai corrispondenti quantili z1−α/2 e
z1−α della variabile standardizzata
µn − µ 0
Zn = √ , (7.22)
ŝn / n

che è analoga alla (7.13) ma con la stima ŝn al posto di σ. In definitiva, se il


test si effettua usando grandi campioni è ancora possibile utilizzare tutti i risultati
(compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per il
modello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianza
con il suo valore campionario corretto.

Popolazione con distribuzione non normale


Si è visto nel Capitolo 5 che, indipendentemente dal modello statistico usato per la
popolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n,
la legge normale N (µ, σ 2 /n). Ne segue che se n è sufficientemente grande (n > 30) e
se l’ipotesi nulla è vera, la distribuzione delle medie campionarie si può approssimare
con una legge normale avente media µ0 e varianza σ 2 /n, se σ 2 è nota, oppure Ŝn2 /n
se σ 2 è incognita.
Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specie
nei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1,
indipendentemente dalla forma della distribuzione della popolazione da cui è stato
estratto il campione. Viceversa, per piccoli campioni estratti da una popolazione non
normale non è possibile, in generale, procedere al test sul valor medio.

Esempio 7.2
Il peso medio di un campione di 100 confezioni di un prodotto alimentare vale µ n =
1570 gr. Questo campione è stato estratto da una popolazione per la quale si assume
un modello statistico normale N (ϑ, σ 2 ) con deviazione standard σ = 120 gr.

146
H0 W(z'n )
H1
1

1- a

-2.58 -1.96 0 1.96 2.58 zn


A
A -3 -2 -1 0 1 2 3 z'n
1569.04 1576.48 1600 1623.52 1630.96 mn

Figura 7.4

Effettuando tests con livelli di significatività α = 0.05 e 0.01, quando si può affermare
che il peso medio µ dell’intera popolazione di quel prodotto, confezionato dalla stessa
ditta è di 1600 gr ?
Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice
e una ipotesi alternativa composta:

H0 : µ = 1600 gr H1 : µ 6= 1600 gr.

Se H0 è vera, la distribuzione campionaria


√ delle medie µn è normale con valor medio
1600 e deviazione standard σn = 120/ 100 = 12; se è vera H1 , la distribuzione
campionaria è una qualsiasi Normale con valor medio µn 6= 1600 e uguale deviazione
standard (v. Fig. 7.4).
Applichiamo la (7.12) per determinare le regioni di accettazione dell’ipotesi nulla ai
vari livelli di significatività. Per α = 0.05, si ha: z 1−0.05/2 = z0.975 = 1.96, e quindi
la regione di accettazione dell’ipotesi nulla è l’intervallo

A = {zn : −1.96 ≤ zn ≤ 1.96} = {µn : 1576.48 gr ≤ µn ≤ 1623.52 gr}.

Al livello α = 0.01 si ha invece z1−0.01/2 = z0.995 = 2.58, e quindi un intervallo più


ampio:

A = {zn : −2.58 ≤ zn ≤ 2.58} = {µn : 1569.04 gr ≤ µn ≤ 1630.96 gr}.

Il valore empirico zn della variabile standardizzata (7.13) risultante dalla osservazione


del campione è
1570 − 1600
zn = = −2.5 .
12
Al livello di significatività 0.05 (ovvero con un rischio massimo di sbagliare del 5%)
esso non appartiene ad A, e pertanto rigettiamo H0 affermando che i dati forniti
dal campione non sono compatibili con l’affermazione che il peso medio sia di 1600
gr. Al contrario, con un livello di significatività 0.01 (cioè con un rischio massimo

147
di sbagliare dell’1%), risulta zn ∈ A ed accettiamo l’ipotesi nulla concludendo che il
peso medio è di 1600 gr.
Il rischio di seconda specie di questo test è fornito dalla (7.14) e in funzione della
differenza standardizzata (7.15) che qui si scrive zn0 = (µ1 − 1600)/12, vale:

β(zn0 ) = erf(1.96 − zn0 ) + erf(1.96 + zn0 ) se α = 0.05,


β(zn0 ) = erf(2.58 − zn0 ) + erf(2.58 + zn0 ) se α = 0.01.

La curva di potenza del test W (zn0 ) = 1 − β(zn0 ) ha un grafico che è mostrato in Fig.
7.4 per un livello di significatività α = 0.05.

Esempio 7.3
I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio µ = 1800
Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo
di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla
nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura
è µn = 1850 con varianza campionaria corretta Ŝn2 = 10.000Kg 2 . Si può affermare,
a un livello di significatività α = 0.01, che i nuovi cavi hanno un carico medio di
rottura più elevato?
Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta:

H0 : µ = 1800 Kg (non c’è variazione nel carico di rottura)


H1 : µ > 1800 Kg (la nuova produzione migliora il carico di rottura).

Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione,
poichè il campione esaminato è sufficientemente grande la distribuzione campionaria
delle medie si può approssimare con una legge normale avente media µ 0 = 1800 Kg
se H0 è vera, e varianza Ŝn2 /n = 10.000/50 = 200 Kg2 .
Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (7.22) che
nel nostro caso, se H0 è vera, vale:

µn − 1800
Zn = √ . (7.23)
200

Assumendo un rischio di prima specie α = 0.01, il valore di z1−α che delimita la


regione di accettazione e quella di rifiuto si calcola con la (7.16) imponendo:

1
1 − α = IP(Zn ∈ C | H0 vera) = + erf (z1−α ) = 0.99
2
ossia erf(z1−α ) = 0.49, e dalla Tabella di erf(z) si ricava: z1−α = 2.33. La regione
di accettazione di H0 (v. Fig. 7.5) è dunque l’intervallo

A: {zn : −∞ < zn ≤ 2.33} = {µn : −∞ < µn ≤ 1833}

148
H0 W(z n' )
H1
1

1- a 0.5

a
0 2.33 zn
A C
-3 -2 -1 0 1 2 3 z'n
1800 1833 1850 mn z1- a

Figura 7.5

e quella di rifiuto è

C: {zn : 2.33 < zn < ∞} = {µn : 1833 < µn < ∞}.

Sotto l’ipotesi H0 vera, il valore empirico di zn ottenuto dal campione si ricava


sostituendo µn = 1850 nella (7.23). Esso vale zn = 3.55 ed appartiene alla regione
di rifiuto. Dunque l’ipotesi nulla è da rigettare, e l’affermazione che i cavi di nuova
produzione hanno un più elevato carico di rottura può essere sostenuta al livello di
significatività prescritto.
Il rischio di seconda specie di questo test unidirezionale è dato dalla
√ (7.17), ed espresso
in funzione della differenza standardizzata zn0 = (µ1 − 1800)/ 200 vale:
1
β(zn0 ) = + erf(2.33 − zn0 ).
2
La corrispondente curva di potenza W (zn0 ) = 1 − β(zn0 ) è mostrata in Fig. 7.5.

Esempio 7.4: Test sulle frequenze relative


Una ditta farmaceutica afferma che un suo analgesico è efficace per un periodo di
dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato
in effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello di
significatività α = 0.01, la ditta farmaceutica può legittimamente sostenere quanto
affermato.
Se p è la probabilità che l’analgesico abbia effetto per dodici ore, si chiede di procedere
a un test unidirezionale scegliendo fra le seguenti ipotesi:

H0 : p = p0 = 0.9 (l’affermazione è corretta);


H1 : p = p1 < 0.9 (l’affermazione è falsa).

La frequenza relativa dei “successi” della medicina rilevata dal campione è y = n s /n =


160/200 = 0.8. Nell’ipotesi che H0 sia vera, la distribuzione campionaria delle fre-
quenze relative Y = ns /n dei successi è approssimabile con una legge normale

149
W( p )
H0 1 1
H1

0.5

1- a
a
0.8 0.8506 0.9 Y = n s /n
0.8506 0.9 p
C A 1

-4.71 -2.33 0 z -2 -1 0 1 z'

Figura 7.6

con media E{Y } = p0 = 0.9 e deviazione standard


r r
p0 (1 − p0 ) 0.9 · 0.1
σ0 = = = 0.0212.
n 200

Nel nostro test unidirezionale inferiore al livello di significatività α = 0.01, il quantile


z1−α per la variabile standardizzata

Y − p0 Y − 0.9
Z= =
σ0 0.0212

che è tale da soddisfare la condizione


1
1 − α = IP(Z ≥ −z1−α ) = + erf (z1−α ) = 0.99 ,
2

vale z1−α = 2.33 come nell’Esempio precedente. La regione di accettazione dell’ipo-


tesi nulla è dunque l’intervallo aperto a destra:

A = {z : −2.33 ≤ z < +∞} = {Y : 0.8506 ≤ Y < +∞}

indicata in Fig. 7.6, mentre la regione di rifiuto è

C = {z : −∞ < z < 2.33} = {Y : −∞ < Y < 0.8506}.

Il valore empirico di zn osservato nel campione è

0.8 − 0.9
zn = = −4.71
0.0212

ed appartiene alla regione di rifiuto. Quindi, al livello di significatività 0.01 dobbiamo


rigettare H0 , concludendo che l’affermazione della ditta farmaceutica non è corretta,
in quanto non legittimata dalle osservazioni effettuate sul campione.

150
Prima di procedere al calcolo dell’errore di seconda specie, è qui necessario sotto-
lineare che le distribuzioni campionarie associate all’ipotesi alternativa sono normali
con varianze diverse, in generale, da σ02 . Infatti, fissato un valore p1 < p0 compatibile
con l’ipotesi alternativa, questa è normalmente distribiuta con media p 1 e deviazione
standard r
p1 (1 − p1 )
σ1 = 6= σ0 ,
n
che è maggiore di σ0 per tutti i reali p1 compresi nell’intervallo (1 − p0 ) < p1 < p0 .
La Fig. 7.6 mostra due di queste distribuzioni, che al diminuire di y 1 aumentano la
dispersione rispetto al loro valor medio.
Ne segue che il rischio di seconda specie in questo test è non è dato dalla (7.18), ma
deve essere calcolato come segue:
+∞
(Y − p1 )2
 
1
Z
β(p1 ) = IP[Y ∈ A | H1 ' N (p1 , σ12 )]
== √ exp − dY =
σ1 2π p0 −σ0 z1−α 2σ12
   
p0 − σ0 z1−α − p1 1 σ0 p1 − p 0
= erf(+∞) − erf = + erf z1−α + .
σ1 2 σ1 σ1

Il suo andamento qualitativo non varia rispetto a quello calcolato con la (7.18): è
sempre una funzione monotona crescente, e vale 0.5 per p1 = p0 − σ0 z1−α = 0.8506
che è l’estremo inferiore dall’intervallo di accettazione A. Per ricercare una analogia
formale con la (7.18’), si può anche definire la differenza standardizzata:

p1 − p 0 n
r
0
Z = = (p1 − p0 ) ,
σ1 p1 (1 − p1 )

mediante la quale il rischio di seconda specie si può riscrivere nella forma:


 
0 1 σ0 0
β(z ) = + erf z1−α + z
2 σ1

che assume il valore 0.5 per


s
σ0 p0 (1 − p0 )
z0 = − z1−α = −z1−α = −1.96.
σ1 (p0 − σ0 z1−α )(1 − p0 + σ0 z1−α )

La potenza W (p1 ) = 1 − β(p1 ) del test è la funzione monotona decrescente riportata


in Fig. 7.6.

Esempio 7.5: Test sulla differenza di distribuzioni normali


Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti
di una malattia. Al campione A, unitamente alla terapia usuale si somministra una
nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare
unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono

151
guariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamo
ritenere che la nuova cura è efficace, ai livelli di significatività α = 0.01, 0.05 e 0.10 ?
Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazione
dei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza re-
lativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente
da YA . Definiamo quindi la variabile aleatoria differenza tra le frequenze relative:

d(ω) = YA − YB ,

sulla quale effettuiamo un test unidirezionale superiore per verificare le seguenti


ipotesi:

H0 : d = 0 (la nuova cura non ha effetto)


H1 : d = d1 > 0 (la nuova cura è più efficace di quella usuale).

In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione


nelle due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali,
rispettivamente con valor medio
75 65
E{YA } = = pA = 0.75 ; E{YB } = = pB = 0.65
100 100
e varianze che per la (7.22) valgono:
0.75 · 0.25 0.65 · 0.35
σ 2 (YA ) = = 0.001875 , σ 2 (YB ) = = 0.002275 .
100 100
Poichè YA e YB sono normali e statisticamente indipendenti, anche d(ω) ha una
distribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio E{d} = 0
se H0 è vera, oppure E{d} = d1 > 0 se è vera H1 , con uguale deviazione standard
che vale (si confronti con l’Esempio 7.2):
p √
σd = σ 2 (YA ) + σ 2 (YB ) = 0.001875 + 0.002275 = 0.06442.

Il valore empirico della differenza d rilevato dai campioni è d n = pA − pB = 0.10, e


quello della corrispondente variabile standardizzata della differenza tra le frequenze
relative vale:
dn − E{d} 0.10
zn = = ' 1.55 .
σd 0.06442
Per un test unidirezionale con “coda a destra”, i quantili z1−α corrispondenti ai livelli
richiesti si calcolano applicando la (7.16) come come è stato fatto nell’Esempio 7.3,
e valgono:
α = 0.01 : z1−α = 2.33 (d1−α = 0.15)
α = 0.05 : z1−α = 1.645 (d1−α = 0.106)
α = 0.10 : z1−α = 1.28 (d1−α = 0.082).
In parentesi sono riportati i corrispondenti valori del quantile d 1−α = σd · z1−α della
distribuzione normale di d(ω).

152
H 0 , n = 300

b
H0 , n = 100 H1
dn
b

-0.15 -0.1 -0.05 0 0.05 0.1 0.15 d


Figura 7.7

La regione di accettazione dell’ipotesi nulla è A = {zn : −∞, z1−α } = {dn :


−∞, d1−α }. Ai livelli di significatività α = 0.01 e 0.05, il risultato empirico stan-
dardizzato zn ' 1.55 < z1−α (corrispondente a dn = 0.10 < d1−α ) cade nella regione
di accettazione di H0 , per cui si deduce che le differenze percentuali di guarigione nei
due campioni non sono statisticamente significative, e non si può affermare che esse
indichino una efficacia della nuova cura.
Al contrario, al livello di significatività α = 0.10 si ha che z n cade nella regione di
rifiuto di H0 : respingeremo dunque l’ipotesi nulla e affermeremo che la nuova cura è
più efficace di quella usuale.
Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo del
rischio α che siamo disposti a correre se si fallisce la previsione. Nel caso in cui si
accetti un livello di significatività α = 0.1, bisogna mettere in conto che esiste un 10%
di probabilità di illudere il paziente, somministrandogli una cura che non ha effetti
utili. Si può decidere di diminuire questo rischio di errore ma, a parità di numerosità
del campione, cresce di conseguenza il rischio β di commettere un errore di seconda
specie, che consisterebbe nel non somministrare la nuova cura, anche se in realtà
questa è efficace: in tal caso aumenterebbe il rischio di non intervenire efficacemente
per guarire un maggior numero di malati.
Questo rischio di seconda specie del test si determina applicando la (7.17):
 
1 d1
β(d1 ) = + erf z1−α −
2 σd
e accettando un rischio di prima specie α = 0.10, in corrispondenza del valore em-
pirico d1 = dn = 0.10 vale:
 
1 0.10 1
β(0.10) = + erf 1.28 − = − erf (0.2723) = 0.5 − 0.107 = 0.393 .
2 0.06442 2
Ne segue che in base all’analisi dei campioni il rifiuto della nuova terapia sarebbe
controproducente, con una probabilità che è circa del 40%, ai fini di un miglioramento
della terapia in uso.

153
D’altra parte, esiste un modo per diminuire il rischio di prima specie α senza au-
mentare l’entità del rischio di seconda specie β: esso consiste nell’aumentare la nu-
merosità n dei campioni, perchè in tal modo si aumenta l’affidabilità della decisione
che si assume a seguito del test.
Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti
ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con
YA0 , YB0 , che sono uguali a quelle del test precedente:

225 195
YA0 = = 0.75 ; YB0 = = 0.65.
300 300

Se è vera l’ipotesi nulla, la distribuzione campionaria della differenza d = Y A0 − YB0


tra le nuove frequenze relative ha ancora media E{d} = 0.10, ma ha ora deviazione
standard
r
0.75 · 0.25 0.65 · 0.35
q
σd0 = σ 2 (YA0 ) + σ 2 (YB0 ) = + = 0.0372
300 300

che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato
empirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore:

0.10 0.10
zn0 = = = 2.688 > 2.33,
σd
0 0.0372

che appartiene alla regione di rifiuto al livello di significatività α = 0.01. Rigettando


l’ipotesi nulla H0 , potremo allora affermare che la nuova cura è efficace, sapendo che
la probabilità di commettere un errore di prima specie (nell’illudere il paziente) è li-
mitata all’1% e che contemporaneamente il rischio di seconda specie (di non utilizzare
un farmaco più efficace) è comunque ridotto al valore:
 
1 0.10 1
β(0.10) = + erf 2.33 − = − erf (0.358) ' 0.361.
2 0.0372 2

La Fig. 7.7 mostra il confronto tra i risultati che si ottengono usando le due distri-
buzioni campionarie con differente numerosità, nel caso in cui sia vera l’ipotesi nulla
H0 : d = 0. Per n = 300, il quantile d1−α = 0.0372·z1−α della differenza d = YA0 −YB0
ai vari livelli di significatività vale:

α = 0.01 , z1−α = 2.33 : d1−α = 0.0866


α = 0.05 , z1−α = 1.645 : d1−α = 0.061
α = 0.01 , z1−α = 1.28 : d1−α = 0.0476

e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regione
di rifiuto anche se si assume il minore tra i tre rischi di prima specie.

154
7.4.2 Test sulla varianza
Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il
campione sia normalmente distribuita, perchè questa condizione è necessaria per de-
terminare gli intervalli di confidenza ricavati nel §6.2.2. Quando è possibile accettare
quasta ipotesi preliminare, un test bilaterale con ipotesi:

H0 : σ 2 = σ02
H1 : σ 2 = σ12 6= σ02

si effettua verificando se il valore empirico qn della statistica


n−1 2 n
Qn = 2 Ŝn ≡ 2 Sn2 (7.24)
σ0 σ0

(definita nel Teorema Chi-quadrato del §5.4.1) appartiene alla regione di accettazione
risultante dalla scelta di un determinato rischio di prima specie α.
Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n − 1) gradi di libertà,
questa regione di accettazione è l’intervallo

A = {qn : χα/2 ≤ qn ≤ χ1−α/2 } = {Sn2 : σ02 χα/2 /n ≤ Sn2 ≤ σ02 χ1−α/2 /n} (7.25)

dove χα/2 , χ1−α/2 sono i quantili di ordine α/2 e (1 − α/2) della Chi-quadrato con
(n − 1) gradi di libertà, e la regione di rifiuto di H0 è l’insieme

C = {0 ≤ qn < χα/2 } ∪ {χ1−α/2 < qn < +∞}. (7.250 )

Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, le


regioni di accettazione e di rifiuto saranno:

H1 : σ12 > σ02 : A = {qn : 0 ≤ qn ≤ χ1−α } = {Sn2 : 0 ≤ Sn2 ≤ σ02 χ1−α /n}
C = {qn : χ1−α < qn < +∞} = {Sn2 : σ02 χ1−α /n < Sn2 < +∞}

H1 : σ12 < σ02 : A = {qn : χα ≤ qn < +∞} = {Sn2 : σ02 χα /n ≤ Sn2 < +∞}
C = {qn : 0 ≤ qn < χα } = {Sn2 : 0 ≤ Sn2 < σ02 χα /n}

dove, ovviamente, χα e χ1−α sono i quantili di ordine α e 1 − α della Chi-quadrato


con n − 1 gradi di libertà.
Fissato un valore σ12 compatibile con l’ipotesi alternativa, la statistica Q0n = nSn2 /σ12
ha anch’essa una distribuzione Chi-quadrato con (n − 1) gradi di libertà. Pertanto il
rischio di seconda specie in questi test è definito da

β(σ12 ) = IP(qn ∈ A|H1 vera) = IP(qn ∈ A|Q0n = nSn2 /σ12 ∼ χ2(n−1) )

e sarà calcolabile integrando opportunamente sulla regione A, al variare del valore


corrente di σ12 , questa distribuzione Chi-quadrato associata all’ipotesi alternativa.

155
Caso di grandi campioni
Sappiamo che per n → ∞ la distribuzione Chi-quadrato tende alla normale N (n, 2n).
Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare la
regione di accettazione e il rischio di seconda specie utilizzando la variabile normale
standard (6.28) già definita nel Capitolo precedente.
Conviene però utilizzare la circostanza che in tal caso la deviazione standard √ cam-
pionaria Sn è approssimabile con una legge normale, avente media σ e scarto σ/ 2n.
Per la verifica di un’ipotesi nulla H0 sulla varianza, si può utilizzare allora la statistica

(Sn − σ0 ) 2n
Zn = , (7.26)
σ0
anch’essa con distribuzione normale standard. Scelto un rischio di prima specie α
e calcolati i quantili z1−α/2 e z1−α , si individuano cosı̀ le seguenti regioni di ac-
cettazione:
H1 : σ12 6= σ02 : A = {zn : −z1−α/2 ≤ zn ≤ z1−α/2 } =
z1−α/2 z1−α/2
    
= Sn : σ 0 1 − √ ≤ Sn ≤ σ0 1 + √
2n 2n
H1 : σ12 > σ02 : A = {zn : −∞ < zn ≤ z1−α } =
(7.27)
  
z1−α
= Sn : −∞ ≤ Sn ≤ σ0 1 + √
2n
H1 : σ12 < σ02 : A = {zn : −z1−α ≤ zn < +∞} =
   
z1−α
= Sn : σ 0 1 − √ ≤ Sn < +∞
2n
che per grandi campioni approssimano la (7.25) e seguenti.
Il rischio di seconda specie in tal caso si calcola più facilmente, perchè è definito
dall’integrale:
(Sn − σ1 )2
 
1
Z
2
β(σ1 ) = IP(Sn ∈ A|Sn ∼ |calN (σ1 , σ1 /2n)) = exp dSn
σ1 A 2σ12 /2n
e si può determinare utilizzando la Tavola della funzione degli errori. A seconda
dell’intervallo A esso vale:

   
2 2 σ0 σ0
H1 : σ1 6= σ0 : β(σ1 ) = erf 2n − 1 + z1−α/2 −
σ1 σ1

   
σ0 σ0
− erf 2n − 1 − z1−α/2
σ1 σ1
(7.28)

   
2 2 σ0 σ0 1
H1 : σ1 > σ0 : β(σ1 ) = erf 2n − 1 + z1−α +
σ1 σ1 2

   
2 2 1 σ0 σ0
H1 : σ1 < σ0 : β(σ1 ) = − erf 2n − 1 − z1−α
2 σ1 σ1

156
b
1
1- a

H1: s 21 < s 20 H1 : s 21 s 20

H1 : s 21 > s 20

s0 s1

Figura 7.8 - Curve caratteristiche operative per tests sulla varianza

Fissati α ed n, il suo andamento qualitativo è mostrato per i tre casi in Fig. 7.8. Per
σ1 = σ0 esso vale sempre 1 − α, che è il valore massimo di β nel test bilaterale, ma
tende all’unità per il test unilaterale superiore quando σ1 → 0, e per quello unilaterale
inferiore quando σ1 → ∞. Più dettagliati diagrammi di β in funzione del rapporto
σ1 /σ0 si possono consultare in [3] al variare di α e della numerosità del campione.

Esempio 7.6
Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiunta
alla serie di prove già considerata nell’Esempio 6.12 si effettua una nuova serie di
n = 20 prove, i cui risultati mostrano ancora un valor medio empirico dell’ordine di
0.3, ma una varianza campionaria Sn2 = 0.028 che è maggiore di quella del campione
precedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si
può affermare, al livello di significatività α = 0.10, che la varianza della popolazione
dei risultati ottenuti in quella galleria del vento è σ 2 = 0.02.
Definita l’ipotesi nulla H0 : σ02 = 0.02, se essa è vera la statistica (7.24) vale
20 2
Qn = S = 1000Sn2
σ02 n
ed ha una distribuzione campionaria con legge Chi-quadrato con n − 1 = 19 gradi di
libertà. Per procedere in un test bidirezionale, definiamo l’ipotesi alternativa:
H1 : σ 2 6= 0.02
e determiniamo le regioni di accettazione e di rifiuto di H0 , definite dalla (7.25).
Se assumiamo α = 0.10, dalla riga ν = 19 della Tabella dei quantili Chi-quadrato
in Appendice si ricava: χ0.05 = 10.1, χ0.95 = 30.1. Di conseguenza, le regioni di
accettazione e di rifiuto sono i seguenti intervalli di qn :
A = [10.1, 30.1], C = [0, 10.1) ∪ (30.1, +∞).

Il valore empirico della statistica Qn che si ottiene sostituendo in essa Sn2 = 0.028
vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 7.9).

157
f(Q n ) H0

E Q
n
0.05 qn
0.05
0 10 20 30 40 c
A

Figura 7.9

Si può perciò concludere, al livello α = 0.10, che il campione è compatibile con


l’affermazione che le misurazioni effettuate in quella galleria del vento hanno una
varianza σ 2 = 0.02.
Si noti che si perviene invece a un risultato opposto se si effettua un test unidi-
rezionale superiore assumendo l’ipotesi alternativa H1 : σ 2 > 0.02. Infatti in tal caso
l’intervallo di accettazione di H0 sarebbe:

A = [0, χ1−α ] = [0, χ0.90 ] = [0, 27.2]

e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +∞).


Per confrontare questi risultati con quelli che si ottengono per grandi campioni, sup-
poniamo ora che i precedenti dati campionari siano stati ricavati da n = 32 prove,
anzichè 20. In tal caso si può usare la statistica (7.26) che vale:

8(Sn − 0.02)
Zn = √ .
0.02

Al livello α = 0.10, si ha z1−α/2 = z0.95 = 1.645, e per questa statistica la regione


di accettazione di H0 , definita dalla prima delle (7.27), è il seguente intervallo di z n :
A = [−1.645, 1.645].
Il valore empirico di Zn vale
√ √
0.028 − 0.02
zn = 8 √ = 1.4657
0.02

ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava
dall’esame del piccolo campione. In modo analogo, nel test unidirezionale superiore
si ricava: A = (−∞, z1−α ] = (−∞, z0.90 ] = (−∞, 1.288] che non contiene zn ; dunque
l’ipotesi nulla sarebbe in tal caso da rigettare, come già rilevato nel caso in cui n = 20.
Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare
usando le formule (7.28). In particolare, se si fa coincidere σ1 con il valore empirico

158

della deviazione standard Sn = 0.028 ' 0.167, si ha σ0 /σ1 ' 0.8468 e per il test
bilaterale si ricava il seguente errore di seconda specie:

β(0.167) = erf[8(0.8468 − 1) + 0.8468 · 1.645] − erf[8(0.8468 − 1) − 0.8468 · 1.645]


= erf(0.167) − erf(−2.6186) = 0.065 + 0.4955 ' 0.56

mentre per il test unilaterale superiore si ha invece:

1
β(0.167) = + erf[8(0.8468 − 1) + 0.8468 · 1.288] =
2
= 0.5 + erf(−0.135) = 0.5 − erf(0.135) = 0.5 − 0.053 ' 0.447.

Anche se non è applicabile ai test effettuati con piccoli campioni, il confronto indica
comunque che è da attribuire una certa preferenza al test unilaterale, che a parità di
α comporta un rischio di seconda specie inferiore a quello del test bilaterale.

7.4.3 Test di Fisher per il rapporto tra varianze


Si abbiano due caratteri X, Y normalmente distribuiti rispettivamente con leggi
2
N (µX , σX ) e N (µY , σY2 ), da ciascuno dei quali è stato estratto un campione con
numerosità n ed m, aventi rispettivamente varianza campionaria corretta Ŝn2 e Ŝm2
.
Applicando ai due campioni il Teorema Chi-quadrato del §5.4.1, si ricava facilmente
che la variabile aleatoria

(n − 1)Qm 2
σ 2 Ŝm (Y )
V (ω) = = X (7.29)
(m − 1)Qn 2 2
σY Ŝn (X)

è distribuita con densità F di Fisher definita nella (2.41), avente m − 1 e n − 1 gradi


di libertà.
Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno
2
la medesima varianza. Si può allora porre nella (7.29): σ X = σY2 , ed effettuare un
test sulla statistica
Ŝ 2 (Y )
Vm,n = m
Ŝn2 (X)
ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y . Definita
l’ipotesi nulla
2
H0 : σ X = σY2
e quella alternativa
2
H1 : σX 6= σY2 ,
si potrà accettare H0 se il valore empirico di Vm,n è “sufficientemente prossimo”
ad 1 (che è anche il limite cui tende il valor medio della distribuzione di Fisher
per n → ∞). Scelto un livello di significatività α, la regione di accettazione di H 0
si determina calcolando l’intervallo A = [fα/2 , f1−α/2 ], dove fα/2 e f1−α/2 sono i

159
quantili della distribuzione F (m − 1, n − 1) di Fisher con m − 1 e n − 1 gradi di
libertà, che escludono due code con probabilità α/2.
In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantili
f0.95 (m, n) e f0.975 (m, n) da utilizzare per test bidirezionali ai livelli di significatività
α = 0.10 e 0.05. Per il loro impiego, occorre anche sfruttare la seguente proprietà
della distribuzione F (m, n):
1
fα/2 (m, n) = . (7.30)
f1−α/2 (n, m)

Esempio 7.7
In seguito alle due serie di misurazioni del coefficiente di resistenza C x già considerate
negli Esempi 7.6 e 6.12 si vuole verificare, al livello di significatività α = 0.10, l’ipotesi
che le distribuzioni di frequenza dei risultati (che come già detto sono approssimabili
con leggi normali) abbiano la medesima varianza.
Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate
sul modello dell’Esempio 6.12, e con Y quella delle m = 20 misure dell’Esempio
7.6. Poichè le varianze campionarie sono risultate, rispettivamente: S n2 (X) = 0.015
2
e Sm (Y ) = 0.028, le varianze empiriche corrette valgono:
12 20
Ŝn2 (X) = · 0.015 = 0.01636, 2
Ŝm (Y ) = · 0.028 = 0.02947,
11 19
2
e se è vera l’ipotesi nulla H0 : σX = σY2 , il valore empirico del loro rapporto è
0.02947
Vm,n = 1 · = 1.80.
0.01636
Calcoliamo ora la regione di accettazione
A = ( f0.05 (m − 1, n − 1), f0.95 (m − 1, n − 1) )
con m − 1 = 19, n − 1 = 11. Il quantile f0.95 (19, 11) si calcola interpolando tra i
valori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice:
1 4
f0.95 (19, 11) = f0.95 (15, 11) + f0.95 (20, 11) = 2.6606.
5 5
Il quantile f0.05 (19, 11) si calcola utilizzando la (7.30) dopo aver ricavato f 0.95 (11, 19)
con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20 per
per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 i risultati
ottenuti per m = 19:
1 4
f0.95 (10, 19) = f0.95 (10, 15) + f0.95 (10, 20) = 2.3872
5 5
1 4
f0.95 (15, 19) = f0.95 (15, 15) + f0.95 (15, 20) = 2.243
5 5
1 4 1
f0.95 (11, 19) = f0.95 (10, 19) + f0.95 (15, 19) = f0.95 (10, 15) +
5 5 25
4 4 16
+ f0.95 (10, 20) + f0.95 (15, 15) + f0.95 (15, 20) = 2.27184.
25 25 25

160
In definitiva si ottiene:
1
f0.05 (19, 11) = ' 0.44
f0.95 (11, 19)

e poichè il dato empirico Vm,n appartiene all’intervallo A = (0.44, 2.6606), si accetta


l’ipotesi nulla concludendo che al livello di significatività α = 0.10 i due campioni
sono compatibili con l’affermazione che le varianze delle misurazioni effettuate sui
due modelli sono uguali.

7.4.4 Test di incorrelazione


Si è visto nel Capitolo 3 che le variabili aleatorie X e Y — con cui in Statistica si rap-
presentano due caratteri di una popolazione — sono statisticamente non correlate se è
nullo il loro coefficiente di correlazione ρ(X, Y ) definito dalla (3.9). La valutazione di
questo coefficiente è anche importante per verificare la correttezza di una regressione
lineare di Y su X che si ottiene, come mostrato nel Capitolo 5, attraverso l’analisi
di un campione di n coppie (xk , yk ) di dati riguardanti i due caratteri X e Y della
medesima popolazione.
Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra i
due caratteri si può effettuare ricorrendo al seguente stimatore:
n
X
(Xk − X)(Yk − Y )
Cov(X, Y ) k=1
Rn = = (7.31)
Sn,X Sn,Y nSn,X Sn,Y

dove X, Y , Sn,X , Sn,Y sono rispettivamente le medie campionarie e le radici quadrate


delle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi:

H0 : ρ(X, Y ) = 0 ; H1 : ρ(X, Y ) 6= 0 (7.32)

relative al coefficiente di correlazione teorico dei due caratteri, si può dimostrare che
se l’ipotesi nulla è vera, la statistica
s
n−2
Tn = R n (7.33)
1 − Rn2

è distribuita con legge t-Student con n − 2 gradi di libertà.


Ne segue che le regioni di accettazione e di rifiuto di H0 in un test bidirezionale al
livello di significatività α sono rispettivamente:

A = (−t1−α/2 , t1−α/2 ); C = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),

dove t1−α/2 è il quantile della distribuzione t-Student con n − 2 gradi di libertà, che
esclude una coda di probabilità α/2.

161
Se il valore empirico della statistica (7.33), calcolato con i dati forniti dal campione,
appartiene alla regione di accettazione cosı́ determinata, si concluderà che i due
caratteri sono non correlati al livello di significatività α.

Esempio 7.8
Nella regressione lineare effettuata nell’Esempio 4.2 del Capitolo IV è già stato cal-
colato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico
Rn = 0.7027. Poiché esso è relativamente prossimo all’unità, si è dedotto che i dati
(xk , yk ) ricavati dal campione di numerosità n = 12 sono sufficientemente correlati
statisticamente.
Effettuiamo un test di incorrelazione sulla statistica (7.33), per verificare se si pos-
sono trarre le medesime conclusioni anche nei confronti delle proprietà statistiche
della coppia di caratteri della popolazione dalla quale è stato estratto il campione
esaminato.
Il valore empirico che si ricava per la statistica (7.33) vale
s
10
tn = 0.7027 = 3.1232.
1 − (0.7027)2

L’esame della tabella dei quantili della distribuzione t-Student con n − 2 = 10 gradi
di libertà mostra che t1−α/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente per
α = 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significatività le
regioni di rifiuto di H0 sono:

α = 0.05 : C = (−∞, −2.228) ∪ (2.228, +∞)


α = 0.02 : C = (−∞, −2.764) ∪ (2.764, +∞)
α = 0.01 : C = (−∞, −3.169) ∪ (3.169, +∞)

e quindi il dato empirico tn appartiene alla regione di rifiuto dell’ipotesi nulla H0 :


ρ(X, Y ) = 0 per test bidirezionali con rischio di prima specie α = 0.02 o superiori,
mentre invece cade nella regione di accettazione per α = 0.01.
Se ne conclude che se si accetta di commettere un errore di prima specie maggiore o
uguale a 0.02, l’ipotesi nulla sulla incorrelazione dei due caratteri è da rigettare. Al
contrario, si concluderà che i due caratteri sono non correlati, solo se si vuole avere
una probabilità massima dell’1% di commettere un errore di prima specie. Si osservi
però che in tal caso l’errore di seconda specie β(tn ) può essere assai elevato, perché
varia in un intervallo compreso tra zero e 1 − α = 0.99.

162
RIFERIMENTI BIBLIOGRAFICI

1. Papoulis A., Probabilità, variabili aleatorie e processi stocastici, Boringhieri, Tori-


no, 1973.
2. Ivchenko G. - Medvedev Y., Mathematical statistics, Mir, Moskow, 1990.
3. Vicario G. - Levi R., Statistica e probabilità per ingegneri, Progetto Leonardo,
Bologna, 2001.
4. Pellerey F., Elementi di statistica per le applicazioni, Celid, Torino, 1998.
5. Johnson R.A., Miller and Freund’s Probability and Statistics for Engineers, Pren-
tile Hall, Englewood Cliffs, New Jersey, 1994.
6. Hoel P.G., Introduction to mathematical statistics, Wiley, New York, 1984.
7. Fagnola F. - Pistone G., Primo semestre di probabilità, CLUT, Torino, 1996.
8. Baldi P., Calcolo delle probabilità e statistica, McGraw-Hill Italia, Milano, 1992.

163

Potrebbero piacerti anche