Sei sulla pagina 1di 129

Elementi di Probabilità e Statistica

Maurizio Pratelli

Anno Accademico 2013-14


Indice

1 Nozioni fondamentali 5
1.1 Prime definizioni. . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Probabilità condizionata ed indipendenza. . . . . . . . . . . . 10
1.4 Appendice: alcuni complementi. . . . . . . . . . . . . . . . . . 13
1.4.1 Il controesempio di Vitali. . . . . . . . . . . . . . . . . 13
1.4.2 Probabilità e teoria dei numeri. . . . . . . . . . . . . . 14
1.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Probabilità discreta 17
2.1 Richiami sulle serie numeriche. . . . . . . . . . . . . . . . . . . 17
2.2 Integrale rispetto ad una misura discreta. . . . . . . . . . . . . 19
2.3 Variabili aleatorie discrete. . . . . . . . . . . . . . . . . . . . . 22
2.4 Valori attesi e momenti. . . . . . . . . . . . . . . . . . . . . . 25
2.5 Variabili n-dimensionali . . . . . . . . . . . . . . . . . . . . . 28
2.6 La funzione generatrice delle Probabilità. . . . . . . . . . . . . 35
2.7 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.1 Alcune dimostrazioni . . . . . . . . . . . . . . . . . . . 42
2.8.2 Alcuni esercizi significativi . . . . . . . . . . . . . . . . 44
2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 Statistica su uno spazio numerabile 49


3.1 Due parole sulla statistica descrittiva . . . . . . . . . . . . . . 49
3.2 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Teoria della Stima . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4 Stime e riassunti esaustivi . . . . . . . . . . . . . . . . . . . . 55
3.5 Intervalli di fiducia . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6 Teoria dei test statistici . . . . . . . . . . . . . . . . . . . . . . 61
3.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3
4 INDICE

4 Probabilità generale 69
4.1 Costruzione di una Probabilità . . . . . . . . . . . . . . . . . . 69
4.2 Costruzione dell’integrale . . . . . . . . . . . . . . . . . . . . . 74
4.3 Variabili aleatorie generali . . . . . . . . . . . . . . . . . . . . 81
4.4 Variabili aleatorie con densità . . . . . . . . . . . . . . . . . . 85
4.5 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5.1 Densità uniforme . . . . . . . . . . . . . . . . . . . . . 89
4.5.2 Densità Gamma . . . . . . . . . . . . . . . . . . . . . . 90
4.5.3 Densità Gaussiana . . . . . . . . . . . . . . . . . . . . 91
4.6 Convergenza di variabili aleatorie . . . . . . . . . . . . . . . . 92
4.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.7.1 Alcune leggi di probabilità di rilevante interesse in Sta-
tistica . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.7.2 La misura di Cantor . . . . . . . . . . . . . . . . . . . 98
4.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5 Statistica su uno spazio generale 103


5.1 Modelli statistici generali . . . . . . . . . . . . . . . . . . . . . 103
5.2 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . 105
5.3 Ritorno al Lemma di Neyman-Pearson . . . . . . . . . . . . . 107
5.4 Due esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6 Statistica sui modelli gaussiani 113


6.1 Campioni statistici gaussiani . . . . . . . . . . . . . . . . . . . 113
6.2 Test sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.3 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . 122
6.4 Confronto tra due campioni gaussiani indipendenti . . . . . . 123
6.5 Modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Capitolo 1

Nozioni fondamentali di
Calcolo delle Probabilità.

1.1 Prime definizioni.


Di fronte ad una situazione che suggerisce l’uso del Calcolo delle Probabilità,
incontriamo alcune affermazioni legate tra loro dai connettivi logici o, e, non:
è facile convincersi che si può tradurre questo in una famiglia di sottinsiemi
(chiamati eventi) di un opportuno insieme Ω, contenente l’insieme vuoto e
tutto l’insieme, e stabile per le operazioni di unione (finita), intersezione
e complementazione. Una tale famiglia di insiemi si chiama un’algebra di
parti (il termine anglosassone è field).
L’insieme Ω, che usualmente rappresenta tutti i possibili esiti, è spesso
chiamato spazio fondamentale o anche (soprattutto in Statistica) spazio dei
campioni.
Il grado di fiducia che un sottinsieme si realizzi (chiamato probabilità),
è rappresentato da un numero compreso tra 0 e 1; inoltre è intuitivo sup-
porre che se due eventi sono incompatibili (cioè hanno intersezione vuota) la
probabilità che si realizzi uno qualsiasi dei due debba essere la somma delle
probabilità dei singoli eventi. Questo equivale a dire che la probabilità è una
funzione d’insieme (finitamente) additiva.
Cominciamo a dare le prime definizioni (provvisorie):

Definizione 1.1.1 (Algebra di parti). Dato un insieme Ω, si chiama


algebra di parti una famiglia F di sottinsiemi di Ω tale che:
a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F;
b) se A ∈ F , anche il suo complementare Ac ∈ F;
c) se A e B sono elementi di F, anche A ∪ B ∈ F.

5
6 CAPITOLO 1. NOZIONI FONDAMENTALI

Notiamo che automaticamente F è stabile anche per l’intersezione c finita:


questo segue dalle proprietà b) e c) e dal fatto che A ∩ B = A ∪ B c . c

Inoltre le proprietà definite in a) sono ridondanti: è sufficiente ad esempio


supporre che Ω sia un elemento di F ed automaticamente ∅ = Ωc è un
elemento di F.

Definizione 1.1.2 (Probabilità finitamente additiva). Data un’algebra


F di parti di un insieme Ω , si chiama probabilità (finitamente additiva) una
funzione P : F −→ [0, 1] tale che   
a) se A, B ∈ F e A ∩ B = ∅ , allora P A ∪ B = P A + P B ;
b) P(Ω) = 1.

Gli elementi dell’algebra di parti F sono chiamati eventi , si chiama tra-


scurabile un evento A tale che P(A) = 0 e si chiama quasi certo un evento
A tale che P(A) = 1.
Vediamo alcune conseguenze immediate della definizione 1.1.2 che si pos-
sono provare facilmente per esercizio:

1. P(∅) = 0 ;

2. P(Ac ) = 1 − P(A) ;

3. se B ⊂ A , P A \ B = P(A) − P(B) , dove si è posto A \ B = A ∩ B c ;

4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B);

5. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) −


P(B ∩ C) + P(A ∩ B ∩ C) , e cosı̀ via . . .

Le definizioni sopra riportate, oltre ad essere molto intuitive, sono supportate


da valide argomentazioni logiche, tuttavia dal punto di vista matematico
presentano una difficoltà: la additività semplice non consente di andare al
limite, e di conseguenza di calcolare degli integrali. La buona proprietà per
poter effettuare queste operazioni è la additività numerabile, detta anche
σ-additività. Inoltre la famiglia di parti sulla quale possa essere definita
una funzione σ-additiva è opportuno che sia stabile per unione numerabile e
non unione finita.
Per questo motivo, seguendo quella che è ormai comunemente chiamata la
definizione assiomatica di Probabilità secondo Kolmogorov, sostituiamo alle
precedenti queste definizioni.

Definizione 1.1.3 (σ-algebra di parti). Dato un insieme Ω, si chiama


σ-algebra di parti una famiglia F di sottinsiemi di Ω tale che:
1.1. PRIME DEFINIZIONI. 7

a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F;


b) se A ∈ F , anche il suo complementare Ac ∈ F;
c) se (An )n≥1 è una successione di elementi di F, anche +∞
S
n=1 An ∈ F.

Naturalmente una σ-algebra è anche un’algebra di parti: infatti A ∪ B =


A ∪ B ∪ ∅ ∪ ∅ . . ..

Osservazione 1.1.4. La terminologia anglosassone per una famiglia di parti


con tali proprietà è σ-field, che dovrebbe essere tradotto σ-campo (termine
in realtà poco usato); la terminologia francese (introdotta dal Bourbaki) è
tribù.

Definizione 1.1.5 (Probabilità). Assegnato un insieme Ω ed una σ-algebra


F di parti di Ω, si chiama probabilità una funzione P : F −→ [0, 1] tale che
a) se (A
S n )n=1,2,...
 èP una successione di elementi di F a due a due disgiunti,
si ha P +∞ A
n=1 n = +∞
n=1 P(An ) ;
b) P(Ω) = 1.

Una funzione d’insieme che gode della proprietà a) della definizione 1.1.5
è detta misura; la probabilità è dunque una misura normalizzata. È facile
constatare che una funzione
 σ-additiva è anche semplicemente additiva.
Una terna Ω, F, P formata da un insieme Ω, una σ-algebra F di parti
di Ω ed una probabilità P definita su F viene chiamata spazio probabilizzato
o anche spazio di Probabilità.
La proprietà seguente spiega perché la σ-additività può essere considerata
una sorta di continuità.

Proposizione 1.1.6. Sia F una σ-algebra di parti di un insieme Ω e sia P :


F −→ [0, 1] semplicemente additiva (e tale che P(Ω) = 1 ). Sono equivalenti
le seguenti proprietà:
1) P è σ-additiva;
2) se (ASn )n≥1 è una successione crescente di insiemi (cioè An ⊆ An+1 ),
posto A = n≥1 An , si ha limn→+∞ P(An ) = P(A) ;
T 3) se (An )n≥1 è una successione decrescente di insiemi , posto A =
n≥1 An , si ha limn→+∞ P(An ) = P(A).

Dimostrazione. Mostriamo ad esempio l’equivalenza tra 1) e 2). Supponiamo


che sia verificata 1), e poniamo B1 = A1 , Bn = An \ An−1 per n > 1: gli
insiemi (Bn )n≥1 sono a due a due disgiunti e per l’additività finita si ha
P(Bn ) = P(AS n ) − P(ASn−1 ).
Poichè Pn≥1 An = n≥1 Bn , si ha P(A) = +∞
P
n=1 P(Bn ) =
n
= limn→∞ h=1 P(Bh ) = limn→∞ P(An ).
8 CAPITOLO 1. NOZIONI FONDAMENTALI

Viceversa, supponendo che sia verificata la proprietà 2) , assegnata una


successione (Bn )n≥1 di eventi a due a due disgiunti, posto An = B1 ∪ . . . ∪
Bn ,Squesta risulta essere
S una successione crescente di insiemi.
Pn Si ha allora
P B = P n≥1 An = limn→∞ P(An ) = limn→∞ h=1 P(Bh ) =
P+∞n≥1 n
n=1 P(Bn )
L’equivalenza tra 2) e 3) si dimostra facilmente passando al complemen-
tare.

D’ora innanzi, le affermazioni 2) e 3) del precedente enunciato verranno


anche scritte nella seguente maniera, telegrafica ma perfettamente chiara:
2) An ↑ A =⇒ P(An ) → P(A) (o anche P(An ) ↑ P(A) );
3) An ↓ A =⇒ P(An ) → P(A) (o anche P(An ) ↓ P(A) )
Inoltre le precedenti affermazioni sono anche equivalenti alle seguenti (la-
sciamo per esercizio la relativa facile dimostrazione):
2)bis: An ↑ Ω =⇒ P(An ) → 1 ;
3)bis: An ↓ ∅ =⇒ P(An ) → 0 .
È naturale a questo punto chiedersi perchè la probabilità è assegnata solo
su alcuni e non tutti i sottinsiemi di Ω : il motivo di questo è una difficoltà
di ordine matematico, cioè non sempre è possibile estendere una funzione
σ-additiva a tutti i sottinsiemi di un insieme Ω.
Esaminiamo in particolare un esempio concreto, immaginiamo di scegliere
a caso un numero compreso tra 0 e 1 : lo spazio più naturale è Ω = [0, 1]
e ad un intervallo ]a, b] (in verità non importa se questo intervallo è aperto,
chiuso ..) sembra ragionevole attribuire come probabilità la sua lunghezza
(b − a). Inoltre è ovvio supporre che la probabilità attribuita sia invariante
per traslazioni (modulo 1) , cioè P(A) = P(A + c) , dove con A + c si intende
il traslato di A (modulo 1).
Il famoso controesempio di Vitali, tradotto in questa situazione, può essere
letto nel modo seguente:

Proposizione 1.1.7. Non è possibile costruire una funzione P σ-additiva


definita su tutti i sottinsiemi di [0, 1] e tale che:

1) P ]a, b] = b − a se 0 ≤ a ≤ b ≤ 1 ;
2) P sia invariante per traslazioni (modulo 1).

Osserviamo che quella enunciata sopra è una traduzione ai nostri scopi


dell’esempio di Vitali, consistente nella costruzione di un sottinsieme della
retta IR non misurabile secondo Lebesgue. Torneremo su questo argomento
nell’Appendice.
1.2. CALCOLO COMBINATORIO 9

1.2 Il caso di uno spazio finito: elementi di


calcolo combinatorio.
La difficoltà enunciata alla fine del paragrafo precedente (cioè l’impossibilità
di estendere la probabilità a tutti isottinsiemi di un insieme Ω) non si pone
se Ω è un insieme finito (cioè Ω = ω1 , . . . , ωn ). In tal caso è usuale (anche
se non obbligatorio) considerare come σ-algebra degli eventi la famiglia P(Ω)
di tutte le parti di Ω; inoltre la probabilità è univocamente determinata dai
numeri pi = P {ωi } ,P(pi ≥ 0 , p1 + · · · + pn = 1). Per ogni evento A ⊂ Ω
si ha infatti P(A) = ωi ∈A pi . (D’ora innanzi scriveremo più brevemente

P(ωi ) anziché P {ωi } ).
La stessa cosa vale se l’insieme Ω è numerabile (Ω = {ω1 , ω2 , . . . }) :
usualmente si considera come σ-algebra F la famiglia P(Ω) di tutte le parti
e vale la formula appena scritta, dove la somma finita diventa la somma di
una serie se l’evento A è un insieme di cardinalità infinita.
Nel caso in cui Ω sia un insieme finito e gli eventi elementari ωi siano
equiprobabili, si parla di distribuzione uniforme di probabilità su Ω; natural-
mente non esiste una distribuzione uniforme di probabilità su un insieme Ω
numerabile ma infinito.
Tornando al caso di Ω finito e di distribuzione uniforme di probabilità, si
ottiene la formula

]A |A|
P(A) = =
]Ω |Ω|
dove con ]A o con |A| si indica la cardinalità (o numero degli elementi)
dell’insieme A. La formula sopra scritta è anche chiamata rapporto tra casi
favorevoli e casi possibili e talvolta ad essa ci si riferisce indicandola come la
definizione classica di Probabilità.
In questo ambito, i problemi diventano molto spesso problemi di calcolo
combinatorio: delle varie formule riportate dai libri (spesso con nomi diversi
da un libro all’altro) bisogna, a mio avviso, conoscerne soltanto tre. Tutte le
altre si possono dedurre da queste come esercizio. Prima di riportare queste
formule premettiamo una comoda notazione: dato un intero n, anziché dire
un insieme di cardinalità n, scriveremo più brevemente {1, . . . , n}.
Proposizione 1.2.1. Siano k ed n due interi: il numero di applicazioni da
{1, . . . , k} a {1, . . . , n} è nk
Proposizione 1.2.2 (Permutazioni). Il numero di modi in cui si possono
ordinare gli elementi di {1, . . . , n} è n!
Questa formula, cosı̀ come la precedente, si dimostra per induzione.
10 CAPITOLO 1. NOZIONI FONDAMENTALI

Proposizione 1.2.3 (Coefficiente binomiale). Siano 0 ≤ k ≤ n : il


numero di sottinsiemi di {1, . . . , n} formati da k elementi è
 
n n!
=
k k! (n − k)!
Anche questa formula si dimostra per induzione, a scelta su k o su n.
Vediamo ora, a titolo d’esempio, due formule che si possono dedurre dalle
presedenti: lasciamo la dimostrazione come esercizio.
Esercizio 1.2.4. Siano 0 ≤ k ≤ n : il numero di sottinsiemi ordinati di
n!
{1, . . . , n} formati da k elementi è (n−k)!
Notiamo che questo numero coincide anche con il numero delle applica-
zioni iniettive da {1, . . . , k} in {1, . . . , n}.
Esercizio 1.2.5. Siano k1 , . . . , kh interi con k1 + · · · + kh = n : il nume-
ro di modi in cui si possono scegliere h sottinsiemi di {1, . . . , n} formati
rispettivamente da k1 , . . . , kh elementi è
n!
k1 ! . . . kh !

1.3 Probabilità condizionata ed indipenden-


za.
Quando si à conoscenza della realizzazione di un evento, cambia la valutazio-
ne di probabilità di ogni altro evento: ad esempio se si sa che il numero uscito
su un giro della roulette è un numero pari, la probabilità che sia uscito il nu-
1 1
mero 16 non è più 37 ma 18 (ricordiamo che la ruota della roulette contiene
37 caselle, numerate da 0 a 36, e che lo 0 non è considerato né pari né di-
spari). Se si è realizzato l’evento B = {2, 4, . . . , 36} (cioè è uscito un numero
pari) sono rimasti 18 casi possibili dei quali uno è favorevole: se indichiamo
con A = {16}, notiamo che la nuova probabilità che è stata attribuita ad A
verifica dalla formula P(A∩B)
P(B)
.
Si possono fornire diversi esempi simili che sempre verificano la formula
sopra riportata: queste considerazioni sono all’origine della definizione che
segue.

Definizione 1.3.1. Assegnato uno spazio di probabilità Ω, F, P ed un
evento B non trascurabile, si chiama probabilità condizionata di A rispetto a
B il numero
 P A ∩ B)
P A B = 
P B
1.3. PROBABILITÀ CONDIZIONATA ED INDIPENDENZA. 11

Essa indica la probabilità che viene associata all’evento A, coerentemente


con la valutazione precedentemente assegnata, in seguito all’informazione che
si è realizzato l’evento B.

Esercizio 1.3.2. Provare che, fissato B non trascurabile, la funzione


A−→P(A|B) è effettivamente una probabilità sulla σ-algebra F .

Dati due eventi A e B non trascurabili, è immediato constatare che vale


la formula P(A ∩ B) = P(A|B).P(B) = P(B|A).P(A).

Proposizione 1.3.3. Siano A1 , . . . , An eventi, e supponiamo che A1 ∩ . . . ∩


An−1 sia non trascurabile: vale la formula
   
P A1 ∩ . . . ∩ An = P A1 .P A2 A1 . . . P An A1 ∩ . . . ∩ An−1 (1.3.1)

La dimostrazione si ottiene immediatamente scrivendo i vari termini; si


noti che, se 1 ≤ k < n − 1 , anche A1 ∩ . . . ∩ Ak è non trascurabile.

Definizione 1.3.4 (Sistema di alternative). Si chiama sistema di alter-


native una partizione di Ω in n eventi non trascurabili B1 , . . . , Bn .

Ricordiamo che partizione significa che gli insiemi Bi sono a due a due
disgiunti e che la loro unione è l’intero insieme Ω.

Proposizione 1.3.5 (Formula di Bayes). Sia B1 , . . . , Bn un sistema di


alternative: assegnato una qualunque evento A non trascurabile, valgono le
formule
Xn
 
P(A) = P A Bi P Bi (1.3.2)
i=1

 P A Bi P Bi )
P Bi A = Pn  (1.3.3)
j=1 P A Bj P Bj )

Dimostrazione. Per quanto riguarda la prima formula, si noti che


A = (A ∩ B1 ) ∪ . . . ∪ (A ∩ Bn ) e questi eventi sono a due a due disgiunti: si
ha pertanto
n
X n
X
  
P(A) = P A ∩ Bi = P A Bi P Bi
i=1 i=1

La seconda formula ne è una conseguenza immediata. Usualmente si da


il nome di formula di Bayes all’equazione 1.3.3, che è chiamata talvolta
formula delle probabilità delle cause.
12 CAPITOLO 1. NOZIONI FONDAMENTALI

Le formule della Proposizione 1.3.5 sono valide anche se il sistema di


alternative anzichè essere finito è numerabile, naturalmente sostituendo alle
somme finite le somme di una serie.

Esercizio 1.3.6. Qual è la probabilità che, in una estrazione del lotto, tutti e
5 i numeri estratti non siano superiori a 20? Provare a risolvere questo facile
esercizio in due modi, utilizzando cioè il calcolo combinatorio e la formula
1.3.1.

Introduciamo ora il concetto di indipendenza (stocastica): vogliamo tra-


durre con una formula matematica l’idea che la conoscenza che si è realizzato
l’evento A non modifica la valutazione di probabilità di B e viceversa. A tale
scopo consideriamo due eventi A e B (non trascurabili) e proviamo a scrivere
le eguaglianze P(A) = P(A|B) e P(B) = P(B|A) : un esame immediato
mostra che queste sono equivalenti tra loro ed equivalenti all’eguaglianza
P(A ∩ B) = P(A).P(B). A differenza delle due precedenti, quest’ultima è
simmetrica rispetto ai due eventi ed ha senso anche se uno dei due (o anche
tutti e due) sono trascurabili: ne segue che questa è la buona definizione di
indipendenza.

Definizione 1.3.7 (Indipendenza stocastica). Due eventi A e B sono


detti indipendenti se vale l’eguaglianza

P(A ∩ B) = P(A).P(B)

È un facile esercizio provare le seguenti affermazioni:

• Se A e B sono indipendenti, sono indipendenti anche Ac e B; A e B c ;


Ac e B c .

• Se P(A) = 0 oppure P(A) = 1 , A è indipendente da qualsiasi altro


evento.

• Due eventi incompatibili (cioè che hanno intersezione vuota) non pos-
sono essere indipendenti, a meno che uno dei due sia trascurabile.

Vediamo ora come si estende questa definizione al caso di n eventi (con


n ≥ 3).

Definizione 1.3.8 (Indipendenza di più eventi). Assegnati n eventi


A1 , . . . , An , questi si dicono indipendenti se per ogni intero k con 2 ≤ k ≤ n
e per ogni scelta di interi 1 ≤ i1 < i2 < . . . < ik ≤ n , vale l’eguaglianza
  
P Ai1 ∩ · · · ∩ Aik = P Ai1 . . P Aik
1.4. APPENDICE: ALCUNI COMPLEMENTI. 13

La definizione appena riportata è piuttosto misteriosa: risulterà più chiara


quando verrà introdotta la nozione di indipendenza per variabili aleatorie.
È istruttivo tuttavia provare per esercizio la proposizione seguente, che in
qualche modo giustifica la definizione appena fornita.
Proposizione 1.3.9. Gli eventi A1 , . . . , An sono indipendenti se e solo se,
per ogni possibile scelta di Bi = Ai oppure Bi = Aci , vale l’eguaglianza
  
P B1 ∩ . . . ∩ Bn = P B1 . . P Bn
Esercizio 1.3.10. Sull’insieme Ω = {1, 2, 3, 4} munito della distribuzione
uniforme di probabilità, verificare che gli eventi A = {1, 2} , B = {1, 3} e C =
{2, 3} sono a due a due indipendenti, ma non sono globalmente indipendenti
Osservazione 1.3.11. Un caso tipico di indipendenza si ha nelle prove ri-
petute nelle medesime condizioni : ad esempio sono indipendenti i risultati di
successivi lanci di monete o successivi giri della ruota della roulette, ma non
sono indipendenti i risultati delle 5 estrazioni nel lotto.

1.4 Appendice: alcuni complementi.


1.4.1 Il controesempio di Vitali.
Consideriamo l’intervallo [0,1]: Vitali ha provato che non è possibile costruire
una funzione m definita su tutti i sottinsiemi di [0,1] e tale che
a) m è σ-additiva;
b) m è invariante per traslazioni (modulo 1);
c) m( [0, 1] ) = 1.
Cominciamo ad osservare che se esiste una  funzione d’insieme con le pro-
prietà a), b) e c), necessariamente m ]a, b] = (b − a) , se 0 ≤ a < b ≤ 1:
è immediato verificare questa eguaglianza per a e b razionali e si estende
al caso generale per continuità (vedi 1.1.6). Tuttavia questa eguaglianza in
realtà non ci servirà nella costruzione dell’esempio.
Consideriamo
 su [0, 1] la relazione d’equivalenza : x R y se x−y è razionale
(x−y) ∈ Q . Sia A l’insieme delle classi di equivalenza e per ogni a ∈ A con-
sideriamo (utilizzando l’assioma della scelta) un elemento xa ∈ a: chiamiamo

poi E l’insieme formato da tutti questi punti, cioè E = xa a ∈ A .
 
Chiamiamo Q e = Q ∩ 0, 1 l’insieme dei razionali compresi tra 0 e 1, e
per ogni r ∈ Q,e sia Er l’insieme ottenuto effettuando su E la traslazione di
r modulo 1, più precisamente
n o
Er = x ∈ [0, 1] (x − r) ∈ E, oppure (x − r + 1) ∈ E

14 CAPITOLO 1. NOZIONI FONDAMENTALI
 
Per ipotesi, m Er = m E , qualunque sia r. Si provano facilmente
queste due affermazioni:
1) se r 6= s , allora Er ∩ Es = ∅ ;
2) [0, 1] è l’unione degli insiemi Er , al variare di r ∈ Q.
e
A questo punto abbiamo  costruito il controesempio:
P  se m esiste, si deve avere
infatti 1 = m [0, 1] = r∈Qe m Er . Ma poiché questi numeri sono tutti

eguali a m E , la somma della serie  non può che prendere il valore 0 (se
m E = 0), oppure +∞ (se m E > 0).
Notiamo che l’esistenza di questo insieme E non è data in modo costrutti-
vo (detto intuitivamente non si riesce a capire come sia fatto questo insieme)
ma è una conseguenza dell’assioma della scelta: se non si accetta l’assioma
della scelta questa costruzione cade.
È interessante osservare che questa difficoltà non sussiste con le funzioni
finitamente additive: è sempre possibile infatti prolungare (in modo però non
unico) una funzione finitamente additiva definita su un’algebra di parti di un
insieme a tutti i sottinsiemi. Ancora una volta però questo prolungamento
non è costruttivo, ma una conseguenza dell’assioma della scelta.
Vedremo più avanti invece che è possibile prolungare (in modo unico) una
funzione σ-additiva definita su un’algebra A di parti di un insieme Ω alla più
piccola σ-algebra che la contiene, e questo sarà fatto con un procedimento
effettivamente costruttivo.

1.4.2 Probabilità e teoria dei numeri.


Ci sono delle interessanti applicazioni della nozione di Probabilità alla Teoria
dei numeri; in questo primo corso non c’è il tempo di addentrarci in questo
capitolo, ma ci limitiamo ad un paio di esempi.

Esempio 1.4.1 (La funzione di Eulero). Si chiama funzione di Eulero la


funzione φ(n) eguale (per n ≥ 2) al numero di interi tra 1, . . . , n primi con
n: la formula di Eulero afferma che, se p1 , . . . , pm sono i divisori primi di n,
si ha  1  1 
φ(n) = n 1 − ... 1 −
p1 pm

Di questa formula di può dare una dimostrazione probabilistica: più pre-


cisamente si considerino sullo spazio Ω = {1, . . . , n} la distribuzione di pro-
babilità uniforme ed i sottinsiemi A(pi ) costituiti dai multipli di pi (compresi
tra 1 e n).
1) Provare che gli eventi A(pi ) sono indipendenti (e di conseguenza anche
i loro complementari).
1.5. ESERCIZI 15

2) Osservare che l’intersezione dei complementari degli insiemi A(pi ) coin-


cide con l’insieme gli interi primi con n e dedurne la formula di Eulero.

Esempio 1.4.2 (La densità di Dirichlet). Sia A un sottinsieme dell’in-


sieme dei numeri naturali IN, e definiamo (per i sottinsiemi A per il quali
questo limite esiste)
|A ∩ {1, . . . , n}|
d(A) = lim
n→∞ n
La funzione sopra definita è un tipico esempio di funzione semplicemente
additiva ma non σ-additiva.
a) Verificare che la funzione d è additiva ma non σ-additiva ed esibire un
sottinsieme B ⊂ IN tale che d(B) non sia definita.
b) Assegnato un intero p , calcolare la densità dell’insieme Gp formato
dai multipli di p e provare che, se p e q sono primi tra loro, gli insiemi Gp e
Gq risultano indipendenti.
N.B. La famiglia dei sottinsiemi A per i quali è definita la densità in realtà
non è un’algebra: tale famiglia infatti è stabile per passaggio al complemen-
tare (e la verifica di questo è immediata), ma non è stabile per l’unione.
Provare questo fatto (cosı̀ come esibire un sottinsieme B che non ha
densità) è un esercizio decisamente impegnativo.

1.5 Esercizi
Esercizio 1.5.1. Si lancia tre volte una moneta equilibrata, e si considerino
gli eventi A “le facce uscite non sono tutte eguali” e B “ al più una faccia è
testa”.
Gli eventi A e B sono indipendenti?
Qual è la risposta se la moneta non è equilibrata?
Esercizio 1.5.2. Un dado equilibrato, con le facce numerate da 1 a 6, viene
lanciato n volte: qual è la probabilità che il numero 6 esca esattamente 2
volte?
Per quale valore di n questa probabilità è massima?
Esercizio 1.5.3. Quante volte almeno si deve lanciare un dado affinché ci
sia una probabilità superiore al 99% che esca almeno un 6?
Esercizio 1.5.4. In una città, il 17% della popolazione si è vaccinato contro
l’influenza : all’apice dell’epidemia di influenza, le persone non vaccinate si
ammalano con probabilità 0,12 e quelle vaccinate invece con probabilità 0,02.
Qual è la probabilità di ammalarsi? Qual è la probabilità che una persona
ammalata si sia vaccinata ?
16 CAPITOLO 1. NOZIONI FONDAMENTALI

Esercizio 1.5.5. Una fabbrica produce dei componenti elettronici che vende
in scatole di 10 pezzi. Prima di essere messa in vendita, ogni scatola viene
controllata nel modo seguente: si scelgono a caso 5 pezzi e se almeno 4
risultano funzionanti la scatola passa alla vendita.
a) Qual è la probabilità che una scatola con esattamente 8 pezzi funzio-
nanti passi alla vendita?
b) Stessa domanda per una scatola con 4 pezzi funzionanti.
Capitolo 2

Probabilità e variabili aleatorie


su uno spazio numerabile

2.1 Richiami sulle serie numeriche.


Premettiamo alcuni richiami sulle serie numeriche. Data una successione di
numeri reali a1 , a2 , . . . , posto sn = a1 + · · · + an , si chiama somma della serie
il limite (se esiste) della successione (sn )n≥1 , e si dice che la serie converge
se questo limite esiste. Più precisamente, per definizione
+∞
X n
X
an = lim ak = lim sn
n→∞ n→∞
n=1 k=1

Se la serie converge, la successione (an )n≥1 è infinitesima (infatti si ha


an = sn −sn−1 ) , ma non è vero il viceversa (un esempio tipico è la successione
an = n1 ).
Vediamo ora alcune proprietà importanti delle serie a termini positivi
(cioè an ≥ 0 , qualunque sia n): in tal caso la successione delle somme
parziali (sn )n≥1 è monotona crescente e pertanto esiste
P+∞ comunque (finito o
infinito) il limite. Ha sempre senso quindi scrivere n=1 an ∈ [0, +∞].
Le serie a termini di segno positivo hanno interessanti proprietà, in par-
ticolare si può cambiare l’ordine della somma e sommare per pacchetti: di
seguito vediamo gli enunciati precisi nelle due seguenti proposizioni, nelle
quali si suppone che la successione (an )n≥1 sia formata da termini positivi.

Proposizione 2.1.1. Sia v : IN → IN una applicazione biunivoca: allora


+∞
X +∞
X
an = av(n)
n=1 n=1

17
18 CAPITOLO 2. PROBABILITÀ DISCRETA

Proposizione 2.1.2. Sia A1 , A2 , . . . una partizione di IN (non importa se


formata di insiemi finiti o infiniti): vale la formula
+∞
X +∞ X
X
an = ak
n=1 n=1 k∈An

Dimostrazione. Dimostriamo 2.1.1, lasciando per esercizio la analoga di-


mostrazione di 2.1.2. Chiamiamo r(n) = max v(1), . . . , v(n) e sia s0n =
av(1) + · · · + av(n) : per ogni n si ha
+∞
X
s0n ≤ a1 + · · · + ar(n) ≤ an
n=1

e quindi, al limite,
+∞
X +∞
X
av(n) ≤ an
n=1 n=1
In modo analogo si ottiene la diseguaglianza opposta e di conseguenza l’e-
guaglianza.
Queste due proprietà si estendono immediatamente alle serie assoluta-
mente convergenti: ricordiamo che una serie numerica è detta assolutamente
convergente se si ha
+∞
X
an < +∞
n=1
Senza scrivere una formalizzazione esplicita, notiamo che la serie è assoluta-
mente convergente se (e solo se) convergono a un numero reale sia la serie
dei termini positivi che quella dei termini negativi, e ad entrambe si possono
applicare i risultati di 2.1.1 e 2.1.2.
Esercizio 2.1.3. Provare con dei controesempi che se la serie è convergente
ma non assolutamente convergente gli enunciati precedenti sono falsi.
In particolare vale questo curioso risultato, del quale non diamo la dimo-
strazione (che non ci servirà più avanti) lasciandola come esercizio impegna-
tivo.
Proposizione 2.1.4. Supponiamo che la successione (an )n≥1 sia tale che la
seria ad essa associata converga ma non converga assolutamente: assegnato
un qualsiasi l ∈ [−∞, +∞] , è possibile determinare una funzione biunivoca
v : IN → IN tale che si abbia
Xn
lim av(k) = l
n→∞
k=1
2.2. INTEGRALE RISPETTO AD UNA MISURA DISCRETA. 19

Come suggerimento, possiamo invitare a osservare che i termini della


successione devono essere infinitesimi (poichè la serie converge) ed entrambe
le serie dei termini positivi e di quelli negativi della successione divergono.

Abbiamo visto in sostanza che proprietà veramente buone di sommabilità


si hanno solo con serie assolutamente convergenti.

2.2 Integrale rispetto ad una misura discreta.


Quando la misura è definita su insieme numerabile la costruzione dell’inte-
grale è particolarmente semplice, sostanzialmente è una conseguenza delle
proprietà delle somme di serie numeriche: cominciamo dunque ad esaminare
questo caso semplificato, esplicitando le proprietà fondamentali dell’integrale.
Consideriamo un insieme numerabile E = {e1 , e2 , . . .} sul quale sia defi-
nita una misura m : supponiamo che tutti i sottinsiemi di E siano misurabili
(come abbiamo detto nel capitolo precedente, sugli insiemi numerabili non ci
sono problemi di misurabilità) e supponiamo che, per ogni i , m(ei ) < +∞ 
(c’è un piccolo abuso di notazioni perchè avremmo dovuto scrivere m {ei } ,
ma usiamo questa notazione abbreviata). Per ogni insieme A ⊂ E si ha
 X
m A = m(ei )
ei ∈A

Consideriamo ora una funzione f : E → IR ; non ci poniamo problemi


di misurabilità (sui quali invece saremo più accurati nei capitoli successivi)
perché ogni sottinsieme di E è misurabile.
Definizione 2.2.1 (Integrale). Si dice che la funzione f è integrabile se
X
f (ei ) m(ei ) < +∞
i

ed in tal caso chiamiamo integrale di f il numero


Z X
f dm = f (ei ) m(ei )
i

Indichiamo con L1 lo spazio delle funzioni integrabili. Prima di procedere


con le proprietà essenziali dell’integrale, osserviamo che dai risultati sulle
serie numeriche che sono stati ricordati risulta evidente perché si richiede
che la serie dei termini f (ei )m(ei ) converga assolutamente : senza questa
condizione infatti, se scegliessi di numerare i punti dell’insieme E secondo un
altro ordinamento, potrei avere per l’integrale un risultato diverso.
20 CAPITOLO 2. PROBABILITÀ DISCRETA

Osserviamo ancoraR che, se f P è a valori positivi, ha sempre senso parlare


di integrale di f , cioè f dm = i≥1 f (ei )m(ei ) ∈ [0, +∞].
Lasciamo per esercizio le seguenti facili proprietà:
R R R
1. se f, g ∈ L1 , anche (af + g) ∈ L1 e (af + g)dm = a f dm + g dm;
R R
2. se 0 ≤ f ≤ g , allora f dm ≤ g dm;
R R R
3. f è integrabile se e solo se |f | dm < +∞, inoltre f dm ≤ |f | dm;
R
4. se 0 ≤ f e f dm = 0, allora f vale identicamente 0 eccetto eventual-
mente su un insieme trascurabile.

Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una


proprietà verificata ovunque eccetto che su un insieme trascurabile è detta
valere quasi ovunque (e si scrive q.o.), mentre in probabilità si preferisce dire
quasi certamente (e si scrive q.c.).
I due enunciati che seguono sono le proprietà più importanti di passaggio
al limite sotto il segno d’integrale.

Teorema 2.2.2 (Beppo Levi). Sia (fn )n≥1 una successione crescente R di
funzioni positive, convergente ad f : la successione degli integrali fn dm n≥1
R
converge (crescendo) a f dm.

In maniera più sintetica, scriveremo d’ora innanzi un enunciato come il


precedente nella forma
Z Z
0 ≤ fn , fn ↑ f =⇒ fn dm ↑ f dm

R
Dimostrazione. Innanzi tutto osserviamo che esiste limn→∞ fn dm (poiché
si tratta di Runa successione monotona crescente) e che tale limite è inferiore
o eguale a f dm : occorre poi distinguere i casi in cui l’integrale di f sia
finito o infinito. R
Consideriamo il primoPcaso, e sia A = f dm ; per ogni ε > 0 , esiste un k
tale che la somma finita i=1,...,k f (ei )m(ei ) ≥ A − ε. Poiché per ogni punto
(ei ), fn (ei )m(ei ) converge a f (ei )m(e
R i ), convergono
P anche le somme finite e si
trova che, per n abbastanza grande fn dm ≥ i=1,...,k fn (ei )m(ei ) ≥ A−2ε,
e questo completaRla dimostrazione.
Il caso in cui f dm =P+∞ è sostanzialmente identico: qualunque sia
B > 0, esiste un k tale che i=1,...,k f (ei )m(ei ) ≥ B , e con gli stessi passaggi
appena svolti si prova che, per n abbastanza grande, fn dm ≥ B2 .
R
2.2. INTEGRALE RISPETTO AD UNA MISURA DISCRETA. 21

Teorema 2.2.3 (Convergenza dominata). Sia (fn )n≥1 una successione di


funzioni convergente puntualmente ad f e supponiamo che esista g positiva
integrabile tale che si abbia |fn | ≤ g qualunque sia n: vale allora la relazione
Z Z
lim fn dm = f dm
n→∞

Dimostrazione. Cominciamo ad osservare che la condizione di dominazione


|fn | ≤ g (valida ovviamente anche per il limite f ) implica che ogni fn ed f
siano integrabili. Notiamo poi che si ha la maggiorazione
Z Z Z X

fn dm − f dm ≤ fn − f dm = fn (ei ) − f (ei ) m(ei )
i≥1
P+∞
Dato ε > 0, esiste un intero k tale che i=k+1 g(ei )m(ei ) < ε , e di
conseguenza (poiché f n (ei ) − f (ei ) ≤ 2 g(ei ) ) , qualunque sia n,

P+∞
i=k+1 fn (ei ) − f (ei ) m(ei ) < 2 ε.

A questo
Pk punto,
poiché le somme finite convergono,
R perR n abbastanza

grande, i=1 fn (ei ) − f (ei ) m(ei ) < ε e quindi
fn dm − f dm < 3ε e
questo conclude la dimostrazione.
Proviamo ora con un controesempio che nell’enunciato precedente, se si
toglie l’ipotesi di dominazione, il risultato di passaggio al limite sotto il segno
d’integrale non è più vero.
Esercizio 2.2.4. Consideriamo sullo spazio IN∗ degli interi (strettamente
positivi) la misura m tale che m(k) = 2−k (notiamo che si tratta di una
probabilità), e consideriamo la successione di funzioni cosı̀ definite:
 n
2 se k = n
fn (k) =
0 se k 6= n

Verificare che le funzioni cosı̀ definite sono integrabili, che la successione non
è dominata, che converge puntualmente a una funzione integrabile ma gli
integrali non convergono.
Sarà importante il seguente risultato:

RTeorema
2
2.2.5 (Diseguaglianza
R 2 di Schwartz). Siano f, g tali che
f dm < +∞ e g dm < +∞ : allora il prodotto f g è integrabile e vale
la diseguaglianza
Z sZ sZ

f g dm ≤
f 2 dm g 2 dm
22 CAPITOLO 2. PROBABILITÀ DISCRETA

Inoltre, se la diseguaglianza sopra scritta è una eguaglianza, le funzioni f e


g coincidono a meno di una costante moltiplicativa (cioè esiste t reale tale
che f (ei ) = t g(ei ) q.o.).
Dimostrazione. Cominciamo ad osservare che la funzione f g è integrabile: si
ha infatti, per ogni punto ei , |f (ei )g(ei )| ≤ f 2 (ei ) + g 2 (ei ) . Per ogni t reale,
si ha

Z Z Z Z 
2 2 2 2
0≤ tf + g dm = t f dm + g dm + 2t f g dm

La funzione sopra scritta è un polinomio di II grado in t, e se è a valori


positivi il relativo
R discriminante è negativo, cioè
R 2  R 
f g dm − f 2 dm . g 2 dm ≤ 0.
Inoltre se il discriminante è egualeRa 0, il polinomio
2 si annulla in un punto
t, cioè esiste t ∈ IR tale che si abbia tf + g dm = 0 e questo equivale a
dire che (tf + g) = 0 q.o
Osservazione 2.2.6. La teoria esposta in questo paragrafo rimane valida se
l’insieme E non è numerabile, ma la misura m è concentrata su un insieme
numerabile, più precisamente se esiste una successione di punti (e1 , e2 , . . .)
tale che, per ogni A ⊂ E, si abbia
 X
m A = m(ei )
ei ∈A

Infatti in questo caso il complementare dell’unione dei punti che formano la


successione è trascurabile e, nel calcolo degli integrali, interessa solo il valore
di una funzione nei punti (ei )i≥1 . Si usa dire in questo caso che la misura è
discreta, o anche atomica.

2.3 Variabili aleatorie discrete.


Consideriamo ora, in questo e nel successivo capitolo, uno spazio di probabi-
lità Ω, F, P nel quale l’insieme Ω è supposto numerabile. Alla definizione
di variabile aleatoria premettiamo un esempio.
Supponiamo di aver puntato alla roulette 1 E sul numero 28 ed 1 E sul
pari: possiamo domandarci qual è la probabilità di vincere più di 10 E, op-
pure la probabilità di perdere. Lo spazio naturale per descrivere l’esito di
un giro della roulette è l’insieme Ω = {0, 1, . . . , 36} munito della distribuzio-
ne uniforme di probabilità, ma le domande scritte sopra non corrispondono
direttamente a sottinsiemi di Ω.
2.3. VARIABILI ALEATORIE DISCRETE. 23

Siamo naturalmente portati a introdurre una funzione X : Ω → IR (la


funzione vittoria netta) che in questo esempio risulta essere cosı̀ definita:


 36 ω = 28
0 ω pari, ω 6= 28

X(ω) =

 −1 ω=0
−2 ω dispari

 La risposta alla prima domanda


−1
diventa
 1
Pωi X(ωi ) ≥ 10 = P X [10, +∞[ = 37 e la risposta alla seconda è
−1 19

P ωi X(ωi ) < 0 = P X ] − ∞, 0[ = 37 .

In definitiva, abbiamo naturalmente introdotto una funzione X : Ω → IR
ed abbiamo trasportato la probabilità dai sottinsiemi di Ω ai sottinsiemi di IR.
Definizione2.3.1 (Variabile aleatoria). Assegnato uno spazio di probabi-
lità Ω, F, P con Ω numerabile, si chiama variabile aleatoria reale (discreta)
una funzione X : Ω → IR.
Definizione 2.3.2 (Legge di Probabilità). Si chiama legge di probabilità
(o anche distribuzione di probabilità) della v.a. reale X la probabilità definita
sui sottinsiemi di IR dalla formula
PX A = P X −1 (A)
 

La probabilità PX viene anche chiamata la probabilità immagine (di P


mediante X) e indicata X P . Che si tratti effettivamente di una probabilità
è immediato: se (An )n≥1 è una successione di sottinsiemi di IR a due a due
disgiunti, anche le immagini inverse sono disgiunte e si ha
[  [  X  X
An = P X −1 P X −1 An =

PX An = PX An
n n n n

Si verifica inoltre immediatamente che PX IR = 1. È anche immediato
constatare che l’immagine di una probabilità è associativa
 nel senso che, se
Y = g ◦ X , si ha Y (P) = g ◦ X (P) = g X(P) .
Quando due variabili aleatorie hanno la stessa legge di probabilità sono
dette equidistribuite ( o anche isonome).
Vediamo più in dettaglio come è fatta la legge di probabilità di una v.a.
discreta.
Poiché Ω è numerabile, anche l’immagine di X è un sottinsieme (finito o)
numerabile della retta,
 cioè
(x1 , x2 , −1
. . .) ; per ogni punto xi , si consideri il
numero p(xi ) = P X = xi = P X (xi ) . Vale la formula:
 X
PX A = P X −1 (A) =

p(xi )
xi ∈A
24 CAPITOLO 2. PROBABILITÀ DISCRETA

(infatti X −1 (A) = xi ∈A X = xi ). Naturalmente i numeri p(xi ) sono


S 
P 
positivi e i p(xi ) = 1; alla funzione x → p(x) = P X = x viene dato
il nome di funzione di probabilità (qualcuno usa anche il termine densità
discreta). 
Quanto alla scrittura
 X = x ,è bene
familiarizzarsi subito
 con la nota-
−1

zione (molto comoda) X ∈ A = ωi X(ωi ) ∈ A = X A . Ad esempio

a < X ≤ b = X −1 ]a, b] .


Osservazione 2.3.3. Assegnata una probabilità discreta Q su IR (cioè in


pratica, come abbiamo  Pvisto, del valori (x1 , x2 , . . .) e dei numeri positivi
p(x1 ), p(x2 ), . . . con i p(xi ) = 1 ) è naturale chiedersi se esiste una v.a.
X la cui legge di probabilità sia Q.
La risposta è affermativa e la costruzione  è anche molto semplice: si può
considerare come Ω l’insiemedei valori Ω = x1 , x2 , . . . , come probabilità
P quella definita da P {xi } = p(xi ) e come applicazione X : Ω → IR
l’applicazione identica (cioè X(xi ) = xi ). La verifica dell’eguaglianza PX =
Q è immediata.
Questa osservazione sembra banale, ma dal punto di vista metodologico è
invece importante: nella pratica spesso si incontra solo la legge di probabilità
di una v.a., e questo ci dice che non dobbiamo porci domande sull’esistenza
di uno spazio Ω e di una applicazione X : Ω → IR perché la risposta è già
data da questa costruzione canonica.
Vediamo ora rapidamente le principali variabili aleatorie discrete.
Esempio 2.3.4 (Variabile Binomiale). La variabile Binomiale (di para-
metri n e p, n intero positivo e 0 < p < 1), considera n ripetizioni (in
condizioni di indipendenza) di un esperimento che ha probabilità p di successo
e conta il numero dei successi ottenuti. La legge binomiale viene indicata
B(n, p) e si scrive X ∼ B(n, p) ; quando n = 1 viene anche chiamata legge
di Bernoulli di parametro p.
I valori della v.a. binomiale sono gli interi {0, 1, . . . , n} e vale, per 0 ≤
k ≤ n, la formula
 
n k
p (1 − p)n−k

p(k) = P X = k =
k
Esempio 2.3.5 (Variabile di Poisson). La variabile di Poisson (di para-
metro λ , λ > 0) è una variabile che assume tutti i valori interi positivi con
probabilità
n
−λ λ

p(n) = P X = n = e
n!
2.4. VALORI ATTESI E MOMENTI. 25

Esempio 2.3.6 (Variabile Geometrica). La variabile Geometrica (di para-


metro p , 0 < p < 1 ) considera ripetizioni consecutive di un esperimento che
ha probabilità p di successo e conta il numero di prove che è stato necessario
effettuare per ottenere un successo.
I valori possibili sono gli interi strettamente positivi e si ha

p(n) = P X = n = (1 − p)n−1 p


Esercizio 2.3.7 (Assenza di memoria della legge geometrica). Provare


che se X è una variabile geometrica, per n, h interi strettamente positivi, vale
la formula  
P X = n + h X > n = P X = h (2.3.1)
Provare viceversa che se X è una v.a. a valori interi strettamente positivi
che soddisfa l’equazione 2.3.1, necessariamente è una variabile geometrica.
Esercizio 2.3.8 (Variabile Binomiale negativa.). La variabile Binomiale
negativa può essere definita in questo modo: si ripete in condizioni di indi-
pendenza un esperimento che ha probabilità p di successo fino a che questo si
realizza k volte; la variabile conta il numero di tentativi che è stato necessario
effettuare. Determinare la sua legge di probabilità.
Osservazione: il nome, un pò curioso, di binomiale negativa, deriva dall’e-
guaglianza
   
n−1 k n−k −k
p (1 − p) = pk (p − 1)n−k
n−k n−k
Ricordiamo che, se α è un numero reale qualsiasi e k un intero positivo, per
definizione  
α α.(α − 1) . . . (α − k + 1)
=
k k!
Esercizio 2.3.9 (Variabile ipergeometrica). Consideriamo un’urna con-
tenente r sfere rosse e b sfere bianche, ed in essa compiamo n estrazioni senza
reimbussolamento (ovviamente si deve avere n ≤ (r + b)): consideriamo la
v.a. X che conta il numero di sfere rosse che sono state estratte.
Di tale variabile determinare la distribuzione di probabilità, il valore
atteso, la varianza.

2.4 Valori attesi e momenti.


Prima di dare la definizione di valore atteso, proviamo un teorema che si
dimostra fondamentale in Calcolo delle Probabilità.
26 CAPITOLO 2. PROBABILITÀ DISCRETA

Teorema 2.4.1 (Integrazione rispetto a una probabilità immagine).


Siano X una v.a. discreta, PX = X P la sua legge di probabilità e ϕ :
IR → IR. ϕ è integrabile rispetto a PX se e solo se ϕ ◦ X è integrabile rispetto
a P, e in tal caso vale l’eguaglianza
Z Z

ϕ(x) dPX (x) = ϕ X(ω) dP(ω) (2.4.1)
IR Ω

Dimostrazione. Cominciamo a supporre che ϕ sia a valori positivi. Poiché


Ω è numerabile, la sua immagine mediante X è un sottinsieme (finito o)
numerabile di IR della
forma (x 1 , x2 , . . .). Consideriamo gli P
insiemi Ai =
{X = xi } = ωj X(ωj ) = xi e osserviamo che p(xi ) =

ωj ∈Ai P(ωj ).
Poichè quelle che seguono sono somme di serie a termini positivi, possiamo
usare la proprietà associativa della somma: si ottiene pertanto

Z X X  X 
ϕ(x) dPX (x) = ϕ(xi )p(xi ) = ϕ(xi ) P(ωj ) =
i i ωj ∈Ai

X X  X Z
  
ϕ X(ωj ) P(ωj ) = ϕ X(ωj ) P(ωj ) = ϕ X(ω) dP(ω)
i ωj ∈Ai j Ω

cioè l’eguaglianza desiderata. Il caso generale si ottiene scrivendo la funzione



ϕ nella forma ϕ = ϕ+ − ϕ e sommando i due integrali. Ricordiamo che
con ϕ+ (x) = max ϕ(x), 0 e ϕ− (x) = − min ϕ(x), 0 intendiamo la parte
 

positiva e parte negativa della funzione ϕ.


Siamo ora in grado di dare la seguente definizione:

Definizione 2.4.2 (Valore atteso). Data una v.a. reale discreta X, si dice
che essa ha valore atteso se è integrabile rispetto a P, e in tal caso si chiama
valore atteso l’integrale
Z X
   
E X = X(ω) dP(ω) = X ωi P ωi
Ω i

Il valore atteso è anche chiamato speranza matematica; il termine an-


glosassone è expectation e quello francese espérance. Talvolte viene anche
chiamato valor medio, ma è un termine improprio perché si potrebbe con-
fondere con la media aritmetica dei valori della v.a. (quando questa prende
un numero finito di valori).
In base al teorema 2.4.1 abbiamo la seguente regola pratica: data una v.a. 
discreta che prende i valori (x1 , x2 , . . .) con probabilità p(x1 ), p(x2 ), . . . ,
2.4. VALORI ATTESI E MOMENTI. 27
P
essa ammetteP valore atteso se e solo se i |xi | p(xi ) < +∞, ed in tal caso si
ha E[X] = i xi p(xi ).
Dalle proprietà dell’integrale derivano alcune proprietà immediate del
valore atteso, ad esempio (se esiste) E[aX + b] = a E[X] + b.
Notiamo
R anche che se X è a valori positivi, ha sempre senso scrivere
E[X] = Ω X(ω) dP(ω) ∈ [0, +∞].
Esercizio 2.4.3. Sia X una variabile aleatoria a valori interi positivi: provare
che vale la formula
  X  X 
E X = P X>n = P X≥n
n≥0 n≥1

Definizione 2.4.4 (Momenti). Sia 1 ≤ p < +∞ e X una v.a.: si chiama


momento assoluto di ordine p il numero
 p  X
E X = |xi |p p(xi ) ∈ [0, +∞]
i

e se questo numero risulta finito, si dice che X ammette momento di ordine


p. Dato un intero positivo n, se X ammette
 momento di ordine n, si chiama
momento di ordine n il numero E X n .
Proposizione 2.4.5. Siano 1 ≤ p < q < +∞: se X ha momento di ordine
q, ammette anche momento di ordine p.
Dimostrazione. Per ogni numero reale x, vale la diseguaglianza
|x|p ≤ 1 + |x|q : si ha pertanto
 p  X X  q 
|xi |p p(xi ) ≤ 1 + |xi |q p(xi ) = 1 + E X

E X =
i i

Definizione 2.4.6 (Varianza). Sia X una variabile aleatoria dotata di


momento secondo: si chiama Varianza di X il numero
2 
= E X 2 − E[X]2
   
V ar X = E X − E[X]
 
Esercizio 2.4.7. Provare che vale la relazione V ar aX + b = a2 V ar X .
Lemma 2.4.8 (Diseguaglianza di Markov). Sia X una v.a. a valori
positivi e t una costante positiva: vale la diseguaglianza
  
tP X ≥ t ≤ E X
28 CAPITOLO 2. PROBABILITÀ DISCRETA

Dimostrazione. Introduciamo una notazione: se A è un insieme, si denota


con IA la funzione indicatrice dell’insieme A, più precisamente

1 se ω ∈ A
IA (ω) =
0 se ω ∈
/A

Si parte dunque dalla diseguaglianza tra variabili aleatorie t I{X≥t} ≤ X, e


passando alla conseguente diseguaglianza per gli integrali si ottiene il risul-
tato.
Conseguenza immediata della diseguaglianza di Markov è la seguente,
che spiega perché la varianza è una misura della dispersione di una variabile
aleatoria.
Proposizione 2.4.9 (Diseguaglianza di Chebishev). Sia X una v.a.
dotata di momento secondo: vale la diseguaglianza

t2 P X − E[X] ≥ t ≤ V ar X
 

Dimostrazione. Si applica la diseguaglianza di Markov, considerando


2 co-
2
me costante positiva t e come variabile aleatoria X − E[X] : si noti
che
X − E[X] ≥ t = X − E[X] 2 ≥ t2
  

Corollario 2.4.10. La varianza di una v.a. X è eguale a 0 se e solo se X


è costante q.c.
Dimostrazione. Da una parte, se X = c q.c., si ha E[X] = c e E[X 2 ] = c2 e
quindi la varianza si annulla. Supponiamo viceversa che V ar X = 0: poiché

X − E[X] ≥ 1
 [ 
X − E[X] 6= 0 =
n≥1
n

X − E[X] ≥ 1 è trascurabile, anche

e ciascuno degli
insiemi
n
X − E[X] 6= 0 è trascurabile.

2.5 Variabili aleatorie a più dimensioni, va-


riabili aleatorie indipendenti.
Per semplicità di notazioni, trattiamo il caso di variabili aleatorie a valori
in IR2 , ma identica è la trattazione di variabili aleatorie a valori in IRn .
2.5. VARIABILI N-DIMENSIONALI 29

Consideriamo dunque una  variabile2 aleatoria doppia o bidimensionale, cioè


una applicazione  X, Y : Ω−→IR . La sua legge di probabilità (denotata
PX,Y = (X, Y ) P è una probabilità sui sottinsiemi di IR2 .
L’immagine
 di (X, Y ) è un sottinsieme
numerabile di IR2 cioè un insieme
di punti (x i , yj ) i ≥ 1, j ≥ 1 e la funzione di probabilità è definita da

p(xi , yj ) = P X = xi , Y = yj . Per ogni sottinsieme B ⊂ IR2 si ha
  X
PX,Y B = P (X, Y ) ∈ B = p(xi , yj )
(xi ,yj )∈B

Teniamo presente che nelle formule la virgola sta per la congiunzione, che
corrisponde insiemisticamente all’intersezione, cioè ad esempio

X = xi , Y = yj = (X, Y )−1 (xi , yj ) = X = xi ∩ Y = yj


  

Il teorema di integrazione rispetto ad una misura immagine 2.4.1 si traduce


con minimi cambiamenti formali: valgono pertanto le eguaglianze
Z ZZ
  
E ϕ(X, Y ) = ϕ X(ω), Y (ω) dP(ω) = ϕ(x, y) dPX,Y (x, y) =
Ω IR2
X
= ϕ(xi , yj ) p(xi , yj )
xi ,yj

che si deve leggere: ϕ(X, Y ) è integrabile rispetto a P se e solo se ϕ è


integrabile rispetto a PX,Y , ed in tal caso è soddisfatta la formula scritta
sopra. Da questa formula e dalle proprietà dell’integrale seguono conseguenze
immediate:
  ad esempio, se X e Y sono integrabili, vale l’eguaglianza
E X + Y = E[X] + E[Y ].
Definizione 2.5.1 (Covarianza). Supponiamo che X ed Y ammettano
momento secondo: si chiama covarianza il numero
     
Cov X, Y = E X − E[X] Y − E[Y ] = E XY − E[X] E[Y ]

Notiamo che se X, Y ammettono momento secondo, per la diseguaglian-


za di Schwartz (teorema 2.2.5)
 il prodotto XY ammette momento primo.
Notiamo ancora che V ar X = Cov X, X ; è immediato verificare che la
covarianza è bilineare Cov(aX + bY, Z) = a Cov(X, Z) + b Cov(Y, Z) e
che vale la formula
   
V ar X + Y = V ar X + V ar Y + 2 Cov X, Y

Se Cov X, Y = 0, le due variabili sono dette incorrelate.
30 CAPITOLO 2. PROBABILITÀ DISCRETA

Proposizione 2.5.2. Siano X , Y dotate di momento secondo: vale la dise-


guaglianza  q q 
Cov X, Y ≤ V ar X V ar Y

Dimostrazione. È una conseguenza immediata della diseguaglianza di Sch-


wartz 2.2.5, dove si è posto f = X − E[X] e g = Y − E[Y ] . Si ha
dunque
 Z  
Cov X, Y = (X − E[X] Y − E[Y ] dP ≤

sZ sZ
2 2 q q 
≤ X − E[X] dP Y − E[Y ] dP = V ar X V ar Y

Si chiama scarto quadratico medio di X la radice della sua varianza (se


esiste); e se X , Y ammettono momento secondo e non sono costanti, si chiama
coefficiente di correlazione il numero

 Cov X, Y
ρ X, Y = q q 
V ar X V ar Y

Esempio 2.5.3 (Retta di regressione). Supponiamo che le due variabili


X e Y siano dotate di momento secondo e con varianza strettamente positiva
e cerchiamo h 2 i
min E Y − aX − b
a,b
 
Verificare che la funzione Q(a, b) = E (Y − aX − b)2 tende a +∞ per
|(a, b)| → ∞ , che il gradiente di Q si annulla solo nel punto (a, b) dove
Cov(X, Y )
a= e b = E[Y ] − a E[X] e che vale l’eguaglianza
V ar(X)
h 2 i
= V ar(Y ) 1 − ρ(X, Y )2

Q(a , b) = min E Y − aX − b
a,b

Lasciamo per esercizio la dimostrazione della seguente proprietà della cova-


rianza:

Proposizione 2.5.4 (Matrice delle covarianze). Sia X1 , . . . , Xn una
variabile aleatoria n–dimensionale, supponiamo che ogni componente Xi ab-
bia momento secondo e indichiamo con C la matrice delle covarianze (cioè
Cij = Cov(Xi , Xj )).
2.5. VARIABILI N-DIMENSIONALI 31

La matrice C è simmetrica, semidefinita positiva; inoltre vale la formula


n
X  n
X
V ar ai X i = Cij ai aj
i=1 i,j=1

Torniamo ad una variabile doppia (X, Y ), la cui legge di probabilità è


identificata dalla funzione di probabilità p(xi , yj ); ognuna delle due compo-
nenti X ed Y è una v.a. reale, e indichiamo con pX (xi ) = P{X = xi } (e
analogamente per pY ) le relative funzioni di probabilità.

Proposizione 2.5.5. Valgono le formule


X X
pX (xi ) = p(xi , yj ) pY (yj ) = p(xi , yj )
yj xi


Dimostrazione. L’insieme
 X = xi è unione numerabile degli insiemi (a
due a due disgiunti) X = xi , Y = yj , j = 1, 2, . . .); si ha pertanto
 X  X
px (xi ) = P X = xi = P X = xi , Y = y j = p(xi , yj )
yj yj

Viceversa, conoscendo le distribuzioni di probabilità marginali delle com-


ponenti X ed Y , non si può ricostruire la distribuzione di probabilità globale
del vettore aleatorio (X, Y ). C’è tuttavia un caso nel quale questo si può
fare, ed è quando le due variabili sono indipendenti.

Definizione 2.5.6. Due variabili aleatorie X ed Y si dicono indipendenti


se, scelti comunque due sottinsiemi A e B di IR, gli eventi X −1 (A) e Y −1 (B)
sono indipendenti, cioè se vale la formula
  
P X ∈ A, Y ∈ B = P X ∈ A P Y ∈ B

Proposizione 2.5.7. Due variabili discrete X ed Y sono indipendenti se e


solo se le relative funzioni di probabilità sono legate dalla formula

p(xi , yj ) = pX (xi ) pY (yj ) (2.5.1)

Dimostrazione. Da una parte, se le variabili sono indipendenti, scegliendo


A = {xi } e B = {yj }, si verifica immediatamente che è soddisfatta la formula
2.5.1.
32 CAPITOLO 2. PROBABILITÀ DISCRETA

Supponiamo viceversa che la formula 2.5.1 sia soddisfatta, e scegliamo


due sottinsiemi A e B di IR: si ha
 X X X
P X ∈ A, Y ∈ B = p(xi , yj ) = pX (xi )pY (yj ) =
xi ∈A , yj ∈B xi ∈A yj ∈B

X  X   
= pX (xi ) pY (yj ) = P X ∈ A P Y ∈ B
xi ∈A yj ∈B

La nozione di indipendenza tra variabili aleatorie può essere formulata


in un altro modo, più opportuno per successive dimostrazioni, ma dobbiamo
premettere una definizione.

Definizione 2.5.8 (Probabilità prodotto). Siano P1 e P2 due probabilità


sui sottinsiemi di IR: si chiama probabilità prodotto (e si indica P1 ⊗ P2 ) la
probabilità definita sui sottinsiemi di IR2 tale che, se A, B sono sottinsiemi
di IR, si abbia   
P1 ⊗ P2 A × B = P1 A P2 B

Naturalmente nella definizione appena data non è necessario che le due


probabilità siano definite sui sottinsiemi di IR , ma si adatta senza modifiche
a due probabilità discrete definite su due generici insiemi E1 e E2 .
Nella definizione 2.5.8, occorre precisare quali sottinsiemi di IR2 si conside-
rano misurabili e come si costruisce effettivamente la probabilità prodotto (ci
occuperemo di questi problemi nei successivi capitoli), ma se P1 e P2 sono
probabilità discrete la costruzione è immediata. Più precisamente, se P1
(rispettivamente P2 ) è concentrata nei punti (x1 , x2 , . . .) (risp. (y1 , y2 , . . .))
con funzione di probabilità p1 (.) (risp. p2 (.)), la probabilità P1 ⊗ P2 è la
probabilità discreta concentrata nelle coppie di punti (xi , yj ) con funzione di
probabilità 
p(xi , yj ) = P1 ⊗ P2 {xi , yj } = p1 (xi ).p2 (yj )
La verifica di questo fatto è sostanzialmente identica alla dimostrazione della
proposizione 2.5.1, e una conseguenza immediata è la dimostrazione della
seguente proprietà

Proposizione 2.5.9. Due variabili aleatorie X1 , X2 sono indipendenti se e


solo se la legge di probabilità congiunta è il prodotto delle singole leggi, cioè
se si ha
PX1 ,X2 = PX1 ⊗ PX2
2.5. VARIABILI N-DIMENSIONALI 33

La proprietà precedente (che potrebbe equivalentemente essere assun-


ta come definizione di indipendenza) ammette una evidente estensione alla
definizione di indipendenza per n variabili aleatorie (X1 , . . . , Xn ).
Cominciamo ad osservare che la definizione 2.5.8 si estende senza difficoltà
al prodotto di 3 o più probabilità, purchè in numero finito: si constata inoltre
facilmente che il prodotto è associativo nel senso che, ad esempio,
 
P1 ⊗ P2 ⊗ P3 = P1 ⊗ P2 ⊗ P3 = P1 ⊗ P2 ⊗ P3

Di conseguenza si può dire, per definizione, che n v.a. X1 , . . . , Xn sono


indipendenti se la legge congiunta è il prodotto delle singole leggi, cioè se si
ha
PX1 ,...,Xn = PX1 ⊗ · · · ⊗ PXn
Osservazione 2.5.10. Vediamo come si può estendere la costruzione del-
l’osservazione 2.3.3 al caso n-dimensionale, cioè, assegnate n probabilità (di-
screte) P1 , . . . , Pn , come si possono costruire n v.a. indipendenti X1 , . . . , Xn
con legge rispettivamente P1 , . . . , Pn . Questa costruzione sarà molto usata
nei modelli statistici.
Supponiamo che tutte le probabilità siano concentrate sullo stesso sot-
tinsieme numerabile C ⊂ IR (ci si può sempre ridurre a questa situazio-
ne), poniamo Ω = C n (il prodotto cartesiano di C con sé stesso n volte)
e su di esso mettiamo la probabilità prodotto P1 ⊗ · · · ⊗ Pn ; sia poi Xi
la proiezione canonica di indice i , cioè Xi (x1 , . . . , xn ) = xi . È immediato
constatare che PXi = Xi (P) = Pi e che (poichè la legge del vettore aleato-
rio X = (X1 , . . . , Xn ) è il prodotto delle singole leggi) queste variabili sono
indipendenti.
Proposizione 2.5.11. Siano X, Y due v.a. indipendenti e f, g due funzioni
reali: le variabili f ◦ X e g ◦ Y sono indipendenti.
 
Dimostrazione. Dati due sottinsiemi A, B di IR, gli eventi f ◦ X ∈ A =
−1 −1
   
X ∈ f (A) e g ◦ Y ∈ B = Y ∈ g (B) sono evidentemente
indipendenti.
Il risultato della Proposizione 2.5.11 si estende al caso di più variabili in
questo modo: funzioni di variabili aleatorie indipendenti che non coinvolgano
la stessa variabile sono ancora indipendenti. Per capirci meglio, se (X, Y, Z)
sono indipendenti, anche f (X, Y ) e g(Z) sono indipendenti, ma non lo sono
f (X, Y ) e g(Y, Z).
La prova di questa affermazione è una conseguenza dell’eguaglianza

PX ⊗ PY ⊗ PZ = PX ⊗ PY ⊗ PZ
34 CAPITOLO 2. PROBABILITÀ DISCRETA

che si può leggere nel modo seguente: la coppia (X, Y ) è indipendente dalla
variabile Z. Le estensioni di queste affermazioni a più variabili sono evidenti.
È istruttivo dimostrare il seguente risultato:

Proposizione 2.5.12. Dati n eventi A1 , . . . , An , questi sono indipendenti
se e solo se le loro funzioni indicatrici IA1 , . . . , IAn sono indipendenti come
variabili aleatorie.
Definizione 2.5.13. Data una famiglia qualsiasi di variabili aleatorie (Xi )i∈I ,
queste si dicono indipendenti se ogni sottofamiglia finita Xi1 , . . . , Xin è
formata da variabili indipendenti.
Abbiamo visto (diseguaglianza di Schwartz) che il prodotto di due v.a.
di quadrato integrabile è integrabile, ma non è detto che il prodotto di due
variabili integrabili sia integrabile (cercare un controesempio!). Tuttavia con
le variabili indipendenti si ha il seguente risultato:
Teorema 2.5.14. Siano X, Y due variabili indipendenti dotate di momento
primo: anche XY ammette momento primo e vale la formula
     
E XY = E X E Y
Dimostrazione. Cominciamo a provare che XY è integrabile: si ha infatti
  X XX
E XY = |xi yj | p(xi , yj ) = |xi ||yj |pX (xi )pY (yj ) =
xi ,yj xi yj
X  X     
= |xi | pX (xi ) |yj | pY (yj ) = E |X| E |Y | < +∞
xi yj

A questo punto, essendo verificata la convergenza assoluta delle serie, si pos-


sono ripetere i passaggi sopra scritti senza i valori assoluti e si ottiene il
risultato cercato.
Una conseguenza evidente è il risultato seguente:
Corollario 2.5.15. Due variabili indipendenti dotate di momento secondo
sono incorrelate
Naturalmente non è vero il viceversa (provare a costruire un esempio).
Proposizione 2.5.16 (Formula della convoluzione discreta). Siano
X, Y due v.a. indipendenti a valori interi (relativi) e sia Z = X + Y :
vale la formula
+∞
X

pZ (n) = P Z = n = pX (h)pY (n − h)
h=−∞
2.6. LA FUNZIONE GENERATRICE DELLE PROBABILITÀ. 35

Dimostrazione. La dimostrazione è una conseguenza della relazione


+∞
[
 
X +Y =n = X = h, Y = n − h
h=−∞

e del fatto che gli insiemi scritti a destra sono a due a due disgiunti. Si noti
che se X, Y sono a valori interi positivi, la formula diventa (per n positivo)
n
X
pZ (n) = pX (h) pY (n − h)
h=0

Esercizio 2.5.17. Provare che, se X ∼ B(n, p), Y ∼ B(m, p) e sono indi-


pendenti, allora (X + Y ) ∼ B(n + m, p) (si noti che ci si può ridurre, per
induzione, al caso in cui una delle due variabili sia di Bernoulli). Dedurne,
per una variabile Binomiale X, le formule di E[X] e V ar(X).

2.6 La funzione generatrice delle Probabilità.


Premettiamo alcuni richiami sulle serie di potenze: data una successioni
P+∞ di
numeri (an )n≥0 , si chiama serie di potenze ad essa associata la serie n=0 an tn .
Il raggio di convergenza R verifica l’equazione
1
R = p
lim supn→∞ n
|an |
(con la convenzione 10 = +∞ e +∞ 1
= 0). La serie di potenze converge per
|t| < R e non converge per |t| > R ; inoltre se R > 0, posto ϕ(t) = +∞ n
P
n=0 an t ,
1 (n)
si ha an = n! ϕ (0) e di conseguenza due serie di potenze coincidono se e
solo se tutti i coefficienti (an )n≥0 sono eguali.
In questo paragrafo consideriamo solamente variabili aleatorie X, Y, . . . a
valori interi positivi.
Definizione 2.6.1. Data una variabile aleatoria X a valori interi positivi, si
chiama funzione generatrice delle probabilità la funzione GX (.) definita da
+∞
X
tn p(n) = E tX
 
GX (t) =
n=0

Si noti che la funzione generatrice è sicuramente definita per |t| ≤ 1


(infatti il raggio di convergenza è sicuramente maggiore o eguale a 1, e si
verifica direttamente che la serie converge per |t| = 1).
36 CAPITOLO 2. PROBABILITÀ DISCRETA

Proposizione 2.6.2. Valgono le seguenti proprietà:


1. GX (t) = GY (t) ⇐⇒ X e Y sono equidistribuite;
2. X e Y indipendenti =⇒ GX+Y (t) = GX (t).GY (t).
Dimostrazione. La prima proprietà è immediata. Per quanto riguarda la se-
con da, si noti che anche le variabili tX e tY sono indipendenti; si ha pertanto
(ricordando il Teorema 2.5.1)
GX+Y (t) = E t(X+Y ) = E tX tY = E tX E tY = GX (t).GY (t)
       

Il risultato seguente esprime una relazione tra i momenti di una v.a. e le


derivate della sua funzione generatrice:
Proposizione 2.6.3. Sia X una v.a. a valori interi positivi: valgono le
seguenti eguaglianze
1. E X = limt→1− G0X (t)
 

2. E X(X − 1) = limt→1− G00X (t)


 

Dimostrazione. Ricordiamo che ha senso scrivere E[X] ∈ [0, +∞] ; sia poi
0 < t < 1.
Vale l’eguaglianza G0X (t) = n−1
P
n≥1 p(n)n t . Facendo convergere t a
1 da sinistra, questa serie converge (per convergenza monotona:
P può essere
vista come conseguenza del Teorema di Beppo Levi) a n≥1 p(n) n = E[X].
La dimostrazione della seconda eguaglianza si fa sostanzialmente allo stesso
modo, osservando preventivamente che la v.a. X(X − 1) è ancora a valori
positivi.
Riportiamo qua sotto una tabella delle funzioni generatrici delle più usuali
variabili aleatorie a valori interi, che il lettore può facilmente verificare:
 n
• X ∼ B(n, p) =⇒ GX (t) = 1 + p(t − 1) ;
tp
• X Geometrica di parametro p =⇒ GX (t) = 1−t(1−p)
;

• X di Poisson di parametro λ =⇒ GX (t) = eλ(t−1) .


Esercizio 2.6.4. Calcolare valore atteso e varianza delle variabili sopra
scritte con un calcolo diretto e utilizzando il risultato della Proposizione
2.6.3.
Esercizio 2.6.5. Provare che la somma di due variabili di Poisson indipen-
denti è ancora una variabile di Poisson (specificando la relazione esistente tra
i parametri).
2.7. TEOREMI LIMITE 37

2.7 Legge dei Grandi Numeri e teorema limi-


te di De Moivre-Laplace.
In questa sezione ci occupiamo dei primi teoremi limite che riguardano una
successione di variabili di Bernoulli di parametro p (0 < p < 1): indichiamo
con X1 , Xn , . . . una successione di variabili indipendenti con tale distribu-
zione, e poniamo Sn = X1 + . . . + Xn , che sappiamo avere distribuzione
Binomiale B(n, p).
Teorema 2.7.1 (Legge dei grandi numeri per variabili Binomiali).
Con le notazioni sopra indicate, per ogni ε > 0, vale il seguente limite
n S o
n
lim P − p > ε = 0

n→∞ n
h i  
Dimostrazione. Un semplice calcolo prova che E Snn = p , V ar Snn = p(1−p)
n
e di conseguenza per la diseguaglianza di Chebishev 2.4.9
 
Sn
n S
n
o V ar n p(1 − p)
P − p > ε ≤ =

n ε 2 n ε2

Osservazione 2.7.2. La dimostrazione sopra riportata è molto semplice,


e si estende quasi senza modifiche a situazioni più generali: ad esempio si
può supporre che le variabili X1 , X2 , . . . siano indipendenti, equidistribuite,
dotate di momento
 secondo e con varianza σ 2 strettamente positiva: se si
pone E Xi = m, la stessa dimostrazione prova che
n S o
n
lim P − m > ε = 0

n→∞ n
Notiamo ancora che le ipotesi si possono indebolire ulteriormente: non è
necessario che siano indipendenti equidistribuite, è sufficiente che abbiano
tutte eguale valore atteso m ed eguale varianza, e che siano incorrelate. Il
risultato 2.7.1 è all’origine di diversi teoremi che vanno sotto il nome di leggi
dei grandi numeri, e che saranno affrontati in corsi più avanzati.

Una famiglia (non necessariamente una successione) Xi i∈I di variabili
aleatorie indipendenti ed equidistribuite verrà d’ora innanzi indicata con l’ab-
breviazione (largamente usata) i.i.d. (Independent Identically Distributed).
Diamo una definizione più precisa per il tipo di convergenza enunciato
nel teorema 2.7.1.
38 CAPITOLO 2. PROBABILITÀ DISCRETA

Definizione 2.7.3 (Convergenza in Probabilità). Data una successio-


ne di v.a. Xn n≥1 ed una v.a. X, si dice che la successione converge in
probabilità verso X se, per ogni ε > 0
n o
lim P Xn − X ≥ ε = 0

n→∞

Questo tipo di convergenza verrà ripreso in un capitolo successivo, ma un


esame più dettagliato sarà oggetto di un corso di Probabilità più avanzato.

Come abbiamo visto dalla dimostrazione, la velocità di convergenza a


zero della probabilità di deviazione (cioè della probabilità P Snn − p > ε )
nella legge dei grandi numeri (come è enunciata nell’ Osservazione 2.7.2) è
dell’ordine di n1 ; tuttavia nel caso delle Variabili Binomiali si può provare che
tale velocità di convergenza è esponenziale.

Teorema 2.7.4. Nelle ipotesi del Teorema 2.7.1, dato ε > 0, esiste una
costante positiva H(p, ε) tale che si abbia
n S o
n 
P − p > ε ≤ 2 exp − n H(p, ε)

n
 
Dimostrazione.
 Poniamo
 L(s) = E exp(s X1 ) = 1 − p + p es , e di conse-
guenza E exp(s Sn ) = L(s)n ; scegliamo poi a con p < a < 1.
Valgono le seguenti diseguaglianze:
nS o n  S  o
n n
P > a = P exp s −a >1 ≤
n n
h  S i s n −as
n 
E exp s −a =L e
n n
qualunque sia s positivo. Prendendo t = ns , e nell’ultimo termine della
precedente disequazione l’estremo inferiore sui valori possibili si ha
nS o h  i
n
P > a ≤ exp − n sup at − log L(t)
n t>0

La funzione t−→at − log 1 − p + pet è concava, diverge a − ∞ per
t → +∞, ed ha derivata in 0 strettamente positiva: ha pertanto un valore
massimo finito e strettamente positivo per 0 < t < +∞. Preso ε > 0 con
p + ε < 1 , e denotando h(p, ε) il massimo della funzione sopra indicata dove
si è posto a = p + ε, si ottiene
nS o  
n
P > p + ε ≤ exp − n h(p, ε)
n
2.7. TEOREMI LIMITE 39

Con passaggi analoghi, si ottiene


nS o  
n
P < p − ε ≤ exp − n h(p, −ε)
n
  Sn
Ponendo H(p, ε)
n = min h(p, ε), h(p, −ε) , poichè P − p > ε =
n
P Snn −p > ε + P Snn −p < −ε , si ottiene finalmente il risultato voluto.


Il teorema di De Moivre-Laplace che viene ora enunciato, è un caso par-


ticolare (limitato al caso delle variabili di Bernoulli) del Teorema del Limite
Centrale: versioni più generali di questo teorema saranno oggetto di corsi
più avanzati. Di nuovo X1 , X2 , . . . è una successione di variabili indipen-
denti di Bernoulli di parametro p con 0 < p < 1 , denotiamo q = 1 − p e
Sn = X1 + · · · + Xn .

Teorema 2.7.5 (Limite Centrale per Variabili Binomiali). Presi due


numeri a, b con −∞ ≤ a < b ≤ +∞, si ha
Z b
n Sn − np o 1 x2
lim P a ≤ √ ≤b = √ e− 2 dx
n→∞ npq 2π a

Prima di affrontare la dimostrazione (elementare ma piuttosto tecnica)


vediamo alcune conseguenze di questo risultato. Cominciamo ad osservare
x2
che la primitiva della funzione e− 2 non si può scrivere in termine di fun-
zioni elementari, e quindi l’integrale su un intervallo non si può calcolare
esattamente: si può però calcolare l’integrale su tutta la retta grazie a un
trucco geniale. L’idea brillante che segue è solitamente attribuita a Gauss,
in realtà è stata introdotta da Laplace proprio nella sua generalizzazione di
un precedente risultato di De Moivre, mentre Gauss ha estensivamente uti-
lizzato la funzione che segue nella teoria degli errori (vedremo qualche cenno
nell’ultimo capitolo).
2 2 2
+∞ − x2
R
− x +y
RR
Notiamo che vale l’eguaglianza −∞
e 2 dx = IR2 e 2 dx dy ;
passando a coordinate polari, questo integrale doppio diventa
R 2π R +∞ − ρ2
0
dθ 0 e 2 ρ dρ = 2π.
x2
Gli integrali della funzione e− 2 su un intervallo qualsiasi non possono
venire calcolati esplicitamente ma solo approssimati numericamente; per ve-
nire incontro a questa difficoltà sono state compilate delle tavole statistiche
Rx t2
della funzione Φ(x) = √12π −∞ e− 2 dt (per x positivo).
Vediamo ora un esempio di applicazione del teorema 2.7.5.
40 CAPITOLO 2. PROBABILITÀ DISCRETA

Esempio 2.7.6. Sia X ∼ B(400 ; 0,05) : vogliamo calcolare P X > 30 .
Il conto esplicito non è fattibile, tuttavia (essendo 400 grande) i conti che
X−20
riguardano la variabile √400×0,05×0,95 si possono approssimare con la formula
risultante dal teorema 2.7.5. Si ha pertanto
 n X − 20 30 − 20 o
P X > 30 = P √ >√ =
400 × 0,05 × 0, 95 400 × 0,05 × 0,95
n X − 20 o
1−P √ ≤ 2,29
400 × 0,05 × 0,95

Questo numero si può approssimare con 1 − Φ(2,29) = 1 − 0,989 = 0,011.

Prima di affrontare la dimostrazione del Teorema 2.7.5, stabiliamo alcuni


risultati.

Lemma 2.7.7 (Formula di Stirling). Esiste una costante positiva c tale


che per ogni intero n si abbia
n n √ 1
n! = c n exp(θn ) = c nn+ 2 e−n exp(θn )
e
1 1
dove 12n+1
≤ θn ≤ 12n

La dimostrazione di questo come del successivo lemma, entrambe elemen-


tari ma piuttosto tecniche, saranno riportate in Appendice.
−np
Con le notazioni del Teorema 2.7.5, chiamiamo Zn = S√nnpq e sia In l’in-
sieme dei valori della variabile Zn : notiamo che In è formato da (n + 1) punti
1
che distano √npq uno dall’altro, e che il minimo ed il massimo di questi punti
convergono (quando n → +∞) rispettivamente a −∞ ed a +∞.

Lemma 2.7.8. Presi −∞ < a < b < +∞, il numero


√  x2 
max c npq P Zn = x − exp −

2

x∈In ∩[a,b]

(dove c è la stessa costante della formula di Stirling), converge a 0 se n tende


a +∞.
2
Tenendo conto del fatto che il minimo della funzione exp − x2 sull’inter-
vallo [a, b ] è strettamente positivo, si può riscrivere l’enunciato del lemma
2.7.8 nella forma seguente, che sarà più comoda per la successiva dimostra-
zione:
2.7. TEOREMI LIMITE 41

Fissati −∞ < a < b < +∞ e dato ε > 0, esiste n̄ = n̄(ε, a, b) tale che,
per n ≥ n̄ ed x ∈ In ∩ [a, b ] si abbia:

 c−1 x2  
P Zn = x = √ exp − 1 + α(x) con α(x) < ε.
npq 2

Siamo ora in grado di affrontare la dimostrazione del Teorema 2.7.5.

Dimostrazione. Fissiamo −∞ < a < b < +∞ (il caso a = −∞ oppure


b = +∞ si riporta a questo con piccole modifiche) e, dato ε > 0, scegliamo
n̄ = n̄(ε, a, b) come sopra. Si ha:

 X  c−1 X x2  
P a ≤ Zn ≤ b = P Zn = x = √ exp − 1+α(x)
npq 2
x∈In ∩[a,b] x∈In ∩[a,b]

La somma
c−1 X x2 
√ exp −
npq 2
x∈In ∩[a,b]

Rb 2
è un’approssimazione dell’integrale (di Riemann) c−1 a
exp − x2 dx e per-
Rb x2
tanto converge (per n → ∞) proprio a c−1 a exp − 2
dx.
Viceversa la somma

c−1 X x2 
√ exp − |α(x)|
npq 2
x∈In ∩[a,b]

è, per n ≥ n̄, inferiore a Kε , con K costante positiva indipendente da n, e


pertanto converge a 0. √
L’ultimo passo è provare che c = 2π. Partiamo dall’osservazione che
ogni variabile Zn ha valore atteso 0 e varianza 1 : di conseguenza, per la
diseguaglianza di Chebishev,
n o  o 1
P − a ≤ Zn ≤ a = 1 − P Zn > a ≥ 1 − 2
a
è arbitrariamente
Ra vicino a 1 per a sufficientemente grande, e al limite, anche
2
c−1 −a exp − x2 ) dx è arbitrariamente vicino a 1.
R +∞ 2 √
Ricordando che −∞ exp − x2 ) dx = 2π, si ottiene l’eguaglianza cer-
cata.
42 CAPITOLO 2. PROBABILITÀ DISCRETA

Osservazione 2.7.9. Il Teorema 2.7.5 mostra quale è la velocità di conver-


genza di Snn a p : dall’eguaglianza
√ 
Sn − np n Sn 
√ = √ −p
npq pq n

segue che tale velocità è dell’ordine di √1n .


Questa velocità, purtroppo piuttosto lenta, è la tipica velocità di conver-
genza dei teoremi limite della Statistica.

2.8 Appendice
2.8.1 Alcune dimostrazioni
Quella che segue è la dimostrazione della Formula di Stirling (Lemma 2.7.7)
Dimostrazione. Partendo dalla diseguaglianza
Z k Z k+1
log(x) dx < log(k) < log(x) dx
k−1 k

si ottiene, per ogni intero n strettamente positivo,


Z n Z n+1
log(x) dx < log(n!) < log(x) dx
0 1

e, calcolando gli integrali,

n log(n) − n < log(n!) < (n + 1) log(n + 1) − n

Consideriamo allora la differenza dn = log(n!) − (n + 21 ) log(n) + n: notiamo


che dn − dn+1 = (n + 21 ) log n+1
n
− 1 ; inoltre
1
n+1 1+ 2n+1
= 1
n 1− 2n+1

Ricordiamo ancora che vale lo sviluppo in serie (convergente per |t| < 1):
1 1 + t t3 t5
log = t + + + ···
2 1−t 3 5
Si ottiene pertanto
1 1
dn − dn+1 = 2
+ + ···
3(2n + 1) 5(2n + 1)4
2.8. APPENDICE 43

Da quest’ultima eguaglianza (ricordando anche la somma di una serie di


potenze) si ottiene:
1 1 1 1
2
< dn − dn+1 < 2
= −
3(2n + 1) 3 (2n + 1) − 1 12n 12(n + 1)
Un conto facile ma laborioso prova che
1 1 1
− <
12(n + 1) 12(n + 1) + 1 3(2n + 1)2
e da qui si ottengono le diseguaglianze:
1 1 1 1
dn − < dn+1 − < dn+1 − < dn −
12n 12(n + 1) 12(n + 1) + 1 12n + 1
1 1
 
Quindi la successione dn − 12n n≥1
è crescente (rispettivamente d n − 12n+1 n≥1
è decrescente), e ponendo c0 = limn dn si ottiene
1 1
c0 + < dn < c0 +
12n + 1 12n
e, chiamato c = exp(c0 ), si hanno finalmente le diseguaglianze:
1 1  1 1 
c nn+ 2 exp − n + < n! < c nn+ 2 exp − n +
12n + 1 12n

Segue la dimostrazione del Lemma 2.7.8


 
Dimostrazione. Sia x ∈ In ∩ [a, b ] : P Zn = x = P Sn = k , essendo
√ √
k = np + x npq. Poniamo poi j = n − k = nq − x npq.
Ricordando che Sn ∼ B(n, p) ed utilizzando la formula di Stirling, si
ottiene
√ √
r  k  j
 n np nq 
c npq P Zn = x = npq exp θn − θj − θk
kj k j
Si osserva facilmente che, poichè a ≤ x ≤ b , j e k convergono a +∞
(uniformemente
rispetto a x ∈ In ) quando n tende a +∞ ; quindi ( poiché
θn −θj −θk ≤ 1 + 1 + 1 ) il termine exp θn−θj−θk converge uniformemente
2n 2j 2k
a 1.
Anche il termine
s
√ n2 pq
r
n
npq = √  √ 
kj np + x npq nq − x npq
44 CAPITOLO 2. PROBABILITÀ DISCRETA

converge a 1, uniformemente rispetto a x ∈ In .


Proviamo ora che
 np k √ x2 q 
log + x npq +
k 2
converge uniformemente a 0 ; allo stesso modo si prova che
 nq j √ x2 p 
log − x npq +
j 2
converge uniformemente a 0, e questo completa la dimostrazione.
Esaminiamo dunque il termine

np  √   x npq 
k log = np + x npq log 1 − √ ;
k np + x npq
t2
utilizzando lo sviluppo di Taylor log(1 + t) = t − 2
+ o(t3 ) , si ottiene che
questo termine è eguale a
√ x2 npq √ 3
−x npq − √  + np + x npq) o n− 2 )
2 np + x npq

e questo è proprio il risultato cercato.

2.8.2 Alcuni esercizi significativi


Esercizio 2.8.1 (Sul gioco del lotto). Quando viene puntata una somma
sul realizzarsi di un evento di probabilità p, se il gioco è equo nel caso che
questo evento si realizzi la somma dovrebbe essere restituita moltiplicata per
p−1 ; in particolare nel gioco del lotto se si punta su un numero secco la
probabilità che questo venga estratto è
89

4 1
90 =

5
18

e quindi il moltiplicatore teorico dovrebbe essere 18: invece il moltiplicatore


effettivamente praticato è 11,2.
Ancora più vistose sono le discrepanze se si considerano ambi, terne, qua-
terne ecc.. Qui bisogna distinguere tra ambi ottenuti puntando due numeri
oppure un insieme di numeri maggiore di due (per ogni estrazione, è possi-
bile puntare fino a 10 numeri): limitiamoci per semplicità al caso di ambo
ottenuto puntando due numeri, terna ottenuta puntando tre numeri, ecc..
2.8. APPENDICE 45

Per l’ambo il moltiplicatore teorico equo è 400,5 e quello effettivamente


praticato 250, per la terna il valore teorico 11.748 e quello praticato 4.500;
per la quaterna rispettivamente 511.038 e 120.000 e infine per la cinquina
43.949.268 e 6.000.000.
Tra l’altro sulla somma eventualmente vinta viene praticato un prelievo
fiscale forfettario del 6 %: ne segue che ogni persona che abbia un minimo di
conoscenza di calcolo delle probabilità non dovrebbe assolutamente giocare
al lotto.
Tuttavia alcune persone ritengono di poter aggirare la situazione eviden-
temente sfavorevole con sistemi di puntate che consentano di vincere a colpo
sicuro, ma vediamo che cosa succede: supponiamo per semplicità che il mol-
tiplicatore effettuato puntando su un numero secco sia 11 e consideriamo
il caso di una persona che voglia assolutamente vincere 100 Euro al lotto,
puntando su un numero (poniamo il 53 sulla ruota di Venezia).
La prima volta punterà 10 Euro: se vince ne incassa 110 di cui 10 risarci-
scono la somma puntata e 100 sono la vittoria netta (nel caso in cui il numero
venga estratto). Se il numero non viene estratto, ne punta 11 all’estrazione
successiva: dei 110 Euro di guadagno netto, 10 risarciscono i soldi spesi nella
prima puntata e 100 costituiscono il guadagno effettivo, e cosı̀ di seguito.
Il ragionamento alla base di questo sistema è evidente: prima o poi il
numero 53 uscirà ed a quel momento si avrà la vittoria netta di 100 Euro.
Tuttavia il giocatore ha pur sempre un capitale limitato e potrebbe andare
in bancarotta prima di aver ottenuto la vincita che desiderava.
1) Determinare quale deve essere, al passo n-mo, il valore s(n) della pun-
tata da effettuare per poter avere una vittoria netta di 100 Euro (recuperando
le somme spese nelle puntate precedenti).
2) Supponiamo che il giocatore abbia un capitale iniziale di 200 Euro:
qual è la probabilità che il giocatore debba fermarsi per insufficienza di fondi
senza aver ottenuto la sua vittoria?
3) Supponiamo che il giocatore non abbia limitazioni di fondi, e indichia-
mo con X la variabile aleatoria che indica quale somma in totale il giocatore
ha dovuto impiegare fino al momento nel quale riesce a vincere: qual è il
valore atteso E[X] ?

Esercizio 2.8.2 (I polinomi di Bernstein). Consideriamo, per 0 ≤ x ≤ 1


una v.a. Xnx binomiale di parametri n ed x; sia poi f una funzione continua
definita sull’intervallo [0, 1] e definiamo

h  X x i
n
Bn (x) = E f
n
46 CAPITOLO 2. PROBABILITÀ DISCRETA

Provare che, per ogni n, Bn (x) è un polinomio di grado n, (chiamato


polinomio di Bernstein) e che la successione (Bn )n≥1 converge uniformemente
alla funzione f .
Questo procedimento probabilistico fornisce (limitatamente al caso degli
intervalli di IR) una dimostrazione alternativa di un importante teorema di
Weierstrass.

Esercizio 2.8.3 (Il paradosso di Borel). Ogni evento, per quanto la sua
probabilità sia piccola, prima o poi si realizza (verificare questa affermazione
utilizzando la variabile Geometrica) e quindi, come si usa dire con linguaggio
colorito, la scimmia che batte a caso sui tasti di una macchina da scrivere
prima o poi scrive la Divina Commedia: questa affermazione va sotto il nome
di paradosso di Borel, anche se in realtà non è affatto paradossale. Tuttavia
il tempo necessario per ottenere questo può essere talmente lungo da rendere
di fatto impossibile l’evento.
Esaminiamo una versione semplificata: una scimmia di nome Lucilla bat-
te a caso 7 caratteri sui tasti di una macchina da scrivere che ha solo 26 tasti
(corrispondenti alle lettere), al ritmo di un carattere al secondo. Qual è il
valore atteso del tempo necessario per riuscire a scrivere il suo nome? (In
realtà bisognerebbe esaminare una situazione un poco più generale, cioè che
dopo aver battuto a caso un certo numero di caratteri -non necessariamen-
te multiplo di 7- vengano scritte nell’ordine giusto le lettere lucilla; questa
situazione è un poco più complicata da esaminare e ci accontentiamo della
versione semplificata).
Una curiosità divertente: per riuscire a scrivere, battendo a caso sui tasti,
il solo primo versetto della Divina Commedia, il valore atteso del tempo
necessario è di miliardi di volte superiore all’età dell’Universo!

2.9 Esercizi
Esercizio 2.9.1. Consideriamo la misura m definita sull’insieme dei naturali
strettamente positivi tale che m(k) = k −1 e consideriamo, per ogni n, la
funzione fn definita da:
 1
k − n se k ≥ n
fn (k) =
0 se k < n
1) Le funzioni fn sono integrabili rispetto a m ?
2) Convergono ad un limite f , e questo limite è integrabile?
3) Si può passare al limite sotto il segno d’integrale?
2.9. ESERCIZI 47

Esercizio 2.9.2. Da una moneta truccata se ne può ottenere una equilibrata


nel modo seguente. Si lancia due volte, se esce TC si decide che è uscita
“testa”, se esce CT si decide per “croce” e se i due risultati sono eguali si
riprova altre due volte e di seguito fino ad ottenere due risultati diversi.
a) Provare che la “moneta” ottenuta in questo modo è effettivamente
equilibrata.
b) Quanti lanci in media è necessario effettuare per arrivare al risultato?

Esercizio 2.9.3. Provare che, se Xn è una variabile Binomiale di parametri


n e nλ ed X una variabile di Poisson di parametro λ, per ogni intero positivo
k si ha
 
lim P Xn = k = P X = k
n→∞

Esercizio 2.9.4. Siano X e Y due variabili aleatorie geometriche di para-


metro p, indipendenti: calcolare P(X = Y ) e P(X < Y ).

Esercizio 2.9.5. Siano X e Y due variabili di Poisson di parametri rispet-


tivamente λ e µ, indipendenti.
a) Determinare la distribuzione di probabilità di S = X + Y .
b) Determinare la distribuzione condizionata di X sapendo che S = n.

Esercizio 2.9.6. Siano X ed Y due variabili indipendenti, equidistribuite,


che prendono i valori 1 e -1 con probabilità p e 1 − p (0 < p < 1) , sia poi
U = XY .
Provare che X e U sono indipendenti se e solo se p = 21 .

Esercizio 2.9.7. Il numero di clienti che si presentano in un giorno in un


grande magazzino è rappresentato da una v.a. X con distribuzione di Poisson
di parametro λ; inoltre ogni cliente, indipendentemente dagli altri, ha pro-
babilità p di essere derubato. Indichiamo con Y la v.a. che indica il numero
di clienti che sono stati derubati.
1) Calcolare la distribuzione di probabilità della v.a. Y (Suggerimento:
osservare che {Y = n} = ∪+∞ k=n {Y = n , X = k})
2) Calcolare la distribuzione di probabilità della v.a. Z = X − Y (numero
di clienti non derubati).
3) Le v.a. X e Y sono indipendenti? Le v.a. Y e Z sono indipendenti?

Esercizio 2.9.8. Tra tutte le variabili aleatorie discrete che prendono solo i
valori 1, 2 e 3 e che hanno valore atteso E[X] = 2, trovare quelle che hanno
varianza rispettivamente massima e minima.
48 CAPITOLO 2. PROBABILITÀ DISCRETA

Esercizio 2.9.9 (La variabile multinomiale). Consideriamo un esperi-


mento che ha k possibili esiti, ciascuno con probablità pi (pi > 0 , p1 + · · · +
pk = 1): di esso si fanno n prove in condizioni di indipendenza ed indichiamo,
per ogni i, con X i la variabile che indica quante volte si è realizzato l’esito i.
Si chiama variabile multinomiale (di parametri (n; p1 , . . . , pk )) la variabile
vettoriale X = (X 1 , . . . , X k ).
Determinare la distribuzione di probabilità della variabile X e specificare
se le componenti X i sono indipendenti.
Notiamo che, se X è binomiale di parametri (n, p), la coppia (X,n-X) è
multinomiale di parametri (n; p, 1 − p).
Capitolo 3

Inferenza statistica su uno


spazio di Probabilità
numerabile

3.1 Due parole sulla statistica descrittiva


Si parla di statistica descrittiva quando vengono analizzati i dati di una
indagine statistica senza l’interpretazione di un modello probabilistico.
Possiamo rappresentare un’indagine
statistica come una applicazione X
da un insieme finito 1, 2, . . . , n su un insieme C . Se C è un insieme
di cardinalità piccola si parla di indagine su un carattere qualitativo (ad
esempio un sondaggio sull’orientamento politico), mentre se C = IR (o più
generalmente IRd ) si parla di indagine su un carattere quantitativo (o su più
caratteri quantitativi).
Limitiamoci all’indagine su un  carattere quantitativo: l’indagine X cor-
risponde a una n-pla di numeri x1 , . . . , xn .
Assegnati questi numeri si chiama media empirica la quantità
n
x1 + · · · + xn X (xi − x)2
x= e varianza empirica la quantità : si può
n i=1
n
osservare che questi possono essere interpretati come la speranza ed la varian-
za di una v.a. X che prende i valori x1 , . . . , xn con distribuzione uniforme
(cioè ciascuno con probabilità 1/n ).
Se invece abbiamo un’indagine su due caratteri quantitativi (X , Y) si
chiama covarianza empirica la quantità
n
X (xi − x)(yi − y)
i=1
n

49
50 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

ed in modo analogo si può definire il coefficiente di correlazione empirico, la


retta di regressione, ecc...
Non insistiamo ulteriormente su queste definizioni perché siamo interes-
sati all’inferenza statistica: si parla di inferenza statistica quando si usano
i risultati di una indagine statistica per ricostruire un modello probabilistico
che descriva opportunamente il fenomeno osservato.

3.2 Modelli statistici


Introduciamo le idee fondamentali dell’Inferenza Statistica con un esempio,
che d’ora innanzi chiameremo Controllo di qualità: è probabilmente il
più semplice che si possa immaginare, ma sufficiente per presentare le idee
fondamentali.
Vogliamo controllare la percentuale sconosciuta di pezzi difettosi in un
insieme (ad esempio un grosso acquisto di certi componenti elettronici dall’es-
tero), insieme che in statistica è usualmente denominato popolazione: per fare
questo (non potendo verificare tutti i pezzi, per mancanza di tempo o altri
motivi) estraiamo un campione di n pezzi che vengono verificati. I risultati
di questa verifica saranno n variabili aleatorie X1 , . . . , Xn indipendenti, con
legge di Bernoulli di parametro θ , 0 < θ < 1 (la variabile Xi prende il valore
1 se l’i-esimo pezzo risulta difettoso, altrimenti prende il valore 0): possiamo
formalizzare la situazione in questo modo.
Consideriamo sullo spazio Ω= {0, 1}n (munito  della σ-algebra di tutte le
parti) la famiglia di probabilità Pθ , θ ∈ (0, 1) , definite da Pθ (k1 , . . . , kn ) =
n−(k1 +···+kn )
θk1 +···+kn 1 − θ ; definiamo poi Xi (k1 , . . . , kn ) = ki (cioè Xi è la
proiezione coordinata di indice i). È immediato verificare che, se si conside-
ra su Ω la probabilità Pθ , (più avanti diremo sbrigativamente sotto Pθ ) le
variabili Xi risultano indipendenti, con legge di Bernoulli di parametro θ.
Possiamo cominciare a dare qualche definizione:

Definizione
 3.2.1 (Modello
 statistico). Si chiama modello statistico una

terna Ω, F, Pθ , θ ∈ Θ dove Ω è un insieme, F una σ-algebra di parti di

Ω e, per ogni θ ∈ Θ , Pθ è una probabilità su Ω, F .

Supporremo sempre che a due parametri diversi θ1 e θ2 corrispondano


due probabilità diverse (come si usa dire, il modello è identificabile).
In un modello statistico si chiama trascurabile un evento A ∈ F trascu-
rabile per ogni probabilità Pθ .
3.2. MODELLI STATISTICI 51

La definizione 3.2.1 è generale, ma in questo capitolo supponiamo che


lo spazio Ω sia numerabile (e, se non ci sono ragioni per fare diversamente,
diamo per sottinteso che F è la σ-algebra di tutte le parti di Ω).

Definizione 3.2.2(Verosimiglianza). Assegnato un modello statistico


 
Ω, F, Pθ , θ ∈ Θ con Ω numerabile, si chiama verosimiglianza la funzione
L : Θ × Ω → IR+ definita da

L(θ, ω) = Pθ {ω}


Naturalmente la verosimiglianza
 P identifica la probabilità, poiché per ogni
θ
evento A vale la formula
P P A = ωi ∈A L(θ, ωi ); la funzione L deve verifi-
care la condizione ωi ∈Ω L(θ, ωi ) = 1. La notazione L(. , .) deriva dall’inglese
Likelihood e, nel caso discreto, in realtà L è a valori in [0, 1]; tuttavia nei casi
che esamineremo più avanti sarà generalmente a valori in IR+ .
Scopo dell’inferenza statistica è partire dall’esperienza (l’osservazione del
campione) per risalire a informazioni sulla legge di probabilità che meglio si
adatta a descrivere il modello, e per ottenere questo i metodi dell’inferenza
statistica sono essenzialmente tre:

• la stima statistica

• gli intervalli di fiducia

• i test statistici

Le definizioni precise verranno date nei prossimi paragrafi; cerchiamo ora


di introdurre questi concetti a livello intuitivo, sempre riferendoci all’esempio
del controllo di qualità. Indichiamo con X(ω) = X1 (ω)+···+X n
n (ω)
la media
aritmetica (o meglio media empirica) delle variabili Xi (percentuale di pezzi
difettosi riscontrati nell’indagine statistica), ed è importante ribadire che si
tratta di una variabile aleatoria, cioè il risultato di questa indagine statistica
dipende dal caso.
Non avendo per il momento risultati teorici più precisi, sembra opportuno
considerare proprio X(ω) come stima del parametro θ.
Quanto all’intervallo di fiducia, appare evidente che una maggiore am-
piezza del campione permettere di rafforzare l’affidabilità dell’informazione:
per spiegarci meglio, 2 pezzi difettosi su 10 oppure 200 su 1000 portano alla
stessa stima (in entrambi i casi θ viene stimato 0,2), ma è evidente che il
secondo risultato è molto più rassicurante. Come si può misurare questa
sicurezza?
52 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

È interessante osservare che nella vita pratica si incontrano più volte gli
intervalli di fiducia, senza rendersene conto, ad esempio quando vengono tra-
smesse le proiezioni sui risultati delle elezioni. Le prime proiezioni danno per
il partito x una percentuale t con un’oscillazione ad esempio di 2 punti per-
centuali (in più o in meno), dopo due ore la percentuale è cambiata (magari
di poco) ma l’oscillazione è stata ridotta a 0,5 punti, e cosı̀ via . . .
Effettuare un test statistico significa invece formulare un’ipotesi e piani-
ficare un’esperienza per decidere se accettare o rifiutare l’ipotesi: ad esempio
nel caso del controllo di qualità l’ipotesi potrebbe essere “la ditta fornitrice
garantisce che la percentuale di pezzi difettosi non supera il 5%”(cioè θ ≤
0, 05). È evidente che l’ipotesi viene accettata se si osserva X(ω) = 0, 036 e
rifiutata se X(ω) = 0, 09, ma che fare se X(ω) = 0, 049 oppure 0,052 ?
A tutti questi problemi verrà data risposta nei paragrafi successivi.

Diamo ora una nuova definizione:



Definizione 3.2.3 (Campione). Sia mθ , θ ∈ Θ una famiglia parame-
trizzata di leggi di probabilità discrete tutte concentrate su un sottoinsieme
numerabile C di IR: si chiama campione di taglia n e legge mθ una famiglia
(X1 , . . . , Xn ) di n variabili aleatorie indipendenti ciascuna con legge mθ .
Notiamo che questa definizione è una generalizzazione dell’esempio del
controllo di qualità: in questo caso (X1 , . . . , Xn ) è un campione di legge di
Bernoulli di parametro θ , 0 < θ < 1.
Nella maggior parte dei casi C sarà ad esempio l’insieme degli interi po-
sitivi o strettamente positivi, oppure interi relativi . . .
Il modo canonico per rappresentare come modello statistico un campione
di legge mθ , θ ∈ Θ è il seguente: sia C l’insieme su cui sono concentrate 
le probabilità mθ , e poniamo (per θ ∈ Θ e xi ∈ C), p(θ, xi ) = mθ {xi } .
Poniamo poi Ω = C n , F = P(Ω) e scegliamo come verosimiglianza
L(θ ; x1 , . . . , xn ) = p(θ, x1 ) · · · p(θ, xn )
(ricordiamo che assegnare una verosimiglianza equivale ad assegnare le pro-
babilità (Pθ , θ ∈ Θ)). Consideriamo come Xi la proiezione canonica di
indice i da Ω su C: come abbiamo visto nel capitolo precedente, le variabili
X1 , . . . , Xn sono effettivamente indipendenti e ciascuna con legge mθ (se si
considera su Ω la probabilità Pθ ).

3.3 Teoria della Stima


Definizione
 3.3.1 (Stima). Assegnato un modello statistico Ω, F, (Pθ , θ ∈
Θ) , si chiama stima una variabile aleatoria U : Ω → IR.
3.3. TEORIA DELLA STIMA 53

In genere una stima è accoppiata ad una funzione g : Θ → IR e lo scopo


di U è appunto valutare g(θ). Non si stima necessariamente direttamente θ
per due motivi: non è detto che θ sia un numero e in ogni caso talvolta è più
agevole stimare una funzione del parametro.

Definizione 3.3.2 (Stima corretta). Assegnata una funzione g : Θ → IR,


θ
la stima
  U di g(θ) è detta corretta se, per ogni θ, U è P -integrabile e si ha
θ
E U = g(θ).

Il termine anglosassone per stima corretta è unbiased, talvolta tradotto


non distorta.

Esempio 3.3.3. In un campione di taglia n e legge Geometrica di parametro


θ (0 < θ < 1), X = X1 +···+X
n
n
è una stima corretta di θ−1 .

La definizione che viene ora presentata offre un criterio asintotico di bontà


di una stima.

Definizione 3.3.4 (Stima consistente). Sia mθ , θ ∈ Θ una famiglia di
leggi di probabilità discrete su IR e consideriamo, per ogni n, un campione
X1 , . . . , Xn di legge mθ ; sia poi Un = hn (X1 , . . . , Xn ) una stima di g(θ) basata
sulle osservazioni del campione n-simo. Si dice che la successione di stime
Un n≥1 è consistente se, scelti comunque θ ∈ Θ ed ε > 0, si ha

lim Pθ Un − g(θ) > ε = 0

n→∞

Commentiamo la definizione appena data: la successione di stime è consi-


stente se, qualunque sia la probabilità Pθ , Un converge in probabilità a g(θ).
La difficoltà che si pone però è poter costruire un modello statistico che con-
tenga un campione infinito, cioè una estensione a una successione di variabili
aleatorie della costruzione esposta alla fine della sezione precedente. Que-
sto si può effettivamente fare, ma richiede risultati di teoria della misura più
avanzati di quelli esposti in questo corso: con gli strumenti
 di cui disponiamo, 
però, si può costruire per ogni n un modello statistico Ωn , Fn , Pθn , θ ∈ Θ
relativo al campione di taglia n. La definizione dovrebbe allora essere data
nel modo seguente: scelti comunque θ ∈ Θ ed ε > 0, si ha

lim Pθn Un − g(θ) > ε = 0

n→∞

Il metodo più usuale per identificare stime consistenti consiste nell’utiliz-


zare la legge dei grandi numeri, come si può verificare facilmente nell’esempio
seguente:
54 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Esempio 3.3.5. In un campione infinito di leggi di Poisson di parametro


θ , (0 < θ < ∞), la successione delle medie empiriche X n = X1 +···+X
n
n
è una
stima consistente di θ.
Diamo un’altra definizione:
Definizione 3.3.6 (Stima di massima verosimiglianza). Sia assegnato
un modello statistico Ω, F, (Pθ , θ ∈ Θ) tale che Θ ⊂ IR : si dice che U è
una stima di massima verosimiglianza del parametro θ se, per ogni ω ∈ Ω, si
ha  
L U (ω), ω = sup L θ, ω
θ∈Θ

Di conseguenza il “sup” sopra scritto è in realtà un massimo. In verità


non è necessario che l’eguaglianza sopra scritta sia verificata esattamente per
ogni ω ∈ Ω , ma è sufficiente che sia soddisfatta al di fuori di un insieme
trascurabile (si usa dire “per quasi ogni ω ∈ Ω ”).
Usualmente la stima di massima verosimiglianza, se esiste, viene indicata
θ(ω). Le stime di massima verosimiglianza sono facili da trovare, inoltre
b
questo fornisce un criterio costruttivo per trovare una stima; viceversa è più
difficile spiegare se e in quale senso una tale stima è una buona stima.
In un caso particolare si ha però il risultato seguente, che viene enunciato
limitatamente al caso di variabili aleatorie a valori interi positivi.

Teorema 3.3.7. Sia mθ , θ ∈ Θ una famiglia di leggi di probabilità con-
centrate sugli interi positivi, e supponiamo che Θ sia un intervallo di IR e
che, ponendo p(θ, k) = mθ ({k}), questa si possa scrivere nella forma

p(θ, k) = c(θ) exp θ T (k) g(k)

dove T : IN → IR. Consideriamo un campione infinito X1 , X2 , . . . di legge


mθ e supponiamo che esista, per ogni n, la stima di massima verosimiglianza

θbn relativa al campione di taglia n: allora la successione di stime θbn n≥1 è
consistente.
I modelli nei quali la funzione di probabilità ha la forma data dal Teo-
rema 3.3.7 sono detti modelli esponenziali e verranno ripresi nel successivo
Capitolo 5. A volte (come
 si vedrà anche negli esempi successivi) anziché l’e-
spressione exp θ T (k) compare un’espressione della forma exp d(θ) T (k)
dove l’applicazione θ → d(θ) è iniettiva: è sufficiente naturalmente consi-
derare come nuovo parametro θ̃ = d(θ) per riportarsi alla situazione sopra
enunciata.
Non riportiamo la dimostrazione del Teorema 3.3.7 , che è del tutto simile
a quella dell’analogo risultato per modelli con densità che verrà esposta più
3.4. STIME E RIASSUNTI ESAUSTIVI 55

avanti (per essere più precisi, entrambe le dimostrazioni sono riduzioni a casi
particolari di un risultato più generale che in questo primo corso non abbiamo
gli strumenti per dimostrare).
Limitiamoci ad osservare che la condizione del Teorema 3.3.7 è soddi-
sfatta in molti esempi: nel caso delle leggi  di Poisson si ha ad esempio
p(θ, k) = e−θ θk (k!)−1 = e−θ exp k log(θ) (k!)−1 (è sufficiente considerare
come parametro log(θ) anziché θ). 
Nel caso delle leggi geometriche si ha p(θ, k) = θ exp (k − 1) log(1 − θ) .
Esempio 3.3.8. Consideriamo il caso di un campione (X1 , . . . , Xn ) di taglia
n e legge Geometrica di parametro θ: sullo spazio Ω = (IN∗ )n la verosimi-
glianza è data da
 k +···+kn −n n
L θ ; k1 , . . . , kn = 1 − θ 1 θ

Un facile calcolo prova che il massimo di questa funzione (al variare di θ) si


n
ottiene nel punto k1 +...+k n
, e questo identifica la stima di massima verosimi-
glianza. Ricordando che X1 , . . . , Xn sono le proiezioni coordinate, possiamo
scrivere  n
θbn k1 , . . . , kn =
k1 + · · · + kn
oppure, indifferentemente,
n
θbn =
X1 + · · · + X n
n
mentre non è corretto scrivere θbn = k1 +···+kn
(in quest’ultimo caso, infatti,
avrei a sinistra una variabile aleatoria, cioè una funzione, ed a destra un
numero).
Considerando un campione infinito, il Teorema 3.3.7 afferma che la suc-
cessione di stime θbn n≥1 è consistente.

3.4 Stime e riassunti esaustivi


Definizione 3.4.1 (Rischio). Sia U una stima della funzione g(θ): si chiama
Rischio (quadratico) il numero
2 
R θ, U = Eθ U − g(θ)
 

Notiamo che ha senso parlare di rischio anche se, per qualche θ, U non ha
momento secondo: in tal caso il rischio è eguale a +∞. Tuttavia, nel seguito
di questo paragrafo, supponiamo tacitamente che tutte le stime considerate
abbiano momento secondo qualunque sia la probabilità Pθ .
56 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
 
Osserviamo ancora che, se U è corretta, R θ, U = V arθ U .
La definizione di rischio introduce un criterio di ordinamento parziale tra
le stime, più precisamente diremo che

• U è preferibile a V se, per ogni θ, R(θ, U ) ≤ R(θ, V );

• U è strettamente preferibile a V se è preferibile e, per almeno un


parametro θ, R(θ, U ) < R(θ, V );

• U è ammissibile se non esistono stime strettamente preferibili a U ;

• U è ottimale se è preferibile a ogni altra stima.

Naturalmente due stime non sono necessariamente confrontabili.


La nozione di rischio è strettamente legata alla nozione di riassunto esau-
stivo; prima di definire quest’ultima torniamo all’esempio del controllo di
qualità. Negli esempi che abbiamo visto, non avevano importanza i singoli
risultati delle varie prove, ma solo il numero totale di pezzi difettosi: trat-
tenere questo unico dato costituisce evidentemente un notevole risparmio di
informazione.
La definizione che segue ha proprio lo scopo di formalizzare questa idea
di risparmio di informazione.

Definizione 3.4.2 (Riassunto esaustivo). Sia T : Ω → E una varia-


bile aleatoria: si dice che T è un riassunto esaustivo se si può scrivere la
verosimiglianza nella forma

L θ, ω = h(θ, T (ω)) k(ω)

Quasi sempre T è a valori reali o più generalmente in uno spazio euclideo


k
IR . Accanto alla terminologia di riassunto esaustivo, si usa anche quella di
statistica esaustiva o statistica sufficiente.
Apparentemente la definizione 3.4.2 non ha nulla a che vedere con l’idea
originale di risparmio di informazione; tutto sarà più chiaro dopo il risultato
che segue.

Teorema 3.4.3. Sia T un riassunto esaustivo, U una stima di g(θ) e sup-


θ
poniamo che U sia di quadrato integrabile
 per ogni probablità P . Esiste una
stima V della forma V (ω) = f T (ω) preferibile a U, inoltre V è stretta-
mente preferibile a meno che U non sia già nella forma f ◦ T . Infine, se U
è corretta, anche V è corretta.
3.4. STIME E RIASSUNTI ESAUSTIVI 57

Prima di affrontare la dimostrazione, commentiamo il risultato: se T è


un riassunto esaustivo, le buone stime (in particolare le stime ammissibili)
sono funzione di T (ω) e quindi T (ω) contiene tutte le informazioni rilevanti.
Vediamo ora la dimostrazione del Teorema 3.4.3 che è piuttosto lunga,
ma in realtà del tutto elementare.
Dimostrazione. Cominciamo ad osservare  che l’immagine
dell’applicazione
T : Ω → E è un insieme numerabile t1 , t2 , . . . e conseguentemente esiste

una partizione numerabile A1 , A2 , . . . di Ω, essendo Ai = T = ti . È facile
rendersi conto che una v.a. V si può scrivere nella forma V = f ◦ T se e solo
se è costante su ogni insieme Ai .
Assegnata dunque U , costruiamo V nel modo seguente: V è costante su
ogni insieme Ai dove prende il valore
P 
1
Z
θ ωj ∈Ai U (ω j )h θ, T (ω j ) k(ωj )
U dP =  =
Pθ (Ai ) Ai
P
ωj ∈Ai h θ, T (ωj ) k(ωj )
P
ωj ∈Ai U (ωj )k(ωj )
= P
ωj ∈Ai k(ωj )

dove l’ultima eguaglianza è dovuta al fatto che h θ, T (ω) è costante su ogni
1
R θ
insieme Ai . Pertanto il numero Pθ (A i ) Ai
U dP non dipende da θ.
Sorge una difficoltà, nella definizione precedente, se Pθ (Ai ) = 0. Se Ai è
trascurabile per ogni probabilità Pθ lo possiamo appunto trascurare, se invece
è trascurabile
R solo θper qualche valore del parametro θ, per definizione ponia-
1
mo Pθ (Ai ) Ai U dP eguale al valore (costante) che si ottiene con i parametri
θ per i quali Ai non è Pθ -trascurabile.
Cominciamo a verificare che, per ogni θ, si ha Eθ [V ] = Eθ [U ] (e di
conseguenza, se U è corretta, lo è pure V ). Infatti
R
U dPθ 
Z XZ X
θ θ θ θ Ai
E [U ] = U dP = U dP = P (Ai ) θ
i Ai i
P (Ai )

U dPθ
R
Ora il numero APiθ (Ai ) (che non dipende da θ) è eguale al valore di V
sull’insieme Ai , quindi
R R
Ai
U dPθ Ai
V dPθ
= :
Pθ (Ai ) Pθ (Ai )

ripetendo i passaggi precedenti nel verso opposto si ritrova quindi Eθ [V ], si


ha cioè l’eguaglianza voluta.
58 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
 2   2 
Proviamo ora che si ha Eθ V − g(θ) ≤ Eθ U − g(θ) e osserviamo
che ci si può ridurre
 2  al caso in cui g(θ) = 0.
P R
Poichè E V = i Ai V 2 dPθ , è sufficiente provare che, su ogni insieme
θ

Ai , si ha Z Z
V 2 dPθ ≤ U 2 dPθ
Ai Ai

e, poichè sull’insieme Ai la variabile aleatoria V assume costantemente il


1
R θ
valore Pθ (Ai ) Ai U dP , questo equivale a provare che si ha

Z 2 
Z 
θ θ 2 θ
U dP ≤ P Ai U dP
Ai Ai

L’ultima disuguaglianza è una conseguenza della disuguaglianza di Schwartz:


infatti
Z Z
θ
U dP = 1.U dPθ ≤


Ai Ai
sZ sZ sZ
p
≤ 1 dPθ U 2 dPθ = Pθ (Ai ) U 2 dPθ
Ai Ai Ai

Ricordiamo che la disuguaglianza di Schwartz è in realtà una eguaglianza se


le due funzioni 1 e U sono proporzionali (sull’insieme Ai ), cioè se U è costante
sull’insieme Ai : di conseguenza si ha, per ogni θ, l’eguaglianza
 2   2 
Eθ V − g(θ) = Eθ U − g(θ) se e solo se U è costante su ogni insieme
Ai , cioè se si può scrivere nella forma f ◦ T .

Osservazione 3.4.4. La dimostrazione precedente potrebbe essere fatta in


una maniera molto più rapida, a patto di possedere qualche ulteriore nozione
di misura e integrazione:
R essenzialmente il fatto che lo spazio delle variabili
aleatorie U tali che U 2 dP θ
R < +∞ è uno spazio di Hilbert H (munito del
θ
prodotto scalare hU, V i = U V dP ) e il sottospazio V delle v.a. costanti su
ognuno degli insiemi Ai è un sottospazio chiuso. La costruzione cheR abbiamo
1
fatto (di una variabile V che sull’insieme Ai coincide con Pθ (Ai ) Ai U dPθ )
equivale alla costruzione della proiezione ortogonale di U sul sottospazio V.

3.5 Intervalli di fiducia


Supponiamo assegnato un modello statistico, ed un numero α con 0 < α < 1;
usualmente α è un numero vicino a 0, ed i valori tipici sono 0,1 ; 0,05 e 0,01.
3.5. INTERVALLI DI FIDUCIA 59

Definizione 3.5.1 (Regione di Fiducia). Sia assegnato, per ogni ω ∈ Ω,


un sottoinsieme dei parametri C(ω) ⊂ Θ: si dice che C(ω) è una regione di
fiducia per il parametro θ al livello (1 − α) se, qualunque sia θ, si ha

Pθ ω θ ∈ C(ω) ≥ 1 − α


o (ciò che è lo stesso) Pθ ω θ ∈
/ C(ω) ≤ α.

Se Θ ⊆ IR e C(ω) è un intervallo, si parla di intervallo di fiducia. Alcuni


testi usano il termine intervallo di confidenza, ma è una cattiva traduzione
dall’inglese: infatti la parola confidence vuole dire appunto fiducia (e non
confidenza).
Naturalmente si ha interesse a individuare una regione di fiducia più
piccola possibile, a patto che sia soddisfatta la condizione sul livello.
Non esistono veri risultati teorici per quanto riguarda le regioni di fiducia,
esiste però un legame tra intervalli di fiducia e test statistici che esamineremo
nel paragrafo successivo; vediamo piuttosto alcuni esempi concreti.

Esempio 3.5.2 (Intervallo di fiducia per il controllo di qualità).


Consideriamo un campione X1 , . . . , Xn di legge di Bernoulli di parametro θ e
vogliamo individuare un intervallo di fiducia per il parametro θ: partiamo
 θ(1−θ)dal
X1 +···+Xn θ
fatto che X = n
è una stima corretta di θ e che V ar X = n .
Ci aspettiamo un intervallo  di fiducia per θ intorno
 alla sua stima, più
precisamente della forma I = X(ω) − d , X(ω) + d (con d da determinare).
Per determinare d (ricordiamo che abbiamo interesse che sia più piccolo
possibile) partiamo dal fatto che si ha
n  o n o
θ∈ / X − d, X + d = X − θ > d

Dalla diseguaglianza di Chebishev di ottiene la maggiorazione


Pθ X − θ > d ≤ θ(1−θ)

nd2
; abbiamo bisogno di una maggiorazione indipen-
1

θ

dente da θ e poichè max0<θ<1 θ(1 − θ) = 4 , si ottiene P X − θ > d ≤ α
1
ponendo d = √4nα , e di conseguenza

θ
n 1 1 o
P −√ ≤ X − θ ≤ +√ ≥1−α
4nα 4nα
1 1
 
Si ottiene l’intervallo di fiducia X(ω)− √4nα , X(ω)+ √4nα , o (come si scrive
1
più sinteticamente) X(ω) ± √4nα .

L’intervallo di fiducia che abbiamo determinato sopra in realtà non è


molto buono (cioè non è molto stretto) perché è basato sulla diseguaglianza
60 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

di Chebishev, che in genere fa perdere qualcosa rispetto ai calcoli precisi;


tuttavia quando n è grande i calcoli esatti sulla variabile B(n, θ) non sono
praticabili. In questo caso però si può utilizzare il teorema Limite Centrale
di De Moivre-Laplace.
Esempio 3.5.3 (Intervallo di fiducia approssimato mediante il teo-
rema di De Moivre-Laplace). Siamo nella stessa situazione dell’esercizio
precedente, ma questa volta utilizziamo il fatto che
n X + · · · + X − nθ o n√ X −θ o
θ 1 n θ
P p ≤x = P np ≤ x ≈ Φ(x)
θ(1 − θ)n θ(1 − θ)
Il nostro scopo è trovare un numero d tale che valga la maggiorazione
n√ |X − θ| o
Pθ np > d ≤ α.
θ(1 − θ)
Introduciamo una notazione: dato 0 < β < 1, chiamiamo qβ il numero
tale che Φ(qβ ) = β. Naturalmente questo numero non può essere calcolato
esattamente, ma si può ricavare usando le tavole della funzione Φ(.).
√
Dunque Pθ n √|X−θ| > q1− α2 ≈ α : con passaggi analoghi a quelli

θ(1−θ)
q1− α
fatti sopra, si ottiene l’intervallo di fiducia X(ω) ± √2
2 n
.
È interessante notare quanto l’intervallo cosı̀ ottenuto si è ristretto ri-
spetto al precedente: tenendo fisso n, sopra c’era un termine dell’ordine di
√1 (non dimentichiamo che α è un numero piccolo), mentre ora compare il
α
numero q1− α2 che è di solito vicino a 3.
Se noi consideriamo ad esempio α = 0,01, dalle tavole si ricava il valore
approssimato q0,995 = 2,58; gli intervalli di fiducia sono col primo metodo
X(ω) ± √5n e nel secondo caso X(ω) ± 1,29 √ .
n

Osservazione 3.5.4 (Il metodo della quantità pivot).


Si parla di metodo della quantità pivot quando si individua una funzione
di una v.a. X e del parametro θ che sia
• invertibile rispetto al parametro θ ;
• tale che la sua legge di probabilità non dipenda dal parametro θ .
Nei due esempi precedenti non abbiamo in realtà individuato unaquantità
pivot ma qualcosa di meno: nell’esempio ?? la variabile X − θ non ha
legge indipendente da θ ma ha media 0 (indipendentemente dal parametro)
ed una varianza che abbiamo potuto maggiorare uniformemente rispetto al
parametro.
Useremo veramente il metodo della quantità pivot nell’ultimo capitolo.
3.6. TEORIA DEI TEST STATISTICI 61

3.6 Teoria dei test statistici


Il primo passo da compiere, di fronte a un test statistico, è formulare un’i-
potesi: questo si ottiene effettuando una partizione dell’insieme Θ dei para-
metri in due sottinsiemi non vuoti Θ0 e Θ1 corrispondenti rispettivamente ai
parametri dell’ipotesi e a quelli della sua negazione, detta alternativa.
Torniamo all’esempio del controllo di qualità, e consideriamo l’ipotesi “la
percentuale di pezzi difettosi
 non supera
 il 5%”:  in questo caso l’insieme dei
parametri è Θ = 0 , 1 , si ha Θ0 = 0 , 0,05 e Θ1 = 0,05 , 1 . 
L’ipotesi e l’alternativa sono indicate rispettivamente H0 e H1 e si usa
dire, ad esempio nel caso precedente: 
- consideriamo un test dell’ipotesi H0 θ ≤ 0, 05 contro l’alternativa
H1 θ > 0, 05.
Osserviamo che in linea di principio indicare l’alternativa è superfluo, in
quanto Θ1 è individuato dal fatto di essere il complementare di Θ0 ; tuttavia
nei fatti spesso è più chiaro indicare sia l’ipotesi che l’alternativa.
Il secondo passo è pianificare un esperimento, cioè stabilire una regola
che, secondo il risultato dell’esperienza ω, permetta di decidere se accettare
o rifiutare l’ipotesi. Questo equivale a scegliere un evento D ∈ F che consiste
nell’insieme dei risultati ω che portano a rifiutare l’ipotesi: tale insieme D
viene chiamato regione di rifiuto o più frequentemente regione critica.
Per capirci meglio, nell’esempio precedente, l’intuizione ci porta a rifiu-
tare l’ipotesi se la percentuale di pezzi difettosi supera un certo numero a (da
determinare secondo regole che vedremo): la regione critica sarà pertanto in
questo caso n o
D = ω ∈ Ω X(ω) > a


e diremo più sbrigativamente “il test di regione critica D = X > a ”.

Definizione 3.6.1 (Livello e potenza). Si chiama taglia di un test di


regione critica D il numero
sup Pθ D

θ∈Θ0

Si dice che il test è di livello α se la sua taglia è minore o eguale ad α.


 potenza del test la funzione πD : Θ1 → [0, 1] definita da
Si chiama
θ−→Pθ D .

Diremo che il test di regione critica D è più potente del test di regione
critica D∗ se, per ogni θ ∈ Θ1 , si ha Pθ (D) ≥ Pθ (D∗ ).
Scegliere un livello equivale a porre un confine superiore alle probabilità
dell’errore di prima specie (cioè ai numeri Pθ (D) per θ ∈ Θ0 ) ; intuitivamente
62 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

infatti errore di prima specie significa “rifiutare l’ipotesi quando è vera”).


Invece la potenza è in un certo senso la “capacità di accorgersi che l’ipotesi
è falsa” (ed errore di seconda specie è “accettare l’ipotesi quando è falsa).
Usualmente si procede in questo modo: si fissa un livello α (i valori tipici
sono 0,1 ; 0,05 oppure 0,01) che fissi un limite superiore per l’errore di prima
specie, e tra i test di livello α si cerca di ottenere la massima potenza possibile
(cioè una regione critica più grande possibile).
Quando Θ0 è ridotto a un solo punto (cioè Θ0 = {θ0 }) si dice che l’ipotesi
è semplice; perfettamente analoga naturalmente è la definizione di alternativa
semplice. Come vediamo qua sotto, la ricerca della regione critica di un test
a ipotesi semplice può essere ricondotta alla ricerca delle regioni di fiducia, e
viceversa.

Osservazione 3.6.2 (Legame tra test e regioni di fiducia). Supponiamo


di aver trovato, per ogni ω ∈ Ω, una regione di fiducia C(ω) al livello (1−α) e
consideriamo il test dell’ipotesi H0 θ = θ0 contro l’alternativa H1 θ 6= θ0 .
Rifiutiamo
 l’ipotesi
se θ0 ∈
/ C(ω), consideriamo cioè come regione critica  D=
/ C(ω) : dalla definizione di regione critica segue che Pθ0 D ≤ α,
ω | θ0 ∈
cioè abbiamo ottenuto un test di livello α.
Quanto è stato fatto si può considerare nel senso inverso: cioè se per
 ogni
θ̄ abbiamo la regione
 critica
D( θ̄) di livello
α del test dell’ipotesi H0 θ = θ̄,
ponendo C(ω) = θ ∈ Θ ω ∈ / D(θ) , otteniamo una regione di fiducia al
livello (1 − α).

Esempio 3.6.3. Dato un campione X1, . . . , Xn con legge diBernoulli, piani-


fichiamo il test dell’ipotesi semplice H0 θ = θ0 contro H1 θ 6= θ0 al livello
α.
Osservando che l’intervallo
 di fiducia si può
equivalentemente scrivere
nella forma C(ω) = θ − d ≤ X(ω)

− θ ≤ d , si ottiene la regione critica

della forma D = ω X(ω) − θ0 > d , con un opportuno numero d da
calcolare (questa forma della regione critica del resto si accorda con quello
che suggerisce l’intuizione).
Per ottenere la regione critica più grande possibile, scegliamo il minimo d
per il quale valga la maggiorazione

Pθ0 X − θ0 > d ≤ α

Utilizzando la diseguaglianza di Chebishev, si ottiene (omettiamo i facili


conti, sostanzialmente
q identici a quelli svolti nel paragrafo precedente) per d
θ0 (1−θ0 )
il valore nα
.
3.6. TEORIA DEI TEST STATISTICI 63

Un valore più piccolo per il numero d si può ottenere utilizzando l’appros-


simazione suggerita dal Teorema di De Moivre-Laplace, cioè
n√ X − θ √

θ0
θ 0 d n o
P X − θ0 > d = P 0
np >p ≈
θ0 (1 − θ0 ) θ0 (1 − θ0 )

  d n 
≈2 1−Φ p
θ0 (1 − θ0 )
q
Si ottiene in questo modo il valore d = q1− α2 θ0 (1−θ n
0)
.

Nella stessa situazione


 del campione con legge di Bernoulli,
 cerchiamo di
esaminare il test H0 θ ≤ θ0 contro l’alternativa H1 θ > θ0 : facciamoci
prima guidare dall’intuizione e poi arriveremo a dei risultati più precisi.
Ci aspettiamo una regione critica della forma X ≥ d con un oppor-
tuno numero d da calcolare in funzione del livello scelto , ma sorgono delle
difficoltà: cerchiamo il più piccolo numero d tale che valga la diseguaglianza
seguente
sup Pθ X ≥ d ≤ α

θ≤θ0

dove α è il livello scelto (cerchiamo il valore d più piccolo per avere la


 regione

θ
critica più grande possibile). Ci aspettiamo che la funzione θ−→P X ≥ d
sia crescente (e questo semplificherebbe i conti) ma il calcolo diretto non è
immediato: ci vengono però in aiuto dei risultati generali che ora esponiamo.

Lemma 3.6.4 (Lemma di Neyman-Pearson). Supponiamo assegnato un


modello statistico
nel quale l’insieme Θ dei parametri
 è ridotto a due
 punti
(Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 .
Consideriamo l’insieme D cosı̀ definito

D = ω ∈ Ω L(θ0 , ω) ≤ c L(θ1 , ω)

dove c è una costante positiva. Allora

1. D è la regione critica di un test più potente di ogni altro test di livello


Pθ0 D ;
 
2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D .

Dimostrazione. Consideriamo una generica funzione ϕ : Ω → [0, 1] e notiamo


che per ogni ω ∈ Ω vale la diseguaglianza
  
ID (ω) − ϕ(ω) L(θ0 , ω) − c L(θ1 , ω) ≤ 0
64 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
 
Infatti, se ω ∈ D, ID (ω) − ϕ(ω) ≥ 0 e L(θ0 , ω) − c L(θ1 , ω) ≤ 0 e dunque
il prodotto è negativo; analoga è la verifica se ω ∈
/ D. Sommando su tutti i
punti ω ∈ Ω (ricordiamo che siamo sempre su uno spazio Ω numerabile), si
ottiene
Z  Z 
P D − ϕ(ω) dP (ω) ≤ c P D − ϕ(ω) dPθ1 (ω)
θ0 θ0 θ1
 

A questo punto, se D∗ è la regione critica di un altro test, prendendo come


funzione ϕ = ID∗ , si ottiene
 
Pθ0 D − Pθ0 D∗ ≤ c Pθ1 D − Pθ1 D∗
  

Se dunque D∗ ha livello Pθ0 D (cioè ∗


 θ0
 θ0

se P D ≤ P D ), ne segue che
vale anche la diseguaglianza P D ≤ P D (cioè D èpiù potente di D∗ ).

θ1
 θ1


Considerando
 poi come funzione ϕ la costante Pθ0 D , si ottiene
Pθ1 D − Pθ0 D ≥ 0, cioè il punto 2).
Il lemma di Neyman-Pearson permette di identificare con precisione i
buoni test nel caso in realtà poco significativo di un modello statistico nel
quale i parametri siano solo due: il suo vero interesse consiste nel fatto che si
può estendere a casi più generali, i cosiddetti test unilateri. Quando l’insieme
dei parametri Θ è un intervallo di IR (intervallo in senso lato, cioè anche una
semiretta
 o tutta la retta) siparla di test unilatero se l’ipotesi è della forma
H0 θ ≤ θ0 o della forma H0 θ ≥ θ0 . Premettiamo una definizione.
Definizione 3.6.5 (Rapporto di verosimiglianza crescente). Suppo-
niamo assegnato un modello statistico nel quale l’insieme dei parametri Θ è
un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: si dice
che il modello è a rapporto di verosimiglianza crescente rispetto a T se, scelti
comunque θ1 < θ2 , esiste una funzione reale (strettamente) crescente a valori
positivi fθ1 ,θ2 tale che valga l’eguaglianza
L(θ2 , ω) 
= fθ1 ,θ2 T (ω)
L(θ1 , ω)
Naturalmente quella definizione ha senso se le verosimiglianze sono sem-
pre strettamente positive (o al più se si annullano tutte sul medesimo sottin-
sieme di Ω).
Teorema 3.6.6 (Test unilatero). Supponiamo che il modello sia a rappor-
to di
 verosimiglianza crescente rispetto
 a T e consideriamo il test unilatero
H0 θ ≤ θ0 contro l’alternativa H 1 θ > θ0 ; consideriamo poi l’insieme
D = ω T (ω) ≥ d dove d è un opportuno numero. Il test di regione critica

D è tale che:
3.6. TEORIA DEI TEST STATISTICI 65
 
1. vale l’eguaglianza supθ≤θ0 Pθ D = Pθ0 D ;
2. D è più potente di qualsiasi altro test D∗ con livello Pθ0 D .


Dimostrazione. Chiamiamo c = fθ1 ,θ2 (d) (quindi c è un numero positivo):


valgono le seguenti implicazioni

T (ω) ≥ d ⇐⇒ fθ1 ,θ2 T (ω) ≥ c ⇐⇒ L(θ2 , ω) ≥ c L(θ1 , ω)

e da qui si ottiene L(θ1 , ω) ≤ 1c L(θ2 , ω). A questo punto si può applicare il
Lemma 3.6.4 e si trova (come conseguenza del punto 2)) Pθ2 D ≥ Pθ1 D :
poiché questo vale per ogni scelta di θ1 < θ2 , ne segue che la funzione θ →
Pθ D è crescente e pertanto si ottiene la prova del punto 1) (tra l’altro
questo semplifica  notevolmente il calcolo della taglia del test, che risulta
θ0
eguale a P D ).
∗ θ0

Supponiamo inoltre che D abbia livello P D , cioè che si abbia 

supθ≤θ0 P D ≤ P D : prendendo un parametro θ > θ0 si ha Pθ D∗ ≤
θ
 θ0


Pθ D ( si applica di nuovo il Lemma 3.6.4, considerando θ al posto di θ1 ).


Poichè questo vale per ogni θ > θ0 , ne segue che D è più potente di D∗ .

Osservazione 3.6.7. Naturalmente se l’ipotesi è della forma H0 θ ≥ θ0
(oppure se il modello è a rapporto di verosimiglianza decrescente rispetto
a T ) si “ribalta”
la regione critica, più precisamente si sceglie della forma
D= T ≤d .
Esempio 3.6.8 (Test unilatero per il controllo di qualità). Ripren-
diamo l’esempio che abbiamo interrotto prima dell’enunciato del Lemma di
Neyman-Pearson
 n (test unilatero su un campione di Bernoulli): sullo spazio
Ω = 0, 1 , il rapporto delle verosimiglianze è dato da

L(θ2 ; k1 , . . . , kn )  θ k1 +···+kn  1 − θ n−(k1 +···+kn )


2 2
=
L(θ1 ; k1 , . . . , kn ) θ1 1 − θ1
e si verifica facilmente che è a rapporto di verosimiglianza crescente rispetto
a X. Si ha cosı̀ una prova di quello che l’intuizione aveva suggerito, cioè che
per il test unilatero H0 θ ≤ θ0 le buone regioni critiche siano della forma

X≥d .
In
 funzione
del livello α scelto, d deve essere il più piccolo numero tale che
Pθ0 X ≥ d ≤ α (questo per avere la regione critica più grande possibile):
ancora una volta viene in aiuto l’approssimazione offerta dal Teorema di De
Moivre-Laplace (purchè la numerosità n sia abbastanza grande). Si ha cosı̀
n√ X − θ0 √ d − θ0 o
θ0 θ0

P X≥d =P np ≥ np ≈
θ0 (1 − θ0 ) θ0 (1 − θ0 )
66 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
√ d − θ0 
≈ 1 − Φ np =α
θ0 (1 − θ0 )
√ d − θ0
Si prende allora np = q1−α (si noti che q1−α è un numero positivo
θ0 (1 − θ0 )
perché α è tipicamente “piccolo”, inferiore a 12 ).
p
q1−α θ0 (1 − θ0 )
Si ottiene pertanto il valore d = θ0 + √ .
n

3.7 Esercizi
Esercizio 3.7.1. Consideriamo un campione X1 , . . . , Xn di variabili di Pois-
son di parametro θ, θ > 0 : che cosa si può dire circa un intervallo
 di fiducia
per θ ed un test dell’ipotesi H0 θ ≤ θ0 contro l’alternativa H1 θ > θ0 ?

Esercizio 3.7.2. Si vuole verificare con quale frequenza si presenta tra i neo-
nati una certa malformazione, più precisamente si vuole verificare l’ipotesi
H0 θ ≤ 0, 02 , essendo θ la probabilità (sconosciuta) con la quale si presenta
questa malformazione: per fare questo si controllano delle cartelle cliniche di
neonati fino a quando se ne trova una nella quale compare questa malforma-
zione. Pianificare un test per decidere al livello 0,1 , sulla base del numero
di cartelle che è stato necessario verificare, se l’ipotesi può essere accettata.
Un procedimento più preciso si otterrebbe continuando a verificare car-
telle fino a quando non se ne trovano 10 contenenti questa malformazione:
esaminare se i calcoli sono agevoli in questo caso.

Esercizio 3.7.3. Sia X1 , .. . , Xn un campione di taglia n e legge geometrica


di parametro θ 0 < θ < 1 . Determinare un riassunto esaustivo. Esiste una
stima di massima verosimiglianza, una stima consistente?

Esercizio 3.7.4. Consideriamo come insieme dei parametri gli interi stret-
tamente
 positivi k ≥ 1 e sia mk la distribuzione di probabilità uniforme su

1, . . . , k ⊆ IN .
Sia dato un campione di taglia n e legge mk : considerare le stesse
domande dell’esercizio precedente.

Esercizio 3.7.5. Si consideri, per θ > 1, la distribuzione di probabilità


mθ sugli interi strettamente positivi IN∗ = 1, 2, . . . tale che mθ (k) =

ζ(θ)−1 k −θ , essendo
+∞
X 1
ζ(s) =
n=1
ns
3.7. ESERCIZI 67

Dato un campione di taglia n e legge mθ , considerare le stesse domande degli


esercizi precedenti.
Osservazione: la funzione ζ sopra definita è la celebre funzione zeta di
Riemann, molto importante in teoria dei numeri. Questa funzione è stata
studiata approfonditamente, ma di essa non si può dare un’espressione espli-
cita in termini di funzioni elementari.
68 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
Capitolo 4

Probabilità e variabili aleatorie


su uno spazio generale

4.1 Costruzione di una Probabilità


Cominciamo con una definizione:

Definizione 4.1.1. Sia A una famiglia di parti di un insieme E: si chiama


σ-algebra generata da A la più piccola σ-algebra contenente A: essa coincide
con l’intersezione di tutte le σ-algebre contenenti A.

Notiamo che tale insieme non è vuoto, perché esiste almeno P(E) (cioè la
famiglia di tutti i sottinsiemi di E) che contiene A. È bene inoltre ribadire
che non esiste un metodo costruttivo per caratterizzare la σ-algebra generata
da A.

Proposizione 4.1.2 (I boreliani). Sulla retta reale IR coincidono le σ-


algebre generate, ad esempio, da queste famiglie di insiemi:

1. le semirette del tipo ] − ∞, x] , al variare di x ∈ IR ;

2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con −∞ < a < b < +∞ ;

3. gli aperti di IR ;

4. i chiusi di IR .

La σ-algebra da essi generata è chiamata σ-algebra di Borel su IR (e


indicata B(IR)) ed i relativi elementi sono detti boreliani.

69
70 CAPITOLO 4. PROBABILITÀ GENERALE

Dimostrazione. Chiamiamo ad esempio B1 la σ-algebra generata dalle semi-


rette e B2 quella generata dagli intervalli. Poiché ]a, b] = ] − ∞, b]\] − ∞, a]
è un elemento di B1 , ne segue che B2 ⊆ B1 .
Viceversa, poiché ] − ∞, x] = ∪n≥1 ]x − n, x] , segue che le semirette sono
elementi di B2 e di conseguenza B1 ⊆ B2 : si ha quindi l’eguaglianza B1 = B2 .
Le altre eguaglianze si dimostrano in maniera del tutto simile e comunque
molto semplice.

Sulla retta, se non sarà diversamente specificato, si considera la σ-algebra


di Borel. Analoga è la definizione della σ-algebra B IRn dei boreliani di IRn


che è generata, ad esempio, dalle seguenti famiglie di insiemi:

1. gli aperti di IRn ;

2. i prodotti cartesiani A1 × . . . × An , dove ogni Ai è un boreliano di IR ;

3. i prodotti cartesiani della forma ] − ∞, x1 ] × . . . ×] − ∞, xn ] .

Diamo per scontato che il lettore sia a conoscenza della teoria della misura
e dell’integrazione secondo Lebesgue, e chiamiamo L la famiglia delle parti di
IR misurabili secondo Lebesgue: L è una σ-algebra e contiene gli intervalli,
e di conseguenza si ha l’inclusione B(IR) ⊆ L(IR).
In realtà l’inclusione è stretta ma la dimostrazione di questo fatto non
è affatto immediata. Questo può essere visto in diversi modi e forse il più
naturale è passare attraverso la cardinalità: si prova infatti che la famiglia dei
Boreliani ha la stessa cardinalità di IR (risultato tutt’altro che elementare),
mentre si può costruire un insieme C trascurabile secondo Lebesgue che ha
la stessa cardinalità di IR (l’esempio più noto è l’insieme di Cantor). Ogni
sottinsieme di C è trascurabile e pertanto misurabile secondo Lebesgue e di
conseguenza la famiglia L ha cardinalità strettamente superiore a quella dei
boreliani.
Saranno fondamentali per quanto segue i due seguenti risultati:

Teorema 4.1.3 (Unicità di Probabilità). Siano P e Q due probabilità


definite su una σ-algebra F di parti di un insieme E e supponiamo che P e
Q coincidano su una famiglia I di parti tale che:
1) I genera F ;
2) I è stabile per l’intersezione (finita).
Allora P e Q coincidono su tutto F.

Teorema 4.1.4 (Esistenza di Probabilità). Sia A un’algebra di parti


di un insieme E e sia P : A → [0, 1] una funzione σ-additiva (tale che
P(E) = 1): P si prolunga (in un sol modo) alla σ-algebra F generata da A.
4.1. COSTRUZIONE DI UNA PROBABILITÀ 71

È bene precisare che cosa significa affermare che una funzione P è σ–


additiva su un’algebra A di parti: vuol dire che se (An )n=1,2,...
S+∞ è una suc-
cessione di elementi di ASa due a due disgiunti e se anche n=1 An è un
+∞ P+∞
elemento di A , allora P n=1 An = n=1 P(An )
La dimostrazione dei due teoremi precedenti è lasciata a un corso più
avanzato, ma è opportuno qualche commento. Il primo risultato non è vero
per misure in generale (se la misura di tutto lo spazio è infinita): provare ad
esempio a costruire un controesempio di due misure su B(IR) che coincidono
su ogni semiretta ]−∞, x] ma non coincidono. Il secondo risultato, viceversa,
è vero per misure qualsiasi (e osserviamo che, nel caso delle probabilità,
l’unicità del prolungamento è conseguenza del Teorema 4.1.3).
Applichiamo ora i due teoremi appena enunciati alla costruzione delle
probabilità su IR.
Definizione 4.1.5 (Funzione di ripartizione). Sia P una probabilità de-
finita su IR, B(IR) : si chiama funzione
 di ripartizione la funzione F : IR →
[0, 1] definita da F (x) = P ] − ∞, x] .
Proposizione 4.1.6. La funzione di ripartizione sopra definita gode delle
seguenti proprietà:
1. è crescente;

2. è continua a destra;

3. F (+∞) = limx→+∞ F (x) = 1 e F (−∞) = limx→−∞ F (x) = 0 .


Dimostrazione. È evidente che F è crescente (in genere non strettamente
crescente).
Delle proprietà successive proviamo ad esempio la continuità a destra: da-
to x, poiché F è monotona, è sufficiente considerare una successione (xn )n≥1
convergente ad x da destra (ad esempio xn = x+ n1 ). A questo punto, usando
le stesse notazioni del Capitolo 1,
 
] − ∞, xn ] ↓ ] − ∞, x] =⇒ F (xn ) = P ] − ∞, xn ] ↓ P ] − ∞, x] = F (x)

Le altre proprietà si dimostrano in maniera praticamente identica.


Con facili passaggi si prova che F (b) − F (a) = P ]a, b] , che F− (x)
 =
limy<x ,y →x F (y) = P ] − ∞, x[ e che ∆F (x) = F (x) − F− (x) = P {x} .
Ma quello che è veramente importante è il risultato seguente, che è in un
certo senso l’inverso della Proposizione 4.1.6.
72 CAPITOLO 4. PROBABILITÀ GENERALE

Teorema 4.1.7 (Esistenza di una Probabilità su B(IR)). Assegnata una


funzione F : IR → [0, 1] con le proprietà 1), 2) e 3) della Proposizione 4.1.6,
esiste una ed una sola probabilità
 P su B(IR) tale che, per ogni x ∈ IR, si
abbia F (x) = P ] − ∞, x] .
Dimostrazione. L’unicità di questa probabilità P è conseguenza del Teorema
4.1.3 (la famiglia delle semirette è stabile per intersezione e genera B(IR) ):
proviamo ora l’esistenza.
Chiamiamo A la famiglia dei pluriintervalli: più precisamente un elemen-
to A di A è della forma

A = ]x1 , y1 ] ∪ . . . ∪]xk , yk ] con − ∞ ≤ x1 < y1 < . . . < xk < yk ≤ +∞

e, per A di quella forma, definiamo


k
X  
P(A) = F (yi ) − F (xi )
i=1

È piuttosto noioso ma elementare provare che A è un’algebra di parti di IR


(che genera B(IR) ) e che P è una funzione semplicemente additiva definita
su A : notiamo tra l’altro che un elemento A ∈ A si può scrivere in modi
diversi come unione finita e disgiunta di intervalli ma il numero P(A) che ne
risulta non dipende dalla particolare rappresentazione scelta.
Il prolungamento di P a tutto B(IR) è una conseguenza del Teorema 4.1.4
a patto di provare che P è σ-additiva su A. È più comodo a questo scopo
provare la proprietà seguente:

se An ∈ A , An ↓ ∅ =⇒ P(An ) ↓ 0

Partiamo dal fatto seguente: dato A ∈ A ed ε > 0 , esiste B ∈ A con B


compatto e B ⊂ A ( B è la chiusura di B ) tale che P A\B) < ε. L’esistenza
di un tale B è più facile da capire che da scrivere formalmente: comunque per
ognuno dei k intervalli ]xi , yi ] che compongono A, si considera un intervallo
ε

a chiusura compatta ]zi , wi ] tale che P ]xi , yi ]\]zi , wi ] < k e poi si prende
l’unione di questi intervalli.
Se xi , yi sono entrambi finiti, si prenderà ]xi + δ, yi ] con un opportuno δ
sufficientemente piccolo, se il primo estremo è −∞ (e l’altro finito), si pren-
derà ] − M, yi ] con M reale sufficientemente grande e cosı̀ via . . . le proprietà
della funzione F permettono questa costruzione.
Consideriamo allora la successione An ↓ ∅ , ε > 0 e, per ogni n, un
elemento Bn ∈ A con le proprietà sopra indicate e contenuto in An e tale che
P An \ Bn < 2εn .
4.1. COSTRUZIONE DI UNA PROBABILITÀ 73
T
Si ha n≥1 B n = ∅ e, siccome questi insiemi sono compatti, ne esiste
una sottofamiglia finita con intersezione vuota: scegliamo dunque n̄ tale che
B1 ∩ . . . ∩ Bn̄ = ∅. Si ha
c [ [
An̄ ∩ Bjc ⊆
 
An̄ = An̄ ∩ B1 ∩ . . . ∩ Bn̄ = Aj \ Bj
j=1,...,n̄ j=1,...,n̄

Ne segue che si ha P(An̄ ) < ε e, poichè questo è vero per ogni ε, si ha


limn→∞ P(An ) = 0.

Vediamo i tipi più usuali di probabilità su IR e le corrispondenti proprietà


delle relative funzioni di ripartizione.

Esempio 4.1.8 (Probabilità discrete). Abbiamo già incontrato le pro-


babilità discrete (dette anche atomiche) su B(IR): P è concentrata sulla
P di punti (x1 , x2 , . . .) e, per ogniA ∈ B(IR) , vale l’eguaglianza
successione
P(A) = xi ∈A p(xi ) essendo p(xi ) = P {xi } .

P In particolare la funzione di ripartizione soddisfa l’eguaglianza F (x) =


xi ≤x p(xi ) : disegnando in particolare la funzione di ripartizione delle leggi
Binomiale, o di Poisson, o altre, si nota che ha un tipico andamento a gradini.
Ma non tutte le funzioni di ripartizione delle probabilità discrete sono fatte
cosı̀ come mostra l’esempio che ora segue.

Esercizio 4.1.9. Sia Q l’insieme dei razionali e consideriamo una nume-


razione di Q = {q1 , q2 , . . .} ; sia poi P concentrata su Q tale che p(qn ) =
P {qn } = 2−n ed F la relativa funzione di ripartizione. Provare che F è
strettamente crescente.

Esempio 4.1.10 (Misura secondo Lebesgue). La misura secondo Lebes-


gue non è limitata e quindi non può essere costruita come conseguenza
del Teorema 4.1.4. Tuttavia si può costruire la misura di Lebesgue λ sui
sottinsiemi boreliani di [0, 1] considerando la funzione di ripartizione cosı̀
definita: 
 0 per x < 0
F (x) = x per 0 ≤ x ≤ 1
1 per x > 1

In modo analogo la si può costruireP


su ogni intervallo di IRdi lunghezza 1;
si pone poi, per A ∈ B(IR), λ(A) = +∞ n=−∞ λ A ∩ ]n, n + 1] .

Esempio 4.1.11 (Probabilità diffusa). Abbiamo visto che ogni punto è


trascurabile per la probabilità P associata alla funzione di ripartizione F se
e solo se F è continua: questo è una conseguenza della formula P {x} =
74 CAPITOLO 4. PROBABILITÀ GENERALE

∆F (x). Le probabilità che godono di questa proprietà sono dette diffuse.


Provare che in tal caso la funzione di ripartizione F è anche uniformemente
continua.

In verità le probabilità diffuse non hanno particolari proprietà: sono mol-


to più importanti e maneggevoli le probabilità definite da una densità, che
verranno però introdotte nel successivo paragrafo.

4.2 Costruzione dell’integrale


Definizione 4.2.1 (Spazioe applicazione misurabile). Si chiama spazio
misurabile una coppia E, E dove E è un insieme e E una σ-algebra di parti
di E. Dati due spazi misurabili E, E e F, F , una applicazione f : E → F
è detta misurabile se, per ogni A ∈ F , f −1 (A) ∈ E.

Proposizione 4.2.2. Con le notazioni della definizione precedente, se A è


una famiglia di parti di F che genera la σ-algebra F, affinché una funzione
f : E → F sia misurabile, è sufficiente che, per ogni A ∈ A , f −1 (A) ∈ E.

Dimostrazione. La dimostrazione è molto semplice: se noi chiamiamo B la


famiglia dei sottisiemi B ⊆ F tali che f −1 (B) ∈ E, è una facile verifica
provare che B è una σ-algebra. Poichè B contiene A, contiene anche la
σ-algebra generata cioè F.

Se non è specificato diversamente, dato uno spazio misurabile E, E , una
funzione f : E → IR è detta misurabile se è misurabile considerando su IR la
σ-algebra B(IR).
Grazie al risultato 4.2.2,
affinché f sia misurabile è sufficiente ad esempio
−1
 
che, ∀x ∈ IR , f ≤ x = f ] − ∞, x] (o, equivalentemente, ∀a < b ,
a < f ≤ b = f −1 ]a, b] ) sia un elemento

 di E). 
Una funzione misurabile da IR, B(IR) su IR, B(IR) è detta boreliana.

Definizione 4.2.3 (Funzione semplice). Dato uno spazio misurable E, E ,
si chiama semplice una funzione misurabile ϕ : E → IR che prende un numero
finito di valori (cioè la cui immagine è un insieme finito).

Chiamati a1 , . . . , an i punti dell’immagine della funzione semplice ϕ e


detti Ai = {ϕ = ai }, è evidente che la funzione può essere scritta nella forma
n
X
ϕ = ai IAi
i=1
4.2. COSTRUZIONE DELL’INTEGRALE 75

cioè ϕ è una combinazione lineare di indicatrici di insiemi misurabili, vi-


ceversa ogni combinazione lineare di indicatrici di insiemi misurabili (non
necessariamente disgiunti) è evidentemente una funzione semplice. L’espres-
sione di una funzione semplice in tale forma non è unica, tuttavia date due
funzioni semplici ϕ e ψ è facile vedere che esistono A1 , . . . , An disgiunti in
modo tale che si possa scrivere
n
X n
X
ϕ = ai IAi ; ψ = bi IAi ,
i=1 i=1

cioè ϕ e ψ si possono scrivere come combinazione lineare delle funzioni


indicatrici degli stessi insiemi misurabili.
Una conseguenza immediata di questa osservazione è che l’insieme del-
le funzioni semplici è uno spazio vettoriale ed un reticolo (l’ultima dizione
significa che, se φ , ψ sono funzioni semplici, anche ϕ ∨ ψ = max(ϕ, ψ) e
ϕ ∧ ψ = min(ϕ, ψ) sono funzioni semplici).

Sopponiamo ora assegnato uno spazio misurabile E, E sul quale è defi-
nita una misura di probabilità m.

Definizione 4.2.4 (Integrale delle


Pn funzioni semplici). Sia ϕ una fun-
zione semplice della forma ϕ = i=1 ai IAi : definiamo integrale di ϕ il
numero
Z Xn
ϕ(x) dm(x) = ai m(Ai )
E i=1
R
Se non c’è ambiguità, si può scrivere più semplicemente ϕ dm : è una
verifica noiosa ma non difficile provare che questo numero non dipende dalla
particolare rappresentazione di ϕ che si è scelta, mentre è facile provare che
si ha
R  R R
• aϕ + ψ dm = a ϕ dm + ψ dm ;
R R
• se ϕ ≤ ψ , allora ϕ dm ≤ ψ dm .

Proposizione 4.2.5 (Proprietà di Beppo Levi per funzioni semplici).


Sia (ϕn )n≥1 una successione di funzioni semplici e supponiamo che ϕn ↑ ϕ e
che ϕ sia ancora una funzione semplice: allora
Z Z
ϕn dm ↑ ϕ dm
76 CAPITOLO 4. PROBABILITÀ GENERALE

Anche la dimostrazione di questo risultato è lasciata a un corso più avan-


zato, tuttavia è interessante osservare che se ϕn = IAn dove An n≥1 è una
successione crescente di insiemi, si ha che IAn ↑ IA essendo A = ∪n≥1 An :
la proprietà di Beppo Levi equivale alla continuità della probabilità, più
precisamente
Z Z
 
IAn dm = m An ↑ m A = IA dm

Allo scopo di estendere la definizione di integrale, sarà fondamentale il


risultato seguente:
Teorema 4.2.6 (Approssimazione con funzioni semplici). Sia f una
funzione misurabile a valori positivi: esiste una successione di funzioni sem-
plici (ϕn )n≥1 tale che
ϕn ↑ f
Dimostrazione. Una possibile successione approssimante può essere definita
in questo modo:
n2n −1
X h 
ϕn = n I{f ≥n} + I
h=0
2n 2hn ≤f < h+1
2n

È piuttosto noioso (ma per niente difficile) verificare che, qualunque sia
x, ϕn (x) ≤ ϕn+1 (x) e che limn→∞ ϕn (x) = f (x).

La funzione f può anche prendere il valore +∞ in qualche punto x; i bo-


reliani su IR = [−∞, +∞] e le funzioni misurabili a valori in IR si definiscono
in maniera identica a quanto si è fatto per la retta reale IR.
Osservazione 4.2.7 (Sulla definizione di funzione misurabile). Soli-
tamente in analisi si chiama misurabile una funzione f : IR → IR tale che,
per ogni A ∈ B(IR) , f −1 (A) ∈ L (sia cioè misurabile secondo Lebesgue):
si considerano quindi due differenti σ-algebre su IR come spazio di partenza
e come spazio di arrivo. La ragione di questa apparente incongruenza va
ricercata proprio nel Teorema 4.2.6: vedremo subito che quel risultato di ap-
prossimazione è fondamentale nella definizione di integrale, e per poter fare
quella costruzione è necessario che gli insiemi {a ≤ f < b} siano misurabili (e
questo equivale a dire che l’immagine inversa di ogni Boreliano è misurabile).
Viceversa si ha interesse a disporre, sull’insieme su cui è definita la funzio-
ne, della famiglia di insiemi misurabili più grande possibile (la σ-algebra L,
quando si considera la misura di Lebesgue).
4.2. COSTRUZIONE DELL’INTEGRALE 77

Una conseguenza di questa definizione è, ad esempio, che composizione di


due funzioni misurabili non è necessariamente misurabile, però se f : IR → IR
è misurabile e g : IR → IR è boreliana, allora g ◦ f è misurabile.
Inoltre, data una successione (fn )≥1 di funzioni
 misurabili
a valori
T  reali, la
funzione supn fn è misurabile: si ha infatti  supn fn ≤ a = n fn ≤a .
In modo analogo sono misurabili inf n fn , lim supn fn , lim inf n fn e,
se esiste, limn fn .
Infine, come conseguenza del Teorema 4.2.6, ogni funzione misurabile a
valori reali si può scrivere come limite puntuale di una successione di funzioni
semplici: da qui segue facilmente che, se f e g sono misurabili, anche (f +
g) , (f ∨ g) e (f ∧ g) sono misurabili.
Definizione 4.2.8 (Integrale delle funzioni a valori positivi). Sia f
una funzione misurabile a valori positivi e consideriamo una successione di
funzioni semplici (ϕn )n≥1 tale che ϕn ↑ f : si definisce integrale di f il numero
Z Z
f dm = lim ϕn dm
n≥1
R 
Il limite esiste poiché la successione di numeri ϕn dm n≥1 è crescente
(il limite eventualmente può essere +∞); apparentemente però la definizione
4.2.8 è ambigua perché si possono prendere in considerazione diverse succes-
sioni approssimanti. In realtà questa ambiguità non sussiste come dimostra
il risultato seguente:
Teorema 4.2.9 (Proprietà di Beppo Levi). Se (ϕn )n≥1 e (ψn )n≥1 sono
due successioni di funzioni semplici convergenti alla funzione f si ha
Z Z
lim ϕn dm = lim ψn dm
n→∞ n→∞

Inoltre se (fn )n≥1 è una successione di funzioni misurabili a valori positivi,


si ha Z Z
fn ↑ f =⇒ fn dm ↑ f dm

Dimostrazione. Fissiamo n e consideriamo la successione di funzioni semplici


(ϕn ∧ ψm )m≥1 : questa è crescente e converge a ϕn . Per la Proposizione 4.2.5
si ha Z Z Z

ϕn dm = lim ϕn ∧ ψm dm ≤ lim ψm dm
m→∞ m→∞
R R
e, di conseguenza, limn→∞ ϕn dm ≤ limm→∞ ψm dm. Scambiando le due
successioni si ottiene la diseguaglianza opposta e quindi l’eguaglianza: questo
dimostra la prima affermazione.
78 CAPITOLO 4. PROBABILITÀ GENERALE

Per quanto riguarda la seconda, consideriamo per ogni n una successione


di funzioni semplici (ϕn,m )m≥1 convergente crescendo ad fn , e poniamo ψn =
maxi,j≤n (ϕi,j ).
È immediato constatare che (ψn )n≥1 è una successione crescente di fun-
zioni semplici, che per ogni n si ha ψn ≤ fn e che ψn ↑ f : si ha pertanto
Z Z Z
f dm = lim ψn dm ≤ lim fn dm .
n→∞ n→∞
R R
Ma, poiché per ogni n si ha fn dm ≤ f dm, si ottiene l’eguaglianza
cercata.

R Si verifica facilmente
R che,
R se f, g sono misurabili positive
R ed a > 0,
R si ha
(af + g)dm = a f dm + gdm ; inoltre se f ≤ g, allora f dm ≤ gdm.
Consideriamo ora una generica funzione misurabile f , e poniamo f + =
f ∨ 0 = max(f, 0) e f − = −(f ∧ 0) = − min(f, 0) : entrambe sono funzioni
misurabili (è una verifica immediata) e si ha |f | = f + + f − e f = f + − f − .
Definizione 4.2.10 (Funzione integrabile
R e integrale). Si dice che la
funzione misurabile f è integrabile se |f |dm < +∞, e in tal caso si chiama
integrale di f il numero
Z Z Z
f dm = f dm − f − dm .
+


Lo spazio delle funzioni integrabili viene indicato L1 E, E, m (o più
semplicemente LR1 se non c’è ambiguità):
R se Rf, g ∈ L1 ed a è un numero
qualsiasi,
R si haR (af + g)dm = a f dm + gdm. R Mentre l’eguaglianza
R
R af dm = a. f dm è immediata, l’eguaglianza (f + g) dm = f dm +
g dm è conseguenza di questo fatto che lasciamo provare come esercizio:
R f = g −R h dove g,
se R h sono misurabili, a valori positivi e integrabili, si ha
f dm = g dm − h dm .
Teorema 4.2.11 (Convergenza dominata). Sia (fn )n≥1 una successione
di funzioni misurabili convergente puntualmente ad f e supponiamo che esista
g integrabile a valori positivi tale che si abbia, per ogni x ∈ E , |fn (x)| ≤
g(x) : allora si ha Z Z
lim fn dm = f dm .
n→∞

Anche di questo risultato omettiamo la dimostrazione; ci limitiamo ad


osservare che la condizione |fn (x)| ≤ g(x) (valida ovviamente anche per il
limite f ) porta come conseguenza che ogni fn (e cosı̀ pure il limite f ) è
integrabile.
4.2. COSTRUZIONE DELL’INTEGRALE 79

Osservazione 4.2.12. La costruzione esposta in questo paragrafo è valida


(praticamente senza modifiche) per l’integrale rispetto ad una generica mi-
sura m non di probabilità (tale che si abbia m(E) = +∞). L’unica modifica
sostanziale è nella definizioneP
di funzione semplice : bisogna considerare delle
funzioni ϕ della forma ϕ = ni=1 ai IAi con Ai tali che m(Ai ) < +∞.
L’integrale della funzione
R f rispetto alla misura di Lebesgue (se esiste) è
usualmente denotato f (x) dx .
Sostanzialmente senza modifiche rispetto al Capitolo 2 si prova la dise-
guaglianza di Schwartz: se f 2 e g 2 sono integrabili, il prodotto f g ∈ L1 e si
ha sZ sZ
Z
f g dm ≤ f 2 dm g 2 dm .

Osservazione 4.2.13 (Integrale rispetto ad una misura discreta).


Quando l’insieme E è numerabile (o più in generale la misura è concentrata
su un insieme numerabile), l’integrale come è stato definito in questo capitolo
coincide con la definizione data nel Capitolo 2: basta verificare questo per le
funzioni a valori positivi.
Data una tale funzione f , definiamo

f (xj ) se j ≤ n
ϕn (xj ) =
0 se j > n

La successione (ϕn )n≥1 è una successione


R crescentePdi funzioni semplici con-
vergente ad f : poiché per ogni n si ha ϕn dm = j≤n f (xj )m(xj ), al limite
si ha la somma della serie, cioè la definizione data a suo tempo.
Possiamo ora introdurre una nuova categoria di probabilità su IR, molto
importante nelle applicazioni.
Definizione 4.2.14 (Densità di probabilità). Si chiama densità di proba-
bilità su IR una funzione reale f definita suR IR, misurabile e a valori positivi,
+∞
integrabile (secondo Lebesgue) e tale che −∞ f (x) dx = 1.
Ad una densità f è associata una probabilità P su B(IR) mediante la
formula Z
P(A) = f (x) dx
A

È immediato constatare che la funzione cosı̀ definita è semplicemente


additiva e che P(IR) = 1; per provare che è anche σ-additiva viene più comodo
mostrare la proprietà di continuità sulle successioni crescenti d’insiemi usando
la proprietà di Beppo Levi.
80 CAPITOLO 4. PROBABILITÀ GENERALE

Se An ↑ A, si ha che f.IAn ↑ f.IA e quindi


Z Z
P(An ) = f.IAn dx ↑ f.IA dx = P(A) .

Vale il seguente risultato


Teorema 4.2.15 (Integrazione rispetto a una misura definita da una
densità). Una funzione misurabile g definita su IR è integrabile rispetto a P
se e solo se il prodotto gf è integrabile rispetto alla misura di Lebesgue, e in
tal caso si ha Z Z
g(x) dP(x) = g(x)f (x) dx .

Dimostrazione. Cominciamo a supporre che g sia l’indicatrice di un insieme


misurabile A:
Z Z Z
IA dP = P(A) = f dx = f IA dx
A

Di conseguenza l’eguaglianza è vera per le funzioni semplici; data una generi-


ca g misurabile e positiva, e considerando una successione crescente appros-
simante (ϕn )n≥1 , applicando in entrambi gli integrali la proprietà di Beppo
Levi, si ha
Z Z Z Z
g dP = lim ϕn dP = lim ϕn f dx = g f dx
n→∞ n→∞

Considerata poi una funzione misurabile generica g, si considera la decom-


posizione g = g + − g − e si conclude facilmente.
Analoga è la definizione di probabilità definita da una densità su
IRn , B(IRn ) , ed il relativo teorema di integrazione.
Esaminiamo ora la funzione
R x di ripartizione di una probabilità definita da
una densità, cioè F (x) = −∞ f (t) dt : naturalmente F è continua, ma non
è vero il viceversa. Ci sono esempi di funzioni di ripartizione continue la
cui probabilità associata non è definita da una densità: l’esempio più noto è
quello della misura di Cantor, che sarà esposta in Appendice.
Vale il seguente risultato, che viene qui solo enunciato:
Proposizione 4.2.16 (Funzioni assolutamente continue). La probabi-
lità associata ad una funzione di ripartizione F è definita da una densità se
e solo se F è assolutamente continua, cioè per ogni ε > 0, esiste δ > 0 tale
che, prese delle coppie di punti (xi , yi ),
X X
|xi − yi | < δ =⇒ F (xi ) − F (yi ) < ε
i≤n i≤n
4.3. VARIABILI ALEATORIE GENERALI 81

La Proposizione precedente fornisce una precisa caratterizzazione che però


è poco pratica: di fatto si utilizza spesso questo criterio sufficiente (che lascia-
mo provare come esercizio). Supponiamo che la funzione di ripartizione F sia
continua e C 1 a tratti, cioè che sia derivabile con derivata continua eccetto
che in un insieme finito di punti a1 , . . . , an : allora la probabilità associata ad
F è definita da una densità e una versione della densità f è data (eccetto
che nei punti a1 , . . . , an ) dall’eguaglianza f (x) = dFdx(x) .
Notiamo che nei punti a1 , . . . , an possiamo definire la densità in un modo
qualsiasi, poiché si tratta di un insieme trascurabile (rispetto alla misura di
Lebesgue) e la densità interviene solo attraverso integrali.

4.3 Variabili aleatorie reali e vettoriali su uno


spazio di probabilità generale
Ora che disponiamo della teoria dell’integrazione rispetto ad una probabilità
su uno spazio Ω generale, possiamo estendere senza difficoltà le definizioni
date nel Capitolo 2 e riguardanti le variabili aleatorie (reali e vettoriali): c’è
però una differenza sostanziale. Nel Capitolo 2 non avevamo menzionato
problemi di misurabilità (perché in un insieme numerabile ogni sottinsieme
è misurabile) mentre ora dobbiamo essere molto precisi proprio riguardo a
questioni di misurabilità.

Definizione 4.3.1 (Variabile


 aleatoria reale). Assegnato uno spazio di
Probabilità Ω, F, P , si chiama variabile aleatoria reale una applicazione
misurabile X : (Ω, F) → (IR, B(IR)).

Quindi X deve essere tale che, ad esempio, per ogni x ∈ IR , X ≤ x =
X −1 ] − ∞, x] ∈ F.


Allora, data una funzione boreliana f : IR → IR, f ◦ X è ancora una


variabile aleatoria (ma questo non è più vero con una generica funzione f ).

Definizione 4.3.2 (Legge di Probabilità). Si chiama legge di probabilità


(o anche distribuzione di probabilità) di una variabile aleatoria reale X l’im-
magine di P mediante X; si chiama funzione di ripartizione di X la funzione
di ripartizione della sua legge di probabilità.

Si ha dunque, per ogni A boreliano, PX (A) = P X −1 (A) .




Chiamata poi FX la sua funzione di ripartizione, si ha


 
FX (x) = PX ] − ∞, x] = P X ≤ x .
82 CAPITOLO 4. PROBABILITÀ GENERALE

Osservazione 4.3.3. Assegnata comunque una probabilità Q su IR, B(IR) ,
esiste una variabile aleatoria X la cui legge di probabilità sia eguale a Q. La
costruzione è simile a quella che è stata fatta per le leggi di probabilità
discrete, ed è anche molto semplice (ma importante dal punto di vista me-
todologico): si può prendere Ω = IR, F = B(IR) e P = Q. Si considera
poi come applicazione X : IR → IR l’identità, cioè X(x) = x : è immediato
constatare che PX = Q . Una analoga costruzione (che non ripeteremo) si
può fare per le variabili vettoriali.

Vediamo ora l’estensione al caso generale del Teorema 2.4.1.

Teorema 4.3.4 (Integrazione rispetto ad una probabilità immagine).


Sia ϕ : IR → IR boreliana: ϕ è integrabile rispetto a PX se e solo se ϕ ◦ X è
integrabile rispetto a P e in tal caso vale la formula
Z Z

ϕ(x) dPX (x) = ϕ X(ω) dP(ω) .
IR Ω

Dimostrazione. La dimostrazione è simile a quella del teorema 4.2.15, ed è


abbastanza semplice. Cominciamo a verificare la formula nel caso in cui
ϕ = IA , con A boreliano.
Z
IA (x) dPX (x) = PX (A) = P X −1 (A) =

IR
Z Z

IX −1 (A) (ω) dP(ω) = IA ◦ X (ω) dP(ω)
Ω Ω

Di conseguenza la formula è vera per le combinazioni lineari di indicatrici


di boreliani, cioè per le funzioni semplici. Data ϕ misurabile positiva, si
prende una successione approssimante crescente (ϕn )n≥1 di funzioni semplici:
applicando Beppo Levi in entrambi gli integrali si ottiene
Z Z
ϕ(x) dPX (x) = lim ϕn (x) dPX (x) =
IR n→∞ IR
Z Z
 
lim ϕn X(ω) dP(Ω) = ϕ X(ω) dP(Ω)
n→∞ Ω Ω

Per passare poi al caso di ϕ di segno qualsiasi, si considera la decomposizione


ϕ = ϕ+ − ϕ− e si applica separatamente la formula a ϕ+ e ϕ− .

Perfettamente analoghe a quanto si è visto per il caso delle variabi-


li aleatorie discrete, sono le definizioni di valori attesi, momenti, varianza,
ecc. . .
4.3. VARIABILI ALEATORIE GENERALI 83

Ad esempio, il valore atteso di X (se esiste) è l’integrale


Z Z
 
E X = X(ω) dP(ω) = x dPX (x)
Ω IR

La dimostrazione del fatto che, se 1 ≤ p < q < +∞ ed X ammette mo-


mento di ordine q, allora ammette anche momento di ordine p, è sostanzial-
mente identica a quanto fatto per le variabili discrete: provare per esercizio a
tradurre questa dimostrazione. Allo stesso modo è identica la dimostrazione
della diseguaglianza di Chebishev.

Passiamo ora al caso delle variabili aleatorie vettoriali X = X1 , . . . , Xn
limitando per semplicità di notazioni l’esposizione al caso delle variabili alea-
torie doppie (X, Y ) (l’estensione al caso n-dimensionale è del tutto immedia-
ta).
Per definizione, si chiama variabile aleatoria doppia una applicazione mi-
surabile (X, Y ) : Ω, F → IR2 , B(IR2 ) . Le componenti X e Y sono due
 

funzioni definite su Ω a valori reali.


Proposizione 4.3.5. La coppia (X, Y ) è una variabile aleatoria (cioè è mi-
surabile come applicazione a valori in IR2 ) se e solo se entrambe le componenti
X e Y sono variabili aleatorie reali (cioè misurabili come applicazioni a valori
in IR).
Dimostrazione. Ricordiamo che B(IR2 ) è generata, ad esempio, dai prodotti
cartesiani ] − ∞, x]×] − ∞, y] : pertanto, se X e Y sono misurabili,
−1
] − ∞, x]×] − ∞, y] = X −1 ] − ∞, x] ∩ Y −1 ] − ∞, y]
  
X, Y

è un elemento di F. Viceversa, supponendo che la coppia (X, Y ) sia misura-


bile,
X −1 ] − ∞, x] = (X, Y )−1 ] − ∞, x]×] − ∞, +∞[
 

è un elemento di F.
La legge di probabilità della coppia (X, Y ) è l’immagine di P mediante
l’applicazione (X, Y ): è quindi una probabilità su B(IR2 ). Il Teorema 4.3.4
si estende senza difficoltà al caso vettoriale, in particolare presa ϕ : IR2 → IR
boreliana e limitata, vale la formula
Z ZZ

ϕ X(ω), Y (ω) dP(ω) = ϕ(x, y) dPX,Y (x, y)
Ω IR2

Nella formula precedente, si è considerata una funzione boreliana e limi-


tata perché in questo caso sicuramente è integrabile (rispetto ad una misura
84 CAPITOLO 4. PROBABILITÀ GENERALE

di probabilità); un altro caso in cui sicuramente l’integrale esiste è quando ϕ


è boreliana e a valori positivi.
La definizione di indipendenza di due variabili aleatorie X, Y è identica a
quella data a suo tempo per variabili discrete (vedi Definizione 2.5.6) ed in
maniera identica si prova il risultato seguente (vedi Corollario 2.5.11): se X
e Y sono indipendenti e f, g sono due funzioni boreliane, allora anche f ◦ X
e g ◦ Y sono indipendenti.
Per poter estendere al caso generale i risultati della Proposizione 2.5.9
e del Teorema 2.5.14, dobbiamo però insistere un poco sulla nozione di
probabilità prodotto.
Definizione 4.3.6 (Probabilità prodotto). Siano P e Q due probabilità
su IR, B(IR) :si chiama probabilità prodotto (e si indica P⊗Q) la probabilità
su IR2 , B(IR2 ) tale che, presi comunque due sottinsiemi boreliani A e B di
IR, si abbia  
P ⊗ Q A × B = P A).Q B
L’unicità di una tale probabilità è una facile conseguenza del Teorema
4.1.3 : infatti i rettangoli misurabili A × B (con A, B boreliani) sono una
famiglia di parti stabile per intersezione che genera la σ-algebra prodotto
B(IR2 ). L’esistenza invece è una conseguenza del Teorema 4.1.4 , ed è più
impegnativa da dimostrare: si considera l’algebra A di parti di IR2 formata
da unioni disgiunte di rettangoli misurabili sulla quale è definita la naturale
estensione della 4.3.6 e si dimostra che è σ-additiva. Non insistiamo su que-
sta costruzione, cito soltanto il fatto (che ci servirà tra poco) che vale una
estensione del Teorema di Fubini-Tonelli.
Più precisamente, se ϕ : IR2 → IR è boreliana e limitata (oppure a valori
positivi) vale la formula di integrazione
ZZ Z Z 
ϕ(x, y) dP⊗Q (x, y) = ϕ(x, y) dQ(y) dP(x)
IR2 IR IR

Nella parte destra della formula sopra scritta si può scambiare l’ordine di
integrazione, inoltre quando vengono scritte delle integrazioni successive (se
non vi sono parentesi) vengono svolte da destra verso sinistra: scriveremo
cosı̀ più semplicemente
ZZ Z Z
ϕ(x, y) dP⊗Q (x, y) = dP(x) ϕ(x, y) dQ(y)
IR2 IR IR

È immediata l’estensione al caso generale della caratterizzazione provata


nel caso delle variabili discrete con la Proposizione 2.5.9: più precisamente
X e Y sono indipendenti se e solo se PX,Y = PX ⊗ PY .
4.4. VARIABILI ALEATORIE CON DENSITÀ 85

Ed in modo analogo, si estende facilmente il Teorema 2.5.14:


Teorema 4.3.7. Supponiamo che X ed Y siano indipendenti e dotate di
momento primo: anche XY ha valore atteso e vale la formula
     
E XY = E X E Y
Dimostrazione. Cominciamo ha provare che E[|XY |] < +∞ utilizzando il
Teorema di Fubini-Tonelli:
ZZ
 
E |XY | = |xy| dPX ⊗ PY (x, y) =
IR2
Z Z
   
= |x| dPX (x) |y| dPY (y) = E |X| E |Y | < +∞
IR IR
Ripetendo gli stessi passaggi senza i valori assoluti, si ottiene la tesi.

4.4 Variabili aleatorie con densità


Definizione 4.4.1. Si dice che la v.a. reale X ha densità f se la sua legge
di probabilià PX ha densità f , cioè se per ogni boreliano A vale la formula
Z
 
P X ∈ A = PX A = f (x) dx
A
Rx
Di conseguenza la funzione di ripartizione è data da F (x) = −∞ f (t) dt
ed è pertanto continua, ma come sappiamo non è vero il viceversa. Per questo
motivo è piuttosto fuorviante la denominazione di variabili aleatorie conti-
nue che alcuni testi danno: bisognerebbe piuttosto dire variabili aleatorie
assolutamente continue.
Se si modifica la densità f su Run insieme trascurabile (per la misura di
Lebesgue) il valore degli integrali A f (x) dx non viene alterato: per questo
la densità di probabilità, più che una funzione, è una classe di equivalenza
di funzioni (intendendo per equivalenti due funzioni che differiscono su un
insieme trascurabile).
Proposizione 4.4.2. Sia X una variabile aleatoria reale. Sono equivalenti
le due seguenti affermazioni:
1. X ha densità f ;
2. per ogni funzione reale ϕ boreliana e limitata, vale la formula
Z
 
E ϕ(X) = ϕ(x) f (x) dx
IR
86 CAPITOLO 4. PROBABILITÀ GENERALE

Dimostrazione. La dimostrazione è del tutto immediata, ma come vedremo


il criterio fornito da questa Proposizione è molto utile.
Da una parte, supponendo che X abbia densità f , utilizzando i Teoremi
4.3.4 e 4.2.15, si ha
Z Z
 
E ϕ(X) = ϕ(x) dPX (x) = ϕ(x) f (x) dx
IR IR

Viceversa, prendendo A boreliano e considerando ϕ = IA , si ha


Z Z
  
P X ∈ A = E IA ◦ X = IA (x)f (x) dx = f (x) dx
IR A

In maniera del tutto analoga viene data la definizione di variabile aleatoria


vettoriale X = (X1 , . . . , Xn ) con densità, e l’estensione n-dimensionale della
Proposizione 4.4.2.
Il risultato che viene ora enunciato è l’analogo per variabili con densità
della Proposizione 2.5.5.

Proposizione 4.4.3. Sia (X, Y ) una variabile doppia con densità f (x, y):
anche le componenti X ed Y ammettono densità f1 ed f2 che soddisfano le
formule
Z +∞ Z +∞
f1 (x) = f (x, y)dy f2 (y) = f (x, y) dx
−∞ −∞

Dimostrazione. Si utilizza il criterio fornito dalla Proposizione 4.4.2. Sia


ϕ : IR → IR boreliana limitata:
ZZ Z hZ i
 
E ϕ(X) = ϕ(x)f (x, y) dx dy = ϕ(x) f (x, y) dy dx
R
Questo equivale a dire che la funzione x−→ f (x, y) dy è la densità di X.

Osservazione 4.4.4. Viceversa, conoscendo le densità marginali delle com-


ponenti X e Y , non si può ricostruire la densità congiunta, anzi non è nep-
pure detto che la coppia (X, Y ) abbia densità! Per fornire un controesempio,
consideriamo una variabile X con densità e la coppia (X, X) ; provare che
quest’ultima non può avere densità.

Il risultato seguente è l’analogo per variabili con densità della Proposizio-


ne 2.5.9.
4.4. VARIABILI ALEATORIE CON DENSITÀ 87

Proposizione 4.4.5. Sia (X, Y ) una variabile doppia con densità: le va-
riabili X e Y sono indipendenti se e solo se tra le densità vale la seguente
relazione (quasi ovunque)

f (x, y) = f1 (x) f2 (y)

Dimostrazione. È un facile esercizio provare che, se P1 e P2 hanno densità


rispettivamente f1 ed f2 , la probabilità prodotto P1 ⊗ P2 ha come densità
la funzione f1 (x)f2 (y) (che è talvolta chiamata il prodotto tensore delle due
funzioni f1 ed f2 ).
Di conseguenza vale quella relazione tra le densità se e solo se la legge di
probabilità congiunta è il prodotto delle singole leggi.
Vediamo ora l’analogo per variabili con densità della Proposizione 2.5.16.

Proposizione 4.4.6 (Formula della convoluzione). Siano X, Y due va-


riabili indipendenti con densità rispettivamente f1 ed f2 : la somma (X + Y )
ha densità g data dalla formula
Z +∞
g(x) = f1 (x − y)f2 (y) dy
−∞

Dimostrazione. Di nuovo si usa la Proposizione 4.4.2. Sia ϕ : IR → IR


boreliana limitata
ZZ Z Z
 
E ϕ(X+Y ) = ϕ(x+y)f1 (x)f2 (y)dx dy = f2 (y)dy ϕ(x+y)f1 (x)dx =
Z Z Z hZ i
= f2 (y)dy ϕ(t)f1 (t − y)dt = ϕ(t) f1 (t − y)f2 (y)dy dt

Le formule che ora seguono esprimono come si trasforma la densità di una


variabile aleatoria (reale o vettoriale) se si applica ad essa un diffeomorfismo:
ricordiamo che si chiama diffeomorfismo un’applicazione biunivoca tra due
aperti A e B di IRk , che sia differenziabile con inversa differenziabile.

Proposizione 4.4.7. Sia X una v.a. reale con densità f diversa da 0 su un


aperto A ⊆ IR e sia h : A → B un diffeomorfismo. Consideriamo la variabile
Y = h(X) : essa ha densità g data da
(
0 se y ∈
/B
g(y) = −1
 d h−1 (y)  dx(y)
f h (y)
dy
= f x(y) dy
se y ∈ B
88 CAPITOLO 4. PROBABILITÀ GENERALE

Dimostrazione. È essenzialmente una conseguenza della formula del cambio


di variabili per gli integrali. Data ϕ boreliana limitata, si ha
Z
   
E ϕ(Y ) = E ϕ h(X) = ϕ(h(x)) f (x) dx =
A

 d h−1 (y)
Z
= ϕ(y) f h−1 (y) dy
B d y

Esempio 4.4.8. La densità più semplice che si possa immaginare è la densità


uniforme sull’intervallo [0, 1] cosı̀ definita

1 per 0 < x < 1
f (x) =
0 altrimenti

Sia X con tale densità e sia Y = log(X) : la densità di Y è data da


 y
e per y < 0
g(y) =
0 per y ≥ 0

La formula per la trasformazione della densità di una v.a. vettoriale X


mediante un diffeomorfismo è anch’essa conseguenza della formula del cambio
di variabili per integrali (questa volta n-dimensionali) ed è del tutto analoga
−1
alla formula 4.4.7: il termine d hd y(y) è sostituito col valore assoluto del
determinante della matrice Jacobiana della funzione h−1 .
Vediamo come si usa in concreto questa formula, limitandoci per sem-
plicità al caso di una variabile doppia (X, Y ) con densità f diversa da 0
sull’aperto A di IR2 : consideriamo un diffeomorfismo h da A su B e sia
(U, V ) = h(X, Y ). La coppia (U, V ) ha una densità g che si annulla fuori di
B, mentre su B soddisfa la formula

 ∂x ∂x

g(u, v) = f x(u, v), y(u, v) . ∂u
∂y
∂v
∂y
∂u ∂v

a b
dove con si intende il valore assoluto del determinante della matrice
  c d
a b
.
c d
4.5. ESEMPI 89

Esempio 4.4.9. Sia (X, Y ) avente densità


 −(x+y)
2e per 0 < x < y
f (x, y) =
0 altrimenti

e sia (U, V ) = (X +Y, X −Y ) : vogliamo calcolare la densità di (U, V ) .

Innanzi tutto è facile verificare che la funzione sopra scritta è effettiva-


mente una densità, cioè che si ha
ZZ ZZ
f (x, y) dx dy = 2 e−(x+y) dx dy = 1
IR2 {0<x<y}

Inoltre è immediato constatare che  l’applicazione


h(x, y) = (x+y, x−y) è
2
un
 diffeomorfismo dall’aperto A = (x, y) ∈ IR 0 < x < y sull’aperto B =
(u, v) ∈ IR2 u > 0 , −u < v < 0 : l’inversa di h si calcola immediatamente,
si ha infatti x = u+v 2
e y = u−v
2
. È immediato anche il calcolo del modulo del
∂x ∂x 1
determinante ∂u ∂y
∂v
∂y = 2 .
∂u ∂v
La densità g della coppia (U, V ) risulta pertanto essere
 −u
e per u > 0 , −u < v < 0
g(u, v) =
0 altrove

È sempre prudente verificare che si ha effettivamente, come in questo


caso, ZZ ZZ
g(u, v) du dv = e−u du dv = 1
IR2 B

4.5 Esempi di variabili aleatorie con densità


4.5.1 Densità uniforme
Si chiama densità uniforme sull’intervallo ]a, b[ una densità che è costante su
quell’intervallo e nulla fuori: si avrà quindi
 1
b−a
per a < x < b
f (x) =
0 altrimenti

È un facile esercizio provare che, se X è una v.a. con tale densità, si ha


(b−a)2
E[X] = a+b
2
e V ar(X) = 12
.
90 CAPITOLO 4. PROBABILITÀ GENERALE

4.5.2 Densità Gamma


Premettiamo la Rdefinizione della funzione Gamma: questa è definita, per
+∞
r > 0, da Γ(r) = 0 xr−1 e−x dx. Questa non si può calcolare esplicitamente,
ma è immediato verificare
 (tramite una integrazione per parti) che, se r > 1,
si ha Γ(r) = r − 1 Γ(r − 1). Inoltre Γ(1) = 1 e di conseguenza, per n intero,
Γ(n) = (n − 1)!
Definizione 4.5.1. Si chiama densità Gamma di parametri r e λ , (r >
0 , λ > 0), (e si indica Γ(r, λ)) la funzione definita da
 1 r r−1 −λx
Γ(r)
λx e x>0
f (x) =
0 x≤0
È un facile calcolo provare che si tratta effettivamente di una densità di
probabilità; quando r = 1, la densità Γ(1, λ) si chiama più semplicemente
esponenziale di parametro λ.
Se X ∼ Γ(r, λ) e β > 0, è facile provare che vale la seguente formula
Γ(r + β)
E Xβ =
 
Γ(r) λβ
e da questa si calcolano facilmente i momenti della variabile X : ad esempio
E[X] = λr .
Proposizione 4.5.2. Se X ∼ Γ(r1 , λ) , Y ∼ Γ(r2 , λ) e sono indipendenti,
allora (X + Y ) ∼ Γ(r1 + r2 , λ)
Dimostrazione. Si utilizza la formula della convoluzione (Proposizione 4.4.6):
per semplificare i conti, limitiamoci al caso in cui X e Y sono esponenziali
di parametro λ. La densità di (X + Y ) si annulla per x ≤ 0, e per x > 0 è
eguale a Z x
g(x) = λ2 e−λ(x−y) e−λy dy = λ2 x e−λx
0
che è appunto la densità Γ(2, λ).
La densità esponenziale esibisce una sorta di assenza di memoria che è in
un certo senso l’analogo per variabili con densità della proprietà delle variabili
geometriche.
Esercizio 4.5.3. Sia X una variabile con densità esponenziale e siano x, y
positivi: provare che si ha
  
P X > x + y X > x = P X > y (4.5.1)
Viceversa, sia X una variabile a valori positivi con legge di probabilità diffusa,
e supponiamo che, presi comunque x e y positivi, valga l’eguaglianza (4.5.1):
provare che X ha densità esponenziale.
4.5. ESEMPI 91

4.5.3 Densità Gaussiana


R +∞ x2 √
Abbiamo visto che −∞
e− 2 dx = 2π : ne segue che la funzione f (x) =
2
√1 − x2

e è una densità di probabilità, detta densità Normale o Gaussia-
Rx t2
na N (0, 1) , e la funzione Φ(x) = √12π −∞ e− 2 dt è la relativa funzione di
ripartizione.
Per una variabile X ∼ N (0, 1) si ha E[X] = 0 (non c’è bisogno di fare
x2
calcoli, poichè la funzione x e− 2 è una funzione
  dispari,
 e quindi il suo
integrale su tutto IR è 0). Viceversa V ar X = E X 2 = 1, come si verifica
facilmente integrando per parti: si ha infatti
Z +∞ Z +∞
1 2 − x2
2 −1 2 +∞

− x2 1 x2
√ x e dx = √ x e + √ e− 2 dx = 1
2π −∞ 2π −∞ 2π −∞
Definizione 4.5.4 (Variabile Gaussiana). Si dice che la variabile X ha
X−m
2

legge gaussiana N (m, σ ) m ∈ IR , σ > 0 se σ ha legge N (0, 1)
Si può pertanto rappresentare X nella forma X = σY + m , con Y ∼
N (0, 1) : ne segue immediatamente che E[X] = m , V ar X = σ 2 . Inoltre,
come conseguenza della Proposizione 4.4.7, la densità di Y è la funzione g
definita da
1 (y−m)2
g(y) = √ e− 2σ2
2π σ
 
Proposizione 4.5.5. Se X ∼ N m1 , σ12 , Y ∼ N m2 , σ22 e sono indipen-
denti, allora (X + Y ) ∼ N m1 + m2 , σ12 + σ22 .
Dimostrazione. Ci si può ridurre al caso in cui m1 = m2 = 0 , e, per sempli-
cità di conti, limitiamoci al caso in cui σ1 = σ2 = 1 . Applicando la formula
della convoluzione, la densità g di (X + Y ) è data da

1 − x2 +∞ − 12 √2y− √x 2
Z +∞ Z
1
 
− 21 y 2 +(x−y)2
g(x) = e dy = e 4 e 2 dy
2π −∞ 2π −∞

Facendo il cambio di variabile 2y − √x2 = t , l’integrale sopra scritto
risulta eguale a
x2 +∞
1 e− 4
Z
t2 1 1 x2
√ e− 2 dt = √ √ e− 4
2π 2 −∞ 2π 2
cioè (X + Y ) ∼ N (0, 2).
1 1

Esercizio 4.5.6. Se X ∼ N (0, 1), allora X 2 ∼ Γ ,
2 2
.
92 CAPITOLO 4. PROBABILITÀ GENERALE

4.6 Due parole sulla convergenza di variabili


aleatorie
Uno studio accurato della convergenza di variabili aleatorie sarà oggetto di
un corso più avanzato; qui ci limitiamo a qualche elemento utile per i teoremi
limite che sono impiegati nell’inferenza statistica.
Ricordiamo la definizione di convergenza in probabilità:

Definizione 4.6.1 (Convergenza  in probabilità). Si dice che la succes-


sione di variabili aleatorie Xn n≥1 converge in probabilità alla v.a. X se,
per ogni ε > 0 , si ha

lim P Xn − X > ε = 0
n→∞

La convergenza in probabilità ad una costante c è un caso particolare di


quella definizione, poiché le costanti possono essere viste come delle variabili
aleatorie. Notiamo ancora che nella definizione 4.6.1 imporre “> ε” oppure
“≥ ε” porta allo stesso risultato, in quanto
   ε
ω |Xn (ω)−X(ω)| > ε ⊆ ω |Xn (ω)−X(ω)| ≥ ε ⊆ ω |Xn (ω)−X(ω)| >
2
e di conseguenza
   ε
P |Xn − X| > ε ≤ P |Xn − X| ≥ ε ≤ P |Xn − X| >
2
Vediamo la seguente leggera generalizzazione del Teorema 2.7.1:

Teorema 4.6.2 (Legge dei grandi numeri). Sia X1 , X2 , . . . una succes-


sione di variabili aleatorie dotate di momento secondo, incorrelate, e suppo-
niamo che E[Xi ] = m per ogni i (cioè hanno tutte lo stesso valore atteso)
e che esista una costante K tale che si abbia V ar(Xi ) ≤ K qualunque sia i
 sono equilimitate). Allora, posto Sn = X1 + · · · + Xn , la
(cioè le varianze
successione Snn n≥1 converge in probabilità ad m .

Dimostrazione. È sempre
 Snuna
 conseguenza della diseguaglianza di Chebi-
Sn 1
 K che E n = m e che V ar n = n2 V ar(X1 ) + · · · +
shev, osservando
V ar(Xn ) ≤ n .

Soprattutto in statistica, è usuale indicare X n = Snn (la media empirica


delle variabili X1 , . . . , Xn ).
A volte sono comodi i criteri seguenti, che vengono enunciati come eser-
cizio:
4.6. CONVERGENZA DI VARIABILI ALEATORIE 93

Esercizio 4.6.3. Sia (Xn )n≥1 una successione di variabili aleatorie dotate di
momento secondo e supponiamo che
  
lim E Xn = c lim V ar Xn = 0
n→∞ n→∞

Provare che la successione converge in probabilità a c ; provare con un con-


troesempio che il criterio è soltanto sufficiente.

Esercizio 4.6.4. Sia Xn n≥ una successione di variabili aleatorie e siano
Fn (.) le relative funzioni di ripartizione. Sono equivalenti le affermazioni
seguenti:

• (Xn )n≥1 converge in probabilità a c ;

• per x < c , limn→∞ Fn (x) = 0 , e per x > c , limn→∞ Fn (x) = 1 .

Tra le varie proprietà della convergenza in probabilità ci limitiamo alla


seguente, che sarà utilizzata più avanti:

Proposizione 4.6.5. Sia Xn n≥1 una successione convergente in probabilità
a c e sia g una funzione boreliana continua nel punto c : allora Yn = g(Xn )
converge in probabilità a g(c).

Dimostrazione. Dato ε > 0 , esiste δ > 0 tale che: |x − c| ≤ δ ⇒ |g(x) −


g(c)| ≤ ε .
Di conseguenza vale la seguente inclusione di insiemi
n o n o
g(Xn ) − g(c) > ε ⊆ Xn − c > δ

Un altro tipo di convergenza era stato incontrato nel Teorema limite di


DeMoivre-Laplace: diamo una definizione precisa.

Definizione
 4.6.6 (Convergenza in legge). Si dice che la successione di
v.a. Xn n≥1 converge in legge (o anche in distribuzione) alla v.a. X se per
ogni f : IR → IR continua e limitata, si ha
   
lim E f Xn = E f X
n→∞

Proposizione 4.6.7. Siano Xn e X variabili aleatorie, Fn ed F le relative


funzioni di ripartizione; supponiamo inoltre che F sia continua (cioè la legge
di X sia diffusa). Allora sono equivalenti le seguenti affermazioni:
94 CAPITOLO 4. PROBABILITÀ GENERALE

a) la successione (Xn )n≥1 converge a X in legge;

b) per ogni x ∈ IR , si ha limn→∞ Fn (x) = F (x) .


Dimostrazione. Supponiamo che sia verificato a): scegliamo x ∈ IR , δ > 0
e consideriamo una funzione continua f tale che f (t) = 1 per t ≤ x, f (t) =
0 per t ≥ (x + δ), e decrescente tra x e x + δ. Per ogni n , valgono le
diseguaglianze
Z
 
Fn (x) ≤ f (t) dFn (t) = E f Xn ≤ Fn (x + δ)
R
(la notazione g(t) dF (t) indica l’integrale di g rispetto alla probabilità as-
sociata alla funzione di ripartizione F ) e le stesse diseguaglianze valgono per
la variabile limite . Si ha pertanto
Z Z
F (x + δ) ≥ f (t)dF (t) = lim f (t)dFn (t) ≥ lim sup Fn (x)
n→∞ n→∞

In modo analogo si prova la diseguaglianza F (x − δ) ≤ lim inf n→∞ Fn (x) , e


per la continuità di F si può concludere che limn→∞ Fn (x) = F (x) .
Supponiamo viceversa che sia soddisfatto b) , e consideriamo una funzione
continua f uniformemente limitata in modulo dalla costante 1 (ci si può
ridurre a questo caso).
Dato ε > 0 , esiste M > 0 tale che si abbia F (−M ) ≤ ε e F (M ) ≥ 1 − ε ;
esiste di conseguenza n1 tale che, per n ≥ n1 , si abbia Fn (−M ) ≤ −2ε e
Fn (M ) ≥ 1 − 2ε.
ConsideriamoP poi una funzione ϕ costante a tratti (più precisamente della
forma ϕ(x) = ni=1 ai I]xi ,xi+1 ] (x)) che sia nulla fuori di ] − M, M ] e che su
quell’intervallo differisca da f per meno di ε .
R R
È evidente che si ha lim Rn→∞ ϕ dFRn = ϕ dF , e dunque esiste n2 tale
che, per n ≥ n2 , si abbia ϕ dFn − ϕ dF < ε .
Sia ora n = max(n1 , n2 ) e consideriamo n ≥ n . Valgono le seguenti
diseguaglianze

Z Z Z Z

f − ϕ dF ≤ |f | dF + |f − ϕ| dF + |f | dF ≤
]−∞,−M ] ]−M,M ] ]M,+∞[

≤ F (−M ) + ε + 1 − F (M ) ≤ 3ε
R
In modo analogo si prova che si ha |f − ϕ| dFn ≤ 5ε .
Si ottengono allora le disuguaglianze:
4.7. APPENDICE 95

Z Z Z Z Z Z
f dFn − f dF ≤ |f −ϕ| dFn + ϕ dFn − ϕ dF + |f −ϕ|dF ≤ 9ε

Poiché questo si verifica per ogni ε > 0 , si ottiene cosı̀ il risultato.

Alla luce del risultato precedente, il Teorema 2.7.5 (teorema Limite Cen-
trale per variabili Binomiali) può essere visto come un risultato di convergen-
za in Legge. In verità quel risultato è valido in ipotesi molto più generali, e la
dimostrazione è lasciata ad un corso più avanzato: tuttavia è comodo poter
utilizzare subito questo risultato generale. Quello che viene qui enunciato,
senza dimostrazione, è il Teorema Limite Centrale di Paul Lévy:

Teorema 4.6.8. Sia X1 , X2 , . . . una successione di variabili indipendenti


equidistribuite, dotate di momento primo µ e di varianza σ 2 (diversa da 0):
posto Sn = X1 + · · · + Xn , la successione

Sn − nµ √  X n − µ 
√ = n
nσ σ

converge in legge alla variabile gaussiana N (0, 1) .

Osservazione 4.6.9. Abbiamo visto come si possono costruire n v.a.


X1 , . . . , Xn indipendenti con leggi assegnate P1 , . . . , Pn , ma nei precedenti
teoremi limite intervengono successioni di variabili aleatorie: in realtà si
può costruire una sorta di prodotto infinito di probabilità, ma questo sarà
l’oggetto di un corso più avanzato. Tuttavia questa costruzione non è ne-
cessaria per dare un senso sia alla legge dei Grandi Numeri che al teorema
Limite Centrale. È sufficiente infatti costruire per ogni n, eventualmente su
diversi spazi Ωn , le variabili X1 ,
. . . , Xn : questo
 permette di dare un senso a
n Sn n −nµ
Sn √
quantità come P n
− m > ε oppure P a ≤ σ n ≤ b , e solo queste

intervengono negli enunciati dei teoremi limite sopra riportati.

4.7 Appendice
4.7.1 Alcune leggi di probabilità di rilevante interesse
in Statistica
Prima di illustrare alcune leggi di probabilità di rilevante interesse nell’infe-
renza statistica, introduciamo la definizione di quantile: data una funzione
di ripartizione F ed un numero 0 < α < 1, intuitivamente lo α-quantile è
96 CAPITOLO 4. PROBABILITÀ GENERALE

il numero rα tale che F (rα ) = α (quindi,


 per
una variabile aleatoria X con
funzione di ripartizione F , si ha P X ≤ rα = α).
Notiamo che abbiamo già incontrato, alla fine del Capitolo 3, l’α-quantile
della legge N (0, 1) , cioè il numero qα tale che Φ(qα ) = α.
La definizione sopra enunciata non presenta difficoltà se l’applicazione
F è biunivoca da un intervallo I ⊆ IR su ]0, 1[ , ma in generale si possono
presentare due difficoltà. Può darsi che F abbia una discontinuità intorno al
valore α, in modo che non esista alcun numero rα con la proprietà richiesta;
e può darsi che sia costante su un intervallo in modo che esista tutto un
intervallo di numeri r tali che F (r) = α . La definizione deve allora essere
modificata in questo modo:

Definizione 4.7.1 (Quantile). Data una funzione di ripartizione F ed un


numero 0 < α < 1 , si chiama α-quantile di F il numero cosı̀ definito

rα = inf x ∈ IR F (x) > α .

Le leggi di probabilità che vengono ora esposte, sono state introdotte per
l’applicazione a problemi di inferenza statistica.

Definizione 4.7.2 (Legge chi-quadro). Si chiama legge chi-quadro a n


n 1
2

gradi di libertà (e si indica χ (n)) la legge Γ 2 , 2 .

Il motivo per cui è stato dato un nome particolare a questa legge Gamma
è il seguente: se (X1 , . . . , Xn ) sono indipendenti gaussiane N (0, 1) , allora
X12 + · · · + Xn2 ha legge χ2 (n) (la prova di questo fatto è una conseguenza
immediata dell’Esercizio 4.5.6 e della Proposizione 4.5.2).
Per agevolare i conti con questa particolare legge di probabilità, sono state
predisposte le tavole della legge Chi-quadro: più precisamente, in funzione
dei gradi di libertà n e del numero α, queste tavole assegnano il valore χ2(α, n)
dello α–quantile
 della
legge χ2 (n) (cioè, per una variabile X con densità χ2 (n)
si ha P X ≤ χ2(α, n) = α ).

Definizione 4.7.3 (Legge di Student). Siano X ∼ N (0, 1) , Y ∼ χ2 (n)


indipendenti: si chiama legge di Student a n gradi di libertà (e si indica T (n))
la legge di √
nX

Y
Prima di calcolare effettivamente la densità, osserviamo che se T è una
variabile di Student, ha legge simmetrica (cioè T e −T sono equidistribuite):
infatti una variabile con densità è simmetrica se e solo se la sua densità è
4.7. APPENDICE 97

nX
una funzione pari. Di conseguenza, poiché X ∼ N (0, 1) è simmetrica, √
Y

− nX
e √
Y
sono equidistribuite.
Il calcolo della densità (in verità piuttosto tedioso) è una conseguenza
della Proposizione 4.4.2 : siano f1 la densità di X ed f2 la densità di Y , e sia
ϕ boreliana limitata. Applicando il teorema di Fubini-Tonelli ed il cambio di
variabili, si ha

h  √ i √ 
nX
= {−∞<x<+∞ , y>0} ϕ √nyx f1 (x)f2 (y) dx dy
RR
E ϕ √
Y
R +∞ R +∞  √ 
= 0 f2 (y) dy −∞ ϕ √nyx f1 (x) dx
R +∞ R +∞  √ √
t y y
= 0 f2 (y) dy ∞ ϕ(t)f1 √n √n dt
R +∞ h R +∞  √  √ i
t y y
= −∞ ϕ(t) 0 f1 n f2 (y) n dy dt
√ √


nX
e ne segue che la densità di √
Y
è la funzione
Z +∞  t √y  √
y
g(t) = f1 √ f2 (y) √ dy
0 n n
Inserendo al posto di f1 ed f2 i valori delle densità, e portando avanti conti
faticosi anche se non difficili, si prova che la densità g è data da g(x) =
2 − n+1
cn 1 + xn 2
dove cn è una opportuna costante.
Per poter fare dei conti effettivi, sono state predisposte le tavole della
legge di Student: in funzione dei gradi di libertà n e di α, riportano il valore
t(α, n) dello α–quantile della legge τ (n)).
Poiché T ha una legge simmetrica (cioè la sua densità è una funzione pari)
si constata facilmente che vale l’eguaglianza t(α n) = −t (1−α ,n) ; ne segue che
se serve individuare un numero t tale che si abbia P |T | > t = α , questo
numero è dato da t = t(1− α2 ,n) .
Definizione 4.7.4 (Legge di Fisher). Siano Cn e Cm due variabili indi-
pendenti con legge rispettivamente χ2 (n) e χ2 (m) : si chiama legge di Fisher
Fn,m la legge di
Cn /n
Cm /m
Il calcolo della densità di tale variabile può essere condotto con passaggi
analoghi a quelli appena fatti: la densità risultante è evidentemente
n
nulla
x 2 −1
sulla semiretta negativa, e per x positivo vale c(n, m) n+m .
(m+nx) 2

Anche per la legge di Fisher sono state compilate opportune tavole che
danno, per alcuni valori di α, lo α-quantile della legge Fn,m .
98 CAPITOLO 4. PROBABILITÀ GENERALE

Concludiamo osservando che l’uso delle tavole statistiche, nella pratica, è


ora superato dall’uso di software statistici.

4.7.2 La misura di Cantor


L’insieme C di Cantor può essere definito come l’insieme dei numeri dell’in-
tervallo [0, 1] che possono essere scritti, in base 3, utilizzando le sole cifre 0 e
2. Ricordiamo che ogni numero di quell’intervallo può essere scritto, in base
3, nella notazione 0, a1 a2 a3 . . . intendendo con questa notazione +∞ an
P
n=1 3n . La
notazione è unica con una eccezione: ad esempio il numero 1/3 si può scrivere
0, 100 . . . = 0, 10 ma anche 0, 0222 . . . = 0, 02 . In questo caso scegliamo la
seconda notazione (e quindi 1/3 si può scrivere con le sole cifre 0 e 2 e pertanto
appartiene a C).
L’insieme C si può costruire in questo modo: dall’intervallo [0, 1] co-
minciamo a togliere l’insieme A1 dei numeri che hanno 1 come prima cifra
decimale, cioè l’intervallo aperto ] 13 , 32 [. Poi togliamo l’insieme A2 dei numeri
che non stanno in A1 e che hanno 1 come seconda cifra decimale (l’unione
dei due intervalli aperti ] 312 , 322 [ e ] 372 , 382 [ ) e cosı̀ via ... Ogni insieme An è
formato da 2n−1 intervalli aperti di lunghezza 3−n e quindi l’unione di questi
insiemi (An )n≥1 (che sono disgiunti) ha misura (secondo Lebesgue) eguale a
P +∞ n−1 −n
n=1 2 3 = 1.
Di conseguenza l’insieme C di Cantor (che è il complementare in [0, 1]
dell’unione di questi intervalli) è un insieme chiuso che ha misura 0 (cioè è
trascurabile) secondo Lebesgue. Viceversa la cardinalità di C coincide con
quella dell’intervallo [0, 1] (e quindi con quella di IR) : infatti C può essere
rappresentato come {0, 2}IN (cioè le successioni di cifre 0 e 2) , e la sua
cordinalità coincide ovviamente con quella di {0, 1}IN ed ogni numero tra 0
e 1 può essere rappresentato (in base 2) come successione infinita di cifre 0 e
1.
Costruiamo ora la funzione di ripartizione F della misura di Cantor (che
è una probabilità) mediante limite di una successione (Fn )≥1 di funzioni di
ripartizione continue approssimanti (infatti F non può essere scritta con una
espressione esplicita): ognuna delle (Fn )n (e quindi anche il limite) vale 0 per
x ≤ 0 e vale 1 per x ≥ 1.
Poi F1 è costante sull’insieme A1 e lineare a tratti nel complementare:
più precisamente vale 21 nei punti 13 e 32 ed è lineare tra 0 e 13 e tra 23 e 1.
Invece F2 coincide con F1 su A1 , è costante si ognuno degli intervalli che
compongono A2 e si raccorda negli altri punti in modo lineare a tratti: vale
1
22
nei punti 312 e 322 , vale 232 nei punti 372 e 382 e cosı̀ di seguito ...
4.8. ESERCIZI 99

È facile constatare che, dato n < m, si ha, per ogni x, Fn (x) − Fm (x) ≤
2−n : di conseguenza la successione Fn è di Cauchy per la convergenza uni-
forme e pertanto converge uniformemente ad una funzione F che è crescente
continua, vale 0 per x ≤ 0Se 1 per x ≥ 1 , ed è costante su ognuno degli
intervalli che compongono n≥1 An . Pertanto la probabilità m associata ad
F (la misura di Cantor) è una probabilità diffusa, concentrata sull’insieme
C (nel senso che il complementare di C è trascurabile per m ).
Se m avesse una densità f , si dovrebbe avere
Z

1 = m C = f (x) dx
C

ma questo è impossibile poiché l’integrale (secondo Lebesgue) di qualsiasi


funzione sull’insieme trascurabile C è 0.

È interessante sapere che ogni probabilità P sulla retta IR si può scrivere


nella forma P = m1 + m2 + m3 dove queste ultime sono sottoprobabilità (si
ha infatti m1 (IR) + m2 (IR) + m3 (IR) = 1 ) e sono tali che:

1) m1 è una misura discreta;

2) m2 è definita da una densità f ;

3) m3 è una misura diffusa concentrata su un insieme trascurabile secondo


Lebesgue.

La costruzione si può fare in questo modo: si prende la funzione di riparti-


zione F associata a P e si considera l’insieme D (al più numerabile, eventual-
mente vuoto) dei punti di discontinuità di F . La misura m1 è concentrata
nei punti di D e ad ogni punto x ∈ D è tale che m1 ({x}) = ∆F (x).
Si può dimostrare che la funzione F è derivabile quasi ovunque (secondo
Lebesgue) e la sua derivata f risulta essere una funzione misurabile a valori
positivi (e il suo integrale su IR è ≤ 1) : la misura m2 è associata alla densità
f.
La misura m3 si ottiene come differenza P − m1 − m2 (cioè, per ogni
A ∈ B(IR) , m3 (A) = P(A) − m1 (A) − m2 (A) ), e si prova che m3 è diffusa
e concentrata su un insieme trascurabile secondo Lebesgue.

4.8 Esercizi
Esercizio 4.8.1. Sia X una v.a. con densità a valori positivi: provare che
vale la formula
100 CAPITOLO 4. PROBABILITÀ GENERALE

Z +∞ 
E[X] = P X > x dx
0

Esercizio 4.8.2. Dire se le seguenti funzioni possono essere funzioni di ri-


partizione, ed in tal caso se la probabilità associata è definita da una densità.
Specificare inoltre se una v.a. che abbia quella legge di probabilità ammette
valore atteso.
1 1
F (x) = + arctg x
2 π

0 x<0
G(x) = 1
1− 2(1+x)
x≥0

0 x<0
H(x) = −2x
2 − 2e x≥0

 0 x<0
2
K(x) = 1 − (x − 1) 0 ≤ x < 1
1 x≥1

Esercizio 4.8.3. Supponiamo che la densità congiunta di una variabile dop-


pia (X, Y ) si possa scrivere nella forma f (x, y) = h(x).k(y), dove h e k sono
due funzioni boreliane positive: provare che X e Y sono indipendenti. Chi
sono rispettivamente le densità di X e di Y ?

Esercizio 4.8.4. Siano X e Y due variabili indipendenti con densità espo-


X
nenziale di parametro 1, e siano U = X + Y e V = X+Y .
a) Calcolare la densità congiunta di U, V .
b) U e V sono indipendenti?
c) Verificare che vale l’eguaglianza
 
X E[X]
E =
X +Y E[X] + E[Y ]
Esercizio 4.8.5. Sia (X, Y ) una variabile doppia avente densità
 −x
e per x > y > 0
f (x, y) =
0 altrimenti
e sia Z = X − Y .
a) Qual è la densità di Z ? Si tratta di una densità nota ?
b) Le variabili Y e Z sono indipendenti ?
4.8. ESERCIZI 101

Esercizio 4.8.6. Sia (X, Y ) una variabile doppia uniformemente distribuita


sul cerchio unitario {(x, y) | x2 + y 2 ≤ 1} .
a) Calcolare le densità marginali di X e di Y . Le componenti sono
indipendenti?
b) Calcolare le densità del modulo √ e dell’argomento; più precisamente le
Y

densità delle variabili aleatorie R = X 2 + Y 2 e T = arctg X .

Esercizio 4.8.7. Sia (X, Y ) una variabile aleatoria doppia con densità con-
giunta

x e−(x+y) se x > 0 e y > 0



f (x, y) =
0 altrimenti
a) X e Y sono indipendenti ?
Y
b) Calcolare (se esiste) il valore atteso di X .
c) Calcolare la densità della variabile X + Y .
d) Calcolare la densità della variabile U = min (X, Y ) .

Esercizio 4.8.8. Consideriamo una variabile aleatoria doppia (X, Y ) avente


come densità la funzione

10 x2 y se 0 < y < x < 1
f (x, y) =
0 altrimenti
a) Le componenti X e Y sono indipendenti?
b) Poniamo U = X e V = X Y
: calcolare la densità del vettore (U, V ) .
c) Le variabili U e V sono
indipendenti?
d) Calcolare P X > 2Y Y < 21 .


Esercizio 4.8.9. Sia (Xn )n≥1 una successione di variabili aleatorie indipen-
denti uniformemente distribuite sull’intervallo [0, 1] e siano rispettivamente
Mn = max(X1 , . . . , Xn ) e Vn = min(X1 , . . . , Xn ).
a) Calcolare le densità di Mn e Vn .
b) Indagare sulla convergenza in probabilità delle due successioni (Mn )n≥1
e (Vn )n≥1 .
102 CAPITOLO 4. PROBABILITÀ GENERALE
Capitolo 5

Inferenza statistica su uno


spazio di Probabilità generale

5.1 Modelli statistici generali


Ricordiamo la definizione di Modello Statistico, che è già stata data quando
abbiamo esaminato l’inferenza statistica su uno spazio di Probabilità nume-
rabile (vedi Definizione 3.2.1):
Definizione
 5.1.1 (Modello Statistico). Si chiama modello statistico una
θ

terna Ω, F, P , θ ∈ Θ dove Ω è un insieme, F una σ-algebra di parti di

Ω e, per ogni θ ∈ Θ , Pθ è una probabilità su Ω, F .
Ora abbiamo gli strumenti matematici per indagare il caso in cui Ω è uno
spazio qualsiasi, tuttavia per evitare eccessive generalizzazioni e poter fare
conti concreti, d’ora innanzi ci mettiamo in queste ipotesi:
Ipotesi 5.1.2 (Modello con densità). Supponiamo che il modello statistico
soddisfi le seguenti condizioni:
a) Ω è uno spazio euclideo IRn (o un sottinsieme misurabile di uno spazio
euclideo);

b) F è la σ-algebra di Borel su Ω ;

c) le probabilità Pθ ammettono densità rispetto alla misura di Lebesgue


n-dimensionale λ .
Osservazione 5.1.3. La σ-algebra di Borel B(A) su un sottinsieme misura-
bile A ⊆ IRn è formata dalle intersezioni degli elementi di B(IRn ) con A , o
(equivalentemente) è generata dagli aperti di A.

103
104 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Definizione 5.1.4 (Verosimiglianza). Si chiama verosimiglianza una fun-


zione L : Θ × Ω → IR+ tale che, fissato θ , L(θ, .) sia una versione della
densità di Pθ (rispetto alla misura di Lebesgue λ).
Conoscere la verosimiglianza equivale
 aR conoscere
R ogni probabilità
 Pθ , in
quanto si ha per ogni A ∈ F , Pθ A = .. A L θ ; x1 , . . . , xn dx1 . . . dxn .
Osservazione 5.1.5. Nel caso in cui Ω è uno spazio numerabile, avevamo
dato un’altra definizione (vedi 3.2.2): più precisamente L(θ, ω) = Pθ ({ω}) ,
e quindi apparentemente c’è una incongruenza tra queste due definizioni. In
realtà non è cosı̀ : entrambe sono casi particolari di densità.
Date due misure m1 e m2 su (E, E), si dice che m2 è definita dalla densità
f rispetto a m1 se f è misurabile positiva e si ha, per ogni A ∈ E,
Z
m2 (A) = f (e) dm1 (e)
A

Se si considera su un insieme numerabile Ω la misura m che conta i punti


(cioè m(A) = #A se A è in insieme finito, m(A) = +∞ se A è infinito), è
facile verificare che la funzione ω → Pθ ({ω}) è la densità di Pθ rispetto a m.
Un esempio frequente è il seguente:

Definizione 5.1.6 (Campione). Sia f (θ, .) , θ ∈ Θ una famiglia para-
metrizzata di densità di probabilità su IR: si chiama campione di taglia n e
densità f (θ, .) una famiglia di variabili aleatorie indipendenti, equidistribuite,
aventi densità f (θ, .) (sotto Pθ ).
La costruzione canonica di un campione è la seguente: si prende Ω = IRn
e si considera come verosimiglianza la funzione
n
Y

L θ ; x1 , . . . , x n = f (θ, xi )
i=1

Si definiscono inoltre come variabili Xi le proiezioni canoniche di indice i: è


immediato verificare che ponendo su Ω la probabilità Pθ definita dalla densità
L(θ, .) queste variabili risultano indipendenti ciascuna con densità f (θ, .).
Se ogni densità f (θ, .) si annulla fuori di un intervallo I ⊆ IR, conviene
considerare come spazio Ω = I n anzichè IRn .

Le definizioni di stima (e quindi stima corretta, rischio, . . . ), regione di


fiducia e test (e quindi livello, potenza,. . . ), che sono state date nel caso di
uno spazio Ω numerabile, si estendono senza modifiche nel caso considerato
in questo e nel successivo capitolo, e quindi non verranno ripetute.
Ricordiamo qui solo le proprietà che differiscono dal caso considerato in
precedenza, e cominciamo col richiamare la nozione di riassunto esaustivo.
5.2. STIME DI MASSIMA VEROSIMIGLIANZA 105

Definizione 5.1.7 (Riassunto esaustivo). Una variabile aleatoria T : Ω →


E è detta un riassunto esaustivo se si può scrivere la verosimiglianza nella
forma  
L θ ; x1 , . . . , xn = h θ , T (x1 , . . . , xn ) k(x1 , . . . , xn )
Il Teorema 3.4.3 ha un analogo nel risultato seguente:
Teorema 5.1.8. Sia T un riassunto esaustivo e U una stima  di g(θ) : esiste
una stima V della forma V (x1 , . . . , xn ) = f T (x1 , . . . , xn ) preferibile a U,
inoltre V è strettamente preferibile a meno che U non sia già nella forma
f ◦ T . Infine, se U è corretta, anche V è corretta.
Non riportiamo però la dimostrazione che questa volta è più complicata; è
interessante sapere che entrambe le dimostrazioni (del caso discreto e del caso
con densità) sono casi particolari di una più generale che richiede nozioni più
avanzate di quelle che sono introdotte in questo corso (la nozione di speranza
condizionale).

5.2 Un risultato sulle stime di massima vero-


simiglianza
Richiamiamo la definizione di stima di massima verosimiglianza, che è già
stata data nella Definizione 3.3.6:
Definizione 5.2.1 (Stima di massima verosimiglianza). Sia assegnato
un modello statistico tale che Θ ⊂ IR : si dice che U è una stima di massima
verosimiglianza se, per quasi ogni (x1 , . . . , xn ) ∈ Ω, si ha
 
L U (x1 , . . . , xn ) ; x1 , . . . , xn = max L θ ; x1 , . . . , xn
θ∈Θ

Ricordiamo che usualmente si indica θb la stima di massima verosimiglian-


za (se esiste). Vale l’analogo del Teorema 3.3.7, e questa volta ne forniamo
una dimostrazione completa.
Teorema 5.2.2. Supponiamo che Θ sia  un intervallo di IR e sia assegnata
una famiglia di densità f (θ, x) , θ ∈ Θ che si possano scrivere nella forma

f (θ, x) = c(θ) . exp θ T (x) . g(x)
con una opportuna applicazione T : IR → IR. Consideriamo un campione
infinito X1 , X2 , . . . con densità f (θ, .) e supponiamo che esista, per ogni n, la
stima di massima verosimiglianza θbn relativa al campione di taglia n: allora
la successione di stime θbn n≥1 è consistente.
106 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Ricordiamo che quando le densità verificano la condizione del Teorema


5.2.2, si dice che si ha un modello esponenziale: la definizione può essere
estesa al caso a dimensione maggiore di 1, supponendo Θ ⊆ IRk e che esista
una applicazione (boreliana) T : IR → IRk in modo che si abbia

f (θ, x) = c(θ). exp hθ, T (x)i .g(x)

dove h., .i è il prodotto scalare in IRk . Con questa definizione più generale il
Teorema 5.2.2 rimane vero ed il principio della dimostrazione non cambia, è
solo un poco più complicato.
Vediamo ora la dimostrazione del Teorema 5.2.2.
R
Dimostrazione. Poichè si deve avere f (θ, x) dx = 1, ne segue che
Z −1  

c(θ) = exp θ T (x) g(x) dx = exp − ψ(θ)

g(x) dx . Per calcolare ψ 0 (θ) si può derivare


R θ T (x) 
essendo ψ(θ) = log e
sotto il segno di integrale, e si ottiene
R
0 T (x) eθ T (x) g(x) dx θ
h i
ψ (θ) = R = E T X i
eθ T (x) g(x) dx
Con conti analoghi, facili ma un poco più lunghi, si prova  l’eguaglianza
ψ 00 (θ) = V arθ T (Xi ) ; poichè necessariamente V arθ T (Xi ) è strettamen-
te positiva (vedi l’osservazione al termine della dimostrazione) ne segue che
la funzione ψ 0 (θ) è strettamente crescente e quindi invertibile.
La verosimiglianza del campione n-simo assume la forma
  X Y
Ln θ ; x1 , . . . , xn = exp θ T (xi ) − n ψ(θ) g(xi )
i≤n i≤n

e per cercare il punto θ che rende massima questa P espressione è sufficien-



te cercare il punto di massimo della funzione θ−→ θ i≤n T (xi ) − n ψ(θ) .
Questo si può fare risolvendo l’equazione (detta equazione di massima vero-
simiglianza) P 
0
 i≤n T Xi
ψ θ =
θ=θbn n
e di conseguenza la stima di massima verosimiglianza (che per ipotesi esiste)
  Pi≤n T (Xi ) 
0 −1
è data dall’espressione θn = ψ
b
n
.
Fissiamo una probabilità Pθ : per la Legge dei Grandi Numeri (Teorema
P T Xi θ
 
4.6.2) la successione i≤n n
converge in probabilità a E T (X 1 ) =
5.3. RITORNO AL LEMMA DI NEYMAN-PEARSON 107
−1
ψ 0 θ e quindi (poiché ψ 0

è una funzione continua) per la Proposizione
−1 0 
4.6.5, θbn converge in probabilità a ψ 0 ψ (θ) = θ.

Osservazione 5.2.3. Vediamo perché (come è stato  affermato nel corso del-
θ
la dimostrazione) necessariamente V ar T (Xi ) > 0 : ricordo che solo le
costanti hanno varianza 0, e se T (x) fosse costante (quasi ovunque) la den-
sità f (θ, x) sarebbe proporzionale alla funzione g(x) e in definitiva queste
densità sarebbero tutte eguali tra loro e questo contraddice l’ipotesi che a
due parametri θ1 e θ2 diversi corrispondono due probabilità Pθ1 e Pθ2 diver-
se. Appare chiaro quindi che non si può avere V arθ T (Xi ) = 0 per ogni
parametro θ, ma si potrebbe obiettare che potrebbe essere eguale a 0 magari
per un solo θ ∈ Θ .
In realtà non è cosı̀ : la variabile T (Xi ) o è una costante per ogni pro-
babilità Pθ o non lo è per nessuna (e quindi ψ 00 (θ) o è sempre 0 oppure è
sempre strettamente positivo). Infatti le probabilità definite dalle densità
f (θ, x) ammettono gli stessi insiemi trascurabili (nel linguaggio della teoria
della misura sono equivalenti ), e ricordiamo che la densità f (θ, x) è la densità
della variabile Xi sotto Pθ . Ricordando che una funzione a valori positivi
ha integrale 0 se e solo se è nulla fuori di un insieme trascurabile, e poiché
exp θ T (x) è sempre strettamente positivo, un boreliano A è trascurabile
per la densità f (θ, x) se e solo se g(x) è nulla quasi ovunque sull’insieme A
(rispetto alla misura di Lebesgue): questa condizione dunque non dipende
dal parametro θ .

Osservazione 5.2.4. Nel Teorema precedente, abbiamo messo per ipotesi


che esista la stima di massima verosimiglianza θbn : infatti siamo tentati di
P T X 
−1 i
scrivere direttamente θbn = ψ 0
 i≤n
n
, ma senza quella ipotesi non
possiamo farlo perchè non siamo sicuri che, per ogni ω = (x1 , . . . , xn ) ∈
P  
i≤n T Xi (ω) 0
Ω, n
sia un elemento di ψ Θ .

5.3 Ritorno al Lemma di Neyman-Pearson


Il Lemma 3.6.4 (che abbiamo illustrato nel Capitolo 3 relativamente al caso
dei modelli discreti) ammette una versione praticamente identica nel caso di
modelli con densità:

Lemma 5.3.1 (Lemma di Neyman-Pearson). Supponiamo assegnato un


modello statistico
nel quale l’insieme Θ dei parametri
 è ridotto a due
 punti
(Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 .
108 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Consideriamo l’insieme D cosı̀ definito



D = (x1 , . . . , xn ) ∈ Ω L(θ0 ; x1 , . . . , xn )) ≤ c L(θ1 ; x1 , . . . , xn ))

dove c è una costante positiva. Allora

1. D è la regione critica di un test più potente di ogni altro test di livello


Pθ0 D ;
 
2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D .

Dimostrazione. Consideriamo una generica funzione ϕ : Ω → [0, 1] e notiamo


che per ogni ω = (x1 , . . . , xn ) vale la diseguaglianza
  
ID (x1 , . . . , xn )−ϕ(x1 , . . . , xn ) L(θ0 ; x1 , . . . , xn )−c L(θ1 ; x1 , . . . , xn ) ≤ 0

Integrando rispetto alla misura di Lebesgue, si ottiene


Z  Z 
θ0 θ0 θ1
≤ c P D − ϕ dPθ1
 
P D − ϕ dP

A questo punto la dimostrazione prosegue esattamente come per il Lemma


3.6.4.

In modo identico a quanto già visto nel caso di un modello discreto, si


parla di rapporto di verosimiglianza crescente rispetto a T, test unilateri ecc...
Non c’è difficoltà a tradurre tutto nella nuova situazione.

Osservazione 5.3.2 (Soglia di accettazione). Quando si pianifica un test


statistico, per prima cosa si sceglie un livello α (solitamente vicino a 0) e in
seguito si sceglie una regione critica D che abbia livello α .
Si deve cioè avere supθ∈Θ0 Pθ (D) ≤ α : dunque più il livello diminuisce,
più la regione critica tende ad essere piccola. Spesso ci si trova in questa
situazione: per ogni numero 0 < α < 1, è assegnata una regione critica
Dα di livello α in modo tale che, se α1 ≤ α2 , allora Dα1 ⊆ Dα2 . Inoltre
∪0<α<1 Dα = Ω e ∩0<α<1 Dα = ∅ .
Allora, per ogni ω̄ ∈ Ω (cioè per ogni risultato dell’indagine statistica) è
assegnato un numero ᾱ tale che, se α < ᾱ , ω̄ ∈ / Dα e se α > ᾱ , ω̄ ∈ Dα .
Tale numero ᾱ sarà chiamato soglia di accettazione.
5.4. DUE ESEMPI 109

5.4 Due esempi


Esempio 5.4.1 (Campione di legge esponenziale). Sia dato un campio-
ne X1 , . . . , Xn con densità esponenziale di parametro θ, θ > 0 .
P
Si considera Ω = (IR+ )n e L θ ; x1 , . . . , xn = θn e−θ( xi ) .


La variabile T = ni=1 Xi è un riassunto esaustivo. La ricerca della stima


P

di massima verosimiglianza (per il campione di taglia n) porta a θbn = PnXi ,


i

ed in base al Teorema 5.2.2 la successione di stime θbn è consistente.


Ci possiamo domandare se la stima θbn è corretta: per effettuare tale
θ
P
calcolo ricordiamo che (sotto P ) , i≤n Xi ∼ Γ(n, θ)). Di conseguenza
Z +∞
n θn
θ
θn xn−2 e−θx dx =
 
E θbn =
(n − 1)!
0 n−1

Vogliamo
 esaminare ora un test unilatero dell’ipotesi H 0 θ ≤ 1 contro
H1 θ > 1 al livello α : notiamo che
 n
L(θ2 ) θ2
= e−(θ2 −θ1 )T
L(θ1 ) θ1

cioè il modello è a rapporto di verosimiglianza decrescente rispetto a T.


Di conseguenza,
P conosciamo
la forma della  buona
P regione critica:
deve
1
essere D = i≤n X i ≤ c con c tale che P i≤n X i ≤ c ≤ α , cioè
1
P
P i≤n Xi > c ≥ (1 − α) . Per poter avere una regione critica più grande
possibile (allo scopo di aumentare la potenza del test) imponiamo che la
diseguaglianza appena scritta sia un’eguaglianza.
Si deve avere

+∞ h cn−1 cn−2
Z
1 i
(1 − α) = xn−1 e−x dx = e−c + +···+c+1
(n − 1)! c (n − 1)! (n − 2)!

È evidente che, dato α, esiste uno ed un solo c positivo che soddisfa


l’equazione sopra scritta, ma il calcolo esplicito deve essere fatto con appros-
simazioni numeriche.  
Consideriamo il test dell’ipotesi H0 θ = 2 contro l’alternativa H1 θ 6= 2 :
partiamo dal fatto che, sotto P2 , ogni variabile Xi ha valore atteso 1/2 e
varianza 1/4.
 P X
QuestoP suggerisce una regione critica della forma D = in i − 12 ≥ c

 X
con P2 in i − 12 ≥ c ≤ α . Il calcolo della probabilità sopra scritta può

110 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

essere fatto, con passaggi simili a quelli sopra indicati, ma i conti espliciti
diventano complicati.
Possiamo allora accontentarci di una maggiorazione ottenuta con la dise-
guaglianza di Chebishev:
P 
 P  V ar2 i Xi 2

X i 1 n V ar X i 1
P2 i − ≥ c ≤ 2
= 2
=
n 2 c nc 4nc2
−1/2
Prendendo c = 4nα si ottiene la diseguaglianza voluta.

Esempio 5.4.2. Consideriamo la famiglia di densità (per θ > −1)



(θ + 1) xθ 0<x<1
f (θ, x) =
0 altrimenti

e sia dato un campione di taglia n e densità f (θ, .).


Poichè la densità può essere scritta nella forma
 
f (θ, x) = θ + 1 exp θ log x I]0,1[ (x) ,

siamo in presenza di un modello esponenziale.


Considerando Ω =]0, 1[n e Θ =]−1, +∞[ , si ottiene per la verosimiglianza
l’espressione
n θ
 n  Y
L θ ; x1 , . . . , x n = θ + 1 xi
i=1
Q
e di conseguenza T = i Xi è un riassunto esaustivo.
Il calcolo della stima di massima verosimiglianza (per il campione di taglia
n) porta a
n
θbn = −1 − P
i≤n log Xi

e la successione di stime (θbn )n≥1 è consistente.  


Esaminiamo ora il test unilatero della forma H0 θ ≥ 0 contro H1 θ < 0 :
il rapporto delle verosimiglianze
  n Y
L θ2 θ2 + 1 θ −θ
 = Xi 2 1
L θ1 θ1 + 1 i
Q
è crescente rispetto
Q a T = i Xi e si ottiene pertanto
Q una regione critica
0
della forma D = i Xi ≤ c con c tale che P i Xi ≤ c = α , essendo
α il livello desiderato.
5.5. ESERCIZI 111

I calcoli con prodotti di variabili indipendenti non sono agevoli, ma si


può passare dai prodotti alle somme considerando i logaritmi: è immediato
verificare che, sotto Pθ , −
Qlog X i ha densità esponenziale di parametro (θ +1)
P
e di conseguenza − log i Xi = − i log Xi ∼ Γ(n, θ + 1) . Lasciamo
completare i dettagli al lettore.

5.5 Esercizi
Esercizio 5.5.1. Consideriamo un campione di taglia n di v.a. con densità
 −(x−θ)
e x≥θ
f (θ, x) =
0 x<θ
dove 0 < θ < +∞.
a) Indagare se esiste una statistica esaustiva T e la stima di massima
verosimiglianza di θ.
b) Esaminare se tale stima è corretta.
Si vuole esaminare ora il test dell’ipotesi

H0 ) θ ≤ 1 contro l’alternativa H1 ) θ > 1



utilizzando come regione critica D = T > c : determinare la costante c in
modo tale che il test sopra indicato abbia livello α .

Esercizio 5.5.2. Siano X1 , . . . , Xn variabili aleatorie indipendenti equidi-


stribuite, dotate di momento primo ePsecondo. Tra tutte le stime lineari del
valore atteso (cioè della forma U = i≤n ai Xi ) , trovare quella corretta di
varianza minima.

Esercizio 5.5.3. Viene condotto un sondaggio telefonico per determinare


la percentuale di famiglie che vedono un certo programma televisivo: se
si desidera che, nella determinazione di tale percentuale, l’errore non sia
superiore a 0,02 con un grado di fiducia del 90%, quante famiglie almeno
devono essere intervistate?

Esercizio 5.5.4. Sia X1 , . . . , Xn un campione di taglia n con densità unifor-


me sull’intervallo [0, θ] , 0 < θ < +∞.
a) Indagare se esiste una statistica esaustiva e trovare una stima corretta
di θ.
b) Trovare un intervallo di fiducia al livello 1 − α per il parametro
 θ (si
suggerisce di cercare un intervallo di fiducia della forma T , T (1 + d) con d
da calcolare opportunamente).
112 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

c) Trovare la regione critica di un test dell’ipotesi

H0 ) θ ≥ 1 contro l’alternativa H1 ) θ < 1


ad un livello α prefissato.
Capitolo 6

Inferenza statistica sui modelli


gaussiani

6.1 Campioni statistici gaussiani


I modelli gaussiani sono largamente usati nell’inferenza statistica, sia perché
sono molto maneggevoli dal punto di vista matematico, sia a causa del Teo-
rema Limite Centrale: si pensa che un fenomeno casuale della realtà sia la
combinazione di un numero elevato di disturbi casuali, e questo giustifica
l’ipotesi che possa essere rappresentato con distribuzioni gaussiane.
Si pone però un problema metodologico: la densità N (m, σ 2 ) (qualunque
siano m e σ 2 ) è strettamente positiva su ogni intervallo. Ad esempio, che va-
lore si può dare all’affermazione “l’altezza media dei giovani che si presentano
alla visita di leva a Pisa è gaussiana con media 180 (in cm) e varianza 100”?
Infatti risulta strettamente positiva la probabilità che l’altezza sia negativa,
oppure superiore a 300 e questo appare assurdo.
Tuttavia le cose sono in realtà molto meno drastiche: abbiamo visto che
i valori di una variabile con densità N (0, 1) sono di fatto compresi tra -3,5
e +3,5 (infatti Φ(3,5) differisce da 1 solo alla quarta cifra decimale) e di
conseguenza i valori di una variabile N (m, σ 2 ) sono compresi (a meno di
eventi di probabilità inferiore a 10−3 ) tra m − 3,5 σ e m + 3,5 σ . Tornando
all’esempio dei giovani alla visita di leva, questo si traduce nel considerare che
l’altezza è compresa tra 145 e 215 cm, affermazione che appare perfettamente
ragionevole.
Prima di addentrarci nell’esame di un campione di taglia n e densità
gaussiana, vediamo alcuni risultati di probabilità preparatori.
Lemma 6.1.1. Sia X = (X1 , . . . , Xn ) un vettore aleatorio formato da n
v.a. indipendenti con densità N (0, 1) , sia A una matrice n × n ortogonale

113
114 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

(cioè la matrice di un cambio di base) e sia Y = A X. Anche le componenti


(Y1 , . . . , Yn ) sono indipendenti con densità N (0, 1) .

Dimostrazione. La tesi equivale a dire che le variabili vettoriali X e Y sono


equidistribuite.
La densità del vettore aleatorio X (scritta con notazione vettoriale) è
− n 2
f (x) = 2π 2 exp − kxk 2
: se applichiamo la formula della Proposizione
4.4.7 (tenendo conto del fatto che la trasformazione y = A x è un diffeomor-
fismo, con inversa x = A−1 y , e osservando che kA−1 yk2 = kyk2 poiché A
è una matrice ortogonale), è immediato verificare che Y ha densità eguale a
quella di X .

Proposizione 6.1.2. Siano (X1 , . . . , Xn ) indipendenti con densità N (0, 1) ,


e definiamo X = X1 +···+X
n
n
. Valgono i seguenti risultati:
P 2
a) le variabili X e i≤n Xi − X sono indipendenti;
2
b) X ha densità N (0, n1 ) e ha densità χ2 (n − 1) ;
P
i≤n Xi − X

c) la variabile
√ √ X
n n − 1 qP 2
i≤n Xi − X
ha densità di Student T (n − 1) .

Dimostrazione. Sia e1 il vettore e1 = √1n , . . . , √1n e sia E1 il sottospazio




vettoriale di IRn generato da e1 ; sia poi E2 l’ortogonale di E1 e sia e2 , . . . , en


una base ortonormale di E2 . Sia poi A la matrice (ortogonale) di passaggio
dalla base canonica di IRn alla base e1 , . . . , en .
Indichiamo con X il vettore aleatorio (X1 , . . . , Xn ) e sia Y = A X : in
base al Lemma 6.1.1, le componenti Y1 , . . . , Yn sono ancora indipendenti con
densità N (0, 1) . Quindi Y1 è indipendente da (Y22 + · · · + Yn2 ) che ha densità
χ2 (n−1). √
Notiamo che Y1 = n X , inoltre Y22 + · · · + Yn2 = i Yi2 − Y12 = i Xi2 −
P P
2 P 2
nX = i Xi − X .
A questo punto le proprietà a) e b) sono immediate, e c) si ottiene come
facile conseguenza tenendo conto della definizione della densità di Student.

La proposizione precedente era preparatoria del teorema che ora segue,


che rappresenta il risultato preliminare fondamentale per l’inferenza statistica
6.1. CAMPIONI STATISTICI GAUSSIANI 115

su un campione gaussiano. Accanto alla notazione X che abbiamo appena


definito, ne introduciamo un’altra che sarà usata fino alla fine di questo
capitolo: se (X1 , . . . , Xn ) è un campione di n variabili aleatorie, indichiamo
con P 2
2 i Xi − X
S =
n−1
(e naturalmente S ne è la radice quadrata). Se c’è pericolo di confusione
(ad esempio se ci sono due campioni anche di taglia diversa (X1 , . . . , Xn ) e
(Y1 , . . . , Ym ) ) indicheremo S 2 (X) e S 2 (Y ) .
Teorema 6.1.3. Siano X1 , . . . , Xn indipendenti con densità N (m, σ 2 ) . Si
hanno i seguenti risultati:
a) le variabili X e S 2 sono indipendenti;
P 2
σ2 Xi −X
b) X ha densità N (m, n
) e i≤n
σ2
ha densità χ2 (n − 1) ;

c) la variabile √ 
n X −m
S
ha densità di Student T (n − 1) .
Dimostrazione. Possiamo scrivere Xi = σ Yi + m , dove Y1 , . . . , Yn sono indi-
pendenti con densità N (0, 1) e si applicano i risultati appena ottenuti nella
Proposizione 6.1.2
Si hanno infatti le seguenti eguaglianze:

X = σY + m;

− X)2
P
i (Xi
X
= (Yi − Y )2 ;
σ2 i
√  √
n X −m nσY √ √ Y
= q P = n n − 1 qP 2 .
S σ2 i (Yi −Y )
2
Yi − Y
n−1 i≤n

La facile conclusione è lasciata al lettore.

Consideriamo ora come modello statistico un campione di taglia n e


densità N (m, σ 2 ) : sullo spazio Ω = IRn consideriamo la verosimiglianza

1  P (x − m)2 
2 i i

L m, σ ; x1 , . . . , xn = n exp − =
(2π) 2 σ n 2 σ2
116 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

x2i m X  n m2
 P 
−n i
= (2π) 2 exp − + 2 xi − − n log σ
2 σ2 σ i
2 σ2
L’insieme dei parametri Θ è IR×]0, +∞[ e come d’abitudine, indichiamo
con X1 , . . . , Xn le proiezioni coordinate.
Si dice che la media è nota se il parametro m è fisso (e di conseguenza come
insieme dei parametri si considera Θ =]0, +∞[ ) ed analoga è naturalmente
la definizione di modello con varianza nota.

Dalla formula della verosimiglianza, appare


P evidenteP 2che
 si ottiene un
riassunto esaustivo con la variabile doppia i Xi , X ( se la media è
P 2 P i i
nota con i Xi − m , se la varianza è nota con i Xi ).

Indaghiamo ora sull’esistenza delle stime di massima verosimiglianza: è


sufficiente cercare i punti di massimo (rispetto a m ed a σ) dell’espressione
 P 2
m X  n m2

i xi
− + 2 xi − − n log σ
2 σ2 σ i
2 σ 2

e per fare questo(dopo


 aver verificato le condizioni al limite, cioè l’andamento
dell’espressione . . . per m → ±∞ e per σ → 0+ , σ → +∞) si annullano
le derivate parziali, ottenendo le equazioni
 P
∂ i xi nm
 
 0 =
 ... = −
∂m Pσ 2 σ 22
∂   i (x i − m) n
 0 = ... = −

∂σ σ 3 σ
Facili conti provano che valgono le seguenti stime di massima verosimi-
glianza per i parametri:
1) m
b = X sempre;
P 2
2 i Xi −m
2) σ
b = n
se m è nota;
P 2
Xi −X
b2 =
3) σ i
n
se m è sconosciuta.
2
Notiamo ancora che la densità  gaussiana N (m, σ ) si può scrivere nella
2
x
forma c(m, σ 2 ) exp − 2σ m
2 + σ2 x dove appare il prodotto scalare in IR2 tra
T (x) = x , x2 ed il parametro bidimensionale σm2 , − 2σ1 2 (che è ovviamente
 

in corrispondenza biunivoca col parametro naturale (m, σ 2 ) ). Siamo dunque


in presenza di un modello esponenziale e di conseguenza le stime di massima
verosimiglianza sopra riportate sono consistenti.
6.2. TEST SULLA MEDIA 117

È naturale chiedersi se queste stime siano corrette: è immediato


2 consta-
P
Xi −X
tare che X è una stima corretta del valore atteso, ma i n non è una
P 2
Xi −X
stima corretta della varianza. Infatti i σ2 ha legge χ2 (n − 1) e quindi
valore atteso (n − 1) .
Ne segue che una stima corretta della varianza è data da
P 2
2 i Xi − X
S =
n−1
Osservazione 6.1.4. L’ultima proprietà non è specifica delle variabili gaus-
siane: infatti date n variabili X1 , . . . , Xn indipendenti equidistribuite, dotate
di momento secondo, è sempre vero che

h P X − X 2 i
i i 
E = V ar X1
n−1
La prova di questo fatto è lasciata per esercizio.

6.2 Test sulla media di un campione gaussia-


no
In questo e nel successivo paragrafo supponiamo assegnato un campione
X1 , . . . , Xn di taglia n e densità gaussiana.
Quando la varianza è nota, test e intervalli di fiducia sulla media m sono
2
molto semplici e sono basati sulfatto che (sotto Pm ) X ha densità N m, σn

n X−m
(o, equivalentemente, σ
ha densità N (0, 1) ) : possiamo vedere un
paio d’esempi come esercizi.

Esempio 6.2.1 (Intervallo di fiducia per la media). Trovare un inter-


vallo di fiducia al livello 0,95 per la media di un campione gaussiano, con
varianza nota.

Notiamo che abbiamo appena indicato una funzione del parametro e della
variabie X la cui legge non dipende dal parametro m: possiamo dunque
agevolmente utilizzare il metodo della quantità pivot cercando un intervallo
di fiducia della forma [X(ω) − d , X(ω) + d] , con d tale che

n √n d√ n
m m

P X −m >d =P X − m > ≤ 0, 05

σ σ
118 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

Per avere un intervallo di fiducia più piccolo possibile, imponiamo


√ che la
n
diseguaglianza sopra scritta sia √ un’eguaglianza: ricordando che σ (X − m)
d n
ha densità N (0, 1), scegliamo σ = q0,975 = 1, 96 (dove qα è lo α-quantile
della legge N (0, 1)).
Si ottiene cosı̀ l’intervallo di fiducia X(ω) ± 1,96
√ σ .
n
Si noti la rassomiglianza con l’intervallo di fiducia approssimato per il
controllo di qualità (Esempio 3.5.3)

Esempio 6.2.2 (Test unilatero). Individuare la regione critica di un test


della forma H0 m ≤ m0 contro H1 m > m0 , con varianza nota, al livello
0,02

Prendiamo m1 < m2 e scriviamo il rapporto delle verosimiglianze:


 
L m2 ; x1 , . . . , xn hm − m X 
2 1 n m22 − m21 i
 = exp xi −
L m1 ; x1 , . . . , xn σ2 i
2 σ2

Questo risulta crescente  rispetto


alla v.a. X empertanto
 la regione critica
sarà della forma D = X ≥ c con c tale che P 0
X ≥ c = 0, 02 (si pone
l’eguale per avere la regione critica più grande possibile). 
È più comodo scrivere la√regione critica nella forma X − m0 ≥ d , e
ricordando che (sotto Pm0 ) σn X − m0 ha densità N (0, 1) , si pone


n o n √n √ o
n
m0 m0

0, 02 = P X − m0 ≥ d = P X − m0 ≥ d
σ σ

e di conseguenza si sceglie σn d = q0,98 = 2, 055 . Si rifiuta quindi l’ipotesi se
X(ω) (cioè la media aritmetica dei dati osservati) supera m0 + 2,055 √ σ .

n

Esaminiamo ora il caso (molto più interessante e realistico) di test sulla


media di un campione gaussiano con varianza sconosciuta, che è noto col
nome di test di Student.
Nel caso in √cui la varianza era nota, l’analisi

era basata essenzialmente
nX m n

sulla variabile σ , che ha densità N σ , 1 : poichè ora la varianza σ
non è nota, l’idea di Student è stata di sostituire a σ 2 la sua stima corretta,
cioè S 2 . L’analisi è ora concentrata sulla variabile

nX √ √ X
= n n − 1 qP
S 2
i≤n Xi − X

Cominciamo ad esaminare la sua distribuzione di probabilità.


6.2. TEST SULLA MEDIA 119

Definizione 6.2.3 (Legge di Student decentrata). Si chiama legge di


Student a n gradi di libertà decentrata di a (indicata anche T (n) decentrata
di a ) la legge di √
nX

Y
dove X ∼ N (a, 1) , Y ∼ χ2 (n) e sono indipendenti.

La densità di questa legge di probabilità può essere calcolata, con conti


molto tediosi, in modo analogo a quanto è stato fatto per la legge T (n)
non decentrata (vedi 4.7.3); in particolare è anche possibile verificare che
le densità di Student decentrate di a , al variare di a , sono a rapporto di
verosimiglianza crescente (rispetto all’identità, cioè alla variabile T (x) = x su
IR ). Se questi conti sono molto pesanti, è invece un facile esercizio constatare
che, se T sotto Pa ha legge
di Student (n dimensionale) decentrata di a , la
a
funzione a → P T > c è crescente, ed è questo solo che serve per il calcolo
della taglia nel test unilatero.

nX 2
Osservazione 6.2.4. La variabile

aleatoria S
(sotto Pm,σ ) ha legge di
m n
Student T (n−1) decentrata di σ .

Questa infatti è una conseguenza del fatto che si può scrivere


√ √
n
nX √ σ
X
= n−1 r
S P
X −X
2
i i
σ2

In particolare, la legge di probabilità di questa variabile dipende dunque


solo da mσ
.

Esempio 6.2.5 (Test di Student unilatero).  Consideriamo, al livello α,


la regione critica
 di un test dell’ipotesi H0 m ≤ 0 , σ qualsiasi , contro
l’alternativa H1 m > 0 , σ qualsiasi.

Il test può essere scritto in questo modo:


m m
H0 ≤0 contro H1 >0
σ σ

Poichè è stata individuata una variabile aleatoria (cioè nS X ) la cui di-
stribuzione di probabilità dipende solo da m σ
(ed è diversa per diversi valori
di mσ
) restringiamo la nostra indagine a questa variabile √
aleatoria: la sua
m n
distribuzione di probabilità (cioè T (n − 1) decentrata di σ ) è a rapporto
120 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

di verosimiglianza crescente rispetto a m


σ
e siamo pertanto condotti a una
regione critica della forma
√ √n X(ω)
 nX n o
D= ≥ d = ω ∈ Ω ≥d

S S(ω)

2 n X
con d tale che P0,σ S
≥ d = α (ricordiamo che tale probabilità non
dipende da σ se m = 0 ) : di conseguenza si prende d = t(1−α, n−1) (vedi
4.7.3).
In base ai risultati teorici conseguenti al Lemma di Neyman-Pearson,
sappiamo che questo

test è ottimale tra tutti i test basati sull’osservazione
nX
della variabile S (vedi Teorema 3.6.6 per una formulazione più precisa di
“ottimale”) ; in realtà si può dimostrare (facendo uso di nozioni più avanzate
di quelle introdotte in questo corso) che è ottimale nella classe di tutti i
possibili test sul modello.

Osservazione 6.2.6. Se il test è della forma


 
H0 m ≤ m0 , σ qualsiasi contro H1 m > m0 , σ qualsiasi

non ci si può basare sul rapporto mσ


: allora (come spesso si fa in matematica)

ci si riporta al caso precedente.
 Si considerano le variabili Xi − m0 (che
hanno legge N m−m0 , σ 2 ), e arriva di conseguenza a una regione critica
della forma
n √n X − m  o
0
D= ≥ t(1−α, n−1)
S
(lasciamo al lettore la verifica dei dettagli).

Esempio 6.2.7 (Test di Student). Consideriamo il test


 
H0 m = 0 , σ qualsiasi H1 m 6= 0 , σ qualsiasi

al livello α .

Il modo di procedere è simile a quello che è stato fatto precedentemente


(non riportiamo i dettagli) ; si arriva ad una regione critica D della forma
n √n X o
D = ≥d
S
con d tale che
n √n X o
0,σ 2
P ≥d =α
S
6.2. TEST SULLA MEDIA 121

Di conseguenza, si considera d = t(1− α2 , n−1) (vedi 4.7.3).



Il caso del test dell’ipotesi H0 m = m0 , σ qualsiasi , viene trattato in
modo analogo a quanto appena fatto: se α è il livello prescelto, si arriva alla
regione critica
n √n X − m o
o
D = ≥ t(1− α2 , n−1)
S
Esercizio 6.2.8. Il tempo medio di guarigione da una polmonite con i farma-
ci usuali è di 14 giorni: viene sperimentato su 17 pazienti un nuovo antibiotico
(più costoso) e vengono rilevati i tempi di guarigione x1 , . . . , x17 che danno i
risultati
X 17 X17
xi = 197 x2i = 2596
i=1 i=1

Si può affermare che il nuovo farmaco in realtà non è più efficace?

Questi numeri x1 , . . . , x17 vengono interpretati come i valori osservati


di un campione X1 , . . . , X17 con legge gaussiana N m, σ 2 sul quale viene
effettuato il test dell’ipotesi
 
H0 m ≥ 14 , σ qualsiasi contro H1 m < 14 , σ qualsiasi

ottenendo regione critica


n √17 X − 14 o
≤ t(α ,16)
S
dove α è il livello scelto. Ricordando che vale l’eguaglianza t(α ,n) = −t(1−α ,n) ,
dalle tavole della legge di Student si ricavano i valori t(0,05 ; 16) = −1,746 e
t(0,01 ; 16) = −2,58 .
2
P P
i xi 2 i (xi −x)
I calcoli sui valori

osservati portano a x = 17
= 11, 58 e s = 16
=
19, 56 ; e infine 17(x−14)
s
= −2, 25 . In conclusione, l’ipotesi viene rifiutata al
livello 0,05 ed accettata al livello 0,01 .
In una situazione di incertezza come questa (cioè risultati diversi in corri-
spondenza di scelte diverse del livello) occorre essere cauti prima di arrivare
a conclusioni pratiche.

Esempio 6.2.9 (Intervallo di fiducia per la media, con varianza sco-


nosciuta).

Anche questa volta possiamo utilizzare


√ X−m il metodo della quantità pivot
sfruttando il fatto che la variabile n S ha legge di Student T (n − 1) :
122 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

lasciamo verificare per esercizio che un intervallo di fiducia per la media al


livello (1−α) , con varianza sconosciuta, è della forma
t(1− α2 , n−1) S(ω)
X(ω) ± √ .
n

6.3 Test sulla varianza di un campione gaus-


siano
Contrariamente a quanto si è visto per la media, l’indagine sulla varianza di
un campione gaussiano è sostanzialmente identica nel caso in cui la media
sia nota e in quello in cui sia sconosciuta, ed è basata su queste proprietà:
P 2
i Xi −m
• se m è noto, σ2
ha densità χ2 (n) ;
P 2
i Xi −X
• se m è sconosciuto, σ2
ha densità χ2 (n − 1) .
Per essere precisi, le affermazioni sopra scritte sono vere sempre: si è detto
se m è noto per evidenziare il fatto che la prima variabile va utilizzata solo
nel primo caso. Per fissare le idee, concentriamoci sul secondo caso; come
è stato fatto nel paragrafo
2 precedente, limitiamo la nostra osservazione alla
2
variabile i Xi − X , la cui densità (sotto Pm,σ ) è, per x positivo, eguale
P
a x
n−3
f (x) = c(n)σ −(n+1) x 2 e− 2 σ2
Lasciamo per esercizio la elementare verifica di questo, cosı̀ come del fatto
che queste densità siano a rapporto di verosimiglianza crescente.
Esempio 6.3.1 (Test sulla varianza con media sconosciuta). Conside-
riamo il test

H0 σ 2 ≤ σ02 , m qualsiasi contro H1 σ 2 > σ02 , m qualsiasi


 

al livello α .
Si tratta di un test unilatero sulla varianza, e si arriva alla regione critica
nX 2 o
D = Xi − X ≥ c
i

con c scelto in modo tale che si abbia


n P X − X 2 co
m,σ02 i i
P ≥ =α
σ02 σ02
6.4. CONFRONTO TRA DUE CAMPIONI GAUSSIANI INDIPENDENTI123
2 P
Xi − X i
e di conseguenza (poiché la distribuzione di non dipende da
σ02
c
m e, per σ = σ0 , è χ2 (n − 1)), si considera 2 = χ2(1−α , n−1) (vedi 4.7.2).
σ0
Quindi, osservati i dati x1 , . . . , xn , si rifiuta l’ipotesi se i (xi − x)2 ≥
P
χ2(1−α , n−1) σ02 .

Osservazione 6.3.2. Il test dell’ipotesi H0 σ 2 = σ02 (non importa se con m
noto o sconosciuto) è meno agevole da trattare, ma per fortuna è anche meno
importante nelle applicazioni. Sappiamo che la varianza è una misura della
variabilità, di conseguenza
 2 applicato ad esempio a misurazioni su una produ-
2
zione, l’ipotesi H0 σ ≤ σ0 equivale a dire la produzione è sufficientemente
precisa e quindi ha un evidente interesse pratico, mentre è meno importante
indagare se la variabilità corrisponde esattamente a un certo valore teorico.

6.4 Confronto tra due campioni gaussiani in-


dipendenti
In questo paragrafo ci occupiamo del caso in cui l’osservazione statistica sia
formata da due campioni indipendenti X1 , . . . , Xn (di legge N m1 , σ12 ) e
2
Y1 , . . . , Yk (di legge N m2 , σ2 ).
Nel caso ad esempio in cui si abbiano dati su due siti archeologici diversi
sarebbe un grave errore raggruppare tutti i dati in un unico campione: oc-
corre tenere ben distinti i due campioni differenti. Quello che qui viene fatto
con due, naturalmente può essere esteso a tre e più campioni . . .
Il confronto tra i parametri di diversi campioni gaussiani indipendenti è
un importante ed impegnativo capitolo dell’inferenza statistica che va sotto
il nome di analisi della varianza: di esso ci limitiamo a dare qualche idea.
Volendo formalizzare come modello statistico il caso di due campioni
indipendenti, si considera Ω = IRn+k , l’insieme dei parametri è
Θ = IR2 ×]0, +∞[2 (si considera come parametro (m1 , m2 , σ12 , σ22 ) ) e la


verosimiglianza è data da

n
Y k
Y
L m1 , m2 , σ12 , σ22 ; x1 , . . . , xn , y1 , . . . , yk ) = fm1 ,σ22 (xi ) fm2 ,σ22 (yj )
i=1 j=1

essendo fm,σ2 la densità N (m, σ 2 ) . Si considerano poi come Xi le proiezioni


coordinate di indice i e come Yj le proiezioni di indice (n + j) .
124 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

Esempio 6.4.1 (Confronto tra due varianze). Identifichiamo il test


H0 σ12 ≤ σ22 H1 σ12 > σ22
 
contro
al livello α prescelto.
Quando, come si è fatto sopra, non si scrive nulla sui parametri m1 e m2 ,
si intende che questi sono qualsiasi.
Ricordiamo che la stima corretta di σ12 è data da
2 2 2
S 2 (X) =
P P
i≤n Xi − X /(n − 1) (e che i≤n Xi − X /σ1 ha densità
χ2 (n − 1) ), e analogamente per S 2 (Y ) : di conseguenza, se σ12 = σ22 , la
variabile P 2
S 2 (X) i Xi − X /(n − 1)
= P 2
S 2 (Y ) Yj − Y /(k − 1)
j

ha legge di Fisher Fn−1 , k−1 (vedi 4.7.4).


L’intuizione ci suggerisce di rifiutare l’ipotesi se il rapporto tra le stime
delle due varianze è troppo grande (questa intuizione può essere sostenuta da
un ragionamento più rigoroso, ma a prezzo di una certa fatica). Se chiamiamo
F( 1 − α , n, k) lo (1 − α)–quantile della legge Fn ,k , la regione critica del test
richiesto è data da
 2
P
i≤n Xi − X /(n − 1) 
D = P  2 ≥ F(1−α , n−1, k−1)
j≤k Yj − Y /(k − 1)

Esaminiamo ora il problema del confronto tra le medie, più impegnativo.


Definizione 6.4.2 (Problema di Behrens-Fisher). Si chiama problema
di Behrens-Fisher l’individuazione della regione critica del test dell’ipotesi
 
H0 m1 = m2 contro H1 m1 6= m2 .
In questo problema non si pone alcuna condizione sulle varianze: questo
problema ha ricevuto una soluzione completa (molto faticosa da ottenere)
solo in tempi recenti. Noi ci limitiamo al caso più semplice nel quale si abbia
σ12 = σ22 (cioè le varianze sono sconosciute, ma eguali).
Cominciamo con un facile risultato:
Lemma 6.4.3. Se m1 = m2 e σ12 = σ22 , la variabile

X −Y n+k−2
Zn,k = qP 2 P 2 q
1
i≤n Xi − X + j≤k Yj − Y n
+ k1
ha densità di Student T (n + k − 2) .
6.4. CONFRONTO TRA DUE CAMPIONI GAUSSIANI INDIPENDENTI125

Dimostrazione. Posto σ 2 = σ12 = σ22 , la variabile (X −Y )/σ ha legge N 0 , n1 +


1
 P 2 P 2  2
k
e la variabile i X i − X + j Y j − Y /σ legge χ2 (n + k − 2) .

Inoltre le quattro variabili X , Y , i (Xi − X)2 , j (Yj − Y )2 sono
P P
indipendenti: la conclusione a questo punto è immediata.

La soluzione del problema di Behrens-Fisher (sotto l’ulteriore ipotesi σ12 =


σ22 ) è a questo punto sostanzialmente
 un’estensione del test di Student: se
consideriamo l’ipotesi H0 m1 = m2 , si considera come regione critica (al
livello α) n o

D = Zn,k ≥ t(1− 2 , n+k−2)
α


mentre il test dell’ipotesi H0 m1 ≤ m2 avrà regione critica
n o
D = Zn,k ≥ t(1−α , n+k−2) .
Esempio 6.4.4. Le misurazioni delle tibie da scheletri provenienti dalle
tombe Etrusche di Cerveteri danno i seguenti risultati:
(xi − x)2
P
13 misurazioni x = 47, 2 = 7, 92 ,
12
mentre analoghe misurazioni dalle tombe di Ladispoli portano a
(yj − y)2
P
8 misurazioni y = 44, 9 = 9, 27 .
7
Il risultato è casuale o si può affermare (al livello 0,05) che gli abitanti di
Cerveteri erano effettivamente più alti?
Consideriamo i dati come risultati ottenuti su due campioni gaussiani
indipendenti: per prima cosa ci poniamo il problema se possiamo considerare
eguali le due varianze. Vogliamo più precisamente effettuare, al livelo 0,05,
il test
H0 σ22 = σ12 H1 σ22 > σ12
 
contro
(infatti, poiché la stima della varianza sul secondo campione risulta maggiore,
non ci poniamo il problema che σ22 possa essere minore: o è eguale, cioè il
risultato è casuale, o è effettivamente maggiore).
9,27
Dalle tavole si ricava il valore F(0,95 ; 7,12) = 2, 91 , e poiché 7,92 = 1,17 ,
accettiamo l’ipotesi dell’eguaglianza tra le due varianze.
A questo punto possiamo effettuare il test dell’ipotesi
 
H0 m1 = m2 contro H1 m1 > m2
I valori osservati per la variabile Z13 , 8 portano a 1,761. Poiché t(0,95 ;19) =
1,729 , si rifiuta l’ipotesi e si conclude (al livello 0,05 ) che gli abitanti di
Cerveteri erano effettivamente più alti.
126 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

6.5 Modelli statistici lineari: il teorema di


Gauss-Markov
Definizione 6.5.1 (Modelli lineari). Si chiama modello statistico lineare
un modello nel quale l’osservazione è data da n variabili aleatorie X1 , . . . , Xn
che si possano scrivere nella forma
k
X
Xi = aij θj + σWi
j=1

con le seguenti proprietà:

a) k < n , (θ1 , . . . , θk ) ∈ IRk e σ > 0 ;

b) la matrice n × k , A = [aij ] è di rango massimo (e quindi l’applicazione


lineare ad essa associata A : IRk → IRn è iniettiva;

c) le variabili W1 , . . . , Wn sono gaussiane N (0, 1) indipendenti.

Questa definizione è una generalizzazione della definizione che ora segue:


i modelli di regressione sono all’origine dei modelli lineari.

Definizione 6.5.2 (Modello di regressione). Il modello è detto di regres-


sione quando è della forma

Xi = θ1 + θ2 zi + · · · + θk zik−1 + σWi

con z1 6= z2 6= · · · =
6 zn (e k < n).

In questo caso la matrice A corrispondente è della forma

1 z1 . . . z1k−1
 

A= ... 
k−1
1 zn . . . zn

ed è noto che una tale matrice (matrice di Vandermonde) è di rango massimo:


i modelli di regressione sono dunque compresi nella Definizione 6.5.1.

Per i modelli lineari useremo anche la notazione vettoriale X = Aθ +σW.


Una prima osservazione è che le variabili aleatorie che costituiscono l’os-
servazione in un modello lineare non formano un campione: P infatti2 non sono
equidistribuite, sono tuttavia indipendenti, ed Xi ∼ N j aij θj , σ .
6.5. MODELLI LINEARI 127

L’insieme dei parametri è Θ = IRk ×]0, +∞[ , e sullo spazio Ω = IRn la


verosimiglianza è data da
 P xi − P aij θj 2

n

2
 −2 i j
L θ, σ ; x1 , . . . , xn = (2π) exp − − n log σ =
2 σ2
n
 kx − A θk2 
= (2π)− 2 exp − − n log σ .
2 σ2
Per essere precisi, non si dovrebbe direP nella Definizione 6.5.1 “le variabili
Xi ammettono la rappresentazione Xi = kj=1 aij θj + σWi ”, bensı̀ “sotto la
probabilità Pθ ,σ , la legge di X è eguale alla legge di k a θ + σW ”.
2 P
i j=1 ij j i

Premettiamo un facile lemma:


Lemma 6.5.3. Sia A : IRk → IRn una applicazione lineare iniettiva. Dato
x ∈ IRn , il punto y ∈ IRk che minimizza kx − A yk2 è dato da y = U x ,
−1
essendo U = At A At .
Dimostrazione. Cominciamo ad osservare che necessariamente k ≤ n (al-
trimenti A non potrebbe essere iniettiva); il caso k = n è banale e quindi
supponiamo k < n .
Proviamo che At A (che è una matrice k × k ) è effettivamente invertibile:
sia infatti y ∈ IRk tale che At A y = 0. Allora si ha

0 = hAt A y, yi = hA y, A yi = kA yk2

e, poiché A è iniettiva, segue che y = 0 . 2


È facile constatare che la funzione y → kx − Ayk2 = j xj − s ajs ys
P P
ammette minimo (è continua e tende a +∞ per kyk → +∞ ): per individuare
il punto di minimo, annulliamo le derivate parziali. Si ottiene, per ogni i :
X X 
0 = −2 aji xj − ajs ys
j s

cioè X XX
atij xj = atij ajs ys
j j s

che, scritta in notazione vettoriale, equivale a At x = At A y. La conclusione


è immediata.

Osservazione 6.5.4. Nelle ipotesi del Lemma precedente, si ha AU = P ,


dove P è la proiezione ortogonale da IRn sul sottospazio A IRk .
128 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

Torniamo all’espressione della verosimiglianza del modello nella forma


vettoriale
 kx − A θk2 
2 −n

L θ, σ ; x = (2π) exp −
2 − n log σ
2 σ2
per individuare le stime di massima verosimiglianza: in base al Lemma 6.5.3
la stima di θ è θ(x)
b = U x (o, scritta come variabile aleatoria, θ
b = U X ), e
la stima di σ 2 è
b 2
kX − Aθk kX − A U Xk2
b2 =
σ = .
n n
Le buone proprietà di queste stime di massima verosimiglianza sono messe
in luce dal risultato che viene ora enunciato.
Teorema 6.5.5 (Teorema di Gauss Markov). U X è una stima corretta
di θ , di rischio minimo tra tutte le stime lineari corrette. Inoltre
kX − A U Xk2
n−k
è una stima corretta di σ 2 .
Dimostrazione. Sia VX una P stima lineare di θ : più precisamente V è una
matrice k × n e V X i = j≤n vij Xj è una stima di θi .
 P P
Poiché V X i = j,s vij ajs θs + σ j vij Wj ed ogni variabile Wj ha va-
lore atteso 0, affinché valga l’eguaglianza Eθ ,σ V X
2 
i
= θ , deve valere
i
l’equazione V A = Ik , intendendo con Ik la matrice identità su IRk .
È immediato constatare che la matrice U soddisfa questo requisito. Consi-
deriamo viceversa una matrice  V che soddisfa questa condizione, e calcoliamo
il rischio della stima V X i :
2
h X 2 i h X 2 i X X
Eθ,σ θi − vij Xj = σ2E vij Wj = σ2 vij2 = σ 2 t 2
(vji )
j≤n j≤n j≤n j≤n

cioè è la norma della colonna i-ma della matrice V t .


Sia P la proiezione ortogonale di IRn sul sottospazio A(IRk ) e ricordiamo
che P = AU (vedi 6.5.4) : V P = V A U e di conseguenza U t = P V t (cioè la
colonna i-ma della matrice U t è la proiezione della colonna i-ma della matrice
V t ). Poiché la proiezione diminuisce la norma, segue che il rischio di U X è
inferiore a quello di V X .
La seconda parte del teorema è una conseguenza del fatto che
   
X − AU X = σ W − AU W = σ W − P W
6.6. ESERCIZI 129

coincide con W proiettato sull’ortogonale del sottospazio A(IRk ) (che è


(n − k)-dimensionale).
Se questo fosse costituito dal sottospazio
 delle prime (n − k) coordinate,
sarebbe immediato verificare che E kX − A U Xk2 = σ 2 (n − k) ; in generale,
si applica prima un cambio di base ortonormale in modo che i primi (n − k)
vettori della nuova base siano una base dell’ortogonale di A(IRk ) e si tiene
conto del Lemma 6.1.1.

Osservazione 6.5.6. Nella pratica, se non si dispone di un idoneo sof-


−1
tware statistico, non si calcola la matrice At A At , ma, osservati i valori
x1 , . . . , xn , i parametri (θb1 , . . . , θbk ) si stimano cercando
n 
X k
X 2
min xi − aij θj
(θ1 ,...,θk )∈IRk
i=1 j=1

cioè, come si usa dire, si stimano i parametri col metodo dei minimi
quadrati.
Osservazione 6.5.7 (Una curiosità storica). È facile verificare che Gauss
è morto un anno prima che nascesse Markov, e viene dunque naturale chieder-
si come possano aver trovato un teorema insieme: in realtà la formulazione
del Teorema 6.5.5 come è enunciata sopra è una rielaborazione dovuta a
Markov del metodo dei minimi quadrati ideato da Gauss.
Il primo utilizzo di questo metodo è stata fatto per risolvere un proble-
ma di astronomia: nel 1801 l’astronomo Piazzi aveva scoperto Cerere (il
più grande degli asteroidi del sistema solare interno) e ne aveva seguito la
traiettoria per qualche giorno, poi Cerere era diventato invisibile.
Le misurazioni effettuate vennero pubblicate e ne nacque una specie di
sfida scientifica per ricostruire la traiettoria del pianetino: Gauss (che aveva
solo 24 anni) a partire dalle misurazioni effettuate da Piazzi e ideando il me-
todo dei minimi quadrati, ricostruı̀ la traiettoria di Cerere e previde quan-
do e dove sarebbe riapparso. Dopo alcuni mesi Cerere venne nuovamente
osservato proprio dove Gauss aveva previsto.

6.6 Esercizi
Esercizio 6.6.1. Vengono prodotti artigianalmente dei manufatti che do-
vrebbero essere lunghi 120 cm, e si considera che la produzione e’ buona se
almeno il 90 % hanno una lunghezza compresa tra i 118 ed i 122 cm : assu-
mendo che la variabile aleatoria che rappresenta la lunghezza dei manufatti
130 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI

sia gaussiana, imporre delle limitazioni sulla varianza affinchè tale condizione
sia soddisfatta. P 2
Se vengono misurati 27 pezzi e si trova i≤27 xi − 120 = 54, 86 , si può
accettare al livello 0,05 l’ipotesi che la produzione sia di buona qualità ?

Esercizio 6.6.2. Una ditta farmaceutica, che propaganda un nuovo farmaco,


sostiene che abbrevia di almeno 4 giorni la durata di una malattia infettiva
rispetto ai farmaci tradizionali: a sostegno di questa tesi riporta i dati di un
esperimento condotto, come si usa dire, in doppio cieco, somministrando a
un gruppo di 11 pazienti il nuovo farmaco e ad un gruppo di controllo di 7
pazienti i farmaci tradizionali.
P I dati delle durate
P delle 2malattie, espresse
P in giornate, sono P i seguenti:
2
x
i≤11 i = 91, x
i≤11 i = 827, y
j≤7 j = 80, j≤7 yj = 976.

Pianificare un test per verificare, al livello 0,05 , se l’affermazione della


ditta può essere ritenuta corretta.

Esercizio 6.6.3. Siano X1 , . . . , Xn , Xn+1 indipendenti con densità gaussiana


N (µ, σ 2 ) (µ e σ 2 sconosciuti): siamo interessati ad utilizzare i valori osservati
di X1 , . . . , Xn per determinare un intervallo di fiducia (detto intervallo di
previsione) per Xn+1 al livello 1−α. A tale scopo, denotiamo X n = X1 +...+X n
n

2
P
i≤n (Xi −X n )
e Sn2 = n−1
.
Xn+1 −X n
a) Determinare la distribuzione di probabilità di Sn
;
b) ottenere un intervallo di fiducia per la variabile sopra scritta e dedurne
un intervallo di previsione per Xn+1 dati X1 , . . . , Xn .

Esercizio 6.6.4. Siano X1 , . . . , Xn e Y1 , . . . , Ym due campioni indipendenti


con densità gaussianaPN (m, σ 2 ) (identica per entrambi) , e definiamo X =
2
X1 +···+Xn i≤n (Xi −X)
n
e S 2 (X) = n−1
ed in modo analogo Y e S 2 (Y ).
a) Provare che, scelto comunque 0 < t < 1 , la v.a. tS 2 (X) + (1 − t)S 2 (Y )
è una stima corretta della varianza σ 2 .
b) Tra le stime sopra indicate, individuare quella di rischio quadratico
minimo.

Esercizio 6.6.5. Consideriamo un campione X1 , . . . , X17 di variabili gaus-


siane con media m sconosciuta e varianza 2 : supponiamo che la somma
dei valori osservati (x1 + · · · + x17 ) sia eguale a 11,82. Qual è la soglia di
accettazione per il test dell’ipotesi
H0 ) m = 0 contro l’alternativa H1 ) m 6= 0 ?

Potrebbero piacerti anche