Sei sulla pagina 1di 52

Note per il corso di Metodi Analitici e Statistici per

lIngegneria Fisica
Modulo di Statistica
Alessandro Toigo
6 ottobre 2015

Indice
1 Calcolo delle Probabilit`
a
1.1 Definizione e propriet`a elementari della probabilit`a . .
1.2 Probabilit`a condizionata . . . . . . . . . . . . . . . . .
1.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . .
1.4 Prove di Bernoulli . . . . . . . . . . . . . . . . . . . . .
1.5 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . .
1.6 La funzione di ripartizione di una variabile aleatoria . .
1.7 Funzioni di una variabile aleatoria e standardizzazione
1.8 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . .
1.9 Media e varianza di una variabile aleatoria . . . . . . .
1.10 Disuguaglianza di Chebyshev e legge dei grandi numeri
1.11 Teorema del limite centrale . . . . . . . . . . . . . . . .
1.12 Approssimazione normale e poissoniana della binomiale

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

5
5
11
15
18
20
26
29
31
38
46
50
51

INDICE

Capitolo 1
Calcolo delle Probabilit`
a
1.1

Definizione e propriet`
a elementari della probabilit`
a

In un esperimento aleatorio, un evento `e una qualunque proposizione riguardante il risultato dellesperimento stesso. Per chiarire le idee, consideriamo come esempio lesperimento aleatorio consistente in tre lanci consecutivi di una stessa moneta. Allora tutte le proposizioni seguenti sono
esempi di eventi:
Ti = esce testa alli-esimo lancio
(dove i = 1, 2, 3)
E = nei primi due lanci esce la stessa faccia
F = negli ultimi due lanci esce la stessa faccia
G = il risultato del primo e del terzo lancio sono diversi.
Tramite le operazioni logiche di (and), (or) e (not), gli eventi possono essere combinati
tra loro in modo da formare nuovi eventi oppure ottenere equazioni logiche. In questo modo, `e
facile vedere che linsieme degli eventi acquista una struttura di algebra booleana. Senza entrare
nei dettagli della definizione assiomatica precisa di unalgebra booleana, limitiamoci a osservare
che, nellesempio precedente dei tre lanci di una moneta, a partire dagli eventi T1 , T2 , T3 , E, F, G
possiamo scrivere
esce croce al primo lancio = T1
(1.1)
esce sempre testa = T1 T2 T3
esce la stessa faccia in tutti i lanci = E F
e ancora
E = (T1 T2 ) (T1 T2 )
E F = E G = (T1 T2 T3 ) (T1 T2 T3 )
T1 G = T1 T3
(E F ) T2 = (T1 T2 ) (T2 T3 ).

(1.2)

Notiamo in particolare limportanza delluso corretto delle parentesi quando sono coinvolte nella
stessa espressione entrambe le operazioni logiche e . Disporre le parentesi nel giusto ordine
5

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

`e essenziale tra laltro per enunciare nel modo corretto la propriet`a distributiva dellor rispetto
alland
A (C D) = (A C) (A D)
e lanaloga propriet`a distributiva delland rispetto allor
A (C D) = (A C) (A D).
Anche loperazione di not assume un diverso significato a seconda della sua posizione. Per
convincersene, basta osservare che nel lancio delle monete i due eventi T1 T2 e T1 T2 sono
completamente diversi. In generale, valgono infatti le leggi di De Morgan
AB =AB

A B = A B.

Per indicare limplicazione logica tra due eventi si usa il simbolo , cio`e
AB

significa che levento A implica levento B.

Per esempio, nellesperimento dei tre lanci di una moneta


T1 T2 T1
T1 T3 G.

(1.3)

Infine, un ruolo particolare `e giocato dallevento certo (indicato con 1) e dallevento impossibile
(che denoteremo 0). Per chiarire il significato di questi due eventi, osserviamo che per esempio
1 = T1 T1 = G (T1 T3 ) (T1 T3 )
e
0 = 1 = T1 T1 = E F G.
Lalgebra booleana che si ottiene dotando gli eventi delle operazioni logiche , e ricorda
(anche visivamente!) le operazioni di intersezione, unione e complementazione di insiemi. Questa
`e in effetti ben pi`
u di una semplice somiglianza intuitiva. Infatti, ci`o che si fa in probabilit`a `e
proprio rappresentare lalgebra degli eventi in unopportuna algebra di insiemi. Pi`
u precisamente:
(a) assegnato un esperimento aleatorio, si fissa un opportuno insieme , detto spazio campionario
(o spazio ambiente) di quel particolare esperimento;
(b) gli eventi dellesperimento vengono rappresentati in sottoinsiemi di , cio`e in insiemi E, F, G . . .
appartenenti allinsieme delle parti P() di ;
(c) in questa rappresentazione, le operazioni logiche , e vengono fatte corrispondere allintersezione , unione e complementazione c di insiemi; inoltre, limplicazione logica tra due
eventi corrisponde al contenimento di uno nellaltro.

` ELEMENTARI DELLA PROBABILITA


`
1.1. DEFINIZIONE E PROPRIETA

Per chiarire nuovamente le idee, torniamo ancora al nostro esempio dei tre lanci di una moneta.
Una possibile scelta dello spazio campionario per tale esperimento `e il prodotto cartesiano
= {0, 1}3 = {(1 , 2 , 3 ) | i {0, 1}},
mentre gli eventi T1 , T2 , T3 , E, F, G si possono rappresentare nei sottoinsiemi
T1 = {1} {0, 1}2 = {(1 , 2 , 3 ) | 1 = 1} = {(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)}
T2 = {0, 1} {1} {0, 1} = {(1 , 2 , 3 ) | 2 = 1}
T3 = {0, 1}2 {1} = {(1 , 2 , 3 ) | 3 = 1}
E = {(1 , 2 , 3 ) | 1 = 2 }
F = {(1 , 2 , 3 ) | 2 = 3 }
G = {(1 , 2 , 3 ) | 1 6= 3 }
(col lieve abuso di notazione di usare dora in poi lo stesso simbolo per levento e linsieme che
lo rappresenta!). Con questa scelta, si pu`o facilmente verificare che valgono le seguenti relazioni
analoghe delle (1.2), (1.3)
E = (T1 T2 ) (T1c T2c )
E F = E Gc = (T1 T2 T3 ) (T1c T2c T3c )
T1 G = T1 T3c
(E F ) T2 = (T1 T2 ) (T2 T3 )
T1 T2 T1
T1 T3c G,
mentre le (1.1) danno le rappresentazioni in insiemi
esce croce al primo lancio = T1c = {(1 , 2 , 3 ) | 1 = 0}
esce sempre testa = T1 T2 T3 = {(1, 1, 1)}
esce la stessa faccia in tutti i lanci = E F = {(1, 1, 1), (0, 0, 0)}.
Da notare che lelemento (1, 1, 1) di non rappresenta un evento, mentre al contrario linsieme
{(1, 1, 1)}, che `e un elemento di P(), rappresenta un evento. Levento certo e levento impossibile
sono rappresentati rispettivamente dallinsieme e dallinsieme vuoto .
A questo punto possiamo finalmente introdurre la nozione di probabilit`a.
Definizione 1. Sia un insieme e sia P() il suo insieme delle parti. Una probabilit`a su `e una
funzione P : P() R con le seguenti propriet`a:
(1) P (E) 0 per ogni evento E P();
(2) P () = 1;
(3) per ogni famiglia {Ei }iI
di eventi Ei P() tali che Ei Ej = se i 6= j,
S finita o numerabile
P
si ha luguaglianza P iI Ei = iI P (Ei ).

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

Se gli eventi E1 , E2 , . . . soddisfano la condizione Ei Ej = per ogni i 6= j, si dice che E1 , E2 , . . .


sono mutuamente incompatibili. Lassioma (3) richiede pertanto che la probabilit`a dellunione di
eventi incompatibili sia la somma delle probabilit`a dei singoli eventi.
Di seguito sono riassunte le principali propriet`a della probabilit`a che si possono direttamente
ricavare dalla definizione.
Proposizione 1. Siano E, F P() due eventi.
(i) P () = 0.
(ii) Se E F , allora P (F \ E) = P (F ) P (E) (dove linsieme F \ E := F E c `e la differenza
di F meno E).
(iii) Se E F , allora P (E) P (F ).
(iv) P (E c ) = 1 P (E).
(v) P (E) 1.
(vi) P (E F ) = P (E) + P (F ) P (E F ).
Dimostrazione. (i) Si ha = e = , dunque per lassioma (3) della probabilit`a
P () = P ( ) = P () + P () = 2P ()

P () = 0.

(ii) Se E F , allora F = (F \ E) E e (F \ E) E = , dunque, ancora per lassioma (3),


P (F ) = P (F \ E) + P (E)

P (F \ E) = P (F ) P (E) .

(iii) Se E F , per il punto precedente e per lassioma (1)


P (F ) P (E) = P (F \ E) 0

P (F ) P (E) .

(iv) Si ha E c = \ E e P () = 1 per lassioma (2), dunque


P (E c ) = P ( \ E) = P () P (E) = 1 P (E)
come conseguenza del punto (ii) (notare che lipotesi E `e chiaramente soddisfatta).
(v) E e P () = 1, dunque P (E) 1 segue dal punto (iii).
(vi) Abbiamo
E F = [E \ (E F )] (E F ) [F \ (E F )]
e inoltre
[E \ (E F )] (E F ) =
(E F ) [F \ (E F )] =
[E \ (E F )] [F \ (E F )] = .

` ELEMENTARI DELLA PROBABILITA


`
1.1. DEFINIZIONE E PROPRIETA

Ricaviamo pertanto
P (E F ) = P (E \ (E F )) + P (E F ) + P (F \ (E F ))
per lassioma (3). Applicando il punto (ii) agli insiemi E F E e E F F , abbiamo
P (E \ (E F )) = P (E) P (E F )
P (F \ (E F )) = P (F ) P (E F )
e quindi, riprendendo lequazione precedente,
P (E F ) = P (E) P (E F ) + P (E F ) + P (F ) P (E F )
= P (E) + P (F ) P (E F ) .

Il punto (vi) della proposizione precedente si estende facilmente al caso di tre o pi`
u eventi.
Infatti, iterandolo due volte,
P (E F G) = P (E (F G))
= P (E) + P (F G) P (E (F G))
= P (E) + P (F ) + P (G) P (F G) P ((E F ) (E G))
= P (E) + P (F ) + P (G) P (F G) [P (E F ) + P (E G) P ((E F ) (E G))]
= P (E) + P (F ) + P (G) P (F G) P (E F ) P (E G) + P (E F G) ,
dove inoltre abbiamo usato la propriet`a distibutiva E (F G) = (E F ) (E G). Il caso di
n 4 eventi `e simile.
Osservazione 1. Per motivi di carattere tecnico che diventeranno pi`
u chiari nel modulo di Analisi,
quando lo spazio campionario ha cardinalit`a non numerabile (p.es., quando = R, oppure
= {0, 1}N ) spesso non `e necessario definire una probabilit`a su tutto linsieme delle parti P(),
ma `e invece molto pi`
u conveniente definirla solo su un particolare sottoinsieme F P(). Per
poter considerare solo F (e non tutto P()) come la totalit`a degli eventi del nostro esperimento
aleatorio, il sottoinsieme F deve naturalmente essere chiuso rispetto alle operazioni insiemistiche
, e c , corrispondenti delle operazioni logiche , e . In altre parole, deve valere che
(1) F e F;
(2) se E F, allora anche E c F;
(3) per ogni
S famiglia {Ei }iI finita
T o numerabile di eventi Ei F (non necessariamente disgiunti)
si ha iI Ei F e anche iI Ei F.
Un sottoinsieme F P() con tali propriet`a si chiama -algebra di sottoinsiemi di . Se inoltre
P : F R `e una probabilit`a su F, cio`e verifica i tre assiomi della probabilit`a, ma solo sugli insiemi

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

10

di F anzich`e su tutto P(), la tripla (, F, P) si dice spazio di probabilit`a. Il requisito che il punto
(3) valga anche quando gli eventi {Ei }iI sono uninfinita numerabile non `e una mera complicazione
matematica. Infatti, capita sovente di considerare intersezioni o unioni infinite numerabili di eventi.
Per esempio, nellesperimento aleatorio consistente in infiniti lanci ripetuti di una moneta, levento
\
non esce mai testa =
Tic
iI

`e di tale tipo.
Esempio 1 (Spazi di probabilit`a uniforme). Se `e un insieme finito, con cardinalit`a || = N ,
una probabilit`a su `e per esempio la seguente funzione P : P() R
P (E) =

|E|
N

dove |E| = cardinalit`a di E.

Infatti, `e banale verificare che P soddisfa gli assiomi (1) e (2), mentre (3) discende immediatamente
dal fatto che la cardinalit`a di ununione di insiemi disgiunti `e la somma delle cardinalit`a dei singoli
insiemi. Tale probabilit`a si chiama probabilit`a uniforme su . Per esempio, nellesperimento dei
tre lanci consecutivi di una moneta, con = {0, 1}3 , abbiamo || = 23 = 8
4
1
|{(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)}|
= =
8
8
2
|{(0, 0, 0), (0, 0, 1), (1, 1, 0), (1, 1, 1)}|
4
1
P (E) =
= =
8
8
2
|{(1, 0, 0), (1, 1, 0), (0, 0, 1), (0, 1, 1)}|
4
1
P (G) =
= =
8
8
2

P (T1 ) =

e cos` via.

` CONDIZIONATA
1.2. PROBABILITA

1.2

11

Probabilit`
a condizionata

Definizione 2. Sia (, F, P) uno spazio di probabilit`a e siano E, F F due eventi. Supponiamo


P (F ) > 0. La probabilit`a di E condizionata a F (o probabilit`a di E sapendo F ) `e il numero reale
P (E | F ) :=

P (E F )
.
P (F )

Dal fatto che E F F segue P (E F ) P (F ), e dunque P (E | F ) [0, 1]. Inoltre, `e facile


verificare che la funzione PF : F R data da
PF (E) = P (E | F )

per ogni E F

`e a sua volta una probabilit`a su . Infatti


1. PF (E) 0 per ogni evento E F, in quanto sia P (E F ) 0 sia P (F ) > 0;
2. PF () = P ( F ) /P (F ) = P (F ) /P (F ) = 1;
3. per ogni famiglia {Ei }iI finita o numerabile di eventi disgiunti Ei F, si ha
[  P S E  F
iI i
definizione
PF
Ei =
P (F )
iI

S
P iI (Ei F )
propriet`a distributiva di rispetto a
=
P (F )
P
P (Ei F )
= iI
assioma (3)
P (F )
X
=
PF (Ei )
definizione.
iI

Nella terza uguaglianza, abbiamo potuto usare lassioma (3) perche (Ei F ) (Ej F ) =
(Ei Ej ) F = se i 6= j per ipotesi.
Esempio 2. Nellesperimento aleatorio dei tre lanci consecutivi di una moneta, la probabilit`a che
escano tre teste sapendo che nei primi due lanci `e uscita la stessa faccia `e
P (T1 T2 T3 E)
P (T1 T2 T3 )
=
perche T1 T2 T3 E
P (E)
P (E)
P ({(1, 1, 1)})
1/8
1
=
=
= .
P ({(0, 0, 0), (0, 0, 1), (1, 1, 0), (1, 1, 1)})
4/8
4

P (T1 T2 T3 | E) =

Capita spesso che la probabilit`a che un certo evento E si realizzi sia nota solo sotto opportune
condizioni a priori, cio`e che, anziche conoscere P (E), siano note solo le probabilit`a di E condizionate ad una serie di altri eventi F1 , F2 , . . . , Fn . In questo caso, il teorema seguente risulta molto
utile per calcolare la probabilit`a P (E).

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

12

Teorema 1 (Formula delle probabilit`a totali). Sia (, F, P) uno spazio di probabilit`a, e siano
F1 , F2 , . . . , Fn F eventi che formano una partizione di , cio`e tali che
(a) Fi Fj = se i 6= j;
S
(b) ni=1 Fi = .
Supponiamo inoltre che P (Fi ) > 0 per ogni i = 1, 2, . . . , n. Allora per ogni evento E F si ha
P (E) =

n
X

P (E | Fi ) P (Fi ) .

i=1

Dimostrazione. Si ha
E =E=E

n
[

Fi =

i=1

n
[

E Fi

i=1

e
(E Fi ) (E Fj ) = E (Fi Fj ) = se i 6= j .
Per il terzo assioma della probabilit`a
P (E) =

n
X

P (E Fi ) =

i=1

n
X

P (E | Fi ) P (Fi )

i=1

dove si `e inoltre usata la definizione P (E | Fi ) = P (E Fi ) /P (Fi ).


Esempio 3. Problema: Supponiamo di avere un mazzo di 40 carte: 20 di queste sono rosse su un
lato e nere sullaltro, mentre le altre 20 sono rosse su entrambi i lati. Pesco una carta a caso dal
mazzo e la poso sul tavolo. Qual`e la probabilit`a che esibisca il colore rosso?
Soluzione: Introduciamo gli eventi
B = la carta pescata `e bicolore
R = la carta pescata esibisce il colore rosso.
Sappiamo che
P (B) = P (B c ) =

20
1
=
40
2

P (R | B) =

1
2

P (R | B c ) = 1.

(1.4)

Allora i due eventi B, B c formano una partizione di , dunque si pu`o applicare il teorema precedente
e ottenere
1 1
1
3
P (R) = P (R | B) P (B) + P (R | B c ) P (B c ) = + 1 = .
2 2
2
4
Abbiamo visto che la formula delle probabilit`a totali permette di calcolare la probabilit`a di
un evento E una volta note le probabilit`a che E si realizzi sotto opportune condizioni a priori.
La formula di Bayes data di seguito `e utile invece nella situazione opposta, cio`e quando abbiamo
linformazione a posteriori che levento E si `e realizzato, e ci chiediamo con quale probabilit`a `e
avvenuto uno degli eventi che condizionavano E.

` CONDIZIONATA
1.2. PROBABILITA

13

Teorema 2 (Formula di Bayes). Supponiamo che F1 , F2 , . . . , Fn F sia una partizone di , e


che P (Fi ) > 0 per ogni i = 1, 2, . . . , n. Allora per ogni E F con P (E) > 0 si ha
P (E | Fk ) P (Fk )
P (Fk | E) = Pn
i=1 P (E | Fi ) P (Fi )

per ogni k {1, 2, . . . , n}.

Dimostrazione. Si ha
P (Fk | E) =
e P (E) =

Pn

i=1

P (Fk E)
P (Fk E) P (Fk )
P (Fk )
=
= P (E | Fk )
,
P (E)
P (Fk ) P (E)
P (E)

P (E | Fi ) P (Fi ) per la formula delle probabilit`a totali.

Sottolineamo che in alcuni testi per formula di Bayes si intende invece la pi`
u semplice relazione
P (F | E) = P (E | F )

P (F )
,
P (E)

che `e stata provata nel corso della dimostrazione precedente.


Esempio 4. Problema: NellEsempio 3 del mazzo di carte colorate, supponiamo ora che la carta
pescata a caso dal mazzo e posata sul tavolo esibisca il colore rosso. Qual `e la probabilit`a che
laltro suo lato (quello nascosto) sia nero?
Soluzione: Intuitivamente, verrebbe da rispondere che la probabilit`a `e pari a 1/2. Invece, applicando la formula di Bayes, si trova che la risposta corretta `e
P (B | R) =

1/2 1/2
1
P (R | B) P (B)
=
= .
c
c
P (R | B) P (B) + P (R | B ) P (B )
1/2 1/2 + 1 1/2
3

Osservazione: Nella soluzione di questo problema, come anche in quella dellEsempio 3, non si
`e mai dovuto ricorrere a una rappresentazione esplicita in uno spazio di probabilit`a degli eventi
coinvolti, ma si `e semplicemente utilizzata la conoscenza delle probabilit`a (1.4). Se lo si vuole, gli
eventi R, Rc , B, B c possono essere p.es. rappresentati nellinsieme = {0, 1}2 con probabilit`a P
uniforme, ponendo
B = {(0, 0), (0, 1)}
R = {(1, 0), (0, 1), (1, 1)}
(verificare per esercizio che in questo modo si ottengono le probabilit`a (1.4)!). Tuttavia questo
fatto non d`a nessuna ulteriore informazione o semplificazione del problema, ma anzi lo complica
inutilmente.
Unaltra situazione in cui la probabilit`a condizionata si rivela molto utile `e quando si vuole conoscere la probabilit`a dellintersezione di serie di eventi E1 , E2 , . . . , En che si verificano in
successione uno dopo laltro, in modo che ciascun evento Ei viene influenzato solo dagli eventi
Ei1 , Ei2 , . . . , E1 che sono avvenuti prima di esso. In tal caso, infatti, si pu`o utilizzare il prossimo
teorema.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

14

Teorema 3 (Formula del prodotto). Supponiamo che E1 , E2 , . . . , En F siano eventi qualsiasi.


Allora
P (E1 E2 . . . En ) =P (En | En1 En2 . . . E1 ) P (En1 | En2 En3 . . . E1 ) . . .
. . . P (E1 ) .
Dimostrazione. Per la definizione di probabilit`a condizionata
P (E1 E2 . . . En ) = P (En | En1 En2 . . . E1 ) P (En1 En2 . . . E1 )
e la formula del teorema ne segue per induzione.
Esempio 5. Problema: Unurna contiene 10 palline, di cui 2 sono bianche e 8 sono nere. Estraiamo
una dopo laltra 3 palline, senza rimettere nellurna nessuna delle palline estratte (estrazione senza
reimmissione). Qual `e la probabilit`a che tutte le palline estratte siano nere?
Soluzione: Indichiamo con Ni levento
Ni = li-esima pallina estratta `e nera

(i = 1, 2, 3).

Vogliamo calcolare la probabilit`a dellintersezione N1 N2 N3 . Per il teorema precedente


P (N1 N2 N3 ) = P (N3 | N2 N1 ) P (N2 | N1 ) P (N1 ) .
Daltra parte,
8
8+2
7
P (N2 | N1 ) =
7+2
P (N1 ) =

perche allinizio nellurna ci sono 8 palline nere e 2 bianche


perche, se la prima pallina estratta `e nera, allora per la seconda
estrazione nellurna ne restano 7 nere e 2 bianche

P (N3 | N2 N1 ) =

6
6+2

perche, se le prime due palline estratte sono nere, allora per la


terza estrazione nellurna ne restano 6 nere e 2 bianche.

Pertanto la probabilit`a cercata `e


P (N1 N2 N3 ) =

8 7 6
7
= .
10 9 8
15

1.3. INDIPENDENZA

1.3

15

Indipendenza

La definizione di indipendenza per due eventi `e molto semplice.


Definizione 3. Sia (, F, P) uno spazio di probabilit`a. Due eventi E, F F si dicono indipendenti
se P (E F ) = P (E) P (F ).
Esempio 6. Nellesempio dei tre lanci di una stessa moneta, `e facile verificare che ciascuna coppia
di eventi
Ti , Tj

con i 6= j
E, F

Ti , E
E, G

Ti , F
F, G

Ti , G

sono indipendenti. Infatti, p.es.


1 1
2
= P (T1 ) P (T2 )
8
2 2
2
1 1
P (T1 G) = P ({(1, 0, 0), (1, 1, 0)}) = = P (T1 ) P (G)
8
2 2
1 1
2
P (E G) = P ({(1, 1, 0), (0, 0, 1)}) = = P (E) P (G)
8
2 2

P (T1 T2 ) = P ({(1, 1, 0), (1, 1, 1)}) =

e cos` via per tutte le altre coppie. Un esempio di due eventi non indipendenti `e la coppia T1 T2
e E. Infatti
P ((T1 T2 ) E) = P (T1 T2 E) = P ({(1, 1, 0), (1, 1, 1)}) =

1 1
2
6= = P (T1 T2 ) P (E)
8
4 2

Notiamo che se E e F sono eventi indipendenti, allora sono indipendenti anche gli eventi in
ciascuna coppia
E, F c
E c, F
E c, F c.
Infatti
P (E F c ) = P (E \ (E F )) = P (E) P (E F ) = P (E) P (E) P (F ) = P (E) (1 P (F ))
P (E) P (F c )
P (E c F ) = P (F E c ) P (F ) P (E c )
per il caso precedente
e, applicando il secondo caso agli eventi E e F c che sono indipendenti per il primo,
P (F c E c ) P (F c ) P (E c ) .
Osservazione 2. Dire che due eventi E e F sono indipendenti `e una cosa completamente diversa
dallaffermare che sono disgiunti (o anche detti incompatibili), cio`e che E F = . Infatti,
- se E e F sono indipendenti, allora P (E F ) = P (E) P (F );
- se E e F sono disgiunti, allora P (E F ) = P () = 0.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

16

Le due cose possono avvenire contemporaneamente se e solo se P (E) = 0 o P (F ) = 0 (in particolare, se E = o F = ), mentre in tutti gli altri casi indipendenza e incompatibilit`a sono due
nozioni totalmente distinte.
La definizione di indipendenza per tre o pi`
u eventi `e un po pi`
u complessa, e richiede di
considerare tutte le intersezioni possibili degli eventi.
Definizione 4. Sia (, F, P) uno spazio di probabilit`a. Una collezione di n eventi E1 , E2 , . . . , En
F si dicono indipendenti se
P (Ei1 Ei2 . . . Eik ) = P (Ei1 ) P (Ei2 ) . . . P (Eik )

(1.5)

per ogni k n e per ogni sottoinsieme di indici {i1 , i2 , . . . , ik } {1, 2, . . . , n}.


Per chiarire la definizione precedente, applichiamola a tre eventi E, F, G. In tal caso, affinche
E, F, G siano indipendenti non basta che valga P (E F ) = P (E) P (F ), P (E G) = P (E) P (G)
e P (F G) = P (F ) P (G), ma deve anche essere P (E F G) = P (E) P (F ) P (G).
Esempio 7. Nellesperimento aleatorio dei tre lanci di una moneta, i tre eventi T1 , E, F sono
indipendenti. Infatti, abbiamo gi`a visto che sono indipendenti a coppie. In pi`
u, abbiamo
P (T1 E F ) = P ({(1, 1, 1)}) =

1 1 1
1
= P (T1 ) P (E) P (F ) .
8
2 2 2

Non sono invece indipendenti i tre eventi T1 , T2 , E. Infatti, benche siano indipendenti a coppie, si
ha tuttavia
P (T1 T2 E) = P ({(1, 1, 0), (1, 1, 1)}) =

1 1 1
2
6= = P (T1 ) P (T2 ) P (E) .
8
2 2 2

Nel caso di n eventi,


nella definizione di indipendenza le condizioni (1.5) sono in tutto 2n n1,
 
n
molte di pi`
u delle
condizioni che coinvolgono solo le singole coppie di eventi.
2
Pur essendo complicata, la definizione di indipendenza per n 3 eventi ha il pregio seguente:
se E1 , E2 , . . . , En sono eventi indipendenti, allora, raggruppandoli in gruppi pi`
u piccoli e combinando gli eventi in ogni gruppo tramite le operazioni di , e c , le combinazioni provenienti da
gruppi diversi continuano a essere fra loro indipendenti. Pi`
u formalmente, per ogni scelta di indici
{i1 , i2 , . . . , ik } {1, 2, . . . , n} con 1 = i1 < i2 < . . . < ik = n, se Fh `e una combinazione degli
eventi Eih , Eih +1 , Eih +2 , . . . , Eih+1 , allora gli eventi F1 , F2 , . . . , Fk1 sono a loro volta indipendenti.
Per chiarire le idee, prendiamo il caso con n = 3, e supponiamo che E, F, G siano tre eventi
indipendenti. Allora sono indipendenti anche le coppie
E F, G

E F, G

E c , F Gc

F, E \ G

e cos` via.

Infatti, prendiamo p.es. la prima coppia:


P ((E F ) G) = P (E F G) = P (E) P (F ) P (G) = P (E F ) P (G) .

1.3. INDIPENDENZA

17

Un po pi`
u complicato `e dimostrare lindipendenza della seconda:
P ((E F ) G) = P ((E G) (F G))
(propr. distibutiva di rispetto a )
= P (E G) + P (F G) P (E F G)
(formula nota)
= P (E) P (G) + P (F ) P (G) P (E) P (F ) P (G)
(indipendenza)
= (P (E) + P (F ) P (E) P (F ))P (G)
= (P (E) + P (F ) P (E F ))P (G)
(indipendenza)
P (E F ) P (G)
(formula nota).
Notiamo infine che le definizioni di indipendenza e speranza condizionata sono in relazione fra
loro nel modo che ci si aspetta: se E e F sono eventi tra loro indipendenti, allora la conoscenza a
priori che si `e realizzato F non cambia la probabilit`a che si realizzi E. In formule,
P (E | F ) = P (E)

se E e F sono indipendenti.

Infatti, se E e F sono indipendenti, allora


P (E | F ) =

P (E F )
P (E) P (F )
=
= P (E) .
P (F )
P (F )

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

18

1.4

Prove di Bernoulli

In un esperimento aleatorio, supponiamo di ripetere la medesima prova (p.es., il lancio di una


moneta, oppure la puntata sullo stesso numero della roulette. . . ) per n volte, in modo che
(a) ciascuna prova non influenza le altre;
(b) ciascuna prova ha probabilit`a di successo pari a p [0, 1] (la stessa per tutte le prove).
Denotiamo con E1 , E2 , . . . , En gli eventi
Ei = la i-esima prova ha avuto successo.
Allora
(a) gli eventi E1 , E2 , . . . , En sono indipendenti;
(b) P (Ei ) = p per ogni i = 1, 2, . . . , n.
Una sequenza di eventi con tali due propriet`a si chiama successione di prove di Bernoulli.
Se k n denotiamo con Bk levento
Bk = si sono realizzati esattamente k successi.
Si pu`o scrivere Bk come lunione
h \

Bk =

  \ i
Ei
Eic .
jI c

iI

I{1,2,...,n}
|I|=k

In altre parole, Bk `e lunione di tutti gli eventi in cui i successi si realizzano nelle prove I =
{i1 , i2 , . . . , ik } e non si realizzano nelle rimanenti prove I c = {j1 , j2 , . . . , jnk } al variare dellinsieme
di indici I in {1, 2, . . . , n}. Nellinsieme di n indici {1, 2, . . . , n} sono possibili esattamente


n
k


:=

n!
k!(n k)!

scelte diverse del sottoinsieme I con k elementi. Inoltre, abbiamo


h \
iI

Ei

\
jI c

Eic

i

h \
iI 0

Ei

 \
jI 0c

Eic

i

se I 6= I 0 .

1.4. PROVE DI BERNOULLI

19

Pertanto
X

P (Bk ) =

\

P (Ei )

I{1,2,...,n} iI
|I|=k

Ei

\

Eic

!
per lassioma (3)

jI c

iI

I{1,2,...,n}
|I|=k

P (Eic )

per lindipendenza

jI c

pk (1 p)nk

perche P (Ei ) = p, P (Eic ) = 1 p

I{1,2,...,n}
|I|=k


=

n
k

pk (1 p)nk .

Osservazione 3. In tutta la discussione precedente, non abbiamo mai rappresentato esplicitamente gli eventi E1 , E2 , . . . , En in uno spazio di probabilit`a (, F, P), ma abbiamo implicitamente
assunto che esista sempre una tale rappresentazione. In effetti, ci`o `e vero: per esempio, si pu`o
scegliere
= {0, 1}n
P ({(1 , 2 , . . . , n )}) = p

F = P()
Pn

k=1

(1 p)n

Pn

k=1

e rappresentare gli eventi Ei negli insiemi


Ei = {(1 , 2 , . . . , n ) | i = 1}.
Lasciamo come esercizio la verifica del fatto che con questa scelta gli eventi E1 , E2 , . . . , En sono
indipendenti e P (Ei ) = p per ogni i = 1, 2, . . . , n.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

20

1.5

Variabili aleatorie

Rappresentare gli eventi di un esperimento aleatorio tramite sottoinsiemi di un opportuno spazio


campionario ha il seguente grosso vantaggio: su si possono definire delle funzioni reali X :
R, ciascuna delle quali descrive il risultato di una misura.
Esempio 8. Per fissare le idee, consideriamo ancora una volta lesperimento dei tre lanci di
una moneta, con = {0, 1}3 e lusuale rappresentazione degli eventi. Se definiamo la funzione
X : R data da
X(1 , 2 , 3 ) = 1 + 2 + 3

per ogni (1 , 2 , 3 )

(1.6)

vediamo subito che X `e la funzione che conta o misura il numero di volte in cui esce testa nei
tre lanci.
Per il loro legame con il concetto di misura, le funzioni reali sullo spazio campionario meritano
un nome tutto loro.
Definizione 5. Supponendo per semplicit`a che F P(), una qualunque funzione X : R si
dice variabile aleatoria.
Notiamo che la controimmagine di un insieme A R rispetto a una variabile aleatoria X `e un
evento:
X 1 (A) := { | X() A} P() per ogni A R.
Esempio 9. Sempre nellesperimento dei tre lanci di una moneta e considerando la variabile
aleatoria X definita nellequazione (1.6), abbiamo le uguaglianze di eventi
X 1 ({0}) = {(0, 0, 0)} = non `e mai uscita testa
X 1 ({1}) = {(1, 0, 0), (0, 1, 0), (0, 0, 1)} = `e uscita testa una volta sola
X 1 ({2}) = (T1 T2 T3c ) (T1 T2c T3 ) (T1c T2 T3 )
X 1 ({3}) = T1 T2 T3 .
e ancora
X 1 ({2, 3}) = {(1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)} = `e uscita testa almeno due volte
X 1 ({0, 1, 2, 3}) =
X 1 ({4}) =
e cos` via.
Per semplicit`a di scrittura, dora in poi useremo le notazioni
{X A} = X 1 (A)
per ogni sottoinsieme A R
{X = a} = X 1 ({a}) = { | X() = a}
per ogni numero a R
1
{a < X b} = X ((a, b])
per ogni coppia di numeri a, b R

1.5. VARIABILI ALEATORIE

21

e simili. Sottolineamo ancora una volta che tutti gli insiemi precedenti sono eventi, cio`e sottoinsiemi
di . Quando tuttavia la -algebra F non coincide con tutto P(), come si `e supposto finora,
si aggiunge nella definizione di variabile aleatoria il requisito che {X a} F per ogni a R.
Tale requisito `e infatti sufficiente a garantire che gli insiemi {X A} stiano in F per una vasta
scelta di sottoinsiemi A R (e non solo per insiemi della forma A = (, a]). A ogni modo, non
entreremo nel dettaglio di questo fatto, anche perche dora in poi tutte le funzioni X : R con
cui avremo a che fare soddisferanno automaticamente la condizione {X a} F per ogni a R.
Una variabile aleatoria X si dice discreta se esiste un sottoinsieme discreto S R tale che
P ({X S}) = 1. In tal caso, posto
pX (x) := P ({X = x})

per ogni x S,

la funzione pX : S [0, 1] si chiama densit`a (discreta) della variabile aleatoria X. Quando la


densit`a pX `e nota, si possono calcolare tutte le probabilit`a di eventi del tipo {X A} con A R.
Infatti,
P ({X A}) = P ({X A S} {X A S c })
= P ({X A S}) + P ({X A S c })
per lassioma (3)
= P ({X A S})
perche P ({X A S c }) P ({X S c }) = 0
 [

=P
{X = x}
unione finita o numerabile di insiemi disgiunti
xAS

P ({X = x})

per lassioma (3)

xAS

pX (x)

xAS

e quindi si possono calcolare anche le probabilit`a


P ({X a}) =

pX (x)

P ({a < X b}) =

xS
xa

pX (x)

xS
a<xb

ecc.. Dora in poi, per evitare uninutile proliferazione di parentesi che rendono illeggibili le formule,
con lieve abuso di notazione scriveremo
P (X A) := P ({X A}) ,

P (X a) := P ({X a})

....

Si notino le due seguenti propriet`a fondamentali della densit`a pX :


(a) pX `e una funzione positiva, cio`e pX (x) 0 per ogni x S, in quanto pX (x) = P (X = x) `e il
valore preso da una probabilit`a;
(b) pX `e normalizzata, cio`e

xS

pX (x) = 1, perche

xS

pX (x) = P (X S) = 1.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

22

Esempio 10. Consideriamo lesperimento aleatorio consistente nel lancio di due dadi a sei facce
equilibrati. Rappresentiamo gli eventi di questo esperimento nello spazio campionario
= {1, 2, 3, 4, 5, 6}2 = {(1 , 2 ) | i {1, 2, 3, 4, 5, 6}}
con probabilit`a P uniforme. Siano X, Y e Z le variabili aleatorie
X = risultato del primo lancio
Y = risultato del secondo lancio
Z = risultato pi`
u alto dei due lanci.
Con la nostra rappresentazione, X, Y e Z sono le funzioni da in R date da
X(1 , 2 ) = 1

Y (1 , 2 ) = 2

Z(1 , 2 ) = max{1 , 2 }.

Le variabili aleatorie X, Y e Z sono discrete e prendono tutte e tre valori nellinsieme S =


{1, 2, 3, 4, 5, 6}. Le loro densit`a sono date da

pX (x) = P (X = x) = P X 1 ({x})
(
P ({(x, 2 ) | 2 {1, 2, 3, 4, 5, 6}}) se x {1, 2, 3, 4, 5, 6}
=
P ()
se x
/ {1, 2, 3, 4, 5, 6}
(
|{(x,2 )|2 {1,2,3,4,5,6}}|
6
= 36
= 16 se x {1, 2, 3, 4, 5, 6}
||
=
0
se x
/ {1, 2, 3, 4, 5, 6}
(

P ({(1 , y) | 1 {1, 2, 3, 4, 5, 6}}) = 16 se y {1, 2, 3, 4, 5, 6}
pY (y) = P Y 1 ({y}) =
P () = 0
se y
/ {1, 2, 3, 4, 5, 6}
(

P ({(1 , 2 ) | max{1 , 2 } = z}) = 2z1
se z {1, 2, 3, 4, 5, 6}
36
pZ (z) = P Z 1 ({z}) =
P () = 0
se z
/ {1, 2, 3, 4, 5, 6}
(per calcolare la densit`a di Z abbiamo usato luguaglianza di eventi
{(1 , 2 ) | max{1 , 2 } = z} = {(1 , z) | 1 < z} {(z, 2 ) | 2 < z} {(z, z)}
in cui lunione `e disgiunta). Si osservi che, benche X e Y sono due variabili aleatorie diverse, esse
tuttavia hanno la stessa densit`a.
Di seguito sono riportati alcuni esempi di densit`a discrete di uso molto frequente.
Esempio 11 (Densit`a bernoulliana). Sia E un evento con probabilit`a P (E) = p, e sia 1E : R
la seguente funzione indicatrice di E
(
1 se E
1E () =
0 se E c

1.5. VARIABILI ALEATORIE

23

Si vede subito che 1E `e una variabile aleatoria discreta che pu`o prendere solo i due valori S = {0, 1}.
La sua densit`a `e
p1E (1) = P (1E = 1) = P (E) = p
p1E (0) = P (1E = 0) = P (E c ) = 1 P (E) = 1 p
in quanto valgono le ovvie uguaglianze di eventi E = {1E = 1} e E c = {1E = 0}. La densit`a p1E
cos` trovata si chiama densit`a bernoulliana di parametro p, e si denota con B(1, p). Per indicare
che la variabile aleatoria 1E ha tale densit`a, si scrive 1E B(1, p).
Esempio 12 (Densit`a uniforme discreta). Sia S = {m, m + 1, m + 2, . . . , n 1, n} un sottoinsieme
dei numeri naturali. Una variabile aleatoria discreta X che prende valori in S e ha densit`a
(
1
se x S
nm+1
pX (x) =
0
altrimenti
si dice che ha densit`a uniforme sullinsieme S e si scrive X U(S). Per esempio, le variabili
aleatorie X e Y dellEsempio 10 hanno entrambe densit`a uniforme sullinsieme S = {1, 2, 3, 4, 5, 6}.
Esempio 13 (Densit`a binomiale). Supponiamo che gli eventi E1 , E2 , . . . , En formino una successione di prove di Bernoulli con P (Ei ) = p, e indichiamo con X la variabile aleatoria
X = 1E1 + 1E2 + . . . + 1En ,
intendendo con tale espressione che la funzione X `e la somma delle funzioni indicatrici 1Ei . In
altre parole,
X() = 1E1 () + 1E2 () + . . . + 1En ()
per ogni .
Allora X prende valori nellinsieme S = {0, 1, . . . , n}, ed `e la funzione che conta il numero di
successi ottenuti nelle n prove ripetute. Abbiamo pertanto luguaglianza di eventi
{X = k} = Bk = si sono realizzati esattamente k successi
e la densit`a di X `e

pX (k) = P (X = k) = P (Bk ) =

n
k

pk (1 p)nk

per ogni k = 1, 2, . . . , n

per quanto visto nella sezione 1.4. La densit`a precedente si chiama densit`a binomiale di parametri
n e p, e si indica con B(n, p). Si scrive inoltre X B(n, p).
Esempio 14 (Densit`a geometrica). Supponiamo di avere una successione infinita di prove di
Bernoulli E1 , E2 , . . ., e indichiamo con T la variabile aleatoria
T = numero della prova in cui si ottiene il primo successo.
Per vedere che T `e effettivamente una funzione T : R, possiamo riscriverla esplicitamente
come
T () = inf{n 0 | En }
per ogni .

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

24

La variabile aleatoria T prende valori nellinsieme S = N, e si ha lovvia uguaglianza di eventi


c
{T = k} = E1c E2c E3c . . . Ek1
Ek

per ogni k N.

La sua densit`a `e pertanto



c
Ek
pT (k) = P (T = k) = P E1c E2c E3c . . . Ek1

c
= P (E1c ) P (E2c ) P (E3c ) . . . P Ek1
P (Ek )
per lindipendenza degli Ei
= (1 p)k1 p

perche P (Ei ) = p e P (Eic ) = 1 p.

La densit`a
pT (k) = (1 p)k1 p

per ogni k N

si chiama densit`a geometrica di parametro p e si indica con G(p).


Fin qui abbiamo considerato solo variabili aleatorie discrete, che possono prendere un numero
finito o numerabile di valori. Una variabile aleatoria X si dice invece assolutamente continua se
esiste una funzione fX : R R tale che
Z b
fX (x) dx
per ogni a, b R {+, } con a < b.
P (a X b) =
a

La funzione fX , detta anche in questo caso densit`a di X, soddisfa le due propriet`a seguenti,
analoghe delle corrispondenti propriet`a delle densit`a discrete:
Rb
(a) fX `e una funzione positiva, cio`e fX (x) 0 per ogni x R, in quanto a fX (x) dx =
P (a X b) deve essere una quantit`a positiva per ogni a < b;
R +
R +
(b) fX `e normalizzata, cio`e fX (x) dx = 1, perche fX (x) dx = P ( < X < +) = 1.
` da notare che la densit`a fX non `e necessariamente una funzione continua, e pu`o anche assumere
E
valori maggiori di 1. Inoltre, per una variabile aleatoria X assolutamente continua si ha sempre
Z a
P (X = a) =
fX (x) dx = 0
per ogni a R
a

da cui seguono le uguaglianze


P (a X b) = P (a X < b) = P (a < X b) = P (a < X < b) .
Esempio 15 (Densit`a uniforme continua). Siano a, b R con a < b. Una variabile aleatoria X
assolutamente continua ha densit`a uniforme sullintervallo [a, b] se la sua densit`a `e
(
1
se x [a, b]
1
fX (x) =
1[a,b] (x) = ba
ba
0
se x < a o x > b
dove anche in questo caso abbiamo denotato con 1[a,b] la funzione indicatrice dellintervallo [a, b]
(attenzione: questa volta 1[a,b] non `e una variabile aleatoria, ma solo unutile notazione per la
densit`a!). Si scrive anche X U([a, b]).

1.5. VARIABILI ALEATORIE

25

Esempio 16. Sia > 0. Una variabile aleatoria T assolutamente continua ha densit`a esponenziale
di parametro se
(
ex se x 0
fT (x) = ex 1[0,+) (x) =
0
se x < 0
Si scrive in questo caso T E().
Esempio 17. Siano e due parametri reali, con > 0. Una variabile aleatoria Z assolutamente
continua ha densit`a normale (o gaussiana) di parametri e se
fZ (x) =

(x)2
1
e 22
2

per ogni x R.

Dal Rmomento che `e impossibile trovare esplicitamente una primitiva della funzione fZ , dimostrare
+
che fZ (x) dx = 1 `e un problema non banale che lasceremo al corso di Analisi. La densit`a
normale di parametri e si indica con N (, 2 ).

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

26

1.6

La funzione di ripartizione di una variabile aleatoria

Sia X una variabile aleatoria qualsiasi. La funzione di ripartizione di X `e la funzione


FX : R [0, 1]

FX (x) = P (X x) .

Notiamo che FX ha le seguenti propriet`a:


(a) `e una funzione monotona non decrescente, in quanto se x < y
FX (x) = P (X x) P (X y) = FX (y)
perche {X x} {X y};
(b) FX (x) 0 per x e FX (x) 1 per x +, poiche
lim FX (x) = P (X < ) = 1

x+

lim FX (x) = lim (1 P (X > x)) = 1 P (X > ) = 0;

(c) per ogni a < b, la funzione FX pu`o essere usata per calcolare le probabilit`a del tipo P (a < X b),
in quanto
P (a < X b) = P ({X b} \ {X a}) = P (X b) P (X a) = FX (b) FX (a).
Se X `e discreta a valori nellinsieme S = {x1 , x2 , . . .} e con densit`a pX , esplicitamente
X
FX (x) =
pX (xi )
per ogni x R.
xi x

Enumerando gli elementi di S in ordine crescente, con xi < xi+1 per ogni i, la funzione di ripartizione FX `e una funzione a salti che `e costante su ogni intervallo del tipo [xi , xi+1 ). La sua densit`a
pu`o essere ricavata da
pX (xi ) = F (xi ) F (xi1 ).
` il caso pi`
Esempio 18 (Funzione di ripartizione della densit`a bernoulliana). E
u semplice: se
X B(1, p), allora

se x < 0
0
FX (x) = 1 p se 0 x < 1

1
se x 1
Esempio 19 (Funzione di ripartizione della densit`a geometrica. Assenza di memoria). Sia T la
variabile aleatoria
T = numero della prova in cui si ottiene il primo successo

1.6. LA FUNZIONE DI RIPARTIZIONE DI UNA VARIABILE ALEATORIA

27

in una successione infinita di prove di Bernoulli E1 , E2 , . . ., ciascuna con probabilit`a p = P (Ei ) di


successo. Abbiamo visto nellEsempio 14 che T G(p). Per calcolare la funzione di ripartizione
di T osserviamo che, per ogni k {1, 2, 3, . . .},
FT (k) = 1 P (T > k) = 1 P (E1c E2c . . . Ekc ) = 1 P (E1c ) P (E2c ) . . . P (Ekc ) = 1 (1 p)k ,
mentre chiaramente FT (x) = 0 per x < 1. Pertanto,
(
1 (1 p)bxc
FT (x) =
0

se x 1
se x < 1

dove abbiamo indicato con bxc la parte intera di x. La variabile aleatoria T gode della propriet`a
di assenza di memoria, cio`e
P (T > n + n | T > n) = P (T > n)

per tutti gli interi n, n 0.

In altre parole, la probabilit`a che il primo successo si verifichi dopo n + n prove sapendo che
fino alla prova n-esima non si `e ancora verificato coincide con la probabilit`a che il primo successo
avvenga dopo n prove senza nessuna informazione a priori. Infatti, supponendo n, n interi,
P (T > n + n | T > n)
P ({T > n + n} {T > n})
per la definizione di probabilit`a condizionata
=
P (T > n)
P (T > n + n)
=
perche {T > n + n} {T > n}
P (T > n)
1 FT (n + n)
(1 p)n+n
=
=
= (1 p)n = 1 FT (n)
n
1 FT (n)
(1 p)
= P (T > n) .
Se invece X `e una variabile aleatoria assolutamente continua con densit`a fX , si ha
Z x
fX (t) dt
per ogni x R.
FX (x) =

Osserviamo che in questo caso FX `e una funzione continua. Inoltre, per il teorema fondamentale
del calcolo integrale la densit`a di X si pu`o calcolare derivando la funzione di ripartizione FX
fX (x) =

dFX (x)
dx

per ogni x R.

Esempio 20 (Funzione di ripartizione della densit`a esponenziale. Assenza di memoria). Se T `e


una variabile aleatoria assolutamente continua con densit`a E(), la sua funzione di ripartizione `e
FT (x) = 0 per ogni x < 0, mentre per x > 0 abbiamo
Z x

t=x
FT (x) =
et dt = et t=0 = 1 ex .
0

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

28

Da questa espressione ricaviamo che T gode della propriet`a di assenza di memoria esattamente
come nel caso della densit`a geometrica. Infatti, se x, x 0,
P (T > x + x)
P ({T > x + x} {T > x})
=
P (T > x)
P (T > x)
1 FT (x + x)
e(x+x)
=
=
= ex = 1 FT (x)
1 FT (x)
ex
= P (T > x) .

P (T > x + x | T > x) =

La densit`a esponenziale viene in genere associata al tempo di guasto di una macchina non soggetta
a usura. Ci`o `e giustificato proprio dallassenza di memoria dellesponenziale: infatti, la relazione
P (T > t + t | T > t) = P (T > t) significa che sapere a priori che la macchina al tempo t non
si `e ancora rotta non cambia la probabilit`a che essa duri ancora per un altro intervallo t. In
altre parole, let`a della macchina non influenza la sua durata successiva, che `e esattamente la
caratteristica di assenza di usura.

1.7. FUNZIONI DI UNA VARIABILE ALEATORIA E STANDARDIZZAZIONE

1.7

29

Funzioni di una variabile aleatoria e standardizzazione

La conoscenza di FX permette di calcolare molto facilmente la densit`a di funzioni arbitrarie della


variabile aleatoria X. Pi`
u precisamente, se g : R R `e una qualunque funzione, si indica con
g(X) la variabile aleatoria ottenuta componendo g con X:
g(X) := g X

cio`e

g(X)() := g(X())

per ogni .

In tal senso, la variabile aleatoria g(X) `e una funzione di X.


Esempio 21. Scegliamo come g : R R la funzione g(x) = x2 . Allora g(X) `e la variabile
aleatoria Y = X 2 . Se X `e assolutamente continua con densit`a fX , abbiamo
(



P y X y se y 0
2
FY (y) = P (Y y) = P X y =
P ()
se y < 0
Nel primo caso

FY (y) = P ( y X y) = FX ( y) FX ( y)

e dunque derivando e ricordando che FX0 (x) = dFX (x)/ dx = fX (x) troviamo
fY (y) =

1
dFY (y)
1
1
1

= FX0 ( y) + FX0 ( y) = fX ( y) + fX ( y).


dy
2 y
2 y
2 y
2 y

Nel secondo caso invece


FY (y) = 0

fY (y) =

dFY (y)
= 0.
dy

Mettendo insieme i due casi si trova che la densit`a di Y `e


(

f ( y) + 21 y fX ( y) se y 0
2 y X
fY (y) =
0
se y < 0
Esempio 22 (Trasformata affine di una varibile aleatoria). Fissati due numeri reali a, b con a 6= 0,
scegliamo la funzione g(x) = ax + b. Se X `e una qualunque variabile aleatoria, g(X) `e pertanto la
trasformata affine Y = aX + b di X. Se X `e assolutamente continua, usiamo ancora la funzione
di ripartizione per determinare la densit`a di Y :
(


P X yb
= FX yb
se a > 0
a 
a

FY (y) = P (Y y) = P (aX + b y) =
yb
yb
se a < 0
P X a = 1 FX a
Derivando come nellesempio precedente otteniamo
(
 1

1 0
F yb
= a fX yb
dFY (y)
a X
a
a


fY (y) =
=
yb
1
dy
a1 FX0 yb
=

f
X
a
a
a
In altre parole,
1
fY (y) =
fX
|a|

yb
a


.

se a > 0
se a < 0

30

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

Applichiamo lesempio precedente al calcolo della trasformata affine Y = aZ +b di una variabile


aleatoria normale Z N (, 2 ). Abbiamo
"
2 #


yb
(yab)2

1
yb
1
1

a
fY (y) =
fZ
=
exp
=
e 2(a)2
|a|
a
2 2
2|a|
2|a|
da cui si deduce che Y N (a + b, (|a|)2 ). In particolare, la trasformata affine di una variabile
aleatoria normale `e ancora normale. Notiamo che scegliendo a = 1/ e b = / troviamo che la
ha densit`a normale N (0, 1). Tale densit`a si chiama normale standard,
variabile aleatoria Y = Z

e la sua funzione di ripartizione := FY `e tabulata in qualunque libro di probabilit`a e statistica.


La conoscenza di permette di trovare tutte le probabilit`a del tipo P (Z z) ecc. mediante la
seguente standardizzazione di Z


Z
z 
z
per ogni z R.
P (Z z) = P (Z z ) = P

=
}

| {z
N (0,1)

1.8. VETTORI ALEATORI

1.8

31

Vettori aleatori

~ : Rn . Esplicitamente,
Un vettore aleatorio a n componenti `e una qualunque funzione X
~
X()
= (X1 (), X2 (), . . . , Xn ())

per ogni .

Ciascuna componente Xi `e una funzione da in R, e pertanto un vettore aleatorio pu`o essere


visto come una n-upla di variabili aleatorie (X1 , X2 , . . . , Xn ).
Quando la -algebra degli eventi non coincide con tutto linsieme delle parti P(), si richiede in
pi`
u che {Xi a} F per ogni a R e i = 1, 2, . . . , n. Tuttavia, come al solito non approfondiremo
questo dettaglio, e supporremo che tutti i vettori aleatori con cui avremo a che fare soddisfino tale
requisito.
Come nel caso scalare, anche qui useremo le notazioni
~ A} = X
~ 1 (A)
{X
~ = ~x} = X
~ 1 ({~x})
{X

per ogni dominio A Rn


per ogni ~x Rn

e inoltre
~ A1 A2 . . . An }
{X1 A1 , X2 A2 , . . . , Xn An } = {X
= {X1 A1 } {X2 A2 } . . . {Xn An }
e simili.
~ si dice discreto quando tutte le sue componenti sono variabili aleatorie
Un vettore aleatorio X
discrete. In tal caso, se S1 , S2 , . . . , Sn sono i sottoinsiemi discreti di R in cui prendono valore
~ `e la funzione
ciascuna delle componenti X1 , X2 , . . . , Xn , rispettivamente, la densit`a di X
pX~ : S1 S2 . . . Sn [0, 1]
data da
~ = (x1 , x2 , . . . , xn )) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
pX~ (x1 , x2 , . . . , xn ) = P(X
(come al solito, per semplicit`a di scrittura nella formula precedente abbiamo rimosso le parentesi
graffe dagli eventi). La funzione pX~ si chiama anche densit`a congiunta delle variabili aleatorie
` immediato verificare che la densit`a congiunta p ~ ha propriet`a analoghe alla
X1 , X2 , . . . , Xn . E
X
densit`a di una singola variabile aleatoria. In particolare, per ogni dominio A Rn si ha
X
~ A) =
pX~ (x1 , x2 , . . . , xn )
P(X
x1 S1 , x2 S2 , ..., xn Sn
(x1 ,x2 ,...,xn )A

e quindi la densit`a pX~


(a) `e positiva: pX~ (x1 , x2 , . . . , xn ) 0 per ogni (x1 , x2 , . . . , xn );
P
P
P
(b) `e normalizzata: x1 S1 x2 S2 . . . xn Sn pX~ (x1 , x2 , . . . , xn ) = 1.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

32

La densit`a di ciascuna componente Xi si pu`o ricavare dalla densit`a congiunta semplicemente


sommando questultima rispetto a tutte le variabili tranne la i-esima. Per esempio, per calcolare
la densit`a di X1 abbiamo
pX1 (x) = P (X1 = x) = P (X1 = x, X2 S2 , X3 S3 , . . . , Xn Sn )
X
X X
...
pX~ (x, x2 , . . . , xn ).
=
x2 S2 x3 S3

xn Sn

Per questo motivo, la densit`a pXi si chiama anche densit`a marginale di pX~ rispetto alli-esima
componente.
~ = (X, Y ),
Osservazione 4. Quando si ha a che fare con un vettore aleatorio a n = 2 componenti X
`e molto utile riassumere la sua densit`a congiunta nella tabella
X \Y
x1
x2
...

y1
y2
...
p(X,Y ) (x1 , y1 ) p(X,Y ) (x1 , y2 ) . . .
p(X,Y ) (x2 , y1 ) p(X,Y ) (x2 , y2 ) . . .
...
...
...

dove S1 = {x1 , x2 , . . .} e S2 = {y1 , y2 , . . .} sono i valori possibili di X e di Y , rispettivamente.


Poice la densit`a congiunta `e positiva e normalizzata, tutte le caselle interne devono essere 0 e
la loro somma deve fare 1.
Nella tabella precedente, la densit`a marginale di X si ricava sommando gli elementi in ciascuna
riga. Ci`o si fa di solito aggiungendo una colonna contenente i valori della marginale pX , nel modo
che segue:
X \Y
x1
x2
...

y1
y2
...
p(X,Y ) (x1 , y1 ) p(X,Y ) (x1 , y2 ) . . .
p(X,Y ) (x2 , y1 ) p(X,Y ) (x2 , y2 ) . . .
...
...
...

pX
pX (x1 ) = p(X,Y ) (x1 , y1 ) + p(X,Y ) (x1 , y2 ) + . . .
pX (x2 ) = p(X,Y ) (x2 , y1 ) + p(X,Y ) (x2 , y2 ) + . . .
...

Analogamente, la marginale pY si ricava sommando le colonne corrispondenti, e aggiungendo unuteriore riga in fondo alla tabella:
X \Y
x1
x2
...
pY

y1
p(X,Y ) (x1 , y1 )
p(X,Y ) (x2 , y1 )
...
pY (y1 )

y2
p(X,Y ) (x1 , y2 )
p(X,Y ) (x2 , y2 )
...
pY (y2 )

...
...
...
...
...

pX
pX (x1 )
pX (x2 )
...

La normalizzazione di p(X,Y ) si riflette allora nel fatto che sia la riga corrispondente a pY sia la
colonna corrispondente a pX sommano a 1.

1.8. VETTORI ALEATORI

33

` importante osservare che le densit`a marginali non determinano mai univoOsservazione 5. E


camente la densit`a congiunta pX~ . In altre parole, assegnate le densit`a pX1 , pX2 , . . . , pXn , esistono
uninfinit`a di densit`a congiunte pX~ diverse che danno le stesse marginali pX1 , pX2 , . . . , pXn . Per
esempio, con n = 2, le due densit`a congiunte p(X,Y ) e q(X,Y ) sullinsieme S = {0, 1}2 descritte
rispettivamente dalle tabelle

p(X,Y ) =

X \Y
0
1

0
1
0 1/2
1/2 0

q(X,Y ) =

X \Y
0
1

0
1
1/4 1/4
1/4 1/4

danno entrambe come marginali la densit`a uniforme


pX (i) qX (i) =

1
2

per ogni i {0, 1},

eppure p(X,Y ) e q(X,Y ) sono diverse. Ne concludiamo che la conoscenza delle sole marginali non
~ A) quando A Rn `e un generico insieme.
permette di calcolare le probabilit`a del tipo P(X
Una successione di n variabili aleatorie X1 , X2 , . . . , Xn si dicono indipendenti se la loro densit`a
congiunta `e il prodotto delle marginali, cio`e
pX~ (x1 , x2 , . . . , xn ) = pX1 (x1 )pX2 (x2 ) . . . pXn (xn )

per ogni (x1 , x2 , . . . , xn ).

(1.7)

Una successione di variabili aleatorie indipendenti costituisce unimportante eccezione allOsservazione 5. Infatti, la fondamentale informazione aggiuntiva che le X1 , X2 , . . . , Xn sono indipendenti
permette di determinare la loro densit`a congiunta a partire dalla conoscenza delle sole marginali
attraverso la formula (1.7) precedente.
Osserviamo che le definizioni di indipendenza per eventi e per variabili aleatorie sono consistenti
tra loro: infatti, se p.es. X e Y sono due variabili aleatorie indipendenti, allora tutte le coppie di
eventi della forma {X A}, {Y B} sono indipendenti, in quanto
XX
XX
X
X
P ({X A} {Y B}) =
p(X,Y ) (x, y) =
pX (x)pY (y) =
pX (x)
pY (y)
xA yB

xA yB

xA

yB

= P (X A) P (Y B) .
La generalizzazione al caso di n 3 variabili aleatorie `e simile (provare per esercizio!).
~ = (X, Y ) e W
~ = (X, Z)
Esempio 23. Riprendiamo lEsempio 10 del lancio di due dadi. I vettori U
sono entrambi vettori aleatori discreti a valori nellinsieme S = {1, 2, 3, 4, 5, 6}2 . Esplicitamente,
~ (1 , 2 ) = (1 , 2 )
U

V~ (1 , 2 ) = (1 , max{1 , 2 })

per ogni (1 , 2 ) . La densit`a congiunta di X e Y `e


~ = (x, y)) = P ({(x, y)}) = 1
pU~ (x, y) = P(U
36

per ogni (x, y) S.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

34
Si vede che

1
1 1
= pX (x)pY (y)
per ogni (x, y) S
36
6 6
da cui segue che le variabili aleatorie X e Y sono indipendenti. Per quanto riguarda il vettore
aleatorio V~ , invece, per ogni (x, z) S si ha

se x > z
P () = 0
z
~
pV~ (x, z) = P(V = (x, z)) = P ({(z, 2 ) | 2 z}) = 36 se x = z

1
P ({(x, z)}) = 36
se x < z
pU~ (x, y) =

In questo caso

1 2z 1

6= pV~ (x, z)
6
36
e quindi le variabili aleatorie X e Z non sono indipendenti.
pX (x)pZ (z) =

~ = (X1 , X2 , . . . , Xn ) si dice assolutamente continuo se esiste una funzione


Un vettore aleatorio X
fX~ : Rn R tale che
Z

 ZZ
~
P XA =
. . . fX~ (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn
per ogni dominio A Rn .
A

~ o densit`a congiunta
La funzione fX~ si chiama anche in questo caso densit`a del vettore aleatorio X
delle variabili aleatorie X1 , X2 , . . . , Xn .
Valgono per fX~ propriet`a analoghe a quelle di una densit`a discreta, naturalmente a patto di
scambiare le somme con i corrispondenti integrali:
(a) positivit`a: fX~ (x1 , x2 , . . . , xn ) 0 per ogni (x1 , x2 , . . . , xn ) Rn ;
R + R +
R +
(b) normalizzazione: . . . fX~ (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn = 1.
In modo simile al caso discreto, la densit`a fXi di ciascuna componente Xi si ottiene come i-esima
marginale della congiunta fX~ secondo la formula
Z

fXi (x) =

dx1 . . .

dxi1

dxi+1 . . .

dxn fX~ (x1 , . . . , xi1 , x, xi1 , . . . , xn ).

Infatti, vediamolo per esempio per la prima componente X1 ; per farlo, ricaviamo la funzione di
ripartizione FX1 dalla densit`a congiunta e poi deriviamola:
FX1 (x) = P (X1 x) = P (X1 x, X2 (, +), X3 (, +), . . . , Xn (, +))
Z x
Z +
Z +
Z +
=
dx1
dx2
dx3 . . .
dxn fX~ (x1 , x2 , x3 , . . . , xn )

Z +
Z +
Z +
dFX1 (x)
=
dx2
dx3 . . .
dxn fX~ (x, x2 , x3 , . . . , xn ).
fX1 (x) =
dx

1.8. VETTORI ALEATORI

35

~ le componenti X1 , X2 , . . . , Xn
Anche nel caso di un vettore aleatorio assolutamente continuo X,
si dicono indipendenti se la loro densit`a congiunta si fattorizza nel prodotto delle marginali, cio`e
se
fX~ (x1 , x2 . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn )
per ogni (x1 , x2 . . . , xn ) Rn .
Esempio 24 (Densit`a uniforme sul cerchio). Problema: Consideriamo un esperimento aleatorio
in cui si sceglie a caso con probabilit`a uniforme un punto nel cerchio unitario C = {(x, y) R2 |
x2 + y 2 1}. Indichiamo con (X, Y ) il vettore aleatorio
(X, Y ) = coordinate del punto
cio`e X e Y sono le variabili aleatorie
X = ascissa del punto

Y = ordinata del punto.

La densit`a del vettore aleatorio (X, Y ) `e pertanto la seguente densit`a uniforme sul cerchio C:
(
1
se x2 + y 2 1
f(X,Y ) (x, y) =
0 altrimenti
(verificare per esercizio che f(X,Y ) `e normalizzata). Per ogni r > 0, qual `e la probabilit`a che il
punto scelto a caso disti meno di r dallorigine? Le variabili aleatorie X e Y sono indipendenti?
Soluzione: Si ha luguaglianza di eventi

il punto dista meno di r dallorigine = { X 2 + Y 2 < r} = {X 2 + Y 2 < r2 } = {(X, Y ) A}


dove A R2 `e linsieme
A = {(x, y) R2 | x2 + y 2 r2 }.
La prima domanda richiede pertanto di calcolare la probabilit`a
ZZ
P ((X, Y ) A) =
f(X,Y ) (x, y) dx dy.
A

Se r 1, lintegrale precedente vale chiaramente 1. Se invece r < 1, integrando per sezioni


Z r
Z r2 x2
Z
1
1
2 r 2
P ((X, Y ) A) =
dx dy =
dx
dy =
r x2 dx

r
r2 x2
A
r
Z
2r2 /2
=
cos2 d
con la sostituzione x = r sin
/2
ZZ

= r2
(notare che lintegrale precedente si poteva calcolare ancora pi`
u facilmente passando in coordinate
polari).

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

36

Per rispondere invece alla seconda domanda, dobbiamo calcolare le densit`a marginali
(R 2

Z +
1x
1
2

dy
=
1 x2 se 1 x 1
2

1x
f(X,Y ) (x, y) dy =
fX (x) =
0
altrimenti


Z +
R 1y2 1 dx = 2 p1 y 2 se 1 y 1

1y 2
f(X,Y ) (x, y) dx =
fY (y) =

0
altrimenti
e confrontare il loro prodotto fX (x)fY (y) con la densit`a congiunta f(X,Y ) (x, y). Poiche
p
2
1 y 2 6= 1 , se ne deduce che X e Y non sono indipendenti.

1 x2

Se X e Y sono due variabili aleatorie, la loro somma Z = X +Y `e ancora una variabile aleatoria.
In generale, per`o, la conoscenza delle sole densit`a di X e di Y non `e sufficiente a determinare la
densit`a di Z (per questo occorrerebbe infatti conoscere tutta la densit`a congiunta del vettore
(X, Y )). Se tuttavia abbiamo in pi`
u linformazione che X e Y sono indipendenti, allora la loro
densit`a congiunta `e determinata dalle marginali, e la densit`a di Z si pu`o effettivamente calcolare
a partire solo da queste. Vale infatti il risultato seguente.
Proposizione 2. Siano X e Y due variabili aleatorie assolutamente continue e indipendenti, con
densit`a fX e fY , rispettivamente. Sia Z = X +Y la loro somma. Allora Z `e una variabile aleatoria
assolutamente continua con densit`a
Z +
fZ (z) =
fX (z y)fY (y) dy.
(1.8)

Dimostrazione. Calcoliamo la funzione di ripartizione di Z e poi deriviamola per ottenere fZ .


Si ha
FZ (z) = P (Z z) = P (X + Y z) = P ((X, Y ) A)
dove A = {(x, y) R2 | x + y z}
Z zy
Z +
ZZ
dx f(X,Y ) (x, y)
integrando per sezioni
dy
f(X,Y ) (x, y) dx dy =
=
A

Z +
Z zy
fX (x)fY (y) dx
per lindipendenza di X e Y ..
=
dy

Nellintegrale pi`
u interno, facciamo il cambio di variabili x = x0 y come segue
Z zy
Z z
fX (x)fY (y) dx =
fX (x0 y)fY (y) dx0

e quindi
Z

dy
fX (x0 y)fY (y) dx0


Z z Z +
0
=
fX (x y)fY (y) dy dx0

FZ (z) =

scambiando i due integrali.

1.8. VETTORI ALEATORI

37

Derivando questespressione rispetto a z otteniamo la (1.8).


Lintegrale nella formula (1.8) si chiama prodotto di convoluzione delle densit`a fX e fY . Quando
fX e fY sono entrambe gaussiane, dallequazione (1.8) si ricava la seguente importante propriet`a.
Proposizione 3. Siano X e Y due variabili aleatorie assolutamente continue e indipendenti.
Supponiamo che sia X sia Y abbiano densit`a normale. Allora la loro somma Z = X + Y ha
anchessa densit`a normale.
2
Dimostrazione. Supponiamo X N (X , X
) e Y N (Y , Y2 ). Possiamo riscrivere Z nella
forma


X X Y Y
+
+ (X + Y ) X (X0 + Y0 ) + (X + Y )
Z = X
X
X

in cui X0 := (X X )/X e Y0 := (Y Y )/X sono indipendenti e X0 N (0, 1) e Y0


N (0, (Y /X )2 ) in quanto trasformazioni affini di variabili aleatorie normali. Sempre perche trasformazioni affini di normali sono ancora normali, `e dunque sufficiente dimostrare che la somma
Z0 = X0 + Y0 `e gaussiana quando X0 N (0, 1) e Y0 N (0, 2 ). In tal caso, applicando la formula
(1.8) troviamo
Z +
Z +


2
y2
1 (zy)2 1
y2
12 z 2 2zy+ +1

2
2

e 2
e 2 dy = C
dy
e
fZ0 (z) =
2
2

dove C = 1/(2) `e una costante. Completando il quadrato nellesponenziale,


Z

fZ0 (z) = C

z2
21
2( 2 +1)

2 +1

2 +1

2
y

dy = Ce

z2
2( 2 +1)

12

2 +1

2 +1

2
y

dy.

Sostituendo infine nellintegrale precedente y 0 =


 Z
fZ0 (z) = C


2 +1

02

y2

dy


e

z
z2
2( 2 +1)

2 +1

y, abbiamo

= C 0e

z2
2( 2 +1)

R + y02
dove C 0 = C e 2 dy 0 `e una costante numerica che non dipende da z. Riconosciamo pertanto
in fZ0 la forma di una densit`a gaussiana.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

38

1.9

Media e varianza di una variabile aleatoria

Definizione 6. Sia X una variabile aleatoria. La media (o speranza) di X `e il numero reale E [X]
definito come segue:
- se X `e discreta con densit`a pX : S [0, 1],
E [X] =

xpX (x);

(1.9)

xS

- se X `e assolutamente continua con densit`a fX ,


Z +
xfX (x) dx.
E [X] =

(1.10)

Esempio 25 (Media della bernoulliana). Se X B(1, p), abbiamo


X
E [X] =
xpX (x) = 0 (1 p) + 1 p = p.
x{0,1}

Esempio 26 (Media dellesponenziale). Se T E(), risolvendo lintegrale per parti ricaviamo



x=+
Z +
Z +


1 x
1
x
x x=+
x
E [T ] =
xe
dx = xe
+
e
dx = e
= .
x=0

0
0
x=0
~ = (X1 , X2 , . . . , Xn ) `e un vettore aleatorio, ogni sua componente Xi `e una variabile
Se X
aleatoria, e dunque ne possiamo calcolare la media E [Xi ]. Pi`
u in generale, possiamo calcolare la
~
media di una qualunque funzione scalare del vettore X, e non solo di ciascuna sua componente.
~
Ma cosa intentendiamo precisamente per funzione scalare di X?
La nozione di funzione di un vettore aleatorio `e lestensione naturale del concetto di funzione di una singola variabile aleatoria: se g : Rn R `e una qualunque funzione, definiamo
~ Esplicitamente, g(X1 , X2 , . . . , Xn ) `e la funzione data da
g(X1 , X2 , . . . , Xn ) := g X.
[g(X1 , X2 , . . . , Xn )]() = g(X1 (), X2 (), . . . , Xn ())

per ogni .

Essendo definita su e a valori in R, la funzione g(X1 , X2 , . . . , Xn ) `e a tutti gli effetti una variabile
aleatoria.
Esempio 27.

(i) Per la componente Xi abbiamo


Xi = g(X1 , X2 , . . . , Xn )

dove

g(x1 , x2 , . . . , xn ) = xi .

~ `e la variabile aleatoria
(ii) La norma del vettore aleatorio X
R = g(X1 , X2 , . . . , Xn )

dove

q
g(X1 , X2 , . . . , Xn ) = x21 + x22 + . . . + x2n .

1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA

39

Dal momento che g(X1 , X2 , . . . , Xn ) `e una variabile aleatoria, possiamo chiederci quanto vale
la sua media. Se dovessimo calcolare E [g(X1 , X2 , . . . , Xn )] usando direttamente la Definizione
6 della media, dovremmo prima ricavare la densit`a di g(X1 , X2 , . . . , Xn ) a partire dalla densit`a
congiunta delle X1 , X2 , . . . , Xn , e poi applicare una delle due formule (1.9) o (1.10) per trovare
E [g(X1 , X2 , . . . , Xn )]. Tuttavia, la proposizione seguente ci dice che in realt`a il calcolo `e molto pi`
u
semplice e trovare la densit`a di g(X1 , X2 , . . . , Xn ) non `e necessario.
~ = (X1 , X2 , . . . , Xn ) `e un vettore aleatorio discreto con densit`a p ~ [riProposizione 4. Se X
X
spettivamente, assolutamente continuo con densit`a fX ] e g : Rn R `e una funzione qualunque,
allora
XX X
E [g(X1 , X2 , . . . , Xn )] =
...
g(x1 , x2 , . . . , xn )pX~ (x1 , x2 , . . . , xn )
x1

x2

xn

[risp.,
Z

dx1

E [g(X1 , X2 , . . . , Xn )] =

Z
dx2 . . .

dxn g(x1 , x2 , . . . , xn )fX~ (x1 , x2 , . . . , xn )

]
Dimostrazione. Dimostreremo solo il caso discreto. Inoltre, per semplificare le notazioni supporremo di avere solo n = 2 componenti. Se X, Y sono due variabili aleatorie discrete a valori negli
insiemi SX e SY , rispettivamente, la variabile aleatoria g(X, Y ) prende valori nellinsieme discreto
S = {g(x, y) | x SX , y SY }. La Definizione 6 della media d`a
X
X
E [g(X, Y )] =
zpg(X,Y ) (z) =
zP (g(X, Y ) = z) .
zS

zS

Inoltre,

P (g(X, Y ) = z) = P (X, Y ) g 1 ({z}) =

p(X,Y ) (x, y) =

x,y
(x,y)g 1 ({z})

p(X,Y ) (x, y).

x,y
g(x,y)=z

Inserendo questespressione nella precedente, otteniamo


X
X
X X
X
E [g(X, Y )] =
z
p(X,Y ) (x, y) =
g(x, y)p(X,Y ) (x, y) =
g(x, y)p(X,Y ) (x, y).
zS

x,y
g(x,y)=z

zS

x,y
g(x,y)=z

x,y

La media gode inoltre delle seguenti propriet`a fondamentali.


Proposizione 5 (Propriet`a della media). (i) Se c R e X c `e la variabile aleatoria identicamente uguale a c (cio`e X() = c per ogni ), allora E [X] = c.
(ii) Se X e Y sono due variabili aleatorie e a, b sono numeri reali, allora E [aX + bY ] = aE [X] +
bE [Y ]. In particolare, E [aX + b] = aE [X] + b.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

40

(iii) Se X e Y sono due variabili aleatorie indipendenti, allora E [XY ] = E [X] E [Y ].


Dimostrazione. (i) X `e una variabile aleatoria discreta a valori nellinsieme S = {c} e con densit`a
pX (c) = 1. Per la formula (1.9), E [X] = c pX (c) = c.
(ii) Per fissare le idee supponiamo che il vettore aleatorio (X, Y ) sia discreto, e usiamo la
Proposizione 4 con g : R2 R data da g(x, y) = ax + by. Abbiamo
X
E [aX + bY ] = E [g(X, Y )] =
(ax + by)p(X,Y ) (x, y)
x,y

X X
X X
=a
x
p(X,Y ) (x, y) + b
y
p(X,Y ) (x, y)
x

=a

xpX (x) + b

ypY (y)

perche

p(X,Y ) (x, y) = pX (x) e

p(X,Y ) (x, y) = pY (y)

= aE [X] + bE [Y ] .
Il caso assolutamente continuo `e del tutto simile. Infine, per quanto appena dimostrato,
E [aX + b] = aE [X] + bE [1] = aE [X] + b

perche E [1] = 1.

(iii) Supponiamo questa volta che il vettore aleatorio (X, Y ) sia assolutamente continuo. Allora,
scegliendo g : R2 R data da g(x, y) = xy e applicando di nuovo la Proposizione 4, otteniamo
Z + Z +
E [XY ] = E [g(X, Y )] =
xyf(X,Y ) (x, y) dx dy

Z + Z +
=
xyfX (x)fY (y) dx dy
per lindipendenza

Z +
Z +
=
xfX (x) dx
yfY (y) dy = E [X] E [Y ] .

La propriet`a (ii) significa che la media E `e un funzionale lineare sullo spazio vettoriale delle variabili
aleatorie. Osserviamo inoltre che, nella propriet`a (iii), lindipendenza di X e Y `e solo un requisito
sufficiente per aversi E [XY ] = E [X] E [Y ], ma non `e necessario. In altre parole, esistono variabili
aleatorie X e Y non idipendenti per cui vale comunque E [XY ] = E [X] E [Y ] (trovarne una coppia
per esercizio!).
Esempio 28 (Media della normale). Supponiamo per cominciare che Z0 N (0, 1). Osservando
x2

che la funzione xe 2 `e antisimmetrica rispetto allasse delle y troviamo


Z +
x2
1
E [Z0 ] =
xe 2 dx = 0.
2
Se invece Z N (, 2 ), allora abbiamo lidentit`a
Z=

Z
+ =: Z0 +

1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA

41

dove la variabile aleatoria Z0 := (Z )/ `e la standardizzazione di Z e ha pertanto densit`a


N (0, 1). Quindi, per la linearit`a della media e per quanto appena visto per la normale standard,
E [Z] = E [Z0 + ] = E [Z0 ] + = 0 + = .
Definizione 7. La covarianza di due variabili aleatorie X e Y `e il numero reale Cov (X, Y ) definito
come segue
Cov (X, Y ) = E [(X E [X])(Y E [Y ])] .
Da notare che, al contrario della media, la covarianza ha come argomento due variabili aleatorie,
e non una sola.
Dalla Proposizione 4 possiamo ricavare lespressione esplicita di Cov (X, Y ) nei due casi in cui
(X, Y ) `e un vettore aleatorio discreto
X
Cov (X, Y ) =
(x E [X])(y E [Y ])p(X,Y ) (x, y)
x,y

oppure assolutamente continuo


Z
Cov (X, Y ) =

(x E [X])(y E [Y ])f(X,Y ) (x, y) dx dy.

La proposizione seguente riassume le principali propriet`a della covarianza.


Proposizione 6 (Propriet`a della covarianza).
alternativa della covarianza).

(i) Cov (X, Y ) = E [XY ] E [X] E [Y ] (formula

(ii) Cov (X, Y ) = Cov (Y, X) per ogni coppia di variabili aleatorie X, Y (simmetria).
(iii) Se X `e una variabile aleatoria costante, allora Cov (X, Y ) = 0.
(iv) Cov (aX + bY, Z) = aCov (X, Z) + bCov (Y, Z) per ogni tripla di variabili aleatorie X, Y, Z e
coppia di numeri reali a, b; la stessa propriet`a vale anche per il secondo argomento (bilinearit`a).
(v) Se X e Y sono indipendenti, allora Cov (X, Y ) = 0.
Dimostrazione. (i) Abbiamo
Cov (X, Y ) = E [(X E [X])(Y E [Y ])]
= E [XY E [Y ] X E [X] Y + E [X] E [Y ]]
svolgendo il prodotto
= E [XY ] E [Y ] E [X] E [X] E [Y ] + E [X] E [Y ] E [1]
per la linearit`a della media
= E [XY ] E [Y ] E [X] E [X] E [Y ] + E [X] E [Y ]
perche E [1] = 1
= E [XY ] E [Y ] E [X] .
(ii) Per la definizione,
Cov (X, Y ) = E [(X E [X])(Y E [Y ])] = E [(Y E [Y ])(X E [X])] = Cov (Y, X) .

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

42

(iii) Se c R e X c, allora sappiamo che E [c] = c, e pertanto


Cov (X, Y ) = E [(c E [c])(Y E [Y ])] = E [0 (Y E [Y ])] = E [0] = 0.
(iv) Usando la formula alternativa della covarianza, abbiamo
Cov (aX + bY, Z) = E [(aX + bY )Z] E [aX + bY ] E [Z]
= E [aXZ + bY Z] E [aX + bY ] E [Z]
= aE [XZ] + bE [Y Z] (aE [X] + bE [Y ])E [Z]
linearit`a di E
= a(E [XZ] E [X] E [Z]) + b(E [Y Z] E [Y ] E [Z])
= aCov (X, Z) + bCov (Y, Z) .
La propriet`a analoga per il secondo argomento segue dalla simmetria di Cov.
(v) Se X e Y sono indipendenti, abbiamo visto fra le propriet`a della meda che E [XY ] =
E [X] E [Y ]. Perci`o, usando ancora la formula alternativa della covarianza, Cov (X, Y ) = E [XY ]
E [X] E [Y ] = 0.
Osservazione 6. Attenzione! La propriet`a (v) della covarianza significa limplicazione
X, Y sono indipendenti

Cov (X, Y ) = 0

ma limplicazione inversa non `e vera! Per esempio, se (X, Y ) `e un vettore aleatorio discreto a
valori in S = {0, 1} {0, 1, 2} e con densit`a congiunta data dalla seguente tabella
X \Y
0
1

0
1
2
1/12 1/3 1/12
1/4
0
1/4

allora le variabili aleatorie X e Y non sono indipendenti, tuttavia Cov (X, Y ) = 0 (verificarlo!).
Definizione 8. La varianza di una variabile aleatoria X `e il numero reale Var (X) dato da


Var (X) = Cov (X, X) = E (X E [X])2 .
Lespressione esplicita di Var (X) nei due casi in cui X `e discreta o assolutamente continua pu`o
ancora essere ricavata tramite la Proposizione 4, ottenendo
(P
2


se X `e discreta
x (x E [X]) pX (x)
Var (X) = E (X E [X])2 = R +
2
(x E [X]) fX (x) dx se X `e assolutamente continua

Notiamo in particolare che in entrambi i casi Var (X) `e sempre un numero positivo, in quanto
somma opintegrale di quantit`a positive. Possiamo prenderne pertanto la radice quadrata: la
quantit`a Var (X) si chiama deviazione standard di X.
La varianza gode delle seguenti propriet`a fondamentali, che vanno confrontate con le analoghe
propriet`a della media.

1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA


Proposizione 7 (Propriet`a della varianza).
della varianza).

43

(i) Var (X) = E [X 2 ] E [X]2 (formula alternativa

(ii) Se X `e una variabile aleatoria costante, allora Var (X) = 0.


(iii) Se a, b sono numeri reali, allora Var (aX + b) = a2 Var (X).
(iv) Se X1 , X2 , . . . Xn sono n variabili aleatorie, la varianza della loro somma `e
!
n
n
n
X
X
X
Var
Xi =
Var (Xi ) + 2
Cov (Xi , Xj ) .
i=1

i=1

(1.11)

i,j=1
i<j

In particolare, se le variabili aleatorie X1 , X2 , . . . Xn sono indipendenti


!
n
n
X
X
Var
Xi =
Var (Xi ) .
i=1

(1.12)

i=1

Dimostrazione. (i) Segue dalla formula alternativa della covarianza Cov (X, X) = E [X 2 ]E [X]2 .
(ii) Immediata dallanaloga propriet`a della covarianza.
(iii) Abbiamo
Var (aX + b) = Cov (aX + b, aX + b)
= a2 Cov (X, X) + aCov (b, X) + aCov (X, b) + Cov (b, b)
bilinearit`a di Cov
2
= a Cov (X, X)
perche Cov (X, Y ) = 0 se Y `e costante
2
= a Var (X) .
(iv) Si ha
Var

n
X

!
Xi

i=1

n
X

= Cov

n
X
i=1

Cov (Xi , Xi ) +

i=1

n
X
i=1

Xi ,

n
X

!
Xi

i=1
n
X

n
X

Cov (Xi , Xj )

bilinearit`a di Cov

i,j=1

Cov (Xi , Xj )

i,j=1
i6=j

Var (Xi ) + 2

n
X

Cov (Xi , Xj )

definizione di Var e simmetria di Cov

i,j=1
i<j

Se in pi`
u le X1 , X2 , . . . Xn sono indipendenti, allora Cov (Xi , Xj ) = 0 per ogni i 6= j, e la formula
precedente si riscrive come in (1.12).
Nel caso di due sole variabili aleatorie X e Y , la formula (1.11) per la varianza della loro somma
si riscrive
Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X, Y ) .

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

44

Esempio 29 (Varianza della bernoulliana). Se X B(1, p), allora X pu`o prendere solo i due
valori 0 oppure 1, e di conseguenza X 2 = X. Perci`o, usando la formula alternativa della varianza,
 
Var (X) = E X 2 E [X]2 = E [X] E [X]2 = p p2 .
Esempio 30 (Media e varianza della binomiale). Se X B(n, p), allora possiamo vedere X come
la variabile aleatoria che conta il numero di successi in n prove di Bernoulli E1 , E2 , . . . , En con
probabilit`a di successo P (Ei ) = p per ciascuna prova. In questo modo, X `e la somma
X = 1E1 + 1E2 + . . . + 1En ,
dove le variabili aleatorie 1E1 , 1E2 , . . . , 1En sono tutte indipendenti e identicamente distribuite
(i.i.d.), ciascuna con densit`a 1Ei B(1, p). Per la linearit`a della media abbiamo pertanto
E [X] = E [1E1 + 1E2 + . . . + 1En ] = E [1E1 ] + E [1E2 ] + . . . + E [1En ] = p + p + . . . + p
= np.
Dalla formula (1.12) per la varianza della somma di variabili aleatorie indipendenti otteniamo
invece
Var (X) = Var (1E1 ) + Var (1E2 ) + . . . + Var (1En ) = p(1 p) + p(1 p) + . . . + p(1 p)
= np(1 p).
Esempio 31 (Varianza dellesponenziale). Se T E(), integrando per parti due volte abbiamo
Z +
Z +
Z +
 2
 2 x x=+
2
x
x
E T =
x e
dx = x e
+
2xe
dx =
2xex dx
x=0
0
0
0
x=+ Z +

Z +
2 x
2 x
2x
e
dx =
e
dx
+
= ex

0
0
x=0

x=+
2
2 x
= 2e
= 2

x=0
e quindi
 
2
Var (T ) = E T 2 E [T ]2 = 2

 2
1
1
= 2.

Esempio 32 (Varianza della normale). Supponiamo innanzitutto Z0 N (0, 1). Sappiamo allora
che E [Z0 ] = 0, e quindi
Z +
 2
 2
x2
1
2
Var (Z0 ) = E Z0 E [Z0 ] = E Z0 =
x2 e 2 dx
2
Z
h
i
+
x=+
x2
x2
1
1
=
xe 2
+
e 2 dx
integrando per parti
x=
2
2
Z +
Z +
2
1
x2
e
dx =
fZ0 (x) dx
=
2

=1
perche fZ0 `e normalizzata.

1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA

45

Se ora Z N (, 2 ), procedendo come nellEsempio 28 abbiamo


Z = Z0 +

con Z0 :=

Z
N (0, 1)

e quindi per la propriet`a (iii) della varianza


Var (Z) = Var (Z0 + ) = 2 Var (Z0 ) = 2 .
Per comodit`a del lettore, nella seguente tabella riassuntiva mettiamo a confronto le principali
propriet`a della media, della varianza e della covarianza.

Y =c
Y = aX + b
Y = X1 + X 2
Y, Z indip.

E [Y ]
Var (Y )
c
0
2
aE [X] + b
a Var (X)
E [X1 ] + E [X2 ] Var (X1 ) + Var (X2 ) + 2Cov (X1 , X2 )
E [Y ]
Var (Y )

Cov (Y, Z)
0
aCov (X, Z)
Cov (X1 , Z) + Cov (X2 , Z)
0

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

46

1.10

Disuguaglianza di Chebyshev e legge dei grandi numeri

La varianza di una variabile aleatoria X `e un numero reale che misura quanto la densit`a di X si
disperde intorno al suo valor medio. Ci`o `e abbastanza chiaro dalla formula esplicita di Var (X):
per esempio, se X `e discreta, allora

Var (X) =

(x E [X])2 pX (x)

`e tanto pi`
u grande quanto pi`
u la densit`a pX pesa i punti x che si trovano lontano da E [X], cio`e
i punti per i quali la distanza |x E [X] | al quadrato `e grande. Ci`o si vede particolarmente bene
nellesempio in cui X ha densit`a normale N (, 2 ); in tal caso, infatti, semplicemente disegnando

(x)2
u allargata
il grafico della densit`a fX (x) = e 22 /( 2), si osserva subito che fX `e tanto pi`
2
intorno alla media E [X] = quanto pi`
u la varianza Var (X) = `e grande. Un esempio ancora pi`
u
semplice e illuminante `e quello di una variabile aleatoria X discreta che prende valori nellinsieme
di due numeri reali {a, a} (dove a > 0) con densit`a pX (a) = pX (a) = 1/2. In tal caso, infatti,
E [X] = 0 per ogni a, mentre la varianza Var (X) = a2 cresce col quadrato della distanza delle due
masse.
Un modo alternativo di quantificare il grado di dispersione di una variabile aleatoria X intorno
al suo valor medio `e il seguente: fissiamo un numero k a nostro piacimento, e calcoliamo la probabilit`a che X si discosti da E [X] per pi`
u di k volte la sua deviazione standard. Tanto pi`
u grande `e
tale probabilit`a, tanto maggiore sar`a la dispersione di X intorno al suo valor medio. Per esempio,

p
se fissiamo k = 3 la nostra misura di dispersione `e la quantit`a P |X E [X] | > 3 Var (X) , cio`e
la probabilit`a che X si discosti dalla sua media E [X] per pi`
u di 3 volte la deviazione standard.
Tanto maggiore `e tale probabilit`a, tanto pi`
u ci aspettiamo che X sia dispersa intorno a E [X].
Le due misure di dispersione precedenti sono strettamente legate tra di esse.
disuguaglianza di Chebyshev che ora enunceremo stabilisce la loro relazione.

Infatti, la

Proposizione 8 (Disuguaglianza di Chebyshev). Sia X una variabile aleatoria qualsiasi. Allora,


per ogni k > 0,


p
1
P |X E [X] | > k Var (X) 2 .
k

Dimostrazione. Supporremo per semplicit`a che X sia una variabile aleatoria discreta a valori
nellinsieme S (il caso assolutamente continuo `e del tutto analogo). Denotiamo in breve = E [X]

1.10. DISUGUAGLIANZA DI CHEBYSHEV E LEGGE DEI GRANDI NUMERI


e 2 = Var (X). Si ha
X
2 =
(x )2 pX (x) =
xS

X
x:|x|k

(x )2 pX (x)

x:|x|>k

(x )2 pX (x) +

perche

47

(x )2 pX (x)

x:|x|>k

(x )2 pX (x) `e positiva

x:|x|k

(k)2 pX (x)

perche se |x | > k allora (x )2 > (k)2

x:|x|>k

= k22

pX (x)

x:|x|>k

= k 2 2 P (|X | > k)
e lenunciato segue immediatamente dividendo ambo i membri per k 2 2 .
Con k = 3, la disuguaglianza di Chebyshev ci dice per esempio che la probabilit`a che X
disti dal suo valor medio per pi`
u di 3 volte la deviazione standard `e minore o ugualepa 1/9, o,
equivalentemente, che gli 8/9 della densit`a di X sono concentrati entro una distanza di 3 Var (X)
dalla media. Da notare che questo vale qualunque sia la densit`a di X, quindi anche nel caso in cui
la densit`a `e incognita e lunico dato disponibile `e la sua varianza.
Introduciamo ora un concetto che diventer`a fondamentale nella parte di statistica.
Definizione 9. Un campione aleatorio di numerosit`a n `e una successione di variabili aleatorie
X1 , X2 , . . . , Xn tali che
(a) le variabili aleatorie X1 , X2 , . . . , Xn sono indipendenti;
(b) tutte le variabili aleatorie X1 , X2 , . . . , Xn hanno la stessa densit`a.
Un campione aleatorio `e pertanto una successione di variabili aleatorie indipendenti e identicamente distribuite (i.i.d.). In particolare, per luguaglianza delle loro densit`a, tutte le Xi hanno la
stessa media e la stessa varianza: E [Xi ] = E [Xj ] e Var (Xi ) = Var (Xj ) per ogni i 6= j, in quanto
sia la media che la varianza dipendono solo dalla densit`a.
Per chiarire ancora meglio la definizione, supponiamo per fissare le idee che le Xi siano tutte
assolutamente continue e ciascuna abbia densit`a fXi . Allora il punto (b) richiede che fXi = fXj =: f
per ogni i 6= j, dove f `e la densit`a comune. Il punto (a) significa invece che la densit`a congiunta `e
f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn ) = f (x1 )f (x2 ) . . . f (xn ).
Esempio 33. In ciascuno degli esperimenti aleatori seguenti, la successione di variabili aleatorie
X1 , X2 , . . . , Xn `e un esempio di campione aleatorio.
(i) Prendiamo a caso un gruppo di n maschi adulti della stessa popolazione e indichiamo con Xi
la variabile aleatoria
Xi = altezza delli-esimo individuo.

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

48

(ii) Se abbiamo una scatola contenente n lampadine tutte della stessa marca e dello stesso
modello, poniamo
Xi = durata delli-esima lampadina prima di bruciarsi.
(iii) Lanciamo uno dado per n volte e definiamo
Xi = risultato delli-esimo lancio.
(iv) In un imballaggio contenente n scatole da 10 DVD ciascuna, chiamiamo
Xi = numero di DVD guasti nelli-esima scatola.
Nei primi due esempi, le Xi hanno densit`a assolutamente continua (tipicamente, gaussiana in (i) e
esponenziale in (ii)), mentre negli ultimi due la loro densit`a `e discreta (uniforme in (iii) e binomiale
in (iv)).
La media campionaria del campione X1 , X2 , . . . , Xn `e la variabile aleatoria
n

X
n = 1
X
Xi .
n i=1
n `e la stessa di una qualunque delle Xi . In altre parole, abbiamo
Notiamo che la media di X
#
" n
n
X
 
1X
1
1

E Xn = E
Xi =
E [Xi ] = nE [X1 ] = E [X1 ] .
n i=1
n i=1
n
n `e invece la varianza delle Xi riscalata di un fattore 1/n. Infatti, ricordando che
La varianza di X
le Xi sono indipendenti, la formula (1.12) ci d`a
!
!  
n
n
2
X
X

1
1
n = Var
Var X
Var
Xi
perche Var (aX + b) = a2 Var (X)
Xi =
n i=1
n
i=1
n
1 X
= 2
Var (Xi )
n i=1

per la formula (1.12)

1
Var (X1 )
nVar (X1 ) =
.
2
n
n
n rimane la stessa delle Xi , la sua dispersione si riduce di un fattore
Pertanto, mentre la media di X
1/n. In altre parole, la densit`a di probabilit`a della media campionaria si stringe
intorno al valor
medio delle Xi con una larghezza (= deviazione standard) che scala come 1/ n. Ci`o `e alla base
del seguente teorema.
=

Teorema 4 (Legge dei grandi numeri). Supponiamo che X1 , X2 , . . . sia un campione aleatorio.
Allora per ogni  > 0 si ha

n E [X1 ] | >  = 0.
lim P |X
n

1.10. DISUGUAGLIANZA DI CHEBYSHEV E LEGGE DEI GRANDI NUMERI

49

Dimostrazione. Usiamo la disuguaglianza


di Chebyshev per la

 variabile aleatoria Xn , che ab n = E [X1 ] e varianza Var X
n = Var (X1 ) /n. Ponendo k =
biamo visto avere media E X
q

n nella disuguaglianza di Chebyshev, abbiamo pertanto
/ Var X



q
n


Var X
Var (X1 )
1

P |Xn E [X1 ] | >  = P |Xn | > k Var Xn


=
.
2 =
2
k

n2
Dal momento che limn Var (X1 ) /(n2 ) = 0 e poiche la probabilit`a `e sempre un numero non
negativo, passando al limite per n in entrambi i membri della disuguaglianza otteniamo
n E [X1 ] | >  = 0.
limn P |X

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

50

1.11

Teorema del limite centrale

Se X1 , X2 , . . . , Xn `e un campione aleatorio gaussiano, cio`e Xi N (, 2 ) per ogni i = 1, 2, . . . , n


(con le stesse e per tutti gli i!), allora la Proposizione 3 ci dice che la media campionaria
n = (X1 +X2 +. . .+Xn )/n `e anchessa una variabile aleatoria gaussiana, in quanto combinazione
X
 

n = E [X1 ] = e Var X
n =
lineare di normali indipendenti. Poiche gi`a sappiamo che E X
n N (, 2 /n). Il seguente fondamentale teorema ci dice
Var (X1 ) /n = 2 /n, avremo pertanto X
che questo fatto vale approssimativamente anche quando le Xi hanno densit`a arbitraria (e non
necessariamente gaussiana), a patto per`o che il campione sia abbastanza numeroso.
Teorema 5 (Teorema del limite centrale). Sia X1 , X2 , . . . un campione aleatorio qualsiasi. Allora
!
Z x
n E [X1 ]
z2
1
X
e 2 dz
per ogni x R.
n x = (x) =
lim P p
n
2
Var (X1 )
La dimostrazione `e molto complicata e la ometteremo. Sottolineamo per`o ancora una seconda
volta che il significato del Teorema del limite centrale (TLC) `e il seguente: se X1 , X2 , . . . , Xn `e un
campione aleatorio qualsiasi e non necessariamente gaussiano ma n `e abbastanza grande, allora
la sua media campionaria Xn ha comunque approssimativamente densit`a gaussiana. Chiaramente,
tale densit`a sar`a N (E [X1 ] , Var (X1 ) /n), perche E [X1 ] e Var (X1 ) /n sono la media e la varianza di
Xn . Scriveremo in questo caso Xn N (E [X1 ] , Var (X1 ) /n). Tipicamente, tale approssimazione
vale gi`a piuttosto bene quando n 30.
Una forma alternativa, ma equivalente, del TLC afferma che, per un campione aleatorio
X1 , X2 , . . . , Xn qualsiasi, quando n `e abbastanza grande la somma Sn = X1 + X2 + . . . + Xn
n `e gaussiana perche
ha approssimativamente densit`a N (nE [X1 ] , nVar (X1 )). Infatti, Sn = nX
n che `e gaussiana per il TLC, e
trasformazione affine della variabile aleatoria X
 

n = nE [X1 ] ,
n = nVar (X1 ) .
E [Sn ] = nE X
Var (Sn ) = n2 Var X
Tale forma alternativa del TLC giustifica il ruolo particolarmente importante che la densit`a gaussiana assume in tutta la teoria della probabilit`a e la sua grande rilevanza pratica. Infatti, in un
modello un po semplificato, possiamo assumere che lerrore che si commette nel misurare una
fissata quantit`a fisica sia in realt`a la somma Sn = X1 + X2 + . . . + Xn di tanti errori pi`
u piccoli
X1 , X2 , . . . , Xn , tutti indipendenti tra loro e identicamente distribuiti, ma con una densit`a che in
generale `e incognita. Il TLC ci dice allora che lerrore totale Sn `e comunque approssimabile con
una gaussiana, indipendentemente dalla densit`a incognita di ciascun contributo Xi .
Infine, sottolineiamo di nuovo che, se le Xi sono gi`a normali per conto loro, allora la relazione
Sn N (nE [X1 ] , nVar (X1 )) `e esatta e non c`e bisogno del TLC per dimostrarla.
Osservazione 7. Un errore abbastanza comune (ed enormemente grave) quando si studia Statistica `e pensare che per un campione aleatorio X1 , X2 , . . . , Xn le due variabili aleatorie Sn =
X1 + X2 + . . . + Xn e Tn = nX1 siano la stessa cosa. Ci`o non `e assolutamente vero, in quanto:
- Sn e Tn hanno densit`a completamente diversa, e per convincersene basta confrontare Var (Sn ) =
nVar (X1 ) con Var (Tn ) = n2 Var (X1 );
- solo per Sn vale il TLC.

1.12. APPROSSIMAZIONE NORMALE E POISSONIANA DELLA BINOMIALE

1.12

51

Approssimazione normale e poissoniana della binomiale

Supponiamo che X sia una variabile aleatoria binomiale di parametri n e p. In questa sezione
vedremo come la densit`a di X pu`o essere approssimata quando n `e molto grande in due casi di
particolare interesse pratico.
Il primo caso `e quello in cui n e p resta costante e finita.
Proposizione 9 (Approssimazione normale della binomiale). Supponiamo X B(n, p) con n
molto grande e p non trascurabile. Allora X N (np, np(1 p)).
Dimostrazione. Possiamo considerare X come la somma di n bernoulliane di parametro p indipendenti. In altre parole, X = X1 + X2 + . . . + Xn , dove X1 , X2 , . . . , Xn `e un campione aleatorio
e ciascuna Xi B(1, p). Per il TLC, X N (nE [X1 ] , nVar (X1 )) = N (np, np(1 p)), dove p e
p(1 p) sono rispettivamente la media e la varianza della variabile aleatoria bernoulliana X1 .
Come regola di massima per decidere se vale lapprossimazione precedente, si considera di solito
che n deve essere abbastanza grande e p abbastanza diverso da 0 o da 1 aversi np 5 e n(1p) 5.
Il secondo caso `e invece quello in cui n e p 0, in modo per`o che il prodotto np resti
costante e dellordine dellunit`a.
Proposizione 10 (Approssimazione di Poisson della binomiale). Supponiamo X B(n, p) con n
molto grande e p infinitesimo, in modo per`o che il prodotto := np sia confrontabile con 1. Allora
X ha approssimativamente densit`a
pX (k) ' e

k
k!

per ogni k = 0, 1, 2, . . ..

Dimostrazione. Vogliamo calcolare la densit`a pX nel limite


n ,

p 0,

np = = costante 1.

Abbiamo
 k 
nk
n!

pX (k) =
p (1 p)
=
1
k!(n k)! n
n




n
k
n!
k

=
1
1
k
(n k)!n k!
n
n


n
k

nk

e

n

k

lim 1
=e
lim 1
=1
n
n
n
n
n!
n(n 1)(n 2) . . . (n k + 1)
nk + O(nk1 )
lim
=
lim
=
lim
= 1.
n (n k)!nk
n
n
nk
nk

`
CAPITOLO 1. CALCOLO DELLE PROBABILITA

52
Pertanto
lim pX (k) =

k
e
k!

per ogni k = 0, 1, 2, . . ..

Nellapprossimazione di Poisson, dire che il prodotto np devessere confrontabile con 1 significa


che valori come np = 0.5, np = 1.4, np = 5 vanno bene, ma non vanno bene valori come np = 0.01
o np = 100. La regola di massima in questo caso `e che se per esempio n 20 allora deve essere
p 0.05, oppure se n 100 allora np 10.
La densit`a pX (k) = e k /k!, definita sullinsieme dei numeri naturali N = {0, 1, 2, . . .}, si
chiama densit`a di Poisson di parametro e si indica con P(). Notiamo che, poiche tale densit`a
si ottiene come limite da una variabile aleatoria binomiale X B(n, p), la sua media e la sua
varianza sono
E [X] =

lim

n, p0
np=

np =

Var (X) =

lim

n, p0
np=

np(1 p) =

in quanto np e np(1 p) sono rispettivamente la media e la varianza della densit`a B(n, p).