Calcolo Delle Probabilità

A
N
A
L
I
S
I
D
E
I
D
A
T
I
2
0
1
2
-
1
3
c
_
L
.
F
i
n
e
s
s
o
(
2
0
1
2
)
Lezione 1 (Luned`, 4 marzo 2013, ore 10:30-12:15)
1.1 La probabilità per lIngegneria dellInformazione
Iniziamo con la discussione qualitativa di qualche problema pratico che richiede il ricorso
a metodi probabilistici. Alcuni di questi esempi verranno ripresi mano a mano che si
disporrà degli strumenti tecnici per unanalisi pi` u approfondita.
(a.) Compressione dati senza errore (zip/unzip sul PC)
Si tratta di mappare (codicare), in modo invertibile, una sequenza di dati (ad esempio
un le di testo o un le eseguibile) in una sequenza di bit di lunghezza minima. La parola
chiave qui è invertibile: ad esempio la compressione di le audio/video in formato .mp3 o
.mp4 non è invertibile. Lalgoritmo impiegato da ZIP produce invece una codica inver-
tibile. Apparentemente il problema è completamente deterministico, ma il limite teorico
di compressibilità di una data sequenza di dati dipende da una quantità probabilistica,
lentropia della sorgente dei dati.
(b.) Analisi di adabilità
Componenti di adabilità nota vengono assemblati per produrre sistemi. Qual è laf-
dabilità complessiva del sistema? Dove conviene introdurre sistemi di backup per garan-
tire una ssata soglia di adabilità? Oppure, di maggior interesse per lInformatica, si
consideri la piccola rete di calcolatori rappresentata dal grafo qui sotto.
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
I vertici sono i calcolatori, gli archi le connessioni siche tra calcolatori. Ogni arco ha due
etichette: il nome e la percentuale di uptime della connessione sica: potete pensare che
questo dato sia stato ricavato osservando la rete nelle ultime 24 ore o nellultimo mese ecc.
Si vuole calcolare la percentuale di uptime della connessione tra A e B. Supponete poi di
riuscire a migliorare la connessione tra D ed E. Di quanto migliorerà la connessione tra
A e B? A queste domande, e ad altre simili, sapremo presto dare una risposta utilizzando
semplici strumenti probabilistici.
(c.) Complessità degli algoritmi - worst case analysis ed analisi in media
Con la worst case analysis si valuta un parametro di performance dellalgoritmo, ad
esempio il tempo di esecuzione, nel caso pi` u sfavorevole. Consideriamo ad esempio un
algoritmo di ordinamento. Supponete di dover ordinare alfabeticamente pacchetti di 1000
nomi. I possibili ordini di arrivo dei dati sono 1000! e tipicamente solo uno di questi è
il worst case per lalgoritmo di ordinamento che state impiegando.
`
E molto pessimistico
1
basare la valutazione dellalgoritmo sullanalisi della sua performance nel worst case. Se
utilizzate lalgoritmo centinaia di volte al giorno, su pacchetti di 1000 dati sempre diversi,
vi interessa di pi` u il suo tempo di esecuzione medio. Lo studio del comportamento medio
è un tipico argomento di teoria della probabilità.
(d.) Integrazione numerica con il metodo di Monte Carlo
Si supponga di dover calcolare numericamente
I :=
_
1
0
f(x) dx
per una complicata funzione f(x), continua nellintervallo [0, 1], la cui antiderivata non
è nota. Il metodo classico è lapprossimazione di Riemann che consiste nel suddividere
lintervallo [0, 1] in n sottointervalli di identica lunghezza :=
1
n
, allora
_
1
0
f(x) dx
n
k=1
f(k) .
Lapprossimazione è tanto migliore quanto pi` u grande è n, come garantito dalla teoria
dellintegrale di Riemann. Un metodo alternativo (metodo di Monte Carlo) consiste nello
scegliere n punti a caso nellintervallo [0, 1], diciamoli x
1
, x
2
, . . . x
n
, e quindi calcolare
_
1
0
f(x) dx
1
n
n
k=1
f(x
k
).
Nella gura qui sotto i due metodi sono messi a confronto.
6
-
f(x)
2 3 1
x
6
-
f(x)
x
1
x
3
x
1
x
2
x
f(x
)
Il razionale per il metodo di Monte Carlo è il teorema della media integrale. Se f(x)
è una funzione continua sullintervallo [0, 1] allora esiste x
[0, 1] tale che

_
1
0
f(x) dx =
f(x
). Scegliendo i punti x
1
, x
2
, . . . x
n
a caso alcuni f(x
k
) saranno minori di f(x
), altri
maggiori; se n è grande, calcolando la media aritmetica degli f(x
k
) ci aspettiamo quindi
di ottenere un valore vicino ad f(x
). Un celebre teorema della teoria della probabilità,

la legge dei grandi numeri, giustica in modo rigoroso questo ragionamento intuitivo. Ma
come si sceglie un punto a caso, diciamo x
1
, nellintervallo [0, 1]? Lanciamo ripetutamente
una moneta. Scriviamo il punto decimale e poi accodiamo un 1 ogni volta che esce Testa,
ed uno 0 ogni volta che esce Croce. I lanci successivi produrranno in questo modo una
sequenza binaria che interpreteremo come rappresentazione, in base 2, del numero reale
x
1
[0, 1]. Ad esempio la sequenza CCTTCT . . . produce il punto
x
1
= .001101 . . .
2
Allaumentare del numero di lanci aumenta la precisione di x
1
. Con n lanci si ottiene x
1
con precisione
1
2
n
.
Con il metodo di Monte Carlo si calcola un integrale, problema squisitamente de-
terministico, facendo ricorso al fenomeno casuale per eccellenza: i lanci ripetuti di una
moneta.
1.2 La teoria assiomatica della probabilità
La teoria della probabilità è uno dei possibili strumenti matematici per modellare esper-
imenti il cui esito è incerto.
`
E in realtà lo strumento che ha avuto, e continua ad avere,
maggior successo nelle applicazioni. Lo sviluppo matematico della teoria della probabilità
procede per via assiomatica. Una volta denite le nozioni di base si derivano Lemmi,
Proposizioni, e Teoremi, si introducono nuove denizioni e cos` via, senza bisogno di fare
riferimento a monete, giochi di carte, esperimenti dallesito incerto ecc. Poiche questo è
un corso di base però, per motivare lo studio e per sviluppare lintuizione, cercheremo
di presentare le idee astratte e dare contemporaneamente la loro interpretazione in vari
contesti applicativi. Lo svantaggio di questo approccio è che il livello matematico sarà
troppo basso per chi cerca una trattazione completa, rigorosa e concisa e troppo alto per
chi invece vorrebbe solo imparare a risolvere semplici problemi applicativi.
Il pi` u importante oggetto matematico in teoria della probabilità è lo spazio di proba-
bilità. Molto allingrosso, vedremo successivamente i dettagli, uno spazio di probabilità o
è una terna
o = (, T, P),
dove è un insieme (lo spazio campionario) , T una famiglia di sottoinsiemi di (la -
algebra degli eventi misurabili) e P una mappa P : T [0, 1], (la misura di probabilità).
In questa lezione ci concentriamo sul primo elemento della terna, lo spazio campionario
.
1.3 Lo spazio campionario
Nella teoria astratta è un insieme, detto spazio campionario, senza altre specicazioni.
Quando la teoria della probabilità viene applicata a problemi concreti gli elementi di
rappresentano i possibili risultati dinteresse di un esperimento aleatorio. La natura di
può quindi essere estremamente varia a seconda dello specico esperimento. Vediamo
alcuni esempi.
(1.) Esperimento: lancio una moneta. Osservazione: faccia uscita
:= C, T
molto spesso si preferisce identicare C = 0, T = 1.
(2.) Esperimento: lancio una moneta 3 volte. Osservazione: numero di Teste uscite
:= 0, 1, 2, 3
(2b.) Esperimento: lancio una moneta 3 volte. Osservazione: sequenza delle facce uscite
:= TTT, TTC, TCT, TCC, CTT, CTC, CCT, CCC
(3.) Esperimento: lancio una moneta ripetutamente. Osservazione: numero del lancio
in cui si verica la prima Testa
= N := 1, 2, 3, . . .
3
(4.) Esperimento: misurazione della durata di un hard disk. Osservazione: intervallo di
tempo
= R
+
:= [0, )
Nota. Introducendo unapprossimazione si potrebbe misurare la durata in numero intero
di ore. Il motivo per cui non conviene farlo è che il tempo, come la lunghezza e la massa
per nominarne tre, è una grandezza sica che, almeno a livello macroscopico, si modella
pi` u semplicemente usando un numero reale. La legge di Newton F = ma è unequazione
dierenziale, non unequazione alle dierenze!
(5.) Esperimento: registrazione della temperatura al suolo a Porta Portello. Osser-
vazione: il tracciato termograco nellarco di 24 ore.
:= f : [0, 24] R; f è continua
In questo esempio gli elementi di sono funzioni continue. Ogni funzione continua
rappresenta un possibile tracciato osservato.
(6.) Esperimento: registrazione di temperatura e pressione al suolo a Porta Portello.
Osservazione: il tracciato termograco e barometrico nellarco di 24 ore.
:= f : [0, 24] R
2
; f è continua
In questo caso ogni osservazione è una funzione a valori vettoriali, in R
2
.
(7.) Esperimento: studio socio-sanitario. Osservazione: sesso, età, peso, degli individui
partecipanti
:= F, M N R
+
In questo caso gli elementi sono vettori a tre componenti disomogenee, la prima a valori
in un insieme a due valori, la seconda a valori in N, la terza a valori reali positivi.
Questo è solo un modesto campionario di casi molto semplici. Una dierenza fondamen-
tale tra i diversi spazi campionari è la cardinalità. In alcuni esempi, (1.), (2.), (2b.), la
cardinalità è nita, in altri, (3.), innita numerabile cioè pari alla cardinalità di N, in
altri, (4.), (7.), innita non numerabile cioè pari alla cardinalità di R, in altri, (5.), (6.),
superiore alla cardinalità di R.
Nella prima parte del corso ci concentreremo su spazi campionari niti ed inniti numer-
abili. Nella seconda parte tratteremo gli spazi campionari con la cardinalità di R. Non
tratteremo esempi del tipo (5.), (6.).
`
E interessante confrontare gli esempi (2.) e (2b.). Si noti che sullo spazio campionario di
(2b.) si possono rappresentare i risultati dinteresse dellesempio (2.). Se so che è uscita
la sequenza TTC posso dire che il numero di Teste è 2. Quindi lo spazio campionario che
rappresenta i possibili risultati di un esperimento è inerentemente non unico.
`
E importante
prendere sempre uno spazio campionario sucientemente ricco da contenere tutti i risultati
dinteresse. Se poi contiene pi` u elementi di quanti strettamente necessari si può gestire
la situazione, mentre il caso opposto porta a problemi. Non si possono rappresentare i
risultati dinteresse del caso (2b.) usando lo spazio campionario di (2.)
1.4 Terminologia relativa allo spazio campionario
La terminologia probabilistica è ormai consolidata. Linsieme è detto spazio campionario
(sample space). Gli elementi sono detti esiti (outcomes) o eventi elementari, i
sottoinsiemi di sono detti eventi (events).
1
Nelle applicazioni gli elementi dello spazio
campionario rappresentano i possibili esiti di un esperimento i cui risultati sono incerti.
1
In realt` a, come vedremo, sono detti eventi solo i sottoinsiemi di che appartengono a T.
4
Se lesecuzione dellesperimento produce il risultato , si dice che si è vericato e,
per ogni E tale che E, si dice che si è vericato E.
Esempio 1. Con lusuale convenzione, 0=croce, 1=testa, sia
:= 000, 001, 010, 011, 100, 101, 110, 111
lo spazio campionario che rappresenta i possibili risultati di tre lanci di una moneta.
Esempi di eventi di sono i sottoinsiemi di esiti
E
k
:= escono k teste su 3 lanci, k = 0, 1, 2, 3.
Ad esempio E
0
= 000, mentre E
1
= 001, 010, 100 ecc. Se si esegue lesperimento
e, lanciando 3 volte la moneta, escono le facce 001 diremo che = 001 si è vericato.
Analogamente diremo che si è vericato E
1
, mentre non si è vericato E
2
.
1.5 Operazioni elementari sugli eventi
Quando si disponga di certi eventi E, F, G ecc. è naturale utilizzzare gli eventi dati per
formare nuovi eventi dinteresse applicando le usuali operazioni insiemistiche sugli eventi
dati. Qui per usuali operazioni, di cui si considerano note la denizioni, si intendono
lunione, lintersezione, e la complementazione
2
. Utilizzando la terminologia probabilistica
appena introdotta, se E ed F sono eventi,
E
c
= si verica se e solo se non si verica E
E F = si verica se e solo se si vericano E o F
E F = si verica se e solo se si vericano E e F
Esempio 2. Riprendendo lEsempio 1, si considerino i seguenti eventi che sono descritti
sia verbalmente che utilizzando operazioni insiemistiche sugli eventi E
k
.
E := si verica almeno 1 testa = E
c
0
F := si verica al pi` u 1 testa = E
0
E
1
G := si verica almeno 1 testa e almeno 1 croce = E
1
E
2

Due eventi speciali, banali e onnipresenti, sono e detti, per ovvie ragioni, evento
certo ed impossibile rispettivamente. Tornando allEsempio 2,
si vericano almeno 2 teste e 2 croci = ,
mentre
si verica almeno 1 testa o una croce = .
2
Ha senso parlare di complemento di un evento poiche tutti gli eventi sono sottoinsiemi di .
5
Le proprietà di complementazione, unione ed intersezione si suppongono note. A titolo
di promemoria, non necessariamente esaustivo, per ogni E, F, G ecc. eventi,
E F = F E
E F = F G
E E = E E = E
E = , E = E
E = E, E =
E (F G) = (E F) G
E (F G) = (E F) G
E (F G) = (E F) (E G)
E (F G) = (E F) (E G)
(E F)
c
= E
c
F
c
(E F)
c
= E
c
F
c
6
Attenzione. Si tenga ben presente che la scrittura E F G è priva di senso, poiche
mancando le parentesi non è chiaro in che ordine si debbano eettuare le operazioni e, in
generale (EF) G e E(F G) sono diversi [Micro-esercizio. Costruire esempi dellul-
tima aermazione.] Morale: ogni volta che si scrive una espressione che contiene unioni,
intersezioni e complementazioni si deve specicare univocamente lordine di esecuzione
delle operazioni con abbondante uso di parentesi.
1.6 Decomposizioni di eventi in unioni di eventi mutuamente esclusivi
(a.) Partizione di
Una partizione di è una famiglia E
n
n1
di eventi mutuamente esclusivi, la cui unione
è , ovvero tale che
E
i
E
j
= , i ,= j
=
_
i
E
i
Esempi.
(i.) Dato un evento E, una semplice partizione di è E, E
c
. In eetti E E
c
= e
E E
c
= .
(ii.) Si consideri come nellEsempio 1.
`
E evidente che gli eventi E
k
, per k = 0, 1, 2, 3,
formano una partizione di . In questo caso
E
0
= 000, E
1
= 001, 010, 100, E
2
= 011, 101, 110, E
3
= 111
ed =
3
k=0
E
k
.
(iii.) Lancio due dadi e osservo le facce uscite, = (1, 1), (1, 2), . . . (6, 6) contiene 36
coppie ordinate. Una partizione è fornita dagli eventi
E
k
:= la somma delle facce è k, k = 2, 3, . . . 12.
(b.) Decomposizione rispetto ad una partizione.
Nel caso elementare si considera la partizione (E, E
c
) dove E . Poiche per ogni F
è F = F = F (E E
c
) = (F E) (F E
c
) otteniamo la rappresentazione
F = (F E) (F E
c
).
I due eventi dellunione sono incompatibili: questo, vedremo, è particolarmente conve-
niente in TdP. Per un dato F la rappresentazione vale qualunque sia E: nella pratica sarà
importante scegliere E in modo che la rappresentazione semplichi i conti probabilistici.
In generale se (E
n
) è una partizione di allora vale la rappresentazione
F =
_
i
(F E
i
)
e gli eventi dellunione sono mutuamente esclusivi. Anche qui, in pratica, sarà fondamen-
tale scegliere opportunamente la partizione.
(c.) Decomposizione dellunione
In TdP la decomposizione di eventi complessi in unione di eventi incompatibili (cioè digiun-
ti) è uno dei trucchi standard per semplicare i calcoli. La seguente decomposizione, valida
qualunque siano gli eventi E ed F, si dimostrerà spesso utile
E F = (E F
c
) (E F) (E
c
F)
7
(d.) Decomposizione alternativa dellunione e generalizzazione
Le decomposizioni in unioni di eventi incompatibili si possono normalmente eettuare in
molti modi. Quale sia la decomposizione pi` u conveniente lo si stabilirà, caso per caso,
nellapplicazione al calcolo delle probabilità. Ad esempio per lunione di due eventi vale
anche la decomposizione
E F = E (F E)
Questa decomposizione si generalizza immediatamente al caso di tre eventi
E F G = E (F E) (G (E F))
e pi` u in generale, per n eventi
n
_
k=1
E
k
= E
1
_
_
_
n
_
k=2
_
_
E
k

k1
_
j=1
E
j
_
_
_
_
1.7 Altre operazioni tra eventi
Operazioni del tipo E F
c
intervengono abbastanza spesso da meritare un nome.
Dierenza di eventi. E F := E F
c
.
Dierenza simmetrica di eventi. E F := (E F
c
) (E
c
F).
Usando le nuove denizioni la decomposizione dellunione si può riscrivere come
E F = (E F) (E F) (F E) = (E F) (E F).
1.8 Osservazione sulle operazioni tra eventi
Nota bene. Qualunque espressione che consista di complementazioni, intersezioni, unioni,
dierenze, e dierenze simmetriche di eventi dati si può sempre esprimere, a partire dagli
eventi dati, utilizzando esclusivamente le operazioni di complementazione ed intersezione
(oppure unione). A titolo desempio, usando le leggi di De Morgan si può esprimere la
dierenza simmetrica facendo ricorso solo a complementazioni e unioni, oppure solo a
complementazioni e intersezioni
E F = (E F
c
) (E
c
F)
= (E
c
F)
c
(E F
c
)
c
=
_
(E F
c
)
c
(E
c
F)
c
_
c
Questo risultato è interessante negli sviluppi teorici, ma le espressioni contenenti, ad
esempio, solo complementazioni e unioni diventano rapidamente molto complesse e di
dicile leggibilità.
8
Lezione 2 (Marted`, 5 marzo 2013, ore 16:25-18:10)
2.1 La -algebra degli eventi T
(a.) Motivazione
Nelle applicazioni lo spazio di probabilità o = (, T, P) modella un esperimento il cui
esito è incerto. Gli elementi di sono i possibili risultati dellesperimento, mentre T è una
famiglia di sottoinsiemi di per i quali è denita la misura di probabilità P. Idealmente si
vorrebbe denire la probabilità per tutti gli eventi dinteresse dellesperimento. In linea di
principio si potrebbe pensare di denire P per tutti i sottoinsiemi di , di fatto assumendo
che la famiglia T coincida con la famiglia di tutti i sottoinsiemi di , nota come potenza
di e denotata P(). La scelta T = P() è sempre possibile, e la adotteremo, se [[ [N[
(qui e altrove [E[ denota la cardinalità dellinsieme E). Quando invece [[ = [R[ non è
possibile scegliere T = P() e denire in modo consistente la misura di probabilità P. In
ogni caso è necessario che T abbia la struttura, specicata qui sotto, di -algebra anche
la teoria risulti ben posta.
(b.) Denizione
Sia un insieme assegnato. Una famiglia T di sottoinsiemi di è detta -algebra se
soddisfa agli assiomi:
(i) T non è vuota
(ii) T è chiusa rispetto alla complementazione (signica che se E T, allora E
c
T).
(iii) T è chiusa rispetto allunione numerabile (signica che se E
i
T per ogni i 1,
allora
i
E
i
T.
Gli elementi di T sono detti eventi misurabili o semplicemente eventi.
(c.) Conseguenze elementari degli assiomi (dimostrate a lezione)
(i.) e appartengono ad T. (dagli assiomi)
(ii.) T è chiusa rispetto alle intersezioni numerabili. (assiomi+De Morgan)
(iii.) T è chiusa rispetto a qualunque sequenza numerabile di complementazioni, inter-
sezioni, unioni, dierenze, dierenze simmetriche di eventi di T. (assiomi+osservazione 1.8).
(d.) Esercizio.
T è chiusa rispetto alle unioni nite ed alle intersezioni nite.
2.2 La misura di probabilità P
(a.) Denizione
P : T R
+
è una mappa E P(E) che ad ogni evento misurabile E T associa il
numero reale P(E), detto la misura di probabilità di E o semplicemente la probabilità di
E, e che soddisfa i seguenti assiomi
(0) (positività) P(E) 0 per ogni E T,
(i) (normalizzazione) P() = 1,
(ii) (-addittività) Se E
i
è una famiglia numerabile di eventi mutuamente esclusivi
P(
i
E
i
) =
i
P(E
i
).
(b.) Conseguenze elementari degli assiomi (dimostrate in classe)
(1.) P(E
c
) = 1 P(E).
9
(2.) P() = 0, (corollario di (1.)).
(3.) E F implica P(E) P(F), (monotonia della misura P).
(4.) P(E) [0, 1] per ogni E T, (corollario di (3.)).
(5.) P(E F) = P(E) +P(F) P(E F), (formula di inclusione/esclusione).
(6.) P(E F) P(E) +P(F), (subaddittività di P).
(7.) P (
i
E
i
)
i
P(E
i
), (subaddittività numerabile).
(8.) P(E F G) = P(E) +P(F E) +P(G (E F)), (decomposizione disgiunta).
(9.) P(E F G) = P(E) +P(F) +P(G)
P(E F) P(E G) P(F G)
+P(E F G).
(alternativa alla (7.) questa è la formula di inclusione /esclusione, dimostrata scrivendo
P(E F G) = P((E F) G) ed usando la (4.)).
(10.) P(E F G H) = P(E) +P(F) +P(G) +P(H)
P(E F) P(E G) P(E H) P(F G) P(F H) P(G H)
+P(E F G) +P(E F H) +P(E G H) +P(F G H)
P(E F G H),
(formula di inclusione /esclusione per pi` u di tre eventi - senza dimostrazione).
(11.) P(EF) = P(E) +P(F) 2P(E F), (esercizio).
(c.) Non unicità di P
Losservazione chiave è che gli assiomi non determinano P univocamente. Abbiamo visto
lesempio della moneta, con = C, T, T = P(). La misura di probabilità P non è
univocamente determinata: ce ne sono innite compatibili con gli assiomi, ognuna di esse
è completamente specicata dal numero p [0, 1] dove P(T) = p. Ben lungi dallessere
una limitazione, la libertà di scelta di p consente, nellesempio concreto, di modellare
qualunque moneta.
10
Lezione 3 (Mercoled`, 6 marzo 2013, ore 16:25-18:10)
3.1 Possibili scelte di P Misura empirica
Quando si costruisce uno spazio di probabilità o = (, T, P) per modellare un esperimen-
to, la scelta di e di T di solito non pone problemi, ma come visto nellesempio della
moneta, gli assiomi non specicano P univocamente. La Statistica si occupa della scelta
ottimale di P allo scopo di modellare un dato esperimento. Tempo permettendo daremo
qualche cenno di Statistica verso la ne del corso. Qui diamo alcuni esempi di possibili
scelte di P, iniziando dalla cosiddetta misura empirica.
Si supponga che lesperimento che si vuole modellare sia ripetibile pi` u volte in condizioni
analoghe. La misura empirica si costruisce come segue. Si eettua lesperimento n volte,
registrando la sequenza
1
,
2
, . . .
n
degli esiti osservati. Per ogni evento E T sia n
E
,
la frequenza di E, il numero di volte che si verica E nelle n prove, ovvero il numero di
esiti
i
tali che
i
E per i = 1, 2, . . . n.
Denizione (misura empirica).
P
n
(E) :=
n
E
n
, per ogni E T
P
n
(E) è la frequenza relativa di E, ovvero la percentuale di volte in cui E si verica.
Lemma. P
n
è una misura di probabilità.
Dimostrazione. Lassioma (0) è soddisfatto banalmente. Lassioma (i) è soddisfatto poiche
n
= n. Lassioma (ii) richiede che se E F = allora P

n
(E F) = P
n
(E) + P
n
(F),
ma per eventi E ed F disgiunti, n
EF
= n
E
+ n
F
, da cui discende laddittività di P
n
.
Allo stesso modo, per famiglie numerabili E
i
di eventi disgiunti, n
i
E
i
=
i
n
E
i
, da cui
discende la -addittività di P
n
.
Esempio 1. Lancio di una moneta. = C, T, T = P(). La misura di probabilità
è completamente specicata assegnando p = P(T). Per costruire la misura empirica
lanciamo la moneta ad esempio n = 12 volte e siano T, T, C, C, C, T, T, T, T, T, T, T gli
esiti. Allora p := P
12
(T) =
9
12
= 0.75. Peraltro limitandosi alle prime 10 prove P
10
(T) =
7
10
= 0.7. Intuitivamente, se la moneta è equilibrata, lim
n
P
n
(T) = 0.5.
Esempio 2. Lancio di un dado. = 1, 2, 3, 4, 5, 6, T = P(). Si lancia il dado n = 15
volte e gli esiti osservati sono 1, 3, 2, 3, 5, 4, 3, 4, 3, 5, 3, 2, 1, 5, 2. In questo caso P
15
(3) =
5
15
. Si determinino P
15
(esce faccia pari) e P
15
(6).
Esempio 3. Scelta casuale di un punto in [0, 1]. Per costruire la misura empirica si può
pensare che il tenente Colombo si rechi al poligono di tiro e spari n volte al bersaglio, linter-
vallo [0, 1], ogni volta chiudendo gli occhi. Se E [0, 1] la misura empirica è P
n
(E) :=
n
E
n
,
dove n
E
è il numero di volte che Colombo colpisce un punto in E. Intuitivamente, se
Colombo spara a caso, lim
n
P
n
([a, b]) = b a per ogni [a, b] [0, 1].
Esercizio. I dati di unindagine di mercato sono: al 70% dei ragazzi piace la Coca, al 50%
piace la Pepsi, al 20% non piacciono ne Coca ne Pepsi. Calcolare la percentuale di ragazzi
a cui piace almeno una delle due bevande e quella dei ragazzi a cui piacciono entrambe.
Soluzione. Interpretando le percentuali come probabilità empiriche i dati sono P(Coca) =
0.7, P(Pepsi) = 0.5, P(Coca
c
Pepsi
c
) = 0.2. Le probabilità richieste sono
P(Coca Pepsi) = P((Coca
c
Pepsi
c
)
c
) = 1 0.2 = 0.8
P(Coca Pepsi) = P(Coca) +P(Pepsi) P(Coca Pepsi) = 0.7 + 0.5 0.8 = 0.4
11
Interpretazione frequentista della probabilità.
Linterpretazione delle probabilità di eventi come frequenze relative, o percentuali, è molto
comune negli studi osservazionali di tipo economico, epidemiologico, sociale, biologico,
ecc. La misura empirica P
n
presenta però evidenti difetti. In particolare, per un ssato
evento E, la probabilità empirica P
n
(E) dipende da n e dalla specica sequenza di esiti
osservati,
1
,
2
, . . .
n
. La dipendenza di P
n
dai risultati delle prove ripetute è giusto che
ci sia visto che P
n
deve modellare lesperimento, ma la dipendenza da n è molto scomoda.
Nellesempio 1, la dipendenza da n comporta che non si riesca ad associare un unico valore
a p, la probabilità di Testa della moneta. Per ovviare a questo inconveniente i frequentisti si
arrampicano sugli specchi nel tentativo di sostituire P
n
(E) con lim
n
P
n
(E), ma si tratta
di discorsi piuttosto vaghi, solo apparentemente supportati da un teorema fondamentale
del calcolo della probabilità, la legge dei grandi numeri, che vedremo pi` u avanti.
3.2 Possibili scelte di P Caso di discreto
Consideriamo ora il caso di spazi di probabilità o = (, T, P) dove [[ [N[. (ricordo
che [E[ denota la cardinalità di E). Questo è il cosiddetto caso discreto a cui ci atterremo
nela prima parte del corso. Si possono presentare due casi: =
1
,
2
, . . .
N
ovvero
di cardinalità [[ = N nita, oppure =
1
,
2
. . . con [[ = [N[. In entrambi questi
casi, senza perdita di generalità, prenderemo sempre T := P(). Negli spazi di probabilità
discreti la misura P è completamente specicata dai valori sui singleton: conoscere P(
i
)
per ogni
i
permette di calcolare P(E) per ogni E T. Infatti la -addittività
comporta che
P(E) =
i
E
P(
i
) (1)
Osservazione 1. La numerabilità di è fondamentale per la validità dellequazione 1.
Osservazione 2. Diciamo p
i
:= P(
i
). Allora, se [[ = N basta assegnare N 1 dei
valori p
1
, . . . p
N
(perche?).
Osservazione 3. Se [[ = [N[, il vincolo
i=1
p
i
= 1 impone la convergenza della serie.
Quindi, ad esempio, è impossibile per = N avere misure di probabilità del tipo P(i) =
c
i
mentre è possibile avere P(i) =
c
i
2
. Quanto deve valere in questo caso? (
`
E necessario
conoscere la teoria della convergenza della serie di Fourier per rispondere).
3.3 Possibili scelte di P Caso di nito con esiti equiprobabili
Se =
1
,
2
, . . .
N
ha cardinalità nita N, allora è possibile scegliere la misura P che
assegna la stessa probabilità a tutti gli esiti elementari, ovvero P(
i
) =
1
[[
=
1
N
per
ogni i = 1, 2, . . . N (caso equiprobabile). Se P è equiprobabile allora, per ogni E T,
P(E) =
i
E
P(
i
) =
[E[
[[
,
formula che nei testi elementari è spesso scritta come
P(E) =
numero dei casi favorevoli
numero dei casi totali
.
Benche sia tecnicamente sempre possibile prendere P equiprobabile quando ha car-
dinalità nita, non è detto che si tratti di una buona scelta per modellare un dato
esperimento.
Controesempio. Sia = 0, 1, 2, 3 dove gli esiti elementari rappresentano il numero di
Teste in tre lanci consecutivi di una moneta. In questo caso la misura equiprobabile urta
12
contro la nostra intuizione. Su tre lanci di una moneta è pi` u facile osservare una Testa
piuttosto che tre Teste o nessuna Testa. Se si vuole usare P come modello dellesperimento
che consiste in tre lanci consecutivi di una normale moneta lassegnazione equiprobabile
P(i) =
1
4
per i = 0, 1, 2, 3 non ha molto senso.
Esempio. Sia = TTT, TTC, TCT, CTT, TCC, CTC, CCT, CCC dove gli esiti elemen-
tari rappresentano le possibili sequenze di risultati di tre lanci di una moneta. In questo
caso è ragionevole prendere la P equiprobabile: P(
i
) =
1
8
per ogni i = 1, . . . 8 (sono 8 gli
esiti elementari). Se E
k
= escono k teste in 3 lanci per k = 0, 1, 2, 3 abbiamo calcolato
P(E
0
) = P(E
3
) =
1
8
e P(E
1
) = P(E
2
) =
3
8
. Lo stesso si può fare se si considera lo spazio
relativo a diciamo 50 lanci di una moneta. Sia E
34
levento escono 34 teste su 50 lanci
della moneta. Quanto vale P(E
34
)? In teoria è facile
P(E
34
) =
[E
34
[
[[
,
ma il calcolo delle cardinalità di insiemi niti non è sempre agevole. Questo motiva la
breve digressione sulla combinatoria elementare.
3.4 Combinatoria elementare I
Principio fondamentale del conteggio.
Motivazione. Ricordate lesempio fatto in classe dellarmadio con dentro 4 camicie, 3
pantaloni e 2 paia di scarpe. In quanti modi diversi posso vestirmi? Se gli abbinamenti di
vestiario non hanno rilevanza (maschi) 4 3 2 = 24 modi. Se gli abbinamenti di vestiario
limitano le scelte (femmine) allora il principio fondamentale non si applica. Pi` u in generale
si conta come segue.
Il principio. Si eettuano r esperimenti. Il primo ha n
1
risultati possibili. Qualunque sia
lesito del primo esperimento il secondo esperimento ha sempre lo stesso numero n
2
di
possibili risultati, e cos` via no alla condizione che, qualunque sia il risultato dell(r 1)-
esimo esperimento, lr-esimo esperimento ha sempre n
r
esiti possibili. Si supponga anche
che esiti diversi degli r esperimenti producano sequenze distinguibili. Sotto queste ipotesi
il numero di possibili esiti degli r esperimenti condotti in sequenza è
n
1
n
2
. . . n
r
Esempi elementari di conteggio. In classe abbiamo visto alcuni esempi: targhe automobilis-
tiche, schedine del totocalcio, corsa campestre.
Problemi di conteggio I
Discussione dei due paradigmi: del campionamento e dellallocazione. Tutta la terminolo-
gia ed i possibili problemi di conteggio che ho elencato a lezione li potete rivedere con
calma nellappendice a queste note.
Esempio 1. Numero delle schedine del totocalcio. Si tratta di contare le disposizioni con
ripetizione di n = 3 oggetti (i simboli 1, X, 2), presi k = 13 alla volta (le 13 partite).
Il numero di schedine è n
k
= 3
13
, applicando il principio fondamentale del conteggio.
Abbiamo visto le due interpretazioni, come problema di campionamento e come problema
di allocazione.
Esempio 2. Numero di possibili terne di vincitori di medaglia ad una corsa campestre cui
partecipano 10 corridori. Si tratta di contare le disposizioni senza ripetizione di n = 10
oggetti (i corridori) presi k = 3 alla volta (oro, argento, bronzo). Usando il principio
fondamentale del conteggio, il numero di possibili podii è n (n 1) (n 2)
(n k + 1) = 10 9 8. Abbiamo visto le due interpretazioni, come problema di
campionamento e di allocazione.
13
Appendice alla Lezione 3
Problemi di campionamento e di allocazione
A3.1 Introduzione
I problemi di conteggio sono dicilmente categorizzabili in tipologie standard ed ognuno
di essi va trattato nella sua peculiarità. Esistono tuttavia alcuni punti di vista generali
che possono aiutare nellimpostazione delle soluzioni. In questa sezione presentiamo due
elementari paradigmi del conteggio, campionamento ed allocazione.
Un problema di campionamento si modella con unurna contenente n palline, distin-
guibili (ad esempio numerate da 1 a n) o distinguibili a gruppi (ad esempio n palline di
m < n colori diversi). Vengono eettuate k estrazioni, ed annotato il risultato di ogni
estrazione. Le estrazioni possono essere con o senza reinserimento nellurna della pallina
appena estratta, prima di passare allestrazione successiva. Interessa contare quante sono
le possibili sequenze di estrazioni. Si può contare in due modi. Se si tiene in consider-
azione lordine di estrazione si dice che si stanno contando le disposizioni : 1, 2 e 2, 1 sono
due disposizioni diverse. Se non si tiene in considerazione lordine si dice che si stanno
contando le combinazioni : 1, 2 e 2, 1 sono la stessa combinazione.
Nei problemi di allocazione il modello consiste in un insieme di scatole (celle) distinte
ed in un certo numero di gettoni, che possono essere distinguibili o identici tra loro.
I gettoni vanno inseriti (allocati) nelle scatole. Il riempimento delle scatole può essere
libero, o soggetto a vincoli. Nel caso libero ogni scatola può contenere qualunque numero
di gettoni, 0 compreso. Vincoli tipici sono: al pi` u 1 gettone (cioè 0 o 1) per scatola, oppure
un numero preassegnato di gettoni in ogni scatola. Interessa contare il numero di possibili
allocazioni di gettoni nelle scatole.
La nota è organizzata in modo da mettere in evidenza, attraverso un numero romano,
la corrispondenza tra problemi di campionamento e di allocazione. Per mostrare come
passare da un paradigma allaltro nellimpostazione di un problema di conteggio illustr-
eremo i due punti di vista con lo stesso esempio. Nei problemi di conteggio concreti,
solitamente pi` u complessi, è però spesso naturale impostare il conteggio usando sfecica-
mente uno dei due paradigmi, quindi è utile conoscerli entrambi. In realtà il paradigma
dellallocazione permette di trattare, in modo abbastanza semplice, anche complicati vin-
coli di riempimento delle scatole che si tradurrebbero in problemi di campionamento molto
articiali.
La nota è in buona parte basata sul capitolo 3 dellottimo libro di K.L. Chung,
Elementary probability theory with stochastic processes, Springer 1974.
A3.2 Problemi di campionamento
Elenchiamo di seguito i quattro tipici problemi di campionamento, ed alcune varianti.
Campionamento I
n palline distinte nellurna (ad esempio numerate da 1 a n)
k estrazioni con reinserimento (n e k liberi)
Problema: contare le disposizioni
Soluzione. n
k
14
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e reinserisco la pallina nellurna. Alla seconda estrazione ho ancora n possibili
risultati dellestrazione e cos` via no alla k-esima estrazione. Per il principio del conteggio
il numero di disposizioni è n
k
.
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Totocalcio
3
: contare il numero di schedine giocabili. Una giocata si modella
con unurna contenente n = 3 palline 1, X, 2, dalla quale si estrae k = 13 volte, con rein-
serimento. Ad ogni disposizione delle palline estratte corrisponde una schedina giocabile.
Soluzione: n
k
= 3
13
.
Campionamento II
k estrazioni senza reinserimento (quindi k n)
Problema: contare le disposizioni
Soluzione. D(n, k) := n (n 1) (n k + 1)
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e butto la pallina. Rimangono n 1 palline nellurna, vi sono quindi n 1
risultati possibili per la seconda estrazione, cos` via no alla k-esima estrazione per la
quale sono possibili n k +1 (attenzione al +1) risultati. Per il principio del conteggio il
numero di disposizioni è n(n 1) . . . (n k + 1), per comodità denotato D(n, k).
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Corsa campestre, partecipano 10 atleti. In quanti modi diversi possono essere
assegnate le 3 medaglie doro, dargento e di bronzo? Lurna contiene n = 10 palline
distinguibili (gli atleti), e si eettuano k = 3 estrazioni senza reinserimento. Contare le
risultanti disposizioni signica contare i possibili ordini di arrivo dei primi 3. Soluzione:
n (n 1) (n k + 1) = 10 9 8.
Campionamento IIa
`
E il caso II con k = n. Le disposizioni con k = n si dicono permutazioni.
Soluzione. n! := D(n, n) = n (n 1) 2 1
Spiegazione. Come per il caso II, procedendo no ad k = n. Si noti che n! = D(n, n).
Esempio. Anagrammi della parola MILANO. Lurna contiene n = 6 palline distinguibili (le
lettere A, I, L, M, N, O) che vengono estratte, senza reinserimento, no a vuotare lur-
na. Ad ogni disposizione delle palline corrisponde uno dei possibili anagrammi. Soluzione:
n! = 6!. Questo conteggio degli anagrammi è corretto solo se la parola da anagrammare
contiene lettere distinte, vedi il caso IIIa.
3
Il Totocalcio è un gioco a scommessa legalizzato in cui si devono pronosticare i risultati di un certo
numero di partite di calcio, classicamente 13. Le 13 partite sono stampate su una schedina e il giocatore
indica il suo pronostico, per ognuna delle partite, usando tre simboli 1, X, 2. Ad esempio, per la partita
Milan-Inter, il simbolo 1 pronostica la vittoria del Milan, X il pareggio, 2 la vittoria dellInter.
15
Campionamento III
k estrazioni senza reinserimento (quindi k n)
Problema: contare le combinazioni
Soluzione.
_
n
k
_
:=
D(n, k)
k!
=
n (n 1) (n k + 1)
k!
Spiegazione. Analogo al caso II, ma si devono contare le combinazioni. Per contare il
numero di combinazioni, diciamolo C(n, k), basta osservare che le k! permutazioni di ogni
ssata disposizione producono tutte la stessa combinazione, quindi C(n, k) D(k, k) =
D(n, k). Si ricava C(n, k) = D(n, k)/D(k, k). Il numero C(n, k) si dice coeciente
binomiale n su k, pi` u spesso denotato
_
n
k
_
.
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Gioco del lotto. Ogni settimana a Venezia vengono estratte k = 5 palline, una
cinquina, da unurna contenente n = 90 palline distinguibili, numerate da 1 a 90. Nel
gioco del lotto si scommette sulla combinazione estratta. Contare quante sono le possibili
cinquine. Soluzione:
_
n
k
_
=
_
90
5
_
=
9089888786
54321
.
Campionamento IIIa
n palline nellurna, di m colori diversi, k
1
di colore 1, . . . , k
m
di colore m, con
k
1
+k
2
+ +k
m
= n. Le palline dello stesso colore sono identiche.
k = n estrazioni senza reinserimento (si estraggono tutte le palline)
Problema: contare le disposizioni distinguibili
Soluzione.
_
n
k
1
, k
2
, . . . , k
m
_
:=
n!
k
1
! k
2
! k
m
!
Spiegazione
`
E una miscela dei casi IIa e III. Per capire la soluzione si pensi, inizialmente,
di numerare da 1 a k
i
le palline di colore i-esimo, 1 i m. Le palline sono ora tutte
distinguibili, grazie a colore e numero, quindi, caso IIa, le disposizioni sono (k
1
+ +k
m
)! =
n!. Poichè nella formulazione del problema le palline dello stesso colore sono indistinguibili,
per ogni colore i le k
i
! permutazioni delle palline di quel colore danno luogo alla stessa
disposizione. Per il principio di conteggio, il numero totale di permutazioni che danno luogo
alla stessa disposizione, una volta cancellati i numeri dalle palline, è k
1
! k
2
! . . . k
m
!.
Il numero di disposizioni distinguibili si ottiene dividendo n! per k
1
! k
2
! . . . k
m
!. Il
numero
n!
k
1
!k
2
!k
m
!
si dice coeciente multinomiale n su k
1
, . . . k
m
, denotato
_
n
k
1
,k
2
,...,k
m
_
.
Vericare che il caso m = 2 si riduce, notazione a parte, allusuale coeciente binomiale.
Esempio. Anagrammi della parola MISSISSIPPI. Lurna contiene n = 11 palline di
m = 4 colori, M,I,S,P, con k
M
= 1, k
I
= 4, k
S
= 4, k
P
= 2. Il numero degli anagrammi
non è 11!, come per il caso II, poichè la presenza di lettere ripetute rende alcune parole
indistinguibili tra loro. Per quanto visto il numero degli anagrammi è:
_
n
k
M
,k
I
,k
S
,k
P
_
=
_
11
1,4,4,2
_
=
11!
1!4!4!2!
.
16
Campionamento IV
k estrazioni con reinserimento (n e k liberi)
Problema: contare le combinazioni
Soluzione.
_
n +k 1
k
_
Spiegazione. Si potrebbe (s)ragionare come segue. La situazione è analoga a quella del
caso I, ma invece che alle disposizioni siamo ora interessati alle combinazioni. Applicando
il trucco già usato nel caso III per passare dalle disposizioni alle combinazioni, la soluzione
è n
k
/k!. Questo ragionamento è sbagliato. Per n = 3, k = 2 fornisce 3
2
/2! = 4.5, che è
imbarazzante come numero di combinazioni! Quando non si viene a capo di un problema
di conteggio può essere utile analizzare esaustivamente un caso con n ed k piccoli e poi
generalizzare. Proviamo dunque con n = 3, k = 4. Nellurna ci sono 3 palline numerate
1, 2, 3. Elenchiamo tutti i possibili risultati di k = 4 estrazioni, eliminando manualmente
tutte le disposizioni che danno luogo alla stessa combinazione. Le 15 combinazioni possibili
sono riportate, in ordine lessicograco, nella prima colonna della seguente tabella.
1 2 3
1111 [[
1112 [[
1113 [[
1122 [[
1123 [[
1133 [[
1222 [[
1223 [[
1233 [[
1333 [[
2222 [[
2223 [[
2233 [[
2333 [[
3333 [[
Le tre colonne successive contengono segni di spunta che forniscono la stessa infor-
mazione della prima colonna, indicando il numero di palline 1, 2 e 3 presenti in ogni
possibile combinazione. La quinta colonna contiene, in forma simbolica, le stesse infor-
mazioni delle tre colonne precedenti. Le barre verticali servono ad individuare a quale
pallina si riferiscono i segni di spunta. Poichè ci sono 3 palline, sono necessarie 2 barre
verticali. I segni di spunta a sinistra della prima barra verticale dicono il numero di palline
1 nella combinazione. I segni di spunta tra le due barre verticali dicono il numero di palline
2 e quelli a destra della seconda barra indicano il numero di palline 3. Ad esempio il sim-
bolo [[corrisponde alla combinazione 1223, il simbolo [[alla 2233, mentre
[[corrisponde alla 1333. Il caso IV si può allora ridurre al caso IIIa, ovvero abbi-
amo una nuova urna contenente 4 + 2 palline, di cui 4 sono marcate e 2 sono marcate
[. Il numero di possibili permutazioni distinguibili vale allora
6!
3!2!
. Nel caso generale di
n palline ed r estrazioni saranno necessari r segni di spunta ed n 1 barre verticali per
rappresentare simbolicamente tutte le possibili combinazioni, e la soluzione sarà
(n1+r)!
r!(n1)!
.
`
E banale vericare che questo numero coincide con quello dato nellenunciato.
17
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Lancio 3 dadi identici. Quante sono le possibili combinazioni osservabili?
In questo caso modelliamo con unurna contenente n = 6 palline (numerate da 1 a 6)
e contiamo le possibili combinazioni di k = 3 estrazioni con reinserimento, poichè ogni
dado può mostrare una qualunque faccia, indipendente dal risultato degli altri due. Le
combinazioni osservabili sono
_
n+k1
k
_
=
_
8
3
_
.
A3.3 Problemi di allocazione
Elenchiamo di seguito i quattro tipici problemi di allocazione, ed alcune varianti. Gli
esempi sono gli stessi del paragrafo precedente per mettere in evidenza la corrispondenza
con lanalogo modello di campionamento.
In ognuno dei problemi di allocazione si dispone di un certo numero di scatole distinte e di
voler contare il numero di allocazioni dei gettoni nelle scatole, secondo le speciche fornite
caso per caso.
Allocazione I
n scatole distinte e k gettoni distinguibili da allocare
nessun vincolo di riempimento (ogni scatola può contenere da 0 a k gettoni)
Soluzione. n
k
Spiegazione. Il primo gettone si può inserire in una qualunque delle n scatole. Lo stesso
vale per il secondo e per tutti gli altri gettoni poichè non vi sono vincoli di riempimento.
Applicando il principio di moltiplicazione si ottiene il risultato.
Esempio. Totocalcio, come per Campionamento I. Si modella con n = 3 scatole (con-
trassegnate 1, X, 2), e k = 13 gettoni distinguibili, numerati da 1 a 13, le partite di cui
si deve pronosticare il risultato. Ogni allocazione dei gettoni nelle scatole corrisponde ad
una giocata possibile.
Allocazione II
n scatole distinte ed k gettoni distinguibili da allocare
ogni scatola può contenere 0 o 1 gettoni
Soluzione. n (n 1) (n k + 1) := P(n, k)
Spiegazione. Il primo gettone si può collocare in una qualunque delle n scatole, il secondo
in una delle rimanenti n 1 ecc. no al k-esimo gettone che può essere collocato in una
qualunque delle rimanenti n k + 1 scatole. Per il principio di moltiplicazione il numero
totale di allocazioni è n(n 1) . . . (n k + 1).
Esempio. Corsa campestre, come per Campionamento II. Questo caso si modella con
n = 10 scatole, contrassegnate con i nomi dei 10 atleti, e k = 3 gettoni (contrassegnati
1, 2, 3). Ogni allocazione dei gettoni nelle scatole rappresenta una possibile terna ordinata
di vincitori.
18
Allocazione IIa
`
E il caso precedente per n = k. In questo caso, terminata lallocazione, ogni scatola
conterrà esattamente 1 gettone.
Soluzione. n!
Spiegazione. Come per il caso precedente.
Esempio. Anagrammi della parola MILANO, come per campionamento IIa. Le scatole sono
n = 6, contrassegnate 1, 2, 3, 4, 5, 6, e rappresentano le posizioni delle lettere nella parola
che si andrà a comporre. I gettoni sono k = n = 6, contrassegnati A, I, L, M, N, O e
rappresentano le lettere a disposizione.
Allocazione III
n scatole disitinte e k gettoni identici da allocare
ogni scatola può contenere 0 o 1 gettoni
Soluzione.
n (n 1) (n k + 1)
k!
=
_
n
k
_
Spiegazione. Analogo al caso II appena visto. Poichè i gettoni sono indistinguibili si
devono contare le combinazioni, ovvero dividere P(n, k) per P(k, k) come si era fatto per
il corrispondente caso del campionamento.
Esempio. Gioco del Lotto, come per campionamento III. Il modello di allocazione consiste
di n = 90 scatole (contrassegnate da 1 a 90) e di k = 5 gettoni identici, con vincolo di
allocazione 0 or 1 gettoni in ogni scatola. Chiaramente questo è un caso per il quale il
modello del campionamento è molto pi` u naturale.
Allocazione IIIa
m scatole distinte ed n gettoni distinguibili da allocare
la scatola i deve contenere esattamente k
i
gettoni, con
m
i=1
k
i
= n.
Soluzione.
n!
k
1
!k
2
! . . . k
m
!
=:
_
n
k
1
, k
2
, . . . k
m
_
Spiegazione. Si tratta di una miscela dei casi IIa e III appena visti. Per riempire la prima
scatola si devono scegliere k
1
gettoni da n, cosa che si può fare in
_
n
k
1
_
modi (perchè?), per
riempire la seonda scatola si devono scegliere k
2
gettoni dai rimanenti nk
1
gettoni, cosa
che si può fare in
_
nk
1
k
2
_
modi, per la terza ci sono
_
nk
1
k
2
k
3
_
possibili scelte di gettoni ecc.
Per il principio di moltiplicazione il numero di modi possibili è
_
n
k
1
__
n k
1
k
2
__
n k
1
k
2
k
3
_
...
_
n k
1
k
2
. . . k
m1
k
m
_
=
_
n
k
1
, k
2
, . . . k
m
_
Vericate algebricamente questa identità, ad esempio per m = 3.
Esempio. Anagrammi della parola MISSISSIPPI, come per campionamento IIIa. Il
modello di allocazione consiste di m = 4 scatole, contrassegnate M,I,S,P, e di n = 11
gettoni, contrassegnati 1, 2, . . . 11. I gettoni corrispondono alle posizioni delle lettere nella
parola che si andrà a comporre. Ad ogni allocazione corrisponde uno degli anagrammi
distinguibuibili.
19
Allocazione IV
n scatole distinte e k gettoni identitici da allocare
nessun vincolo di riempimento (ogni scatola può contenere da 0 a k gettoni)
Soluzione.
_
n +k 1
k
_
Spiegazione. Guardate con attenzione lultima colonna della tabella del Campionamento
IV.
`
E una vivida rappresentazione delle possibili allocazioni dei gettoni nelle scatole: le
barre verticali consentono di individuare le scatole distinte, i segni di spunta sono i gettoni.
In eetti questo è un problema che è pi` u naturale impostare usando il modello della
allocazione.
Esempio. Lancio 3 dadi identici, come per campionamento IV. Quante sono le possibili
combinazioni osservabili? Nel paradigma della allocazione modelliamo con n = 6 scatole,
contrassegnate 1, 2, 3, 4, 5, 6, e con r = 3 gettoni contrassegnati Lancio1, Lancio2, Lancio3.
Nota nale. Dovrebbe essere a questo punto chiaro il meccanismo di passaggio tra i
paradigmi del campionamento e dellallocazione. Il numero di palline distinte, n, o il
numero di gruppi distinti di palline m corrisponde al numero di scatole. Il numero di
estrazioni corrisponde al numero di gettoni. Le estrazioni senza reinserimento si tra-
ducono nel vincolo di riempimento 0 o 1 gettone per scatola, mentre se si reinseriscono le
palline nellurna nel campionamento allora non ci sono vincoli di riempimento nelle sca-
tole. Ordine di estrazione rilevante nel campionamento corrisponde a gettoni distinguibili
nellallocazione. Viceversa, ordine di estrazione irrilevante corrisponde a gettoni identici
nel paradigma dellallocazione.
20
4.1 Combinatoria elementare II
Qui sotto rivediamo la terminologia tradizionalmente associata ai problemi di conteggio
elementari.
(a.) le disposizioni con ripetizione di n oggetti distinti presi k alla volta sono n
k
. Esempio
1. Scrivere una schedina del totocalcio consiste nel prendere n = 3 oggetti (1, X, 2), a
gruppo di k = 13. Allora 3
1
3 è il numero di possibili schedine. Esempio 2. Il numero
di sottoinsiemi di un insieme di n elementi è 2
n
. Infatti per individuare un sottoinsieme
possiamo usare una stringa di n bit, associando ad ogni bit della stringa un elemento
dellinsieme. Gli 1 della stringa indicano gli elementi che appartengono al sottoinsieme,
gli 0 indicano gli elementi esclusi. Il numero totale di stringhe binarie di n bit è 2
n
.
(b.) le disposizioni senza ripetizione di n oggetti distinti presi k alla volta sono n(n
1) (n k +1). Esempio. In una corsa campestre con n = 10 atleti, il numero di ordini
di arrivo dei primi k = 3 (cioè quanti podii sono possibili) è 10 9 8.
(b1.) nel caso particolare n = k le disposizioni senza ripetizione vengono dette permu-
tazioni Esempio. Gli anagrammi della parola BRENTA sono 6!. Attenzione però, questo
conteggio è corretto perche le lettere di BRENTA sono distinte.
(c.) le combinazioni senza ripetizione di n oggetti distinti presi k alla volta sono
_
n
k
_
=
n(n1)(nk+1)
k!
. Esempio. Numero delle cinquine nel gioco del lotto
_
90
5
_
. (vedi appendice
alla Lezione 3 per la descrizione).
`
E importante capire questo conteggio sia dal punto di
vista del campionamento che dellallocazione. Di seguito diamo un esempio di problema
la cui soluzione è ancora
_
n
k
_
, e che si imposta naturalmente come problema di allocazione.
Esempio. Il numero di sottoinsiemi di cardinalità k di un insieme di cardinalità n è pari
a
_
n
k
_
. Pensate di avere n celle (gli elementi dellinsieme) e di dover disporre k gettoni
indistinguibili nelle celle al pi` u uno in ogni cella. Ogni congurazione di gettoni individua
univocamente un sottoinsieme e le allocazioni sono
_
n
k
_
.
(d.) un esempio misto è quello delle permutazioni con elementi ripetuti che illustriamo
con due esempi. Esempio 1. Unurna contiene n palline, di m colori diversi, k
1
del colore
1, . . . k
m
del colore m, con k
!
+ k
2
+ . . . k
m
= n. Si estraggono, senza reinserimento,
tutte le palline dallurna. Il numero di disposizioni distinguibili è
_
n
k
1
,k
2
,...k
m
_
:=
n!
k
1
!k
2
!...k
m
!
.
Esempio 2. Contare gli anagrammi della parola MISSISSIPPI. Le lettere sono 11, di 4 tipi
diversi, 1 M, 4 I, 4 S, 2P, gli anagrammi sono
11!
4!4!2!
.
`
E interessante osservare che
_
n
k
1
, k
2
, . . . k
m
_
=
_
n
k
1
__
n k
1
k
2
_
. . .
_
n k
1
k
2
k
m1
k
m
_
come appare chiaro impostando il conteggio come problema di allocazione. Come caso
particolare, se m = 2, ponendo k
1
= k, k
2
= n k, risulta
_
n
k
1
,k
2
_
=
_
n
k
_
.
(e.) le combinazioni con ripetizione di n oggetti distinti presi k alla volta. Non trattato a
lezione, si veda lappendice alla Lezione 3.
4.2 Proprietà dei coecienti binomiali
I numeri
_
n
k
_
:=
n!
k!(nk)!
, per n 0 e k = 0, 1, . . . n sono detti coecienti binomiali.
_
n
k
_
si
legge n su k, oppure n binomiale k. Per convenzione 0! = 1 quindi
_
n
0
_
=
_
n
n
_
= 1 per ogni
n 0.
21
(a.) Il coeciente binomiale è cos` detto poiche interviene nello sviluppo della potenza del
binomio
(a +b)
n
=
n
k=0
_
n
k
_
a
k
b
nk
. (1)
La dimostrazione combinatoria è immediata:
(a +b)
n
= (a +b)(a +b) (a +b)
. .
n volte
.
Il prodotto degli n fattori (a + b) consiste di addendi del tipo a
k
b
nk
, per k = 0, 1, . . . n,
ognuno dei quali corrisponde a scegliere k volte a ed n k volte b negli n fattori (a + b).
Per un dato k = 0, 1, . . . n il numero di modi in cui si può scegliere k volte a è
_
n
k
_
quindi
il numero di addendi del tipo a
k
b
nk
è
_
n
k
_
, il che dimostra la formula (1).
(b.) Ponendo a = b = 1 nello sviluppo della potenza del binomio si ha
2
n
=
n
k=0
_
n
k
_
.
Questa identità ha una semplice interpretazione combinatoria. Il numero totale di sottoin-
siemi di un insieme di n elementi, 2
n
, è la somma del numero di sottoinsiemi a k elementi,
k = 0, 1, . . . n.
(c.)
_
n
k
_
=
_
n
nk
_
, infatti ogni sottoinsieme è in corrispondenza biunivoca con il suo
complementare.
(d.)
_
n
k
_
=
_
n1
k
_
+
_
n1
k1
_
, per n 2 e k = 0, 1, . . . n. Per dimostrare combinatorialmente
la validità di questa relazione di ricorrenza (in Segnali e Sistemi la chiamerete equazione
alle dierenze) si può ragionare cos`: il numero di sottoinsiemi di k elementi di un insieme
dato di n elementi si può trovare ssando un elemento arbitrario
1
e poi sommando
_
n1
k1
_
, numero di sottoinsiemi di k elementi di che contengono
1
, a
_
n1
k
_
, numero di
sottoinsiemi di k elementi di che non contengono
1
. Valgono inoltre le condizioni
al contorno
_
n
0
_
= 1, per n 0. Lequazione alle dierenze, insieme alle condizioni al
contorno, deniscono un algoritmo per generare i coecienti binomiali, comunemente noto
come triangolo di Tartaglia, nel resto del mondo noto come triangolo di Pascal. Come
esercizio, vericate algebricamente che i coecienti binomiali vericano lequazione alle
dierenze e le condizioni al contorno.
(e.) Interpretazione di Gyorgy Polya dei coecienti binomiali. Si consideri il grafo di
gura. Ogni nodo del grafo è individuato dalle coordinate (generazione, shift), in gura
sono ad esempio evidenziati i punti (4, 1), (4, 2), (5, 2). Il grafo si può percorrere ma
i cammini permessi sono solo quelli che partono dalla radice (0, 0) e ad ogni passo si
spostano di una generazione in basso sul grafo, verso destra o verso sinistra. Dal punto
(n, k) ci si può cioè spostare solo verso i punti (n + 1, k) ed (n + 1, k + 1), con le ovvie
attenzioni agli indici quando si è vicini al bordo. Indicando con #(n, k) il numero di
cammini che dallorogine (0, 0) conducono al nodo (n, k) è facile dimostrare, vedi gura,
che vale la relazione di ricorrenza (equazione alle dierenze)
#(n, k) = #(n 1, k 1) + #(n 1, k)
con condizione al contorno #(n, 0) = 1 Ma questa, a parte i simboli usati, è esattamente
la relazione (d.), con la medesima condizione al contorno, quindi #(n, k) =
_
n
k
_
. Questa è
linterpretazione di Polya dei coecienti binomiali come numero di cammini.
22
?
n
0
1
2
3
4
-
k
5
0 1 2 3 4 5
u u
u
(4, 1) (4, 2)
(5, 2)
4.3 Formula di Stirling
Fornisce lordine di grandezza di n! con grande precisione. La versione semplice della
formula di Stirling è
n!
2nn
n
e
n
dove a(n) b(n) signica che lim
n
a(n)
b(n)
= 1. La dimostrazione si può fare usando le
proprietà della densità di probabilità gaussiana e la tecnica di approssimazione di Laplace
degli integrali dipendenti da un parametro. I pi` u curiosi troveranno, pi` u avanti, una nota
su moodle. In modo sporco e veloce si può però ottenere la parte pi` u cospicua dello
sviluppo asintotico:
log n! =
n
k=1
log k
_
n
1
log xdx = xlog x x
n
1
= nlog n n + 1.
Prendendo lesponenziale di entrambi i membri, e trascurando il +1, si trova n! n
n
e
n
che è unapprossimazione niente male, vista la poca fatica che ci è costata.
4.4 Applicazione al calcolo della probabilità
Calcolo della probabilità su spazi niti equiprobabili. Per ritrovarvi sugli appunti i titoli
che avevo dato agli esercizi erano: squadre di calcio e trenino.
23
5.1 Esercitazione sulla combinatoria e la probabilità negli spazi niti uniformi
Esercizio 1. Unurna contiene 5 palline rosse, 6 blu e 8 verdi. Lesperimento consiste
nellestrazione, senza reinserimento, di tre palline dallurna. Interessano le probabilità
degli eventi
E := le tre palline estratte sono di colori diversi,
F := le tre palline estratte sono dello stesso colore.
Attenzione a non prendere una cantonata: E
c
,= F. Ne levento E, ne levento F dipendono
dallordine di estrazione delle palline, è quindi suciente contare combinazioni. Il numero
di combinazioni diverse corrispondenti allestrazione senza reinserimento di 3 delle 19
palline contenute nellurna è
_
19
3
_
. Levento E si verica quando si estrae esattamente 1
pallina rossa, 1 blu ed 1 verde (lordine non conta). Per il principio di moltiplicazione
questo si può fare in
_
5
1
__
6
1
__
8
1
_
= 5 6 8 modi. La probabilità cercata è
P(E) =
_
5
1
__
6
1
__
8
1
_
_
19
3
_
Per quanto riguarda F si osservi che
F = 3 palline rosse o 3 palline blu o 3 palline verdi,
e poiche i tre eventi a destra sono disgiunti
P(F) = P(3 palline rosse) +P(3 palline blu) +P(3 palline verdi)
=
_
5
3
__
6
0
__
8
0
_
+
_
5
0
__
6
3
__
8
0
_
+
_
5
0
__
6
0
__
8
3
_
_
19
3
_
Soluzione formale dellesercizio 1. La soluzione formalmente rigorosa di questo, e di tutti
gli altri esercizi del corso, richiede la costruzione di un opportuno spazio di probabilità
o = (, T, P) che modella lesperimento di interesse. Normalmente o è sottaciuto, ma è
importante, almeno allinizio, capire come si dovrebbe procedere. Qui sotto proponiamo
due possibili spazi di probabilità, o
1
e o
2
, per modellare lesperimento sico descritto
nellesercizio 1. Questo servirà ad illustrare il fatto che il modello probabilistico non è
unico.
Spazio o
1
. Cominciamo con la scelta dello spazio campionario
1
. Lunico vincolo che
la teoria impone su è che esso sia sucientemente ricco: gli esiti devono permettere di
rappresentare tutti i risultati dellesperimento. Numeriamo ttiziamente le palline presenti
nellurna: le rosse da 1 a 5, le blu da 6 a 11 e le verdi da 12 a 19. In tal modo le palline
sono distinguibili e si può prendere
4
1
:= disposizioni senza ripetizione di 19 palline 3 alla volta
4
Nota bene. Come si elencano le disposizioni? Consideriamo, per brevit` a, le disposizioni di 4 oggetti
1, 2, 3, 4 presi 3 alla volta, che sono in totale 4 3 2 = 24. Lintroduzione di un ordinamento aiuta a scrivere
lelenco delle disposizioni, ad esempio in ordine crescente
1, 2, 3; 1, 2, 4; 1, 3, 2; 1, 3, 4; 1, 4, 2; 1, 4, 3;
2, 1, 3; 2, 1, 4; 2, 3, 1; 2, 3, 4; 2, 4, 1; 2, 4, 3;
3, 1, 2; 3, 1, 4; 3, 2, 1; 3, 2, 4; 3, 4, 1; 3, 4, 2;
4, 1, 2; 4, 1, 3; 4, 2, 1; 4, 2, 3; 4, 3, 1; 4, 3, 2.
24
Prendiamo inoltre (possibile poiche
1
è nito) T
1
= P(
1
). Chiaramente [
1
[ = 19
18 17.
`
E ragionevole assegnare su T
1
la misura equiprobabile, dato che gli esiti di
1
sono sicamente equivalenti dal punto di vista delle operazioni di estrazione. Poiche gli
esiti sono disposizioni,
1
è particolarmente adatto a rappresentare eventi che dipendono
dallordine di estrazione delle palline. Ad esempio si consideri levento
E
1
= e
1
= rossa, e
2
= blu, e
3
= verde,
dove e
1
, e
2
e e
3
indicano rispettivamente la prima, la seconda e la terza pallina estratta
e le virgole sottintendono intersezioni, ovvero E
1
consiste delle disposizioni con prima
pallina rossa e seconda blu e terza verde. Gli esiti di
1
che appartengono ad E
1
sono
tutte e sole le terne (p
1
, p
2
, p
3
) con p
1
1, 2, 3, 4, 5, p
2
6, 7, 8, 9, 10, 11 e p
3

12, 13, 14, 15, 16, 17, 18, 19. Il numero degli esiti di questo tipo è 5 6 8, quindi
P(E
1
) =
[E[
[
1
[
=
5 6 8
19 18 17
.
Gli eventi che si ricavano da E
1
per permutazione dei colori rosso, verde, blu, ovvero
E
2
= e
1
= blu, e
2
= rossa, e
3
= verde,
E
3
= e
1
= blu, e
2
= verde, e
3
= rossa,
eccetera (in totale sono 3! = 6) sono equiprobabili (è immediato, ma meditate se neces-
sario).
`
E ovvio che
E := le tre palline estratte sono di colori diversi =
6
_
i=1
E
i
,
quindi
P(E) = 3!
5 6 8
19 18 17
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ ,
dove si lascia come banale esercizio la verica dellultima identità che dimostra che il
risultato trovato coincide con quello derivato inizialmente.
Spazio o
2
. Questa è la formalizzazione dellapproccio intuitivo seguito allinizio. Si prenda
come spazio campionario
2
:= combinazioni senza ripetizione
ed T
2
= P(
2
). La cardinalità di
2
è
[
2
[ =
_
19
3
_
.
`
E ragionevole prendere la misura equiprobabile su T
2
? La risposta è s`, perche ogni esito

2
si ottiene come unione dello stesso numero 3! di esiti di
1
. e su
1
la misura
equiprobabile è sicamente naturale. Ad esempio, allesito (1, 7, 9)
2
corrispondono
gli esiti (1, 7, 9), (1, 9, 7), (7, 1, 9), (7, 9, 1), (9, 1, 7), (9, 7, 1) di
1
. Lo spazio campionario
2
è pi` u piccolo di
1
, ma è suciente per descrivere qualunque evento che non dipenda
dallordine delle estrazioni. Consideriamo levento E
2
denito allinizio:
E = tre palline di colori diversi = una rossa e una blu e una verde.
25
La cardinalità di E vale quindi
[E[ =
_
5
1
__
6
1
__
8
1
_
e la probabilità è, come ci aspettavamo,
P(E) =
[E[
[
2
[
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ .
Micro-esercizio. Calcolare P(2 rosse e 1 verde).
Esercizio 2. Calcolo delle probabilità delle combinazioni del poker. Vedi appendice alla
lezione.
Esercizio 3. Per un certo gioco di carte si usa il mazzo da poker ed una mano consiste di
13 carte scelte a caso dal mazzo. Calcolare la probabilità che una mano contenga almeno
due carte di picche.
Soluzione. Si impiega la locuzione scelta a caso per intendere che tutte le possibili scelte
sono equiprobabili. Si consideri levento
E = almeno due picche =
13
_
k=2
E
k
,
dove E
k
:=esattamente k picche. La probabilità di E si può calcolare direttamente
oppure passando allevento complementare. Per il calcolo diretto, osservando che gli E
k
sono disgiunti, vale
P(E) =
13
k=2
P(E
k
) =
13
k=2
[E
k
[
[[
=
13
k=2
_
13
k
__
5213
13k
_
_
52
13
_
Passando per il complementare,
E
c
= al pi` u 1 picca = 0 picche o 1 picca
e, osservando che 0 picche e 1 picca sono eventi disgiunti,
P(E) = 1 P(E
c
) = 1
_
P(0 picche) +P(1 picca)
_
= 1
_
39
13
__
13
0
_
_
52
13
_
_
39
12
__
13
1
_
_
52
13
_ ,
unespressione computazionalmente molto pi` u semplice di P(E).
Esercizio 4. Corsa campestre di n atleti della stessa abilità, quindi gli ordini di arrivo sono
casuali (unaltra locuzione comunemente impiegata per dire equiprobabili). Calcolare la
probabilità che Marco arrivi in k-esima posizione per k = 1, 2, . . . n.
p
k
= P(Marco arriva kesimo) =
(n 1)!
n!
=
1
n
La soluzione non dipende da k. Si può reinterpretare in vari modi, mazzo di chiavi, forlorn
hope mission, estrazione da urna ecc.
26
Esercizio 5. Comitato formato scegliendo a caso 6 persone da un gruppo di 10 americani,
7 russi e 5 tedeschi. Calcolare la probabilità che il comitato contenga almeno un rappre-
sentante di ognuno dei due paesi europei. Levento dinteresse è almeno 1 russo e almeno
1 tedesco. Siamo passati al complementare che, per De Morgan, è nessun russo o nessun
tedesco che ha probabilità
P(0 russi) +P(0 tedeschi) P(0 russi e 0 tedeschi) =
_
15
6
_
+
_
17
6
_
_
10
6
_
_
22
6
_
Esercizio proposto. Si consideri un mazzo di carte da briscola (4 semi, 10 valori per ogni
seme, per un totale di 40 carte). In un certo gioco una mano consiste di 4 carte estratte
a caso dal mazzo. Calcolare la probabilità dellevento E =la mano contiene almeno
1 asso. Calcolate la probabilità sia direttamente sia passando allevento complementare
vericando che le due espressioni ottenute coincidono (è un esercizio di pura manipolazione
dei coecienti binomiali).
5.2 Problema del compleanno
Il birthday problem consiste nel calcolo della probabilità dellevento
E
n
= in una classe di n bambini almeno 2 hanno lo stesso compleanno
Non ripeto qui il calcolo della probabilità di E
n
che trovate sui vostri appunti:
P(E) = 1 P(E
c
) = 1
n1
k=1
_
1
k
365
_
Riporto brevemente il conticino utile per trovare un limite superiore alla probabilità P(E
n
).
Poiche P(E
c
n
) =
n1
k=1
_
1
k
365
_
. Usando la disuguaglianza 1 x e
x
, valida per ogni
x R, troviamo che
P(E
c
n
)
n1
k=1
e
k
365
= e
n1
k=1
k
365
= e
n(n1)
2365
Volendo trovare n tale che P(E
n
) > 0.5 sarà suciente imporre che P(E
c
n
) < 0.5. Con
poca algebra si trova che la condizione equivale a n
2
n > 2 365 log 2 505.997. Per
n = 23 il membro sinistro vale n
2
n = 506, quindi n = 23 è suciente. Per dimostrare
che n = 23 è il minimo valore di n che soddisfa alla condizione P(E
c
n
) < 0.5, si prende
n = 22 ci si arma di pazienza e si valuta, meglio farlo scrivendo due righe di codice su un
calcolatore, il valore esatto P(E
c
22
) che risulta essere maggiore di 0.5. Il paradosso dei
compleanni si riferisce al fatto che, in un gruppo di appena 23 persone, la probabilità che
almeno due di esse abbiano lo stesso compleanno è maggiore di 0.5.
Birthday attack.
`
E una tecnica di hacking, di tipo brute force, basata sul paradosso del
compleanno. Guardate la voce birthday attack sulla wikipedia inglese o chiedete ad un
vostro professore dinformatica.
5.3 Probabilità condizionata: motivazione della denizione
Lidea di probabilità condizionata consente di incorporare informazione a priori nel cal-
colo della probabilità di eventi di interesse. Linformazione a priori riguarda tipicamente
27
il vericarsi o il non vericarsi di certi eventi che sono collegati allevento di cui interes-
sa calcolare la probabilità. Grazie alla probabilità condizionata è possibile rappresentare
situazioni sperimentali che evolvono dinamicamente nel tempo. Abbiamo illustrato questo
discorso fumoso con un semplice esempio che indica un modo ragionevole di incorpo-
rare linformazione a priori nel calcolo della probabilità di un evento. Si supponga di
avere unurna contenente 80 palline nere e 20 rosse. Eettuiamo 2 estrazioni senza rein-
serimento. Vogliamo calcolare probabilità del tipo P(e
1
= rossa), P(e
2
= rossa),
P(e
1
= rossa, e
2
= rossa), dove e
1
e e
2
sono rispettivamente la prima e la seconda
estratta e la virgola tra eventi si deve intendere come segno dintersezione. Cominciamo
a calcolare queste probabilità applicando diligentemente quanto visto nora. Dovendo
trattare eventi per i quali lordine delle estrazioni è rilevante sarà opportuno prendere
come spazio campionario
= disposizioni senza ripetizione di 2 oggetti scelti da 100
dove [[ = 100 99, e dotarlo della misura equiprobabile.
`
E allora immediato calcolare
P(e
1
= rossa, e
2
= rossa) =
20 19
100 99
.
Per il calcolo di P(e
1
= rossa) rappresentiamo dapprima levento e
1
= rossa come
unione di eventi incompatibili di :
e
1
= rossa = e
1
= rossa, e
2
= rossa e
1
= rossa, e
2
= nera
da cui si ricava immediatamente
P(e
1
= rossa) =
20 19
100 99
+
20 80
100 99
=
20 99
100 99
=
20
100
.
Tutto questo è istruttivo, ma poco illuminante. Un approccio meno formale consente di
dire immediatamente che
P(e
1
= rossa) =
20
100
perche nellurna ci sono 20 palline rosse su un totale di 100. Quello che stiamo facendo, in
modo automatico, nel produrre immediatamente la risposta
20
100
, è di costruire mentalmente
un modello probabilistico diverso ovvero
1
= i naturali da 1 a 100 di cui 20 sono rossi e 80 neri
e di dotarlo di una misura equiprobabile. Quando tentate di calcolare P(e
2
= rossa)
usando lo stesso approccio intuitivo vi bloccate perche la composizione dellurna dipende
dal risultato, non noto, della prima estrazione. Supponete che qualcuno vi informi del
risultato della prima estrazione e che vi sia consentito tenerne conto. Per denotare il
fatto che state usando questinformazione extra la mettete in evidenza quando scrivete le
probabilità. Scrivete ad esempio
P(e
2
= rossa [ e
1
= rossa) =
19
99
che leggerete: la probabilità che la seconda estratta sia rossa, sapendo che la prima estratta
era rossa, vale
19
99
. In eetti se la prima estrazione ha prodotto una rossa rimangono
nellurna 99 palline, di cui 19 rosse. Confrontiamo questa probabilità, che tiene conto in
modo intuitivo dellinformazione a priori sulla prima estrazione, con quelle calcolate pi` u
sopra. Con una semplice manipolazione
P(e
2
= rossa [ e
1
= rossa) =
19
99
=
20 19
100 99
100
20
=
P(e
1
= rossa, e
2
= rossa)
P(e
1
= rossa)
28
Diciamo E = e
2
= rossa ed F = e
1
= rossa, allora le considerazioni fatte sopra
suggeriscono di denire la probabilità di E sapendo che si è vericato F come:
P(E[F) =
P(E F)
P(F)
.
Nella prossima lezione erigeremo questa formula a denizione formale della probabilità
condizionata, in spazi di probabilità qualunque. Vedremo inoltre come calcolare P(e
2
=
rossa) usando le probabilità condizionate.
29
Combinazioni del poker
Lo scopo della nota è di calcolare le probabilità delle mani nel gioco del poker.
Consideriamo il mazzo da 52 carte. Le carte si distinguono per seme e valore (chiamato
anche rango). I semi sono 4, denominati Cuori, Quadri, Fiori, Picche. Per ogni seme ci
sono 13 carte i cui ranghi crescenti sono A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K. Si considera in
scala crescente anche la sequenza 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A.
Una mano di poker consiste in un sottoinsieme di 5 carte scelte a caso dal mazzo di 52. Il
numero di mani possibili è quindi
_
52
5
_
.
Tipi di mani nel poker.
1. coppia (x, x, w, y, z)
dove x, x sono due carte dello stesso rango (di semi ovviamente diversi) mentre w, y, z
sono tre carte, di ranghi distinti tra loro, e diversi da quello di x.
2. doppia coppia (x, x, y, y, z)
3. tris (x, x, x, y, z)
4. scala 5 carte con ranghi in ordine crescente, non dello stesso seme.
5. full (x, x, x, y, y)
6. colore 5 carte dello stesso seme
7. colore in scala 5 carte dello stesso seme in scala, la pi` u alta non è lasso.
8. poker (x, x, x, x, y)
9. scala reale colore in scala con carta pi` u alta lasso.
10. scartine nessuna delle precedenti.
Calcolo delle combinazioni.
Per 1. 2. 3. 5. 8. il conteggio si può fare come segue.
1.
_
13
1
__
4
2
__
12
3
__
4
1
_
3
Dove
_
13
1
_
è il numero di scelte del rango w,
_
4
2
_
il numero di scelte della coppia tra
le 4 carte di rango w,
_
12
3
_
il numero di scelte dei ranghi x, y, z tra i 12 rimasti dopo
aver eliminato w,
_
4
1
_
il numero di scelte della carta tra le 4 carte di rango x, ed
analogamente
_
4
1
_
le possibili scelte della carta tra le 4 di rango y, e
_
4
1
_
le scelte della
carta tra le 4 di rango z.
2.
_
13
2
__
4
2
_
2
_
11
1
__
4
1
_
Dove
_
13
2
_
è il numero di possibili coppie di ranghi x, y,
_
4
2
_
2
il numero di scelte della
carta di rango x moltiplicato il numero di scelte della carta di rango y,
_
11
1
__
4
1
_
il
numero di scelte del rango z per il numero di scelte della carta di rango z.
30
3.
_
13
1
__
4
3
__
12
2
__
4
1
_
2
spiegazione analoga a sopra.
5.
_
13
1
__
4
3
__
12
1
__
4
2
_
8.
_
13
1
__
4
4
__
12
1
__
4
1
_
4. Una scala può partire da uno qualunque dei ranghi A, 2, 3, 4, 5, 6, 7, 8, 9, 10. Se parte da
10 terminerà con A. Le scale possibili sono quindi 104
5
poichè scelta la carta di partenza
si deve poi scegliere, per ognuno dei 5 ranghi consecutivi, il seme della carta. Vanno però
sottratte le 10 4 scale formate da 5 carte dello stesso seme perchè queste combinazioni
hanno valore diverso (caso 7. colore in scala). Il numero di scale semplici vale dunque
10 4
5
10 4
7. Si devono contare tutte le scale dello stesso seme che non terminano in asso, poichè
quelle che terminano in asso sono scale reali. Quindi abbiamo
10 4 4
9. Le scale reali sono ovviamente
4
6. Per la combinazione colore il seme può essere scelto in 4 modi, quindi si devono scegliere
5 carte delle 13 di quel seme, e inne sottrarre i colori in scala e le scale reali
4
_
13
5
_
10 4
Esercizio: I casi da 1. a 10. sono ovviamente mutuamente esclusivi. Calcolate diretta-
mente il numero di mani del caso 10. scartine (basta contare quante sono le mani con 5
carte di rango diverso e sottrarre .....) e vericate che la somma dei casi da 1. a 10. vale
eettivamente
_
52
5
_
.
31
6.1 Probabilità condizionata
Denizione. Sia (, T, P) uno spazio di probabilità, ed F T un evento tale che P(F) > 0,
allora per ogni E T è ben denita la quantità
P(E[F) :=
P(E F)
P(F)
,
detta probabilità condizionata di E dato F, o semplicemente probabilità di E dato F.
Nota bene. Battezzare una quantità probabilità non basta a garantire che essa si com-
porti come tale. Sarà dunque necessario giusticare la scelta del nome. Cominiciano con
lo studio delle proprietà pi` u elementari di P(E[F).
Proprietà elementari di P(E[F).
(a.) 0 P(E[F) 1 per ogni E, F.
Dimostrazione. Poiche EF F, per la monotonia della probabilità 0 P(EF) P(F)
da cui discende la proprietà dividendo per P(F).
(b.) E F = P(E[F) = 0.
Dimostrazione. Banale dalla denizione.
(c.) P(E) = 0 P(E[F) = 0.
Dimostrazione. Infatti E F E implica P(E F) P((F) e dividendo per P(F) si
conclude.
(d.) P(E) = 1 P(E[F) = 1.
Dimostrazione.
`
E sempre P(E F) P(E) + P(F) 1, e poiche P(E) = 1 per ipotesi,
P(E F) P(F). Dividendo per P(F) si trova P(E[F) =
P(EF)
P(F)
1 e per la (a.) si
conclude che P(E[F) = 1.
Osservazione. P(E[F) P(E), a seconda degli eventi E, F e della misura P.
Commento. Si noti che è naturale voler confrontare P(E) con P(E[F). Intuitivamente,
se E è levento dinteresse e P la misura nota, P(E) è la probabilità di E in assenza di
ulteriori informazioni, mentre P(E[F) è la rivalutazione della probabilità di E tenendo
conto dellinformazione si è vericato levento F. Esempio. E =il paziente guarisce,
F =il paziente ha assunto il farmaco. La CUF (Commissione Unica del Farmaco) mette
il farmaco in fascia A se P(E[F) > P(E), in fascia B se P(E[F) = P(E) o ne proibisce la
vendita se P(E[F) < P(E).
Esercizio svolto in aula. Lancio due dadi distinguibili, ad esempio uno rosso ed uno blu.
Tutti i risultati sono equiprobabili. Calcolare le probabilità condizionate
P(esce 6 sul dado rosso [ la somma dei dadi è i), i = 2, 3, . . . 12.
Interpretazione empirica della probabilità condizionata
Nellinterpretazione empirica (frequentista) della probabilità si suppone di poter eettuare
un esperimento in condizioni identiche un certo numero di volte n. Per ogni evento E T
si denisce la probabilità empirica P
n
(E) =
n
E
n
, dove n
E
è il numero di volte che si è
32
vericato E nelle n prove. Ragionando allo stesso modo è naturale denire la probabilità
condizionata empirica come
P
n
(E[F) =
P
n
(E F)
P
n
(F)
=
n
EF
n
F
.
Esempio (trial clinico).
Negli studi osservazionali (sociali, biomedici, ecc.) i modelli probabilistici si costruiscono
utilizzando probabilità empiriche. Ad esempio per valutare lecacia di un farmaco, detto
G =malato guarisce e F =malato assume farmaco (e per convenienza tipograca
G = G
c
, F = F
c
), interessa confrontare P(G[F) con P(G). Allo scopo si organizzano
esperimenti, detti trial clinici, per valutare le probabilità empiriche. Una versione molto
rozza di trial clinico è la seguente. Ad ogni individuo di una popolazione di n malati si
associano due bit (g, f), con lovvia interpretazione f = 1 lindividuo assume farmaco,
f = 0 lindividuo non assume il farmaco ed analogamente g = 1 lindividuo guarisce,
g = 0 lindividuo non guarisce. Dopo avere rilevato i valori (g, f) di ogni individuo, si
riassumono i dati dellintera popolazione in una cosiddetta tabella di contingenza 2 2
della forma
F F
G n
GF
n
GF
n
G
G n
GF
n
GF
n
G
n
F
n
F
n
dove n
GF
è il numero di malati che guariscono e assummono il farmaco, n
GF
il numero
di quelli che guariscono e non assumono il farmaco ed analogamente si interpretano n
GF
,
n
GF
, n
F
, n
F
, n
G
, n
G
. Per denizione, la colonna pi` u a destra (colonna marginale) ha
per elementi le somme delle righe e la riga pi` u in basso (riga marginale) ha per elementi
la somma delle colonne. Convincetevi della correttezza dei valori indicati nella colonna e
nella riga marginali, ovvero n
GF
+n
GF
= n
G
, eccetera. Per denizione lelemento in basso
a destra è la somma degli elementi della colonna marginale, che coincide (convincetevene)
con la somma degli elementi della riga marginale, ovvero n (convincetevene), la cardinalità
della popolazione. I quattro numeri n
GF
, n
GF
, n
GF
e n
GF
contengono le informazioni
necessarie per il calcolo di tutte le probabilità empiriche dinteresse, ad esempio:
P
n
(G[F) =
n
GF
n
F
=
n
GF
n
GF
+n
GF
e anche
P
n
(G) =
n
G
n
=
n
GF
+n
GF
n
GF
+n
GF
+n
GF
+n
GF
Esercizio. Vericare che vale la relazione P
n
(G[F) > P
n
(G) tra le probabilità empiriche
(farmaco utile) se e solo se il determinante della matrice di contingenza 2 2 è positivo.
33
La probabilità condizionata come misura di probabilità
Teorema. Sia F T con P(F) > 0 ssato, allora la mappa P([F) : T R che assegna
E P(E[F) è una misura di probabilità.
Dimostrazione. Consiste nella verica degli assiomi. Vedi appunti di lezione!
Dal teorema appena dimostrato segue che P([F) gode di tutte le proprietà di una misura
di probabilità. In particolare
(a.) P(E
c
[F) = 1 P(E[F), per ogni E T.
(b.) P(E G[F) = P(E[F) +P(G[F) P(E G[F) per ogni E, G.
ATTENZIONE
La mappa P(E[) : T R che assegna F P(E[F) non è una misura di probabilità.
Esercizio. Costruire un esempio dove P(E[F
c
) ,= 1 P(E[F).
6.2 Formula di moltiplicazione e applicazioni
Se sia E che F hanno probabilità strettamente positiva sono ben denite entrambe le
probabilità condizionate
P(E[F) =
P(E F)
P(F)
, P(F[E) =
P(E F)
P(E)
da cui si ricavano le identità (formule di moltiplicazione)
P(E F) = P(E[F)P(F) = P(F[E)P(E)
Le formule di moltiplicazione sono spesso utili nel calcolo della probabilità di eventi din-
teresse. Sebbene equivalenti dal punto di vista teorico, dal punto di vista operativo non
sempre una vale laltra.
Esempio. Tornando allesempio motivazionale dellultima lezione, abbiamo
P(e
1
= rossae
2
= nera) = P(e
2
= nera [ e
1
= rossa)P(e
1
= rossa)
= P(e
1
= rossa [ e
2
= nera)P(e
2
= nera)
dove la prima identità consente un calcolo immediato, mentre la seconda è inservibile,
poiche non sappiamo ancora come calcolare P(e
2
= nera).
Le identità viste sopra sono le pi` u semplici formule di moltiplicazione. Lidea può si
però iterare per ottenere formule di moltiplicazione di pi` u vaste proporzioni. Ad esempio,
per qualunque terna E, F, G T, usando la denizione di probabilità condizionata, è
immediato vericare che
P(E F G) = P(E (F G)) = P(E[F G)P(F[G)P(G).
Se si ha a che fare con una famiglia nita E
i
n
i=1
di eventi, vale ad esempio
P
_
n
i=1
E
i
_
= P
_
E
n
n1
i=1
E
i
_
P
_
E
n1
n2
i=1
E
i
_
. . . P(E
2
[E
1
)P(E
1
).
34
Naturalmente di formule di questo tipo se ne possono scrivere parecchie, permutando gli
eventi E
i
. Sono tutte corrette, ma operativamente alcune saranno pi` u comode di altre
nelle speciche applicazioni.
Esempio 1. Da un mazzo di carte da poker estraggo 3 carte senza reinserimento. Calcolare
la probabilità che nessuna delle 3 carte sia di Cuori. Svolto in aula sia con calcolo diretto
sia con la formula di moltiplicazione.
Esempio 2 (urna di Polya). In unurna ci sono inizialmente 3 palline Bianche e 5 Rosse.
Eettuo le estrazioni con la seguente regola: ad ogni estrazione reinserisco nellurna la
pallina appena estratta e ne aggiungo 2 dello stesso colore di quella appena estratta.
Abbiamo calcolato la probabilità dellevento
P(e
1
= B, e
2
= B, e
3
= R) = P(e
3
= R[e
1
= B, e
2
= B)P(e
2
= B[e
1
= B)P(e
1
= B)
=
5
12
5
10
3
8
.
Pi` u in generale lurna di Polya è denita come segue: in unurna sono inizialmente presenti
b palline Bianche ed r palline Rosse. Ad ogni estrazione si reinserisce nellurna la pallina
appena estratta e se ne aggiungono c dello stesso colore di quella appena estratta, dove
c Zè un intero ssato. Si noti che c = 1 corrisponde al caso standard di campionamento
senza reinserimento, c = 0 al caso standard di campionamento con reinserimento, c = 2 al
caso particolare visto sopra. Come in precedenza calcoliamo ad esempio
P(e
1
= B, e
2
= B, e
3
= R) =
r
b +r + 2c
b +c
b +r +c
b
b +r
.
Osservazione. Abbiamo rapidamente visto che tutte le permutazioni di e
1
= B, e
2
=
B, e
3
= R (ad esempio e
1
= B, e
2
= R, e
3
= B, e cos` via per tutte le altre) hanno
la stessa probabilità. In eetti, nella precedente formula, i denominatori sono invarianti,
mentre i numeratori permutano. Lo stesso vale se invece di 3 estrazioni se ne eseguono n.
Tecnicamente si dice che gli eventi e
1
= B, e
2
= B, e
3
= R sono scambiabili. La
nozione di scambiabilità per eventi è di fondamentale importanza in Statistica, ed è dovuta
a Bruno de Finetti (1937). Lurna di Polya è un modello probabilistico estremamente
essibile, utile in svariati campi applicativi. Avevo menzionato lo studio della propagazione
di uninfezione virale in una popolazione umana o in una rete di calcolatori.
6.3 Formule della probabilità totale e di Bayes
Formula della probabilità totale
Teorema. Sia F, F
c
una partizione di , con 0 < P(F) < 1, allora per ogni E T vale
la formula della probabilità totale:
P(E) = P(E[F)P(F) +P(E[F
c
)P(F
c
).
Dimostrazione.
`
E suciente scrivere la decomposizione disgiunta E = (EF) (EF
c
),
applicare laddittività della misura P(E) = P(E F) + P(E F
c
) ed inne utilizzare la
formula di moltiplicazione per sviluppare entrambi gli addendi che compaiono a destra.
In generale, se F
i
n
i=1
è una partizione di , con P(F
i
) > 0 per ogni i, la formula della
probabilità totale è
P(E) =
n
j=1
P(E[F
j
)P(F
j
).
35
Esempio 1. Tornando allesempio motivazionale introdotto alla ne della scorsa lezione,
la formula della probabilità totale fornisce
P(e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) +P(e
2
= R[e
1
= N)P(e
1
= N)
=
19
99
20
100
+
20
99
80
100
=
20
100
.
Osservazione. Nonostante le palline siano estratte senza reinserimento P(e
2
= R) =
P(e
1
= R). Questo risultato non è del tutto intuitivo. In forma pi` u estrema, se nellurna
ci sono 99 palline Nere ed 1 Rossa, e si eettuano estrazioni senza reinserimento, vale
P(e
1
= R) = P(e
2
= R) = = P(e
100
= R) =
1
100
. Si confronti con lesercizio 4 della
sezione 5.1.
Esempio 2. Unazienda di assemblaggio PC acquista chip di memoria da tre diversi for-
nitori. Il fornitore A garantisce che la percentuale di chip difettosi è inferiore al 2%, il
fornitore B garantisce meno del 2%, mentre il fornitore C garantisce meno del 4%. Luf-
cio acquisti ordina il 50% dei chip da A, il 25% da B ed il 25% da C. I chip vengono
immagazzinati in modo casuale. Il tecnico addetto prende un chip a caso dal magazzino e
lo inserisce sulla scheda madre. Aiutate lucio vendite a calcolare la percentuale di chip
di memoria difettosi che può garantire ai clienti che acquistano partite di PC assemblati.
Soluzione.
`
E fondamentale interpretare correttamente i dati del problema. Detto D
levento chip difettoso, con ovvio signicato degli altri simboli, i dati sono P(D[A) =
0.02, P(D[B) = 0.02, P(D[C) = 0.04, inoltre P(A) = 0.5, P(B) = 0.25, P(C) = 0.25. Gli
eventi A, B, C formano una partizione poiche ogni chip del magazzino proviene da uno,
ed uno solo, dei produttori A, B o C. Ci sono le condizioni per applicare la formula della
probabilità totale che fornisce
P(D) = P(D[A)P(A) +P(D[B)P(B) +P(D[C)P(C) = 0.02 0.5+0.02 0.25+0.04 0.25.
Formula di Bayes
Spesso è di interesse calcolare le probabilità P(F
i
[E), dette probabilità a posteriori (le
probabilità P(F
i
) sono invece dette probabilità a priori). Utilizzando la denizione di
probabilità condizionata e la formula della probabilità totale si trova la formula di Bayes:
P(F
i
[E) =
P(E F
i
)
P(E)
=
P(E[F
i
)P(F
i
)
n
j=1
P(E[F
j
)P(F
j
)
valida per i = 1, 2, . . . n. In alcuni casi, si veda lesempio qui sotto, il calcolo delle prob-
abilità a posteriori è di fondamentale importanza applicativa. Lenorme utilità della for-
mula di Bayes deriva dal fatto che le probabilità a posteriori sono espresse in termini di
probabilità note, usualmente dati del problema.
Test diagnostici (signal detection)
Un test diagnostico è un metodo per rilevare la presenza di una certa condizione di in-
teresse. Test diagnostici si possono eettuare nei pi` u disparati contesti. Ad esempio,
unantenna radar esplora i cieli per rilevare la presenza o lassenza di aerei amici o nemici.
Il principio di funzionamento del radar è quello della riessione delle onde elettromag-
netiche ed è soggetto a numerose fonti di rumore e quindi di errore. Riessioni multiple,
presenza di stormi di uccelli o di astronavi aliene, condizioni meteo, queste ed altre ragioni
comportano che la rilevazione radar non è mai completamente adabile. Oppure si pensi
ad un test di gravidanza. Un kit acquistato in farmacia per pochi euro fornisce un risultato
36
che è soggetto a varie fonti derrore legate alla variazione dei livelli ormonali normali in
donne diverse.
Diciamo T
+
e T
gli eventi il test dà risultato positivo, il test dà risultato negativo
rispettivamente. Analogamente diciamo D
+
e D
gli eventi la condizione è presente e

la condizione è assente (si suppone che esistano metodi certi per rilevare il vericarsi di
D
+
o D
, ad esempio ci si può accertare visualmente della presenza o meno di un aereo

in una no-y zone con un volo di ricognizione, il ginecologo eettua accurati esami di
laboratorio per accertare la gravidanza della sua paziente ecc.) Per un test ideale si deve
avere P(T
+
[D
+
) = 1 e P(T
[D
) = 1, ma nel mondo reale i test diagnostici non sono

perfetti. In generale il test è caratterizzato da due probabilità condizionate:
P(T
+
[D
+
) = a < 1 specicità
P(T
[D
) = b < 1 sensibilità
In gergo le probabilità di errore vengono dette: P(T
[D
+
) = 1 a probabilità di falso
negativo (miss) e P(T
+
[D
) = 1 b probabilità di falso positivo (false alarm).

Nota bene. P(T
[D
+
) = 1 a ed analogamente P(T
+
[D
) = 1 b poiche la probabilità
condizionata è una misura di probabilità, quando levento condizionante è ssato. Inoltre
T
+
e T
sono eventi complementari, quindi P(T
[D
+
) = 1 P(T
+
[D
+
) = 1 a ecc.
Esempio di uso della formula di Bayes
(disclaimer: i dati numerici di questo esempio sono di pura fantasia, al solo scopo di
mostrare lutilità della formula di Bayes, fate voi il googling se vi interessano i dati reali)
Si supponga di disporre di un test di sieropositività per il virus HIV con le seguenti carat-
teristiche fornite dal produttore (lazienda produttrice determina le probabilità empiriche,
eettuando un trial clinico, come visto allinizio della lezione)
a = 0.99, b = 0.98.
Dalle statistiche ISTAT, un individuo preso a caso dalla popolazione generale ha proba-
bilità di essere sieropositivo P(D
+
) = 0.0002. In realtà la tabella dellISTAT riporta il dato
empirico, e tipicamente dirà 2 persone su 10,000 sono sieropositive, ma nellinterpretazione
frequentista della probabilità questo equivale a P(D
+
) = 0.0002.
Supponete di sottoporvi al test e che il risultato sia T
+
. La domanda è: dovete andare
in panico o no? Questo è esattamente il caso in cui le probabilità dinteresse sono le
probabilità a posteriori. Prima di fare il test voi siete un individuo della popolazione
generale ed avete probabilità P(D
+
) = 0.0002 di essere sieropositivo. Dopo aver eet-
tuato il test, che ha dato esito T
+
, voi avete una nuova informazione, e siete interessati
a ricalcolare la vostra probabilità di essere sieropositivo tenendo in considerazione questa
nuova informazione. Volete cioè calcolare la probabilità condizionata P(D
+
[T
+
). Questa
è esattamente la domanda a cui la formula di Bayes dà la risposta.
P(D
+
[T
+
) =
P(T
+
[D
+
)P(D
+
)
P(T
+
[D
+
)P(D
+
) +P(T
+
[D
)P(D
)
fatti i conti troverete che P(D
+
[T
+
) 0.01. Non è il caso di allarmarsi troppo: anche
se la vostra probabilità è aumentata di circa 50 volte rispetto alla popolazione generale è
comunque ancora troppo bassa per giusticare una reazione di panico. Come mai si verica
questo apparentemente strano fenomeno? Tutto dipende dal fatto che la condizione che si
vuole rilevare ha probabilità molto bassa, P(D
+
) = 0.0002. In questa situazione un test
con a = 0.99 e b = 0.98, che sono specicità e sensibilità vicine a 1, non è sucientemente
adabile. Se fosse a = 0.9999 e b = 0.9999 la P(D
+
[T
+
) sarebbe molto pi` u alta (non ho
fatto il conto - provate voi).
37
7.1 Eventi indipendenti
Nel denire la probabilità condizionata avevamo osservato che, in generale, P(E[F) può
essere maggiore uguale o minore di P(E). Il caso di uguaglianza è particolarmente
importante in teoria della probabilità e la lezione è ad esso dedicata.
Denizione. Gli eventi E, F T si dicono indipendenti se
P(E F) = P(E)P(F),
nel qual caso scriveremo E F.
Osservazioni ed esempi
(a.) La denizione di indipendenza è simmetrica in E ed F quindi non ha senso dire che E
è indipendente da F o che F è indipendente da E. Poiche lindipendenza è una proprietà
della coppia non ordinata di eventi E, F, idealmente si dovrebbe dire che linsieme E, F
è/non è indipendente.
(b.) E F è una nozione probabilistica in quanto coinvolge E, F e la misura P. Non
confondete questa nozione con quella di eventi mutuamente esclusivi, E F = , che è
puramente insiemistica e che nulla ha a che vedere con la misura P. Le seguenti banali
proposizioni mettono in parziale relazione le due nozioni.
(i.) Se E F allora E F = P(E) = 0 o P(F) = 0.
(ii.) Se P(E F) = 0 allora E F P(E) = 0 o P(F) = 0.
Ad esempio, come conseguenza della (ii.), due eventi incompatibili, ed entrambi di prob-
abilità strettamente positiva, non possono essere indipendenti (convincetevene!).
Esempio 1. Lancio contemporaneamente una moneta ed un dado. Sullo spazio campi-
onario naturale = (T, 1), . . . (T, 6), (C, 1) . . . (C, 6) consideriamo la misura equiproba-
bile P() =
1
12
, per ogni esito elementare . Gli eventi E =esce Testa sulla mone-
ta ed F =esce 4 sul dado sono indipendenti. Infatti P(E) = P((T, 1) . . . (T, 6)) =
1
2
,
e P(F) = P((T, 4), (C, 4)) =
1
6
ed inne P(E F) = P((T, 4)) =
1
12
.
Esempio 2. Urna di Polya con b Bianche ed r Rosse, c = 1 ovvero estrazioni senza
reinserimento da unurna. Indichiamo con e
i
= R levento la i-esima pallina estratta è
rossa. Allora P(e
1
= R, e
2
= R) =
r1
b+r1
r
b+r
, mentre P(e
1
= R) = P(e
2
= R) =
r
b+r
,
quindi P(e
1
= R, e
2
= R) ,= P(e
1
= R)P(e
2
= R): gli eventi e
1
= R ed e
2
= R non
sono indipendenti.
Esempio 3. Urna di Polya con b Bianche ed r Rosse, c = 0 ovvero estrazioni con reinser-
imento. In questo caso P(e
1
= R, e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) =
_
r
b+r
_
2
=
P(e
1
= R)P(e
2
= R): gli eventi e
1
= R ed e
2
= R sono indipendenti.
Esempio 4. Si consideri il lancio di due dadi e gli eventi E=la prima faccia è 4 ed F=la
somma dei punti è 7. Gli eventi E e F sono indipendenti. Si osservi che invece gli
eventi E e G=la somma dei punti è 9 non sono indipendenti. Banale, vedi comunque
gli appunti. Morale: bisogna stare molto attenti. Gli eventi F e G sembrano della stessa
natura, ma mentre la coppia E, F è indipendente, la coppia E, G non lo è.
38
Esempio 5. A lezione avevo accennato allo spazio di probabilità con = [0, 1] [0, 1], T
la -algebra generata dagli insiemi aperti, e P misura di probabilità che ad ogni evento
E T associa P(E) = area(E). In questo spazio ogni coppia di eventi E, F della forma
E = [a, b][0, 1] e F = [0, 1][c, d] sono indipendenti. Infatti P(EF) = P([a, b][c, d]) =
(b a)(d c), mentre P(E) = P([a, b] [0, 1]) = b a e P(F) = P([0, 1] [b, c]) = d c.
Conseguenze elementari dellindipendenza
(a.) Gli eventi , F e , F sono indipendenti qualunque sia levento F. La di-
mostrazione è banale.
(b.) Se E E allora P(E) = [P(E)]
2
, ovvero P(E) = 0 oppure P(E) = 1. Banale.
(c.) Lemma 1. Se P(E) > 0, e P(F) > 0, le seguenti aermazioni sono equivalenti
(i.) E F, (ii.) P(E[F) = P(E), (iii.) P(F[E) = P(F).
Dimostrazione.
(i.) (ii.). P(E[F) =
P(EF)
P(F)
=
P(E)P(F)
P(F)
= P(E).
(ii.) (iii.). P(F[E) =
P(EF)
P(E)
=
P(E[F)P(F)
P(E)
=
P(E)P(F)
P(E)
= P(F).
(iii.) (i.). P(E F) = P(F[E)P(E) = P(F)P(E).
Il lemma evidenzia che il caso particolare P(E[F) = P(E) nella denizione di probabilità
condizionata corrisponde esattamente ad eventi E, F indipendenti.
(d.) Lemma 2. Le seguenti aermazioni sono equivalenti
(i.) E F, (ii.) E
c
F, (iii.) E F
c
, (iv.) E
c
F
c
.
Dimostrazione. Utilizziamo la denizione originale di indipendenza che non richiede ipotesi
di stretta positività sulle probabilità degli eventi.
(i.) (ii.).
P(E
c
F) = P(F) P(E F)
= P(F) P(E)P(F) = P(F)(1 P(E))
= P(F)P(E
c
).
(ii.) (iii.). Dalle due decomposizioni disgiunte dellunione
E F = E (E
c
F) = F (F
c
E)
si ricava la relazione P(E) +P(E
c
F) = P(F) +P(F
c
E) quindi
P(E F
c
) = P(E) +P(E
c
F) P(F)
= P(E) +P(E
c
)P(F) P(F) = P(E) + (1 P(E))P(F) P(F)
= P(E) P(E)P(F) = P(E)P(F
c
)
(iii.) (iv.).
P(E
c
F
c
) = 1 P(E F) = 1
_
P(F) +P(F
c
E)
_
= 1 P(F) +P(F
c
)P(E) = 1 P(F) + (1 P(F))P(E) =
= (1 P(F))(1 P(E) = P(E
c
)P(F
c
)
(iv.) (i.). Esercizio.
39
Interpretazione empirica dellindipendenza di due eventi.
Vericare lindipendenza di due eventi, sotto una data misura P, è spesso un problema di
interesse pratico. Come si può, in pratica, valutare se E F? Una prima, rozza, risposta
si può dare valutando le probabilità empiriche. Ricordando la denizione della misura
empirica P
n
, e per il Lemma 1, la relazione di indipendenza E F rispetto alla misura
P
n
equivale a
P
n
(E[F) = P
n
(E) ovvero
n
EF
n
=
n
E
n
n
F
n
Facendo riferimento allesempio del trial clinico, nella sezione 6.1, la condizione di indipen-
denza per la misura empirica equivale alla condizione di determinante nullo della matrice
di contingenza 2 2.
Rimangono molti punti da approfondire. (a.) Come si collega lindipendenza rispetto alla
P
n
con lindipendenza rispetto alla P? Sperabilmente quando n è grande P
n
è vicino a P
e quindi anche le relazioni di indipendenza si manterranno, ma questo è da approfondire.
(b.) Nella pratica la relazione
n
EF
n
=
n
E
n
n
F
n
è soddisfatta solo approssimativamente.
Entro che tolleranza è ragionevole dichiarare che E F? (c.) Non sempre è possibile
usare unimpostazione frequentista. Pensate ad esempio agli eventi E =domani cadrà
un meteorite su Mosca ed F =domani pioverà a Milano di un ipotetico spazio proba-
bilistico che modella eventi celesti.
`
E molto comune, specialmente tra sici ed ingegneri,
considerare E F se non esiste unevidente relazione di causa/eetto tra i due eventi. In
realtà esiste unestesa letteratura dai pi` u disparati campi, losoco, logico, matematico,
informatico e statistico, dedicata a chiarire la relazione causa/eetto ed il legame con la
relazione dindipendenza stocastica. Non ci occuperemo di questi argomenti.
7.2 Indipendenza per famiglie di eventi
Denizione. La famiglia di tre eventi E
1
, E
2
, E
3
è indipendente se le seguenti due
condizioni sono entrambe soddisfatte:
(i.) E
i
E
j
per ogni i ,= j, (ii.) P(E
1
E
2
E
3
) = P(E
1
)P(E
2
)P(E
3
).
Discussione
`
E facile costruire esempi di terne di eventi E
1
, E
2
, E
3
per cui vale la condizione (i.), ma
non la condizione (ii.) o viceversa.
Esempio 1 (dado tetraedrale di Bernstein). Il dado ha quattro facce equiprobabili: b bianca,
r rossa, v verde, e t tricolore (bianca rossa e verde). Si lancia il dado e si considera come
faccia uscita quella su cui esso cade. Sia B levento B =esce una faccia che contiene il
colore bianco=b, t, e analogamente sono deniti gli eventi R e V .
Fatto. Gli eventi B, R e V sono indipendenti a coppie, ma non sono indipendenti.
Dimostrazione. Cominiciamo con il dimostrare che B R:
P(B R) = P(t) =
1
4
= P(B)P(R) =
2
4

2
4
.
Analogamente si dimostra che B V e R V . Peraltro:
P(B R V ) = P(t) =
1
4
,= P(B)P(R)P(V ) =
_
1
2
_
3
Esempio 2. Si lancia due volte un dado a sei facce. Sia A = 1, 2, 3 al primo lancio,
B = 3, 4, 5 al primo lancio, C = somma dei due lanci è 9. Allora P(A B C) =
P(A)P(B)P(C), mentre A, B, C non sono indipendenti a coppie.
40
Gli esempi 1 e 2 dimostrano che le condizioni (i.), e (ii.) nella denizione di indipendenza
per una terna di eventi sono logicamente indipendenti. Il motivo per cui è importante
imporle entrambe è che solo in questo caso vale, per la terna di eventi, un risultato simile
al Lemma 2, ovvero se E
1
, E
2
, E
3
sono indipendenti allora anche le terne che si ottengono
sostituendo ad uno, a due, o a tutti e tre gli eventi i loro complementari, sono a loro volta
indipendenti.
Lemma 3. Le seguenti terne o sono tutte indipendenti o non lo è nessuna
E
1
, E
2
, E
3
, E
1
, E
2
, E
c
3
,E
1
, E
c
2
, E
3
, E
1
, E
c
2
, E
c
3
,
E
c
1
, E
2
, E
3
, E
c
1
, E
2
, E
c
3
,E
c
1
, E
c
2
, E
3
, E
c
1
, E
c
2
, E
c
3
.
Osservazione. Nonostante le formulazione lievemente diversa il Lemma 3 ha la stessa
struttura logica del Lemma 2, aermando lequivalenza dellindipendenza per le otto terne.
Dimostrazione. Per simmetria è suciente dimostrare che se la prima terna è indipen-
dente allora tutte le altre lo sono. Per oguna delle sette terne bisogna vericare che
valgono le condizioni (i.) e (ii.) della denizione dindipendenza per tre eventi. La (i.)
discende immediatamente dallipotesi che E
1
, E
2
, E
3
è una terna indipendente e dal
Lemma 2. Verichiamo la condizione (ii.). Se la terna in considerazione ha un solo evento
complementato, ad esempio se la terna è E
1
, E
2
, E
c
3
, allora si ha
P(E
1
E
2
E
c
3
) = P(E
1
E
2
) P(E
1
E
2
E
3
)
= P(E
1
)P(E
2
) P(E
1
)P(E
2
)P(E
3
)
= P(E
1
)P(E
2
)P(E
c
3
)
Si noti che è stato necessario utilizzare sia la condizione (i.) che la condizione (ii.)
per la verica! Per simmetria lo stesso vale per dimostrare lindipendenza delle terne
E
1
, E
c
2
, E
3
, E
c
1
, E
2
, E
3
. Se la terna ha due eventi complementati, ad esempio la terna
E
1
, E
c
2
, E
c
3
, avremo
P(E
1
E
c
2
E
c
3
) = P(E
1
) P(E
1
(E
c
2
E
c
3
)
c
)
= P(E
1
) P(E
1
(E
2
E
3
))
= P(E
1
)
_
P(E
1
E
2
) +P(E
1
E
3
) P(E
1
E
2
E
3
)
_
= P(E
1
)
_
1 P(E
2
) P(E
3
) +P(E
2
E
3
)
_
= P(E
1
)P((E
2
E
3
)
c
)
= P(E
1
)P(E
c
2
)P(E
c
3
)
Lo stesso ragionamento si applica a tutte le terne con due eventi complementati. Analoga-
mente (esercizio) si ragiona per lunica terna con tutti gli eventi complementati E
c
1
, E
c
2
, E
c
3
.
Esercizio proposto. Se E
1
, E
2
, E
3
sono indipendenti allora E
1
E
2
E
3
.
Estensione alle famiglie nite e numerabili.
Denizione. La famiglia di n eventi E
1
, E
2
, . . . E
n
è indipendente se per ogni r, con 2
r n, scelti r eventi distinti qualunque della famiglia la probabilità della loro intersezione
è pari al prodotto delle probabilità dei singoli eventi scelti.
Si osservi che questa versione compatta della condizione di indipendenza riassume en-
trambe le condizioni (1) e (2) imposte nel caso di una terna. La nozione di famiglia
indipendente di eventi si può estendere alle famiglie numerabili.
Denizione. La famiglia numerabile di eventi E
1
, E
2
, . . . è indipendente se ogni sua
sottofamiglia nita è indipendente.
41
7.3 Applicazioni dellindipendenza I semplicazione di calcoli probabilistici
Lindipendenza di certi eventi semplica molti calcoli probabilistici e, in alcuni casi, rende
possibili calcoli altrimenti impossibili.
Esempio 1. P(E) = 0.2, P(F) = 0.3, calcolare P(E F). Questo calcolo è impossibile.
Si può in eetti scrivere P(E F) = P(E) + P(F) P(E F), ma non conoscendo
P(E F) il calcolo è impossibile da eseguire. Peraltro, se E F allora P(E F) =
P(E) +P(F) P(E)P(F) = 0.2 + 0.3 0.2 0.3.
Esercizio 2. (freccette). Siano a, b e c tre giocatori di freccette. Indichiamo rispettivamente
con A, B e C gli eventi a, b, c fa centro. Sia P(A) =
1
2
, P(B) =
1
4
e P(C) =
1
5
. Si supponga
che gli eventi A, B e C sono indipendenti.
Calcolare la probabilità dellevento E =uno solo dei giocatori fa centro.
Si scrive la decomposizione disgiunta
E =
_
A (B C)
_
_
_
B (C A)
_
_
_
C (A B)
_
Il primo addendo è
P(A (B C)) = P(A B
c
C
c
) = P(A)P(B
c
)P(C
c
) =
1
2

1
4

1
5
ecc. (Individuare tutte le applicazioni dei Lemmi.)
Calcolare anche P(A[E).
42
8.1 Applicazioni dellindipendenza II costruzione di misure di probabilità
Finora abbiamo usato la nozione dindipendenza in modo analitico, in accordo con uno o
laltro dei seguenti schemi.
Dati gli eventi E ed F di uno spazio di probabilità governato dalla misura P,
determinare se E e F sono/non sono indipendenti.
Noto che sotto la misura P gli eventi E e F sono indipendenti, calcolare la probabilità
di altri eventi deniti a partire da E ed F.
La nozione di indipendenza si può anche utilizzare, e molto procuamente, in modo sin-
tetico, ovvero per costruire misure di probabilità. A titolo illustrativo presentiamo qui un
caso semplice, ma non banale, e di fondamentale importanza applicativa: la costruzione
di misure non equiprobabili sullo spazio degli esiti di n lanci di una moneta.
Motivazione: reinterpretazione della misura equiprobabile
Si consideri lesperimento che consiste nel lanciare n volte una moneta, i cui esiti sono
:=
_
(b
1
, b
2
, . . . , b
n
), b
i
T, C, i = 1, . . . n
_
La cardinalità [[ = 2
n
e quindi, per ogni , la misura equiprobabile (detta anche
uniforme) e qui denotata P
u
, assegna P
u
() =
1
2
n
. Denotando con il simbolo [e
k
= T]
levento esce Testa al k-esimo lancio, si ha
[e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
k
= T, b
i
T, C, i 1, . . . n k
_
e quindi la cardinalità dellevento (il numero di esiti che vi appartengono) è [[e
k
=
T][ = 2
n1
, quindi
P
u
([e
k
= T]) =
[[e
k
= T][
[[
=
2
n1
2
n
=
1
2
, k = 1, 2 . . . n (1)
Si osservi che, poiche [e
k
= T]
c
= [e
k
= C] risulta parimenti P([e
k
= C]) =
1
2
.
Si consideri ora la coppia di eventi [e
h
= T] e [e
k
= T] con h ,= k. Poiche
[e
h
= T] [e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
h
= b
k
= T, b
i
T, C, i 1, . . . n h, k
_
la cardinalità dellintersezione è [[e
h
= T] [e
k
= T][ = 2
n2
e quindi la probabilità vale
P
u
([e
h
= T] [e
k
= T]) =
2
n2
2
n
=
1
2
2
Analogamente si trova che, per ogni r 1, . . . n e per ogni r-pla k
1
, k
2
, . . . k
r
, con
k
i
1, 2, . . . n e distinti,
P
u
_
r
i=1
[e
k
i
= T]
_
=
2
nr
2
n
=
1
2
r
(2)
Poiche valgono le due identità (1) e (2) si conclude che, sotto la misura equiprobabile P
u
,
gli eventi della famiglia [e
k
= t], k = 1, . . . n sono equiprobabili, di probabilità
1
2
, ed
indipendenti.
Passiamo ora dallanalisi della misura P
u
alla costruzione di una nuova misura di proba-
bilità P su in accordo con le seguenti prescrizioni.
43
Ricetta per la costruzione di P
assegna P([e
k
= T]) :=
1
2
, per ogni k = 1, 2, . . . n;
imponi lindipendenza degli eventi [e
k
= T], k = 1, . . . n.
Per vericare che la ricetta produce una misura di probabilità P compatibile con gli assiomi
è suciente calcolare le probabilit` a di tutti gli esiti e vericare che esse sommano
a 1. Per lesito generico = (b
1
, b
2
, . . . b
n
) si ha che
=
n
k=1
[e
k
= b
k
]
e seguendo la ricetta dovrà essere
P() = P
_
n
k=1
[e
k
= b
k
]
_
=
n
k=1
P([e
k
= b
k
]) =
1
2
n
= P
u
().
Poiche P() = P
u
() per ogni , le due misure coincidono. Ciò rende ovvia
la consistenza di P, ma soprattutto consente di reinterpretare P
u
come misura prodotta
dalla ricetta.
Costruzione di misure non equiprobabili sullo spazio di n lanci di una moneta.
Lanalisi appena conclusa fornisce il razionale per la costruzione di una misura non equiprob-
abile sullo spazio degli esiti di n lanci di una moneta. Allo scopo deniamo la seguente
Ricetta generalizzata per la costruzione di P
assegna P([e
k
= T]) := p [0, 1], per ogni k = 1, 2, . . . n (e quindi automaticamente
P([e
k
= C]) = 1 p);
imponi lindipendenza degli eventi [e
k
= T], k = 1, . . . n.
Rispetto alla ricetta precedente è stato introdotto il parametro p [0, 1], che intuitiva-
mente rappresenta la probabilità di Testa della moneta, costante negli n lanci. Il caso
p =
1
2
corrisponde alla misura equiprobabile P
u
. Se p ,=
1
2
la misura generata dalla ricetta
generalizzata non è equiprobabile. Per caratterizzare completamente P è suciente cal-
colarla sugli esiti. Se = (b
1
, b
2
. . . , b
n
) sia n
T
il numero di Teste tra gli n esiti di , ed
n
C
il numero di Croci, con n
T
+n
C
= n. Seguendo la ricetta generalizzata sarà
P() = P
_
n
k=1
[e
k
= b
k
]
_
=
n
k1
P([e
k
= b
k
]) = p
n
T
(1 p)
nn
T
. (3)
`
E evidente che questa misura non è equiprobabile, ma si noti che gli esiti con lo stesso
numero di Teste n
T
sono equiprobabili. In particolare, detto E
k
levento k Teste negli n
lanci, gli eventi E
k
n
k=0
formano una partizione di e, poiche tutti gli esiti in E
k
hanno
la medesima probabilità (3) con n
T
= k,
P(E
k
) = [E
k
[ p
k
(1 p)
nk
=
_
n
k
_
p
k
(1 p)
nk
Microesercizio. Dimostrare algebricamente che
n
k=0
P(E
k
) = 1 e spiegare perche vale
questidentità.
44
8.2 Il modello binomiale per eventi
Il paradigma degli n lanci di una moneta può essere applicato in molti casi dinteresse
pratico. Il modello probabilistico corrispondente viene a volte detto modello binomiale per
eventi.
Ogni volta che un contesto sperimentale prevede:
(i.) un certo numero n 1 prove identiche eettuate in sequenza,
(ii.) che i possibili esiti di ogni prova sono due,
(a seconda del contesto sono detti 1, 0, T, C, successo, insuccesso , funziona,
non funziona, ecc.) e per comodità noi adotteremo la rappresentazione 1, 0;
(iii.) che per ogni k = 1, . . . n, il risultato della k-esima prova non inuenza i risultati di
nessun altra prova,
è possibile denire una misura di probabilità P sullo spazio campionario (, T), i cui esiti
sono le 2
n
sequenze di n risultati delle n prove, assumendo che
(a.) gli eventi [e
k
= 1], successo alla prova k-esima, sono equiprobabili di probabilità
p [0, 1],
(b.) gli eventi [e
k
= 1]
n
k=1
sono indipendenti.
Esempio. Un ISP (Internet Service Provider) dispone di 20 linee di accesso e vende 24
abbonamenti ADSL ad altrettanti utenti.
`
E noto che (o si assume che) (a) la probabilità
che, in un dato istante, lutente iesimo sia collegato è p = 0.8 per ogni i = 1, 2, . . . 24,
(b) le connessioni degli utenti sono indipendenti. Calcolare la probabilità che lISP vada
in saturazione. Calcoli di questo tipo sono usati per decidere quanti abbonamenti vendere.
Per i voli aerei cè la pratica commerciale delloverbooking, che richiede gli stessi calcoli.
Qui si può applicare il modello binomiale per eventi. Le identicazioni sono le seguenti:
(a) Le n = 24 prove ripetute sono: testare lo stato di connessione dei 24 abbonati
(b) Gli esiti di ogni prova sono due connesso, non connesso
(c) p = 0.8
Levento ISP in saturazione si verica se 21, 22, 23 o 24 degli abbonati sono connessi
contemporaneamente, quindi
P(ISP in saturazione) =
24
k=21
_
24
k
_
0.8
k
0.2
24k
Il problema delloverbooking è il seguente. Lucio vendite dellISP propone contratti ai
clienti garantendo che, con probabilità almeno 0.95, egli sarà in grado di connettersi alla
rete in ogni dato momento. Come si calcola il numero di abbonamenti che è possibile
vendere rispettando limpegno contrattuale con il cliente?
La soluzione del problema (che richiede un calcolatore e due righe di programma per essere
calcolata) è il massimo valore di M tale che
M
k=21
_
M
k
_
0.8
k
0.2
Mk
0.05.
45
8.3 Applicazioni dellindipendenza III analisi di adabilità
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
Il grafo rappresenta una piccola rete di calcolatori. I nodi sono i calcolatori, gli archi le
connessioni siche tra calcolatori. Ogni arco ha due etichette: il nome e la probabilità di
funzionamento della connessione. Potete pensare che le probabilità siano state ricavate
come percentuale del tempo in cui la connessione sica ha funzionato nellultimo mese o
anno. Ci interessa calcolare la probabilità dellevento E =esiste una connessione tra A e
B. Per eettuare questo calcolo è necessario costruire una misura di probabilità sul grafo.
Per farlo utilizzeremo ancora una volta unipotesi di indipendenza tra certi eventi. Con
modesto abuso di notazione denotiamo l
i
=la connessione i funziona per i = 1, 2 . . . 7.
Lipotesi fondamentale è che la famiglia di eventi l
i
, i = 1, . . . 7 sia indipendente.
`
E
evidente dalla topologia del grafo che levento E si può scrivere come
E =
_
l
1
[(l
4
l
5
) (l
6
l
7
)]
_
[l
2
l
3
]
Avendo assunto lindipendenza di l
i
, i = 1, . . . 7 la probabilità di E è certamente cal-
colabile, infatti E può essere riscritto utilizzando solo intersezioni e complementazioni di
eventi l
i
. Questa via è scomoda e non illuminante. Si può invece eettuare il calcolo
riducendosi allanalisi di due casi elementari.
Connessione in serie. Si consideri il grafo
C
1
C
2
C
3
l
1
p
1
l
2
p
2
Sia E
s
=esiste una connessione tra C
1
e C
3
. Chiaramente E
s
= l
1
l
2
, quindi
P(E
s
) = p
1
p
2
Connessione in parallelo. Si consideri il grafo
C
1
C
2
p
2
l
2
l
1
p
1
46
Sia E
p
=esiste una connessione tra C
1
e C
2
. Chiaramente E
p
= l
1
l
2
, la connessione
esiste se almeno una delle due connessioni esiste, quindi
P(E
p
) = P(l
1
l
2
) = 1 P((l
1
l
2
)
c
) = 1 P(l
c
1
l
c
2
) = 1 (1 p
1
)(1 p
2
)
Osservazione. La connessione in serie degrada ladabilità del collegamento poiche p
1
p
2

minp
1
, p
2
, mentre la connessione in parallelo migliora ladabilità del collegamento
poiche 1 (1 p
1
)(1 p
2
) maxp
1
, p
2
(dimostratelo!). Con questo principio si può
costruire una connessione ad alta adabilità mettendo in parallelo un numero suciente
di connessioni scadenti. Esercizio. Se metto in parallelo n canali di adabilità p laf-
dabilità della connessione è 1 (1 p)
n
che, scegliendo n sucientemente grande, può
essere portato tanto vicino ad 1 quanto si vuole.
Calcolo delladabilità della rete di calcolatori. Per il calcolo di P(E) analizziamo separata-
mente le sottoreti. La serie (l
4
, l
5
) ha adabilità 0.8 0.9 = 0.72 , la serie (l
6
, l
7
) adabilità
0.7 0.3 = 0.21. Il parallelo di queste due ha adabilità 1 (1 0.72)(1 0.21) 0.78
e mettendo in serie il collegamento l
1
ladabilità diventa 0.9 0.78 = 0.7: questa è laf-
dabilità della sottorete (l
1
, l
4
, l
5
, l
6
, l
7
). La sottorete (l
2
, l
3
) è una serie di adabilità
0.75 0.95 = 0.7125. La rete complessiva è il parallelo delle sottoreti (l
1
, l
4
, l
5
, l
6
, l
7
) e
(l
2
, l
3
), quindi ricaviamo che P(E) = 1 (1 0.7)(1 0.7125) = 0.91.
8.4 Estensioni
Formula della probabilità totale condizionata.
La formula in questione è
P(E[G) = P(E[F G)P(F[G) +P(E[F
c
G)P(F
c
[G),
dimostratela a partire dalla denizione di probabilità condizionata. Osservate che la
formula della probabilità totale usuale corrisponde al caso G = .
Esercizio. (Charles Dodgson, alias Lewis Carroll) Nel cilindro di un mago cè un coniglio
di colore non noto, ma equiprobabilmente Bianco o Nero. Inserisco un coniglio Bianco
nel cilindro, mescolo bene, ed estraggo a caso uno dei due conigli. Il coniglio estratto è
Bianco. Tenendo conto del risultato dellestrazione, qual è la probabilità che il coniglio
rimasto nel cilindro sia Bianco? Carroll scrive due soluzioni, la prima volutamente errata,
ma convincente, che fornisce soluzione
1
2
, la seconda corretta che fornisce
2
3
(conviene
usare la formula della probabilità totale condizionata).
Prima soluzione. Ho inserito un coniglio bianco ed ho estratto un coniglio bianco, quindi lo
stato allinterno del cilindro non si è modicato rispetto alla situazione iniziale. La proba-
bilità che nellurna sia rimasto un coniglio bianco è uguale alla probabilità che inizialmente
il coniglio fosse bianco ovvero
1
2
. Dovè lerrore? Qual è la soluzione corretta?
Esercizio. (versione generalizzata del precedente) Unurna contiene n palline, in parte
Bianche ed in parte Nere. Non sappiamo quante sono le Bianche, ma tutte le possibilità
(Bianche, Nere) = (0, n), (1, n 1), ..., (n, 0)
sono equiprobabili. Inseriamo una pallina Bianca nellurna, mescoliamo bene, ed estra-
iamo a caso una pallina che risulta essere Bianca. Qual è, tenendo conto dellinfor-
mazione ottenuta dallestrazione, la probabilità che tutte le palline nellurna siano Bianche?
(soluzione
2
n+2
).
47
Indipendenza condizionata e applicazioni
(in preparazione argomento non in programma nella.a. 2012-2013)
48
9.1 Variabili aleatorie discrete
Spesso interessa estrarre, e sintetizzare in forma quantitativa, informazioni contenute negli
esiti elementari dello spazio campionario .
Esempio 1. Sia lo spazio che rappresenta le risposte fornite dagli studenti di Ingegneria
dellInformazione a un questionario. Sia = ( nome, cognome, età, anno di corso, numero
di esami superati . . . ). Per una certa indagine anagraca interessa letà degli studenti.
In questo caso, per estrarre da linformazione dinteresse, si associa ad ogni il
numero E() :=terza coordinata di .
Esempio 2. Consideriamo lo spazio che rappresenta gli esiti di n lanci di un moneta. Per
comodità rappresentiamo gli esiti Croce e Testa con i bit 0 e 1 rispettivamente, quindi
= (b
1
, . . . b
n
), b
i
0, 1
Ogni esito contiene molte informazioni quantitative. Ad esempio, nella lezione
8 avevamo denito n
T
= n
T
() il numero di Teste nella sequenza . In questo caso
linformazione n
T
() la si può estrarre associando ad ogni = (b
1
, b
2
, . . . b
n
) il numero
n
T
() =
n
k=1
b
k
. Dagli si possono estrarre altre informazioni quantitative, ad
esempio (a.) qual è il bit relativo al k-esimo lancio per k = 1, . . . n? (b.) Qual è il numero
di Teste nei primi
n
2
lanci? (c.) Qual è la dierenza tra il numero di Teste e di Croci negli
n lanci? ecc.
`
E evidente che estrarre informazione quantitativa da corrisponde a denire una
funzione di a valori in R, ed è proprio questidea che formalizziamo nella seguente
denizione.
Denizione. Sia (, P(), P) uno spazio di probabilità discreto. Ogni mappa
X : R,
è detta variabile aleatoria (v.a.) discreta su .
R
X
X()
Terminologia. Limmagine di X, ovvero il sottoinsieme del codominio R costituito dai

valori assunti da X, in simboli
A := X() = x R[ X() = x per qualche ,
49
viene talora detto alfabeto della v.a. X. Poiche è discreto per ipotesi, ed X è una
funzione, anche A è discreto, essendo in generale [A[ = [X()[ [[.
Si noti che, senza perdita di generalità, si può sempre restringere il codominio di X da R ad
A R, in tal modo rendendo la v.a. X : A sempre suriettiva, ossia con codominio
coincidente con linsieme dei valori. Peraltro le variabili aleatorie iniettive, cioè quelle che
per ogni coppia di esiti
1
,=
2
prendono valori X(
1
) ,= X(
2
) non sono interessanti,
trattandosi di mappe che si limitano a rietichettare gli elementi di . Ad esempio per
:= C, T, la variabile aleatoria X : 0, 1 denita come X(C) = 0, X(T) = 1 è
iniettiva e semplicemente ribattezza gli esiti C 0 e T 1.
Esempi di variabili aleatorie
Esempio 1. Sia := (d
1
, d
2
) [ 1 d
1
, d
2
6 , lo spazio campionario degli esiti del lancio
di due dadi distinti, uno Rosso ed uno Verde. Per ssare le idee, se = (d
1
, d
2
), allora d
1
è la faccia uscita sul dado Rosso e d
2
sul Verde. La mappa
= (d
1
, d
2
) X
1
() = d
1
denisce la variabile aleatoria X
1
, il cui valore indica la faccia uscita sul dado Rosso.
Lalfabeto di X
1
è A
1
= 1, 2, 3, 4, 5, 6. La mappa
= (d
1
, d
2
) X
2
() = d
2
denisce la variabile aleatoria X
2
, il cui valore indica la faccia uscita sul dado Verde.
Lalfabeto A
2
= A
1
. La mappa
= (d
1
, d
2
) W() = mind
1
, d
2
denisce la variabile aleatoria W, il cui valore indica il minimo tra la faccia Rossa e quella
Verde. Lalfabeto J = A
1
. La mappa
= (d
1
, d
2
) Z() = maxd
1
, d
2
denisce la variabile aleatoria Z, il cui valore indica il massimo tra la faccia Rossa e quella
Verde. Lalfabeto : = A
1
. La mappa
= (d
1
, d
2
) X() = d
1
+d
2
denisce la variabile aleatoria X, il cui valore indica la somma delle facce Rossa e Verde.
Lalfabeto di X è A = 2, 3, 4, . . . , 12.
Esempio 2. Sia = (b
1
, b
2
, . . . b
n
) [ b
i
0, 1 e si considerino le seguenti mappe
= (b
1
, b
2
. . . , b
n
) X
k
() = b
k
, k = 1, 2 . . . n.
Le v.a. X
k
, k = 1, . . . n, hanno alfabeto comune A = 0, 1 e, per ogni k, rappresentano
lesito del k-esimo lancio della moneta.
Le variabili aleatorie sono mappe, si può quindi operare con esse come si opera con
le mappe. Ad esempio tra variabili aleatorie si possono denire le abituali operazioni di
somma, dierenza, prodotto e quoziente tra mappe.
Esempi 1, 2 segue. Con riferimento alle variabili aleatorie denite nellEsempio 1, è
immediato vericare che X = X
1
+ X
2
, inoltre W = minX
1
, X
2
, e Z = maxX
1
, X
2
.
Con riferimento allEsempio 2, sullo stesso è denita la somma
X =
n
k=1
X
k
,
50
che nel punto = (b
1
, . . . , b
n
), vale X() =
n
k=1
X
k
() =
n
k=1
b
k
, ossia il numero di
Teste presenti in .
Osservazione sulla terminologia. Terminologia e notazione probabilistica sono sottosopra
rispetto allanalisi matematica. In teoria della probabilità la mappa
`
detta variabile aleato-
ria e denotata X, mentre in analisi matematica la mappa è detta funzione e denotata
f, mentre la variabile, tradizionamente denotata x, è largomento della funzione. Si noti
inoltre che la mappa X, benche sia detta variabile aleatoria non ha nulla di aleatorio,
associando deterministicamente ad ogni il valore X(). La variabile X è detta
aleatoria in riferimento allincertezzza dei valori X(), incertezza ereditata da quella del-
lesito . Prima di eettuare lesperimento è incerto e questincertezza si trasferisce
ai valori X() di ogni variabile aleatoria X denita su .
Probabilizzare linsieme dei valori A
Lincertezza intrinseca sullesito comporta che i valori X() assunti dalla v.a.
X siano a loro volta incerti. Interessa quindi probabilizzare lo spazio campionario dei
valori assunti da X, ovvero A. Naturalmente su A si possono denire innite misure di
probabilità, ma interessa costruirne una, diciamola P
t
, che sia compatibile con la misura
P denita sul dominio della v.a. X. Poiche A è discreto sarà suciente assegnare P
t
sui singleton di A. Nel caso di alfabeto nito scriviamo
A := x
1
, x
2
, . . . , x
N
,
e quindi si deve assegnare P
t
(x
k
) per ogni k = 1, 2 . . . N. Avremo bisogno di alcuni
risultati preliminari.
Denizione. Per ogni B A, si denisce lantiimmagine di B
X
1
(B) := [ X() B.
La gura qui sotto illustra lantiimmagine di un singleton di A.
R
X
x
X
-1
(x)
Le anti-immagini dei singleton di A formano una partizione di come specicato dal
seguente Lemma, la cui banale dimostrazione si basa sulla denizione di anti-immagine e
sul fatto che X è una mappa.
Lemma. (a.) Se x
h
,= x
k
allora X
1
(x
h
) X
1
(x
k
) = . (b.)
N
k=1
X
1
_
x
k
_
= .
51
Esiste dunque una corrispondenza biunivoca tra gli esiti x
k
A e gli eventi X
1
(x
k
)
(si veda anche la Figura successiva) ed è naturale denire la misura P
t
assegnando
P
t
(x
k
) := P
_
X
1
(x
k
)
_
, k = 1, 2, . . . N.
Notazione. Per levento X
1
(x
k
) useremo indierentemente le notazioni [ X() =
x
k
, [X = x
k
] e anche, pi` u sinteticamente, X = x
k
, specialmente come argomento della
misura di probabilità. Scriveremo quindi indierentemente
P( ; X() = x
k
) = P
_
X
1
(x
k
)
_
= P ([X = x
k
]) = P(X = x
k
).
Lemma. P
t
è una misura di probabilità.
Dimostrazione. Per denizione P
t
(x
k
) 0 per ogni k. Rimane solo da vericare che
la somma
N
k=1
P
t
(x
k
) = 1, ma questa è unimmediata conseguenza del fatto che gli
eventi
_
X
1
(x
i
)
_
N
k=1
formano una partizione di .
La misura P
t
è detta misura indotta su A dalla variabile aleatoria X.
Esempio. Consideriamo la v.a. Z denita nellEsempio 1. La Figura mette in evidenza
tutti gli eventi dinteresse.
1 2 3 4 5 6
6
5
4
3
2
1
1 2 3 4 5 6
Z
Z
Supponendo che su sia stata denita la misura P equiprobabile, la misura P

t
su : =
1, 2, . . . , 6 è (usiamo varie notazioni solo per esercizio)
P
t
(1) = P
_
Z
1
(1)
_
= P(Z = 1) =
1
36
,
P
t
(2) = P
_
Z
1
(2)
_
= P(Z = 2) =
3
36
,
P
t
(3) = P
_
Z
1
(3)
_
= P(Z = 3) =
5
36
,
P
t
(4) = P
_
Z
1
(4)
_
= P(Z = 4) =
7
36
,
P
t
(5) = P
_
Z
1
(5)
_
= P(Z = 5) =
9
36
,
P
t
(6) = P
_
Z
1
(6)
_
= P(Z = 6) =
11
36
.
52
Densità di probabilità discreta
Denizione. Data la v.a. X a valori in A, la sequenza p
X
: A [0, 1],
x
k
p
X
(x
k
) := P(X = x
k
) = P
t
(x
k
),
è detta densità (o funzione di massa di probabilità) della variabile aleatoria X.
Proprietà. Poiche P
t
è una misura di probabilità, la densità di una v.a. discreta X è una
sequenza tale che
(i.) p
X
(x
k
) 0, per ogni x
k
A. (1)
(ii.)
k
p
X
(x
k
) = 1. (2)
Osservazioni critiche sulla densità
Si noti che le informazioni contenute nella densità p
X
sono tutte relative allinsieme dei
valori A della v.a. X. Conoscere (oppure assegnare) la densità p
X
della v.a. X signica
conoscere (oppure assegnare) lalfabeto A, che è il dominio di p
X
, e la misura di probabilità
su A. La densità p
X
non conserva traccia ne dello spazio di probabilità (T, P) su cui X
è denita, ne tantomeno della forma funzionale di X.
5
Data la densità p
X
di una v.a. X, si possono calcolare le probabilità degli eventi nello
spazio dei valori A,
P
t
(B) = P(X B) =
k ; x
k
.
p
X
(x
k
), per ogni B A.
Dal punto di vista delle applicazioni questa è, quasi sempre, la sola informazione dinteresse
sulla v.a. X, mentre la descrizione analitica della mappa X : R è irrilevante. In
virt` u della precedente osservazione è naturale identicare tutte le variabili aleatorie che
hanno la stessa densità. Bisogna però prestare la massima attenzione su questo punto,
per evitare errori grossolani.
Esempio 3 (v.a. diverse con la medesima densità). Si consideri il modello binomiale della
Lezione 8, con n = 2 e parametro p [0, 1]. Allora
= 00, 01, 10, 11,
e P(00) = (1 p)
2
, P(01) = P(10) = p(1 p), P(11) = p
2
. Si considerino le
due variabili aleatorie X
1
e X
2
, denite su come nellEsempio 1, e che rappresentano
rispettivamente il risultato del primo e del secondo lancio. Le v.a. X
1
e X
2
hanno lo stesso
alfabeto, A = A
1
= A
2
= 0, 1. La densità di X
1
è
p
X
1
(1) = P
_
X
1
1
(1)
_
= P(10, 11) = p(1 p) +p
2
= p,
e poiche gli elementi della densità sommano ad 1
p
X
1
(0) = 1 p.
5
Al proposito è interessante osservare che le proprietà (1) e (2) caratterizzano le densit` a di probabilit` a,
come dimostrato dal seguente Lemma.
Lemma. Assegnato un insieme nito . ed una sequenza p() : . [0, 1] tale che la mappa x p(x)
soddisfa le propriet` a (1) e (2) esiste una variabile aleatoria X la cui densit` a p
X
() = p().
Dimostrazione. Basta prendere (, T, P) = (., P(T), P
) dove P
(|x) := p(x) per ogni x . e come

variabile aleatoria la mappa identit` a X : . . che associa x X(x) = x.
53
Analogamente, per p
X
2
(), troviamo
p
X
2
(1) = P
_
X
1
2
(1)
_
= P(01, 11) = p(1 p) +p
2
= p, p
X
2
(0) = 1 p.
Concludiamo che le v.a. X
1
e X
2
hanno la stessa densità, p
X
1
() = p
X
2
(), quindi dal
punto di vista probabilistico le due v.a. X
1
ed X
2
si possono considerare equivalenti. Ciò
non signica però che, in virt` u dellequivalenza probabilistica, si possa scrivere
X
1
+X
2
= 2X
1
, STRAFALCIONE
Commette questo grossolano errore chi non ricorda che, dal punto di vista funzionale, X
1
ed
X
2
sono mappe diverse, ad esempio X
1
((01)) = 0 ,= X
2
((01)) = 1, quindi X
1
+X
2
,= 2X
1
(vedi Figura). Microesercizio. Calcolare le mappe X
1
+X
2
e 2X
1
per ogni .
00 01
10 11
0
1
X
1
00 01
10 11
0
1
X
2
9.2 Famiglie di v.a. discrete notevoli
Dal punto di vista applicativo le variabili aleatorie sono quasi sempre specicate solo
probabilisticamente, fornendone cioè linsieme dei valori (alfabeto) e i valori della densità.
Ciò è dovuto al fatto che tipicamente queste sono le uniche informazioni a disposizione dello
sperimentatore, ed è quindi naturale considerare come probabilisticamente indistinguibili
variabili aleatorie con lo stesso alfabeto A e la stessa densità di probabilità p
X
().
Attenzione: Ciò signica che, nelle applicazioni, non è nota la funzione X(). Per
ribadire quanto discusso nella precedente sezione, due v.a. con la stessa stessa densità non
assumono necessariamente lo stesso valore in corrispondenza ad ogni : NON è cioè vero
che X
1
= X
2
, ma solo che P(X
1
= x
k
) = P(X
2
= x
k
) per ogni x
k
A.
Nel seguito considereremo tutte le v.a. con la stessa densità come formanti una famiglia
di v.a. probabilisticamente equivalenti. Alcune di queste famiglie sono talmente ricorrenti
nelle applicazioni da meritare un nome.
(a.) Bernoulli
6
La v.a. X è detta di Bernoulli di parametro p, e si denota X b(p), se essa ha albabeto
A = 0, 1 e densità p
X
(1) = p, p
X
(0) = 1 p.
Esempio 1. Se X è la v.a. che modella lesito del lancio di una moneta con P(T) = p,
allora X b(p).
Esempio 2. Se X è la v.a. aleatoria che assume valore X = 1 se lesito di un dado
equilibrato è un numero pari, e valore X = 0 se lesito è dispari, allora X b
_
1
2
_
.
6
Per ribadire una terza volta le precedenti osservazioni, a questo punto dovrebbe essere chiarissimo che
le v.a. di Bernoulli b(p) costituiscono non una, ma innite famiglie di v.a., una per ogni ssato p [0, 1].
54
Esempio 3. Se (, T, P) è uno spazio di probabilità (non necessariamente discreto) ed
E T un evento, la v.a.

E
denita come
E
() =
_
0, se / E,
1, se E
è una v.a. di Bernoulli,

E
b (P(E)). La v.a. aleatoria

E
è detta funzione indicatrice
dellevento E.
(b.) Binomiali
La v.a. X è detta di binomiale di parametri n e p, e si denota X Bin(n, p), se essa ha
albabeto A = 0, 1 . . . n e densit` a
p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, . . . , n (3)
Esempio 4. Se X è la v.a. che modella il numero di Teste su n lanci di una moneta di
probabilità di Testa P(T) = p, ed i lanci sono indipendenti come descritto nella Lezione
8, allora X Bin(n, p).
Esempio 5. Se X
k
b(p), per k = 1, . . . n, ci aspettiamo che X :=
n
k=1
X
k
Bin(n, p),
poiche X
k
si può interpretare come risultato del k-esimo lancio di una moneta P(T) = p, ed
X è il numero di Teste in n lanci. Questa interpretazione è corretta solo sotto unipotesi
dindipendenza per le v.a. X
k
che rietta lipotesi dindipendenza di certi eventi usata
nella Lezione 8 per derivare la misura (3). Riprenderemo lesempio pi` u avanti.
(c.) Uniformi
La v.a. X è detta uniforme di alfabeto A, e si denota X |(A), se essa ha albabeto
A = x
1
, x
2
, . . . x
n
, di cardinalità nita, e densità uniforme p
X
(x
k
) =
1
N
, per ogni
k = 1, 2, . . . N.
55
10.1 Funzione di distribuzione
Abbiamo visto nella Lezione 9 che la densità discreta p
X
() fornisce una descrizione prob-
abilistica completa della variabile aleatoria X. In questa sezione introduciamo la funzione
di distribuzione, uno strumento alternativo per la descrizione probabilistica di X, molto
pi` u generale e essibile della densità discreta.
Denizione. Data la variabile aleatoria X : R, la funzione F
X
: R R denita
come
F
X
(x) := P(X x)
è detta funzione di distribuzione (FdD) della v.a. X.
Osservazioni sulla denizione.
(a.) Nella denizione della funzione di distribuzione si fa riferimento alla probabilità P
sul dominio (, T, P) della v.a. X. Rivediamo le varie forme di scrittura equivalente,
introdotte in precedenza ed equivalenti tra loro, che si possono utilizzare per la denizione
appena introdotta
F
X
(x) := P(X x) = P
_
X
1
(
_
, x]
_
_
= P( [ X() (, x] ) = P( [ X() x)
(b.) Si noti che peraltro non è necessario disporre della mappa X() e della misura
originale P. Per calcolare la funzione di distribuzione in ogni x R è suciente disporre
della densità discreta p
X
() della v.a. X. Infatti poiche linsieme dei valori A è discreto,
vale la seguente decomposizione disgiunta
[ X() B =
_
x
k
B
[ X() = x
k
, per ogni B R
dove lunione è al pi` u numerabile, poiche [x
k
B[ A[. In particolare per B = (, x]
vale
[ X() (, x] =
_
x
k
x
[ X() = x
k
, per ogni B R
da cui segue lespressione alternativa per la FdD
F
X
(x) = P( [ X() (, x] )
=
x
k
x
P( [ X() = x
k
) =
x
k
x
p
X
(x
k
)
Questespressione dimostra che la funzione di distribuzione si può ricavare a partire dalla
densità.
Esempio. Si consideri la variabile aleatoria X ad insieme di valori A = 1, 0, 2, 3 e
densità su A
p
X
(1) = 0.5, p
X
(0) = 0.125, p
X
(2) = 0.25, p
X
(3) = 0.125.
Usando lespressione F
X
(x) =
x
k
x
p
X
(x
k
) si traccia immediatamente il seguente graco
56
-
6
t
t
t
t
-1 0 1 2 3
x
F
X
(x)
1
.875
.625
.5
Si osservi che la funzione di distribuzione è costante a tratti, con discontinuità di prima
specie (salti: ovvero esistono niti i limiti da sinistra e da destra) in corrispondenza
dei valori assunti dalla variabile aleatoria (in gura i punti x = 1, 0, 2, 3). Lampiezza
dei salti coincide con il valore della densità nel punto di salto. Si noti inoltre che la
funzione F
X
(x) è nulla per x ed è 1 per x , ed è continua a destra ovunque.
Queste sono proprietà generali della funzione di distribuzione che discuteremo in dettaglio
qui sotto. Come ultima osservazione è ovvio che a partire dalla conoscenza di F
X
(x) è
immediatamente possibile scrivere la densità di probabilità di X. Poiche è possibile passare
da p
X
() ad F
X
() e viceversa le due descrizioni della v.a. X contengono la medesima
informazione.
Rappresentazione della FdD come somma di gradini traslati
Sia 1l(x) il gradino unitario continuo a destra,
1l(x) =
_
0, se x < 0,
1, se x 0.
Si riconosce immediatamente la validità della seguente rappresentazione della FdD come
somma di gradini unitari traslati
F
X
(x) = P(X x) =
x
k
x
p
X
(x
k
) =
x
k
.
p
X
(x
k
)1l(x x
k
). (1)
Nota bene. Lultima somma si estende su tutti i possibili valori di x
k
A.
Usando la regola per il calcolo delle derivate generalizzate si ottiene la funzione generaliz-
zata
f
X
(x) :=
dF(x)
dx
=
x
k
.
p
X
(x
k
)(x x
k
), (2)
dove (x) è la delta di Dirac. La (2) è una rappresentazione alternativa dellinformazione
contenuta nella densità discreta p
X
() e vedremo a breve in quali contesti è conveniente
utilizzarla.
Proprietà della funzione di distribuzione
(a.) F
X
() := lim
x
F
X
(x) = 0.
Dimostrazione. Se [A[ < esiste minimo x
A, e per ogni x < x
vale F
X
(x) = 0, da
cui segue la proprietà.
(b.) F
X
() := lim
x
F
X
(x) = 1.
Dimostrazione. Se [A[ < esiste massimo x
A, e per ogni x > x
vale F
X
(x) = 1, da
cui segue la proprietà.
57
(c.) F
X
è non decrescente: se u v allora F
X
(u) F
X
(v).
Dimostrazione.
`
E una proprietà generale dellanti-immagine che se A B allora X
1
(A)
X
1
(B). Prendendo A = (, u] e B = (, v], e ricordando la monotonia della misura
di probabilità, si conclude che F
X
(u) = P(X
1
(, u]) P(X
1
(, v]) = F
X
(v).
(d.) P(u < X v) = F
X
(v) F
X
(u), per ogni u < v < .
Dimostrazione. In generale X
1
(A B) = X
1
(A) X
1
(B). Per ogni u < v si con-
sideri lunione disgiunta (, v] = (, u] (u, v], quindi X
1
(, v] = X
1
(, u]
X
1
(u, v], è ancora unione disgiunta. Prendendo la P di entrambi i membri si conclude
Questa proprietà è utile per la valutazione della probabilità di intervalli di valori di X.
(d.) P(u X v) = F
X
(v) F
X
(u) + P(X = u) = F
X
(v) F
X
(u), per ogni
< u v < .
(e.) F
X
è continua a destra: lim
0
F
X
(x +) = F
X
(x),
Dimostrazione. Nel caso [A[ < si può ricorrere alla rappresentazione (1). Essendo
somma di un numero nito di funzioni continue a destra F
X
() è continua a destra.
10.2 Valore atteso
Motivazione della denizione
Interpretazione frequentista della funzione di massa di probabilità. Vogliamo modellare
con una variabile aleatoria X il voto conseguito agli esami dallo studente Mario Rossi.
Mario ha nora registrato i seguenti voti sul libretto:
21, 24, 21, 27, 27, 24, 27, 27, 27, 24, 24, 27.
I voti registrati sono gli esiti di n = 12 ripetizioni dellesperimento. Basandoci sulle n = 12
osservazioni, lalfabeto della v.a. X è A = 21, 24, 27. La densità della v.a. X non è nota
a priori, ma adottando il punto di vista frequentista usiamo le osservazioni per assegnarla
empiricamente. Denoteremo la densità empirica p
X
(). Ricordando che la probabilità
empirica dellevento E è
n
E
n
, con i dati a disposizione la densità empirica è:
p
X
(21) = P([X = 21]) =
n
21
n
=
2
12
,
p
X
(24) = P([X = 24]) =
n
24
n
=
4
12
,
p
X
(27) = P([X = 27]) =
n
27
n
=
6
12
.
Il classico parametro riassuntivo dei voti di Mario è la media aritmetica, che interpretiamo
come valore intorno al quale varia il voto nelle diverse prove. La media aritmetica dei voti
di Mario è
21 + 24 + 21 + 27 + 27 + 24 + 27 + 27 + 27 + 24 + 24 + 27
12
=
2 21 + 4 24 + 6 27
12
= 25,
dove, per eettuare il calcolo, abbiamo raggruppato i voti.
`
E interessante osservare che
questa formula si può riscrivere in termini dei valori assunti dalla v.a. X, ovvero 21, 24,
e 27 e dei valori della densità empirica, come
i
x
i
p
X
(x
i
) = 21
2
12
+ 24
4
12
+ 27
6
12
= 25.
Questa espressione alternativa della media aritmetica dei valori osservati ispirerà la denizione
del pi` u importante parametro riassuntivo del comportamento di una variabile aleatoria: il
valore atteso.
58
Valore atteso: denizione e teorema fondamentale
`
E un parametro riassuntivo del comportamento di una v.a. La terminologia è molto
varia: valore atteso, valore medio, media, aspettazione, speranza matematica.
Denizione.
E(X) :=
x
k
.
x
k
p
X
(x
k
).
Attenzione. Se lalfabeto A è nito il valore atteso è una somma nita quindi esiste sempre.
Se [A[ = il valore atteso, denito come somma di una serie, non sempre esiste.
Esercizio obbligatorio. Utilizzare la densità generalizzata f
X
(x) denita in (2) per riscri-
vere il valore atteso come
E(X) =
x
k
.
x
k
p
X
(x
k
) =
_

xf
X
(x) dx
Esempi
Esempio 1. Sia X =

E
, la funzione indicatrice di E . Allora E(
E
) = P(E).
Esempio 2. Sia X b(p) allora E(X) = 0 (1 p) + 1 p = p.
Esempio 3. Sia X |(x
1
, x
2
, . . . x
N
) allora E(X) =
n
i=1
x
i
1
N
=
1
N
n
i=1
x
i
. Questo
esempio mostra che il valore atteso è la generalizzazione della media aritmetica al caso di
v.a. non uniformi.
Esempio 4. Sia X una v.a. con A = 1, 3, 9 con p
X
(1) =
2
3
p
X
(3) =
1
6
, p
X
(9) =
1
6
. Allora
E(X) = 1
2
3
+ 3
1
6
+ 9
1
6
.
Teorema fondamentale. E(X) =
X()P().
Dimostrazione.
E(X) :=
k
x
k
p
X
(x
k
)
=
k
x
k
P(X = x
k
) =
k
x
k
X()=x
k
P()
=
X()=x
k
x
k
P() =
X()=x
k
X()P()
=
X()P()
Questo risultato è molto importante dal punto di vista teorico - vedi ad esempio la di-
mostrazione della linearità del valore atteso qui sotto. Come strumento di calcolo è utile
solo nelle (rare) occasioni in cui si dispone dello spazio e della mappa X : R.
Normalmente si dispone solo di A e della densità p
X
o della FdD F
X
.
Valore atteso: proprietà di linearità
Omogeneità. Per ogni a R vale E(aX) = a E(X).
Addittività. Per ogni coppia di v.a. X, Y vale E(X+Y ) = E(X) +E(Y ). Questa è unim-
mediata conseguenza del teorema fondamentale. E(X+Y ) =
(X()+Y ())P() =
X()P() +
Y ()P().
59
Quando omegeneità ed addittività valgono entrambe allora si parla di di linearità. Il valore
atteso è lineare. Lestensione a pi` u di due v.a. è immediata. Si ha che
E
_
n
t=1
a
t
X
t
_
=
n
t=1
a
t
E(X
t
)
Osservazione sulle v.a. costanti. Ogni numero reale b R può essere interpretato come
una v.a. costante (degenere) ovvero come mappa X() = b per ogni . Lalfa-
beto è b, la densità è p(b) = 1 e la funzione di distribuzione F(x) = 1l(x b). Il valore
atteso è chiaramente E(b) = b. La proprietà di linearità vista sopra continua quindi a
valere quando una delle v.a. è una costante.
Esempio. Se Y = aX +b allora E(Y ) = aE(X) +b.
Esempio. Se X b(0.5) ed Y = 2X 1 allora E(Y ) = 0.
Valore atteso: ulteriori proprietà
(a.) Positività. Se X è una v.a. positiva (cioè A R
+
) allora E(X) 0. La dimostrazione
è banale: E(X) =
i
x
i
p
X
(x
i
) 0 se tutti gli x
i
0.
(b.) Monotonia. Se X Y (cioè X() Y () per ogni ), allora E(X)
E(Y ). La dimostrazione è immediata ricorrendo al teorema fondamentale: E(X) =
X()P()
Y ()P(). Esempio. Se X rappresenta il numero di lanci

di una moneta no ad ottenere la prima Testa, ed Y il numero di lanci no ad ottenere
la seconda Testa, allora X < Y ed E(X) < E(Y ). Vedremo in seguito come si calcolano
questi valori attesi.
(c.) Limite inferiore e superiore. min
k
x
k
E(X) max
k
x
k
. Dimostrazione immediata:
E(X) =
k
x
k
p
X
(x
k
)
k
max
k
x
k
p
X
(x
k
) = max
k
x
k
k
p
X
(x
k
) = max
k
x
k
;
analoga dimostrazione per il limite inferiore.
Interpretazione meccanica del valore atteso
Si consideri una distribuzione di N masse (m
1
, m
2
, . . . m
N
) sullasse reale, dislocate rispet-
tivamente nei punti (x
1
, x
2
, . . . x
N
).
-
6
t t t t
x
1
x
2
x
3
x
4
m
1
m
2
m
3
m
4
a
Per determinare il baricentro a si impone che la risultante delle coppie sia nulla, il che
fornisce la seguente equazione per a
N
k=1
(x
k
a)m
k
= 0
da cui si ricava
a =
N
i=k
x
k
m
k
N
k=1
m
k
.
Si consideri ora una v.a. di alfabeto A = x
1
, . . . x
N
e densità p
X
(x
1
), . . . p
X
(x
N
). Identi-
cando le masse m
i
con i valori p
X
(x
k
) è evidente che il valore atteso E(X) =
x
k
p
X
(x
k
)
coincide con il baricentro del sistema di N masse p
X
(x
k
), dislocate nei punti x
k
. Lunica
peculiarità del caso probabilistico è che la massa totale è sempre pari a
k
m
k
= 1 kg.
60
11.1 Funzioni di una variabile aleatoria
Le variabili aleatorie sono mappe, si può quindi operare con esse come si opera con le
mappe. In particolare, se X : R è una variabile aleatoria e g : R R una funzione
reale di variabile reale, si può denire la mappa composta Y := g X,
Y := g X : R, Y () := g(X())
che è a sua volta una variabile aleatoria. Sia } lalfabeto della v.a. Y . Poiche è discreto
e [}[ = [g(A)[ [A[ [[, si conclude che anche Y è una v.a. discreta. Il problema
fondamentale nello studio delle funzioni di v.a. è la determinazione della densità p
Y
()
indotta, a partire dai dati p
X
() e g.
Esempi
Negli Esempi 1 e 2 la v.a. X è completamente nota come mappa X : R, lEsempio
3 si riferisce al caso, molto pi` u frequente, in cui della v.a. X è solo nota la densità p
X
().
Esempio 1. Sia := 00, 01, 10, 11 lo spazio campionario di 2 lanci di una moneta.
Per = (b
1
, b
2
) sia X() = b
1
+ b
2
, ovvero X rappresenta il numero di Teste in 2
lanci. Sia inoltre g : R R la funzione x g(x) = x
2
. Allora Y := g(X) è la v.a.
Y () := g(X()) = X()
2
. Si veda la Figura qui sotto. Si noti in particolare che
lalfabeto A = 0, 1, 2 viene mappato in } = 0, 1, 4. Questo è un esempio banale poiche
la mappa g : A } è iniettiva. Se ad esempio nello spazio (, T, P) la misura P è
equiprobabile allora X Bin(2, 0.5) con p
X
(0) = 0.25, p
X
(1) = 0.5 e p
X
(2) = 0.25, e
poiche g è iniettiva è evidente dalla Figura che la misura indotta su } è p
Y
(0) = p
X
(0) =
0.25, p
Y
(1) = p
X
(1) = 0.5 e p
Y
(4) = p
X
(2) = 0.25 (nonostante g sia iniettiva, la v.a. Y
non è binomiale perche?)
00
01
10
11
0
1
2
1
4
X
Y
X g
R R
R
Y=g(X)=X
2
0
Esempio 2. Sia come sopra e per = (b
1
, b
2
) sia X() = 2(b
1
+b
2
) 1. Sia inoltre g :
R R la funzione x g(x) = x
2
. Allora Y := g(X) è la v.a. Y () := g(X()) =
X()
2
. Si veda la Figura seguente. Si noti in particolare che lalfabeto A = 1, 1, 3
viene mappato in } = 1, 9. In questo esempio la mappa g : A } non è iniettiva. Se
61
nello spazio (, T, P) la misura P è equiprobabile, inducendo P su A si trova la densità
della v.a. X che vale p
X
(1) = 0.25, p
X
(1) = 0.5 e p
X
(3) = 0.25. Inducendo la misura da
A a } si trova poi la densità di Y , che vale p
Y
(1) = p
X
(1) +p
X
(1) = 0.25 +0.50 = 0.75,
e p
Y
(9) = p
X
(3) = 0.25.
00
01
10
11
-1
1
3
1
9
X
Y
X g
R R
R
Y=g(X)=X
2
Esempio 3. Sia A = 1, 0, 1 ed X |(A) una v.a. uniforme, ovvero con p
X
(1) =
p
X
(0) = p
X
(1) =
1
3
. Sia inoltre g(x) = x
2
, come nei precedenti esempi. La variabile
aleatoria Y = X
2
ha alfabeto } = 0, 1, inoltre p
Y
(1) = p
X
(1)+p
X
(1) =
2
3
e ovviamente
p
Y
(0) = p
X
(0) =
1
3
= 1 p
Y
(1). Si noti che la v.a. Y b
_
2
3
_
.
0
1
X Y
Y=g(X)=X
2
0
1
-1
Formula generale per la densità di Y = g(X)
La densità indotta p
Y
() si ricava in generale facendo uso della decomposizione disgiunta
[Y = y
] =
_
k
g(x
k
)=y
[X = x
k
].
La formula generale si scrive
p
Y
(y
) = P(Y = y
) =
k
g(x
k
)=y
p
X
(x
k
), per ogni y
}.
62
Valore atteso di funzioni di una variabile aleatoria Y = g(X)
Se Y = g(X) il valore atteso di Y si può calcolare in vari modi. Il seguente teorema,
nella sostanza equivalente al teorema fondamentale del valore atteso della Lezione 10, è di
fondamentale importanza nelle applicazioni.
Teorema.
E(Y ) =
p
Y
(y
) =
x
k
.
g(x
k
) p
X
(x
k
).
Dimostrazione.
E(Y ) :=
p
Y
(y
) =
=
k
g(x
k
)=y
p
X
(x
k
)
_
_
=
k
g(x
k
)=y
g(x
k
)p
X
(x
k
)
=
k
g(x
k
)p
X
(x
k
).
Questo teorema è formalmente identico al teorema fondamentale E(X) =
X()P().
In entrambi i casi si tratta di calcolare il valore atteso usando la misura sullo spazio di
partenza invece di quella sullo spazio di arrivo della funzione. A dierenza del teorema
fondamentale, il teorema appena dimostrato è utilissimo in pratica poiche consente il cal-
colo di valori attesi di funzioni di v.a. senza obbligare al calcolo preliminare della densità
p
Y
(y
).
Esempio 4. Siano X ed Y come nellEsempio 3 qui sopra. Il valore atteso E(Y ) è
E(Y ) =
p
Y
(y
) = 0 p
Y
(0) + 1 p
Y
(1) = 0
1
3
+ 1
2
3
=
2
3
E(Y ) = E(X
2
) =
x
k
.
x
2
k
p
X
(x
k
) = (1)
2
p
X
(1) + 0
2
p
X
(0) + 1
2
p
X
(1) =
2
3
Micro-esercizio. Spiegare perche in generale il valore atteso di una funzione di variabile
aleatoria Y = g(X) si può calcolare anche nei seguenti modi.
E(Y ) =
Y ()P()
=
g(X())P()
Attenzione. Attenzione. Attenzione.
In generale E(g(X)) ,= g(E(X)), ad esempio in generale E(X
2
) ,= [E(X)]
2
, ed analoga-
mente E(
1
X
) ,=
1
E(X)
. Nel caso speciale g(X) = aX + b vale invece E(g(X)) = g(E(X)),
ovvero E(aX +b) = aE(X) +b, manifestazione della linearità del valore atteso. Qui sotto
consideriamo un altro caso speciale in cui esiste una relazione ben denita tra E(g(X)) e
g(E(X)).
63
Teorema (disuguaglianza di Jensen). Se g è una funzione convessa allora
g(E(X)) E(g(X)).
Dimostrazione. Ricordiamo che la funzione g è convessa se e solo se g (
n
k=1
k
x
k
)
n
k=1
k
g(x
k
), per ogni n e per ogni n-pla (
1
, . . .
n
) di coecienti nonnegativi che
sommano ad 1. Allora, prendendo n = [A[ e
k
= p
X
(x
k
) si ha
g(E(X)) = g
_
k
x
k
p
X
(x
k
)
_
k
g(x
k
)p
X
(x
k
) = E(g(X)).
Due utili corollari
(a.) [E(X)[ E([X[), infatti g(x) = [x[ è convessa.
Applicazione. Se [A[ = , condizione suciente per lesistenza di E(X) è che E([X[) <
(b.) [E(X)]
2
E(X
2
), infatti g(x) = x
2
è convessa. La rivedremo presto.
11.2 Varianza
Motivazione della denizione
Si considerino due studenti, i cui voti sono rispettivamente descritti dalle v.a.
X con A = 18, 24, 30, e p
X
uniforme,
Y con } = 23, 24, 25, e p
Y
uniforme.
`
E immediato vericare che
E(X) = E(Y ) = 24,
le v.a. X ed Y hanno lo stesso valore atteso, ma i due studenti sono innegabilmente
tipi umani assai diversi: X è genio e sregolatezza, Y aurea mediocritas. Matematicamente
questa dierenza si riette nella diversa variabilità dei valori delle v.a. X ed Y attorno
al valore atteso. Ci proponiamo di trovare un parametro riassuntivo che fornisca unindi-
cazione della variabilità dei valori assunti da una v.a. intorno al valore atteso. Ecco alcuni
esempi di indici numerici che si potrebbero adottare.
(a)
k
(x
k
E(X)): si sommano gli scarti tra i possibili valori e il valore atteso. Questo
non va bene perche non tiene in conto le diverse probabilità dei valori x
i
.
(b)
k
(x
k
E(X))p
X
(x
k
): questo tiene in conto le probabilità dei valori, ma è facile ver-
icare che è sempre nullo. Usando lanalogia meccanica: la somma dei momenti calcolati
rispetto al baricentro è nulla.
(c)
k
[x
k
E(X)[p
X
(x
k
) questo va bene, gli scarti sono tutti positivi e si sommano. Si
potrebbe usare come misura della variabilità, ma ha il difetto di essere matematicamente
poco trattabile per via del valore assoluto, che è un funzione non derivabile nellorigine.
(d)
k
(x
k
E(X))
2
p
X
(x
k
) pesa le probabilità, conta tutti gli scarti positivamente ed è
matematicamente trattabile. Questo è il parametro che useremo, e lo chiameremo varianza
della v.a. X. Se, nellinterpretazione meccanica, il valore atteso è il baricentro della
distribuzione di massa p
X
(x
k
), la varianza ne è il momento dinerzia per le rotazioni
intorno al baricentro.
64
Varianza: denizione, esempi di calcolo, proprietà
Denizione. La varianza della v.a. X è
var(X) :=
k
(x
k
E(X))
2
p
X
(x
k
) = E
_
(X E(X))
2
_
Attenzione: anche la varianza, come il valore atteso, non sempre esiste se la v.a. X ha
alfabeto di cardinalità innita.
Micro-esercizio. Convincersi della validità dellidentità
k
(x
k
E(X))
2
p
X
(x
k
) = E
_
(X
E(X))
2
_
.
Esempio: Sia X b(p) allora var(X) = p(1 p)
Infatti E(X) = p, quindi
var(X) = (0 p)
2
(1 p) + (1 p)
2
p = p
2
(1 p) + (1 p)
2
p = p(1 p)
Proprietà della varianza
(a.) var(X) 0 con uguaglianza se e solo se X = b (v.a. costante).
Dimostrazione. Dalla denizione var(X) =
i
(x
i
E(X))
2
p
X
(x
i
) è una somma di termini
non-negativi. Se var(X) = 0 allora (x
i
E(X))
2
= 0 per ogni x
i
con p
X
(x
i
) > 0. Se,
senza perdita di generalità, assumiamo che p
X
(x
i
) > 0 per ogni x
i
A concludiamo che
x
i
= E(X) per ogni x
i
A, cioè X è una v.a. costante.
Nota bene. Scrivere varianze negative è peccato mortale che non andrà impunito.
(b.) var(aX) = a
2
var(X), per ogni a R.
Dimostrazione. var(aX) = E
_
(aX E(aX))
2
_
= E
_
a
2
(X E(X))
2
_
= a
2
var(X).
Unimmediata conseguenza di questa proprietà è che var(X) = var(X). Pensate allin-
terpretazione meccanica.
(c.) var(X +c) = var(X).
Questa si dimostra immediatamente algebricamente, ma ancora una volta, è linterpre-
tazione meccanica che ci fa veramente capire perche deve essere cos`. Se si traslano
tutte le masse della stessa costante c cambia il baricentro, ma non il momento dinerzia.
Probabilisticamente: cambia il valore atteso ma non la varianza.
(d.) var(X) = E(X
2
) [E(X)]
2
.
Utilissima per i calcoli. Facile da dimostrare per via algebrica, ma ri-convincetevi di tutti
i passaggi visti a lezione!
var(X) = E((X E(X))
2
) = E(X
2
2XE(X) + (E(X))
2
)
= E(X
2
) [E(X)]
2
.
Combinandola con la proprietà (a.) si trova la disuguaglianza
E(X
2
) [E(X)]
2
,
che avevamo già visto come esempio di disuguaglianza di Jensen.
Esercizi
Esercizio 1. Soluzione del Monty Hall
Esercizio 2 (proposto). Avete tre monete a disposizione. La moneta 1 ha due Teste, la
moneta 2 è regolare, la moneta 3 ha due Croci. Scegliete una moneta a caso, la lanciate
ed osservate Testa. Data questa informazione, qual è la probabilità che laltra faccia sia
Testa? Nota Bene. Si verichi che limpostazione ed i conti sono identici a quelli del
Monty Hall.
65
La lezione è dedicata a due variabili aleatorie discrete notevoli, il cui alfabeto ha cardinalità
innita.
12.1 Variabile aleatoria geometrica
Abbiamo analizzato in precedenza lo schema binomiale per eventi consistente in una se-
quenza di n 1 prove binarie (esito in 0, 1 = insuccesso, successo ecc.), indipendenti,
con probabilità di successo p [0, 1] costante nelle n prove. In questo contesto, il numero
di successi nelle n prove è modellabile con una variabile aleatoria, diciamola X, di tipo
binomiale, X Bin(n, p).
Uno schema simile a quello binomiale per eventi prevede prove binarie, ripetute, indipen-
denti, con probabilità di successo p [0, 1] costante nelle varie prove. Il numero di prove
non è ssato a priori, e lesperimento prosegue no allosservazione del primo successo (la
prima Testa, il primo 1 ecc.). Sia X la variabile aleatoria che rappresenta il numero di
prove necessarie per ottenere il primo successo. Lalfabeto di A è A = 1, 2, . . . = N.
La densità discreta di X si ricava osservando che levento [X = k] :=primo successo alla
k-esima prova, corrisponde ad ottenere k 1 insuccessi nelle prime k 1 prove e successo
alla k-esima prova, quindi
p
X
(k) = P(CC . . . C
. .
k 1
T) = (1 p)
k1
p, k N. (1)
Denizione. La v.a. X è detta geometrica di parametro p (0, 1], e si denota X G(p),
se essa ha alfabeto N e densità discreta (1).
`
E istruttivo vericare che (1) è una densità discreta. I valori p
X
(k) sono tutti non-negativi,
inoltre
k=1
p
X
(k) =
k=1
(1 p)
k1
p
= p
k=1
(1 p)
k1
= p
k=0
(1 p)
k
=
p
1 (1 p)
= 1.
Si noti che poiche
P(X < ) =
k=1
P(X = k),
la condizione di normalizzazione ad 1 della densità equivale al fatto che la probabilità di
ottenere il primo successo in un numero nito di lanci è pari ad 1.
Osservazione sui casi limite. Si noti che la serie geometrica converge per [1 p[ < 1, che
si traduce nel vincolo 0 < p < 2 ma, essendo p una probabilità, il vincolo è 0 < p 1.
Intuitivamente se p = 0 non si verica mai Testa, quindi la v.a. X non è ben denita (si
potrebbe assegnare X = + con probabilità 1, ma avere variabili aleatorie a valori nella
retta reale estesa crea pi` u problemi di quanti ne risolva). Il caso p = 1 corrisponde invece
ad una v.a. degenere costante, X = 1 con probabilità 1. In questo caso infatti si ottiene
sempre Testa al primo lancio. La densità della v.a. X G(1) è p
X
(k) = (k 1).
66
Probabilità di attesa lunga. Nelle applicazioni è interessante conoscere la probabilità di
dover attendere per pi` u di k lanci il primo successo.
P(X > k) =
i=k+1
p
X
(i) =
i=k+1
(1 p)
i1
p
= p(1 p)
k
i=0
(1 p)
i
= (1 p)
k
(2)
Esempio 1. La probabilità di superare lesame di Splancnologia è p = 0.4. Qual è la
probabilità di dover ripetere lesame pi` u di 2 volte per superarlo?
Soluzione. Bisogna aggiungere un po di ipotesi per poter rispondere a questa domanda.
In particolare supporremo che la probabilità di superare lesame sia p = 0.4 ad ogni
tentativo, inoltre assumeremo che gli esiti dellesame in appelli diversi siano indipendenti.
Sotto queste ipotesi possiamo modellare il numero di prove no al superamento dellesame
con una v.a. X G(0.4). Usando la formula (2)
P(X > 2) = (1 0.4)
2
.
Si sarebbe anche potuto svolgere il calcolo direttamente ottenendo
P(X > 2) = 1P(X 2) = 1P(X = 1)P(X = 2) = 10.40.4(10.4) = (10.4)
2
.
Esempio 2. Nel gioco del lotto unestrazione consiste nellestrarre, senza reinserimento, 5
palline da unurna che contiene 90 palline numerate da 1 a 90. La giocata pi` u semplice
è lambata, ovvero si punta del denaro sulluscita di un numero specico, ad esempio il
53. La probabilità che ad ogni estrazione esca il numero giocato è
(
1
1
)(
89
4
)
(
90
5
)
=
5
90
=
1
18
. Sia
X il numero di estrazioni che è necessario attendere no ad ottenere per la prima volta
luscita del numero giocato. Sono soddisfatte tutte le condizioni della denizione, quindi
X G
_
1
18
_
. Nota bene: il risultato è valido anche se ad ogni estrazione si gioca un numero
diverso, purche sempre solo un numero, ad ogni estrazione (perche?).
Funzione di distribuzione. A partire dallespressione (2) si può ricavare, in forma chiusa, la
funzione di distribuzione di X. Per k Z si ha che
F
X
(k) = P(X k) =
_
0, se k < 1,
1 (1 p)
k
, se k 1.
Ricordando che la funzione di distribuzione di una variabile aleatoria discreta è costante
a tratti, per ogni x R vale
F
X
(x) =
_
0, se x < 0,
1 (1 p)
]x|
, se x 0,
Valore atteso di una v.a. geometrica. Se X G(p) allora
E(X) =
k=1
kp
X
(k) =
k=1
k(1 p)
k1
p = p
k=0
k(1 p)
k1
=
p
(1 (1 p))
2
=
1
p
.
Analogamente si trova che
var(X) =
1 p
p
2
.
67
Il valore atteso labbiamo calcolato a lezione. Per la varianza abbiamo impostato i calcoli
a lezione, si veda la nota in appendice per i dettagli.
Nota.
`
E molto intuitivo che se una moneta ha probabilità di Testa P(T) = p il valore
atteso del numero di lanci per ottenere Testa per la prima volta sia
1
p
. Se P(T) =
1
100
in
media la si deve lanciare 100 volte per ottenere la prima Testa.
Versione alternativa della v.a. geometrica
A volte le v.a. geometriche sono denite in modo lievemente diverso. Sia X
t
la v.a.
aleatoria che rappresenta il numero di insuccessi prima del primo successo. Chiaramente
X
t
= X 1, quindi A
t
= 0, 1, . . . , mentre la densità vale p
X
(k) = (1 p)
k
p, infatti
X
t
= k signica k insuccessi nelle prime k prove e successo alla k+1-esima. Naturalmente
E(X
t
) = E(X) 1 =
1p
p
, mentre var(X
t
) = var(X).
12.2 Variabile aleatoria di Poisson
A lezione abbiamo dedicato un po di tempo a rivedere la denizione della funzione
esponenziale e a ricavarne lo sviluppo in serie di Taylor, giusticando le seguenti identità
e
x
:= lim
n
_
1 +
x
n
_
n
=
k=0
x
k
k!
.
Il metodo sporco e veloce per capire questa identità è di sviluppare
_
1 +
x
n
_
n
=
n
k=0
_
n
k
_
_
x
n
_
k
e poi di calcolare, per k ssato, lim
n
_
n
k
_ _
x
n
_
k
=
x
k
k!
.
Denizione. La v.a. Y è detta Poisson di parametro > 0, e si denota Y T(), se Y ha
alfabeto } = N
0
:= 0, 1, 2, . . . e densità discreta
p
Y
(k) = e

k
k!
, per ogni k 0
`
E immediato vericare che p
Y
(k) > 0 per ogni k 0 e che
k=0
p
Y
(k) =
k=0
e

k
k!
= e
k=0
k
k!
= 1,
il che dimostra che la densità è valida.
Derivazione della densità di Poisson come limite di una densità binomiale
Il motivo per cui le v.a. di Poisson sono di grande interesse applicativo è che, sotto
opportune condizioni, esse consentono di approssimare molto bene il comportamento di
variabili aleatorie binomiali. Non ci preoccuperemo per ora di valutare quale sia la bontà
dellapprossimazione.
Sia X
n
Bin(n,

n
).
7
Conviene introdurre il simbolo
Bin
_
n,

n
_
(k) := p
X
n
(k)
7
Ad esempio se W Bin(800, 0.005) allora W è interpretabile come una v.a. X
n
con n = 800 e = 4.
68
che mette in evidenza sia i parametri della binomiale, che il punto k dove si valuta la
densità. Allora è
Bin
_
n,

n
_
(k) =
_
n
k
__
n
_
k
_
1

n
_
nk
=
n!
k!(n k)!
k
n
k
_
1

n
_
n
_
1

n
_
k
=
n(n 1) . . . (n k + 1)
n
k
k
k!
_
1

n
_
n
_
1

n
_
k
Fissato un valore di k 0, 1, . . . n calcoliamo ora il limite lim
n
Bin
_
n,

n
_
(k). Os-
servando che
lim
n
n(n 1) . . . (n k + 1)
n
k
= 1, lim
n
_
1

n
_
k
= 1, lim
n
_
1

n
_
n
= e
,
si trova immediatamente che
lim
n
Bin
_
n,

n
_
(k) = e

k
k!
= T()(k),
Volendo a tutti i costi dare uninterpretazione probabilistica al precedente risultato pura-
mente analitico si può procedere come segue. Sia, per n molto grande, X
n
Bin(n,

n
)
ed Y T() (si notino i legami tra i parametri n, p, e ). Allora per ogni k 0 sarà
P(X
n
= k) P(Y = k).
Questa interpretazione è meno naturale del risultato analitico.
Dal punto di vista pratico se si vuole approssimare una densità Bin(n, p) con una T()
devono essere rispettati i seguenti vincoli
n 1, p 1, = np
Lapprossimazione è buona se è dellordine di qualche unità e no a 30, ma non è
questo il contesto per discutere della bontà dellapprossimazione.
Il vantaggio nelluso della densità di Poisson, rispetto a quella binomiale, consiste nelle-
vitare calcoli di coecienti binomiali con n elevato che sono complessi da eettuare.
Media e varianza di v.a. Y T(). Poiche, per n , la densità di una v.a. X
n

Bin(n,

n
) tende a quella di una v.a. Y T() unazzardatissima intuizione vuole che, se
le densità sono vicine, i valori attesi siano vicini e che quindi
E(Y ) = lim
n
E(X
n
) = lim
n
n

n
=
var(Y ) = lim
n
var(X
n
) = lim
n
n

n
_
1

n
_
=
Pi` u avanti potremo rapidissimamente vericare la correttezza di questintuizione calcolan-
do media e varianza di Y T() a partire dalle trasformata di Fourier discreta della
densità di Poisson p
Y
(). Il conto diretto richiede la verica delle somme delle serie
E(Y ) =
k=0
kp
Y
(k) =
k=0
ke

k
k!
= ,
var(X) = E(X
2
) [E(X)]
2
=
k=0
k
2
e

k
k!
[E(X)]
2
= .
69
Uso pratico dellapprossimazione di Poisson alla binomiale.
Nella pratica si incontrano spesso situazioni sperimentali modellabili con variabili aleatorie
binomiali. Il paradigma è quello delle prove binarie, ripetute, indipendenti, con probabilità
di successo costante nelle diverse prove. Il numero, tra le 12:00:00 e le 12:01:00 di domani,
di accessi al sito unipd.it, di telefonate in arrivo al DEI, di tamponamenti a Padova, di
nati in Europa, di morti in Europa, ecc. sono tutti modellabili come variabili aleatorie
binomiali. I parametri n e p di queste variabili aleatorie non sono misurabili direttamente,
ma è ragionevole supporre che siano noti i valori attesi
8
. Ci sono allora i presupposti per
luso dellapprossimazione di Poisson. Se X Bin(n, p) ed è nota la media E(X) =
X
,
poiche E(X) =
X
= np, si ricava p =

n
. Si tratta allora di stabilire per quali valori di n
e è ragionevole approssimare la densità binomiale Bin
_
n,

n
_
con la Poisson T().
Regola pratica. In generale lapprossimazione è buona se n è grande e p =

n
è piccolo. Ad
esempio, se n 100 per dellordine di alcune unità lapprossimazione è molto buona.
Regole pi` u precise sono disponibili in letteratura.
Esercizio. Al sito web unipd.it si collegano in media 10 persone al minuto. Qual è la
probabilità che, nel prossimo minuto, ci sia almeno un visitatore?
Soluzione. La v.a. X Bin
_
n,
10
n
_
si può approssimare con una v.a. di Poisson Y
T(10) quindi
P(X 1) P(Y 1) = 1 P(Y = 0) = 1 e
10
.
Attenzione allunità di tempo.
Quando si impiega lapprossimazione di Poisson è fondamentale prestare attenzione allu-
nità di tempo.
Esercizio. Il sensore di un certo rivelatore di particelle è colpito in media da 2 particelle al
secondo. Qual è la probabilità che nei prossimi 5 secondi sia colpito al pi` u da 3 particelle?
Soluzione. Lidea sottostante è che, indipendentemente una dallaltra, un numero n,
grande e non noto, di particelle possono colpire il sensore ad ogni secondo, la proba-
bilità p
n
che una di esse lo colpisca è non nota e bassa.
`
E importante solo conoscere il
numero medio di particelle che colpiscono il sensore. In questo caso la domanda si riferisce
a quello che avverrà in un intervallo di 5 secondi, durante il quale il numero medio di
particelle che colpisce in sensore è 2 5 = 10. La variabile aleatoria che modella il numero
di particelle che colpisce il sensore nei prossimi 5 secondo è allora Y T(10). La risposta
è: P(Y 3) =
3
k=0
P(Y = k) = e
10
_
1 + 10 +
100
2
+
1000
6
.
8
Qui assumiamo che i valori attesi siano noti, ma stime empiriche degli stessi sono facili da ottenere.
Ad esempio, sia X Bin(n, p) la v.a. che modella il numero di accessi al sito unipd.it. Per stimare E(X)
si osservano x
1
, x
2
. . . x
100
, il numero di accessi al sito, tra le 12:00 e le 12:01, per 100 giorni consecutivi.
La media aritmetica m
X
:=
1
100
100
i=1
x
i
è lo stimatore empirico di E(X). In generale, disponendo di n
osservazioni, m
X
:=
1
n
n
i=1
x
i
E(X), e lapprossimazione migliora al crescere di n. Riprenderemo pi` u
avanti lo studio delle propriet` a dello stimatore empirico.
70
Richiami sulle serie di potenze e applicazioni
A12.1 Richiami sulle serie di potenze
Illustriamo il calcolo diretto del valore atteso e della varianza per le v.a. geometriche. Un
breve richiamo sulle serie di potenze fornirà gli strumenti di calcolo.
Le serie di potenze sono state trattate nel corso di Analisi II. Mi limito a ricordare il
seguente risultato. Se la serie di potenze
f(x) :=
k=0
a
k
x
k
ha intervallo di convergenza [x[ < R, con R > 0, la sua derivata esiste, è una serie
di potenze, ha lo stesso intervallo di convergenza, e si può calcolare derivando la serie
termine a termine:
f
t
(x) =
k=0
ka
k
x
k1
.
Iterando il precedente risultato, una serie di potenze che converge per [x[ < R, con R > 0,
è di classe (
nellintervallo di convergenza e la sua derivata n-esima vale

f
(n)
(x) =
k=0
k(k 1) . . . (k n + 1)a
k
x
kn
.
In questa serie i termini con k = 0, 1, . . . , n1 sono tutti nulli. Il coeciente a
n
di f(x) è
la derivate n-esima di f(x) valtata nellorigine, infatti ponendo x = 0 nellultima formula
si trova
a
n
=
f
(n)
(0)
n!
,
ovvero: la serie di potenze, nellintervallo di convergenza, coincide con la serie di Taylor
9
della sua somma f(x).
La piu semplice serie di potenze è la serie geometrica
k=0
x
k
=
1
1 x
per [x[ < 1. (1)
Si osservi che, benche la funzione
1
1x
abbia dominio R 1, la serie geometrica la rapp-
resenta solo nellintervallo (1, 1). Il calcolo della derivata termine a termine fornisce, per
[x[ < 1,
k=0
kx
k1
=
d
dx
1
1 x
=
1
(1 x)
2
. (2)
Per la derivata seconda si ottiene
k=0
k(k 1)x
k2
=
d
2
dx
2
1
1 x
=
2
(1 x)
3
. (3)
9
Attenzione: anche se f c
in un intorno dellorigine, f non è necessariamente sviluppabile in serie

di Taylor. Esempio: f(x) = e
x
2
c
, ma f
(n)
(0) = 0 per ogni n, quindi gli a
n
sono tutti nulli e la
serie di potenze corrispondente ha raggio di convergenza R = 0.
71
A12.2 Media della v.a. geometrica
Se X G(p) con p (0, 1), la densità di probabilità discreta è
p
X
(k) = (1 p)
k1
p, k = 1, 2, . . .
La media si calcola utilizzando la (2)
E(X) =
k=1
kp
X
(k) =
k=1
k(1 p)
k1
p = p
k=0
k(1 p)
k1
=
p
(1 (1 p))
2
=
1
p
(4)
A12.3 Varianza della v.a. geometrica
Per calcolare la varianza usiamo la formula var(X) = EX
2
[EX]
2
. Calcoliamo il primo
addendo
E(X
2
) =
k=1
k
2
p
X
(k) = p
k=1
k
2
(1 p)
k1
(5)
Questa serie è simile alla (3), per via del k
2
, ma bisogna massaggiarla un po per calcolarne
la somma. Il termine k-esimo in (3) ha la forma k(k 1)x
k2
mentre qui abbiamo k
2
(1
p)
k1
, che scriviamo (1 p)k
2
(1 p)
k2
. La costante (1 p) non è un problema perchè
esce dalla somma. Per aggiustare il termine polinomiale si osservi che k
2
= k(k 1) + k,
il che suggerisce di calcolare come segue
E(X
2
) = E
_
X(X 1)
_
+E(X) (6)
Ora è possibile usare la (3) per il primo addendo:
E
_
X(X 1)
_
=
k=1
k(k 1)(1 p)
k1
p = p(1 p)
k=0
k(k 1)(1 p)
k2
=
2p(1 p)
(1 (1 p))
3
=
2(1 p)
p
2
.
Si noti che nella prima somma il coeciente corrispondente a k = 1 è nullo, mentre nella
seconda sono nulli i coecienti per k = 0 e k = 1, quindi le due somme coincidono ed è la
seconda che si calcola immediatemente usando con la (3). Dalla (6) si ottiene
E(X
2
) = E
_
X(X 1)
_
+E(X) =
2(1 p)
p
2
+
1
p
=
2 p
p
2
.
In conclusione la varianza della geometrica vale
var(X) = E(X
2
)
_
E(X)
_
2
=
2 p
p
2

1
p
2
=
1 p
p
2
.
72
Lezione 13 (Luned`, 8 aprile 2013, ore 10:30-12:15)
13.1 Esercizi
Ripassone sulle variabili aleatorie
Adattato da: M. Bramanti, Calcolo delle Probabilità e Statistica: Teoria ed esercizi, Pro-
getto Leonardo, Bologna, 2000. Il libro era diretto agli allievi del vecchio Diploma in
Ingegneria. Contiene solo parte degli argomenti di Analisi dei Dati ma lo consiglio ugual-
mente, per la scelta degli argomenti trattati, la chiarezza espositiva e la ricchezza degli
esempi.
Esercizio. Ad un casello transitano in media 200 veicoli allora, di cui in media 2 sono
T.I.R.
(a.) Qual è il tipo di variabile aleatoria da utilizzare per calcolare la probabilità che su
100 veicoli in transito esattamente 5 siano T.I.R.? Calcolare questa probabilità.
Soluzione. Possiamo pensare al transito di un veicolo come ad un esperimento in cui il
successo è il transito di un T.I.R. ed ha probabilità p =
2
100
= 0.01. La v.a. adatta a
descrivere il problema in questione è una v.a. X Bin(n, p) con n = 100 e p = 0.01. La
probabilità cercata è quindi
p
X
(5) =
_
n
5
_
p
5
(1 p)
95
=
_
100
5
_
(0.01)
5
(0.99)
95
0.0029.
(b.) Con che tipo di variabile aleatoria si può approssimare la variabile aleatoria in (a.)?
Ricalcolare la probabilità che 5 veicoli su 100 siano T.I.R. usando lapprossimazione.
Soluzione. Quando n 1 ed np è dellordine delle unità la densità binomiale Bin(n, p)
si può approssimare con la densità di Poisson T(), di parametro = np. In questo caso
siamo, pi` u o meno, nella zona di buona approssimazione. Verichiamo:
Bin(100, 0.01)(5) T(1)(5) = e
1
1
5
5!
= e
1
1
5
5!
0.0031.
(c.) Qual è la variabile aleatoria da utilizzare per calcolare la probabilità che il prossimo
T.I.R. sia il 100-esimo veicolo che passa? Calcolare la probabilità in questione. Calcolare
anche la probabilità che il prossimo T.I.R. non passi prima del 100-esimo veicolo in transito.
Soluzione.
`
E come chiedere qual è la probabilità che, lanciando una moneta con probabilità
di Testa p = 0.01, la prima Testa si verichi al 100-esimo lancio. In questo caso si deve
utilizzare una v.a. geometrica Z ((p) di parametro p = 0.01. Le probabilità richieste
sono allora
P(Z = 100) = p
Z
(100) = p(1 p)
99
= 0.01(0.99)
99
0.0037;
e ricordando la probabilità delle attese lunghe per una geometrica
P(Z 100) = P(Z > 99) = (1 p)
99
= 0.99
99
0.37.
73
(d.) Qual è la variabile aleatoria da utilizzare per calcolare la probabilità che il secondo
T.I.R. sia esattamente il 100-esimo veicolo che passa? Calcolare la probabilità in questione.
Soluzione. Cominciamo con il determinare la v.a. da utilizzare. Ragionando con il paradig-
ma dei lanci indipendenti di una moneta con probabilità di Testa p, ci chiediamo qual è la
densità della v.a. Y := lancio al quale si verica la seconda Testa. Tenendo conto che
al k-esimo lancio deve vericarsi il secondo successo, la probabilità cercata è data dalla
somma di tutte le probabilità di avere esattamente un successo nei primi k 1 lanci e
successo al kesimo lancio. Queste probabilità sono in totale k 1, potendosi vericare
il primo successo al lancio 1, 2, . . . k 1 e sono tutte uguali, quindi
p
Y
(k) = P(Y = k) = (k 1)p
2
(1 p)
k2
La risposta alla domanda è quindi
P(Y = 100) = 99(1 p)
98
p
2
= 99 (0.99)
98
(0.01)
2
0.003697.
(e.) Qual è il numero atteso di T.I.R. su 100 veicoli in transito?
Soluzione. La risposta si ottiene considerando il valore atteso della v.a. X del punto (a.),
ovvero E(X) = np = 100 0.01 = 1. In alternativa, molto banalmente, il dato iniziale del
testo indica che l1% dei veicoli sono T.I.R., quindi su 100 veicoli mediamente 1 sarà un
T.I.R.
(f.) Qual è il numero atteso di veicoli in transito no al passaggio di un T.I.R.?
Soluzione. La risposta è data dal valore atteso della v.a. Z del punto (c.) e quindi
E(Z) = 1/p = 1/0.01 = 100.
(g.) Qual è il numero di veicoli in transito necessari anche la probabilità di osservare
almeno un T.I.R. sia maggiore di 0.5?
Soluzione. Il numero di T.I.R. osservati su n veicoli in transito è una v.a. binomiale
W Bin(n, p) con p = 0.01 ed n che va determinato in modo da soddisfare il vicolo
imposto dal testo della domanda. La probabilità di osservare almeno un T.I.R. è
P(W 1) = 1 P(X = 0) = 1 0.99
n
ed il vincolo è che P(W 1) > 0.5, da cui .99
n
< 0.5 ovvero nln(.99) < ln(0.5) e quindi
n > 68.968. Dovendo essere n un intero, il numero di veicoli necessari sarà almeno 69.
Esercizio classico del coupon collector
Volete fare la raccolta delle gurine Panini. La raccolta completa consiste di n gurine.
Ogni mattina, andando a scuola, vi fermate in edicola e comprate una bustina di g-
urine. Facciamo le seguenti ipotesi semplicative. In ogni bustina cè una gurina. La
Panini distribuisce le gurine in modo casuale nelle bustine a questipotesi io non credo
molto. Quando avevo sui 10 anni, Pizzaballa, il portiere dellAtalanta, era assolutamente
introvabile. Quante bustine è necessario comprare in media per completare la collezione?
Soluzione. Con la prima bustina acquistata otteniamo la prima gurina della nostra
collezione. Si ponga T
1
= 1. Indichiamo con T
2
la v.a. che rappresenta quante bustine è
necessario acquistare per trovare una gurina distinta dalla prima (la seconda gurina della
mia collezione). Poiche mi mancano n1 gurine e ce ne sono n in commercio la probabilità
di successo (trovare una gurina che mi manca) è p
2
=
n1
n
, quindi T
2
G
_
n1
n
_
. In
74
generale, se ho già i 1 gurine distinte nella mia collezione ed indico con T
i
il numero
di bustine da acquistare per trovare una gurina distinta dalle i 1 in mio possesso,
allora T
i
G
_
n(i1)
n
_
. Il numero totale di bustine da acquistare per completare la mia
collezione è
T := T
1
+T
2
+ +T
n
Per il calcolo del valore atteso di T si usa la linearità
E(T) = E(T
1
) +E(T
2
) +E(T
3
) +E(T
n1
) +E(T
n
)
=
n
n
+
n
n 1
+
n
n 2
+ +
n
2
+
n
1
= n
_
1 +
1
2
+
1
3
+ +
1
n 1
+
1
n
_
nln(n)
Lordine di grandezza nale si ottiene con una rozza approssimazione di Riemann
n
k=1
1
k

_
n
1
1
x
dx = log n. Ad esempio, se la collezione completa consiste di n = 100 gurine, in
media si devono comprare approssimativamente 100 ln 100 460 bustine, se ogni bustina
contiene 1 gurina.
13.2 Disuguaglianze fondamentali per il valore atteso
Teorema (disuguaglianza di Markov). Se X è una v.a. non-negativa, per ogni a > 0
P(X a)
E(X)
a
Dimostrazione. Se X 0 allora
E(X) =
i
x
i
p
X
(x
i
)
=
i;x
i
<a
x
i
p
X
(x
i
) +
i;x
i
a
x
i
p
X
(x
i
)
i;x
i
a
x
i
p
X
(x
i
) a
i;x
i
a
p
X
(x
i
)
= a P(X a).
Domanda: dove interviene, nella dimostrazione, lipotesi di positività di X?
Esempi
Esempio 1. [Con riferimento allEsempio 2 della Sezione 12.1 sulla variabile aleatoria
geometrica.] Sia X la v.a. che indica quante ambate dovete giocare no ad ottenere
la prima vincita. Determinate un limite superiore e calcolate esattamente P(X > 36).
Abbiamo visto che X G
_
1
18
_
, quindi E(X) = 18. Usando la disuguaglianza di Markov
P(X > 36)
E(X)
36
=
18
36
=
1
2
. Il calcolo esatto fornisce P(X > 36) =
_
1
1
18
_
36
0.127.
La morale è che la disuguaglianza non fornisce unapprossimazione particolarmente buona
della probabilità desiderata, ma solo un limite superiore.
Esempio 2. Sia X Bin(n, p). Si vuole calcolare un limite superiore alla P
_
X
n
2
_
.
Poiche E(X) = np lapplicazione della disuguaglianza di Markov fornisce
P
_
X
n
2
_
E(X)
n
2
= 2p
75
Si supponga ad esempio che X Bin(100, 0.7), allora la disuguaglianza di Markov fornisce
P (X 50)
100 0.7)
100
2
= 2 0.7 = 1.4
Non era necessario scomodare il luminare russo. A volte la disuguaglianza di Markov
fornisce limiti superiori inutili. Allora a che serve ?
Esempio 3. (In negozio) La vita media dichiarata dal costruttore di queste lampadine è
di 8.000 ore, ma in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio. Perche non vi conviene acquistare nulla in questo negozio? La disuguaglianza di
Markov dice che il venditore è, quanto meno, un millantatore infatti detta X la v.a. che
rappresenta la vita media di una lampadina è noto che E(X) = 8.000, ma allora
P(X 16.000)
E(X)
16.000
=
8.000
16.000
=
1
2
laermazione in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio è quindi una millanteria. Ecco la forza della disuguaglianza di Markov! Della
v.a. X nulla è noto se non il valore atteso, pure è stato possibile determinare un limite
superiore alla probabilità dellevento dinteresse.
Pubblicità. La disuguaglianza di Markov si può ricavare, in modo alternativo, a partire
da alcuni risultati sulle variabili aleatorie positive che questanno non avremo il tempo di
vedere. I curiosi possono consultare lappendice alla lezione (non in programma).
Teorema (disuguaglianza di Chebyshev). Per ogni v.a. X, e per ogni > 0,
P
_
[X E(X)[
_
var(X)
2
Dimostrazione. Si noti che
_
[X E(X)[
_
=
_
[X E(X)[
2

2
_
. Poiche la v.a.
[X E(X)[
2
è positiva si può applicare la disuguaglianza di Markov che fornisce
P
_
[X E(X)[
_
= P
_
[X E(X)[
2

2
_
E
_
[X E(X)[
2
_
2
=
var(X)
2
Forma alternativa della disuguaglianza di Chebyshev.
P
_
[X E(X)[ <
_
1
var(X)
2
Esempio
Si eettuano 100 lanci indipendenti di una moneta con P(T) = 0.5. Sia X la v.a. che
conta il numero di Teste su 100 lanci. Determinare un limite inferiore alla probabilità
dellevento [41 X 59].
Usando la versione alternativa della disuguaglianza di Chebyshev
P(41 X 59) = P([X 50[ < 10) 1
25
100
=
3
4
dove abbiamo ricordato che per la v.a. X Bin(100, 0.5) vale E(X) = np = 100
1
2
= 50
e var(X) = np(1 p) = 100
1
2
_
1
1
2
_
= 25. In questo caso lespressione esatta della
probabilità è
P(41 X 59) =
49
k=41
_
100
k
_
1
2
100
.
76
13.3 Motivazione allintroduzione delle densità congiunte
Varianza della somma di due v.a.
Date due v.a. X ed Y , denite sullo stesso spazio di probabilità, si consideri la v.a.
Z = X + Y . Vogliamo calcolare la varianza di Z. Cominciamo con il calcolo algebrico,
usando la linearità del valore atteso.
var(X +Y ) = E
_
(X +Y E(X +Y ))
2
_
= E
_
(X E(X) +Y E(Y ))
2
_
= E
_
(X E(X))
2
_
+E
_
(Y E(Y ))
2
_
+ 2E
_
(X E(X))(Y E(Y ))
_
= var(X) + var(Y ) + 2E
_
(X E(X))(Y E(Y ))
_
Il termine misto è, come vedremo, molto interessante e merita un nome.
Denizione. La covarianza delle v.a. X ed Y è
cov(X, Y ) := E
_
(X E(X))(Y E(Y )
_
Proprietà della covarianza.
(a.) cov(X, X) = var(X)
(b.) cov(X, Y ) = E(XY ) E(X)E(Y ).
Immediato ed analogo a var(X) = E(X
2
) [E(X)]
2
.
(c.) A seconda della relazione tra le v.a. X ed Y la covarianza può assumere qualunque
valore in R. Ad esempio, per Y = X si ha cov(X, X) = var(X) < 0, per Y = b,
costante, cov(X, b) = E(Xb) E(X)E(b) = 0
Calcolo della covarianza. Come si calcola cov(X, Y )? Dallespressione cov(X, Y ) = E(XY )
E(X)E(Y ) si capisce che la dicoltà consiste nel calcolo di E(XY ). A tal ne conoscere le
densità di probabilità di X e di Y non è suciente. In eetti se X = x
i
ed Y = y
j
il prodot-
to XY = x
i
y
j
, ma P(XY = x
i
y
j
) non è calcolabile sulla base di p
X
e p
Y
. Una scappatoia
è usare il teorema fondamentale, trasportando il calcolo sullo spazio campionario:
E(XY ) =
X()Y ()P().
Ottimo! Ma solo quando si conoscono , la misura P e le mappe X() ed Y (). Purtroppo
solo raramente si dispone di tutte queste informazioni.
Esempio. Consideriamo un caso molto semplice: X ed Y entrambe v.a. b(p), quin-
di p
X
(1) = p
Y
(1) = p. Come abbiamo già visto, esistono inniti spazi di probabilità
(, T, P), e variabili aleatorie X() ed Y () compatibili con il fatto che X ed Y siano
entrambe b(p). Peraltro, in questo caso, il prodotto XY può assumere solo due valori: 0,
se X = 0 o Y = 0 , e 1 se X = Y = 1. Il valore atteso si può quindi calcolare come
E(XY ) = 0 P
_
[X = 0] [Y = 0]
_
+ 1 P
_
[X = 1] [Y = 1]
_
= P
_
[X = 1] [Y = 1]
_
A partire da p
X
(1) := P([X = 1]) = p e p
Y
(1) := P([Y = 1]) = p non è possibile
calcolare P
_
[X = 1] [Y = 1]
_
, poiche, in generale, gli eventi [X = 1] ed [Y = 1] non sono
indipendenti.
Per calcolare agevolmente la covarianza, e per molto altro ancora, è necessario estendere
la nozione di densità discreta di probabilità, che per ora abbiamo denito sullo spazio dei
valori di una singola v.a., allo spazio dei valori di una coppia di v.a. (X, Y ).
77
Disuguaglianza di Markov
A13.1 Valore atteso e variabili aleatorie non-negative
Teorema. Sia X è una v.a. a valori non-negativi, ovvero tale che A R
+
allora
E(X) =
_

0
[1 F
X
(x)] dx
Dimostrazione. Ricordo che la funzione di distribuzione si può scrivere
F
X
(x) =
i
p
X
(x
i
)1l(x x
i
),
quindi
_

0
[1 F
X
(x)] dx =
_

0
_
1
i
p
X
(x
i
)1l(x x
i
)
_
dx
=
_

0
i
p
X
(x
i
)
_
1 1l(x x
i
)
_
dx
=
i
p
X
(x
i
)
_

0
_
1 1l(x x
i
)
_
dx
=
i
p
X
(x
i
)x
i
= E(X)
Domanda a bruciapelo: perche la v.a. X deve essere positiva anche questa dimostrazione
funzioni?
Interpretazione graca del teorema. Il valore atteso E(X) è larea tratteggiata in gura.
-
6
t
t
F
X
(x)
1
t
x
1
x
2
x
3 x
Caso particolare: v.a. a valori in N.
Se A = N 0, il valore atteso si può calcolare come
E(X) =
k=0
P(X > k)
Dimostrazione. Per il teorema precedente E(X) è larea compresa tra la funzione di dis-
tribuzione e la costante 1. Se la v.a. assume valori nellinsieme dei numeri naturali
questarea si può calcolare come
E(X) =
k=0
1 (1 F
X
(k)) =
k=0
P(X > k)
78
La gura qui sotto dimostra gracamente il teorema. Si osservi che il risultato continua
a valere se p
X
(k) = 0 per qualche (anche inniti) k N. In gura p
X
è nulla per
k = 0, 5, 6, 7, 8 e per ogni k 10.
-
6
t
t
t
t
t
F
X
(x)
x
1
1 2 3 4 5 6 7 8 9 10
Esempio. Media di una v.a. geometrica X G(p). Abbiamo visto allinizio della lezione
che, per X G(p) è P(X > k) = (1 p)
k
. Allora
E(X) =
k=0
P(X > k) =
k=0
(1 p)
k
=
1
1 (1 p)
=
1
p
A13.2 Disuguaglianza di Markov.
Teorema. Se X è una v.a. non-negativa, per ogni a > 0
P(X a)
E(X)
a
Dimostrazione. Poiche P(X a) = 1 F
X
(a
) è suciente dimostrare che

E(X) a (1 F
X
(a
))
Ma questa disuguaglianza è ovvia. Vedi gura qui sotto. Se a non è uno dei valori della
v.a. allora F
X
(a) = F
X
(a
). La gura qui sotto rappresenta questo caso. Se invece a è

uno dei valori della v.a. allora a è un punto di salto ed F
X
(a
) = F
X
(a) p
X
(a). La
disuguaglianza continua a valere: tracciate la corrispondente gura.
-
6
t
t
F
X
(x)
t
x
1
x
2
x
3 x a
11
1
F
X
(a)
79
Lezione 14 (Marted`, 9 aprile 2013, ore 16:25-18:05)
14.1 Vettori aleatori discreti
Nel tentativo di calcolare la varianza della somma di due variabili aleatorie, X ed Y , ci
siamo imbattuti nel problema del calcolo del valore atteso E(XY ), che non è possibile
portare a termine conoscendo solo le densità p
X
() e p
Y
(). In questo, come in altri
problemi pratici, è utile disporre di una descrizione pi` u completa del comportamento di
due, o pi` u, variabili aleatorie. Allo scopo è necessario estendere la nozione di variabile
aleatoria al caso in cui linsieme dei valori anziche R è R
2
o, pi` u in generale, R
n
.
10
Denizione ed esempi
Denizione. La mappa V : R
2
è detta vettore aleatorio bidimensionale. Pi` u in
generale V : R
n
è detto vettore aleatorio n-dimensionale. Le componenti del vettore
aleatorio
V () :=
_
_
X
1
()
. . .
X
n
()
_
_
sono n variabili aleatorie, ognuna con proprio alfabeto A
i
, e densità di probabilità p
X
i
().
La notazione che adotteremo usualmente per i vettori bidimensionali è
V () :=
_
X
1
()
Y ()
_
Consideriamo per lo pi` u vettori bidimensionali, poiche il caso n-dimensionale è unesten-
sione banale del caso bidimensionale, a parte alcune questioni marginali che saranno
segnalate.
Insieme di valori del vettore aleatorio. In generale se A = x
1
, x
2
, . . . e } = y
1
, y
2
, . . .
sono gli alfabeti di X ed Y rispettivamente, lalfabeto di V = (X, Y )
è 1 A }, dove
in generale linclusione è stretta.
Esempio 1. Sullo spazio campionario degli esiti del lancio di due dadi, uno Rosso ed
uno Nero, sia (X, Y ) il vettore aleatorio con X lesito del dado Rosso, ed Y il minimo dei
due esiti. In questo caso A = } = 1, 2, 3, 4, 5, 6 e, benche (1, 3) A }, il vettore
(X(), Y ()) ,= (1, 3) per ogni . In eetti 1 = (i, j) ; 1 j i 6 .
Probabilizzare linsieme dei valori del vettore aleatorio. Procedendo come per le variabili
aleatorie si osserva che, anche se lapplicazione V () = (X(), Y ()) non è in
generale invertibile, esiste una corrispondenza biunivoca tra gli elementi (x
i
, y
j
) A }
e le loro anti-immagini V
(1)
() = X
(1)
(x
i
) Y
(1)
(y
j
)
(x
i
, y
j
) X
(1)
(x
i
) Y
(1)
(y
j
)
ed è quindi naturale assegnare
P
t
((x
i
, y
j
)) := P
_
X
(1)
(x
i
) Y
(1)
(y
j
)
_
10
Non è per il gusto dellastrazione matematica che interessa generalizzare ai vettori quanto visto per
le variabili aleatorie. Al contrario, nella pratica ingegneristica lavorare con vettori aleatori è la prassi.
Quando si progetta un esperimento, lacquisizione dati rappresenta spesso solo una piccola frazione del
costo complessivo, si tende quindi a misurare anche centinaia di variabili, rimandando alle analisi successive
la distinzione tra variabili rilevanti per la comprensione dei fenomeni dinteresse e variabili ridondanti.
80
Notazione. Per indicare levento ; X() = x
i
e Y () = y
j
, a seconda del contesto,
e senza ulteriori spiegazioni, scriveremo indierentemente X
(1)
(x
i
) Y
(1)
(y
j
), [X =
x
i
] [Y = y
j
], [X = x
i
, Y = y
j
] e anche, pi` u sinteticamente, X = x
i
, Y = y
j
, specialmente
come argomento della misura di probabilità. Scriveremo quindi indierentemente
P( ; X() = x
i
e Y () = y
j
) = P
_
X
(1)
(x
i
) Y
(1)
(y
j
)
_
= P ([X = x
i
] [Y = y
j
])
= P(X = x
i
, Y = y
j
).
Denizione. Per il vettore aleatorio (X, Y )
p
XY
(x
i
, y
j
) := P
t
((x
i
, y
j
)) = P(X = x
i
, Y = y
j
), (x
i
, y
j
) A }.
è detta funzione di densità discreta del vettore (X, Y ), o anche densità congiunta delle
variabili aleatorie X e Y .
Nota Bene. Se (x
i
, y
j
) non è uno dei valori assunti dal vettore (X, Y ), lanti-immagine
X
(1)
(x
i
) Y
(1)
(y
j
) = , quindi automaticamente p
XY
(x
i
, y
j
) = 0. Quando si fanno
conti su casi specici è però importante individuare linsieme dei valori 1 di (X, Y ), come
nellesempio qui sotto.
Esempio 1 - continuazione. Proseguendo lesempio 1, si calcola immediatamente (vedi
appunti) la densità del vettore V = (X, Y ), dove X è il risultato del dado Rosso ed Y
il minimo dei risultati dei due dadi. La rappresentazione tabulare della densità è molto
comoda.
XY 1 2 3 4 5 6
1
6
36
0 0 0 0 0
2
1
36
5
36
0 0 0 0
3
1
36
1
36
4
36
0 0 0
4
1
36
1
36
1
36
3
36
0 0
5
1
36
1
36
1
36
1
36
2
36
0
6
1
36
1
36
1
36
1
36
1
36
1
36
Proprietà della densità congiunta di due variabili aleatorie
(a.) (nonnegatività)
p
XY
(x
i
, y
j
) 0, per ogni (x
i
, y
j
) A }
(b.) (normalizazione)
x
i
.
y
j
p
XY
(x
i
, y
j
) = 1.
Dimostrazione. La (a.) è banale. Per la (b.) si ricordi che (vedi Lezione xx) le anti-
immagini X
1
(x
i
) ed Y
1
(y
j
) formano due partizioni di . Le intersezioni
11
X
1
(x
i
)
Y
1
(y
j
) formano quindi una partizione di e da qui discende il risultato.
11
Prodotto di partizioni. Se |E
i
ed |F
j
sono due partizioni di un insieme allora |E
i
F
j
è una
partizione (partizione prodotto) di . Dimostrazione. Presi due elementi diversi E
i
F
j
ed E
h
F
k
è ovvio
che (E
i
F
j
)
(E
h
F
k
) = . Inoltre
_
i,j
(E
i
F
j
) =
_
i
_
j
(E
i
F
j
) = [poiche |F
j
è una partizione] =
_
i
E
i
=
Non causa problemi leventuale presenza di insiemi vuoti nella partizione. Ci` o avviene se E
i
F
j
= per
una o pi` u coppie (i, j).
81
Osservazione. Come nel caso delle analoghe proprietà della densità di una singola v.a., le
proprietà (a.) e (b.), prese insieme, sono necessarie e sucienti ance una data funzione
p(, ) sia una valida densità congiunta di due variabili aleatorie. Vale infatti il seguente
importante teorema (facoltativo).
Teorema di esistenza. Sia p(x
i
, y
j
) : A } R una funzione che soddisfa le proprietà
p(x
i
, y
j
) 0, per ogni (x
i
, y
j
) A },
i,j
p(x
i
, y
j
) = 1,
allora esiste uno spazio di probabilità (, T, P) e due variabili aleatorie X : R ed
Y : R tali che p
XY
(x
i
, y
j
) = p(x
i
, y
j
).
Dimostrazione. [Limitata al caso [A[ < e [}[ < .] Si denisca = A }. Poiche
[[ < si può sempre prendere -algebra T = P(). La misura di probabilità basta
assegnarla sui singleton. Se = (x
i
, y
j
) sia P() := p(x
i
, y
j
). Le proprietà della
funzione p(x
i
, y
j
) garantiscono che P è una misura di probabilità. La v.a. X : R
è per denizione la mappa = (x
i
, y
j
) X() := x
i
, ed analogamente Y è la mappa
= (x
i
, y
j
) Y () := y
j
. La densità congiunta delle v.a. (X, Y ) è
p
XY
(x
i
, y
j
) = P(; X() = x
i
, Y () = y
j
) = P((x
i
, y
j
)) = p(x
i
, y
j
).
che è quanto si doveva dimostrare.
Densità congiunte e marginali
Le densità p
X
() e p
Y
() delle componenti di V = (X, Y ), dette densità marginali del
vettore V , si possono ricavare dalla densità congiunta p
XY
(, ) usando le equazioni:
p
X
(x
i
) =
j
p
XY
(x
i
, y
j
), p
Y
(y
j
) =
i
p
XY
(x
i
, y
j
).
Dimostrazione. (vediamo la prima)
j
p
XY
(x
i
, y
j
) =
j
P([X = x
i
] [Y = y
j
]) = P(X =
x
i
) = p
X
(x
i
), poiche [Y = y
j
] è una partizione di .
Osservazione importante. Se p
X
e p
Y
sono due densità assegnate esistono in generale
innite densità congiunte p
XY
che hanno per marginali p
X
e p
Y
. Questo, nel caso di
alfabeto A } nito lo si può dimostrare usando la teoria dei sistemi di equazioni lineari.
In eetti se [A[ = N e [}[ = M allora [A }[ = N M, e p
XY
è determinato da N M1
numeri non-negativi, minori di 1 (perche?). Per imporre che p
XY
abbia marginali p
X
e
p
Y
si usano le equazioni delle marginali, ovvero p
X
(x
i
) =
j
p
XY
(x
i
, y
j
) (in totale N 1
equazioni, una per ogni valore x
i
, meno 1 poiche solo N 1 valori p
X
sono liberi) e
p
Y
(y
j
) =
i
p
XY
(x
i
, y
j
) (in totale M 1 equazioni). Abbiamo dunque un sistema di
N + M 2 equazioni LINEARI in N M 1 incognite. Anche nel caso pi` u semplice,
N = M = 2, ci sono pi` u incognite che equazioni. In generale dunque esistono innite
densità congiunte compatibili con assegnate densità marginali.
Valore atteso di funzioni scalari di un vettore aleatorio
Sia V = (X, Y ) un vettore aleatorio discreto e g : R
2
R una funzione scalare su R
2
.
Allora Z = g(V ) = g(X, Y ) è una variabile aleatoria scalare della quale si può calcolare il
valore atteso. Il teorema fondamentale del valore atteso si generalizza al caso vettoriale.
82
Teorema.
E(g(X, Y )) =
x
i
.
y
j
g(x
i
, y
j
)p
XY
(x
i
, y
j
)
Dimostrazione. Poiche g(X, Y ) è una v.a. si può usare il teorema fondamentale
E(g(X, Y )) =
g(X(), Y ()) P() = poiche X

1
(x
i
) Y
1
(y
j
) è una partizione
=
i,j
_
_

X
1
(x
i
)Y
1
(y
j
)
g(X(), Y ()) P()
_
_
=
i,j
g(x
i
, y
j
)
_
_

X
1
(x
i
)Y
1
(y
j
)
P()
_
_
=
i,j
g(x
i
, y
j
) P(X
1
(x
i
) Y
1
(y
j
))
=
i,j
g(x
i
, y
j
) p
XY
(x
i
, y
j
).
Osservazione. Il teorema consente di calcolare il valore atteso della funzione scalare di due
variabili aleatorie g(X, Y ), usando solo linformazione contenuta nella densità congiunta
p
XY
(x
i
, y
j
). Nelle applicazioni però abitualmente si dispone solo della densità congiunta,
mentre spazio (, T, P) e mappe X() ed Y () non sono noti e/o non interessano. Sia
p(x
i
, y
j
), una funzione non-negativa e normalizzata su A }, cioè una densità congiunta
valida.
`
E allora possibile calcolare
i,j
g(x
i
, y
j
)p(x
i
, y
j
). (1)
Cosa rappresenta lespressione (1)? Usando il teorema di esistenza, si ricava che lespres-
sione (1) è il valore atteso E(g(X, Y )), dove X ed Y sono le variabili aleatorie denite
come nella dimostrazione del teorema di esistenza.
Due esempi fondamentali. Due casi semplici ma importanti di impiego del teorema.
(a.) g(x, y) = x +y
In questo caso il teorema fornisce
E(X +Y ) =
i,j
(x
i
+y
j
) p
XY
(x
i
, y
j
).
Esercizio obbligatorio. Dimostrare laddittività del valore atteso a partendo da qui.
(b.) g(x, y) = xy
Ancora usando il teorema,
E(XY ) =
i,j
x
i
y
j
p
XY
(x
i
, y
j
)
Esempio concreto. X ed Y hanno densità congiunta
XY 0 1
0 0.5 0.1
1 0.1 0.3
83
Il calcolo delle marginali mostra che X ed Y sono entrambe v.a. di Bernoulli b(0.4). Il
valore atteso del prodotto è
E(XY ) =
i,j
x
i
y
j
p
XY
(x
i
, y
j
) = p
XY
(1, 1) = 0.3.
Linformazione contenuta nella densità congiunta permette di calcolare la varianza della
somma, ricordando che var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) e che cov(X, Y ) =
E(XY ) E(X)E(Y ). Svolgete il conticino.
Esercizio proposto 1. Costruire esempi di densità congiunte su 0, 1
2
, come sopra. Veri-
care che, in generale, le due marginali sono Bernoulli di parametri diversi. Si determini la
condizione anche le marginali sono entrambe Bernoulli con lo stesso parametro (rispos-
ta: p
XY
(0, 1) = p
XY
(1, 0).). Tra queste ultime densità congiunte si cerchino esempi con
cov(X, Y ) nulla e negativa. Deteminare la condizione sugli elementi della densità con-
giunta che dà luogo a cov(X, Y ) = 0 (questa parte è piuttosto laboriosa: la condizione è
p
XY
(0, 0)p
XY
(1, 1) [p
XY
(0, 1)]
2
= 0).
Esercizio proposto 2 Con riferimento alla continuazione dellesempio 1 (vedi p. 79), si
calcoli E(XY ). Son conti della serva, noiosi e non istruttivi. Dello stesso tipo sono i conti
per determinare cov(X, Y ).
Estensione ai vettori aleatori in R
n
Lestensione della nozione di densità congiunta al caso di n variabili, ovvero ai vettori
aleatori ad n dimensionali, è immediata. Se, ad esempio, V : R
3
mappa V () =
(X(), Y (), Z()) si denisce la densità congiunta tridimensionale:
p
XY Z
(x
i
, y
j
, z
k
) = P(X = x
i
, Y = y
j
, Z = z
k
).
La densità p
XY Z
gode di proprietà analoghe a quelle della densità bidimensionale:
p
XY Z
(x
i
, y
j
, z
k
) 0, per ogni i, j, k,
i,j,k
p
XY Z
(x
i
, y
j
, z
k
) = 1.
A partire dalla p
XY Z
si possono ricavare 3 densità marginali bidimensionali p
XY
, p
XZ
,
p
Y Z
e 3 unidimensionali, p
X
, p
Y
, p
Z
. A titolo di esempio:
p
XY
(x
i
, y
j
) =
k
p
XY Z
(x
i
, y
j
, z
k
)
p
Y Z
(y
j
, z
k
) =
i
p
XY Z
(x
i
, y
j
, z
k
)
p
Y
(y
j
) =
i,k
p
XY Z
(x
i
, y
j
, z
k
).
Viceversa, in generale non è unica la densità tridimensionale p
XY Z
(x
i
, y
j
, z
k
) con le 6
densità marginali p
XY
, p
XZ
, p
Y Z
, p
X
, p
Y
, p
Z
assegnate.
Anche il teorema fondamentale del valore atteso si estende immediatamente al caso n-
dimensionale. Ad esempio, in R
3
,
Teorema. Sia (X, Y, Z) un vettore aleatorio di densità congiunta p
XY Z
e g : R
3
R allora
E
_
g(X, Y, Z)
_
=
i,j,k
g(x
i
, y
j
, z
k
) p
XY Z
(x
i
, y
j
, z
k
)
84
14.2 Condizionamento per v.a.: motivazione
Avviene spesso che la densità di una v.a. o la densità congiunta di due o pi` u v.a. siano
pi` u facilmente calcolabili usando la regola di moltiplicazione o la formula della probabilità
totale. Questo comporta la necessit` a di introdurre densità condizionate di una v.a. rispetto
(a.) ad un evento E o (b.) ad i valori della stessa variabile aleatoria, o (c.) ad i
valori di unaltra, o di pi` u di una variabili aleatorie. Vediamo in questa e allinizio della
prossima lezione, esempi dei tre tipi.
Esempio 1. In unurna ci sono 2 monete truccate con P(T) =
1
5
ed una moneta onesta con
P(T) =
1
2
. Lesperimento consiste nel pescare una moneta a caso dallurna e nel lanciarla
ripetutamente. Sia X la v.a. che indica il numero di lanci che dovrò eettuare no ad
ottenere la prima Testa. Determinare la densità della v.a. X.
Soluzione. Sarete tentati di ritenere X una v.a. geometrica. Cos` non è. Siano [X
k
= 1],
k = 1, 2, . . . , gli eventi che indicano il successo (Testa) nella kesima prova, ed E
0
=pesco
la moneta onesta. La v.a. numero di tentativi no al primo successo ha densità
geometrica se (a) P([X
k
= 1]) = p è costante in k e (b) gli eventi [X
k
= 1], k = 1, 2, . . .
sono indipendenti. Per quanto riguarda (a), la formula della probabilità totale fornisce
P
_
[X
k
= 1]
_
= P
_
[X
k
= 1]
E
0
_
P(E
0
) +P
_
[X
k
= 1]
E
c
0
_
P(E
c
0
) =
1
2
1
3
+
1
5
2
3
=
3
10
,
quindi (a) è soddisfatta. Per quanto riguarda (b) si considerino ad esempio gli eventi
[X
1
= 1] e [X
2
= 1]. Ancora dalla formula della probabilità totale
P
_
[X
1
= 1] [X
2
= 1]
_
=
P
_
[X
1
= 1] [X
2
= 1]
E
0
_
P(E
0
) +P
_
[X
1
= 1] [X
2
= 1]
E
c
0
_
P(E
c
0
) =
_
1
2
_
2
1
3
+
_
1
5
_
2
2
3
=
11
100
.
Per quanto visto sopra
P
_
[X
1
= 1] [X
2
= 1]
_
=
11
100
,= P
_
[X
1
= 1]
_
P
_
[X
2
= 1]
_
=
3
10
3
10
=
9
10
,
quindi gli eventi [X
1
= 1] e [X
2
= 1] non sono indipendenti, (b) non è soddisfatta.
Abbiamo appurato che la densità di X non può essere geometrica. Peraltro, la probabilità
condizionata dellevento [X = k] (prima Testa al kesimo lancio) dato levento E
0
(pesco
la moneta onesta) vale
P(X = k[E
0
) =
1
2
_
1
1
2
_
k1
, k 1,
poiche levento condizionante E
0
ssa la moneta e ci fa ricadere nel paradigma della
variabile geometrica, G
_
1
2
_
in questo caso.
`
E naturale introdurre la denizione di densità
condizionata di X dato levento E
0
come
p
X[E
0
(k[E
0
) := P(X = k[E
0
) =
P
_
[X = k] E
0
_
P(E
0
)
ATTENZIONE: Per il modo in cui è formulato il problema i DATI sono p
X[E
(k[E
0
) e
p
X[E
c
0
(k[E
c
0
). Non arrivate da nessuna parte se, ad esempio, tentate di CALCOLARE
p
X[E
0
(k[E
0
) usando la denizione
P([X=k]E
0
)
P(E
0
)
.
85
Per questo esempio avremo quindi
p
X[E
0
(k[E
0
) =
1
2
_
1
1
2
_
k1
, k 1
e analogamente
p
X[E
c
0
(k[E
c
0
) =
1
5
_
1
1
5
_
k1
, k 1
La formula della probabilità totale inne fornisce per k 1
p
X
(k) = p
X[E
0
(k[E
0
)P(E
0
) +p
X[E
c
0
(k[E
c
0
)P(E
c
0
)
=
1
3
_
1
2
_
1
1
2
_
k1
_
+
2
3
_
1
5
_
1
1
5
_
k1
_
Nota bene. La v.a. X non è geometrica, dovreste però essere in grado di dire quanto vale
E(X) senza far conti, solo ricordando che per una densità geometrica il valore atteso è
1
p
.
Il risultato è E(X) =
1
3
2 +
2
3
5.
86
Lezione 15 (Mercoled`, 10 aprile 2013, ore 16:25-18:05)
15.1 Condizionamento per v.a.: motivazione II
Vediamo un secondo esempio di densità condizionata. In questo caso levento condizio-
nante è generato dalla variabile aleatoria stessa.
Esempio 2. Lesperimento consiste in lanci consecutivi, indipendenti di una moneta con
P(T) = p. Con X si indica il numero di lanci no alluscita della prima Testa. Come noto
X G(p) e la probabilità di unattesa lunga, che superi h lanci, per il primo successo è
P(X > h) = (1 p)
h
. Iniziamo a lanciare la moneta, ottenendo una slza di h insuccessi:
si è cioè vericato levento X > h e non ha pi` u alcun interesse parlare della sua probabilità.
Ha senso invece, e riviste grande interesse, rivalutare la probabilità di attesa lunga, che
superi k + h lanci, tenendo conto che si è vericato X > h. Formalmente ci stiamo
chiedendo: quanto vale la probabilità condizionata P(X > k + h[X > h)? La risposta è
semplice
P(X > k +h[X > h) =
P([X > k +h] [X > h])
P(X > h)
=
P(X > k +h)
P(X > h)
=
(1 p)
k+h
(1 p)
h
= (1 p)
k
= P(X > k)
Abbiamo ottenuto un risultato in apparenza sorprendente e che si può leggere come segue.
La rivalutazione della probabilità di dover attendere per pi` u di k lanci il primo successo,
cominciando a contare i k lanci dopo aver osservato una slza di h 1 insuccessi (equivale
ad attesa maggiore di k + h lanci contando dallinizio), è costante in h ed è uguale alla
probabilità di dover attendere pi` u di k lanci a partire dallinizio dellesperimento. Con
linguaggio pittoresco si dice che la variabile aleatoria geometrica è priva di memoria.
12
Riformulazione in termini di densità. Il precedente risultato si può formulare in modo
alternativo introducendo la nozione di densità condizionata della variabile aleatoria X,
dato levento X > h. Si procede come segue.
p
X[[X>h]
(k) := P(X = k[X > h) =
P
_
[X = k] [X > h]
_
P(X > h)
, k Z
Osservando che (a.)[X = k] [X > h] = [X = k] se k > h, mentre [X = k] [X > h] =
se k h, (b.) P(X > k) = (1 p)
k
, (c.) P(X = k) = (1 p)
k1
p1l(k 1), si ha
p
X[[X>h]
(k) =
_
_
P()
P(X>h)
= 0, se k h,
P(X=k)
P(X>h)
= (1 p)
kh1
p, se k > h.
In forma compatta, il risultato si scrive
p
X[[X>h]
(k) = p
X
(k h), k Z,
12
Questo risultato decreta linescusabile imbecillit` a di quei giocatori che puntano quattrini con maggiore
accanimento sui numeri cosiddetti ritardatari. Poiche E(X) = 18 il giocatore si aspetta che ognuno dei 90
numeri si ripresenti in media ogni 18 estrazioni. Se lattesa di un particolare numero si protrae, e.g. X > h
con h circa 60-70, i giocatori vanno in allerta. Quando poi h > 100 si scatena la follia collettiva.
`
E celebre
il caso del 53 sulla ruota di Venezia che aveva accumulato un ritardo di 182 estrazioni causando la rovina
economica di pi` u di qualcuno e, ancora pi` u estremo, l8 sulla ruota di Roma arrivato dopo unattesa di 201
estrazioni.
87
Teorema. La densità geometrica è lunica densità sullalfabeto N che gode della proprietà
di assenza di memoria.
Dimostrazione. Sia W una qualunque variabile aleatoria a valori in N. La proprietà di
assenza di memoria equivale a
P(W > k +h[W > h) =
P(W > k +h)
P(W > h)
= P(W > k) (1)
Deniamo f(k) := P(W > k) allora la condizione (1) si scrive
f(k +h) = f(k)f(h)
Questa relazione di ricorrenza determina la forma funzionale di f. Infatti, posto q := f(1),
si trova f(2) = f(1 + 1) = f(1)f(1) = q
2
, f(3) = f(2 + 1) = f(2)f(1) = q
3
e procedendo
iterativamente f(k) = q
k
. Poiche q è una probabilità q [0, 1], quindi anche p = 1 q
[0, 1]. Utilizzando il parametro p la soluzione dellequazione di ricorrenza si riscrive
P(W > k) = f(k) = (1 p)
k
,
da cui immediatamente discende che
p
W
(k) = P(W > k 1) P(W > k) = f(k 1) f(k) = (1 p)
k1
p
ma questa è proprio la densità G(p) Abbiamo dimostrato che se la densità della v.a. W
non ha memoria allora è necessariamente W G(p) per qualche p [0, 1].
Esempio 3. Il terzo esempio riguarda il caso in cui è noto a priori che si sono vericati
eventi generati da una variabile aleatoria Y , e se ne vuol tenere conto nel calcolo della
densità di unaltra v.a. X. Passiamo direttamente alle denizioni rimandando gli esempi
pratici al seguito.
15.2 Densità condizionate
Denizione. Siano X ed Y variabili aleatorie di densità congiunta p
XY
(x
i
, y
j
). Per ogni y
j
tale che p
Y
(y
j
) > 0, la densità condizionata di X, dato levento [Y = y
j
] è
p
X[Y
(x
i
[y
j
) := P(X = x
i
[Y = y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
Attenzione. Non bisogna farsi fuorviare dalla terminologia. Per quanto è noto, la proba-
bilità condizionata P(E[F) è una misura rispetto allevento di sinistra, ad evento di destra
ssato. Per la densità condizionata questo si traduce in: la p
X[Y
(x
i
[y
j
) è una densità su
A per ogni y
j
ssato, ovvero i numeri p
X[Y
(x
i
, y
j
) soddisfano alle condizioni
p
X[Y
(x
i
[y
j
) 0,
i
p
X[Y
(x
i
[y
j
) = 1.
I numeri p
X[Y
(x
i
[y
j
) non costituiscono invece una densità su }, ne tantomeno una densità
congiunta su A }, ifatti essi sono positivi, ma la loro somma può essere maggiore di 1.
Microesercizio: supponendo che [A[ = N e [}[ = M, calcolare
i,j
p
X[Y
(x
i
[y
j
).
Come visto anche in precedenza, alcuni dei dati di un problema pratico si presentano
spesso sotto forma di probabilità condizionate.
13
Ad esempio potrebbero essere dati del
13
Il prototipo di questa situazione è lEsempio 2 della Sezione 6.3, dove sono naturalmente modellati
come probabilità condizionate i dati forniti dallucio acquisti, che forniscono le probabilit` a di difetto dei
chip di memoria, per ognuna delle aziende produttrici
88
problema la densità condizionata p
X[Y
(x
i
[y
j
) e la densità p
Y
(y
j
). In questo caso continua
a valere la relazione
p
X[Y
(x
i
[y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
,
che può essere utilizzata per ricavare la densità congiunta p
XY
(x
i
, y
j
). La formula della
probabilità totale e quella di marginalizzazione sono naturalmente collegate tra loro e si
possono usare per ricavare la densità p
X
(x
i
), infatti
p
X
(x
i
) =
j
p
XY
(x
i
, y
j
) =
j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
).
Inne è ovvia la formula di Bayes per la densità condizionata a posteriori
p
Y [X
(y
j
[x
i
) =
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
p
X
(x
i
)
=
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
Le precedenti formule si possono scrivere invertendo i ruoli di X ed Y , in questo caso i
dati sono la densità condizionata p
Y [X
(y
j
[x
i
) e la densità p
X
(x
i
). La p
Y
(y
j
) allora è
p
Y
(y
j
) =
i
p
XY
(x
i
, y
j
) =
i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
e, con la formula di Bayes, si determina la densità condizionata a posteriori
p
X[Y
(x
i
[y
j
) =
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
p
Y
(y
j
)
=
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
15.3 Variabili aleatorie indipendenti.
Denizione. Linsieme di v.a. X, Y di densità congiunta p
XY
(x
i
, y
j
) è indipendente se
p
XY
(x
i
, y
j
) = p
X
(x
i
)p
Y
(y
j
), per ogni (x
i
, y
j
) A }
Terminologia e notazioni.
`
E invalso labuso le v.a. X ed Y sono indipendenti invece del
corretto linsieme X, Y è indipendente. Per indicare che X ed Y sono indipendenti si
usa a volte il simbolo X Y .
Esempio. Si consideri il vettore aleatorio V = (X, Y ) a valori nellinsieme 1 A }, e
si supponga che la densità congiunta p
XY
(x
i
, y
j
) sia uniforme su 1. La domanda è: le
variabili aleatorie X ed Y sono indipendenti? La risposta è: se 1 è strettamente incluso
in A } le variabili X ed Y non sono indipendenti, se 1 = A } le variabili X ed Y
sono indipendenti. Esercizio. Spiegare la risposta.
Lemma. Le v.a. X e Y sono indipendenti se e solo se le v.a. f(X), e g(Y ) sono indipendenti
per ogni coppia di funzioni f, g : R R.
Dimostrazione. Assumiamo che X e Y siano indipendenti e siano f e g due funzioni
assegnate. Si deniscano le variabili aleatorie U := f(X) e V := g(Y ). Si deve allora
dimostrare che U, e V sono indipendenti. La densità congiunta di U, V è
p
UV
(u
h
, v
k
) =
i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
XY
(x
i
, y
j
) =
i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
X
(x
i
)p
Y
(y
j
)
=
_

i
f(x
i
)=u
h
p
X
(x
i
)
_ _

j
g(y
j
)=v
k
p
Y
(y
j
)
_
= p
U
(u
h
)p
V
(v
k
).
89
Laltra direzione del lemma è banale, è suciente prendere f, e g funzioni identità.
Osservazione. Questo lemma è la versione per le coppie di v.a. dellequivalenza delle
aermazioni E F, E
c
F, E F
c
, E
c
F
c
per gli eventi dimostrata in precedenza.
[elaborare]
Teorema A. Se X e Y sono variabili aleatorie indipendenti allora
E(XY ) = E(X)E(Y )
Dimostrazione. Per calcolo diretto
E(XY ) =
i,j
x
i
y
j
p
XY
(x
i
, y
j
)
=
i,j
x
i
y
j
p
X
(x
i
)p
Y
(y
j
)
=
i
x
i
p
X
(x
i
)
j
y
j
p
Y
(y
j
) = E(X)E(Y ).
Osservazione.
`
E interessante osservare che, se le v.a. X ed Y sono indipendenti ed inoltre
E([X[) < e E([Y [) < allora sicuramente E([XY [) < , infatti
E([XY [) =
i,j
[x
i
y
j
[ p
XY
(x
i
, y
j
)
=
i,j
[x
i
[ [y
j
[ p
X
(x
i
)p
Y
(y
j
) = E([X[)E([Y [).
In prosa: le condizioni E([X[) < e E([Y [) < , che garantiscono lesistenza del valore
atteso di X e di Y , sono sucienti a garantire lesistenza del valore atteso della v.a. XY .
Corollario del Teorema A. Se X e Y sono indipendenti allora
cov(X, Y ) = E(XY ) E(X)E(Y ) = 0
Corollario del Corollario
14
Se X e Y sono indipendenti allora
var(X +Y ) = var(X) + var(Y )
Dimostrazione. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), ma se X ed Y sono
indipendenti cov(X, Y ) = 0.
Osservazione sul Teorema A. Applicando il teorema fondamentale del valore atteso e sin-
istra e a destra del risultato del Teorema A se ne trova unespressione alternativa su .
Mettiamo a confronto le due espressioni.
i,j
x
i
y
j
p
XY
(x
i
, y
j
) =
i
x
i
p
X
(x
i
)
j
y
j
p
Y
(y
j
)
X()Y () P() =
X() P()
Y () P()
14
La validit` a della relazione var(X+Y ) = var(X)+var(Y ) è una manifestazione del teorema di Pitagora,
un tema ricorrente di questo semestre. In Segnali e Sistemi lo chiamano formula di Parseval. Le
apparizioni di Pitagora sono sempre legate alla geometria dellortogonalit` a rispetto ad un prodotto interno
denito in uno spazio vettoriale. In probabilit` a e in teoria dei segnali gli spazi vettoriali sono funzionali,
ovvero i vettori sono funzioni : segnali ad energia nita nel caso di Segnali e Sistemi, variabili aleatorie
a varianza nita in probabilit` a. Riprenderemo linterpretazione geometrica pi` u avanti.
90
Terminologia, notazioni, osservazioni. Leggere con estrema attenzione!
Il valore atteso E(XY ) è detto correlazione delle variabili aleatorie X e Y . Se E(XY ) =
E(X)E(Y ) le v.a. X ed Y si dicono scorrelate, altrimenti si dicono correlate. Il simbolo
X Y denota v.a. X e Y scorrelate. Non si confonda con che denota indipendenza.
Poiche vale il Teorema A, X Y implica X Y . Non vale il viceversa.
Esercizio obbligatorio. Si consideri la densità congiunta di gura, uniforme sui quattro
punti dove è concentrata. Quindi
(0,1)
(0,-1)
(-1,0)
(1,0)
x
y
p
XY
(0, 1) = p
XY
(1, 0) = p
XY
(0, 1) = p
XY
(1, 0) =
1
4
.
Vericare che le corrispondenti variabili aleatorie X ed Y sono scorrelate, ma non indipen-
denti.
La nozione di scorrelazione isola la pi` u utile conseguenza dellindipendenza, E(XY ) =
E(X)E(Y ), e la erige a denizione. Lesempio qui sopra dimostra che è utile denire la
nozione di scorrelazione visto che esistono coppie di variabili aleatorie scorrelate ma non
indipendenti. Sono banali conseguenze delle denizioni e delle proprietà elementari di
varianza e covarianza le seguenti aermazioni
micro-lemma: X Y se e solo se cov(X, Y ) = 0.
micro-lemma: Se X Y allora var(X +Y ) = var(X) + var(Y ).
Indipendenza di insiemi di variabili aleatorie
Denizione. Linsieme di v.a. X
1
, X
2
, . . . X
n
è detto indipendente se
p
X
1
X
2
...X
n
(x
1
, x
2
, . . . x
n
) = p
X
1
(x
1
)p
X
2
(x
2
) . . . p
X
n
(x
n
), per ogni x
1
, . . . , x
n
Lemma.
(a.) Se linsieme X
i
n
i=1
è indipendente allora le v.a. X
i
n
i=1
sono scorrelate a coppie.
(b.) Se le v.a. X
i
n
i=1
sono scorrelate a coppie allora var (
n
i=1
X
i
) =
n
i=1
var(X
i
)
Dimostrazione. (a.) Per ipotesi X
i
n
i=1
sono indipendenti quindi X
i
, X
j
con i ,= j
sono indipendenti, da cui la conclusione. (b.) Sviluppando algebricamente var(
i
X
i
) si
trova che in generale var(
i
X
i
) =
i
var(X
i
) +
i,j
cov(X
i
, X
j
). Se le v.a. X
i
sono
scorrelate a coppie la conclusione segue.
Osservazione. Il teorema A, ed i suoi corollari, mostrano perche è particolarmente conve-
niente lavorare con variabili aleatorie indipendenti. Peraltro in molte situazioni pratiche,
91
e specicamente nei casi di prove ripetute, è ragionevole rappresentare i risultati speri-
mentali con variabili aleatorie indipendenti. Ad esempio, il contesto della binomiale per
eventi è modellabile con n variabili aleatorie b(p) indipendenti. La verica formale di
questa aermazione sarà molto facile nella seconda parte del corso, quando disporremo di
strumenti pi` u avanzati.
Applicazione: calcolo della varianza di una Binomiale Sia X Bin(n, p). Interpretando la
v.a. binomiale come somma di n v.a. b(p) indipendenti (vedi osservazione sopra) si ricava
immediatamente var(X) = np(1 p).
Domanda critica Come mai per denire lindipendenza di, poniamo, tre v.a. X, Y, Z non
abbiamo seguito la stessa strada che era stato necessario seguire per denire lindipendenza
di tre eventi? Non abbiamo cioè richiesto anche lindipendenza delle coppie X, Y , X, Z e
Y, Z oltre a chiedere che p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
). La risposta è che, per le
v.a, imponendo p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
) lindipendenza delle coppie segue
dalle regole di marginalizzazione.
Esercizio svolto in aula
In un gioco dazzardo si paga 1 euro per partecipare e giocare contro il banco. La prob-
abilità di vincere è p. Se il gioco è onesto, qual è la somma x che il partecipante deve
ricevere in caso di vincita?
Nota bene. Il gioco è onesto, se il ricavo medio che si ottiene giocando è nullo, sia per il
banco che per il partecipante.
Soluzione. Indichiamo con R la variabile aleatoria che indica il ricavo del partecipante.
Il ricavo può prendere due soli valori. Se vince il banco R = 1, se vince il partecipante
R = x, dove x è la somma da determinare. La densità della v.a. R è p
R
(1) = 1 p e
p
R
(x) = p quindi R ha valore atteso
E(R) = (1) (1 p) +x p,
ed imponendo la condizione E(R) = 0 si trova
x =
1 p
p
Ad esempio se state giocando a Testa o Croce con il banco, usando una moneta onesta,
e pagando 1 euro per indovinare il risultato del singolo lancio, la somma che un banco
onesto vi paga quando indovinate la faccia uscita è
x =
1 0.5
0.5
= 1 euro
che è in accordo con lintuizione.
Se invece puntate 1 euro su unambata al Lotto, poiche la probabilità di successo è p =
1
18
la somma che dovreste ricevere è
x =
1
1
18
1
18
= 17 euro
FYI: in Italia, in caso di vincita, portate a casa 10.56 euro.
92
16.1 Spazi di probabilità generali
Come abbiamo visto nella Lezione 1, in molti casi lo spazio campionario non è discreto.
Questo avviene, ad esempio, ogni qual volta gli esiti dellesperimento sono i possibili valori
di grandezze siche inerentemente continue: masse, lunghezze, tempi ecc.
`
E necessario ricorrere a spazi campionari non discreti anche quando si voglia modellare
probabilisticamente innite prove ripetute di un esperimento con un numero nito di
esiti. Ad esempio, := 0, 1
N
, linsieme di tutte le sequenze innite di bit, modella i
possibili risultati di inniti lanci di una moneta. Su tale si possono costruire in modo
naturale una variabile aleatoria geometrica, oppure una sequenza di variabili aleatorie di
Bernoulli. Per convincersi che = 0, 1
N
non è discreto si osservi che ogni sequenza
innita di bit è lespansione binaria di un numero reale nellintervallo [0, 1], quindi [[ =
[R[. Tradizionalmente [R[ è detta cardinalità del continuo, quindi diremo che ha la
cardinalità del continuo o, pi` u brevemente, che è continuo.
Lo sviluppo della teoria della probabilità su spazi continui richiede strumenti di Analisi
Matematica (teoria della misura) che non è il caso di mettere in campo in un corso in-
troduttivo. In questa lezione ci limiteremo a dare un inquadramento generale, mettere in
evidenza alcune delle dicoltà e sviluppare, in modo rigoroso, un sottoinsieme della teoria
suciente per le applicazioni meno sosticate.
La teoria continua non dierisce nellimpianto dalla teoria discreta sviluppata nora. Uno
spazio di probabilità è una terna (, T, P) dove è un insieme astratto (spazio campi-
onario), T una algebra di sottoinsiemi di (eventi) e P una misura di probabilità. Non
ripetiamo ne la denizione di algebra, ne gli assiomi di P, che abbiamo già presentato
nella loro forma pi` u generale.
Continuità di P
`
E una conseguenza elementare degli assiomi particolarmente utile quando si trattano spazi
continui.
Teorema. (Continuità della misura di probabilità)
(a.) Se E
n
è una sequenza crescente di eventi, cioè E
n
E
n+1
per ogni n 1, allora
P
_

_
n=1
E
n
_
= lim
n
P(E
n
)
(b.) Se E
n
è una sequenza decrescente di eventi, cioè E
n+1
E
n
per ogni n 1, allora
P
_

n=1
E
n
_
= lim
n
P(E
n
)
Dimostrazione. (a.) Usiamo la decomposizione disgiunta, valida per ogni sequenza E
n
,
_
n=1
E
n
=
_
n=1
F
n
93
dove F
1
= E
1
ed F
n
:= E
n
n1
k=1
E
k
per n 2. Gli eventi F
n
sono disgiunti, inoltre per
costruzione
n
k=1
E
k
=
n
k=1
F
k
per ogni n. Poiche in questo caso, gli E
n
sono crescenti
per ipotesi è anche E
n
=
n
k=1
E
k
=
n
k=1
F
k
. Vale la seguente catena di uguaglianze
P
_

_
n=1
E
n
_
= P
_

_
n=1
F
n
_
=
k=1
P(F
k
) = lim
n
n
k=1
P(F
k
) = lim
n
P
_
n
_
k=1
F
k
_
= lim
n
P(E
n
)
(b.) Si dimostra in modo analogo oppure si fa uso della legge di de Morgan per esprimere
lintersezione, passando alla sequenza degli eventi complementari che soddisfano le ipotesi
per lapplicazione di (a.).
Osservazione. Se E
n
è una sequenza monotona crescente di eventi è naturale denire
lim
n
E
n
:=
n=1
E
n
, che si verica se e solo se si verica almeno uno degli E
n
. Se E
n
è
monotona decrescente lim
n
E
n
:=
n=1
E
n
, che si verica se si vericano tutti gli E
n
. Il
lemma di continuità della probabilità si può allora riformulare come segue.
Lemma (riformulato). Se E
n
è una sequenza monotona (crescente o decrescente) di eventi
allora
lim
n
P(E
n
) = P
_
lim
n
E
n
_
.
Perche questa proprietà è detta continuità di P? Perche, nella versione riformulata,
è evidente la somiglianza con lanaloga proprietà delle funzioni reali di variabile reale.
Richiamo: la funzione f : R R è continua in x se e solo se, per ogni sequenza x
n
x,
lim
n
f(x
n
) = f(x) = f
_
lim
n
x
n
_
.
Dicoltà legate agli spazi campionari non discreti
Come noto, nel caso discreto la misura di probabilità si può assegnare specicando P()
per ogni . Ogni tentativo di assegnare una misura di probabilità tale che P() > 0
per ogni in un insieme non numerabile è destinato a fallire.
15
Una possibile strategia per la denizione di P nel caso continuo consiste in (1.) scelta
di una -algebra T = ((), dove ( è una classe di eventi elementari e (() la -algebra
generata di (, ovvero la famiglia di eventi che si ottiene eettuando sequenze numerabili
di operazioni di unione e complementazione sugli elementi di (; (2.) assegnazione di P(C),
per ogni C (; (3.) estensione di P a tutta ((), nel rispetto degli assiomi.
La strategia appena delineata è ecace, ma i dettagli tecnici sono piuttosto intricati.
Diremo appena qualche parola in pi` u solo per il caso, fondamentale, in cui = R.
Scelta della algebra su R
Quando si deve denire una misura di probabilità su R, la algebra che pi` u comunemente
si considera è la algebra B(R) di Borel, ovvero la minima algebra che contiene gli
aperti di R.
`
E utile sapere che B(R) coincide con la algebra generata dalla classe delle
semirette chiuse I
x
:= (, x]. Questo, come vedremo, semplica di molto lassegnazione
di una misura di probabilità su R.
15
Sia P(|) > 0, assegnata per ogni non numerabile. Si denisca la sequenza di eventi monotona
crescente
n
:=
_
; P(|) >
1
n
_
. Naturalmente =
n2

n
e quindi esiste n
0
2 tale che
n
0
non è numerabile infatti una unione numerabile di insiemi numerabili è numerabile, mentre per ipotesi
non lo è. Fissato un intero M, grande a piacere, esistono allora almeno Mn
0
elementi distinti in
n
0
e quindi, vista la denizione di
n
0
, P(
n
0
) Mn
0
1
n
0
= M. Si ha quindi P(
n
0
) = e a fortiori
P() P(
0
) = .
Equivalentemente si pu` o dire che, qualunque sia la famiglia di numeri reali strettamente positivi |x
la somma
= . Questo è in forte contrasto con il caso numerabile in cui esistono innite sequenze
strettamente positive |x
n
nN
tali che
nN
x
n
< .
94
Lemma. B(R) = (I
x
).
Dimostrazione. I
x
B(R) per ogni x R, infatti I
x
= (x, )
c
B(R), quindi (I
x
)
B(R). Per dimostrare laltra direzione, ovvero che B(R) (I
x
) ricordiamo che ogni
aperto di R è unione, al pi` u numerabile, di intervalli aperti (a, b), con a b .
`
E suciente dimostrare che, con operazioni numerabili su insiemi del tipo I
x
, si possono
ottenere tutti gli intervalli aperti (a, b). Ad esempio, nel caso < a < b < ,
(a, b) =
_

_
n=1
I
b
1
n
_
I
c
a
.
Completate la dimostrazione considerando gli altri tre tipi di intervalli aperti (, b),
(a, ) e (, ).
Osservazione. A margine si osservi che, per ogni x R il singleton x B(R), infatti
x =
n=1
(x
1
n
, x +
1
n
).
In virt` u del Lemma appena dimostrato, dovendo specicare una misura Q su (R, B(R))
basterà assegnare Q sugli elementi I
x
per ogni x R, un compito molto pi` u semplice, che
aronteremo qui sotto, per denire le distribuzioni delle variabili aleatorie continue.
Variabili aleatorie
Denizione. Una variabile aleatoria denita sullo spazio di probabilità (, T, P) è una
funzione
X : R
che soddisfa la condizione di misurabilità, tale cioè che
X
1
(B) := : X() B T, per ogni B B(R).
Lemma. La funzione X : R è una variabile aleatoria (soddisfa cioè la condizione di
misurabilità) se e solo se, per ogni I
x
:= (, x],
X
1
(I
x
) := : X() x T.
Dimostrazione. Poiche gli insiemi I
x
generano la algebra B(R) e, per ipotesi, X
1
(I
x
)
T per ogni I
x
, intuitivamente la condizione sulle anti-immagini si estende a tutta la
algebra B(R). Tralasceremo i dettagli.
Misura indotta da una v.a. X su (R, B(R))
Come nel caso discreto, di una variabile aleatoria X non interessa la denizione funzionale
X : R, quanto la possibilità di calcolare le probabilità di eventi nello spazio dei valori
R. Ad esempio, qual è la probabilit` a che una tensione di rumore, modellata come variabile
aleatoria, sia nellintervallo [0.35, 0.70]V ? Nel caso generale lo spazio dei valori di X
non è discreto, ma è tutto R (o comunque un suo sottoinsieme non numerabile). Come si
specica la misura sullo spazio dei valori R in modo che essa sia compatibile con quella
nello spazio di partenza (, T, P)? Nel caso discreto, per trasportare la misura P da
(, T, P) a (A, P(A), P
t
), avevamo sfruttato la corrispondenza biunivoca x
i
X
(1)
(x
i
)
che conduce alla naturale denizione P
t
(x
i
) := P
_
X
(1)
(x
i
)
_
. Nel caso continuo si
adotta/adatta la stessa idea.
La v.a. X induce una misura P
X
sullo spazio (R, B(R)), compatibile con la misura P dello
spazio di partenza (, T, P) assegnando, per ogni B B(R),
P
X
(B) := P(X
1
(B)).
95
La condizione di misurabilità garantisce che la misura P
X
sia ben denita, poiche X
1
(B)
T garantisce che P(X
1
(B)) è ben denita. La dimostrazione del fatto che P
X
è una
misura di probabilità è basata sullidentità X
1
(
n
E
n
) =
n
X
1
(E
n
). Tralasceremo
questi dettagli.
Poiche (I
x
) = B(R) è suciente assegnare la misura P
X
sugli eventi I
x
che generano la
algebra B(R), basta cioè assegnare
P
X
(I
x
) := P(X
1
(I
x
)) = P(; X() x) = P(X x), x R.
Ma questa è una vecchia conoscenza dal caso discreto, F
X
(x) := P(X x) è la funzione
di distribuzione di X.
La conclusione di maggior interesse applicativo è che, se X è una variabile aleatoria con-
tinua, per assegnare completamente la misura di probabilità sullo spazio dei suoi valori R,
basta assegnare F
X
(x) per ogni x R.
Funzione di distribuzione di una variabile aleatoria
Rivediamo le proprietà di F
X
(x), già note dal caso discreto, estendendo le dimostrazioni
per includere anche il caso continuo laddove necessario.
Denizione (funzione di distribuzione, FdD)
F
X
(x) := P(X
1
(I
x
)) = P(X x), per ogni x R.
Proprietà della FdD.
(i.) monotonia
La FdD è monotona non decrescente, cioè per ogni x x
t
si ha
F
X
(x) F
X
(x
t
),
infatti, se x x
t
, si ha I
x
I
x
, da cui
X
1
_
I
x
_
X
1
_
I
x
_
e, per la monotonia della probabilità,
F
X
(x) = P
_
X
1
(I
x
)
_
P
_
X
1
(I
x
)
_
= F
X
(x
t
).
(ii.) normalizzazione
La FdD soddisfa i seguenti limiti
lim
x
F
X
(x) = 0, lim
x
F
X
(x) = 1,
infatti, I
x
per x , quindi X
(1)
(I
x
) e, per la continuità della probabilità,
lim
x
F
X
(x) = lim
x
P
_
X
1
(I
x
)
_
= P() = 0. Analogamente si dimostra il limite
per x .
(iii.) continuità da destra
La FdD è una funzione continua da destra, cioè per ogni x R si ha
lim
h0
+
F
X
(x +h) = F
X
(x),
il che discende ancora dalla continuità della probabilità e dal fatto che al tendere di h a 0
per valori positivi I
x+h
I
x
e quindi X
1
(I
x+h
) X
1
(I
x
).
96
(iv.) limite da sinistra
La continuità da sinistra della FdD non è garantita ma la funzione F
X
ammette limiti da
sinistra infatti, per h 0 vale
I
xh
= (, x h] (, x) (, x] = I
x
quindi
F
X
(x) := lim
h0
F
X
(x h) F
X
(x)
Se la diseguaglianza è vericata come eguaglianza la funzione F
X
(x) è continua in x. In
caso contrario, la funzione presenta in x una discontinuità di prima specie, cioè un salto.
Per la continuità della probabilità,
lim
h0
F
X
(x h) = lim
h0
P(X x h)
= P
_
lim
h0
[X x h]
_
= P(X < x),
quindi lampiezza delleventuale salto in x vale
F
X
(x) F
X
(x) = P(X x) P(X < x) = P(X = x)
(v.) numerabilit` a dellinsieme dei salti - facoltativo
La FdD, nel caso discreto è costante a tratti, con salti, in corrispondenza dei valori x
i
assunti dalla v.a.,
di ampiezza pari alla densit` a p
X
(x
i
). Nel caso di FdD di v.a. come la Poisson o la geometrica linsieme
dei salti è innito numerabile.
`
E una semplice conseguenza della monotonia e della limitatezza che, anche
nel caso generale, la FdD ha un insieme di salti al pi` u numerabile.
Lemma. Linsieme dei punti di salto di una FdD, se non è vuoto, è al pi` u numerabile.
Dimostrazione. Ammesso che x
1
< x
2
siano due punti di salto di F
X
(x), si ha
F
X
(x
1
) < F
X
(x
1
) F
X
(x
2
) < F
X
(x
2
)
di modo che esistono due numeri razionali distinti q
1
e q
2
tali che q
1
< q
2
e
F
X
(x
1
) < q
1
< F
X
(x
1
), F
X
(x
2
) < q
2
< F
X
(x
2
).
Pertanto è possibile porre in corrispondenza biunivoca i punti di salto con un sottoinsieme (al pi` u numer-
abile!) di numeri razionali.
(vi.) probabilità degli intervalli
Dalla denizione della FdD e dalle sue proprietà si ha che, a partire da F
X
(x), si possono
calcolare le probabilità di interesse relative alla variabile aleatoria. Ad esempio, per gli
intervalli, se a b ,
P(X > a) = 1 P(X a) = 1 F
X
(a)
P(a < X b) = P(X b) P(X a) = F
X
(b) F
X
(a)
P(a X b) = P(X b) P(X < a) = F
X
(b) F
X
(a
).
97
Esempio di funzione di distribuzione
x
1
x
2
x
3
x
4
x
F
X
(x)
1
Commenti. Nei punti x
2
, x
3
, e x
4
la FdD presenta salti, dunque le probabilità P(x
2
),
P(x
3
), e P(x
4
) sono strettamente positive e pari alle rispettive ampiezze dei salti. In
ogni altro x R è P(x) = 0. La probabilità P(x
1
X < x
2
) = 0 poiche nellintervallo
[x
1
, x
2
) la FdD è costante. Si noti che, a dierenza del caso discreto la FdD non è costante
a tratti.
98
17.1 Variabili aleatorie assolutamente continue
Denizione. La v.a. X : R, di funzione di distribuzione F
X
(x), si dice assolutamente
continua se esiste una funzione f
X
: R [0, ), integrabile secondo Riemann, in senso
improprio
16
, su R, tale che
F
X
(x) =
_
x
f
X
(x) dx
La funzione f
X
è detta densità della v.a. X.
Nota. Per il teorema fondamentale del calcolo, vedi anche i richiami in appendice alla
lezione, la FdD F
X
(x) di una v.a. assolutamente continua è continua per ogni x R
quindi, per le note proprietà delle FdD, si ha (in marcato contrasto con le v.a. discrete)
P(X = x) = F
X
(x) F
X
(x
) = 0 per ogni x R
Proprietà della funzione di densità
(a.) Per denizione f
X
(x) 0 per ogni x R, inoltre, poiche lim
x
F(x) = 1, passando
al limite nella denizione si trova
_

f
X
(x) dx = 1
Osservazione importante. Tutte le f() : R R, integrabili e che soddisfano le condizioni
f(x) 0, x R,
_

f(x) dx = 1.
sono possibili funzioni di densità di variabili aleatorie.
Nelle applicazioni le variabili aleatorie assolutamente continue sono pi` u spesso caratteriz-
zate fornendo la funzione di densità f
X
(x) piuttosto che la FdD F
X
(x).
(b.) In virt` u della continuità della FdD di una v.a. assolutamente continua, per ogni a b
P(a X b) = P(a X < b) = P(a < X b) = P(a < X < b) =
_
b
a
f
X
(x) dx
e, pi` u in generale, se E è un unione di intervalli di R
P(X E) =
_
E
f
X
(x) dx
(c.) Criterio di assoluta continuità. Se la FdD F
X
(x) della v.a. X è (
1
a tratti il teorema
fondamentale del calcolo, parte II, garantisce lesistenza della densità della v.a. X, che si
può denire come
f
X
(x) =
_
F
t
X
(x), nei punti x dove F
t
X
(x) è continua
arbitraria, dove F
t
X
(x) non è continua
larbitrarietà della densità in un insieme nito di punti non è un problema in quanto
lintegrale che denisce la FdD, F
x
(x) =
_
x
f
X
(t)dt, rimane invariato.
16
deve cioè esistere
_
:= lim
a
lim
b
_
b
a
99
Micro-esercizio. Sia X una variabile aleatoria di densità f
X
(x) =
3
8
(4x2x
2
) per 0 x 2,
e nulla altrove. Si verichi che f
X
è una densità. Si determini P(0.5 X 1.5). Vericare
per sola ispezione che P(X > 1) =
1
2
. (per analogo esercizio svolto e commentato, vedi
appunti da lezione)
Interpretazione della funzione di densità
I valori della funzione di densità delle v.a. assolutamente continue non sono probabilità.
Se X è una v.a. discreta p
X
(a) = P(X = a), mentre nel caso di una v.a. assolutamente
continua P(X = a) = 0 per ogni a, e f
X
(a) può assumere qualunque valore non negativo,
anche maggiore di 1. Il signicato intuitivo della funzione di densità si può ricavare
usando il teorema della media integrale. Se f
X
è continua nellintervallo [a, a + ] allora
per qualche c [a, a + ] vale
P(a X a + ) =
_
a+
a
f
X
(x) dx = f
X
(c)
quindi, per 0 sarà c a. Per sucientemente piccolo vale lapprossimazione
P(a X a + ) =
_
a+
a
f
X
(x) dx f
X
(a)
ovvero
f
X
(a)
P(a X a + )
(1)
che giustica la terminologia adottata: f
X
(x) è la densità della probabilità nel punto x.
Pensate ad una massa totale di 1 kg depositata su di un lo adagiato sulla retta reale. Sia
P(a X a + ) la quantità di massa adagiata sul lo nellintervallo [a, a + ]. Allora
la naturale denizione di densità di massa nel punto a è proprio f
X
(a).
Considerazioni dimensionali.
`
E utile rendersi conto che, dal punto di vista dimensionale,
se la v.a. X rappresenta ad esempio un tempo misurato in secondi, la densità di prob-
abilità, in virt` u della (1), è dimensionalmente una frequenza, misurata in Hz. Infatti il
numeratore in (1) è un numero puro e il denominatore è un tempo. Sempre a proposito
delle dimensioni siche: si tenga anche presente che se la v.a. X è ad esempio un tempo, il
valore atteso E(X) ha dimensione [tempo], e la varianza var(X) ha dimensione [tempo]
2
.
Convincetevene.
Valore atteso delle v.a. assolutamente continue
Denizione. La variabile aleatoria assolutamente continua X, di densità f
X
(x), ammette
valore atteso E(X) se esiste nito lintegrale generalizzato
17
E(X) :=
_

xf
X
(x) dx
Poiche
E([X[) =
_
0
(x)f
X
(x) dx +
_

0
xf
X
(x) dx,
è immediato concludere che la v.a. X ammette valore atteso se E([X[) esiste nito. Pi` u
in generale, se g : R R, il valore atteso della funzione di v.a. g(X), è
E(g(X)) :=
_

g(x)f
X
(x) dx,
17
In teoria della probabilit` a solitamente si utilizza la denizione standard di integrale generalizzato sulla
retta
_
:= lim
a
lim
b
_
b
a
. In Segnali e Sistemi è pi` u utile interpretare gli integrali sulla retta nel
senso del valore principale di Cauchy
_
:= lim
a
_
a
a
. Ovviamente i due integrali non sono equivalenti:
nel senso standard
_
xdx non esiste, mentre il valore principale di Cauchy è nullo.

100
se lintegrale generalizzato esiste nito. In particolare, prendendo g(x) := (x E(X))
2
si
ottiene la varianza della v.a. X:
var(X) = E
_
_
X E(X)
_
2
_
:=
_

(x E(X))
2
f
X
(x) dx
Tutte le proprietà del valore atteso e della varianza già viste nel caso delle v.a. dis-
crete continuano a valere. Lunica dierenza notevole è che la prima dimostrazione
delladdittività del valore atteso, basata sullespressione, dimostrata nel caso discreto,
E(X) =
X()P(), non si estende alle v.a. assolutamente continue. Vedremo però

che la seconda dimostrazione delladdittività, che ricorreva alle densità congiunte, continua
a valere.
Esempio di v.a. che non ammette valore atteso. Una v.a. X con funzione di densità
f
X
(x) :=
1
1
1 +x
2
,
è detta v.a. di Cauchy.
`
E facile vericare (fatelo!) che f
X
(x) soddisfa le condizioni
f
X
(x) > 0 per ogni x R e
_
f
X
(x) dx = 1 e quindi è eettivamente una funzione
di densità. Peraltro xf
X
(x) non è integrabile su R e quindi non esiste il valore atteso di
X. Vedremo pi` u avanti che le v.a. di Cauchy non sono strani oggetti matematici, ma che
possono facilmente originare in comuni situazioni sperimentali. Le v.a. di Cauchy hanno
anche un interesse teorico in quanto ci permetteranno di costruire semplici controesempi
quando studieremo i teoremi di convergenza.
Il seguente risultato sullesistenza dei momenti E(X
k
) è una semplice applicazione della
disuguaglianza di Jensen.
Lemma. Sia r s. Se esiste nito E([X[
s
) allora esiste nito E([X[
r
).
Dimostrazione. Osserviamo che, se > 1, la funzione t
è convessa per t R
+
, infatti
d
2
dt
2
t
= (1)t > 0 per t R

+
, quindi per la disuguaglianza di Jensen (paragrafo 11.1)
_
E([X[)
E([X[
). Si osservi anche che, se r s, vale [X[

r
=
_
[X[
r
_s
r
, dove
s
r
> 1,
quindi vale
_
E([X[
r
)
_s
r
E
_
([X[
r
)
s
r
_
= E([X[
s
) < .
V.a. assolutamente continue notevoli
(a.) Variabile aleatoria uniforme
Diremo che la v.a. assolutamente continua X è uniforme nellintervallo [a, b], e la denoter-
emo X U(a, b), se la densità di probabilità di X è
f
X
(x) =
_
_
_
0, x < a
1
ba
, a x b
0, x b
La corrispondente funzione di distribuzione è
F
X
(x) =
_
x
f
X
() d =
_
_
_
0, x < a
_
x
a
1
ba
d =
xa
ba
, a x b
_
b
a
1
ba
d = 1, x b
101
6
-
6
-
a
b
1
ba
x
f
X
(x) F
X
(x)
a
b
x
1
Si noti come, nei punti x = a ed x = b dove la densità non è continua, la funzione F
X
(x)
non è derivabile. Inoltre la distribuzione è costante per x < 0 e per x > b, dove la densità
è nulla.
Momenti delluniforme. Il calcolo di valore atteso e varianza di X U(a, b) sono banali
esercizi
E(X) =
a +b
2
, var(X) =
(b a)
2
12
.
(b.) Variabile aleatoria esponenziale
Diremo che la v.a. assolutamente continua X è esponenziale di parametro , e scriveremo
X Exp(), se X ha funzione di densità
f
X
(x) = e
x
1l(x)
dove 1l(x) è il gradino unitario.
Per vericare che la f
X
(x) è una densità si osservi che f
X
(x) 0 ovunque, inoltre
_

f
X
(x) dx =
_

0
e
x
dx =
1
e
x
0
= 1
Il calcolo di media e varianza, non è dicile, ma è un puro esercizio di analisi. Si integra
una volta per parti per il calcolo di E(X) e due volte per il calcolo di E(X
2
). Buon
divertimento. La varianza si trova con la solita scorciatoia a partire da E(X
2
) ed E(X).
E(X) =
_

0
xe
x
dx =
1
e
var(X) =
_

0
_
x
1
_
2
e
x
dx =
1
2
La funzione di distribuzione è molto pi` u facile
F
X
(x) =
_
x
f
X
(x) dx =
_
0 x < 0
_
x
0
e
d = 1 e
x
, x 0.
Dalla formula della funzione di distribuzione si ricava la semplice espressione
18
P(X a) = e
a
,
18
Per ogni v.a. assolutamente continua vale
P(a X b) = P(X b) P(X a) = P(X a) P(X b),
(interpretate gracamente le due identit` a!) quindi per una v.a. esponenziale
P(a X b) = P(X a) P(X b) = e
a
e
b
102
che è strutturalmente identica allespressione per la v.a. geometrica P(X > k) = (1 p)
k
.
In eetti le v.a. geometrica ed esponenziale sono molto simili. In particolare esse sono le
uniche due variabili aleatorie (la geometrica nel discreto, lesponenziale nel continuo) che
possiedono la proprietà di assenza di memoria.
`
E immediato vericare che (si veda anche
la Lezione 23 per un calcolo alternativo)
P(X x +h[X x) = P(X h)
Le v.a. esponenziali sono molto utilizzate in teoria delle code, per modellare tempi di
attesa.
Esempio. Sia N
1
la v.a. che modella il numero richieste di servizio al server in una unità
di tempo. Per quanto visto la scorsa lezione è spesso naturale modellare N
1
con una v.a.
di Poisson (si veda la Lezione 13, punto 2, commenti). Sia quindi N
1
T(), dove è il
numero medio di richieste nellunità di tempo. Allora il numero di richieste in t unità di
tempo è N
t
T(t). Ciò signica che
P(N
t
= k) = e
t
(t)
k
k!
, k = 0, 1, . . .
Sia ora W la v.a. che rappresenta il tempo di attesa del server no allarrivo della prima
richiesta di servizio. Il tempo di attesa è superiore a t unità se allistante t non è ancora
arrivata alcuna richiesta, ovvero N
t
= 0. Questo consente di scrivere
P(W > t) = P(N
t
= 0) = e
t
, per ogni t 0
La funzione di distribuzione di W è quindi
F
W
(t) = P(W t) = 1 P(W > t) = 1 e
t
, per ogni t 0
ma questa è proprio la distribuzione di una v.a. esponenziale. Abbiamo cioè dimostrato
che W Exp(). Il valore atteso di W è
1
. Se arrivano in media richieste per unità

di tempo è intuitivamente ovvio che, in media, la prima richiesta arrivi dopo
1
unità di
tempo.
103
Richiami sullintegrale di Riemann
(a.) Continuità e derivabilità a tratti
Sia f : [a, b] R. Diremo che f ha una discontinuità di prima specie (salto): in c (a, b)
se ivi esistono niti e diversi i limiti da destra e da sinistra; in a se ivi esiste nito e diverso
da f(a) il limite da destra; in b se ivi esiste nito e diverso da f(b) il limite da sinistra.
Si dicono continue a tratti le funzioni f : [a, b] R, continue in [a, b], tranne al pi` u in un
sottoinsieme nito di punti dove hanno salti.
Si dicono (
1
a tratti le funzioni f : [a, b] R, ovunque continue in [a, b] e derivabili, con
derivata continua, in [a, b], tranne al pi` u in un sottoinsieme nito di punti dove la derivata
ammette niti i limiti da sinistra e da destra.
Le derivate delle funzioni (
1
a tratti sono quindi funzioni continue a tratti.
(b.) Integrale di Riemann
La denizione e le proprietà dellintegrale di Riemann si suppongono note. Per brevità
diremo semplicemente integrabile ogni funzione integrabile nel senso di Riemann. Le
funzioni continue a tratti sono integrabili, e quindi lo sono anche le funzioni (
1
a tratti e
le loro derivate.
(c.) Teorema fondamentale del calcolo
Prima parte. Se f : [a, b] R è continua a tratti allora la sua funzione integrale,
F(x) :=
_
x
a
f(t) dt = F(x) F(a),
è continua per ogni x [a, b] e, nei punti di continuità di f, derivabile con
F
t
(x) = f(x)
Seconda parte. Se F : [a, b] R è una funzione (
1
a tratti, denendo f(x) := F
t
(x) nei
punti di derivabilità di F, ed arbitrariamente dove F non è derivabile, si ha che, per ogni
x [a, b],
F(x) F(a) =
_
x
a
f(t)dt
(d.) Integrale di Riemann improprio
Nella denizione dellintegrale di Riemann sia la funzione f che il dominio [a, b] sono lim-
itati. Lintegrale di Riemann improprio viene introdotto per superare questa limitazione.
Se la funzione f : (a, b] R è integrabile su [a + , b] per ogni > 0 e se esiste nito il
limite
lim
0
_
b
a+
f(t)dt
la f si dice integrabile su [a, b] in senso improprio e lintegrale
_
b
a
f(t)dt è denito come il
valore del limite. Analoghe denizioni di integrali impropri si danno nei casi f : [a, ) R
e f : R R. Interpretando gli integrali come limiti, il teorema fondamentale del calcolo
continua a valere.
104
18.1 Variabili aleatorie normali
Sono le pi` u importanti variabili aleatorie assolutamente continue.
Denizione. Una v.a. assolutamente continua X si dice normale (o gaussiana) di parametri
R e
2
> 0, e si denota X N(,
2
), se ha densità di probabilità
f
X
(x) :=
1
2
2
e
1
2
(x)
2
2
, per ogni x R
Nota bene. Il parametro può assumere qualunque valore reale. Il parametro
2
deve
essere strettamente positivo. La notazione
2
è standard e sta a ricordare che si tratta di
un numero strettamente positivo.
`
E un esercizio di Analisi I vericare che la funzione f
X
(x):
(a.) è ovunque strettamente positiva e continua,
(b.) è simmetrica rispetto al punto x = ,
(c.) ha un unico massimo, nel punto x = , dove vale f
X
() =
1
2
2
,
(d.) ha due essi, nei punti x = , dove vale f
X
( ) = f
X
()e
1
2
0.6f
X
(),
(e.) è integrabile su R infatti, per [x[ vale 0 < f
X
(x) <
1
2
2
e
1
2
2
[x[
e, poiche
il limite superiore è ovviamente integrabile, per il criterio del confronto f
X
è integrabile.
Non fatevi confondere dal ciarpame notazionale: il succo è che per [y[ vale 0 <
e
y
2
e
[y[
, e ovviamente e
[y[
è integrabile su R.
La verica della condizione di normalizzazione della densità è contenuta nel seguente
Lemma (facoltativo). Si tratta di uno dei pi` u classici esercizi di Analisi II.
Lemma.
_

1
2
(x)
2
2
dx =
2
2
, per ogni R,
2
R
+
Dimostrazione classica. Eettuando il cambio di variabile u =
1
2
2
(x ) ci si riduce a
_

1
2
(x)
2
2
dx =
2
2
_

e
u
2
du.
`
E quindi suciente dimostrare che
19
I :=
_

e
u
2
du =
.
`
E noto, ma non facile da dimostrare, che la primitiva della funzione e
u
2
non può es-
sere espressa in forma chiusa impiegando funzioni elementari, quindi I va calcolato di-
rettamente come integrale denito. Il trucco classico è di calcolare anziche I il suo
19
A mathematician is one to whom that is as obvious as that twice two makes four is to you, cos`
diceva William Thomson, Lord Kelvin, ai suoi studenti.
105
quadrato:
I
2
=
__

e
u
2
du
_
2
=
__

e
u
2
du
_
__

e
v
2
dv
_
(quindi per Fubini)
=
_

e
(u
2
+v
2
)
dudv (e quindi in coordinate polari)
=
_
2
0
_

0
e
2
d d =
_
2
0
1
2
d = (integrale in per parti).
Andamento della densità normale al variare dei parametri
In gura sono riportate le funzioni di densità N(2, 0.7), N(2, 1) e N(2, 1.5). Si noti come,
al diminuire di
2
, la densità si concentra sempre di pi` u intorno al valore . Si noti inoltre
che la densità, che è strettamente positiva per ogni x R, tenda però molto rapidamente
a 0. Appare evidente dai graci che, per una v.a. X N(,
2
), la probabilità di eventi
del tipo a X b assume valori non trascurabili solo per intervalli [a, b] nelle vicinanze
di .
Nota. Il caso
2
= 0 è degenere, in eetti la densità N(, 0) non è ben denita. Euristi-
camente, per ssato, si può considerare
lim
2
0
1
2
2
e
1
2
(x)
2
2
= (x ),
limpulso di Dirac centrato in . Questo è ragionevole poiche la famiglia di densità
N(,
2
), per costante e
2
0, costituisce una famiglia di impulsi di area unitaria,
per ogni
2
> 0, e il cui massimo, per x = , di valore
1
2
2
. Benche (x )
non sia una densità standard, essa si comporta come una densità nel senso delle funzioni
generalizzate. In eetti si può considerare (x ) > 0 ed inoltre
_
(x )dx = 1.
Funzione di distribuzione
La funzione di distribuzione della densità normale N(,
2
) è
F
X
(x) =
1
2
2
_
x
1
2
(w)
2
2
dw x R.
Poiche lantiderivata di e
w
2
non è esprimibile in forma chiusa, la funzione di distribuzione
deve essere valutata con metodi di integrazione numerica. I graci qui sotto mostrano la
densità e la distribuzione di N(4, 1).
106
Vedremo tra poco che il calcolo della funzione di distribuzione relativa alla densità N(,
2
),
qualunque siano e
2
, si può ricondurre al calcolo della funzione di distribuzione della
densità N(0, 1).
Nota.
`
E interessante calcolare la funzione di distribuzione F(x) che corrisponde alla densità
generalizzata (x ), caso limite di N(,
2
) per
2
= 0. Applicando la denizione
F(x) :=
_
x
(w )dw = 1l(x ),
dove 1l(x) è il gradino unitario. La funzione di distribuzione F(x) ha un unico salto,
di ampiezza 1, in corrispondenza del punto x = . Per quanto noto sulle funzioni di
distribuzione si conclude che se una variabile aleatoria ha densità generalizzata (x )
allora essa è una variabile aleatoria degenere, X = costante.
Valore atteso e varianza delle v.a. normali
I parametri e
2
che identicano la densità di una v.a. X N(,
2
) hanno, rispettiva-
mente, il signicato probabilistico di valore atteso e varianza di X.
(a) Valore atteso. Poiche la densità è simmetrica rispetto al punto x = e la funzione
[x[f
X
(x) è integrabile (ragionando come sopra il succo è che per [y[ vale 0 < [y[e
y
2
[y[e
[y[
ed il limite superiore è integrabile) si può concludere che il valore atteso è E(X) =
, valore in accordo con linterpretazione del valore atteso come baricentro della densità.
La derivazione formale è contenuta nel seguente
107
Lemma. Se X N(,
2
) allora
E(X) =
1
2
2
_

xe
1
2
(x)
2
2
dx =
Dimostrazione. Aggiungiamo e sottraiamo e usiamo laddittività dellintegrale
E(X) =
1
2
2
_

xe
1
2
(x)
2
2
dx
=
1
2
2
_

(x )e
1
2
(x)
2
2
dx +
1
2
2
_

1
2
(x)
2
2
dx
Il secondo addendo è lintegrale della densità moltiplicata per e vale quindi . Per
valutare il primo addendo si eettua il cambio di variabile u =
1
2
2
(x ):
_
2
2
ue
u
2
du =
_
2
2
1
2
__

d
_
e
u
2
_
=
_
2
2
e
u
2
= 0
Si conclude che E(X) = .
(b) Varianza (facoltativo). Sia X N(,
2
). Poiche E(X) = e la funzione (x
)
2
f
X
(x) è integrabile, la varianza esiste ed il suo valore è
var(X) =
1
2
2
_

(x )
2
e
1
2
(x)
2
2
dx
Procedendo con il solito cambio di variabile u =
1
2
2
(x) ci si riduce al seguente calcolo
var(X) =
2
2
u
2
e
u
2
du
=

2
ud
_
e
u
2
_
=

2
_
ue
u
2
e
u
2
du
_
=

2
_
0
=
2
Trasformazioni lineari di v.a. normali
Lemma fondamentale. Sia X N(,
2
) ed Y := aX + b, con a ,= 0, allora Y
N(a +b, a
2
2
)
Nota Bene. Il Lemma è fondamentale, ma va letto con attenzione per capirne la portata.
Esso aerma che, data X N(,
2
), la trasformazione lineare Y = aX + b è ancora
normale, di parametri E(Y ) = a+b = aE(X) +b e varianza var(Y ) = a
2
2
= a
2
var(X).
Per quanto già noto, ciò è esattamente quello che ci aspettiamo, in termini di valore atteso
e di varianza della trasformazione lineare. Linformazione fondamentale fornita dal Lemma
è che la densità di Y è normale. La densità normale è invariante per trasformazioni lineari
della v.a.
Dimostrazione. Per determinare la densità della v.a. Y cominciamo col determinarne la
funzione di distribuzione F
Y
(y). Supponiamo, per ssare le idee, che a > 0 allora
F
Y
(y) = P(Y y) = P(aX +b y)
= P
_
X
y b
a
_
= F
X
_
y b
a
_
.
108
La densità di Y si trova calcolando la derivata di F
Y
(y), quindi
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
F
X
_
y b
a
_
=
1
a
f
X
_
y b
a
_
=
1
a
1
2
2
e
1
2
(
yb
a

)
2
2
=
1
2a
2
2
e
1
2
(y(a+b))
2
a
2
2
Ma questa è la densità di una v.a. normale di media a+b e varianza a
2
2
, il che conclude
la dimostrazione del caso a > 0. Il caso a < 0 si tratta in modo simile.
F
Y
(y) = P(Y y) = P(aX +b y)
= P
_
X
y b
a
_
= 1 F
X
_
y b
a
_
Calcolando la derivata si trova
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
1 F
X
_
y b
a
__
=
1
a
f
X
_
y b
a
_
=
1
a
1
2
2
e
1
2
(
yb
a

)
2
2
=
1
2a
2
2
e
1
2
(y(a+b))
2
a
2
2
che ancora coincide con la densità di una v.a. normale di media a +b e varianza a
2
2
, il
che conclude la dimostrazione.
Corollario del lemma. Se X N(,
2
) allora
Z :=
X
N(0, 1),
dove := +
2
, è la cosiddetta deviazione standard della v.a. X.
Dimostrazione. Banale applicazione del precedente Lemma.
Osservazioni.
(a.) Terminologia. Ogni variabile aleatoria Z N(0, 1) è detta variabile aleatoria nor-
male standard. Il corollario quindi aerma che la trasformazione lineare Z :=
1
standardizza la v.a. X N(,

2
).
(b.) Se W è una qualunque v.a. con E(W) = e var(W) =
2
allora S :=
W
ha valore
atteso E(S) = 0 e varianza var(S) = 1, ma in generale S non conserva lo stesso tipo di
densità di W, ne tantomeno è normale.
(c.) Attenzione. Quando si standardizza, un errore frequentissimo è dividere per la
varianza
2
anziche per la deviazione standard .
Calcolo della probabilità di eventi per v.a. normali
Ogni calcolo di probabilità di eventi relativi alla generica v.a. X N(,
2
) si può
ricondurre al calcolo della probabilità di un evento per una v.a. Z N(0, 1).
109
Esempio. Sia X N(3, 4) e si voglia calcolare P(1 X 6). Applicando la standardiz-
zazione troviamo
P(1 X 6) = P
_
1 3
2

X 3
2

6 3
2
_
= P(1 Z 1.5)
Notazioni. La funzione di distribuzione F
Z
di una v.a. Z N(0, 1) normale standard, è
universalmente denotata (z), quindi
(z) :=
1
2
_
z
1
2
u
2
du, per ogni z R
La funzione (z) è la primitiva della funzione (
2)
1
e
1
2
z
2
e non esiste una forma chiusa
per questantiderivata. Peraltro è molto comodo poter disporre dei valori della (z) poiche
essi consentono di eettuare moltissimi calcoli probabilistici di interesse pratico. Sul sito
del corso trovate una tabella della (z). La tabella è costruita utilizzando uno sviluppo
in serie di (z), ma non abbiamo il tempo di entrare nei dettagli computazionali.
Il seguente (banale) lemma generalizza lesempio appena visto.
Lemma. Se X N(,
2
) allora
P(a X b) =
_
b
_
a
_
.
Poiche la densità N(0, 1) è una funzione pari si ricava immediatamente (tracciate una
gura e convincetevene) che
(z) = 1 (z)
per cui è suciente disporre della tabulazione di (z) per z 0.
Le probabilità di alcuni comuni eventi per Z N(0, 1), espressi in termini di (z), sono:
P(Z z) = (z)
P(Z z) = 1 (z) = (z)
P([Z[ z) = 2(z) 1
P([Z[ z) = 2(1 (z)) = 2(z)
Combinazioni lineari di v.a. normali indipendenti
Vale il seguente fondamentale risultato che dimostreremo in seguito.
Lemma. Se X
1
, X
2
, . . . X
n
sono v.a. normali indipendenti, con X
i
N(
i
,
2
i
) allora
n
i=1
i
X
i
N
_
n
i=1
i
,
n
i=1
2
i
2
i
_
Nota Bene. Come per il caso delle trasformazioni lineari di v.a. la portata di questo
risultato va capita a fondo. Per quanto già noto, la media e la varianza della v.a.
n
i=1
i
X
i
sono esattamente quelle che ci aspettiamo per le proprietà generali di media e varianza.
Linformazione fondamentale fornita dal Lemma è che la densità di
n
i=1
i
X
i
è normale.
110
Esempi ed esercizi
Esercizio 1 Alcuni numeri fondamentali per le v.a. normali.
Sia X N(,
2
).
`
E utile avere unidea delle probabilità delle deviazioni di X dal suo
valore atteso . Per fornire numeri universali, esprimiamo la deviazione usando come unità
di misura la deviazione standard. Allora si ha
P([X [ ) = P
_
[X[
_
= P([Z[ 1) = 2(1 (1)) 0.32
P([X [ 2) = P
_
[X[
_
= P([Z[ 2) = 2(1 (2)) 0.05
P([X [ 3) = P
_
[X[
_
= P([Z[ 3) = 2(1 (3)) 0.003
Per ricavare i valori numerici si è fatto uso della tabella della distribuzione normale stan-
dard (z). Attenzione con la normalizzazione: al numeratore cè X , la media è già
sottratta, basta dividere per la deviazione standard.
Passando al complementare, lultima approssimazione equivale a P([X[ 3) 0.997.
Equivalentemente
P( 3 X + 3) 0.997.
Questa osservazione è molto importante nelle applicazioni pratiche. I valori assunti da
una v.a. normale cadono con probabilità 0.997 nellintervallo [ 3, +3]. Qualunque
insieme di valori (evento) al di fuori dellintervallo ( 3, + 3), è molto improbabile
(ha probabilità inferiore a 0.003).
Esercizio 2. Calcolare limiti superiori alle probabilità dellesercizio 1 utilizzando la disu-
guaglianza di Chebychev.
P([X [ 3)
var(X)
9
2
=
1
9
0.11
questo è un altro esempio che mostra quanto lasca possa essere la disuguaglianza di
Chebychev (limite superiore 0.11 a fronte di probabilità approssimativamente uguale a
0.003).
Esercizio 3 (parte (e.) facoltativa per il primo compitino)
Un tecnico ha a disposizione gli strumenti A e B per misurare una certa lunghezza . Lo
strumento A fornisce la misura M
A
= + X
A
dove lerrore di misura X
A
N(0, 9). Lo
strumento B fornisce la misura M
B
= + X
B
dove lerrore X
B
N(0, 16). Gli errori di
misura X
A
e X
B
sono v.a. indipendenti.
(a.) Se voi foste il tecnico che strumento usereste?
(b.) Se il tecnico eettua la misura con lo strumento A qual è la probabilità che lerrore
sia di modulo minore di 4?
(c.) Il tecnico eettua due misure, una con lo strumento A ed una con lo strumento B, poi
calcola la media aritmetica delle due misure, ovvero M =
1
2
M
A
+
1
2
M
B
che considera come
misura nale. Qual è la probabilità che la misura M sia aetta da un errore di modulo
minore di 4?
(d.) Il tecnico vuole tenere conto della diversa precisione degli strumenti e quindi calcola
la misura nale come M
c
= (1 c)M
A
+ cM
B
dove c [0, 1]. Caratterizzare la densità
dellerrore che aigge la misura M
c
e calcolare il valore di c [0, 1] che minimizza la
varianza dellerrore.
(e.) Usando lo strumento A, e calcolando la misura nale come media aritmetica delle
misure eettuate, quante misure deve eettuare il tecnico per avere probabilità almeno
0.95 che il modulo dellerrore sia inferiore a 0.1 unità?
111
Soluzione
(a.) Il tecnico desidera minimizzare lerrore di misura. Poichè il processo di misura è
modellato probabilisticamente è naturale decidere quale strumento usare confrontando le
distribuzioni dellerrore di misura. Gli errori di misura sono rispettivamente X
A
N(0, 9)
ed X
B
N(0, 16).
`
E noto che se W N(,
2
) allora P([W[ < 3) 0.997. Il tecnico
quindi sa a priori che P([X
A
[ < 9) = P([X
B
[ < 12) = 0.997. Con probabilità 0.997 il
modulo dellerrore è minore di 9 unità se si usa lo strumento A, mentre è minore di 12
unità se si usa lo stumento B. Conviene usare lo strumento A.
(b.)
P([X
A
[ < 4) = P
_
[X
A
[
3
<
4
3
_
= 2
_
4
3
_
1 2 0.9082 1 0.82
(c.) Le v.a. M
A
e M
B
sono rispettivamente M
A
N(, 9) ed M
B
N(, 16), ed
indipendenti, quindi M =
1
2
M
A
+
1
2
M
B
è una v.a. N(
1
2
+
1
2
,
1
4
9 +
1
4
16) = N(,
25
4
).
Lerrore di misura sarà in questo caso M N(0,
25
4
). La probabilità che lerrore sia
in valore assoluto sotto alle 4 unità è
P([M [ < 4) = P
_
[M [
5/2
<
4
5/2
_
= 2
_
8
5
_
1 2 0.9452 1 0.89
Questa probabilità è maggiore di quella al punto (b.) e questa è una buona notizia.
Signica che il modulo dellerrore è sotto alle 4 unità con probabilità pi` u alta. Prendere
due misure e calcolarne la media aritmetica produce una misura nale migliore, anche se
la seconda misura è presa con uno strumento di qualità inferiore. Ma si può far di meglio
che combinare le due misure calcolandone la media aritmetica: vedi parte (d.).
(d.) M
c
= (1 c)M
A
+ cM
B
, quindi M
c
N(, 9(1 c)
2
+ 16c
2
). Lerrore di misura è
M N(0, 9(1c)
2
+16c
2
). La varianza dellerrore di misura è
2
(c) = 9(1c)
2
+16c
2
.
Derivando rispetto a c ed annullando la derivata otteniamo
d
dc
2
(c) = 18(1 c) +32c =
0 c =
9
25
Questo è eettivamente il minimo poichè
d
2
dc
2
2
(c) = 18 +32 > 0 ovunque. La
varianza ottimale vale
2
_
9
25
_
= 9
_
1
9
25
_
2
+ 16
_
9
25
_
2
= 5.76
Calcoliamo per curiosità la probabilità che lerrore stia sotto alle 4 unità se il tecnico
combina le due misure in modo ottimale, cioè usando c =
9
25
. La misura ottenuta sarà
M
=
16
25
M
A
+
9
25
M
B
N(, 5.76) e la probabilità cercata vale
P([M
[ < 4) = P
_
[M
5.76
<
4
5.76
_
= 2(2.4) 1 2 0.9918 1 0.98
che è sensibilmente pi` u alta di quella ottenuta usando la media aritmetica.
(e.) Eettuando n misure e calcolando la misura nale come media aritmetica si ottiene
la v.a.
M =
1
n
n
i=1
M
i
=
1
n
n
i=1
( +X
i
) = +
1
n
n
i=1
X
i
Per semplicare la notazione ho eliminato il pedice A dalle v.a. X
i
poiche stiamo usando
sempre lo strumento A. Ognuna delle v.a. X
i
N(0, 9). Lerrore di misura su M è
M =
1
n
n
i=1
X
i
N
_
0,
9
n
_
infatti le v.a. X
i
sono i.i.d. con media nulla e varianza 9, quindi
var
_
1
n
n
i=1
X
i
_
=
1
n
2
n
i=1
var(X
i
) =
9n
n
2
112
Imponiamo quanto richiesto in (e.), ovvero che
P([M [ 0.1) = P
_
1
n
n
i=1
X
i
0.1
_
0.95
Standardizzando si ottiene
P
_
1
n
n
i=1
X
i
0.1
_
= P
_
1
n
n
i=1
X
i
0.1
3
n
_
= P
_
[Z[
0.1
n
3
_
= 2
_
0.1
n
3
_
1 0.95
Abbiamo ottenuto il vincolo
2
_
0.1
n
3
_
1 0.95
che, con un paio di passaggi, si converte in
_
0.1
n
3
_
0.975
dalla tabella della normale standard si trova
(1.96) = 0.9750
quindi la condizione in n è
0.1
n
3
1.96
ovvero
n 58.8, n 3457.44
La risposta è che n = 3458 misure sono sucienti.
Esercizi che richiedono il Lemma sulle combinazioni lineari di v.a. normali indipendenti
Esercizio 4. Se X ed Y sono v.a. N(0, 1) indipendenti allora la v.a W = X Y è
W N(0, 2). (Banale applicazione del Lemma sulle combinazioni lineari di normali)
Esercizio 5. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P(X Y ).
Soluzione. P(X Y ) = P(X Y 0) = P(W 0), dove W N(0, 2). Qui non
è necessario standardizzare: basta osservare che, poiche W è normale di media nulla,
P(W 0) =
1
2
.
Esercizio 6. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P
_
X Y +
1
2
_
.
Soluzione. P
_
X Y +
1
2
_
= P
_
X Y
1
2
_
= P
_
W
1
2
_
, dove W N(0, 2). Per
standardizzare sottraiamo la media di W (che vale 0 in questo caso) e dividiamo per
la deviazione standard di W (che vale
2 in questo caso). Questo produrrà una v.a.

Z =
W0
2
N(0, 1) che consentirà di usare la tavola di (z).
P
_
W
1
2
_
= P
_
W 0
1
2
0
2
_
= P
_
Z
1
2
0
2
_
= 1
_
2
4
_
1 (0.35) 1 0.6368 = 0.3632.
113
19.1 Ripassone pre-compitino
Svolti in aula esercizi sul programma della prima parte del corso. Alcuni tratti dallelenco
qui sotto, altri inventati al momento per illustrare certi aspetti della teoria o tecniche di
calcolo. Svolgete quelli che non trovate sui vostri appunti. Tempo permettendo, in una
futura revisione aggiungerò le soluzioni.
Esercizio 1. Gli eventi A, B, e C sono equiprobabili, ed è altres` noto che
A B = ,
A e B sono indipendenti da C
P(A C) =
5
9
Calcolare i valori numerici di P(A B C) e P(C[A B).
Esercizio 2. Un esame consiste di 100 domande a risposta multipla. Ad ogni domanda
sono proposte 4 risposte di cui solo una è corretta.
(a.) Se lo studente risponde a caso, quante sono in media le risposte corrette?
(b.) Se si assegna 1 punto per ogni risposta corretta, che punteggio si deve assegnare alle
risposte errate anche il punteggio medio di chi risponde a caso sia nullo?
Esercizio 3. Mario va in libreria a curiosare e ad acquistare libri. Il tempo che Mario
passa in libreria è un numero intero di ore K, dove K è una variabile aleatoria uniforme a
valori nellalfabeto 1, 2, 3, 4. Sappiamo inoltre che il numero di libri che Mario acquista
è anchesso modellabile con una variabile aleatoria N.
`
E nota la densità condizionata
p
N[K
(n[k) =
_
1
k
, se 1 n k, e k 4,
0, altrove,
Calcolare la densità di N. Le variabili aleatorie N e K sono indipendenti? Sono scorrelate?
Esercizio 4. Il numero di utenti che si connettono al sito unipd.it in un intervallo di
tempo di 1 minuto è modellato con con una variabile aleatoria X T(), dove > 0 è
noto. Per ognuno degli utenti connessi, indipendentemente luno dallaltro, la probabilità
di essere uomo è p. Sia Y la variabile aleatoria che rappresenta il numero di uomini (che
si connettono al sito unipd.it in un intervallo di tempo di 1 minuto). Calcolare la densità
di Y .
Esercizio 5. Eettuo lanci indipendenti con una moneta che ha P(T) = p. Sia X il
numero di lanci no al primo successo ed Y il numero di lanci no al secondo successo.
Si determini p
XY
(k, h), p
Y
(h), p
X[Y
(k[h), p
X
(k) (ovviamente sappiamo già che p
X
(k) è
G(p)). Inne si determini, senza fare calcoli, E(Y ).
114
20.1 Classicazione delle variabili aleatorie: discrete, continue e miste
Abbiamo nora discusso due classi di variabili aleatorie, le discrete e le assolutamente
continue. Le variabili aleatorie discrete sono quelle ad alfabeto discreto e la cui funzione
di distribuzione (FdD) è quindi costante a tratti, con salti in corrispondenza ai valori
dellalfabeto. Le variabili aleatorie assolutamente continue sono quelle che ammettono
densità ed hanno quindi FdD continua.
`
E interessante osservare che la classicazione può
essere fatta basandosi esclusivamente sulle proprietà della FdD. In tal senso si classicano
come discrete o assolutamente continue indierentemente le variabili aleatorie o le loro
FdD.
In questa lezione introduciamo le variabili aleatorie miste, una classe pi` u generale di
variabili aleatorie, di grande interesse applicativo, e che comprende come casi particolari
le discrete e le assolutamente continue. Anche le v.a. miste si caratterizzano sulla base
di proprietà della FdD. Iniziamo richiamando le rappresentazioni analitiche delle FdD
discrete ed assolutamente continue.
La FdD F
d
(x) è discreta se essa si può rappresentare come
F
d
(x) =
x
i
.
p(x
i
)1l(x x
i
)
dove p(x
i
) è una densità discreta ed 1l(x) è il gradino unitario (continuo a destra).
`
E
immediato concludere che la funzione F
d
è costante a tratti, con salti nei punti x
i
A,
dove A 1 è un insieme discreto.
La FdD F
ac
(x) è assolutamente continua se essa si purappresentare come
F
ac
(x) =
_
x
f(w) dw
per qualche f() funzione integrabile secondo Riemann. Il teorema fondamentale del
calcolo garantisce che la funzione F
ac
è continua per ogni x 1.
`
E interessante notare che
(a.) Non tutte le FdD discontinue sono costanti a tratti.
(b.) Non tutte le FdD continue sono assolutamente continue.
In questa lezione vedremo alcuni esempi del caso (a.). Esempi del caso (b.) sono pi` u
complicati (FdD continue singolari) e sono rimandati ad una futura appendice.
Combinazioni convesse di funzioni di distribuzione
Lemma. Siano F
1
(x) ed F
2
(x) due FdD qualunque. Per ogni [0, 1] la funzione
F(x) = F
1
(x) + (1 )F
2
(x), x R
è una FdD.
Dimostrazione.
`
E suciente vericare che F(x) è non decrescente, continua da destra,
con limiti F() = 0 ed F() = 1. Tutte queste proprietà sono immediate conseguenze
delle ipotesi. Domanda: perche è essenziale lipotesi [0, 1]?
115
Corollario. Sia F
i
(x)
n
i=1
una sequenza di FdD qualunque e
i
n
i=1
una sequenza di
numeri reali nonnegativi tali che
n
i=1
i
= 1, allora la funzione
F(x) =
n
i=1
i
F
i
(x), x R
è una FdD. Se le FdD F
i
(x)
i
sono discrete allora F(x) è discreta. Se le F
i
(x) sono
assolutamente continue, allora F(x) è assolutamente continua.
Dimostrazione. La prima parte si dimostra per induzione nita a partire dal Lemma prece-
dente. La seconda parte discende immediatamente dalle denizioni. Domanda: perche è
essenziale lipotesi che
i
= 1?
Micro-esercizio. Nel caso in cui le F
i
(x)
n
i=1
sono assolutamente continue, di densità
rispettive f
i
(x)
n
i=1
, qual è la densità di F(x)?
Denizione. Sia F
i
(x)
n
i=1
una sequenza di FdD qualunque e
i
n
i=1
una sequenza di
numeri reali nonnegativi tali che
n
i=1
i
= 1, allora la FdD
F(x) =
n
i=1
i
F
i
(x), x R
è detta mistura delle F
i
(x), con pesi
i
.
Non si deve pensare che una mistura di FdD sia un oggetto matematico articioso e di
scarsa utilità pratica. In realtà è molto facile incappare in variabili aleatorie la cui FdD è
una mistura di FdD.
Esempi
Esempio 1. Alla luce delle denizioni date in questo paragrafo, lEsempio 1, del paragrafo
14.2, mostra un esempio di variabile aleatoria discreta la cui FdD è la mistura di due FdD
geometriche.
Esempio 2. Ogni FdD discreta è una mistura di FdD discrete degeneri.
Spiegazione. Avevamo già osservato che, per ogni c R, il gradino traslato 1l(x c) è una
FdD. Infatti 1l(x c) è nondecrescente, continua da destra, si annulla per x e vale
1 per x . Ha un unico salto, in x = c, di ampiezza 1. Denotando X una v.a. con
FdD 1l(x c) si ha che P(X = c) = P(X c) P(X < c) = F(c) F(c) = 1, ovvero X
è una v.a. degenere, X = c costante. Poiche ogni FdD discreta si può rappresentare come
F
d
(x) =
x
i
.
p(x
i
)1l(x x
i
),
dove p(x
i
) sono reali nonnegativi, tali che
x
i
.
p(x
i
) = 1, si conclude che F
d
(x) è una
mistura di FdD degeneri.
Esempio 3. Nel magazzino della squadra di minuto mantenimento del DEI si trovano 80
tubi al neon di durata media dichiarata di 8.000 ore e 40 tubi di durata media 12.000
ore. Uno dei tubi dellaula Ve è esaurito ed il manutentore K, per eettuare la sosti-
tuzione, sceglie un tubo a caso dal magazzino. Si assuma che la durata di un tubo al
neon sia modellabile con una v.a. di tipo esponenziale. Si determini la densità della du-
rata D del tubo scelto a caso dal manutentore. Soluzione. f
D
(x) =
80
120
1
8000
e
x
8.000
1l(x) +
40
120
1
12.000
e
x
12.000
1l(x), è una mistura di due v.a. assolutamente continue, esponenziali. Si
noti che non è unesponenziale!
116
Variabili aleatorie miste
Quando le FdD che compongono una mistura non sono tutte dello stesso tipo, la F(x)
risultante presenta caratteristiche nuove ed interessanti.
Denizione. Una FdD che presenta almeno un salto e che non è costante a tratti è detta
mista. Una variabile aleatoria è detta mista se la sua FdD è mista.
Osservazione. Ovviamente la FdD di una v.a. mista non è ne discreta (poiche non è
costante a tratti) ne assolutamente continua (poiche ha almeno un salto). La descrizione
generale delle v.a. miste esula dagli scopi del corso.
`
E comunque interessante, ed utile
nelle applicazioni, il caso illustrato nel seguente esempio.
Esempio. La mistura F(x) = F
d
(x) + (1 )F
ac
(x) (con (0, 1)) di una FdD asso-
lutamente continua e di una FdD discreta è una FdD mista. Infatti la FdD F(x) si può
rappresentare come (tracciare un graco qualitativo!)
F(x) =
x
i
.
p
d
(x
i
)1l(x x
i
) + (1 )
_
x
f
ac
(w) dw
che ha salti in corrispondenza dei punti x
i
e non è costante a tratti grazie alla presenza
della parte integrale. Non essendo continua F(x) non può essere assolutamente continua,
quindi non ammette una funzione di densità nel senso usuale, è però possibile denire una
densità generalizzata, usando le regole del calcolo generalizzato. La densità generalizzata
si può rappresentare come
f(x) =
x
i
.
p
d
(x
i
)(x x
i
) + (1 ) f
ac
(x).
Il valore atteso si determina facendo ricorso alle note regole di calcolo con le funzioni
generalizzate.
E(X) =
_

xf(x) dx
=
_

x
_
x
i
.
p
d
(x
i
)(x x
i
) + (1 ) f
ac
(x)
_
dx
=
x
i
.
x
i
p
d
(x
i
) + (1 )
_

xf
ac
(x) dx
Nel seguente esercizio si propone un esempio concreto di mistura di due FdD, una
assolutamente continua, laltra discreta.
Esercizio. Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatore
deve far girare lago di una ruota della fortuna, il cui bordo è graduato nellintervallo [0, 2].
Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente alla
posizione dellago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco.
Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare la
densità e il valore atteso di V .
Soluzione. f
V
(x) =
1
2
_
1
2
1l
[0,2]
(x)
_
+
1
2
_
(x + 1)
_
. Il gioco è equo, infatti E(V ) = 0.
Micro-esercizio. Tracciare la FdD della variabile aleatoria V .
117
20.2 Funzioni di variabili aleatorie
Motivazione. Abbiamo visto che assegnata una variabile aleatoria discreta X ed una fun-
zione g : R R, la funzione composta Y = g(X) è sempre una variabile aleatoria. Il
risultato pi` u importante per le funzioni di variabili aleatorie discrete è il teorema che
consente di calcolarne il valore atteso, quando esiste, a partire dalla densità discreta di X
E(g(X)) =
x
i
.
g(x
i
)p
X
(x
i
).
Una formula analoga labbiamo anche scritta, nella Lezione 17, trattando il valore atteso
delle variabili aleatorie assolutamente continue
E(g(X)) =
_

g(x)f
X
(x) dx,
ma senza fornire condizioni sucienti a garantire che loperazione sia matematicamene
ben denita.
Funzioni di variabili aleatorie. La prima condizione da imporre è che assegnata la variabile
aleatoria X e la funzione g : R R la funzione composta Y := g(X) sia ancora una
variabile aleatoria. Nel caso generale ciò non è automatico poiche deve essere garantita la
misurabilità delle anti-immagini. Fortunatamente esiste una condizione suciente molto
semplice.
Denizione. La funzione g : R R si dice misurabile se, per ogni B B(R),
g
1
(B) := x R; g(x) B B(R)
Commento. Lidea di misurabilit` a è esattamente la stessa introdotta per denire le variabili aleatorie.
Poiche nel caso generale le -algebre giocano un ruolo, è comune indicare la variabile aleatoria X : R
con la scrittura pi` u completa, che mette in evidenza le -algebre di partenza e di arrivo, X : (, T)
(R, B(R)). Allora X è una v.a. se X
1
(B) T per ogni B B(R). Nel caso di funzioni g : R R, dominio
e codominio di g coincidono con R, dotato della sua naturale algebra di Borel, cioè g : (R, B(R))
(R, B(R)) e la condizione di misurabilit` a è che g
1
(B) B(R) per ogni B B(R). Lipotesi di misurabilità è
molto blanda. Le funzioni continue, ma anche le funzioni solamente continue a tratti, sono tutte misurabili.
Per questo motivo, in questo primo corso di Probabilit` a, non menzioneremo pi` u le questioni di misurabilit` a
per funzioni g : R R.
Lemma. Se X è una variabile aleatoria e g : R R una funzione misurabile allora
Y = g(X) è una variabile aleatoria.
Dimostrazione. Basta vericare la misurabilità delle anti-immagini di g(X) ovvero veri-
care che
_
g(X)
1
(B) T per ogni B B(R). Poiche
_
g(X)
1
(B) = X
1
_
g
1
(B)),
lipotesi su g e il fatto che X è una variabile aleatoria sono sucienti a conludere.
Siamo ora in grado di specicare condizioni sucienti per lesistenza del valore atteso
di una funzione di variabile aleatoria assolutamente continua.
Lemma. Se X è una variabile aleatoria assolutamente continua di densità f
X
, e se g è una
funzione misurabile tale che [g(x)[f
X
(x) è integrabile allora il valore atteso E(g(X)) esiste
e si può calcolare come
E(g(X)) =
_

g(x)f
X
(x) dx.
Dimostrazione. Omessa.
118
Calcolo della densità di Y = g(X)
Motivazione. Come abbiamo visto, sia nel caso discreto che nel caso assolutamente con-
tinuo, il valore atteso E(g(X)) si può calcolare senza necessariamente calcolare prelimi-
narmente la densità f
Y
(y) della variabile aleatoria Y = g(X). Peraltro vi sono casi in
cui il problema della determinazione della densità di Y = g(X) è interessante per se.
Ad esempio, nella Lezione 18, abbiamo scoperto che la densità normale è invariante per
trasformazioni lineari: se X N(,
2
) e Y = g(X) := aX+b allora Y è ancora distribui-
ta normalmente. Questa informazione è stata preziosa per ridurre i calcoli di probabilità
per qualunque v.a. normale a calcoli relativi alla v.a. normale standard.
In questa e nella prossima lezione presenteremo metodi per il calcolo della densità
f
Y
(y) che illustreremo con svariati esempi. Il problema di base si può impostare come
segue.
Data la funzione di distribuzione F
X
(x), o in alternativa la densità f
X
(x), e la
funzione misurabile g : R R, determinare la funzione di distribuzione F
Y
(y),
o in alternativa la densità f
Y
(y), della v.a. Y = g(X).
Una strategia molto conveniente (non lunica) per risolvere questo tipo di problemi è
di ricavare la funzione di distribuzione F
Y
(y) a partire dai dati (F
X
(x) o f
X
(x) e g(x)) e
quindi calcolare, dove esiste, f
Y
(y) =
d
dy
F
Y
(y). In generale si tratta di calcolare
F
Y
(y) := P(Y y) = P(g(X) y) = P
_
X g
1
_
(, y]
_
_
,
da cui, se richiesta, si può determinare la densità f
Y
(y), calcolando la derivata rispetto ad
y del membro destro. Si noti che il calcolo delle anti-immagini
g
1
_
(, y]
_
si può condurre, per cos` dire, fuori linea nel senso che esse non dipendono in alcun modo
dalla distribuzione F
X
(x). Una volta calcolate, le anti-immagini si possono utilizzare per
determinare F
Y
(y) qualunque sia F
X
(x).
Primi esempi di calcolo della densità di Y = g(X)
Esempio 1. Dati: y = g(x) = ax +b, con a ,= 0 ed X |
_
[c, d]
_
.
Cominciamo con la determinazione di
F
Y
(y) = P(Y y) = P(aX +b y) =
_
_
_
P
_
X
yb
a
_
= F
X
_
yb
a
_
, se a > 0,
P
_
X
yb
a
_
= 1 F
X
_
yb
a
_
, se a < 0,
e calcolando la derivata rispetto ad y, compattando i due casi a > 0 e a < 0,
f
Y
(y) =
1
[a[
f
X
_
y b
a
_
.
Per concludere ricordiamo che la v.a. X |
_
[c, d]
_
ha densità
f
X
(x) =
_
1
dc
, se x [c, d],
0, altrove
quindi sarà
f
Y
(y) =
_
1
[a[
1
dc
, se
yb
a
[c, d],
0, altrove
119
o, pi` u esplicitamente,
f
Y
(y) =
_
1
[a[(dc)
, se y [ac +b, ad +b],
0, altrove
La conclusione è che Y |
_
[ac +b, ad +b]
_
.
Commento: Questo esempio mostra che anche la densità uniforme, come la normale, è
invariante per trasformazioni lineari.
Esempio 2. Dati: y = g(x) = ax +b, con a > 0 ed X Exp().
Quanto fatto per lesempio precedente continua a valere, parola per parola, no allespres-
sione
f
Y
(y) = F
t
X
(y) =
1
a
f
X
_
y b
a
_
poiche questa parte del problema dipende solo dalla funzione g(x) e non dalla densità della
variabile aleatoria X. Per concludere ricordiamo che per la v.a. X Exp() la densità
f
X
(x) = e
x
1l(x). Sostituendo troviamo che
f
Y
(y) =

a
e
yb
a
1l
_
y b
a
_
.
Commento. Se b = 0 allora Y Exp
_
a
_
, mentre se b ,= 0 allora la v.a. Y non è pi` u
di tipo esponenziale poiche essa non è pi` u concentrata sulla semiretta [0, ), bens` sulla
semiretta [b, ). La densità esponenziale è invariante per trasformazioni di cambio scala
con a > 0, non per trasformazioni lineari generali.
Esercizio. Considerare il caso a < 0. In questo caso la densità f
Y
(y) non è mai esponen-
ziale, poiche essa è concentrata sulla semiretta (, b].
Esempio 3. Dati: y = g(x) =
a
x
, con a > 0 ed X Cauchy(), ovvero
f
X
(x) =
1
x
2
+
2
Cominciamo con il determinare la FdD F
Y
(y).
F
Y
(y) = P(Y y) = P(g(X) y) = P
_
X g
(1)
_
(, y]
_
_
Si devono calcolare le anti-immagini g
(1)
_
(, y]
_
, al variare di y R. I graci qui sotto
permettono di concludere che
g
(1)
_
(, y]
_
=
_
_
_
a
y
, 0
_
, se y < 0,
(, 0) se y = 0,
(, 0)
_
a
y
,
_
se y > 0.
La FdD di Y = g(X) vale quindi
F
Y
(y) = P
_
X g
(1)
_
(, y]
_
_
=
_
_
_
0
a
y
f
X
(u) du, se y < 0,
P(X < 0), se y = 0,
P(X < 0) +
_
a
y
f
X
(u) du, se y > 0.
Ricordando che
d
dx
_
b
a(x)
f(u) du = f
_
a(x)
_
da(x)
dx
,
120
si determina la densità f
Y
(y) calcolando la derivata di F
Y
(y).
f
Y
(y) =
dF
Y
(y)
dy
=
a
y
2
f
X
_
a
y
_
y R 0
I conti fatti nora forniscono la densità di Y =
a
X
(con a > 0) in funzione di f
X
(x).
Specializzando al caso f
X
(x) = Cauchy() troviamo
f
Y
(y) =
a
y
2
1
_
a
y
_
2
+
2
=
1
y
2
+
_
a
_
2
da cui si conclude che Y Cauchy
_
a
_
. In particolare, se X Cauchy(1) allora Y :=
1
X
Cauchy(1).
Esempio 4. Dati: y = g(x) = x1l(x), funzione rampa, e X N(0, 1).
Osservazione. Questo esempio è importante poiche si verica un fenomeno inaspettato ed
inquietante. La funzione g(x) è ovunque continua e la variabile aleatoria X è assolutamente
continua, con densità estremamente regolare (la normale è di classe C
(R)), ciononostante
la variabile aleatoria Y = X1l(X) è, come vedremo, una v.a. mista.
Iniziamo con il calcolo della distribuzione di Y [conviene sempre tracciare il graco di g].
F
Y
(y) = P(Y y) = P(X1l(X) y) =
_
0, se < y < 0,
P(X y), se y 0,
che, in termini di F
X
ed usando il gradino per compattare la notazione, si scrive
F
Y
(y) = F
X
(y) 1l(y)
Nota Bene. Per capire cosa succede si devono tracciare i graci. La F
Y
(y) è nulla per y < 0,
vale F
Y
(0) = F
X
(0) =
1
2
per y = 0, ed è crescente per y > 0. Questo è il comportamento
della funzione di distribuzione di una v.a. mista: ha un salto, ma non è costante a tratti.
Qual è la spiegazione intuitiva per questo inaspettato comportamento della v.a. Y = g(X)
pur con g ed f
X
molto regolari?
121
Tutto dipende dal fatto che la funzione g(x) è costante in un intervallo, in
questo caso la semiretta (, 0]. Questo fa si che tutta la probabilità che la
v.a. X attribuisce alla semiretta (, 0] si concentri nel punto Y = 0.
Dal graco della g (vi avevo detto di tracciarlo?), e poiche X N(0, 1), è ovvio che
P(Y = 0) = P(X 0) =
1
2
. Ma noi sappiamo che, per una v.a. continua, P(Y = y) = 0
per ogni y R. Quindi Y non può essere continua.
Per terminare i calcoli relativi allesempio calcoliamo la densità f
Y
(y) come derivata
di F
Y
(y). Sapendo che la v.a. Y non è assolutamente continua ci aspettiamo una parte
impulsiva nella densità, corrispondente alla parte discreta della v.a. Y , in questo caso il
solo punto Y = 0 di probabilità P(Y = 0) =
1
2
.
d
dy
F
Y
(y) = f
X
(y)1l(y) +F
X
(0) (y)
=
1
2
e
1
2
y
2
1l(y) +
1
2
(y)
=
1
2
_
2
2
e
1
2
y
2
1l(y)
_
+
1
2
(y)
Lultima formula esprime la densit` a generalizzata di Y come mistura, con entrambi i pesi
pari ad
1
2
, della densità assolutamente continua
2
2
e
1
2
y
2
1l(y) e della densità generalizzata,
discreta, degenere (x).
Attenzione.
2
2
e
1
2
y
2
1l(y) è una densità, mentre
1
2
e
1
2
y
2
1l(y) non è una densità: perche?
Micro-esercizio fondamentale. La scrittura U V indica che le v.a. U e V hanno
la medesima FdD e/o densità. Per sviluppare la vostra intuizione, senza fare nessun
conto, convincetevi che, con la funzione rampa, g(x) = x1l(x),
se X Exp() allora g(X) X,
se X |([a, b]), con 0 a < b, allora g(X) X
se X |([2, 1]), allora g(X) = 0, la v.a. degenere, costante pari a 0.
se X ha densità concentrata nella semiretta [0, ), qualunque, allora g(X) X
se X ha densità concentrata nella semiretta (, 0], qualunque, allora Y = g(X) =
0, variabile aleatoria degenere costante.
Morale della lezione. Chi allinizio della lezione ha ritenuto le variabili aleatorie miste una
strana costruzione teorica di nessuna rilevanza pratica deve ricredersi. Le v.a. miste si
presentano automaticamente in contesti molto comuni. Abbiamo visto che si ottengono
v.a. miste modellando fenomeni con un doppio meccanismo aleatorio, uno discreto ed
uno continuo (esempio del gioco con moneta e ruota della fortuna). Inoltre v.a. miste
si generano molto naturalmente processando una v.a. continua X con semplici funzioni
g(X).
122
Appendice alla Lezione 20 (non in programma nella.a. 12/13)
Decomposizione delle funzioni di distribuzione
`
E possibile descrivere in modo semplice la famiglia di tutte le FdD. Allo scopo ricordiamo
che sono FdD tutte e sole le funzioni F : R R
+
tali che (a.) F(x) è non descrescente, (b.)
F(x+) = F(x) per ogni x R, (c.) valgono i limiti F() = 0, F() = 1. Ricordiamo
che se F(x) è una FdD esiste sempre F(x). Se F(x) = F(x+) allora x è un punto di
continuità di F(x), altrimenti x è un punto di salto e vale P(X = x) = F(x) F(x).
Denotiamo con T linsieme dei punti di salto di F(x), in simboli
T := x R[ F(x) F(x) > 0
Lemma. Qualunque sia F(x) il corrispondente insieme T è numerabile.
Dimostrazione. Sia T
k
= x R[F(x) F(x) >
1
k
linsieme dei punti di discontinuità
di F con salto di ampiezza superiore a
1
k
. Dato che 0 F(x) 1, la cardinalità di T
k
è
minore o uguale a k. Poichè T =
k=1
T
k
è una unione numerabile di insiemi di cardinalita
nita si conclude che T è al pi` u numerabile.
Poiche T è numerabile la seguente somma è ben denita (è una somma nita se T è un
insieme nito, una serie se T è innito numerabile) e convergente
p :=
xR
F
X
(x) F
X
(x) = P(X T)
Chiaramente p [0, 1] poichè F(x) [0, 1] ed i salti sono tutti nonnegativi. Convincetevi
dellultima asserzione. Se p = 0 la FdD è una funzione continua (non ha cioè nessun salto),
ma non è necessariamente assolutamente continua (cioè non ammette necessariamente
densità). Se p = 1 i salti della FdD contribuiscono tutta la massa di probabilità quindi la
FdD è costante a tratti, cioè discreta. Inne, se 0 < p < 1 allora la FdD presenta almeno
un salto, e non è costante a tratti ovvero è mista. Il seguente teorema mostra che ogni
FdD è una mistura di una FdD continua e di una discreta.
Teorema. Ogni FdD F(x) con 0 < p < 1 è rappresentabile, in modo unico, come mistura
F(x) = p F
d
(x) + (1 p) F
c
(x) (1)
dove F
d
(x) è una FdD discreta ed F
c
(x) è una FdD continua (non necessariamente
assolutamente continua).
Dimostrazione (costruttiva). Sia X una qualunque variabile aleatoria la cui FdD è F(x)
(lintroduzione della v.a. X non è indispensabile, ma conveniente notazionalmente). Dalla
formula della probabilità totale
F(x) = P(X x) = P(X x[X T)P(X T) +P(X x[X T
c
)P(X T
c
)
Osserviamo che, per denizione, P(X T) = p, inoltre le funzioni di x denite da P(X
x[X T) e P(X x[X T
c
) sono entrambe FdD, poichè le probabilità condizionate
sono misure di probabilità rispetto al primo evento. Deniamo per brevità
F
d
(x) := P(X x[X T) =
wx
P(X = w[X T),
dove la somma, come mostreremo immediatamente, è ben denita. Si osservi che, per ogni
w R,
P(X = w[X T) =
P([X = w] [X T])
P([X T])
=
P(X = w)
p
, (2)
123
infatti, se w T lidentità è banale, mentre se w , T allora w è un punto di continuità
di F(x) e quindi entrambi i membri si annullano. La somma
wx
P(X = w[X T) è
dunque ben denita, poiche gli addendi sono non nulli solo per w T che è un insieme
numerabile. Si ottiene
F
d
(x) := P(X x[X T) =
wx
P(X = w[X T) =
wT
wx
P(X = w)
p
Lultima espressione dimostra che F
d
(x) è eettivamente una FdD discreta.
La componente continua F
c
(x) si determina sottraendo la parte discreta e rinormalizzando.
Si denisca
F
c
(x) = P(X x[X T
c
) =
F(x) pF
d
(x)
1 p
(3)
`
E facile vericare che F
c
(x) è continua (esercizio suggerimento: basta vericare che
F
c
(x) F
c
(x) = 0 nei punti x T). Per terminare la dimostrazione basta osservare che
la (3) e la (1) sono equivalenti. Aggiungere dimostrazione unicità.
Osservazione. Nei casi dinteresse la costruzione della mistura è molto semplice. Si de-
termina p facendo la somma dei salti di F(x). Quindi si costruisce F
d
(x) sommando i
salti nella semiretta (, x] e normalizzando dividendo per p. Una volta ottenuta la
componente F
d
(x) si eettua la dierenza (3).
Esempio 1. Determinare la rappresentazione in termini di mistura della FdD mista F
X
(x)
in gura.
6
-
t
x
2 1
p
1
F
X
(x)
1
La mistura cercata è
F
X
(x) = p F
d
X
(x) + (1 p) F
c
X
(x)
dove
F
d
X
(x) =
_
0, x < 1,
1, 1 x.
e
F
c
X
(x) =
_
_
_
0, x < 0,
x
2
, 0 x < 2,
1, 1 x.
Si riconosce per ispezione che F
d
X
(x) è la FdD degenere concentrata in -1, mentre F
c
(x) è la
FdD uniforme U(0, 2), quindi assolutamente continua. La funzione di densità generalizzata
corrispondente ad F(x) è
f(x) = p (x + 1) + (1 p)
1
2
(1l(x) 1l(x 2))
124
Esercizio proposto. Determinare (gracamente!) la rappresentazione in termini di mistura
della FdD in gura.
6
-
t
t
t
x 0.4 -0.6 -0.8 -1
0.2
0.4
0.6
0.8
1
F
X
(x)
125
21.1 Vettori aleatori
Abbiamo introdotto i vettori aleatori discreti nella Lezione 14. Vedremo ora il caso
generale, e discuteremo in dettaglio i vettori aleatori assolutamente continui.
Denizione. Sia ( , T, P ) uno spazio di probabilità assegnato. Un vettore aleatorio su
è una mappa
W : R
n
, W() =
_
W
1
(), . . . W
n
()
_
tale che (condizione di misurabilit` a)
W
(1)
(B) T, per ogni B B(R
n
)
Osservazioni
(a.) La -algebra di Borel di R
n
, denotata B(R
n
), è la minima -algebra che contiene gli
aperti di R
n
.
(b.) Se W è un vettore aleatorio, le sue componenti W
i
sono variabili aleatorie, infat-
ti la misurabilità delle funzioni W
i
(), per i = 1, . . . n è una facile conseguenza della
misurabilità del vettore.
Come per le variabili aleatorie scalari, anche per i vettori aleatori interessa probabi-
lizzare lo spazio dei valori, in questo caso R
n
. Utilizzando la tecnica introdotta con le
variabili aleatorie discrete, poi estesa ai vettori discreti e alle variabili aleatorie scalari
generali, la misura di probabilità indotta da P su R
n
è denita come
P
W
(B) := P
_
W
(1)
(B)
_
, per ogni B R
n
Abbiamo già visto (Lezione 16) che, per una variabile aleatoria scalare X, la misura
indotta P
X
è completamente specicata dalla funzione di distribuzione F
X
(x) := P(X
x) = P
X
( (, x] ). Lanalogo multidimensionale della FdD è la funzione di distribuzione
congiunta del vettore W, denita come
F
W
(w
1
, w
2
, . . . w
n
) := P( W
1
w
1
, W
2
w
2
, . . . W
n
w
n
).
Come nel caso scalare, anche nel caso vettoriale la FdD congiunta caratterizza completa-
mente la misura indotta P
W
, come illustrato di seguito nel caso bidimensionale.
Vettori aleatori bidimensionali
Per semplicità notazionale consideriamo il caso n = 2, ovvero i vettori bidimensionali
W = (W
1
, W
2
). Ci riferiremo indierentemente al vettore W o alla coppia di variabili
aleatorie (W
1
, W
2
). Per denotare le componenti di un vettore bidimensionale useremo
indierentemente le notazioni (W
1
, W
2
), o (X
1
, X
2
), o (X, Y ).
Denizione. La FdD congiunta della coppia di variabili aleatorie (X, Y ) è
F
XY
(x, y) := P(X x, Y y) = P( (X, Y ) B), dove B = (, x] (, x]
Lemma. La FdD congiunta caratterizza completamente P
XY
.
Dimostrazione. Per ogni rettangolo R := (x
1
, x
2
] (y
1
, y
2
] R
2
, si ha che, vedi gura,
P
XY
(R) = P(x
1
< X x
2
, y
1
< Y y
2
)
= F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
) (1)
126
6
-
6
-
6
-
6
-
x
1
x
2
y
1
y
2
R
+ +
Poiche ogni evento B B(R
n
) si può rappresentare come unione numerabile di rettangoli
si conclude che F
XY
(x, y) caratterizza completamente la probabilità indotta su R
2
.
Proprietà della FdD bidimensionale
(a.) F
XY
(, ) := lim
x,y
F
XY
(x, y) = 0.
(b.) F
XY
(, ) := lim
x,y
F
XY
(x, y) = 1.
(c.) F
XY
(, y) := lim
x
F
XY
(x, y) = F
Y
(y).
(d.) F
XY
(x, ) := lim
y
F
XY
(x, y) = F
X
(x).
Dimostrazione. Sono tutte conseguenze della continuità della misura di probabilità.
Per la (a.) si osservi che
lim
x,y
[X x] [Y y] = = ,
quindi, per la continuità della probabilità,
lim
x,y
F
XY
(x, y) = lim
x,y
P([X x] [Y y]) = P() = 0
Per la (b.) basta osservare che
lim
x,y
[X x] [Y y] = = ,
quindi, per la continuità della probabilità,
lim
x,y
F
XY
(x, y) = lim
x,y
P([X x] [Y y]) = P() = 1
Per la (c.) si osservi che
lim
x
[X x] [Y y] = [Y y] = [Y y],
quindi, per la continuità della probabilità
lim
x
F
XY
(x, y) = lim
x
P([X x] [Y y]) = P([Y y]) = F
Y
(y)
ed analogamente si dimostra la (d.).
127
21.2 Vettori aleatori bidimensionali assolutamente continui
Questo è il caso in cui esiste una funzione f
XY
(x, y), non negativa e integrabile secondo
Riemann su R
2
, tale che
F
XY
(x, y) =
_
y
_
x
f
XY
(u, v) dudv
La funzione f
XY
è detta densità congiunta della coppia di v.a. (X, Y ).
Proprietà della densità congiunta
(a.) Non-negatività
f
XY
(x, y) 0 per ogni (x, y) R
2
.
(b.) Normalizzazione
__
R
2
f
XY
(x, y) dxdy = 1,
conseguenza immediata della F
XY
(, ) = 1.
Lemma. Ogni funzione f(x, y) integrabile secondo Riemann su R
2
, non-negativa e normalizzata è la funzione
di densità di una coppia di variabili aleatorie (X, Y ). (La dimostrazione ricalca quella del caso scalare)
(c.) Relazione con la FdD.
In ogni punto (x, y) R
2
di continuità della densità f
XY
(x, y),
f
XY
(x, y) =

2
xy
F
XY
(x, y),
come segue dal teorema fondamentale del calcolo.
(d.) Calcolo della probabilità di eventi assegnati
Per i rettangoli il calcolo è immediato. Sia R := (x
1
, x
2
] (y
1
, y
2
], allora
P((X, Y ) R) =
__
R
f
XY
(x, y) d
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy,
infatti, utilizzando la FdD congiunta e ricordando la (1),
P((X, Y ) R) = P(x
1
< X x
2
, y
1
< Y y
2
)
= F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
)
=
__
y
2
_
x
2
_
y
2
_
x
1
_
y
1
_
x
2
+
_
y
1
_
x
1
_
f
XY
(x, y) dxdy
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy =
__
R
f
XY
(x, y) d
Per eventi generali, B B(R
2
), vale
P
_
(X, Y ) B
_
=
__
B
f
XY
(x, y) dxdy
che si giustica ricordando che ogni B B(R
n
) è un unione numerabile di rettangoli ed
usando poi laddittività. Il calcolo della probabilità di un assegnato evento si riduce quindi
al calcolo di un integrale doppio.
128
(e.) Interpretazione della densità congiunta.
Come per il caso scalare, i valori della densità congiunta f
XY
(x, y) non rappresentano
probabilità. Si può dare uninterpretazione della densità simile a quella data nel caso
scalare. Applicando due volte il teorema della media integrale
P(a < X a +h, b < Y b +k) =
_
b+k
b
_
a+h
a
f
XY
(x, y) dxdy
=
_
b+k
b
f
XY
(, y) hdy
= f
XY
(, ) hk f
XY
(a, b) hk
dove (a, a +h), (b, b +k). Possiamo quindi scrivere
P(a X a +h, b Y b +k) f
XY
(a, b) hk, per h, k piccoli
(f.) Densità marginali.
Ricordando che F
Y
(y) = F
XY
(, y) si ha che
F
Y
(y) = F
XY
(, y) =
_
y
__

f
XY
(u, v) du
_
dv
e, calcolando la derivata rispetto ad y,
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
y
__

f
XY
(u, v) du
_
dv
=
_

f
XY
(u, y) du.
Analogamente
f
X
(x) =
_

f
XY
(x, v) dv.
Normalmente queste formule si trovano scritte come f
X
(x) =
_
f
XY
(x, y) dy, ed analoga-
mente per laltra.
Osservazione. La conoscenza delle FdD F
X
(x) ed F
Y
(y) delle componenti X ed Y di
un vettore aleatorio (X, Y ) non è suciente alla determinazione della FdD congiunta
F
XY
(x, y).
Nota bene. Per i vettori assolutamente continui, come per le v.a. scalari assolutamente
continue, se levento si riduce ad un punto la probabilità è nulla.
P(X = a, Y = b) = 0, per ogni a, b R.
Nel caso bidimensionale assolutamente continuo sono inoltre nulle le probabilità
P(X = a, b
1
Y b
2
) = 0, P(a
1
X a
2
, Y = b) = 0,
ovvero: la probabilità di ogni rettangolo di R
2
di area nulla (un segmento in R
2
) è nulla.
Immediata conseguenza di questo fatto è che i rettangoli (x
1
, x
2
](y
1
, y
2
], [x
1
, x
2
][y
1
, y
2
],
ecc. che si ottengono aggiungendo o rimuovendo frontiere ad R, hanno tutti la stessa
probabilità. Pi` u in generale, per una proprietà degli integrali doppi di funzioni Riemann
integrabili, se il dominio dintegrazione ha area nulla, lintegrale è nullo. Quindi se ad
esempio B è una curva in R
2
, la probabilità P
_
(X, Y ) B
_
= 0.
129
22.1 Densità bidimensionale uniforme
Sia D B(R
2
), un sottoinsieme limitato. Si consideri la funzione
f(x, y) =
_
c se (x, y) D,
0 se (x, y) / D.
Facendo ricorso alla funzione indicatrice del sottoinsieme D, la funzione f si scrive in
forma compatta
f(x, y) = c
D
(x, y).
Mostriamo ora che, scegliendo opportunamente c R, la funzione f è una funzione di
densità congiunta. La condizione di integrabilità secondo Riemann è vericata banalmente
essendo f costante su D e su D
c
. Anche sia f(x, y) 0 è suciente che c 0. Peraltro
il valore di c è imposto dalla condizione di normalizzazione, in particolare
__
R
2
f(x, y) d =
__
R
2
c
D
(x, y) d = c area(D).
Si ricava che c =
1
area(D)
e che la funzione
f(x, y) =
1
area(D)
D
(x, y)
è una densità congiunta su R
2
.
Denizione. Il vettore (X, Y ) è congiuntamente uniforme sul sottoinsieme limitato D
B(R
2
), e si denota (X, Y ) |(D), se esso ha densità di probabilità congiunta
f
XY
(x, y) =
1
area(D)
D
(x, y)
Proprietà della densità uniforme bidimensionale
Per ogni sottoinsieme B B(R
2
) risulta
20
P
_
(X, Y ) B
_
=
1
area(D)
__
B
1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
B
(x, y) 1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
BD
(x, y) dxdy
=
area(B D)
area(D)
,
che è esattamente quello che lintuizione suggerisce. Si noti che se, in particolare, B
D allora P(B) =
area(B)
area(D)
non dipende dalla posizione del sottoinsieme B allinterno del
dominio D, ma solo dalla sua area.
`
E questa proprietà che giustica il nome della densità.
Micro-esercizio. Meditare sullanalogia tra i vettori uniformi su un dominio limitato D
B(R
2
) e le variabili aleatorie uniformi su un intervallo nito [a, b] B(R).
20
Si osservi che, se E, F R
2
allora

E
(x, y)
F
(x, y) =

EF
(x, y)
130
Esercizi svolti in aula
Esercizio 1. Data la funzione
f(x, y) =
_
x
2
+
xy
3
se (x, y) D,
0, se (x, y) / D,
dove
D = (x, y); 0 x 1, 0 y 2
Vericare che la funzione f è una denstià congiunta e, detto (X, Y ) un vettore di densità
congiunta f
XY
= f, calcolare la probabilità
P
_
(X, Y ) E
_
, dove E = (x, y); x +y 1
Esercizio 2. La coppia di v.a. (X, Y ) ha densità congiunta uniforme nel dominio
D = (x, y); (x 1)
2
+ (y 1)
2
1
Calcolare le densità marginali f
X
(x) e f
Y
(y).
Esercizio 3. Data la densità congiunta
f
XY
(x, y) =
_

2
e
(x+y)
se (x, y) R
2
+
,
0, altrove,
vericare che f
XY
è una densità e calcolare P
_
X Y
_
.
22.2 Osservazione sui vettori misti
Abbiamo ora trattato sia i vettori aleatori discreti che quelli assolutamente continui. La
classicazione delle variabili aleatorie scalari in discrete, assolutamente continue e miste
vale anche nel caso vettoriale. La varietà di possibili comportamenti è molto maggiore nel
caso vettoriale. Le componenti del vettore possono essere di diversa natura, una discreta
ed una continua, e.g, (X, Y ) = (sesso, altezza), oppure almeno una delle componenti è
mista, o entrambe sono miste. Tempo permettendo vedremo nelle prossime lezioni come
trattare questi casi.
22.3 Funzioni scalari Z = g(X, Y ) di vettori assolutamente continui
Sia (X, Y ) un vettore aleatorio assolutamente continuo, di densità congiunta f
XY
(x, y), e
sia g : R
2
R una funzione misurabile, allora Z = g(X, Y ) è una variabile aleatoria ed ha
senso porsi il problema del calcolo (se esistono) del suo valore atteso e/o della sua densità.
Calcolo del valore atteso
Anche in questo caso il valore atteso della variabile aleatoria scalare Z = g(X, Y ) si può
calcolare, senza dover preliminarmente determinare la densità f
Z
(z), e vale
E(g(X, Y )) =
__
R
2
g(x, y)f
XY
(x, y) dxdy.
131
La dimostrazione, data nella Lezione 14 per il caso dei vettori discreti, non è adattabile al
caso assolutamente continuo (aggiungere dimostrazione in prossima revisione).
Esempio. Un semplice, ma importante, esempio è g(x, y) = x +y. In questo caso
E(X +Y ) =
__
R
2
(x +y)f
XY
(x, y) dxdy
=
__
R
2
xf
XY
(x, y) dxdy +
__
R
2
yf
XY
(x, y) dxdy
=
_
R
xf
X
(x) dx +
_
R
yf
Y
(y) dy = E(X) +E(Y )
Facendo ricorso a questo risultato si dimostra laddittività del valore atteso nel caso
assolutamente continuo.
Densità di funzioni scalari di vettori assolutamente continui
A volte il problema dinteresse è proprio la determinazione della densità f
Z
(z) della vari-
abile aleatoria scalare Z = g(X, Y ).
`
E facile scrivere la funzione di distribuzione di Z
facendo ricorso ad una formula molto generale, e quindi molto astratta.
F
Z
(z) := P(Z z) = P(g(X, Y ) z) =
__
D
z
f
XY
(x, y) dxdy,
dove
D
z
= (x, y) ; g(x, y) z .
La densità cercata è
f
Z
(z) =
d
dz
F
Z
(z).
Esempio importante. Sia Z = X +Y , allora
F
Z
(z) :=
__
x+yz
f
XY
(x, y) dxdy =
_

__
zy
f
XY
(x, y) dx
_
dy.
Si tracci un graco del dominio per capire lintegrale iterato. Calcolando la derivata
rispetto a z,
f
Z
(z) =
d
dz
F
Z
(z) =
_

f
XY
(z y, y) dy
`
E possibile scambiare i ruoli di x ed y nel calcolo dellintegrale iterato. In tal caso si arriva
alla formula equivalente
f
Z
(z) =
d
dz
F
Z
(z) =
_

f
XY
(x, z x) dx
132
23.1 Condizionamento per v.a. assolutamente continue
Abbiamo già avuto modo di apprezzare il ruolo delle probabilità condizionate nella costruzione
di modelli probabilistici. Per le variabili aleatorie discrete, nelle Lezioni 14 e 15, abbiamo
denito le densità condizionate discrete. Per comodità avevamo distinto tre casi, che si
presentano spesso nelle applicazioni, (a.) densità condizionata di una v.a. X rispetto ad
un evento E qualunque: f
X[E
(x[E), (b.) densità condizionata di una v.a. X rispetto
ad un evento [X B] generato dalla v.a. X stessa: f
X[[XB]
(x[X B), (c.) densità
condizionata di una v.a. X rispetto allevento [Y = y], il valore assunto da unaltra v.a.:
f
X[Y
(x[y). Per esempi di ognuno dei tre tipi nel caso di variabili discrete si rimanda alle
Lezioni 14 e 15.
Esempio di tipo (a.) (esempio del paragrafo 20.1 rivisitato) Si consideri il seguente gioco.
Si lancia una moneta. Se esce Testa il giocatore deve far girare lago di una ruota della
fortuna, il cui bordo è graduato nellintervallo [0, 2]. Quando la ruota si ferma il banco
paga al giocatore la cifra in euro corrispondente alla posizione dellago sul bordo della
ruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria che
rappresenta la vincita netta del giocatore. Calcolare la densità f
V
(x).
Soluzione. Le regole del gioco consistono in due probabilità condizionate del tipo (a.)!
f
V [T
(x[T) =
1
2
1l
[0,2]
(x),
f
V [C
(x[C) = (x + 1).
Si noti che f
V [T
(x[T) è assolutamente continua, mentre f
V [C
(x[C) è discreta (degenere,
essendo la densità della costante -1) La densità f
V
(x) si trova applicando la legge della
probabilità totale
f
V
(x) =
1
2
f
V [T
(x[T) +
1
2
f
V [C
(x[C) =
1
4
1l
[0,2]
(x) +
1
2
(x + 1)
Nella Lezione 20 questo esempio era servito ad illustrare una semplice situazione speri-
mentale che produce modelli a variabili aleatorie miste.
Esempio di tipo (b.) (assenza di memoria per v.a. esponenziali) Sia X Exp(), quindi
la funzione di densità di X è f
X
(x) = e
x
1l(x). Calcolare la densità condizionata
f
X[[Xa]
(x[X a).
Soluzione. Un calcolo banale fornisce P(X a) = e
a
. Condizionando rispetto allevento
[X a] si trova
P(X x[X a) =
P(X max (x, a))
P(X a)
=
_
1 se x a,
P(Xx)
P(Xa)
= e
(xa)
, se x > a.
e quindi
F
X[[Xa]
(x[[X a]) = 1 P(X x[X a) =
_
0 se x < a,
1 e
(xa)
, se x a.
Calcolando la derivata rispetto ad x di F
X[[Xa]
(x[[X a]) si trova la densità condizionata
f
X
Xa
(x[X a) =
_
0 se x < a,
e
(xa)
, se x a.
_
= e
(xa)
1l(x a) = f
X
(x a)
133
che è una delle espressioni equivalenti della proprietà detta assenza di memoria della v.a.
esponenziale. Si veda la lezione 17 per una presentazione alternativa.
Lesempio di densità ondizionata pi` u delicato è quello di tipo (c.), quando la variabile
condizionante Y è assolutamente continua. Trattiamo questo caso nel prossimo paragrafo.
Densità condizionata rispetto ad una v.a. assolutamente continua
Supponiamo che (X, Y ) sia una coppia di v.a. assolutamente continue, di assegnata densità
congiunta f
XY
(x, y). Deniremo la densità condizionata di X dato Y = y, che denotere-
mo f
X[Y
(x[y). La denizione va data attraverso un procedimento di limite poiche levento
condizionante [Y = y] ha probabilità nulla per ogni y R. Si osservi che è molto naturale
trovarsi in questa situazione. Linformazione a priori di cui si dispone allatto del con-
dizionamento si basa su osservazioni della variabile Y . Gli strumenti di misura possono
avere fornito informazioni del tipo a Y b, oppure Y > c oppure, appunto, Y = d.
Anche la funzione di distribuzione condizionata F
X[Y
(x[y) := P(X x[Y = y) va
denita con un procedimento di limite, poiche
P([Xx][Y =y])
P(Y =y)
=
0
0
.
Denizione. (funzione di distribuzione condizionata)
F
X[Y
(x[y) := lim
0
P(X x[y Y y +)
A partire dalla denizione calcoliamo unespressione generale per la funzione di distribuzione
condizionata. Se f
Y
(y) > 0 allora
F
X[Y
(x[y) := lim
0
P(X x, y Y y +)
P(y Y y +)
= lim
0
_
x
_
_
y+
y
f
XY
(u, v) dv
_
du
_
y+
y
f
Y
(v) dv
= lim
0
_
x
f
XY
(u, y) du
f
Y
(y)
=
_
x
f
XY
(u, y) du
f
Y
(y)
nei punti y dove f
Y
(y) = 0 la funzione F
X[Y
(x[y) non è denita.
La densità condizionata si ottiene derivando rispetto ad x,
f
X[Y
(x[y) =
d
dx
F
X[Y
(x[y) =
d
dx
_
x
f
XY
(u, y) du
f
Y
(y)
=
f
XY
(x, y)
f
Y
(y)
.
La densità condizionata ha una forma intuitivamente chiara, essendo il rapporto tra la
densità congiunta e la marginale. Si possono immediatamente scrivere le usuali espressioni:
densità congiunta, formula di Bayes, densità marginali, in termini di densità condizionate,
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) = f
Y [X
(y[x)f
X
(x)
f
Y [X
(y[x) =
f
X[Y
(x[y)f
Y
(y)
f
X
(x)
f
X
(x) =
_

f
XY
(x, y) dy =
_

f
X[Y
(x[y)f
Y
(y) dy
f
Y
(y) =
_

f
XY
(x, y) dx =
_

f
Y [X
(y[x)f
X
(x) dx
134
23.2 Coppie di v.a. indipendenti
Denizione. La coppia di v.a. (X, Y ) è detta indipendente se la funzione di distribuzione
congiunta soddisfa la proprietà di fattorizzazione
F
XY
(x, y) = F
X
(x) F
Y
(y), per ogni (x, y) R
2
Lemma. Le seguenti aermazioni sono equivalenti
(a.) X ed Y sono indipendenti
(b.) per ogni rettangolo R = [x
1
, x
2
] [y
1
, y
2
],
P
_
(X, Y ) R
_
= P(X [x
1
, x
2
])P(Y [y
1
, y
2
])
(c.) (nel caso assolutamente continuo) per ogni (x, y) R
2
f
XY
(x, y) = f
X
(x)f
Y
(y)
(d.) (nel caso assolutamente continuo) per ogni (x, y) R
2
f
X[Y
(x[y) = f
X
(x), oppure f
Y [X
(y[x) = f
Y
(y)
Le proprietà delle v.a. indipendenti viste nel caso discreto continuano a valere. In par-
ticolare se la coppia (X, Y ) è indipendente allora la coppia (X, Y ) è scorrelata, ovvero
E(XY ) = E(X)E(Y ).
Densità delle funzioni scalari Z = g(X, Y ) di variabili indipendenti
Esempio 1. Sia Z = max(X, Y ) ed (X, Y ) indipendenti. Calcolare la forma generale della
densità di Z.
F
Z
(z) = P(Z z) = P(max(X, Y ) z) = P(X z, Y z) = F
X
(z)F
Y
(z)
La corrispondente densità è
f
Z
(z) = F
t
X
(z)F
Y
(z) +F
X
(z)F
t
Y
(z)
Se (X, Y ) sono indipendenti ed identicamente distribuite (i.i.d.) con F
X
= F
Y
allora
F
Z
(z) =
_
F
X
(z)
_
2
La corrispondente densità è
f
Z
(z) = 2F
X
(z)F
t
X
(z) = 2F
X
(z)f
X
(z)
Ad esempio se (X, Y ) sono i.i.d. uniformi |([0, 1]) allora
f
Z
(z) =
_
2z se 0 z 1,
0, altrove.
Esempio 2 (molto importante) Nellultimo esempio della Lezione 22, avevamo calcolato,
nel caso di densità congiunta generale, la densità di Z = g(X, Y ) = X +Y ottenendo
f
Z
(z) =
_

f
XY
(z v, v) dv.
135
Se (X, Y ) sono indipendenti la densità f
Z
(z) prende una forma molto familiare
f
Z
(z) =
_

f
X
(z v)f
Y
(v) dv,
la convoluzione delle densità f
X
ed f
Y
. Questo risultato vale anche nel caso discreto, ma
non era stato menzionato quando abbiamo trattato le v.a .discrete indipendenti. Nel caso
discreto, per Z = X +Y con (X, Y ) indipendenti a valori in Z o in N,
p
Z
(n) =
k=
p
X
(n k)p
Y
(k).
Esempio 3. Sia Z = X + Y , combinazione lineare di X ed Y , che supponiamo ancora
essere indipendenti ed assolutamente continue. Per determinare la densità di Z sfruttiamo
il seguente risultato (esercizio!). Se W = aX con a R allora
f
W
(w) =
1
[a[
f
X
_
w
a
_
Si ricava allora
f
Z
(z) = f
X
(z) f
Y
(z) =
1
[[
_
f
X
_
z v
_
f
Y
_
v
_
dv
Ad esempio la densità di Z = X Y è
f
Z
(z) =
_
f
X
(z v)f
Y
(v) dv
Raca di esercizi proposti. (a.) (obbligatorio) Z = X +Y e Z = X Y per (X, Y ) i.i.d.
|([0, 1]). (b.) (obbligatorio) Z = X + Y per (X, Y ) i.i.d. Exp(). (c.) (obbligatorio)
Z = X + Y per (X, Y ) i.i.d. b(p). (d.) (dicile) Z = X + Y per (X, Y ) indipendenti
con X Bin(n, p) ed Y Bin(m, p). (e.) (raccomandato) Z = X + Y per (X, Y )
indipendenti con X T() ed Y T().
Esempio 4. Il seguente esempio è molto importante: in prosa dice che le combinazioni
lineari di v.a. normali indipendenti sono v.a. normali. Lo presentiamo sotto forma di
teorema.
Teorema. Se Z = X +Y , con X N(
X
,
2
X
) ed Y N(
Y
,
2
Y
) indipendenti allora
Z N(
X
+
Y
,
2
2
X
+
2
2
Y
).
Dimostrazione. In linea di principio abbiamo a disposizione lo strumento per dimostrare
il teorema. Deniamo
(v) =
1
2
e
v
2
2
,
la densità N(0, 1), allora la densità di X è
1
_
x
X
X
_
ed analogamente la densità di Y
è
1
_
y
Y
Y
_
. Per dimostrare il teorema basta quindi vericare che
1
_
2
X
+
2
2
Y
_
_
z (
X
+
Y
)
_
2
X
+
2
2
Y
_
_
=
1
[[
X
_
z
X
X
_
1
[[
Y
_
z
Y
Y
_
Questo è un calcolo concettualmente banale, ma molto laborioso se si eettua la con-
voluzione direttamente. Vedremo pi` u avanti come dimostrare il teorema, in modo molto
pi` u semplice, usando le trasformate di Fourier.
136
Lezione 24 (Luned`, 6 maggio 2013, ore 10:30-12:15)
24.1 Esercitazione sul calcolo della densità di Y = g(X)
Sono esercizi noiosi, concettualmente banali e computazionalmente insidiosi.
`
E importante
capire bene il meccanismo di questi calcoli analizzando con attenzione le funzioni picomuni
nel trattamento di segnali. Nella pagina seguente sono tracciati i graci di alcune comuni
funzioni g(x). Ognuna delle funzioni g(x) si può interpretare come un sistema statico.
A scopo illustrativo, accanto ad ogni g(x) è tracciato il graco delluscita g(x(t), quando
lingresso è londa triagolare x(t) rappresentata in alto a destra. La gura dovrebbe anche
chiarire la tradizionale terminologia associata a queste g(x).
g
1
(x) raddrizzatore a mezza onda
g
2
(x) raddrizzatore a onda intera
g
3
(x) limitatore
g
4
(x) limitatore e raddrizzatore a mezza onda
g
5
(x) limitatore e raddrizzatore a onda intera
Il vostro compito è studiare la densità delluscita g(X), quando lingresso è una variabile
aleatoria X di densità nota. Inventatevi dei problemi e risolveteli!
Esercizio
Dati: y = g(x) = x
2
, ed X N(0, 1).
Usando la strategia già sperimentata
F
Y
(y) = P(X
2
y) =
_
P(
y X

y), se y 0,
0, se y < 0.
ovvero, in termini della funzione di distribuzione F
X
, ed introducendo il gradino unitario,
F
Y
(y) = P(X
2
y) =
_
F
X
(
y) F
X
(
y)
_
1l(y).
Calcolando la derivata osservando che la derivata del gradino dà contributo nullo, infatti
_
F
X
(
y) F
X
(
y)
_
(y) = 0,
f
Y
(y) =
1
2
y
_
f
X
(
y) +f
X
(
y)
_
1l(y).
Sostituendo la densità f
X
(x) fornita come dato, ovvero la N(0, 1) troviamo
f
Y
(y) =
1
2
y
_
1
2
e
1
2
y
+
1
2
e
1
2
y
_
1l(y)
=
1
2y
e
1
2
y
1l(y)
La densità che abbiamo appena calcolato è detta densità chi-quadrato ad 1 grado di libertà,
denotata
2
(1). Se X N(0, 1) allora Y = X
2

2
(1). La densità
2
è una delle densità
fondamentali in Statistica.
Quanto vale E(Y )? Si può fare in due modi
E(Y ) =
_

yf
Y
(y) dy =
_

0
y
1
2y
e
1
2
y
dy
= E(X
2
) = var(X) = 1.
Esercizio proposto. Come sopra, ma con X U(a, b), con 0 a < b.
137
c -c
c
-c
c
c
c -c
c
-c
c
c
c
g
1
(x)
g
2
(x)
g
3
(x)
g
4
(x)
g
5
(x)
x(t)
t
138
Valore atteso condizionato
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densità
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densità condizionate. Considereremo solo il caso della densità di una variabile aleatoria
condizionata ai valori assunti da unaltra variabile aleatoria. La denizione, introdotta
qui al solo scopo di svolgere esercizi, verrà ripresa nella prossima lezione.
Denizione. Sia g : R R una funzione misurabile ed integrabile. La media condizionata
della v.a. g(X) dato il valore assunto dalla v.a. Y è
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=
k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) è un numero reale, E(g(X)[Y = y) è una
funzione deterministica h : R R che mappa y h(y) := E(g(X)[Y = y). Le proprietà
del valore atteso condizionato (funzione h(y)) saranno trattate nella prossima lezione.
Esercizio 1 (continuazione di Mario in libreria)
Mario va in libreria a curiosare ed acquistare libri. Le v.a. K ed N rappresentano rispet-
tivamente quante ore Mario trascorre in libreria, e quanti libri Mario acquista. I dati a
disposizione sono i seguenti. Lalfabeto di K è / := 1, 2, 3, 4 e la sua densità è uni-
forme: p
K
(k) =
1
4
per k /. Per quanto riguarda la v.a. N è nota solamente la densità
condizionata
p
N[K
(n[k) :=
_
1
k
, se 1 n k, e k 4
0, se n > k, o k > 4.
Calcolare il valore atteso condizionato E(N[K = k).
Soluzione.
Il valore atteso condizionato vale
E(N[K = k) =
4
n=1
np
N[K
(n[k) =
_
_
1 1 = 1 se k = 1,
1
1
2
+ 2
1
2
=
3
2
, se k = 2,
1
1
3
+ 2
1
3
+ 3
1
3
= 2, se k = 3,
1
1
4
+ 2
1
4
+ 3
1
4
+ 4
1
4
=
10
4
, se k = 4.
_
_
=
k
n=1
n
1
k
=
1
k
k(k + 1)
2
=
k + 1
2
139
Esercizio 2 (adattato da: C. Ash - The Probability Tutoring Book - IEEE Press 1993)
La coppia di v.a. (X, Y ) ha densità congiunta uniforme nel dominio triangolare T rapp-
resentato in gura.
-
6
-1 1
x
y
1
Determinare:
(a.) la densità congiunta f
XY
(x, y)
(b.) le densità condizionate f
X[Y
(x[y) ed f
Y [X
(y[x)
(c.) i valori attesi E[X[Y = y] ed E[Y [X = x]
(d.) i valori attesi E[X] ed E[Y ]
(e.) il valore atteso E[ min(X, Y ) ]
Soluzione
(a.) La densità congiunta è nulla per (x, y) T
c
ed è costante in T
f
XY
(x, y) =
1
area(T)
1l
T
(x, y) = 1l
T
(x, y)
(b.) Per il calcolo delle densità condizionate dobbiamo disporre delle marginali. La for-
mula generale per il calcolo della densità marginale, f
Y
(y) =
_
f
XY
(x, y)dx deve essere
opportunamente interpretata: ci aiuterà la gura.
-
6
-1 1
x
y
1
x = 1 y x = y 1
In primo luogo si deve capire qual è linsieme dei valori possibili per la v.a. Y , in questo
caso (vedi gura) Y [0, 1]. Sempre dalla gura si desumono i limiti di integrazione al
variare di y. Specicamente
f
Y
(y) =
_
1y
y1
1 dx = 2(1 y) per y [0, 1]
Analogamente si procede al calcolo della marginale f
X
(x) =
_
f
XY
(x, y)dy. La v.a. X
prende valori nellintervallo [1, 1], ma lintegrale da calcolare per ottenere f
X
(x) ha
espressioni diverse a seconda che x [1, 0] o x [0, 1]. In gura abbiamo rappresentato
il caso x [1, 0].
140
-
6
-1 1
x
y
1
y = 1 +x y = 1 x
f
X
(x) =
_
1+x
0
1 dy = 1 +x per x [1, 0]
Analogamente
f
X
(x) =
_
1x
0
1 dy = 1 x per x [0, 1]
Volendo si può scrivere la densità f
X
(x) con ununica formula come
f
X
(x) = 1 [x[ per x [1, 1].
Commento. Si noti che le densità marginali f
X
(x) ed f
Y
(y) non sono uniformi, nonostante
la densità congiunta sia uniforme su T.
Siamo ora pronti a scrivere le densità condizionate
f
X[Y
(x[y) =
f
XY
(x, y)
f
Y
(y)
=
1
2(1 y)
x [y 1, 1 y], y [0, 1]
f
Y [X
(y[x) =
f
XY
(x, y)
f
X
(x)
=
1
1 [x[
y [0, 1 [x[ ], x [1, 1]
Commenti. (1.) Poiche f
X[Y
(x[y) dipende da y le variabili aleatorie X ed Y non sono
indipendenti. (2.) Si noti che la densità condizionata f
X[Y
(x[y) è uniforme sullintervallo
[y 1, 1 y]. Analogamente la densità condizionata f
Y [X
(y[x) è uniforme sullintervallo
[0, 1 [x[].
`
E un fatto generale, immediata conseguenza della denizione, che le densità
condizionate mantengano la forma della densità congiunta, opportunamente riscalata.
(c.) Calcoliamo prima E[X[Y = y]. Abbiamo visto che per Y = y la v.a. X ha densità
condizionata uniforme, cioè costante in x, e vale f
X[Y
(x[y) =
1
2(1y)
nellintervallo x
[y 1, 1 y]. Poichè lintervallo [y 1, 1 y] è simmetrico intorno allorigine il valore
atteso condizionato sarà ovviamente nullo, come conferma il calcolo:
E[X[Y = y] =
_
1y
y1
x
1
2(1 y)
dx =
1
2(1 y)
x
2
2
1y
y1
= 0 per y [0, 1].
Per il calcolo di E[Y [X = x], poiche per X = x la v.a. Y ha densità condizionata
uniforme f
Y [X
(y[x) =
1
1[x[
nellintervallo y [0, 1[x[ ] il valore atteso condizionato sarà
E[Y [X = x] =
1[x[
2
, come confermato dal calcolo esplicito
E[Y [X = x] =
_
1[x[
0
y
1
1 [x[
dy =
1
1 [x[
y
2
2
1[x[
0
=
1 [x[
2
per x [1, 1].
(d.)
`
E un calcolo banale:
E[Y ] =
_
yf
Y
(y)dy =
_
1
0
y 2(1 y)dy =
1
3
.
141
Analogamente si trova che E[X] = 0.
(e.) Con riferimento alla gura, risulta
g(x, y) = min(x, y) =
_
x, per (x, y) T
1
,
y, per (x, y) T
2
.
-
-1 1
x
y
1
y = x
T
1
T
2
6
Per il calcolo del valore atteso si dovrà valutare
E[g(X, Y )] =
_
g(x, y)f
XY
(x, y) dxdy
che in questo caso diventa
E[min(X, Y )] =
_
T
1
x 1 dxdy +
_
T
2
y 1 dxdy
A questo punto ci siamo ridotti ad un esercizio di Analisi II. Conviene spezzare il dominio
T
1
in due sottodomini x-semplici, mentre T
2
si può trattare come un unico dominio y-
semplice. Con riferimento alla gura (il punto dintersezione tra y = x e y = 1 x è
(
1
2
,
1
2
)) si ottiene
E[min(X, Y )] =
_
0
1
_
1+x
0
x 1 dydx +
_ 1
2
0
_
1x
x
x 1 dydx +
_ 1
2
0
_
1y
y
y 1 dxdy
Qualche passaggio algebrico fornisce s.e.o.o. E[min(X, Y )] =
1
12
.
142
prego segnalare i sicuramente numerosi refusi
Esercizi svolti e proposti sulle funzioni di variabili aleatorie
Il problema è quello del calcolo della densità (o della funzione di distribuzione) di una
funzione di v.a. Y = g(X), a partire dallespressione analitica di g e dalla densità (o dalla
funzione di distribuzione) di X. In questa nota troverete alcuni esempi svolti ed alcuni
esercizi proposti.
Quando si studia la funzione di v.a. Y = g(X) il risultato dipende dallinterazione tra i due
dati del problema: la funzione deterministica y = g(x) e le caratteristiche probabilistiche
della v.a. X ovvero la densità f
X
(x) nel caso di v.a. assolutamente continue, la densità
discreta p
X
(x) nel caso di v.a. discrete, o in generale la funzione di distribuzione F
X
(x).
Ci sono fondamentalmente due strategie per risolvere questa tipologia di problemi.
Strategia 1. Ricavare la funzione di distribuzione F
Y
(y) a partire dai dati del problema
e poi, se richiesto dal problema, derivare F
Y
(y) rispetto ad y per trovare, dove esiste, la
densità f
Y
(y). Lidea dietro a questa strategia è che gli eventi di interesse per la v.a. Y
sono in corrispondenza biunivoca con eventi per la v.a. X in accordo con
[ Y B] = [ X g
1
(B) ]
e quindi
P(Y B) = P(X g
1
(B))
in particolare, per gli eventi del tipo B = (, y], si avrà che
F
Y
(y) := P(Y y) = P(g(X) y) = P
_
X g
1
_
(, y]
_
_
.
A lezione abbiamo visto vari esempi dove era possibile calcolare agevolmente la derivata
richiesta. In generale calcolare F
Y
(y) può essere dicoltoso richiedendo la valutazione di
P
_
X g
1
_
(, y]
_
_
al variare di y. Si noti che il calcolo delle anti-immagini
g
1
_
(, y]
_
si può condurre, per cos` dire, fuori linea nel senso che esse non dipendono in alcun modo
dalla densità della v.a. X, ma solo dalla funzione g. Una volta calcolate, le anti-immagini
g
1
_
(, y]
_
si possono utilizzare per determinare F
Y
(y) qualunque sia la densità della
v.a. X che interviene nella Y = g(X).
Strategia 2. (SALTARE PARAGRAFETTO) Ricavare direttamente la funzione di densità
della v.a. Y utilizzando la formula
f
Y
(y) = f
X
(h(y))
d
dy
h(y)
dove h è la funzione inversa di g, che deve esistere anchè questa formula sia applicabile.
In questa nota non considereremo la Strategia 2. Si tratta di un risultato di scarso valore
pratico e meno potente dellapproccio diretto discusso in questa nota e presentato in classe.
Si tenga presente che il tipo della v.a. Y = g(X) può essere diverso da quello della v.a.
X. In particolare, se X è una v.a. discreta allora, qualunque sia la funzione g, la v.a.
trasformata Y = g(X) sarà ancora una v.a. discreta per lovvio motivo che la cardinalità
del codominio di una funzione è sempre minore o uguale a quella del suo dominio. Se
invece X è una v.a. continua, la v.a. Y = g(X) potrà essere discreta, continua o mista a
seconda di come g(x) ed f
X
(x) interagiscono.
143
Esempio 1 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
x 1, se x < 1,
x + 1, se x 1,
il cui graco è riportato in gura.
Cominciamo con il calcolo delle anti-immagini g
1
_
(, y]
_
le quali ovviamente non
dipendono dalla densità f
X
(x) che andremo a considerare. Quando si calcolano le anti-
immagini g
1
_
(, y]
_
è fondamentale avere prima accuratamente tracciato il graco
della g. Ad ogni y ssato corrisponde un sottoinsieme di valori x: con abuso di notazione
scriverò ad esempio x y 1 per x R[x y 1 ecc.
g
1
_
(, y]
_
=
_
_
_
x + 1 y = x y 1 2 y < ,
x < 1 0 y < 2,
x 1 y = x y + 1 y < 0.
`
E banale, ma è facile fare errori. Si noti che la funzione y = g(x) non assume nessuno dei
valori y [0, 2). Questo è evidente dal graco ed ha come conseguenza che g
1
_
(, y]
_
=
x < 1 è costante per ogni y [0, 2). Qualunque sarà la X, la v.a. Y = g(X) non potrà
assumere valori in [0, 2), ed ivi la FdD F
Y
(y) sarà costante e la densità f
Y
(y) nulla.
Vediamo ora che densità si ottengono per Y = g(X) specicando diverse densità f
X
(x).
(a.) Calcolare la densità di Y = g(X) se X Exp() (nel graco = 1).
F
Y
(y) =
_
_
P(X y 1) =
_
y1
0
e
w
dw = 1 e
(y1)
, 2 y < ,
P(X < 1) =
_
1
0
e
w
dw = 1 e
, 0 y < 2,
P(X y + 1) =
_
y+1
0
e
w
dw = 1 e
(y+1)
, 1 y < 0
P(X y + 1) = 0, < y < 1.
144
Si noti che, per ogni y < 0 vale g
1
_
(, y]
_
= x y+1 e quindi F
Y
(y) = P(X y+1).
Poiche X è concentrata su [0, ), si ha però che F
Y
(y) = P(X y + 1) = 0 per y < 1.
Qui sotto il graco della F
Y
(y).
Poiche la FdD F
Y
(y) non ha salti, la v.a. Y = g(X) è di tipo continuo, come la v.a. X di
partenza. La densità esiste e si ottiene derivando F
Y
(y)
f
Y
(y) =
_
_
e
(y1)
2 y < ,
0, 0 y < 2,
e
(y+1)
1 y < 0,
0, < y < 1.
La densità f
Y
(y) ha tre punti di salto, y = 1, y = 0 ed y = 2, dove cioè la FdD F
Y
(y) non
è derivabile. Repetita iuvant: le discontinuità della densità non hanno nulla a che vedere
con il tipo della v.a. Y , che si desume dal comportamento della funzione di distribuzione
(continua in questo caso).
(b.) Esercizi proposti. Si calcoli la densità, continua o discreta, della v.a. Y = g(X) se
X è una delle seguenti v.a. (le risposte fornite vanno prese con il benecio dinventario,
segnalatemi eventuali errori).
X Uniforme(2, 3), Risposta: Y Uniforme(3, 4).
X Uniforme(0, 1), Risposta: Y Uniforme(1, 0).
X Uniforme(0.5, 1.5) Risposta: Y Uniforme
_
[0.5, 0] [2, 2.5]
_
X Bernoulli(p), Risposta: Y 1, 2, con p
Y
(1) = 1 p, p
Y
(2) = p.
145
Domanda. Perche con questa g la v.a. Y = g(X) ha sempre lo stesso tipo della v.a. X?
Esempio 2 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
1, se x 0,
x + 1, se x > 0,
il cui graco è riportato in gura.
A dierenza dellesempio 1 la funzione g in questo caso è continua. Vedremo però che
questa g può mappare una v.a. continua in una mista, cosa non possibile con la g delle-
sempio 1, a riprova del fatto che il tipo continuo o misto della v.a. Y non ha nulla a che
vedere ne con la continuità topologica di g ne con quella di f
X
(x).
Calcoliamo le anti-immagini g
1
_
(, y]
_
.
g
1
_
(, y]
_
=
_
R 1 y < ,
x + 1 y = x 1 y < y < 1.
Attenzione! Per questa g lanti-immagine g
1
(1) = x 0. Questo può causare
P(Y = 1) > 0, rendendo la v.a. Y di tipo misto anche se X è una v.a. continua si veda
il caso (b.) qui sotto.
(a.) Calcolare la densità di Y = g(X) se X Exp(), (la stessa X dellesempio 1).
F
Y
(y) =
_
P(X R) = 1 1 y < ,
P(X 1 y) =
_
1y
e
w
dw = e
(y1)
, y < 1,
Si noti che P(Y = 1) = P(X 0) = 0 poichè la v.a. X è concentrata su [0, ). Qui
sotto, per = 1, il graco della F
Y
(y).
146
La v.a. Y è continua poiche la FdD non presenta salti. La densità f
Y
(y) si trova derivando
f
Y
(y) =
_
0 1 y < ,
e
(y1)
, y < 1,
in forma compatta, si può scrivere f
Y
(y) = e
(y1)
1l(y 1), vedi gura qui sotto.
(b.) Calcolare la densità di Y = g(X) se X Uniforme(1, 2). Usando le anti-immagini
precalcolate troviamo:
F
Y
(y) =
_
_
_
P(X R) = 1 1 y < ,
P(X 1 y) =
_
2
1y
1
3
dw =
1
3
(1 +y), 1 y < 1,
P(X 1 y) = 0 < y < 1
Si noti che P(Y = 1) = P(X 0) =
1
3
poiche X Uniforme(1, 2). Qui sotto il graco
di F
Y
(y).
147
La v.a. Y è mista poiche la FdD presenta un salto, di ampiezza
1
3
, in y = 1. La den-
sità f
Y
(y), nel senso usuale, non esiste, ma derivando la FdR nel senso delle funzioni
generalizzate si trova
f
Y
(y) =
1
3
(1l(y + 1) 1l(y 1)) +
1
3
(y 1)
Il graco è
Lascio come esercizio il calcolo della decomposizione di Lebesgue a partire dalla espressione
della FdD
(c.) Esercizi proposti. Si calcoli la densità, continua o discreta, della v.a. Y = g(X) per
X v.a. di funzione di densità rispettivamente:
f
X
(x) =

2
e
[x[
, dove x R. (detta densità di Laplace)
X Uniforme(0, 1).
X Uniforme(1, 0) (attenzione a questa!).
X Bernoulli(p) (e anche a questa).
148
Lezione 25 (Marted`, 7 maggio 2013, ore 16:30-18:15)
25.1 Valore atteso condizionato
(denizione ripresa dalla scorsa lezione)
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densità
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densità condizionate. Considereremo solo il caso della densità di una variabile aleatoria
condizionata ai valori assunti da unaltra variabile aleatoria.
medskipDenizione. Sia g : R R una funzione misurabile ed integrabile. La media
condizionata della v.a. g(X) dato il valore assunto dalla v.a. Y è
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=
k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) è un numero reale, E(g(X)[Y = y) è una
funzione deterministica h : R R che mappa y h(y) := E(g(X)[Y = y). Le proprietà
del valore atteso condizionato (funzione h(y)) sono trattate al punto 3.
Proprietà del valore atteso condizionato
Lemma. Se (X, Y ) sono indipendenti allora
E(g(X)[Y = y) = E(g(X)), per ogni y R
Dimostrazione. Se X ed Y sono indipendenti allora f
X[Y
(x[y) = f
X
(x) e sostituendo
E(g(X)[Y = y) =
_
g(x)f
X[Y
(x[y) dx =
_
g(x)f
X
(x) dx = E(g(X))
Si denisca la funzione h : R R come

h(y) = E(g(X)[Y = y).
Si noti che la funzione h(y) è deterministica: essa mappa il numero reale y nel numero reale
E(g(X)[Y = y). Il Lemma sopra mostra che, se X ed Y sono indipendenti, la funzione
h(y) è una costante. In generale h(y) dipende da y. Ha perfettamente senso considerare
la variabile aleatoria h(Y ), dove Y f
Y
(y) ed ha perfettamente senso calcolarne il valore
atteso E(h(Y )) (quando esiste).
`
E anche naturale, per denotare la variabile aleatoria h(Y ),
usare la scrittura E(g(X)[Y ). Con questa notazione alternativa il valore atteso E(h(Y ))
si scrive E
_
E(g(X)[Y )
_
.
Lemma (del valore atteso iterato) Se g(X) ammette valore atteso allora
E
_
E
_
g(X)[Y
_
_
= E(g(X))
Dimostrazione.
E
_
E(g(X)[Y )
_
= E(h(Y )) =
_
h(y)f
Y
(y) dy =
_
E(g(X)[Y = y)f
Y
(y) dy
=
_ __
g(x)f
X[Y
(x[y) dx
_
f
Y
(y) dy =
__
g(x)f
X[Y
(x[y)f
Y
(y) dydx
=
_
g(x)
__
f
XY
(x, y) dy
_
dx =
_
g(x)f
X
(x) dx = E(g(X)).
149
La dimostrazione è identica nel caso discreto
E
_
E(g(X)[Y )
_
=
k
E(g(X)[Y = y
k
)p
Y
(y
k
)
=
h
g(x
h
)p
X[Y
(x
h
[y
k
)p
Y
(y
k
) =
h
g(x
h
)
k
p
XY
(x
h
, y
k
)
=
h
g(x
h
)p
X
(x
h
) = E(g(X)).
Esercizi svolti
Esercizio 1. Addentate (a caso) un grissino di lunghezza L. Sia Y |(0, L) la lunghezza
del grissino che vi rimane in mano. Dopo un secondo morso (a caso) vi rimane in mano
un pezzo di grissino di lunghezza X |(0, Y ). Calcolare il valore atteso E(X).
Metodo diretto. Ricaviamo la densità f
X
(x) e quindi calcoliamo E(X). I dati del prob-
lema sono: la densità f
Y
e la densità condizionata f
X[Y
(x[y) Analiticamente i dati
sono:
f
Y
(y) =
1
L
, per y [0, L]
f
X[Y
(x[y) =
1
y
, per x [0, y]
Per ricavare la densità f
X
calcoliamo prima la densità congiunta e quindi marginalizziamo.
La densità congiunta delle v.a. X ed Y vale
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) =
1
Ly
, per (x, y) D := (x, y) ; x [0, y], y [0, L]
se non volete perdere traccia di quanto stiamo facendo fate un graco del dominio D.
Marginalizzando troviamo
21
la densità f
X
f
X
(x) =
_
f
XY
(x, y) dy =
_
L
x
1
Ly
dy =
1
L
(ln L ln x), per x [0, L]
`
E una buona idea vericare che f
X
(x) sia eettivamente una densità
_
L
0
f
X
(x) dx =
_
L
0
1
L
(ln L ln x) dx = 1
dove abbiamo fatto uso dellantiderivata
_
ln x = xln xx e del fatto che lim
x0
xln x = 0.
Calcoliamo nalmente il valore atteso
E(X) =
_
L
0
xf
X
(x) dx =
_
L
0
x
L
(ln L ln x) dx =
L
4
,
dove abbiamo fatto uso dellantiderivata
_
xln xdx =
x
2
2
ln x
x
2
4
.
Metodo del valore atteso iterato. Per il Lemma visto sopra E(X) = E
_
E(X[Y )
_
. Calcol-
iamo il valore atteso condizionato. Per Y = y la v.a. X |(0, y), quindi
E(X[Y = y) =
y
2
21
NOTA BENE. Nonostante le equazioni teoriche che esprimono le densit` a congiunte e/o le densit` a
marginali siano semplici e pulite, i calcoli pratici sono sporchi e complicati.
`
E necessario prestare sempre
estrema attenzione ai domini di denizione e di integrazione. Tracciate i graci!
150
Da questa espressione si ricava che
E(X[Y ) =
Y
2
quindi, poiche Y |(0, L),
E(X) = E
_
E(X[Y )
_
= E
_
Y
2
_
=
L
4
A volte sapere un po di teoria aiuta.
Esercizio 2. (somma di un numero aleatorio di addendi) Visito un certo numero N di
negozi, dove N è una v.a. a valori in N. Nel negozio k-esimo spendo X
k
euro. Le
v.a. X
k
, k N sono identicamente distribuite, inoltre le variabili N, X
k
, k N sono
indipendenti. Calcolare il valore atteso della spesa totale.
Soluzione. Sia S la v.a. spesa totale,
S =
N
k=1
X
k
Anche questo tipo di problema si presta bene al calcolo del valore atteso usando la tecnica
del valore atteso iterato.
E(S) = E
_
E(S[N)
_
Calcoliamo prima il valore atteso per N = n
E(S[N = n) = E
_
N
k=1
X
k
N = n
_
= E
_
n
k=1
X
k
N = n
_
=
n
k=1
E(X
k
[N = n) =
n
k=1
E(X
k
) poiche X
k
N
= nE(X
1
).
Possiamo allora scrivere che la v.a. E(S[N) = NE(X
1
), da cui ricaviamo
E(S) = E
_
E(S[N)
_
= E(NE(X
1
)) = E(N) E(X
1
)
Osservazione. Laddittività del valore atteso NON si può applicare in questo caso. La
scrittura
E(S) = E
_
N
k=1
X
k
_
=
N
k=1
E(X
k
) = NE(X
1
) ???
è priva di senso poiche N è una variabile aleatoria, non un numero naturale! Scrivendo
E(S) = E(
N
k=1
X
k
) =
N
k=1
E(X
k
) = NE(X
1
) stiamo asserendo che il valore atteso
della v.a. S non è un numero reale bens` la variabile aleatoria NE(X
1
). Un errore di
questo tipo sarà punito alla stregua di una varianza negativa.
Esercizio 3. (vedi Mario in libreria Lezione 24) Il calcolo di E(N), il numero medio di libri
che Mario acquista ogni volta che va a fare un giro in liberia, si può eettuare usando la
formula del valore atteso iterato (si ricordi che K è uniforme su / = 1, 2, 3, 4).
E(N) = E(E(N[K)) = E
_
K + 1
2
_
=
E(K) + 1
2
=
10
4
+ 1
4
=
7
4
151
Esercizio 4. Una moneta ha probabilità di Testa P(T) = Y , dove Y è una v.a. con densità
f
Y
(y) che ha supporto sullintervallo [0, 1]. Eettuo n lanci della moneta. Sia X la v.a.
che rappresenta il numero di Teste osservate negli n lanci. Calcolare il valore atteso di X.
Commento. Apparentemente questo esempio è molto articiale, ma non lo è. Il parametro
p = P(T) della v.a. di Bernoulli che rappresenta lesito del lancio di una moneta, è una
variabile aleatoria invece di essere un numero. La f
Y
è la densità di probabilità della
probabilità di Testa. Può sembrare una costruzione barocca, ma questo è un modello
standard impiegato in Statistica per rappresentare lignoranza su p. Le monete reali non
riportano in targhetta il valore di p e in qualche modo questa incertezza va modellata.
Vedremo pi` u avanti, se ce ne sarà il tempo, qual è il razionale di questo modello.
Soluzione. Per Y = y la v.a. X Bin(n, y) quindi E(X[Y = y) = ny. La v.a.
E(X[Y ) = nY quindi E(X) = E(E(X[Y )) = E(nY ) = nE(Y ). Ad esempio, è molto
comune supporre che Y |([0, 1]). In questo caso E(X) = nE(Y ) =
n
2
.
152
Appendice I alla Lezione 25
Spazi vettoriali di variabili aleatorie
Teoria geometrica del valore atteso condizionato
Materiale parzialmente trattato a lezione - non in programma 2012/13
1. Spazi e sottospazi vettoriali di variabili aleatorie
Sia o linsieme delle v.a. che ammettono secondo momento ovvero
o := X : R [ E(X
2
) <
Vedremo tra poco che o è uno spazio vettoriale su R, ma questo richiede il seguente,
fondamentale, risultato.
Lemma. (disuguaglianza di Cauchy-Schwarz)
[E(XY )[
_
E (X
2
) E (Y
2
)
Dimostrazione. Deniamo la v.a. W := tX +Y , dove t R. Poiche per ogni t R
0 E(W
2
) = E((tX +Y )
2
) = E(X
2
)t
2
+ 2E(XY )t +E(Y
2
),
il determinante del polinomio di secondo grado in t deve essere non positivo, ovvero
4
_
E(XY )
2
4E(X
2
)E(Y
2
) 0,
da cui segue immediatamente la disuguaglianza di Cauchy-Schwarz.
Lemma. o è uno spazio vettoriale su R.
Dimostrazione. Si deve dimostrare la chiusura di o rispetto alla somma ed al prodotto
per uno scalare. Chiusura rispetto alla somma. Se X, Y o allora X + Y o infatti
E
_
(X +Y )
2
_
= E(X
2
) +E(Y
2
) +2 E(XY ), ma per la disuguaglianza di Cauchy Schwarz
[E(XY )[
_
E(X
2
)E(Y
2
) e quindi X + Y o. Chiusura rispetto al prodotto per uno
scalare. Se X o, per ogni a R la v.a. aX o, infatti E
_
(aX)
2
_
= a
2
E(X
2
) < .
Osservazione. Gli elementi dello spazio vettoriale o (vettori) sono variabili aleatorie,
ovvero funzioni X : R. Lo spazio vettoriale o è quindi uno spazio di funzioni. Lo
spazio vettoriale o ha dimensione innita.
Esempi di sottospazi lineari di o
Esempio 1. (sottospazio delle v.a. a media nulla)
o
0
:= W o ; E(W) = 0
è un sottospazio lineare di o (banale).
Esempio 2. (sottospazio generato da n v.a. assegnate)
`
E facile vericare che linsieme
delle combinazioni lineari di n v.a. assegnate Y
1
, . . . Y
n
tutte appartenenti a o,
/ := spanY
1
, . . . Y
n
:=
_
W ; W =
n
k=1
k
Y
k
,
k
R
_
,
è un sottospazio lineare. Il sottospazio / ha dimensione minore o uguale ad n
153
Esempio 3. (funzioni di una v.a. Y o) Linsieme (Y ) delle funzioni (che ammettono
secondo momento) v(Y ) di una ssata v.a. Y o,
(Y ) := v(Y ) ; v : R R, e E
_
v
2
(Y )
_
< ,
è un sottospazio lineare di o. Infatti se v
1
(Y ) ed v
2
(Y ) appartengono a (Y ), per la
disuguaglianza di Cauchy Schwarz è nito anche il secondo momento di v
1
(Y ) +v
2
(Y ).
La dimensione del sottospazio (Y ) è innita.
Prodotto scalare su o
Su o si denisce il prodotto scalare
X, Y := E(XY ) (1)
Verichiamo che (1) è un prodotto scalare legittimo. Siano X, Y, W o.
(i) X, Y = Y, X, banale.
(ii) aX +bY, W = a X, W +b Y, W, per la linearità del valore atteso.
(iii) X, X 0, infatti X, X = E(X
2
) 0,
(iv) [[X[[
2
:= X, X = 0 se e solo se X = 0, infatti E(X
2
) = 0 se e solo se X = 0.
Variabili aleatorie ortogonali
Avendo dotato o di un prodotto scalare possiamo introdurre la nozione di ortogonalità.
Denizione. Se X, Y = E(XY ) = 0 le v.a. X ed Y si dicono ortogonali e scriveremo
XY .
Osservazione. Le v.a. X e Y sono scorrelate se e solo se le v.a. XE(X) ed Y E(Y ) sono
ortogonali. Infatti le due condizioni equivalgono a X E(X), Y E(Y ) = E(XY )
E(X)E(Y ) = 0. Ne segue anche che, se X o Y hanno media nulla, la scorrelazione e
lortogonalità di X ed Y sono equivalenti. Lesistenza di variabili aleatorie di media non
nulla è una seccatura con la quale si deve convivere.
2. Interpretazione geometrica del valore atteso condizionato
La chiave per linterpretazione geometrica del valore atteso condizionato è contenuta nella
seguente proprietà fondamentale della v.a. E(X[Y ).
Lemma di proiezione. Per ogni funzione v : R R misurabile e tale che v(Y ) è integrabile
vale lidentità
E
_
X v(Y )
_
= E
_
E(X[Y ) v(Y )
_
(2)
Dimostrazione. Consideriamo, ad esempio, il caso assolutamente continuo.
E
_
X v(Y )
_
=
__
xv(y)f
XY
(x, y) dxdy
=
_ __
xf
XY
(x, y) dx
_
v(y) dy
=
_ __
xf
X[Y
(x[y) dx
_
v(y)f
Y
(y) dy
=
_
E(X[Y = y) v(y)f
Y
(y) dy
= E
_
E(X[Y ) v(Y )
_
154
Interpretazione geometrica del Lemma di proiezione.
Usando la denizione del prodotto scalare su o lenunciato del Lemma si scrive
X, v(Y ) = E(X[Y ), v(Y ), per ogni v(Y ) (Y )
che, per la linearità del prodotto scalare, equivale a
X E(X[Y ), v(Y ) = 0 per ogni v(Y ) (Y ).
Geometricamente lultima equazione dice che il vettore X E(X[Y ) è ortogonale a tutti
i vettori v(Y ) (Y ) ovvero che
E(X[Y ) è la proiezione ortogonale di X su (Y )
X
X E(X[Y )
E(X[Y )
(Y )
3. Il Teorema di Pitagora
Poiche il valore atteso condizionato è una proiezione ortogonale, sia nel caso discreto che
nel caso continuo vale il teorema di Pitagora
[[ X[[
2
= [[ X E(X[Y ) [[
2
+[[ E(X[Y ) [[
2
. (3)
Linterpretazione probabilistica della relazione Pitagorica richiede qualche manipolazione.
Ricordiamo che, per ogni W o,
[[W[[
2
= E(W
2
) = var(W) + [E(W)]
2
.
Osserviamo anche che la v.a. X E(X[Y ) ha valore atteso E
_
X E(X[Y )
_
= 0.
Lequazione (3) diventa allora
var(X) +
_
E(X)
2
= var
_
X E(X[Y )
_
+ var
_
E(X[Y )
_
+
_
E
_
E(X[Y )
_
_
2
che, cancellando
_
E(X)
2
a sinistra e a destra, si riduce a
var(X) = var
_
X E(X[Y )
_
+ var
_
E(X[Y )
_
(4)
La nozione di varianza condizionata consente di reinterpretare il primo termine a destra.
Denizione (varianza condizionata)
var(X[Y ) := E
_
_
X E(X[Y )
_
2
Y
_
.
155
Attenzione. La varianza condizionata non è un numero bens` una v.a. Per determinare
var(X[Y ) si può cominciare calcolando la funzione deterministica
w(y) := var(X[Y = y) = E
_
_
X E(X[Y = y)
_
2
Y = y
_
=
_

_
x E(X[Y = y)
_
2
f
X[Y
(x[y) dx
e quindi la v.a. varianza condizionata è var(X[Y ) = w(Y ).
Il primo termine nel membro di destra dellequazione (3) non è altro che il valore atteso
della v.a. varianza condizionata.
Lemma e dimostrazione.
[[ X E(X[Y ) [[
2
= E
_
_
X E(X[Y )
_
2
_
= calcolo il valore atteso iterato
= E
_
E
_
_
X E(X[Y )
_
2
Y
__
= E
_
var(X[Y )
_
Sostituendo nella (3), e per gli altri termini seguendo (4), si trova
var(X) = E
_
var(X[Y )
_
+ var
_
E(X[Y )
_
. (5)
4. Esempi di calcolo
Esempio 1. (seguito dellesercizio 2 a pagina 37) La variabile aleatoria dinteresse è
S =
N
k=1
X
k
sotto le ipotesi dellesercizio 2 a pag. 37. Abbiamo già calcolato E(S[N) = N E(X
1
). Per
trovare unespressione analitica della v.a. varianza condizionata, var(S[N), calcoliamo
prima
var(S[N = n) = var
_
N
k=1
X
k
N = n
_
= var
_
n
k=1
X
k
N = n
_
= var
_
n
k=1
X
k
_
= nvar(X
1
)
Vale quindi var(S[N) = N var(X
1
) ed applicando la decomposizione (5) si trova
var(S) = E
_
var(S[N)
_
+ var
_
E(S[N)
_
= E
_
N var(X
1
)
_
+ var
_
N E(X
1
)
_
= E(N) var(X
1
) + var(N)
_
E(X
1
)
_
2
.
156
5. Valore atteso condizionato come stimatore
Motivazione. Si supponga di dover stimare con un numero reale c una variabile aleatoria
X o. Una possibilità è di eettuare un esperimento il cui risultato è modellato da
X ed impiegare lesito di X come costante c. Questa scelta non soddisfa un criterio di
ottimalità, inoltre X potrebbe non essere osservabile. Per scegliere c la teoria geometrica
suggerisce di minimizzare il quadrato della norma derrore [[X c[[
2
.
Lemma.
c
:= arg min
cR
[[X c[[
2
= E(X)
Dimostrazione. Attenzione: non si può prendere X = c, perche c deve essere un numero
reale. Peraltro un calcolo diretto fornisce
[[X c[[
2
= E
_
(X c)
2
_
= E
_
(X E(X) +E(X) c)
2
= E
_
(X E(X))
2
_
+ 2E
_
[X E(X)][E(X) c]
_
+E
_
(E(X) c)
2
_
= var(X) + (E(X) c)
2
Questa espressione è somma di due quantità non negative di cui la prima è indipendente
da c. Scegliendo c = E(X) si annulla il termine dipendente da c e quindi si raggiunge il
minimo.
Valore atteso condizionato come stimatore. Si supponga di disporre della densità congiunta
di due v.a. (X, Y ) e di poterne osservare solo una, poniamo la Y , e di voler stimare il
valore della v.a. X sulla base della v.a. Y .
`
E ragionevole quindi che lo stimatore della X
sia costruito come funzione, diciamo v(Y ), della v.a. Y . Per scegliere la funzione v(Y ) la
teoria geometrica suggerisce di minimizzare il quadrato della norma derrore [[Xv(Y )[[
2
.
Lemma.
v
(Y ) = arg min
v(Y )(Y )
[[X v(Y )[[
2
= E(X[Y )
Dimostrazione. Dal punto di vista geometrico la soluzione è ovviamente data dalla proiezione
ortogonale di X su (Y ), e quindi v
(Y ) = E[X[Y ]. Si può riderivare lo stesso risulta-

to per via analitica imitando quanto fatto sopra per il valore atteso. Questa parte della
dimostrazione è ridondante, ma non guasta fare esercizio.
[[X v(Y )[[
2
= E
_
(X v(Y ))
2
_
= E
_
(X E(X[Y ) +E(X[Y ) v(Y ))
2
_
= E
_
(X E(X[Y ))
2
_
+ 2E
_
_
X E(X[Y )
_
E(X[Y ) v(Y )
_
+ E
_
(E(X[Y ) v(Y ))
2
_
= var(X E(X[Y )) +E
_
(E(X[Y ) v(Y ))
2
_
.
Il lettore dimostri che il doppio prodotto nel penultimo passaggio è nullo (conviene calcolare
il valore atteso iterato condizionando rispetto ad Y ). Anche in questo caso ci siamo quindi
ridotti alla somma di due quantità positive, la prima delle quali indipendente da v(Y ).
Scegliendo v(Y ) = E(X[Y ) si annulla il termine dipendente, quindi il minimo si raggiunge
per v
(Y ) = E(X[Y ).
157
Appendice II alla Lezione 25 Teoria geometrica nel caso discreto
non in programma 2012/13
Nel caso discreto linterpretazione geometrica del valore atteso condizionato pu` o essere data con completo
rigore senza bisogno di introdurre nozioni di teoria della misura.
1. Richiamo sulle formule di proiezione ortogonale negli spazi vettoriali a prodotto interno
Sia 1 uno spazio vettoriale dotato di prodotto scalare. Per v, w 1, denotiamo v, w) il prodotto scalare
e [[v[[ =
_
v, v) la corrispondente norma.
Proiezione su un sottospazio unidimensionale. Dato un vettore w 1, il sottospazio lineare di 1 generato
da w è
:= span|w = | w[ R.
Dato un qualunque vettore v 1 ci poniamo il problema del calcolo della proiezione ortogonale di v su
. Denotiamo T
H
v la proiezione cercata. Naturalmente T
H
v e il problema si riduce al calcolo
dellopportuno scalare
tale che P
H
v =
w. La gura qui sotto dovrebbe aiutare a capire il Lemma e

la dimostrazione seguenti.
-
6
- -
v
w w
T
H
v
v w
v T
H
v
Lemma.
P
H
v =
v, w)
w, w)
w
Dimostrazione. Poiche P
H
v sar` a P
H
v =
w per un opportuno
. Il modo pi` u semplice per

determinare
è imporre la condizione di ortogonalit` a v w, che equivale ad imporre v ww,

ovvero
v w, w) = 0
che, per la linearit` a del prodotto scalare, fornisce
=
v, w)
w, w)
.
Esercizio. Calcolare lo scalare
che caratterizza la proiezione ortogonale minimizzando la norma del-

lerrore di proiezione v w. Nota bene: è equivalente, ma pi` u comodo, minimizzare il quadrato della
norma.
Proiezione su un sottospazio multidimensionale. Consideriamo ora il caso in cui
:= span| w
1
, w
2
, . . . w
M
=
_
M
j=1
c
j
w
j
c
1
, . . . c
M
R
_
.
Faremo lipotesi che i vettori w
1
, w
2
, . . . w
M
siano ortogonali, ovvero w
i
, w
j
) = 0 per ogni i ,= j. Sotto
questa ipotesi è un sottospazio lineare di 1, di dimensione M.
158
Lemma.
P
H
v =
M
j=1
v, w
j
)
w
j
, w
j
)
w
j
Dimostrazione. La proiezione P
H
v , quindi si tratta di determinare gli M scalari c
1
, . . . c
M
tali che
P
H
v =
M
j=1
c
j
w
j
. Per farlo imponiamo la condizione di ortogonalità v
M
j=1
c
j
w
j
, che equivale ad
imporre v
M
j=1
c
j
w
j
w
k
per ogni vettore w
k
della base di . In termini di prodotti interni la condizione
è:
_
v
M
j=1
c
j
w
j
, w
k
_
= 0 per ogni k = 1, 2, . . . M
Per la linearità del prodotto scalare, e sfruttando lortogonalit` a dei w
k
, si ottiene
c
j
=
v, w
j
)
w
j
, w
j
)
.
`
E possibile scrivere formule di proiezione anche nel caso in cui i vettori w
j
non sono ortogonali. In
alternativa, tramite la procedura di Gram-Schmidt, si pu` o produrre, a partire da un insieme di vettori
indipendenti w
1
, . . . w
M
, una base ortogonale. Questi sono argomenti che avete gi` a visto nel corso di
Algebra Lineare e che rivedrete allopera nei corsi pi` u avanzati di Stima e Filtraggio.
2. Valore atteso condizionato - caso delle v.a. indicatrici
Introdurremo linterpretazione geometrica del valore atteso condizionato procedendo per gradi, dal caso
pi` u semplice al pi` u generale. In questo paragrafo X ed Y saranno entrambe v.a. di Bernoulli. A partire da
questo caso si pu` o costruire rigorosamente tutta la teoria discreta. Per i ni di questa nota il comportamento
delle variabili aleatorie come funzioni Rè pi` u rilevante delle densità. Per questo motivo approfondiamo
alcune idee sulle funzioni indicatrici, che sono le funzioni R che originano le v.a. di Bernoulli.
Denizione. Sia (, T, P) uno spazio di probabilità dato e B T. La variabile aleatoria

B
, indicatrice
dellevento B, è denita come
B
() =
_
1, se B
0, se B
c
.
La v.a.

B
ha alfabeto |0, 1 quindi è una Bernoulli, e poiche
P(
B
= 1) = P(|;
B
= 1) = P(B),
la v.a.

B
b(P(B)), e vale
E[
B
] = P(B).
Le seguenti propriet` a delle v.a. indicatrici sono banali, ma utili

2
B
=

B
, per ogni B T,

B

C
=

BC
, per ogni coppia B, C T.
Denizione. (Insieme delle funzioni di una assegnata v.a. Y ). Data una qualunque v.a. Y linsieme delle
variabili aleatorie che sono funzioni di Y , è
(Y ) := | h(Y ) [ h : R R.
Vediamo ora le propriet` a di (Y ) nel caso particolare in cui Y =

B
.
Lemma.
(
B
) = |c
1
B
+c
2
B
c [ c
1
, c
2
R.
Dimostrazione. Linsieme (
B
) contiene tutte la funzioni del tipo h(
B
)(), dove h è una qualunque
funzione h : R R. Per unassegnata h, la funzione h(
B
)() assume solo due valori: h(0) se B e
h(1) se B
c
. Per ogni vale quindi lidentit` a
h(
B
)() = h(0)
B
() +h(1)
B
c ()
(se vi convincete della validit` a di questa rappresentazione della funzione h(
B
)() capirete facilmente il
resto della nota). Poiche h è arbitraria, h(0) e h(1) sono numeri reali arbitrari, diciamoli c
1
, e c
2
. Abbiamo
dimostrato che linsieme delle funzioni h(
B
) coindide con linsieme delle v.a. della forma c
1
B
+ c
2
B
c
per c
1
e c
2
reali abritrari.
`
E interessante osservare che linsieme (
B
) è un sottospazio lineare di S. Pi` u precisamente vale il seguente:
159
Lemma. (
B
) è un sottospazio lineare di S, di dimensione 2. I vettori

B
e

B
c formano una base
ortogonale di (
B
).
Dimostrazione. Osserviamo che (
B
) S (perche ?). Per vericare lortogonalit` a di

B
e

B
c calcoliamo
B
,
B
c ) = E[
B
c ] = E[
BB
c ] = E[
] = E[0] = 0.
Poiche

B
e

B
c sono ortogonali, sono anche linearmente indipendenti (attenzione:

B
e

B
c NON sono
probabilisticamente indipendenti, vericatelo!). Si conclude che (
B
) è un sottospazio lineare di S, di
dimensione 2, ovvero (
B
) = span|
B
,
B
c .
Sia

A
unassegnata v.a indicatrice. Trattandosi di un vettore di S ha senso calcolare la proiezione
ortogonale
T
(
B
)
(
A
)
Il risultato di questa operazione sar` a ovviamente un elemento di (
B
), ovvero una v.a. funzione di

B
.
La proiezione ortogonale cercata è data dalla formula (vedi appendice se necessario)
T
(
B
)
(
A
) =

A
,
B
)
B
,
B
)
B
+

A
,
B
c )
B
c ,
B
c )
B
c , (6)
valida poiche

B
e

B
c sono ortogonali.
Identichiamo ora il signicato probabilistico della proiezione (6). Dalla denizione di prodotto scalare
A
,
B
) = E[
B
] = E[
AB
] = P(A B),
inoltre
B
,
B
) = E[(
B
)
2
] = E[
B
] = P(B).
Procedendo in modo analogo con gli altri prodotti interni otteniamo
T
(
B
)
(
A
) = P(A[B)

B
+ P(A[B
c
)

B
c . (7)
La proiezione T
(
B
)
(
A
) è dunque una v.a. che assume due valori,
T
(
B
)
(
A
)() =
_
P(A[B), se B
P(A[B
c
), se B
c
.
(8)
Convincetevi che (7) e (8) contengono la stessa informazione se non volete aver problemi a capire il seguito
della nota.
Tutto questo è vagamente interessante, ma ecco la pièce de resistance.
Calcoliamo il valore atteso condizionato E[
A
[
B
] con la regola elementare. Anche questa è una v.a. che
assume due valori, a seconda che

B
= 1 o

B
= 0, ovvero a seconda che B o che B
c
. In
particolare
E[
A
[
B
= 1] = E[
A
[B] = 0 P(A
c
[B) + 1 P(A[B) = P(A[B) per B
E[
A
[
B
= 0] = E[
A
[B
c
] = 0 P(A
c
[B
c
) + 1 P(A[B
c
) = P(A[B
c
) per B
c
Con una formula compatta (convincetevi che vale per ogni ) possiamo scrivere
E[
A
[
B
] = P(A[B)

B
+ P(A[B
c
)

B
c . (9)
Confrontando (7) e (9) concludiamo che
E[
A
[
B
] = T
(
B
)
(
A
).
La v.a. valore atteso condizionato di

A
dato

B
coincide con la proiezione ortogonale di

A
sul sottospazio
generato dalla v.a. condizionante

B
.
Concludiamo la prima parte rivisitando una formula nota. Calcoliamo E[
A
] usando la regola del valore
atteso iterato:
E[
A
] = E
_
E[
A
[
B
]
_
.
Usando la (9), e per la linearit` a del valore atteso,
P(A) = E[
A
] = E
_
E[
A
[
B
]
_
= E
_
P(A[B)

B
+ P(A[B
c
)

B
c
_
= P(A[B)E[
B
] + P(A[B
c
)E[
B
c ]
= P(A[B)P(B) +P(A[B
c
)P(B
c
),
una vecchia conoscenza.
160
3. Valore atteso condizionato - caso della v.a. condizionante discreta
Vericheremo ora che, anche quando la v.a. condizionante Y è unarbitraria v.a. discreta,
E[
A
[Y ] = T
(Y )
(
A
).
Sia dunque Y una v.a. discreta a valori in |y
1
, y
2
, . . . y
M
e deniamo gli insiemi B
j
:= Y
1
(y
j
), j =
1, . . . , M. Gli insiemi B
j
formano una partizione di e vale lidentit` a
Y () = y
1
B
1
+y
2
B
2
+ +y
M
B
M
Generalizzando immediatamente quanto visto per il caso delle v.a. indicatrici, unarbitraria funzione h(Y )
della v.a. Y è rappresentabile nella forma
h(Y )() = h(y
1
)
B
1
+h(y
2
)
B
2
+ +h(y
M
)
B
M
dove h(y
1
), . . . , h(y
M
) sono M numeri reali. Abbiamo cos` dimostrato che lo spazio (Y ), generato dalla
v.a. Y , è
(Y ) :=
_
M
j=1
c
j
B
j
[ c
1
, . . . c
M
R
_
Poiche
B
h
,
B
k
) = E[
B
h
B
k
] = 0 per ogni h ,= k, linsieme (Y ) è un sottospazio lineare, di dimensione
M, di S, ovvero
(Y ) = span|
B
1
, . . . ,
B
M
,
e

B
1
, . . . ,
B
M
ne è una base ortogonale.
Fissata una v.a. indicatrice

A
è immediato il calcolo della proiezione ortogonale
T
(Y )
(
A
) =
M
j=1
A
,
B
j
)
B
j
,
B
j
)
B
j
=
M
j=1
P(A[B
j
)

B
j
Per dimostrare che T
(Y )
(
A
) coincide anche in questo caso con E[
A
[Y ] usiamo la regola elementare per
il calcolo del valore atteso condizionato. La v.a. E[
A
[Y ] assume M valori, e specicamente per B
j
esso vale
E[
A
[Y = y
j
] = E[
A
[B
j
] = P(A[B
j
).
Incollando insieme i pezzi per j = 1, . . . M, si ottiene la rappresentazione
E[
A
[Y ] =
M
j=1
P(A[B
j
)

B
j
e quindi, come nel caso delle funzioni indicatrici,
E[
A
[Y ] = T
(Y )
(
A
).
Il valore atteso condizionato di

A
data Y coincide con la proiezione ortogonale di

A
sul sottospazio
generato dalla v.a. condizionante Y . Lasciamo al lettore linterpretazione della formula E[
A
] = E[E[
A
[Y ]]
in questo caso.
4. Valore atteso condizionato - caso discreto generale
`
E un semplice esercizio generalizzare quanto visto nora al caso del valore atteso condizionato E[X[Y ] dove
sia X che Y sono v.a. discrete generali. Se . := |x
1
, . . . x
N
è lalfabeto di X, imitando quanto gi` a fatto
varie volte nora, possiamo scrivere
X() = x
1
A
1
+x
2
A
2
+ +x
N
A
N
dove A
i
:= X
1
(x
i
). Poiche la proiezione ortogonale è una trasformazione lineare abbiamo immediatemente
che
T
(Y )
(X) = T
(Y )
_
N
i=1
x
i
A
i
_
=
N
i=1
x
i
T
(Y )
(
A
i
) =
N
i=1
x
i
M
j=1
P(A
i
[B
j
)

B
j
Peraltro il valore atteso condizionato E[X[Y ] per Y = y
j
, ovvero per B
j
, vale, usando la formula
elementare
E[X[Y = y
j
] =
N
i=1
x
i
p
X|Y
(x
i
[y
j
) =
N
i=1
x
i
P(A
i
[B
j
)
e quindi la v.a. E[X[Y ], ragionando come nei casi precedenti, coincide con la proiezione ortogonale
T
(Y )
(X). Una rappresentazione pi` u chiara di E[X[Y ] si ottiene mettendo in evidenza i

B
j
:
E[X[Y ]() =
N
i=1
x
i
M
j=1
P(A
i
[B
j
)

B
j
() =
M
j=1
_
N
i=1
x
i
p
X|Y
(x
i
[y
j
)
_

B
j
().
161
Lezione 26 (Mercoled`, 8 maggio 2013, ore 16:30-18:15)
26.1 Motivazione allo studio della funzione generatrice dei momenti
Nello studio delle variabili aleatorie abbiamo introdotto E(X) e var(X) come parametri
riassuntivi del comportamento probabilistico di X. Il valore atteso è un indice di localiz-
zazione, essendo il numero reale intorno al quale sono distribuiti i possibili valori di X.
La varianza è un indice di variabilità, proporzionale alla dispersione dei possibili valori di
X intorno al valore atteso. La disuguaglianza di Chebyshev lega i due indici: il limite
superiore per la probabilità degli scostamenti di X da E(X) è proporzionale alla varianza,
P([X E(X)[ > c)
var(X)
c
2
. Poiche var(X) = E(X
2
)
_
E(X)
_
2
, le informazioni con-
tenute nella coppia di parametri E(X), var(X) sono equivalenti a quelle contenute nella
coppia E(X), E(X
2
).
Per naturale estensione, tutti i momenti di X possono considerarsi parametri riassuntivi
del comportamento probabilistico. Ricordiamo che per ogni k = 0, 1, 2, . . . il momento di
ordine k di X, è (nel caso assolutamente continuo e in quello discreto rispettivamente)
m
k
:= E(X
k
) =
_

x
k
f
X
(x) dx, m
k
:= E(X
k
) =
k
x
k
k
p
X
(x
k
),
se lintegrale (la serie) esiste nito. Una banale condizione suciente, che garantisce
lesistenza di m
k
per ogni k N, è che la densità abbia supporto su un intervallo [a, b]
nito. Se il supporto è illimitato, una condizione suciente è che la densità tenda a zero
pi` u velocemente di qualunque x
k
. La normale, lesponenziale, la geometrica, la Poisson,
soddisfano tutte questo criterio. In generale non tutti i momenti di una data variabile
aleatoria esistono ma, per quanto dimostrato nel paragrafo 17.1, se esiste m
s
allora esistono
tutti gli m
r
, per ogni r < s. La v.a. di Cauchy ad esempio non ammette m
1
:= E(X),
e quindi nessun momento di ordine superiore ad 1. Si noti invece che il momento m
0
esiste sempre, ma non è informativo, infatti m
0
= E(X
0
) = E(1) = 1, qualunque sia
X. Lintuizione suggerisce che tutti gli altri momenti m
k
, k 1, sono informativi e che
maggiore è il numero di momenti noti, maggiori sono le informazioni sul comportamento
probabilistico di X. Il prossimo risultato mostra che, se lalfabeto di X è nito, lintuizione
è corretta.
Lemma. Sia X una v.a. a valori in A = x
1
, x
2
, . . . x
N
. Dati i momenti
m
k
= E(X
k
), k = 0, 1, . . . N 1,
la densità di probabilità p
X
(x
i
), i = 1, 2, . . . N è univocamente determinata.
Dimostrazione. Scriviamo le equazioni che deniscono i momenti m
k
in forma matriciale
_
_
_
_
_
_
m
0
m
1
m
2
. . .
m
N1
_
_
_
_
_
_
=
_
_
_
_
_
_
1 1 1 . . . 1
x
1
x
2
x
3
. . . x
N
x
2
1
x
2
2
x
2
3
. . . x
2
N
. . . . . . . . . . . . . . .
x
N1
1
x
N1
2
x
N1
3
. . . x
N1
N
_
_
_
_
_
_
_
_
_
_
_
_
p
X
(x
1
)
p
X
(x
2
)
p
X
(x
3
)
. . .
p
X
(x
N
)
_
_
_
_
_
_
Questo è un sistema di N equazioni lineari nelle N incognite p
X
(x
i
). La matrice del
sistema è di Vandermonde
22
, ed ha determinante non nullo poiche gli x
i
sono distinti,
quindi la soluzione p
X
(x
1
) . . . p
X
(x
N
) esiste ed è unica.
22
per un richiamo sulle matrici di Vandermonde si veda un qualunque testo di algebra lineare.
`
E fatta
abbastanza bene la pagina http://en.wikipedia.org/wiki/Vandermonde matrix
162
Osservazione. Bisogna prestare molta attenzione ed evitare di leggere in questo Lemma
quello che non cè scritto. Non è vero che, data una qualunque sequenza di numeri reali
m
0
, m
1
, . . . m
N1
, con m
0
= 1, la soluzione del sistema lineare qui sopra, che esiste ed
è unica, soddis i vincoli p
X
(x
i
) 0 per ogni i = 1, 2 . . . N e
i
p
X
(x
i
) = 1, sia cioè
una densità di probabilità legittima. A tal ne bisogna che la sequenza m
0
, m
1
, . . . m
N1
sia eettivamente la sequenza dei momenti di una qualche variabile aleatoria. Una tale
sequenza non può essere arbitraria: ad esempio m
2
, m
4
, . . . m
2k
. . . devono, quanto meno,
essere non-negativi per poter rappresentare momenti di ordine pari. La caratterizzazione
delle sequenze di numeri reali m
k
che sono possibili sequenze di momenti di una v.a.
costituisce il classico problema dei momenti dellanalisi matematica.
Nel caso di v.a. generali (discrete o continue) non è sempre possibile ricostruire univo-
camente la densità di probabilità a partire dalla conoscenza dei momenti, anche ammesso
di conoscere la sequenza innita m
k
k0
. Accettando comunque lidea che pi` u momen-
ti si conoscono maggiori sono le informazioni a disposizione sulla densità considereremo
interessante ogni strumento matematico che ci consenta di calcolare in modo semplice i
momenti m
k
.
Il metodo brute-force per il calcolo dei momenti consiste nel valutare
m
k
= E(X
k
) =
_
x
k
f
X
(x) dx, per k = 0, 1, . . . ,
ovvero inniti integrali. Peraltro la v.a. e
X
, funzione della v.a. X, ha uninteressante
proprietà. Calcolando il valore atteso di e
X
e ricordando che e
x
=
k=0
x
k
k!
, si trova
E
_
e
X
_
=
_
e
x
f
X
(x) dx = E
_

k=0
X
k
k!
_
=
k=0
E(X
k
)
k!
,
ammesso che sia lecito lo scambio di valore atteso e serie. Si osservi il risultato del calcolo
di un unico integrale, E
_
e
X
_
, si può esprimere come combinazione lineare (innita) dei
momenti m
k
k0
. La funzione generatrice dei momenti, introdotta qui sotto, è una
macchinetta analitica che consente di estrarre gli E(X
k
) dalla combinazione lineare.
26.2 Funzione generatrice dei momenti
Denizione. La funzione generatrice dei momenti (MGF) della v.a. X è
M
X
: D R; s M
X
(s) := E
_
e
sX
_
,
dove D R è il sottoinsieme degli s R tali che lintegrale E
_
e
sX
_
esiste nito. Si noti
che, qualunque sia la variabile aleatoria X, il dominio D ,= , infatti s = 0 M
X
(0) =
E(1) = 1.
Se il dominio di denizione di M
X
(s) è un intervallo D = (s+0, s
0
) intorno allorigine
allora la variabile aleatoria X ammette tutti i momenti, come specicato nel seguente
teorema.
Teorema 1. Se M
X
(s) ha dominio di esistenza D = (s +0, s
0
), per qualche s
0
> 0 allora
la variabile aleatoria X ammette tutti i momenti m
k
k0
, inoltre
m
k
= E(X
k
) =
d
(k)
ds
(k)
M
X
(s)
s=0
, (1)
163
Cenno di dimostrazione. Sviluppando e
sx
in serie di Taylor
M
X
(s) := E
_
e
sX
_
=
_

e
sx
f
X
(x) dx
=
_

k=0
s
k
k!
x
k
f
X
(x) dx
=
k=0
s
k
k!
_

x
k
f
X
(x) dx
=
k=0
E(X
k
)
s
k
k!
,
dove lo scambio dellintegrale con la serie è possibile poiche M
X
(s) esiste per ogni s D =
(s
0
, s
0
), per qualche s
0
> 0 (questa parte della dimostrazione è omessa). La funzione
generatrice dei momenti è quindi rappresentabile, per ogni s D, con la serie di potenze
M
X
(s) =
k=0
E(X
k
)
s
k
k!
. (2)
Peraltro se f(t) è una funzione sviluppabile in serie di potenze in un intorno dellorigine,
ovvero f(t) =
k=0
a
k
t
k
è noto che a
k
=
1
k!
d
k
dt
k
f(t)
t=0
. Confrontando con la serie di
potenze (2) si trova
m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)
s=0
.
Si osservi che la formula (1) consente di ricavare tutti i momenti m
k
a partire dal calcolo
delle derivate nellorigine, operazione (generalmente) semplice, della funzione M
X
(s). In
realtà i momenti m
k
si possono addirittura ricavare per ispezione, senza calcoli, se si riesce
a scrivere lo sviluppo in serie di potenze di M
X
(s). Si vedano gli Esempi 3 e 6 qui sotto!
Esempi di calcolo di M
X
(s)
Esempio 1. Se Z N(0, 1),
M
Z
(s) = e
1
2
s
2
, per ogni s R
Dimostrazione. Si usa la tecnica del completamento del quadrato.
M
Z
(s) =
_
e
sx
1
2
e
1
2
x
2
dx
=
_
1
2
e
1
2
x
2
+sx
dx
=
_
1
2
e
1
2
_
(xs)
2
s
2
_
dx
=
__
1
2
e
1
2
(xs)
2
dx
_
e
1
2
s
2
= e
1
2
s
2
dove, nellultimo passaggio, si riconosce che lintegranda è la densità N(s, 1) che integra
ad 1, per ogni s R. Si veda anche lEsempio 4
Micro-esercizio. Vericare che E(Z) = M
t
Z
(0) = 0, E(X
2
) = var(X) = M
tt
Z
(0) = 1.
164
Esempio 2. Se X Bin(n, p),
M
X
(s) = E
_
e
sX
_
=
n
k=0
e
sk
_
n
k
_
p
k
(1 p)
nk
=
n
k=0
_
n
k
_
(pe
s
)
k
(1 p)
nk
= (pe
s
+ 1 p)
n
, per ogni s R
Micro-esercizio. Vericare che E(X) = M
t
X
(0) = np. Calcolare E(X
2
) = M
tt
X
(0) e
vericare i conti riottenendo la nota varianza della binomiale.
Esempio 3. Se X Exp(),
M
X
(s) =
_

0
e
sx
e
x
dx =
_

0
e
(s)x
dx =

s
, per s <
Si noti che, in questo caso, il dominio di esistenza della M
X
(s) si riduce alla semiretta
s < . Poiche il parametro di una densità esponenziale è strettamente positivo si
deduce che la M
X
(s) esiste in un intorno dellorigine e quindi è possibile determinare i
momenti E(X
k
) = M
(k)
X
(0). Per calcolare i momenti della v.a. esponenziale sfruttando il
Teorema 1 si può operare in due modi. Il modo diretto è usare la formula m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)
s=0
. Il modo furbo è scrivere lo sviluppo in serie di potenze di M
X
(s) che è
particolarmente semplice ricordando le serie geometriche.
M
X
(s) =

s
=
1
1
s
k=0
_
s
_
k
=
k=0
k!
k
s
k
k!
Abbiamo moltiplicato e diviso per k! i termini della serie geometrica per avere une-
spressione identica alla (2), che consente di scrivere gli m
k
= E(X
k
) per ispezione. Si
ricava
m
k
= E(X
k
) =
k!
k
,
non male come rapporto sforzo/risultato: per le v.a. esponenziali la sequenza innita m
k
si calcola in pochi secondi.
MGF di funzioni lineari
Teorema 2. Sia X una v.a. la cui MGF è M
X
(s). Sia inoltre Y = aX +b, allora
M
Y
(s) = e
sb
M
X
(as)
Dimostrazione. Per calcolo diretto,
M
Y
(s) := E
_
e
sY
_
= E
_
e
s(aX+b)
_
= e
sb
E
_
e
saX
_
= e
sb
M
X
(as)
165
Esempi di applicazione del Teorema 2
Esempio 4. Se X N(,
2
),
M
X
(s) = e
s
e
1
2
2
s
2
.
Dimostrazione. La densità N(,
2
) coincide con la densità della variabile aleatoria X =
Z + , dove Z N(0, 1), infatti X è una trasformazione lineare di Z, (si veda il sot-
toparagrafo trasformazioni lineari delle v.a. normali, del paragrafo 18.1). Applicando
lEsempio 1 ed il Teorema 2 si ottiene il risultato.
Esempio 5 (Calcolo dei momenti centrali). I momenti centrali della v.a. X sono denotati
k
, e deniti come
k
:= E
_
(X E(X))
k
_
= E
_
(X m
1
)
k
_
, k = 1, 2, . . .
se lintegrale (la serie) esiste ed è nito. Si noti che
1
= 0, qualunque sia la v.a. X e che
2
= var(X). Ponendo Y = X m
1
è evidente che i momenti m
Y
k
:= E(Y
k
) coincidono
con i momenti centrali
X
k
:= E
_
(X m
1
)
k
_
di X. Il Teorema 2 fornisce allora
M
Y
(s) = M
Xm
1
(s) = e
m
1
s
M
X
(s)
e, applicando il Teorema 1,
k
= E(Y
k
) =
d
k
ds
k
M
Y
(s)
s=0
=
d
k
ds
k
_
e
m
1
s
M
X
(s)
_
s=0
(3)
Esempio 6 (Calcolo dei momenti centrali della N(,
2
)). Come conseguenza degli Esempi
4 e 5 si ha
M
X
(s) = e
s
e
s
e
1
2
2
s
2
= e
1
2
2
s
2
Ora, imitando quanto fatto nellEsempio 3, anziche applicare direttamente la formula (3)
seguiamo la via furba, scrivendo direttamente la serie di potenze che rappresenta M
X
(s).
M
X
(s) = e
1
2
2
s
2
=
k=0
_
1
2
2
s
2
_
k
k!
=
k=0
(
2
)
k
2
k
k!
s
2k
=
k=0
(
2
)
k
(2k)!
2
k
k!
s
2k
(2k)!
Anche in questo caso abbiamo moltiplicato e diviso per (2k)! in modo da rendere i
momenti di X (momenti centrali di X), ricavabili per ispezione della serie di potenze.
Si ha, per ogni k 1,
2k+1
= 0,
2k
=
(
2
)
k
(2k)!
2
k
k!
.
Micro-esercizio. Vericare che:
2
=
2
,
4
= 3(
2
)
2
.
166
Il problema dellesistenza della MGF M
X
(s)
Per capire qual è la radice del problema per la convergenza dellintegrale che denisce
M
X
(s) si consideri il caso di una v.a. X di Cauchy. La densità f
X
(x) =
1
1
1+x
2
, quindi
lespressione della MGF è
M
X
(s) =
_
1
e
sx
1 +x
2
dx
La gura qui sotto mostra landamento di e
sx
al variare di s e landamento di
1
1+x
2
.
Spezzando lintegrale per addittività
M
X
(s) =
_
0
e
sx
1 +x
2
dx +
_

0
1
e
sx
1 +x
2
dx
Condizione necessaria per la convergenza dellintegrale è che lintegranda tenda a zero per
x . Usando la regola di LH opital
lim
x
e
sx
1 +x
2
= lim
x
s
2
e
sx
2
= 0, se e solo se s > 0
lim
x
e
sx
1 +x
2
= lim
x
s
2
e
sx
2
= 0, se e solo se s < 0
Si conclude che M
X
(s) esiste solo per s = 0, dove banalmente vale M
X
(0) = 1.
167
Lezione 27 (Luned` 13 maggio, ore 10:3013:15)
27.1 Funzione caratteristica di una variabile aleatoria
La funzione caratteristica è un potente strumento per lo studio delle variabili aleatorie,
per certi aspetti simile alla funzione generatrice dei momenti, ma molto pi` u potente. La
funzione caratteristica, a dierenza della funzione generatrice dei momenti, ha il pregio di
esistere sempre; la cattiva notizia è che, in generale, essa è una funzione a valori complessi.
Denizione. La funzione caratteristica di una v.a. X è la funzione
X
: R C;
X
() := E
_
e
jX
_
Nel caso di v.a. assolutamente continue
X
() := E
_
e
jX
_
=
_
e
jx
f
X
(x) dx,
e nel caso di v.a. discrete
X
() := E
_
e
jX
_
=
k
e
jx
k
p
X
(x
k
)
Legame con la nozione di trasformata di Fourier in Segnali e Sistemi
Nei libri di teoria della probabilit` a, la funzione caratteristica di una v.a. X è denita come trasformata
di Fourier (TdF) della funzione di densit` a f
X
(x). Gli allievi ingegneri, alle prime armi con la TdF, sono
usualmente disorientati da questa denizione, poiche la denizione di TdF che viene utilizzata dierisce
leggermente da quella utilizzata in segnali e sistemi.
In realt` a nella letteratura scientica convivono almeno quattro denizioni, leggermente diverse tra
loro, di TdF. Vediamo le quattro diverse coppie trasformata-antitrasformata, nel caso di un segnale x(t) a
tempo continuo e a valori complessi.
(a.) Per gli ingegneri dellautomatica
X() :=
_
x(t)e
jt
dt
x(t) :=
1
2
_
X()e
jt
d.
(b.) Rispetto alla denizione (a.) gli ingegneri delle telecomunicazioni sostituiscono con 2f per far
sparire il coeciente
1
2
dallantitrasformata o, pi` u pomposamente, per rendere la trasformazione x(t)
X(f) unitaria su L
2
(R),
X(f) :=
_
x(t)e
j2f
dt
x(t) :=
_
X(f)e
j2ft
df.
(c.) Rispetto alla denizione (a.) i sici moltiplicano la trasformata per
1
2
in modo da avere lo stesso
fattore nella trasformata e nellantitrasformata, ed anche questa è una trasformazione unitaria
X() :=
1
2
_
x(t)e
jt
dt
x(t) :=
1
2
_
X(j)e
jt
d.
(d.) Rispetto alla denizione (a.) i probabilisti scambiano con ,
X() :=
_
x(t)e
jt
dt
x(t) :=
1
2
_
X(j)e
jt
d,
168
Adottando questultima convenzione per la denizione di TdF, e la notazione f
X
(x)
X
() per la
coppia segnale/trasformata, si riconosce che la funzione caratteristica, come denita allinizio della lezione,
è la trasformata di Fourier della densit` a di proabilit` a.
Proprietà elementari della funzione caratteristica
(a.) Esistenza, continuit` a e normalizzazione
X
() esiste per ogni R, qualunque sia la densità f
X
(x). Infatti
[
X
()[ =
_
e
jx
f
X
(x) dx
e
jx
f
X
(x)
dx =
_
f
X
(x) dx = 1.
Poiche
X
(0) = E
_
e
j0X
_
= E(1) = 1 il modulo della funzione caratteristica ha un
massimo per = 0. La funzione caratteristica è inoltre uniformemente continua su R
(dim. omessa).
(b.) Corrispondenza biunivoca funzioni caratteristiche funzioni di distribuzione
A livello pi` u fondamentale la funzione caratteristica si denisce a partire dalla funzione
di distribuzione delle variabili aleatorie. Si dimostra che esiste una corrispondenza biu-
nivoca tra funzioni caratteristiche e funzioni di distribuzione, ovvero se due funzioni di
distribuzione hanno la stessa funzione caratteristica allora coincidono. Ci limitiamo qui
ad osservare che, nel caso assolutamente continuo, le funzioni di distribuzione ammet-
tono densità e quindi, se la densità soddisfa le condizioni di Dirichlet, vale la formula
dinversione
f
X
(x) =
1
2
_

e
jx
X
() d, per ogni x di continuità di f
X
.
(c.) Simmetrie
Poiche la densità f
X
(x) è una funzione reale,
X
() è hermitiana. Se la densità f
X
(x) è
pari allora
X
() è reale e pari (vedi Segnali e Sistemi). In questo caso
X
() =
_
cos(x)f
X
(x) dx
(d.) Relazione con i momenti
Se la v.a. X ammette k momenti allora
X
() è derivabile k volte nellorigine e
E(X
k
) =
1
j
k
d
(k)
X
()
d
(k)
=0
Omessa la dimostrazione della derivabilità. Per ricavare la formula si deriva sotto il segno
di integrale, cioè si scambiano le operazioni di derivata e calcolo del valore atteso:
d
(k)
d
(k)
X
()
=0
=
d
(k)
d
(k)
E
_
e
jX
_
=0
= E
_
d
(k)
d
(k)
e
jX
_
=0
= E
_
j
k
X
k
e
jX
_
=0
= j
k
E(X
k
)
169
(e.) Funzione caratteristica di trasformazioni lineari
Se Y = aX +b allora
Y
() = E
_
e
jY
_
= E
_
e
j(aX+b)
_
= e
jb
E
_
e
jaX
_
= e
jb
X
(a)
(f.) Funzione caratteristica della somma di due v.a. indipendenti
Se X, Y sono indipendenti allora W = X +Y ha funzione caratteristica
W
() =
X
()
Y
().
La dimostrazione è immediata usando la denizione.
W
() = E
_
e
j(X+Y )
_
= E
_
e
jX
e
jY
_
= E
_
e
jX
_
E
_
e
jY
_
=
X
()
Y
()
Questo risultato è in realtà una manifestazione del teorema della convoluzione. Se X ed Y
sono indipendenti è noto che f
X+Y
= f
X
f
Y
, quindi la trasformata di Fourier di f
X+Y
è il prodotto delle TdF di f
X
e di f
Y
.
Attenzione: non vale il viceversa. Se la funzione caratteristica della somma di due v.a.
è il prodotto delle funzioni caratteristiche degli addendi non segue che le due v.a. sono
indipendenti. Pi` u sotto costruiremo un controesempio usando le v.a. di Cauchy.
Micro-esercizio. Dimostrare lanaloga proprietà per la funzione generatrice dei momenti.
(g.) Funzione caratteristica della somma di n v.a. indipendenti
La generalizzazione di (f.) ad n variabili aleatorie è immediata. Riportiamo alcune espres-
sioni che saranno utili in seguito. Se X
i
n
i=1
è una sequenza nita di v.a. indipendenti,
con
X
i
() funzione caratteristica di X
i
, la somma di variabili aleatorie
W =
n
k=1
X
k
ha funzione caratteristica
W
() =
n
k=1
k
()
Se le v.a. X
i
sono i.i.d., di funzione caratteristica comune (), allora
W
() =
_
()
n
.
Nello stesso caso di v.a. i.i.d. la media aritmetica delle v.a. X
i
n
i=1
,
X
n
:=
1
n
n
k=1
X
i
,
ha funzione caratteristica
X
n
() =
_
n
__
n
.
170
(h.) La funzione caratteristica è denita positiva
Questo signica che per ogni n N, per ogni npla di reali
1
,
2
, . . .
n
ed ogni npla
di complessi u
1
, u
2
, . . . u
n
vale la disuguaglianza
n
k=1
n
l=1
X
(
k

l
)u
k
u
l
0
Dimostrazione (notazioni: se z = x +jy allora z
= z = x jy)
0 E
_
_
k=1
u
k
e
j
k
X
2
_
_
= E
__
n
k=1
u
k
e
j
k
X
__
n
k=1
u
k
e
j
k
X
_
_
= E
__
n
k=1
u
k
e
j
k
X
__
n
k=1
u
k
e
j
k
X
__
= E
_
n
k=1
n
l=1
u
k
u
l
e
j(
k
l
)X
_
=
n
k=1
n
l=1
u
k
u
l
E
_
e
j(
k
l
)X
_
=
n
k=1
n
l=1
X
(
k

l
)u
k
u
l
(i.) Teorema di Bochner
Ogni funzione () denita positiva, continua in un intorno dellorigine, e normalizzata
(0) = 1, è la funzione caratteristica di una funzione di distribuzione (dimostrazione
omessa).
Esempi di calcolo e di applicazione
(1.) X |(a, b)
U
() =
_
b
a
e
jx
1
b a
dx =
1
j
e
jb
e
ja
b a
Dopo avere visto questo esempio lintroduzione motivazionale sullutilità della funzione
caratteristica per il calcolo dei momenti sarà ritenuta pubblicità ingannevole. In eetti,
calcolare le derivate della funzione
U
() nellorigine è piuttosto oneroso, mentre il calcolo
diretto dei momenti di una v.a. uniforme è triviale
m
k
= E(X
k
) =
_
b
a
x
k
b a
dx =
b
k+1
a
k+1
(b a)(k + 1)
.
Il fatto è che, in rare occasioni, integrare è pi` u facile che derivare. Nel caso particolare
a = 1, b = 1 la funzione caratteristica è
() =
sin
,
che è reale e pari come atteso.
171
(2.) X Exp()
X
() =
_

0
e
x
e
jx
dx
=
_

0
e
(j)x
dx
=

j
e
(j)x
0
converge per ogni R poiche < 0
=

j
Spiegazione dettagliata (per chi era distratto alla lezione di Segnali e Sistemi) Capire a fondo la convergenza
dellintegrale appena visto è importante. Analizziamo in dettaglio perche converge. Assegnato un numero
complesso
s = +j
calcoliamo, usando la denizione uciale, lintegrale improprio
_

0
e
sx
dx =
_

0
e
(+j)x
dx
= lim
T
1
+j
e
(+j)x
T
0
= lim
T
1
+j
e
x
_
cos(x) +j sin(x)
_
T
0
=
1
+j
, se < 0
Nellultimo passaggio abbiamo sfruttato la seguente osservazione. Se < 0 allora
lim
T
e
T
cos(T) = lim
T
e
T
sin(T) = 0
presentandosi, in entrambi i casi, il prodotto di una funzione che tende a zero per una funzione limitata. Se
invece 0 i limiti non esistono. Infatti, se = 0 le funzioni oscillano tra 1, mentre se > 0 oscillano
illimitate.
Esercizio. Calcolare E(X) ed E(X
2
) per la v.a. esponenziale a partire dalla funzione
caratteristica.
(3.) X Cauchy
X
() =
_

e
jx
1 +x
2
dx = e
[[
questo è un classico esempio di trasformata di Fourier vedi esercizi di segnali e sistemi.
Controesempio alla proprietà (f.). Si considerino le due v.a. di Cauchy, X ed Y = X,
allora X +Y = 2X e per la proprietà (e.) vale
X+Y
() =
2X
() = e
2[[
= e
[[
e
[[
=
X
()
Y
(),
la funzione caratteristica della somma X +Y è il prodotto delle funzioni caratteristiche di
X ed Y . Ma le v.a. aleatorie X ed Y non sono indipendenti, infatti Y = X.
(4.) X b(p)
X
() =
k
e
jx
k
p
X
(x
k
) = 1 p +pe
j
172
(5.) X Bin(n, p)
X
() =
k
e
jx
k
p
X
(x
k
) =
n
k=0
e
jk
_
n
k
_
p
k
(1 p)
nk
=
n
k=0
_
n
k
_
_
pe
j
_
k
(1 p)
nk
=
_
1 p +pe
j
_
n
(6.) Z N(0, 1)
Z
() = E[e
jZ
] = e
1
2
u
2
Dimostrazione.
23
Si deve calcolare
Z
() =
1
2
_

e
jx
e
x
2
2
dx
Per la formula di Eulero e
jx
= cos(x) +j sin(x). Osserviamo che
1
2
_

sin(x) e
x
2
2
dx = 0
essendo lintegranda dispari ed integrabile (grazie alla veloce convergenza a 0 di e
x
2
2
). Ci
siamo quindi ridotti al calcolo di
Z
() =
1
2
_

cos(x) e
x
2
2
dx
Derivando rispetto a ed integrando per parti si trova
t
Z
() =
1
2
_

xsin(x) e
x
2
2
dx =
1
2
_

sin(x) d
_
e
x
2
2
_
=
1
2
sin(x) e
x
2
2
2
_

cos(x) e
x
2
2
dx
=
Z
().
Lequazione dierenziale lineare
t
Z
() =
Z
()
si risolve agevolmente separando le variabili
d
Z
()
Z
()
= d log(
Z
()) =
2
2
+C
Z
() =

C e
1
2
2
e, imponendo la condizione iniziale
Z
(0) = 1, si conclude che
Z
() = e
2
2
.
(7.) X N(,
2
)
X
() = e
j
1
2
2
Dimostrazione. Con lusuale trucco della trasformazione lineare, scriviamo X = Z + ,
dove Z N(0, 1). Applicando la regola (e.) e il risultato di (6.) si ricava il risultato.
23
Aggiungere dimostrazione con i momenti.
173
Applicazioni alla caratterizzazione di funzioni di distribuzione
(a.) Caratterizzazione della v.a. Binomiale
Lemma. La somma X di n v.a. di Bernoulli X
1
, . . . X
n
, i.i.d. di parametro p, è binomiale
Bin(n, p).
Commento. Questo risultato è stato già pi` u volte giusticato, ma ora e possibile di-
mostrarlo in modo semplice e rigoroso.
Dimostrazione. La funzione caratteristica comune delle v.a. di Bernoulli è () = 1
p + pe
j
. La funzione caratteristica della somma di v.a. indipendenti è il prodotto delle
funzioni caratteristiche degli addendi quindi
X
() =
_
()
_
n
=
_
1 p +pe
j
_
n
,
questa è la funzione caratteristica di una v.a. Bin(n, p). Se due v.a. hanno la stes-
sa funzione caratteristica le loro funzioni di distribuzione (e quindi densità) coincidono.
Conclusione: X Bin(n, p).
(b.) Combinazioni lineari di v.a. normali indipendenti sono normali
Alla ne della Lezione 23 abbiamo enunciato il seguente Teorema, senza però completarne
la dimostrazione che richiedeva un laborioso calcolo: la convoluzione di due densità nor-
mali. Luso della funzione caratteristica semplica di molto la dimostrazione. Questa è
una manifestazione del teorema della convoluzione.
Teorema. Se W = X +Y , con X N(
X
,
2
X
) ed Y N(
Y
,
2
Y
) indipendenti allora
W N(
X
+
Y
,
2
2
X
+
2
2
Y
).
Dimostrazione. Le funzioni caratteristiche di X ed Y sono rispettivamente
X
() = e
j
X
1
2
2
X
Y
(t) = e
j
Y

1
2
2
Y

2
Le funzioni caratteristiche di X e di Y sono rispettivamente (regola 2 (e.))
X
() = e
j
X
1
2
2
X
Y
() = e
j
Y

1
2
2
Y

2
Per lipotesi dindipendenza la funzione caratteristica di Z = X +Y è il prodotto delle
due:
W
() = e
j(
X
+
Y
)t
1
2
(
2
2
X
+
2
2
Y
)
2
ma questa è la funzione caratteristica di una v.a. N(
X
+
Y
,
2
2
X
+
2
2
Y
) e la
dimostrazione è conclusa.
(c.) Somme di v.a. binomiali indipendenti
Proposizione. Se la coppia di v.a. (X, Y ) è indipendente con X Bin(m, p) ed Y
Bin(n, p) allora Z = X +Y Bin(m+n, p).
Commento. Il risultato è intuitivamente corretto infatti X si può interpretare come somma
di m v.a. bernoulliane indipendenti di parametro p, ed analogamente Y come somma di
n bernoulliane indipendenti di parametro p. La v.a. X + Y è quindi interpretabile come
somma di m + n bernoulliane di parametro p, quindi X + Y Bin(m + n, p). Forniamo
due dimostrazioni, la prima diretta, la seconda con le funzioni caratteristiche.
174
Dimostrazione diretta. La dimostrazione consiste nel calcolo di una convoluzione. Per
quanto noto, la densità di probabilità di Z = X +Y è
p
Z
(k) = p
X
(k) p
Y
(k)
Le densità di probabilità p
X
e p
Y
sono rispetttivamente, (denotando q = 1 p)
p
X
(k) =
_
m
k
_
p
k
q
mk
[1l(k) 1l(k m)]
p
Y
(k) =
_
n
k
_
p
k
q
nk
[1l(k) 1l(k n)]
dove abbiamo introdotto i gradini per tenere automaticamente conto del supporto delle
due densità: 0, 1, . . . m per p
X
e 0, 1, . . . n per p
Y
. La convoluzione allora si scrive
esplicitamente come
p
Z
(k) =
=
p
X
(k )p
Y
()
=
=
_
m
k
_
p
k
q
mk+
[1l(k ) 1l(k m)]
_
n
_
p
q
n
[1l() 1l( n)]
Estraendo dalla sommatoria le costanti in ci si riduce a
p
Z
(k) = p
k
q
m+nk
=
_
m
k
__
n
_
[1l(k ) 1l(k m)][1l() 1l( n)]
Il supporto (in , indice corrente della sommatoria) di [1l()1l(n)] è 0, 1, . . . , n mentre
il supporto di [1l(k ) 1l(k m)] è k m, . . . , k Per ssare le idee, e senza perdita
di generalità, supponiamo che m n. Si distinguono 5 casi:
k < 0 p
Z
(k) = 0
0 k n p
Z
(k) = p
k
q
m+nk
k
=0
_
m
k
__
n
_
n k m p
Z
(k) = p
k
q
m+nk
n
=0
_
m
k
__
n
_
m k m+n p
Z
(k) = p
k
q
m+nk
n
=km
_
m
k
__
n
_
k > m+n p
Z
(k) = 0
Per terminare la dimostrazione dobbiamo vericare che, per ogni k 0, 1 . . . m + n
(ovvero in ognuno dei casi listati sopra dove la sommatoria non è vuota), si ha
p
Z
(k) =
_
m+n
k
_
p
k
q
m+nk
Allo scopo è utile ricordare linterpretazione di Polya dei coecienti binomiali. Facendo
riferimento alla gura qui sotto, il coeciente binomiale
_
n
k
_
è il numero di cammini in
avanti che partono dal nodo (0, 0) e arrivano al nodo (n, k) sul reticolo. Ricordo che il
nodo (n, k) si trova al livello n-esimo del reticolo, in posizione k-esima. Il livello si conta
partendo da 0 alla radice, la posizione nel livello si conta partendo da 0 allestrema sinistra
(guardando il reticolo). Con questa scelta di coordinate, per andare da (0, 0) ad (n, k)
175
si devono fare n passi, di cui k verso destra (guardando la gura). Il numero totale di
cammini di questo tipo è chiaramente
_
n
k
_
.
Con riferimento alla gura ogni cammino da (0, 0) ad (m+n, k) si può fare in due tappe
(0, 0) (m, k ) (m+n, k). Il nodo (m, k ) della tappa intermedia può essere uno
qualunque di quelli da cui è possibile raggiungere il nodo nale (m + n, k). Riettendo
sulla gura è facile convincersi che i possibili valori di dipendono da k esattamente
cone nellanalisi della convoluzione fatta sopra, ossia 0, 1 . . . k se 0 k n (caso
illustrato in gura con i pallini sul livello 4), mentre 0, 1 . . . n se n k m ed
inne k m, . . . n se m k m + n. Per ssato, applicando il principio di
moltiplicazione, il numero di cammini da (0, 0) a (m + n, k) con tappa in (m, k ) è
_
m
k
_
_
n
_
. Il numero totale di cammini (0, 0) (m + n, k) si trova sommando rispetto
ad nellinsieme di valori appropriato (sono proprio le somme che si dovevano calcolare
per terminare la convoluzione!) e ovviamente darà sempre come risultato
_
m+n
k
_
.
t t t t
t
k = 3
m = 4
m+n = 7
Se siete arrivati no a qui vi meritate una ciliegina. Dopo lo sforzo erculeo del calcolo della
convoluzione a mani nude apprezzerete al meglio la potenza dei metodi di trasformazione.
Dimostrazione della proposizione con il metodo della funzione caratteristica. Ricordiamo
che la funzione caratteristica di una v.a. X Bin(m, p) è
X
() =
_
1 p + pe
j
_
n
`
E
altres` noto che la funzione caratteristica della somma di variabili aleatorie indipendenti è
il prodotto delle funzioni caratteristiche. Poiche X ed Y sono v.a. binomiali indipendenti
si trova
X+Y
() =
X
()
Y
()
=
_
1 p +pe
j
_
m
_
1 p +pe
j
_
n
=
_
1 p +pe
j
_
m+n
Si riconosce che la funzione caratteristica
X+Y
() coincide con quella di una densità
binomiale Bin(m+n, p). Poiche le funzioni caratteristiche caratterizzano le distribuzioni,
si conclude che X +Y Bin(m+n, p). La proposizione è dimostrata.
176
27.2 Vettori aleatori (notazioni matriciali)
Nelle precedenti lezioni abbiamo iniziato lo studio dei vettori aleatori introducendo la
descrizione probabilistica completa nella forma di distribuzioni e densità n dimensionali.
Non abbiamo ancora introdotto i parametri riassuntivi del comportamento probabilistico
dei vettori aleatori. Questi ultimi sono pi` u naturalmente deniti usando le notazioni
vettoriali e matriciali dellalgebra lineare.
Parametri riassuntivi
Sia X := (X
1
, X
2
. . . x
n
)
R
n
un vettore aleatorio. Introdurremo qui i corrispondenti
vettoriali delle nozioni di valore atteso, secondo momento, varianza ecc.
Denizione (vettore della media).
`
E il vettore in R
n
m
X
:= E(X) :=
_
_
_
_
E(X
1
)
E(X
2
)
. . .
E(X
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di m
X
è suciente conoscere le funzioni di densità
di tutte le variabili aleatorie X
i
. Questa informazione è molto minore di quella contenuta
nella densità congiunta f
X
(x
1
, x
2
, . . . x
n
) ed infatti si può ricavare, per marginalizzazione,
da questultima.
Denizione (matrice di correlazione).
`
E la matrice in R
nn
,
R
X
:= corr(X) := E
_
XX
_
=
_
_
_
_
E(X
2
1
) E(X
1
X
2
) . . . E(X
1
X
n
)
E(X
2
X
1
) E(X
2
2
) . . . E(X
2
X
n
)
. . . . . . . . . . . .
E(X
n
X
1
) E(X
n
X
2
) . . . E(X
2
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di R
X
è suciente conoscere le funzioni di densità
congiunte di tutte le coppie di variabili aleatorie (X
i
, X
j
), per ogni i ,= j. Questa infor-
mazione è molto minore di quella contenuta nella densità congiunta f
X
(x
1
, x
2
, . . . x
n
) ed
infatti si può ricavare, per marginalizzazione, da questultima.
Lemma. R
X
è simmetrica ed è semidenita positiva
24
Dimostrazione. La simmetria è ovvia. Per dimostrare che R
X
è semidenita positiva
procediamo direttamente. Per a R
n
, valutiamo la forma quadratica di matrice R
X
a
R
X
a = a
E
_
XX
_
a
= E
_
a
XX
a
_
= E(w
2
) 0,
dove w := a
X è una variabile aleatoria scalare, quindi E(w

2
) 0, e si conclude che
a
R
X
a 0 per ogni a R
n
.
24
Una matrice Q simmetrica è detta semidenita positiva, e si denota Q 0, se la corrispondente forma
quadratica q(x) := x
Qx 0, per ogni x R
n
. Se q(x) > 0 per ogni x ,= 0 allora Q si dice denita
positiva e si denota Q > 0. Se Q è denita positiva essa è invertibile. Se Q 0, e per qualche x
0
R
n
la
forma si annulla, q(x
0
) := x
0
Qx
0
= 0, allora il determinante di Q è nullo e quindi Q non è invertibile.
177
Denizione (matrice di covarianza).
`
E la matrice in R
nn
,
X
:= cov(X) := E
_
(Xm
X
)(Xm
X
)
_
=
_
_
_
_
E(X
1
m
1
)
2
E(X
1
m
1
)(X
2
m
2
) . . . E(X
1
m
1
)(X
n
m
n
)
E(X
2
m
2
)(X
1
m
1
) E(X
2
m
2
)
2
. . . E(X
2
m
2
)(X
n
m
n
)
. . . . . . . . . . . .
E(X
n
m
n
)(X
1
m
1
) E(X
n
m
n
)(X
2
m
2
) . . . E(X
n
m
n
)
2
)
_
_
_
_
=
_
_
_
_
var(X
1
) cov(X
1
, X
2
) . . . cov(X
1
, X
n
)
cov(X
2
, X
1
) var(X
2
) . . . cov(X
2
, X
n
)
. . . . . . . . . . . .
cov(X
n
, X
1
) cov(X
n
, X
2
) . . . var(X
n
)
_
_
_
_
Osservazioni. (a.) Se le componenti del vettore X sono indipendenti la matrice
X
è
diagonale. (b.) per calcolare
X
è suciente conoscere le densità congiunte di tutte le
coppie (X
i
, X
j
), per ogni i ,= j. (c.) Poiche
X
= corr(Xm
X
) la matrice di covarianza
è simmetrica e semidenita positiva come tutte le matrici di correlazione.
Lemma.
X
= R
X
m
X
m
X
.
Dimostrazione. Dalla denizione
X
= E
_
(Xm
X
)(Xm
X
)
_
= E
_
XX
m
X
X
Xm
X
+m
X
m
X
_
= E
_
XX
_
m
X
E
_
X
_
E
_
X
_
m
X
+m
X
m
X
= E
_
XX
_
m
X
m
X
= R
X
m
X
m
X
.
Questa formula è lanaloga vettoriale della formula scalare var(X) = E(X
2
) (m
X
)
2
.
Trasformazioni lineari di vettori aleatori e parametri
Sia X R
n
un vettore aleatorio. La matrice A R
mn
ed il vettore b R
m
sono
deterministici ed assegnati. Deniamo il vettore aleatorio Y R
m
, trasformazione lineare
(meglio chiamarla ane quando b ,= 0)) del vettore aleatorio X, come
Y := AX +b
Parametri della trasformazione lineare
I parametri del vettore Y = AX +b si ricavano facilmente da quelli di X. In particolare
vettore della media
m
Y
= E(Y ) = E(AX +b) = AE(X) +b = Am
X
+b
matrice di covarianza
Y
= E
_
(Y m
Y
)(Y m
Y
)
_
= E
_
(AX +b Am
X
b)(AX +b Am
X
b)
_
= E
_
(A(X m
X
))(A(X m
X
))
_
= AE
_
(X m
X
)(X m
X
)
_
A
= A
X
A
178
matrice di correlazione
R
Y
=
Y
+m
Y
m
Y
= A
X
A
+ (Am
X
+b)(Am
X
+b)
Vettori bidimensionali
Il caso dei vettori bidimensionali (caso bivariato) serve ad illustrare, con poca fatica, alcuni
fenomeni interessanti che si possono vericare nel caso vettoriale.
Sia V = (X, Y )
un vettore aleatorio in R
2
. Vettore della media, matrice di corre-
lazione e matrice di varianza sono rispettivamente
m
V
=
_
E(X)
E(Y )
_
, R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
,
V
=
_
var(X) cov(XY ))
cov(XY ) var(Y )
_
.
Lemma (matrici simmetriche, semidenite positive).
Q =
_
a b
b c
_
0 se e solo se a 0, e det(Q) 0
Dimostrazione. Imponiamo che la forma quadratica q(v) = v
Qv dove v = (x, y)
sia
non-negativa.
q(x, y) =
_
x y
_
_
a b
b c
__
x
y
_
= a
2
x
2
+ 2b xy +c
2
y
2
0
`
E allora evidente che la condizione di non-negatività vale per ogni (x, y) R
2
se e solo se
a 0 ed il determinante del polinomio di secondo grado è negativo, = 4b
2
4ac 0.
Semplicando e riordinando i termini la condizione necessaria e suciente è che a 0 e
che ac b
2
= det(Q) 0.
Dalla precedente sezione sappiamo che R
V
e
V
sono semidenite positive. Il Lemma
appena dimostrato applicato a R
V
comporta:
E(X
2
)E(Y
2
)
_
E(XY )
2
,
ed applicato a
V
comporta:
var(X)var(Y )
_
cov(XY )
2
.
Osservazione. Queste sono entrambe disuguaglianze di Cauchy Schwarz: la prima lave-
vamo dimostrata, per via alternativa, nella Lezione xx, la seconda non lavevamo vista in
precedenza.
Lemma (covarianza ed esistenza della densità).
Se la matrice
V
non è invertibile il vettore V non ammette densità.
Dimostrazione. Se la matrice
V
non è invertibile il suo determinante è nullo, ovvero
var(X)var(Y )
_
cov(XY )
2
= 0.
In questo caso lequazione
V
a = 0 ammette una soluzione a = (, )
,= (0, 0)
e quindi
a
V
a = 0. Esplicitamente lultima condizione si traduce in
0 = a
V
a
=
_

_
_
var(X) cov(XY )
cov(XY ) var(Y )
__
_
=
2
var(X) + 2cov(XY ) +
2
var(Y )
= E
_
2
(X m
X
)
2
+ 2(X m
X
)(Y m
Y
) +
2
(Y m
Y
)
2
_
= E
_
_
(X m
X
) +(Y m
Y
)
2
_
179
La condizione E
_
_
(X m
X
) +(Y m
Y
)
2
_
= 0 equivale a
(X m
X
) +(Y m
Y
) = 0
ovvero
X +Y = c
dove c = m
X
+m
Y
è una costante.
La conclusione è che, se
V
ha determinante nullo, esiste una relazione lineare tra le
componenti X ed Y di V . In questo caso il vettore V non è assolutamente continuo, non
ammette cioè densità, poiche tutta la massa di probabilità è concentrata sullinsieme 1 :=
(x, y)
x +y = c R
2
, di area nulla (è una retta). Nessuna funzione f
XY
(x, y) 0,
Riemann integrabile, soddisfa
__
1
f
XY
(x, y) dxdy = 1, che è quanto richiesto ad una
funzione di densità.
180
Funzione caratteristica multivariata
materiale non in programma a.a. 2012/13
Denizione. Sia X
= (X
1
, . . . X
n
)
un vettore aleatorio. La funzione caratteristica di X

è la funzione
X
: R
n
C
X
() := E
_
e
j
X
_
= E
_
e
j
n
i=1
i
X
i
_
= E
_
n
i=1
e
j
i
X
i
_
La
X
() è anche detta funzione caratteristica congiunta delle v.a. X
1
, X
2
, . . . X
n
. Nel
caso assolutamente continuo esiste la densità congiunta f
X
(x) ed è
() :=
_
. . .
_
R
n
n
i=1
e
j
i
X
i
f
X
(x
1
, . . . , x
n
) dx
1
. . . dx
n
,
analoga formula vale nel caso discreto.
Commento. Nel caso assolutamente continuo la funzione caratteristica multivariata è la
trasformata di Fourier multidimensionale della densità congiunta f
X
(x). La densità con-
giunta è una funzione f
X
: R
n
R. Nei corsi avanzati di Segnali e Sistemi si studiano
segnali di questo tipo. Un semplice esempio è il segnale deterministico g(x
1
, x
2
) che rapp-
resenta il livello di grigio di una fotograa in bianco e nero nel punto (x
1
, x
2
) del piano. La
trasformata di Fourier bidimensionale è di largo uso nei problemi di analisi di immagini.
Proprietà elementari della funzione caratteristica multivariata
(a.) Esistenza, normalizzazione, continuità
(scrivo per il caso bivariato per convenienza notazionale: nulla cambia nel caso multivari-
ato, n > 2)
X
(
1
,
2
) esiste per ogni (
1
,
2
) R
2
, infatti
[
X
(
1
,
2
)[ =
__
R
2
e
j(
1
x
1
+
2
x
2
)
f
X
(x
1
, x
2
) dx
1
dx
2
__
R
2
e
j(
1
x
1
+
2
x
2
)
f
X
(x
1
, x
2
)
dx
1
dx
2
=
__
R
2
f
X
(x
1
, x
2
) dx
1
dx
2
= 1.
Inoltre è immediato vericare dalla denizione che
X
(0, 0) = 1. Combinando con la
disuguaglianza in (a.) questo mostra che la funzione caratteristica ha un massimo in
(
1
,
2
) = (0, 0).
(b.) Marginalizzazioni
X
(
1
, 0) =
X
1
(
1
),
X
(0,
2
) =
X
2
(
2
)
Immediato dalla denizione. Qualunque marginalizzazione relativa alle funzioni caratter-
istiche è molto semplice. Ad esempio, sempre sulla base della denizione,
X
1
X
2
X
3
X
4
(
1
, 0, 0,
4
) = E
_
e
j(
1
X
1
+
2
X
2
+
3
X
3
+
4
X
4
)
_
(
2
,
3
)=(0,0)
= E
_
e
j(
1
X
1
+
4
X
4
)
_
=
X
1
X
4
(
1
,
4
) ecc.
181
(c.) Relazione con i momenti
Supponendo che le componenti X
1
, X
2
del vettore ammettano momenti la funzione carat-
teristica
X
(
1
,
2
) ammette le corrispondenti derivate parziali e valgono le relazioni
E(X
k
1
) =
1
j
k
(k)
(k)
1
X
(
1
, 0)
1
=0
E(X
k
2
) =
1
j
k
(k)
(k)
2
X
(0,
2
)
2
=0
E(X
1
X
2
) =
1
j
2
(2)
X
(
1
,
2
)
(
1
,
2
)=(0,0)
E(X
h
1
X
k
2
) =
1
j
h+k
(h+k)
h
1
k
2
X
(
1
,
2
)
(
1
,
2
)=(0,0)
Omessa la dimostrazione dellesistenza delle derivate parziali. Per ricavare le formule si
deriva parzialmente sotto il segno di integrale, cioè si scambiano le operazioni di calcolo
delle derivate parziali e del valore atteso. Per esercizio scrivete qualcuna delle formule nel
caso di vettori ndimensionali.
Esercizio. Scrivere la matrice di correlazione R
V
del vettore bidimensionale V = (X, Y )
in termini di derivate della funzione caratteristica.

Soluzione. Per quanto appena enunciato
R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
=
_

2
2
1
X
(
1
, 0)

2
X
(
1
,
2
)
X
(
1
,
2
)

2
2
2
X
(0,
2
)
_
(
1
,
2
)=(0,0)
La matrice di correlazione R
V
è lopposto della matrice Hessiana, calcolata nellorigine,
della funzione caratteristica.
(d.) Funzione caratteristica di trasformazioni lineari
Sia X R
n
un vettore aleatorio. La matrice A R
mn
ed il vettore b R
m
sono
deterministici ed assegnati. Deniamo il vettore aleatorio Y R
m
, trasformazione lineare
(ane se b ,= 0)) del vettore aleatorio X, come
Y := AX +b
La formula per la determinazione della funzione caratteristica di Y generalizza la cor-
rispondente formula del caso scalare.
Y
() := E
_
e
j
Y
_
= E
_
e
j
(AX+b)
_
= E
_
e
j
AX
_
e
j
b
=
X
(A
)e
j
b
Attenzione. In questa formula R
m
. Infatti largomento della funzione
Y
() è
R
m
, poiche Y R
m
. Il dominio di
X
è invece R
n
, in accordo con la dimensione di
X R
n
ed infatti nella formula compare
X
(A
) dove A
R
n
, poiche A
R
nm
.
(e.) Funzione caratteristica di vettori a componenti indipendenti
Lemma. Le v.a. X
1
, X
2
, . . . X
n
, componenti del vettore aleatorio X, sono indipendenti se
e solo se
X
() =
n
i=1
X
i
(
i
)
182
Dimostrazione. Se le componenti sono indipendenti allora la fattorizzazione vale per la
nota proprietà del valore atteso:
X
() := E
_
e
j
n
i=1
i
X
i
_
= E
_
n
i=1
e
j
i
X
i
_
=
n
i=1
E
_
e
j
i
X
i
_
per lindipendenza
=
n
i=1
X
i
(
i
)
La dimostrazione dellaltra direzione è omessa.
183
Lezione 28 (Marted` 14 maggio, ore 16:2518:05)
28.1 Vettori normali motivazione della denizione
Nel caso scalare la distribuzione di una v.a. X normale, X N(,
2
), è completamente
specicata dal valore atteso e dalla varianza
2
ed ammette sempre densità, tranne che
nel caso degenere
2
= 0 corrispondente ad una v.a. X = costante. Anche in R
n
, come
vedremo, un vettore normale multivariato X è completamente specicato dal vettore della
media E(X) e dalla matrice di covarianza cov(X). A dierenza di quanto accade in R
però, la densità non esiste sempre, ma se e solo se cov(X) è invertibile.
25
Esistono quindi
vettori normali che non ammettono densità. Questo fatto crea qualche dicoltà tecnica
al livello della denizione dei vettori normali, non potendosi in generale caratterizzare con
unassegnata funzione di densità congiunta.
Vi sono molti modi equivalenti per denire i vettori normali in R
n
. La procedura pi` u
semplice è denire i vettori normali standard e poi considerare normali tutti i vettori che
si possono ottenere come trasformazioni lineari di vettori standard. Prima di entrare nei
dettagli tecnici illustriamo la procedura nel caso scalare, confrontandola con la denizione
che avevamo usato nella Lezione 18.
Variabili aleatorie normali: vecchia denizione - vedi Lezione 18
Denizione. Y N(,
2
) se
f
Y
(y) =
1
2
2
e
(x)
2
2
, y R
Variabili aleatorie normali: nuova denizione
Denizione 1. Z è una v.a. normale standard, e scriveremo Z N(0, 1), se ha densità
f
Z
(z) := (z) =
1
2
e
z
2
2
, per ogni z R
Denizione 2. Y è una v.a. normale se esiste una v.a. Z normale standard, e due numeri
a, b R tali che
Y = aZ +b.
Esercizio. Dimostrare che le due denizioni sono equivalenti.
Soluzione. Osserviamo inizialmente che la vecchia e la nuova denizione di Z N(0, 1)
coincidono. Sia Y è una v.a. normale secondo la nuova denizione. Poiche Y = aZ + b
dove Z N(0, 1), per le note proprietà (Lezione 18.3) Y N(b, a
2
) secondo la vecchia
denizione. Viceversa sia Y N(,
2
) secondo la vecchia denizione. Per le note pro-
prietà (Lezione 18.3) la v.a. Z :=
Y
N(0, 1) e, invertendo questa relazione, Y si può

rappresentare come Y = Z+, quindi Y è una v.a. normale secondo la nuova denizione.
Osservazione. La rappresentazione di Y N(,
2
) come funzione lineare di una v.a.
Z N(0, 1) non è unica. Infatti Y = Z + e Y = Z + sono rappresentazioni
diverse della v.a. Y N(,
2
).
Non è un gioco di bussolotti come potrebbe sembrare: le due denizioni sono equiv-
alenti, ma lenorme vantaggio della nuova denizione è che essa non richiede di introdurre
la densità di Y . Questo fatto tornerà comodo nel caso vettoriale dove la densità non
sempre esiste.
25
Si veda il paragrafo sui vettori bidimensionali, alla ne della Lezione 27, per una discussione di questa
condizione.
184
2. Vettori normali
Denizione vettore normale standard in R
n
. Il vettore aleatorio Z R
n
è normale
standard se le sue componenti Z
i
n
i=1
sono v.a. i.i.d. N(0, 1).
`
E immediato ricavare funzione di densità, funzione caratteristica, vettore della media e
matrice di covarianza di un vettore normale standard in R
n
.
Poiche le v.a. Z
i
sono i.i.d. la funzione di densità congiunta è il prodotto delle n densità
identiche N(0, 1),
f
Z
(z
1
, . . . , z
n
) =
n
i=1
1
2
e
1
2
z
2
i
=
1
_
(2)
n
e
1
2
[[z[[
2
. (1)
La funzione caratteristica di Z, anchessa ottenuta come prodotto di n funzioni caratter-
istiche N(0, 1), è
Z
() = e
1
2
[[[[
2
.
Il vettore della media di Z è
E[Z] = 0,
poiche E(Z
i
) = 0 per ogni i = 1, 2, . . . n.
La matrice di covarianza di Z è
cov(Z) = I
n
,
dove I
n
denota la matrice identità in R
n
. Infatti cov(Z
i
, Z
j
) = 0 per ogni i ,= j poiche le
v.a. Z
i
sono indipendenti, mentre cov(Z
i
, Z
i
) = var(Z
i
) = 1 per ogni i poiche le Z
i
hanno
tutte varianza 1.
Esempio. La gura qui sotto mostra la densità del vettore normale standard in R
2
.
Chiamando Z = (Z
1
, Z
2
)
= (X, Y )
, la densità è
f
Z
(x, y) =
1
2
e
1
2
(x
2
+y
2
)
, (x, y) R
2
.
La densità è massima in (0, 0), dove vale
1
2
.
Diremo normale ogni vettore Y R
n
ottenuto come trasformazione lineare (ane per
dirla meglio) di un vettore normale standard Z R
k
. Si noti che k ed n possono essere
diversi, sono cioè permesse trasformazioni lineari tra spazi di dimensione diversa. Qui
sotto la denizione formale.
Denizione vettore normale in R
n
. Il vettore aleatorio Y R
n
è normale se esistono: un
naturale k N, una matrice A R
nk
, un vettore R
n
ed un vettore normale standard
Z N(0, I
k
) tale che
Y = AZ +
Media e covarianza di vettori normali. Poiche Y = AZ + per qualche A, ,
E(Y) = E(AZ +) = AE(Z) + = ,
cov(Y) = E((Y)(Y)
) = E(AZZ
) = AI
n
A
= AA
.
Si noti che, qualunque sia A R
nk
, la matrice AA
0, come atteso trattandosi di una

matrice di covarianza. Per denotare la matrice di covarianza introduciamo il simbolo
:= cov(Y) = AA
.
185
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
4
3
Z
X
Y
2
1
4
0 3
2
-1
1
0
-2
-1
-2 -3
-3
-4
-4
Figura 1: Densità normale standard in R
2
Funzione caratteristica di un vettore normale. Poiche Y = AZ+ per qualche A, , e per
le proprietà della funzione caratteristica multivariata (ne della Lezione 27),
Y
() = E
_
e
j
Y
_
=
Z
(A
) e
j
= e
j
1
2
.
Osservazione 1. La funzione caratteristica del vettore normale Y è completamente speci-
cata dal vettore della media e dalla matrice A, ma solo attraverso la matrice di covarianza
= AA
. Questa proprietà riette quella analoga delle v.a. normali, la cui distribuzione
è completamente specicata da media e varianza. Per questo motivo ha senso estendere
ai vettori normali la notazione Y N(, ), per indicare un vettore di media e matrice
di covarianza . Ad esempio, denotando con I
k
la matrice identità di dimensione k, il
vettore normale standard in R
k
si denota Z N(0, I
k
).
Osservazione 2. Nel caso scalare sappiamo che, per ogni coppia (,
2
) RR
+
esistono
v.a. normali Y N(,
2
). Lo stesso accade nel caso vettoriale, vale infatti il seguente
Lemma.
Lemma. Per ogni coppia (, ), dove R
n
è qualunque, e R
nn
è tale che
=
0, esistono vettori normali Y N(, ).

La dimostrazione del Lemma richiede il seguente risultato di algebra lineare che può essere
preso a scatola chiusa (chi lo desidera veda lAppendice I alla Lezione).
Ogni matrice R
nn
, tale che =
0, si può fattorizzare, in modo non unico,

nella forma = AA
, dove A R
nk
e k è un qualunque naturale tale che k rank().
Dimostrazione del Lemma. Fissato k rank() si fattorizzi = AA
con A R
nk
. Il
vettore normale cercato è Y := AZ +, dove Z N(0, I
k
).
Commento. Mentre nel caso scalare Y N(,
2
) ha due rappresentazioni Y = Z +,
nel caso multivariato Y N(, ) ammette innite rapresentazioni Y = AZ + , che
corrispondono alle innite possibili fattorizzazioni = AA
.
186
Densità dei vettori normali
Veniamo ora al problema della determinazione della densità dei vettori normali. La con-
dizione di esistenza della densità è molto semplice: un vettore normale ammette funzione
di densità se e solo se la matrice di covarianza è invertibile.
Teorema. Sia Y R
n
un vettore normale Y N(, ) con invertibile, allora Y ammette
densità che ha espressione
f
Y
(y) =
1
_
(2)
n
det()
exp
1
2
(y )
1
(y ), y R
n
(2)
Dimostrazione euristica (si veda lAppendice II per limpostazione della dimostrazione
rigorosa). Nella Lezione 20.2 (Esempio 1) abbiamo dimostrato che, se
Y = g(Z) = aZ +b,
allora
f
Y
(y) =
1
[a[
f
Z
_
g
(1)
(y)
_
=
1
[a[
f
Z
_
y b
a
_
. (3)
Per Y N(, ) in R
n
si costruisca una qualunque fattorizzazione = AA
con A
R
nk
si può allora scrivere
Y = g(Z) = AZ + (4)
dove Z N(0, I
k
). Per calcolare la densità f
Y
ci ispiriamo alla formula (3). Anche sia
soddisfatta la condizione necessaria di invertibilità di g(z) = Az+ bisogna che sia n = k
ed inoltre A R
nn
deve essere invertibile. Ciò equivale a = AA
invertibile. In questo
caso la funzione inversa esiste e vale
z = g
1
(y) = A
1
(y ),
Applichiamo allora la formula (3), con laccortezza di sostituire [a[ con det(A) trovandoci
nel caso vettoriale. Ricordando la densità del vettore normale standard (1), si trova
f
Y
(y) = [det(A
1
)[ f
Z
_
A
1
(y )
_
= [det(A
1
)[
1
_
(2)
n
exp
1
2
[[A
1
(y )[[
2
(5)
Lespressione della densità si semplica osservando quanto segue:
(a.) [[A
1
(y )[[
2
= (y )
(A
1
)
A
1
(y )
(b.) (A
1
)
A
1
= (AA
)
1
=
1
facendo uso del fatto che (A
1
)
= (A
)
1
(c.) [det(A
1
)[ = 1/
_
det() che si ricava applicando le note regole: det(A) = det(A
),
det(A
1
) = 1/det(A) e det(AB) = det(A)det(B).
Sostituendo tutto nella (5) si ottiene la formula della densità (2).
In pratica. Come ci aspettavamo la densità dipende solo da e da (vedi commenti sulla
funzione caratteristica), ma non direttamente da A. Quindi se Y N(, ) ha matrice di
covarianza > 0, la densità (2) si può scrivere immediatamente senza bisogno di ricavare
preliminarmente una matrice A che fattorizzi = AA
.
Nota bene. Nelle trattazioni elementari un vettore aleatorio Y di valore atteso E(Y) = e
matrice di covarianza cov(Y ) = si denisce normale se > 0 ed Y ha densità (2). Cos`
facendo si opera come si era fatto nella Lezione 18 anche nel caso vettoriale, specicando
direttamente la densità ed eliminando tutte le dicoltà. Il prezzo che si paga è la perdita
di tutti i vettori normali con matrice di covarianza non invertibile. Si tratta di una
pessima soluzione, forse accettabile per i corsi di Probabilità per la Sociologia.
187
Commento. Si noti lanalogia tra le formule di passaggio da v.a. N(0, 1) a v.a. N(,
2
)
e viceversa:
Z =
1
(Y ) da N(,
2
) a N(0, 1)
Y = Z + da N(0, 1) a N(,
2
)
e le corrispondenti multivariate (valide solo per = AA
> 0)
Z = A
1
(Y) da N(, ) a N(0, I
n
)
Y = AZ + da N(0, I
n
) a N(, ).
Sono le stesse formule del caso univariato, con la matrice A nel ruolo di radice quadrata
di : in eetti A soddisfa alla AA
= , che è lanalogo per matrici simmetriche della

radice quadrata.
Trasformazioni lineari dei vettori aleatori normali
Lemma. Se Y N(, ) e W := BY +, dove B R
mn
e R
m
, allora
W N(B +, BB
)
Dimostrazione. Sia A un qualunque fattore di , allora Y = AZ + quindi,
W := BY +
= B(AZ +) +
= BAZ +B +
Poiche W si può esprimere come trasformazione lineare di un vettore normale standard,
esso è un vettore normale per denizione. Il calcolo del valore atteso e della matrice di
covarianza sono immediati. Ovviamente il risultato è indipendente dal fattore A di che
era stato scelto.
Conseguenza importante. Le componenti di un vettore normale sono v.a. normali, in
particolare, se Y N(, ), allora Y
i
N(
i
,
ii
)
Dimostrazione. Si applica il Lemma precedente alle n trasformazioni lineari che corrispon-
dono a scegliere B = e
i
, dove e
i
= (0, . . . 1, . . . 0) è li-esimo vettore della base canonica
di R
n
. Allora si trova
Y
i
= e
i
Y
con E(Y
i
) = e
i
=
i
. La matrice di covarianza del vettore unidimensionale Y
i
coincide
con la varianza della v.a. Y
i
e vale var(Y
i
) = e
i
e
i
=
ii
.
Indipendenza e scorrelazione delle componenti di vettori normali
`
E notevole la seguente proprietà dei vettori normali.
Lemma. Le componenti di Y N(, ) sono indipendenti se e solo se sono scorrelate, o
equivalentemente se e solo se la matrice di covarianza è diagonale.
Dimostrazione. La dimostrazione pi` u diretta, e valida in generale anche per vettori normali
che non ammettono densità, è basata sulla funzione caratteristica
26
Y
() = e
j
.
26
Si veda qui sotto la dimostrazione limitata al caso di vettori normali che ammettono densit` a, che non
richiede luso della funzione caratteristica multivariata
188
Se le componenti di Y sono scorrelate allora E((Y
i
i
)(Y
j
j
)) =
ij
= 0 per ogni i ,= j,
ovvero è una matrice diagonale. Sostituendo nellespressione della funzione caratteristica
una matrice diagonale si verica immediatamente la condizione di fattorizzazione, infatti
Y
() = e
j
1
2
= e
j
n
i=1
1
2
n
i=1
(
ii
)
2
i
=
n
i=1
e
j
i
1
2
(
ii
)
2
i
=
n
i=1
Y
i
(
i
),
e quindi le componenti sono indipendenti. Laltra direzione è una proprietà ben nota: v.a.
indipendenti sono sempre scorrelate.
Dimostrazione limitata ai vettori che amettono densit` a. Se le componenti di Y sono
scorrelate allora E((Y
i

i
)(Y
j

j
)) =
ij
= 0 per ogni i ,= j, ovvero è una matrice
diagonale. Sostituendo nellespressione della densità (2) si ha
f
Y
(y) =
1
_
(2)
n
det()
exp
1
2
(y )
1
(y )
=
n
k=1
1
2
ii
exp
1
2
(y
i
i
)
2
ii
che si riconosce essere il prodotto delle n densità normali scalari, N(
i
,
ii
), per i = 1, . . . n.
Si conclude che le componenti Y
i
sono indipendenti. Per laltra direzione, come noto,
variabili aleatorie indipendenti sono scorrelate.
Attenzione: Bisogna stare molto attenti a come si enuncia la precedente proprietà. Spesso
si sente, o addirittura si trova scritta, la seguente aermazione: v.a. normali scorrelate
sono indipendenti. Non è cos`! Quello che è vero è che se le componenti di un vettore
normale sono scorrelate allora sono indipendenti. La radice della confusione sta nel ritenere
che un pacco di n v.a. normali scorrelate, impilate una sullaltra, formino automaticamente
un vettore normale. Ciò è falso.
Controesempio. (
`
E solo uno dei tanti che si possono costruire allo scopo). Sia X N(0, 1)
e Z 1, 1 una v.a. discreta con P(Z = 1) = P(Z = 1) =
1
2
ed indipendente da
X. Deniamo la v.a. Y = ZX.
`
E facile vericare che Y è una v.a. N(0, 1),infatti la sua
funzione caratteristica vale
Y
() = E
_
e
jY
_
= E
_
E
_
e
jZX
[Z
__
= E
_
e
jX
_
P(Z = 1) +E
_
e
jX
_
P(Z = 1)
= ()
1
2
+()
1
2
= ().
dove abbiamo indicato con () = e
1
2
2
la funzione caratteristica della N(0, 1) e, nellul-
timo passaggio, sfruttato il fatto che () è una funzione pari. Poichè la funzione carat-
teristica
Y
() = () si conclude che Y è una v.a. N(0, 1).
`
E facile vericare che X ed
Y sono scorrelate, infatti esse sono entrambe a valor medio nullo e E(XY ) = E(ZX
2
) =
E(E(ZX
2
[Z)) = E(X
2
)P(Z = 1) + E(X
2
)P(Z = 1) = 0. Peraltro è ovvio che X ed
Y non sono indipendenti essendo Y = ZX una funzione anche di X. Come mai questa
coppia di v.a. normali scorrelate non è indipendente? La risposta è semplice: il vettore
W = (X, Y )
non è un vettore normale. Infatti se lo fosse tutte le funzioni lineari di W

sarebbero a loro volta v.a. normali. Si consideri la funzione lineare (1, 1)(X, Y )
= X+Y ,
è facile calcolare P(X + Y = 0) = P((1 + Z)X = 0) = P(Z = 1) =
1
2
. Chiaramente
X + Y non può essere una v.a. normale, poiche le v.a. normali sono continue ed hanno
probabilità nulla di assumere uno specico valore reale. Ciò dimostra che W non è un
vettore normale.
189
Appendici alla Lezione 28
Complementi sui vettori normali
materiale non in programma a.a. 2012/13
Appendice I. Fattorizzazione delle matrici semidenite positive
Ogni =
R
nn
, semidenita positiva, ha tutti gli autovalori reali e i suoi autovet-
tori possono essere scelti a formare una base ortonormale di R
n
. Formando la matrice
ortogonale U che ha per colonne gli autovettori ortonormali di si può allora scrivere
= UU
, dove è la matrice diagonale degli autovalori di . Se è semidenita pos-

itiva allora una decomposizione del tipo = AA
, con A R
nn
, si ottiene prendendo
A = U
1
2
(in generale questo non sarebbe possibile se ci fossero autovalori negativi!). La
non unicità di A è evidente poichè anche

A = AQ, con Q
Q = QQ
= I una arbitraria
matrice ortogonale, produce una fattorizzazione valida = AA
=

A
. Con un piccolo
sforzo extra si può costruire una fattorizzazione del tipo = AA
, con A R
nk
dove k
è un qualunque intero che soddisfa la condizione k rango().
Appendice II. Funzione di densità dei vettori normali
(A.) Richiamo sulla formula per il cambio di variabili negli integrali multipli.
Sia B R
n
e g : B R
n
invertibile, dierenziabile con derivate continue e Jacobiano
non nullo per ogni x B, allora
_
g(B)
f(x) dx =
_
B
f(g(u))
g(u)
u
du
dove
g(u)
u
è il modulo del (determinante) Jacobiano della trasformazione g.

Esempio familiare. Nel caso n = 2, sia x := (x, y), u := (, ) e la trasformazione
g :=
_
g
1
(, )
g
2
(, )
_
=
_
cos
sin
_
,
allora

g(u)
u
det
_
cos sin
sin cos
_
=
e la formula per il cambio di variabili corrispondente è
__
g(B)
f(x, y) dxdy =
__
B
f( cos , sin ) dd
(B.) Calcolo della densità di Y = g(X).
Sia X un vettore aleatorio di densità nota f
X
(x). Si consideri il vettore Y = g(X), dove
g : R
n
R
n
ed invertibile. Il vettore Y è funzione del vettore X e, in analogia a quanto
fatto nel caso scalare, ci proponiamo di calcolare la densità f
Y
(y) a partire dalla densità
nota f
X
(x).
Per ogni B B(R
n
)
P(Y B) =
__
B
f
Y
(y) dy dove f
Y
è la densità da determinare
= P(g(X) B) = P(X g
1
(B))
=
__
g
1
(B)
f
X
(x) dx
=
__
B
f
X
(g
1
(y))
g
1
(y)
y
dy formula del cambio di variabili per g

1
190
Confrontando la prima e lultima espressione di P(Y B), poiche B è arbitrario, si
conclude che
f
Y
(y) = f
X
(g
1
(y))
g
1
(y)
y
(6)
(C.) Applicazione ai vettori normali.
Si consideri il vettore normale Y N(, ) in R
n
. Costruita una qualunque fattorizzazione
= AA
con A R
nk
si può allora scrivere
Y = g(Z) = AZ + (7)
dove Z N(0, I
k
) è una normale standard la cui densità f
Z
è data dalla 1. Calcoliamo la
densità f
Y
con la formula 6. Anchè sia soddisfatta la condizione necessaria di invertibilità
di g(z) = Az + bisogna che sia n = k ed inoltre A R
nn
invertibile. Ciò equivale a
= AA
invertibile. In questo caso la funzione inversa è

z = g
1
(y) = A
1
(y ),
il cui (determinante) Jacobiano è [det(A
1
)[.
Applicando la formula (6) e ricordando la densità del vettore normale standard (1), si
trova
f
Y
(y) = [det(A
1
)[ f
Z
_
A
1
(y )
_
(8)
da qui si procede come nel testo della Lezione per determinare la densità.
(D.) Interpretazione geometrica dellesistenza della densità di un vettore normale.
`
E noto dallalgebra lineare (e facile da dimostrare) che un sottoinsieme di vettori v
1
, . . . v
n
in uno spazio a prodotto interno è linearmente indipendente se e solo se la matrice
Gramiana corrispondente è denita positiva
G(v
1
, . . . v
n
) :=
_
_
_
_
v
1
, v
1
v
1
, v
2
. . . v
1
, v
n
v
2
, v
1
v
2
, v
2
. . . v
2
, v
n
. . . . . . . . .
v
n
, v
1
v
n
, v
2
. . . v
n
, v
n
_
_
_
_
> 0.
Consideriamo ora nello spazio o delle v.a. a secondo momento nito il sottospazio generato
dalle componenti di un vettore normale Y N(0, ). Il gramiano delle componenti di Y
rispetto al prodotto interno precentemente introdotto è
G(Y
1
, . . . Y
n
) :=
_
_
_
_
E(Y
1
Y
1
) E(Y
1
Y
2
) . . . E(Y
1
Y
n
)
E(Y
2
Y
1
) E(Y
2
Y
2
) . . . E(Y
2
Y
n
)
. . . . . . . . .
E(Y
n
Y
1
) E(Y
n
Y
2
) . . . E(Y
n
Y
n
)
_
_
_
_
= cov(Y ) = .
La conclusione è che Y N(0, ) ammette densità se e solo se le sue componenti sono un
insieme linearmente indipendente dello spazio o.
Appendice III. Normale bivariata
Questo è solo il caso particolare dei vettori normali a valori in R
2
. Non cè nulla di nuovo,
ma ovviamente il caso n = 2 consente di fare qualche graco. Consideriamo un vettore
191
normale W (, ) in R
2
. La media
= (
X
,
Y
)
R
2
è un vettore arbitrario,
mentre la covarianza
=
_

2
X

XY
XY

2
Y
_
è unarbitraria matrice semidenita positiva. Come visto in precedenza la covarianza si
può scrivere alternativamente come
XY
= cov(XY ) =
X
Y
dove
:=
cov(XY )
_
var(X)var(Y )
=

XY
_
2
X
2
Y
è il coeciente di correlazione tra X ed Y che, per la disuguaglianza di Cauchy-Schwarz,
soddisfa
[[ 1
La matrice si può parametrizzare in termini di
2
X
,
2
Y
e , assumendo la forma
=
_

2
X

X
Y

2
Y
_
.
La condizione per lesistenza della densità è che sia denita positiva e di conseguenza
invertibile. Poichè in generale 0 e poichè assumiamo implicitamente che
2
X
e
2
Y
siano entrambe strettamente positive, altrimenti le v.a. X e/o Y sarebbero degeneri,
lunica condizione da imporre è che il determinante di sia strettamente positivo.
[[ := det() = (1
2
)
2
X
2
Y
> 0 [[ < 1
Consideriamo dapprima il caso in cui la densità esiste, [[ < 1 e specializziamo la formu-
la (2) al presente caso. Linversa della covarianza è
1
=
1
[[
_

2
Y

X
Y

2
X
_
=
1
1
2
_
1
2
X
Y
1
2
Y
_
Per rendere compatta la formula della densità deniamo la forma quadratica
q(x
X
, y
Y
) :=
_
x
X
, y
Y
_
_
1
2
X
Y
1
2
Y
_
_
x
X
y
Y
_
allora la formula (2) fornisce
f
W
(x, y) =
1
2
_
1
2
Y
exp
1
2(1
2
)
q(x
X
, y
Y
).
Espandendo la forma quadratica si trova
q(x
x
, y
Y
) =
(x
X
)
2
2
X
2

Y
(x
X
)(y
Y
) +
(y
Y
)
2
2
Y
Le curve di livello della densità f
W
(x, y) sono i luoghi geometrici deniti dallequazione
q(x
x
, y
Y
) = c al variare della costante c, ma lequazione
(x
X
)
2
2
X
2

Y
(x
X
)(y
Y
) +
(y
Y
)
2
2
Y
= c
192
è quella di una conica nel piano (x, y) e poichè per [[ < 1 il determinante (o invariante
quadratico o in qualunque modo lo abbiate chiamato nel corso di Geometria)
=
1
2
X
1
2
Y
Y
_
2
=
1
2
2
X
2
Y
> 0
è strettamente positivo, si conclude che le curve di livello sono ellissi di centro (
X
,
Y
).
(gura)
to do: Correlazione e varianza della somma Riprendere il discorso sulla varianza della
somma - calcolo della correlazione ecc.....
193
Lezione 29 (Mercoled` 15 maggio, ore 16:2518:10)
29.1 Convergenza in distribuzione Motivazione
Una variabile aleatoria è il naturale modello probabilistico di un esperimento consistente
in una singola misura incerta di una grandezza sica scalare. Se lesperimento consiste in
una singola misura di una grandezza sica vettoriale il modello probabilistico naturale è
il vettore aleatorio. Nella pratica ingegneristica i dati incerti sono tipicamente segnali di
ingresso e/o di uscita di sistemi dinamici e dunque consistono di sequenze di misure, scalari
o vettoriali a seconda del contesto. In questi casi il modello probabilistico naturale è una
sequenza di variabili aleatorie, se i segnali sono grandezze siche scalari, o una sequenza
di vettori aleatori se i segnali sono grandezze siche vettoriali.
In questa lezione, e nelle due seguenti, considereremo le sequenze di variabili aleatorie
X
n
n=1
, limitandoci per ora a denire alcune utili nozioni di convergenza. Una sequenza
di variabili aleatorie X
n
n=1
è in realtà una sequenza di funzioni X
n
: R. Come
noto dai corsi di Analisi Matematica e di Segnali e Sistemi, i modi di convergenza delle
sequenze di funzioni sono molti e non equivalenti: puntuale, uniforme, in L
1
, in L
2
, ecc. Per
le sequenze di variabili aleatorie è inoltre possibile introdurre due modi di convergenza,
in distribuzione e in probabilità, direttamente legati al comportamento asintotico della
probabilità di certi eventi.
In questa lezione trattiamo la forma pi` u debole di convergenza per sequenze di variabili
aleatorie, la convergenza in distribuzione. Prima di entrare nei dettagli formali, cerchiamo
di illustrare con un esempio questo modo di convergenza.
Richiamo. Se U |([0, 1]), la funzione di densità è costante nellintervallo [0, 1]) ovvero
f
U
(x) = 1l
[0,1]
(x),
a cui corrisponde la funzione di distribuzione (banale, a parte la notazione)
F
U
(x) = x1l
[0,1]
(x) + 1l(x 1)
Esempio. Sia X
n
n1
una sequenza di v.a. indipendenti, identicamente distribuite, X
n

|([0, 1]) per ogni n 1. Deniamo la sequenza di variabili aleatorie
M
n
:= max(X
1
, X
2
, . . . X
n
), n N
Vogliamo studiare il comportamento asintotico della sequenza M
n
n1
. Si noti che le
variabili M
n
non sono indipendenti, infatti M
n+1
= maxM
n
, X
n+1
, e dunque M
n+1
è
funzione di M
n
(a.) Intuizione.
Ci aspettiamo che, per n la sequenza M
n
converga ad una variabile aleatoria limitata
da 1. Infatti tutte le variabili aleatorie X
i
hanno valori in [0, 1], quindi M
n
1 per ogni
n, inoltre M
n
è non-decrescente in n.
(b.) Primo anamento parametri riassuntivi di M
n
.
Per calcolare media e varianza delle M
n
ne determiniamo la densità. Cominciamo con il
ricavare la FdD (banale: fate separatamente i casi (, 0], [0, 1], [1, ))
F
M
n
(x) = P(M
n
x) = P(max(X
1
, X
2
, . . . X
n
) x)
= P(X
1
x, X
2
x, . . . X
n
x) =
n
k=1
P(X
k
x)
=
_
F
U
(x)
_
n
= x
n
1l
[0,1]
(x) + 1l(x 1) (1)
194
La densità f
M
n
si calcola derivando la funzione di distribuzione F
M
n
(x)
f
M
n
(x) = nx
n1
1l
[0,1]
(x)
I parametri riassuntivi di M
n
si calcolano agevolmente.
E(M
n
) =
_
1
0
xf
M
n
(x) dx =
_
1
0
x nx
n1
dx =
n
n + 1
E(M
2
n
) =
_
1
0
x
2
f
M
n
(x) dx =
_
1
0
x
2
nx
n1
dx =
n
n + 2
var(M
n
) = E(M
2
n
)
_
E(M
n
)
_
2
=
n
n
3
+ 4n
2
+ 5n + 2
= O
_
1
n
2
_
Per n il valore atteso di M
n
tende ad 1 e la varianza a 0. Questa è unindicazione
ancora abbastanza vaga, ma pi` u precisa della prima intuizione: per n le variabili
aleatorie M
n
si concentrano intorno alla costante 1.
(c.) Secondo anamento comportamento limite della FdD di M
n
.
A partire dallespressione esatta (1) si trova
lim
n
F
M
n
(x) =
_
0, x < 1,
1, x 1.
Si riconosce che lim
n
F
M
n
(x) = 1l(x 1). Le funzioni di distribuzione F
M
n
tendono,
per ogni x R, alla funzione di distribuzione della variabile aleatoria degenere (costante)
1.
Questo è già un senso pi` u preciso in cui si può ritenere che M
n
1
`
E possibile approfondire lanalisi di questo esempio, che verrà ripreso nella Lezione 31.
Procediamo ora alla denizione formale della convergenza in distribuzione.
195
29.2 Convergenza in distribuzione
Denizione. Una sequenza di v.a. X
n
n1
non necessariamente indipendenti, di funzioni
di distribuzione F
n
(x), converge in distribuzione se esiste una funzione di distribuzione
F(x) tale che
lim
n
F
n
(x) = F(x), per ogni x dove F(x) è continua.
In questo caso scriveremo
X
n
T
F(x)
Attenzione. Bisogna leggere con attenzione questa denizione. Non basta che le F
n
(x)
convergano ad una certa funzione F(x) per ogni x dove F(x) è continua. Bisogna che
F(x) sia una funzione di distribuzione.
Vediamo immediatamente due esempi che chiariscono perche è necessario imporre che F(x)
sia una distribuzione e perche bisogna concedere alle F
n
(x) la possibilità di non convergere
nei punti di discontinuità di F(x).
Esempio 1. Anchè la nozione di convergenza appena introdotta serva a qualcosa bisogna
che, almeno in casi banali, si comporti come ci si aspetta. La sequenza numerica
X
n
= 1 +
1
n
.
converge ad 1, e poiche X
n
n1
è anche una sequenza di v.a. degeneri. Anche la nozione
di convergenza in distribuzione appena introdotta sia di una qualche utilità bisogna che
le variabili aleatorie X
n
di queso esempio convergano in distribuzione alla costante 1. Se
ciò non si dovesse vericare la nozione di convergenza in distribuzione sarebbe di dubbia
utilità.
Le distribuzioni F
n
(x) sono
F
n
(x) =
_
_
_
0, x < 1 +
1
n
,
1, x 1 +
1
n
.
e calcolando il limite si trova
G(x) := lim
n
F
n
(x) =
_
0, x1,
1, x>1.
La G(x) non è una funzione di distribuzione, non essendo continua a destra. Esiste però
una funzione di distribuzione:
F(x) :=
_
0, x<1,
1, x1.
_
= 1l(x 1).
tale che
lim
n
F
n
(x) = F(x), per ogni x punto di continuità di F(x)
Infatti F
n
(x) F(x) su tutta R, tranne nel punto x = 1 dove F(x) ha lunica disconti-
nuità. Si conclude che X
n
T
F(x).
Alla luce di questesempio si capisce perche, nella denizione di convergenza in distribuzione,
si deve tollerare che la sequenza F
n
(x) possa non convergere nei punti di discontinuità
di F(x). Se non si facesse cos` nemmeno la banalissima sequenza X
n
dellEsempio 1
convergerebbe in distribuzione.
196
Esempio 2. Si consideri la sequenza X
n
dove X
n
N(0, n). Detta come di consueto
(z) la funzione di distribuzione di una v.a. Z N(0, 1), standardizzando le X
n
si ha
F
n
(x) = P(X
n
x) = P
_
X
n
n
_
=
_
x
n
_
Poiche (0) =
1
2
, abbiamo che, per ogni x R ssato,
lim
n
F
n
(x) = lim
n
_
x
n
_
=
1
2
.
Ma non basta che la sequenza di distribuzioni F
n
(x) converga per ogni x R. Bisogna
che la funzione limite sia una distribuzione. Chiaramente la costante pari ad 1/2 non è
una funzione di distribuzione. (aggiungere graco in futura revisione). Si conclude che la
sequenza X
n
non converge in distribuzione.
Esempio 3. Lesempio del paragrafo 1 relativo alla sequenza di v.a. M
n
. Con la notazione
appena introdotta possiamo scrivere che M
n
T
1l(x 1).
Esempio 4. Lesempio del paragrafo 1 relativo alla sequenza di v.a. n(1 M
n
). Con la
notazione appena introdotta possiamo scrivere che n(1 M
n
)
T
Exp(1).
Esempio 5. Si consideri la sequenza di v.a. X
n
di alfabeto A
n
=
_
1
n
,
2
n
,
3
n
, . . .
n
n
_
e densità
di probabilità uniforme p
X
n
_
k
n
_
=
1
n
, per k = 1, 2, . . . n. Abbiamo visto a Lezione che la
sequenza X
n
T
U([0, 1]).
Convergenza in distribuzione e funzioni caratteristiche
Teorema di continuità (Paul Levy). Sia X
n
una sequenza di v.a. di funzioni caratteris-
tiche
n
(). Si supponga che
lim
n
() = (), per ogni x R,
per qualche funzione (), allora sono equivalenti le seguenti proposizioni
(a.) () è continua nellorigine.
(b.) () è una funzione caratteristica.
(c.) X
n
T
F(x), per qualche F(x) la cui funzione caratteristica è (t).
Esempio 6. Sia X
n
una sequenza di v.a. di distribuzioni Bin
_
n,

n
_
. Allora
X
n
T
T().
Dimostrazione. Abbiamo in precedenza calcolato la funzione caratteristica di una v.a.
binomiale.
n
() =
_
1

n
+

n
e
j
_
n
calcolando il limite si trova
lim
n
n
() = lim
n
_
1

n
+

n
e
j
_
n
= e
(e
jt
1)
si riconosce che il membro destro è la funzione caratteristica della distribuzione di Poisson
T(). Per il teorema di continuità si conclude che X
n
converge in distribuzione a T().
Un risultato che conoscevamo già ma che ora abbiamo ottenuto in modo pulito, rigoroso,
197
praticamente senza fare nessun calcolo. Ma cè dietro la grande macchina del teorema di
continuità.
Esercizio proposto. Riconsiderare gli Esempi da 1. a 5. del paragrafo precedente usando
il teorema di Levy.
Osservazione.
`
E interessante osservare la varietà di comportamenti possibili nella con-
vergenza in distribuzione. Nellesempio 3. una sequenza di FdD continue converge ad
una FdD discreta, nellesempio 4. una sequenza di FdD continue converge ad una FdD
continua, nellesempio 5. una sequenza di FdD discrete converge ad una FdD continua ed
inne, nellesempio 6, una sequenza di FdD discrete converge ad una FdD discreta
Convergenza in distribuzione cosa non è sempre vero
La convergenza in distribuzione è una nozione di convergenza molto debole. I seguenti
fatti lo dimostrano chiaramente.
Fatto 1. Sia X
n
una sequenza di v.a. assolutamente continue tali che X
n
T
F(x), per
qualche F(x) Non è in generale vero che per le corrispondenti densità valga
lim
n
f
n
(x) = f(x), NON
`
E SEMPRE VERO
Esempio. Sia X
n
una sequenza di v.a. di densità f
n
(x) =
_
1 cos(2nx)
_
1l
[0,1]
(x).
`
E
abbastanza facile dimostrare (grosso esercizio di Segnali e Sistemi) che per le corrispondenti
funzioni caratteristiche
lim
n
n
(t) =
U
(t)
dove
U
(t) è la funzione caratteristica della distribuzione |([0, 1]), quindi per il teorema
di continuità X
n
T
|([0, 1]). Peraltro è ancora pi` u facile vericare che la sequenza f
n
(x)
non converge per nessun x (0, 1).
Futura revisione. Discutere caso discreto
Fatto 2. Sia X
n
una sequenza di v.a. tali che X
n
T
F(x), per qualche F(x). Non è in
generale vero che per i valori attesi valga
lim
n
E(X
n
) = E(X), NON
`
E SEMPRE VERO
dove X è una v.a. di distribuzione F(x).
Esempio. Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Ricavate F
n
(x) (banale) e vericate che
lim
n
F
n
(x) =
_
0, x < 0,
1, x 1.
Quindi X
n
T
0 (cioè alla funzione di distribuzione della v.a. degenere (costante) 0.
Peraltro è immediato vericare che, per ogni n 1, vale E(X
n
) = 1 ,= E(0) = 0.
198
Lezione 30 (Luned` 20 maggio, ore 10:3012:15)
30.1 Convergenza in probabilità
Denizione. La sequenza di v.a. X
n
converge in probabilità alla v.a. X se
lim
n
P
_
[X
n
X[
_
= 0, per ogni > 0,
in questo caso scriveremo
X
n
P
X
Osservazioni
(a.) La convergenza delle probabilità è la ordinaria convergenza delle sequenze numeriche.
In termini formali: X
n
P
X se, per ogni > 0 ssato, per ogni > 0 esiste un N tale
che, per ogni n N
P
_
[X
n
X[
_
.
(b.) Forme alternative, equivalenti tra loro, della condizione di convergenza in probabilità.
Per ogni > 0
lim
n
P
_
[X
n
X[ >
_
= 0,
lim
n
P
_
[X
n
X[
_
= 1,
lim
n
P
_
[X
n
X[ <
_
= 1
(c.) Per valutare se la sequenza X
n
converge in distribuzione è suciente disporre delle
distribuzioni F
n
(x) delle singole v.a. X
n
. Per valutare se la sequenza X
n
converge in
probabilità si deve poter calcolare P
_
[X
n
X[ >
_
per ogni n, il che richiede di disporre
delle distribuzioni congiunte delle coppie (X
n
, X) per ogni n. In un caso, speciale ma
molto frequente, basta conoscere le distribuzioni delle singole v.a. X
n
: si veda il punto
successivo
(d.) Spesso la v.a. X cui la sequenza X
n
converge in probabilità è una v.a. degenere, cioè
una costante, diciamola c R. In questo caso la condizione di convergenza è intuitivamente
pi` u chiara. Per n sucientemente grande [X
n
c[ con alta probabilità. Inoltre in
questo caso per valutare P
_
[X
n
X[
_
al variare di n sono sucienti le distribuzioni
delle singole v.a. X
n
.
Esempio 1. (ripreso dal paragrafo 27.1)
La sequenza M
n
converge in distribuzione alla costante 1. Per capire se la convergenza ad
1 sussiste anche in probabilità si deve valutare, per ogni > 0 ssato,
P([M
n
1[ ) = P(1 M
n
) = P(M
n
1 )
= (1 )
n
0, per ogni 0 < < 1
(per i pi` u pignoli: data la denizione di M
n
, se > 1 la probabilità è nulla per ogni n,
non solo asintoticamente.) Si conclude che M
n
P
1.
Esempio 2.
Le v.a. X
n
n1
ed X sono i.i.d. con distribuzione di Bernoulli b
_
1
2
_
.
`
E banale che
X
n
T
b
_
1
2
_
199
infatti le distribuzioni delle X
n
sono tutte identiche b
_
1
2
_
e tale rimane il limite.
Dimostriamo ora che la sequenza X
n
non converge in probabilità alla v.a. X b
_
1
2
_
.
Cominciamo con losservare che sia le X
n
che X possono assumere solo i valori 0 ed 1,
quindi per ogni 0 < < 1,
_
[X
n
X[ ] =
_
X
n
,= X
=
_
X
n
= 0, X = 1 ]
_
X
n
= 1, X = 0 ].
Possiamo ora vericare, usando la denizione, che la convergenza in probabilità non
sussiste
lim
n
P([X
n
X[ ) = lim
n
P(X
n
,= X)
= lim
n
P
__
X
n
= 0, X = 1 ]
_
X
n
= 1, X = 0 ]
_
=
1
2
1
2
+
1
2
1
2
=
1
2
0.
Commento. Lesempio mostra che la convergenza in distribuzione è pi` u debole della
convergenza in probabilità, infatti X
n
converge in distribuzione, ma non in probabilità.
Relazioni tra convergenza in probabilità e convergenza in distribuzione.
Lemma. Se X
n
P
X allora X
n
T
X.
Dimostrazione. Non molto dicile ma omessa.
Questo risultato mostra che la convergenza in probabilità è una nozione pi` u forte della
convergenza in distribuzione. In un caso speciale, ma inportante, le due nozioni sono
equivalenti, come dimostrato nel seguente Lemma.
Lemma. X
n
P
c se e solo se X
n
T
c.
Dimostrazione. La direzione: se converge in probabilità alla costante c allora vi converge
anche in distribuzione è una conseguenza del lemma precedente. La direzione se converge
in distribuzione alla costante c allora vi converge anche in probabilità lavevo dimostrata
disegnando il graco qui sotto alla lavagna. Nel graco le distribuzioni F
n
(x) convergono
alla distribuzione degenere F(x) della costante c, per ogni x R. [In gura F
n
(c) =
1
2
per
200
ogni n, ma questa condizione è puramente accidentale, serve solo a tracciare un graco
elegante.] Dalla gura si vede che
P([X
n
c[ ) = P(c X
n
c +) = F
n
(c +) F
n
(c ) 1
poiche, per la convergenza in distribuzione, deve valere F
n
(c ) 0 e F
n
(c +) 1. Si
conclude che X
n
P
c.
Convergenza in probabilità cosa non è sempre vero
Se X
n
P
X non è in generale vero che per i valori attesi valga
lim
n
E(X
n
) = E(X), NON
`
E SEMPRE VERO
Esempio. Sia X
n
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Si verichi che X
n
P
0, ma E(X
n
) = 1 0.
30.2 Convergenza in L
p
Denizione. La sequenza di v.a. X
n
converge in L
p
alla v.a. X se
lim
n
E(, [X
n
X[
p
_
= 0,
in questo caso scriveremo
X
n
L
p
X
Osservazioni
(a.) Sono ammessi tutti i valori di p 1. Ad ogni p 1 corrisponde una diversa
nozione di convergenza. Per p = 1 si dice che la sequenza X
n
converge ad X in media;
per p = 2 che converge in media quadratica. Questi sono i due casi di gran lunga pi` u
importanti in pratica. La convergenza in media quadratica è particolarmente interessante
dal punto di vista geometrico essendo la naturale nozione di convergenza nello spazio,
dotato di prodotto interno, L
2
:= X : R : E(X
2
) < che avevamo introdotto in
precedenza.
(b.) Anche in questo caso, come per la convergenza in probabilità, deve essere nota la
densità congiunta delle coppie (X
n
, X) per ogni n. Solo con questa informazione si può
calcolare E( [X
n
X[
p
_
. Unica eccezione: se X = c, v.a. degenere, allora è suciente
conoscere le distribuzioni delle X
n
.
(c.) La convergenza in media quadratica implica la convergenza in media. Infatti, per la
disuguaglianza di Cauchy-Schwarz, se X
n
L
2
X allora
E([X
n
X[) = E([X
n
X[ 1)
_
E([X
n
X[
2
)E(1
2
) =
_
E([X
n
X[
2
) 0
(d.) Se X
n
L
1
X allora E(X
n
) E(X). Questa è una semplice conseguenza della
disuguaglianza triangolare. [E(X
n
) E(X)[ = [E(X
n
X)[ E([X
n
X[) 0.
201
Relazione con la convergenza in probabilità
Lemma. Se X
n
L
p
X allora X
n
P
X.
Dimostrazione. Qualunque sia p 1, per la disuguaglianza di Markov
P([X
n
X[ ) = P([X
n
X[
p

p
)
E( [X
n
X[
p
_
p
0
Attenzione. Non è vero il viceversa. Se X
n
P
X, non necessariamente X
n
L
p
X. La
convergenza in L
p
è dunque pi` u forte della convergenza in probabilità.
Esempio.
Sia X
n
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Avevamo visto che X
n
T
0. In realtà è anche vero che X
n
P
0, infatti
P([X
n
0[ ) = P(X
n
= n) =
1
n
0, per ogni > 0
Peraltro X
n
non congerge a 0 in L
p
per nessun valore di p 1, infatti
E([X
n
0[
p
) = E(X
p
n
) =
n
p
n
= n
p1
0
30.3 Legge debole dei grandi numeri
Il teorema seguente è uno dei risultati centrali della teoria della probabilità classica. For-
mulato per le v.a. di Bernoulli da Jakob Bernoulli nel 1713, esteso da Chebyshev nel 1867
alle v.a. che ammettono secondo momento, e da Khinchine nel 1928 alle v.a. che ammet-
tono solo valore atteso. In forme estremamente pi` u generali è ancora un attivo settore di
ricerca teorica ed applicata.
Deniamo per comodità notazionale la sequenza di v.a.
X
n
:=
1
n
n
i=1
X
i
,
abitualmente X
n
è detta sequenza delle medie campionarie. Per la linearità del valore
atteso
E(X
n
) = , per ogni n
quindi è naturale che i valori di X
n
siano distribuiti intorno a . Il teorema di Khinchine
aerma che, se le variabili X
n
sono i.i.d. allora asintoticamente, con alta probabilità
X
n
si concentra intorno a .
202
Teorema (legge debole dei grandi numeri Khinchine 1928)
Sia X
n
una sequenza di v.a., tutte denite sullo stesso spazio di probabilità
27
, in-
dipendenti ed identicamente distribuite. Si assume che := E(X
1
) esista. Sotto queste
ipotesi
X
n
P
= E(X
1
)
Osservazione. Non si devono confondere le X
n
con le X
n
, queste ultime non sono indipen-
denti. Il teorema di Khinchine non è di facile dimostrazione, ma sotto lipotesi aggiuntiva
che esista il secondo momento E(X
2
1
) la legge dei grandi numeri è un risultato intuitivo,
la cui dimostrazione è semplicissima.
Teorema (legge debole dei grandi numeri Chebyshev 1867)
Sia X
n
una sequenza di v.a., indipendenti ed identicamente distribuite. Si assuma che
E(X
2
1
) esista e sia := E(X
1
). Sotto queste ipotesi
X
n
P
= E(X
1
)
Commento. Questo risultato è in accordo con lintuizione poiche, se esiste E(X
2
1
) < ,
allora
2
:= var(X
1
) < . Poiche per ipotesi le v.a. sono i.i.d
var(X
n
) = var
_
1
n
n
i=1
X
i
_
=
1
n
2
n
2
=

2
n
0
e questo conferma che X
n
si concentra intorno al suo valore atteso E(X
n
) = .
Dimostrazione della legge dei grandi numeri di Chebyshev. Per la disuguaglianza di
Chebyshev
P
_
[X
n
[
_

E([X
n
[
2
)
2
=
var(X
n
)
2
=

2
n
2
0
Nota Bene. Riettendo sulle denizioni date nora non vi sfuggirà il fatto che, quando
esiste il secondo momento, è vero pi` u di quanto enunciato nella legge dei grandi numeri di
Chebyshev, infatti
E([X
n
[
2
) = var(X
n
) =

2
n
0
signica che X
n
L
2
. La convergenza in L
2
è pi` u forte della convergenza in probabilità,
ciononostante la legge dei grandi numeri non viene mai enunciata come un risultato di
convergenza in L
2
. Questo perche, come vedremo negli esempi, quello che veramente
interessa in pratica è valutare probabilità del tipo P([X
n
[ ). Interpretatelo cos`:
per dimostrare la convergenza in probabilità è spesso tecnicamente pi` u facile dimostrare
la convergenza in media quadratica o in media.
27
Nota bene: ogni volta che si scrive una somma di v.a. si sta implicitamente supponendo che le v.a.
siano denite sullo stesso spazio. In eetti la v.a. X +Y è denita come (X +Y )() = X() +Y (). Se
X ed Y non sono denite sullo stesso spazio non ha senso sommarle. Questo è un problema tecnico di cui
non ci siamo mai occupati. Quando dico: sia |X
n
n1
una sequenza di v.a. indipendenti ed identicamente
distribuite di distribuzione assegnata bisognerebbe chiedersi se esiste uno spazio di probabilit` a su cui è
possibile denire una sequenza con le caratteristiche richieste. La cattiva notizia è che il teorema che
garantisce lesistenza di un tale spazio è troppo complesso per essere presentato in un corso elementare. La
buona notizia è che, ntanto si rimanga su sequenze di v.a. i.i.d., a valori in R, uno spazio di probabilit` a
adeguato a contenere tutte le variabili della sequenza, qualunque siano le loro distribuzioni congiunte esiste
sempre. Continueremo quindi a sottacere questa dicolt` a.
203
Corollario della legge dei grandi numeri. Sia X
n
una sequenza di v.a., indipendenti ed
identicamente distribuite e g : R R una funzione tale che E
_
(g(X
1
))
2
_
esista. Sotto
queste ipotesi
1
n
n
i=1
g(X
i
)
P
E(g(X
1
))
Dimostrazione. Non cè nulla da dimostrare. Se X
n
è una sequenza i.i.d. tale è anche
la sequenza g(X
n
) e, per la legge dei grandi numeri la media campionaria delle g(X
i
)
converge al valore atteso comune E(g(X
1
))
Esempi di applicazione della legge debole dei grandi numeri
Lesempio per eccellenza è la sequenza di v.a. di Bernoulli i.i.d.. Come vedremo la sua
portata è molto pi` u ampia di quanto si potrebbe immaginare. Linformazione utile in
pratica è contenuta nella disuguaglianza di Chebyshev.
Esempio 1. Sia X
n
una sequenza di v.a. i.i.d. b(p). In termini del classico esempio dei
lanci ripetuti di una moneta la media campionaria X
n
è
X
n
=
1
n
n
i=1
X
i
=
n
T
(X
n
1
)
n
dove n
T
(X
n
1
) denota il numero di Teste in n lanci. Naturalmente E(X
n
) = p e var(X
n
) =
p(1p)
n
. Per la legge debole dei grandi numeri
n
T
(X
n
1
)
n
P
p = E(X
1
)
ovvero, per ogni > 0,
lim
n
P
_
n
T
(X
n
1
)
n
p

_
= 1
Linterpretazione pratica è che asintoticamente, con alta probabilità, p
n
T
(X
n
1
)
n
p+.
In linea di principio, usando la disuguaglianza di Chebychev, è possibile, ssati > 0 ed
[0, 1], determinare il numero di lanci n tale che
P
_
n
T
(X
n
1
)
n
p

_
.
Si procede in questo modo. La disuguaglianza di Chebychev è
P
_
n
T
(X
n
1
)
n
p

_
1
var(X
n
)
2
= 1
p(1 p)
n
2
1
1
4n
2
,
dove, per lultimo passaggio, si osservi che p(1 p)
1
4
per ogni p [0, 1]. Imponendo
quindi la condizione
1
1
4n
2

si determina il numero di lanci n che garantisce i livelli ed assegnati. Ad esempio per
= 0.05 ed = 0.95 la condizione
1
1
4n0.05
2
0.95
fornisce n 2000.
204
Lezione 31 (Marted` 21 maggio, ore 16:2518:10)
31.1 Legge debole dei grandi numeri (continua)
Esempi di applicazione della legge debole dei grandi numeri
Esempio 2. Sia X una v.a. di densità f
X
(x) che ammette secondo momento. Fissato un
evento E B(R) si consideri il problema del calcolo di
p := P(X E) =
_
E
f
X
(x) dx,
dove abbiamo convenientemente denotato con p il valore cercato. Per assegnati E ed f
X
questo è un problema puramente deterministico, che si riduce al calcolo di un integrale
denito. Se la densità f
X
è una funzione che non ammette primitiva esprimibile in forma
chiusa (esempio importante: la normale) il calcolo può essere eettuato solo attraverso
una procedura di approssimazione numerica. Vediamo come la legge dei grandi numeri
consenta di determinare il valore di p con una procedura probabilistica invece che di analisi
numerica. Ci si procura
28
una sequenza di v.a. i.i.d. X
n
con densità f
X
1
(x) = f
X
(x).
Si denisca la sequenza di v.a. Y
n
, dove
Y
n
:= 1l
E
(X
n
).
Dalla denizione si deduce che le v.a. Y
n
assumono solo due valori: Y
n
= 1 se X
n
E
ed Y
n
= 0 se X
n
/ E, inoltre P(Y
n
= 1) = P(X
n
E) = p. La sequenza Y
n
è quindi
una sequenza di v.a. i.i.d. b(p). Siamo tornati al caso trattato nellEsempio 1. La media
campionaria
Y
n
:=
1
n
n
i=1
Y
i
=
n
E
(X
n
1
)
n
,
dove n
E
(X
n
1
) è il numero di volte che X
i
cade in E nelle prime n prove. Per la legge dei
grandi numeri
P
_
n
E
(X
n
1
)
n
p

_
0
Considerazioni analoghe a quelle fatte nellEsempio 1 si applicano anche in questo caso. In
particolare, ssata la soglia (0.1, 0.05, 0.01 ecc.) per lerrore di approssimazione tollerato
e la soglia (0.9, 0.95, 0.99 ecc.) ritenuta accettabile per la probabilità che lerrore stia
sotto ad , si può determinare il numero n di v.a. che è necessario generare.
Esempio 3. Come noto la disuguaglianza di Chebyshev è di validità generale, ma proprio
per questo è molto conservativa. Se è possibile calcolare la distribuzione di X
n
è molto pi` u
conveniente valutare direttamente la probabilità P([X
n
[ ) piuttosto che utilizzare
la disuguaglianza di Chebychev. Si consideri il seguente esempio.
Si eettua una serie di misurazioni di una grandezza sica incognita, diciamola R. La
n-esima lettura dello strumento si modella con una v.a.
Y
n
= +W
n
dove W
n
N(0,
2
) rappresenta lerrore di misura.
29
Gli errori di misura si suppon-
gono i.i.d. Le letture dello strumento Y
n
formano quindi una sequenza di v.a. Y
n

28
Questo è sempre possibile con una procedura di simulazione, che consente di generare una sequenza
di v.a. i.i.d. di qualunque densit` a assegnata. Non tratteremo qui le tecniche di simulazione.
29
In molte situazioni modellare lerrore di misura con v.a. normali è giusticato da considerazioni
siche. Vedremo pi` u avanti il caso del rumore termico nei circuiti elettrici. Considerare E(W
n
) = 0
esclude la presenza di errori sistematici. La varianza E(W
2
n
) =
2
è legata alla precisione dello strumento.
Considerazioni approfondite saranno fatte nei corsi di Misure.
205
N(,
2
) indipendenti ed identicamente distribuite. Poiche la media campionaria Y
n
è
una combinazione lineare di v.a. normali indipendenti essa sarà ancora normale e
Y
n
N
_
,

2
n
_
`
E allora possibile calcolare esattamente
P([Y
n
[ < ) = P
_
[Y
n
[
/
n
<

/
n
_
= 2
_

/
n
_
1
dove (x) è la funzione di distribuzione della normale standard N(0, 1). I valori si trovano
in tabella.
Ad esempio ci chiediamo quale deve essere il numero di misure da eetuare utilizzando
uno strumento con deviazione standard = 0.1 per garantire errore < 0.05 e probabilità
= 0.95. Questo corrisponde a determinare il valore di n tale che
2
_
0.05
0.1/
n
_
1 0.95
ovvero (0.05
n/0.1) 1.95/2 = 0.975. In tabella si trova che (1.96) = 0.975 quindi

0.05
n/0.1 1.96 ovvero n 15.36. Con n = 16 si raggiungono entrambi gli obiettivi.

Confrontiamo questo risultato con quanto si sarebbe ottenuto utilizzando la disuguaglianza
di Chebyshev.
P([Y
n
[ < ) 1
var(Y
n
)
2
ed imponendo gli stessi dati di prima, = 0.1, = 0.05 ed = 0.95 si determina n
garantendo che
1
var(Y
n
)
2
= 1

2
n
2
= 1
0.1
2
n0.05
2
0.95
da cui si ricava che sarebbe necessario eettuare n = 80 misure per raggiungere entrambi
gli obiettivi.
Esempio 4. Il metodo di Monte Carlo
aggiungere in futura revisione
La legge dei grandi numeri - quando non funziona
Abbiamo detto che la legge dei grandi numeri (versione di Khinchine) richiede almeno
lesistenza del valore atteso delle v.a. X
n
. Vediamo con un esempio cosa può succedere
quando il valore atteso non esiste.
Esempio. Si consideri la sequenza X
n
di v.a. i.i.d. con densità di Cauchy f
X
1
(x) =
1
1
1+x
2
. Abbiamo già dimostrato che le v.a. X
n
non ammettono valore atteso. Costru-
iamo comunque la media campionaria X
n
. Per determinare la densità di X
n
conviene
lavorare con le funzioni caratteristiche. Ricordando che
X
1
() = e
[[
e che la funzione
caratteristica della somma di v.a. indipendenti è il prodotto delle funzioni caratteristiche,
detto inne S
n
:=
n
i=1
X
i
, si ha
S
n
() =
_
e
[[
_
n
,
206
e nalmente, poiche X
n
=
1
n
S
n
, è il prodotto di una costante per S
n
,
X
n
() =
S
n
_
n
_
=
_
e
[
n
[
_
n
= e
[[
=
X
1
()
La conclusione è che
X
n
() =
X
1
()
ovvero, antitrasformando, la media campionaria ha densità di Cauchy identica a quella di
una singola v.a. della sequenza originale X
n
. Poiche la densità di Cauchy è simmetrica
intorno allorigine lintuizione potrebbe far pensare che la media campionaria si concentra
verso 0, che è il valore centrale
30
delle v.a. X
n
, ma questo non avviene.
31.2 Fattori di scala per la convergenza a distribuzioni non degeneri
[materiale non spiegato a lezione che può essere saltato senza nessuna conseguenza per la
comprensione del seguito della lezione.]
Con riferimento allesempio della Lezione 29.1, abbiamo stabilito che M
n
ha asintotica-
mente la distribuzione degenere della costante 1. Per studiare pi` u dettagliatamente il
comportamento asintotico di M
n
ci ispiriamo alla tecnica che si usa per lo studio della
velocità di convergenza delle sequenze numeriche. Supponiamo che a
n
sia una sequenza
numerica convergente, ad esempio
lim
n
a
n
= a,
che equivale a dire che il limite di [a
n
a[, la distanza tra a
n
ed a, si annulla:
lim
n
[a
n
a[ = 0,
ovvero [a
n
a[ è innitesimo per n . Per studiare la velocità di convergenza si deve
determinare lordine dinnitesimo di [a
n
a[ ovvero determinare un k tale che
lim
n
[a
n
a[
1
n
k
= lim
n
n
k
[a
n
a[ = b ,= 0.
Questa è uninformazione sulla velocità di convergenza, infatti ora sappiamo che
[a
n
a[ =
b
n
k
+o
_
1
n
k
_
.
Si noti che determinare lordine di innitesimo equivale ad amplicare la distanza [a
n
a[,
moltiplicandola per il fattore di scala n
k
, e scegliendo k in modo tale che la sequenza
amplicata converga a b ,= 0. Questa sarà esattamente la via che seguiremo anche nel caso
delle variabili aleatorie.
Per quanto visto nella Lezione 29, le v.a. M
n
convergono in distribuzione alla costante
1, variabile aleatoria degenere di varianza nulla. La varianza var(M
n
) = O
_
1
n
2
_
0.
Per studiare la velocità di convergenza di M
n
ad 1, imitando quanto si fa nel caso de-
terministico, amplichiamo [M
n
1[ moltiplicando per un opportuno fattore di scala in
30
Si chiama mediana di una v.a. X il punto a R tale che P(X a) = P(X a) = 1/2), la mediana
di una v.a. di Cauchy è a = 0.
207
modo tale che la varianza asintotica, invece di annullarsi, tenda ad una costante non nulla.
Lopportuno fattore di scala, in questo caso, è n infatti
var(n[M
n
1[) = var(n(1 M
n
)) = n
2
var(1 M
n
) = n
2
O
_
1
n
2
_
= O(1),
dove abbiamo sfruttato il fatto che [M
n
1[ = 1 M
n
.
Poiche var(n(1 M
n
)) = O(1) è ragionevole aspettarsi che la FdD asintotica delle v.a.
n(1 M
n
) non sia degenere. Diciamo F
n
(x) la FdD di n(1 M
n
), allora
F
n
(x) = P(n(1 M
n
) x) = P
_
1 M
n

x
n
_
= P
_
M
n
1
x
n
_
= 1 P
_
M
n
1
x
n
_
= 1l(x)
__
1
x
n
_
n
1l
[0,n]
(x)
_
E calcolando il limite si trova (è molto pi` u banale di quel che sembra)
lim
n
F
n
(x) = lim
n
1l(x)
_
1
x
n
_
n
1l
[0,n]
(x) =
_
1 e
x
_
1l(x)
Si riconosce che F
n
(x) converge alla funzione di distribuzione Exp(1). La densità limite
di n(1 M
n
) è quindi f(x) = e
x
1l(x).
Questo risultato è estremamente utile in quanto consente di calcolare la probabilità di
eventi relativi alle v.a. M
n
originali usando la distribuzione asintotica. Ad esempio, per
ogni a < 1 e per n abbastanza grande,
P(M
n
> a) = P
_
n(1 M
n
) < n(1 a)
_
_
n(1a)
0
e
x
dx.
31.3 Teorema del limite centrale motivazione
Legge debole dei grandi numeri per variabili normali. Se X
n
è una sequenza di v.a. i.i.d.
N(,
2
) allora E(X
n
) = e var(X
n
) =

2
n
e, per la legge dei grandi numeri,
X
n
P
,
Probabilità delle deviazioni. Sotto lipotesi di normalità delle v.a. X
n
le probabilità delle
deviazioni dinteresse pratico, P([X
n
[ ), si possono calcolare esattamente anziche
accontentarsi della disuguaglianza di Chebychev. Infatti, poiche le combinazioni lineari di
v.a. normali indipendenti sono normali,
X
n
N
_
,

2
n
_
,
quindi le probabilità dinteresse si possono calcolare facendo ricorso alla tecnica di stan-
dardizzazione.
P
_
[X
n
[
_
= P
_
[X
n
[
/
n

/
n
_
= 2
_
n
_
1
208
Convergenza in distribuzione. I conti fatti sopra, per il calcolo delle probabilità delle devi-
azioni, hanno un risvolto interessante nello studio della convergenza in distribuzione. In
generale la convergenza in probabilità implica la convergenza in distribuzione quindi
X
n
T
1l(x ),
dove 1l(x) è la funzione di distribuzione della v.a. degenere (costante) . Consideriamo
ora loperazione di standardizzazione su X
n
, che si può riscrivere come
[X
n
[
/
n
=
[X
n
[
ovvero, la distanza [X
n
[ è moltiplicata per il fattore di scala

n/. Si noti che
la sequenza delle v.a. [X
n
[, amplicate dal fattore

n/, converge banalmente ain
distribuzione alla distribuzione non degenere N(0, 1):
(X
n
)
T
N(0, 1)
infatti, le v.a. nel membro di sinistra,
(X
n
), sono, per ogni n 1, normali N(0, 1)
trattandosi di combinazioni lineari di v.a. X
n
normali i.i.d..
Osservazione. Chi ha letto il paragrafo precedente può confrontare questo esempio con
lesempio motivazionale introdotto in Lezione 29.1. In quel caso M
n
T
1l(x 1) e,
moltiplicando la distanza 1M
n
per il fattore di scala n, si dimostrava che n(1M
n
)
T
Exp(1).
Lo scopo di questa Lezione è di dimostrare che, anche se le v.a. X
n
non sono normali,
(X
n
)
T
N(0, 1).
31.4 Teorema del limite centrale
Teorema. Sia X
n
una sequenza di v.a. i.i.d. che ammettono secondo momento, sia
:= E(X
1
) e
2
:= var(X
1
) > 0 allora
W
n
:=
_
X
n
_
T
N(0, 1).
Commento. Si noti che nessuna ipotesi sulla natura delle v.a. X
n
è stata fatta: possono
essere discrete, continue, assolutamente continue, o miste.
Dimostrazione.
`
E conveniente rappresentare W
n
come somma di v.a. i.i.d. standardizzate:
W
n
:=
_
X
n
_
=
_
1
n
n
i=1
X
i
_
=
1
n
n
i=1
X
i
=
1
n
n
i=1
Z
i
209
dove, nellultimo passaggio, abbiamo introdotto le v.a. i.i.d. standardizzate
31
Z
i
:=
X
i
di media E(Z
i
) = 0 e varianza var(Z
i
) = 1. Le v.a. Z
i
hanno funzione caratteristica
comune, diciamola (). Poiche le Z
i
ammettono secondo momento () è derivabile con
derivata seconda continua (questo è stato menzionato, ma non dimostrato in precedenza,
non è dicile ma prendetelo per buono). Sviluppando in serie di Taylor
() = (0) +
t
(0) +
tt
(0)

2
2
+o(
2
)
Ricordando che (0) = 1 e le relazioni tra momenti e derivate della funzione caratteristica,
0 = E(Z
1
) =
1
j
t
(0) e 1 = E(Z
2
1
) =
1
j
2
tt
(0), si trova che
t
(0) = 0 e
tt
(0) = 1, e
sostituendo nellequazione qui sopra
() = 1

2
2
+o(
2
)
Poiche le v.a. Z
i
sono i.i.d, la funzione caratteristica della somma S
n
:=
n
i=1
Z
i
è
S
n
() =
_
()
_
n
=
_
1

2
2
+o(
2
)
_
n
e quindi la funzione caratteristica di W
n
=
1
n
S
n
è
W
n
() =
S
n
_

n
_
=
_
_
_
1
_

n
_
2
2
+o
_
_

n
_
2
_
_
_
_
n
=
_
1

2
/2
n
+o
_
2
n
_
_
n
Siamo pronti a calcolare il limite
lim
n
W
n
() = lim
n
_
1

2
/2
n
+o
_
2
n
_
_
n
= exp
_
2
2
_
, per ogni R
Si riconosce che il limite è la funzione caratteristica di una v.a. N(0, 1). La dimostrazione
si conclude invocando il teorema di Levy.
Teorema del limite centrale Esempi di approssimazione normale
Il teorema del limite centrale è utile per il calcolo approssimato di probabilità relative
a somme di v.a. di qualunque natura. Lidea è di base nei calcoli pratici è che, se
Z
n
T
N(0, 1), allora per n sucientemente grande sarà
Z
n
:=
_
X
n
_
T
N(0, 1).
dove il simbolo
T
indica che la distribuzione della v.a. di sinistra è approssimativamente
uguale alla distribuzione a destra. Questidea funziona eccezionalmente bene già con valori
di n modesti, data la covergenza piuttosto veloce alla normalità.
31
La notazione andrebbe modicata. Le Z
i
non sono normali, ma solo standardizzate, E(Z
i
) = 0 e
var(Z
i
) = 1. Nullaltro è noto sulle densit` a delle Z
i
210
Raccogliamo qui sotto alcune forme equivalenti dellultima equazione. Sono immediate da
ricavare e non aggiungono nulla di nuovo. Assicuratevi che vi risulti banale passare da una
allaltra! Quelle che a destra hanno una N(0, 1) sono già pronte per luso della tabella.
_
X
n
_
T
N(0, 1)
1
n
_
n
i=1
X
i
n
_
T
N(0, 1)
n
i=1
X
i
T
N(n, n
2
)
X
n
T
N
_
,

2
n
_
Esempio 1.
Le batterie da 9V che alimentano il radiomicrofono delle aule Ke e Ve hanno una vita
media di 3 ore con densità di probabilità esponenziale. Calcolare con che probabilità 30
batterie consentono luso del microfono per tutta la durata del corso di Analisi dei Dati
(78 ore).
La v.a. che descrive la durata di una batteria è X
1
Exp(1/3) e la durata di 30 batterie
è S
30
:=
30
i=1
X
i
. Si calcola E(S
30
) = 30 3 = 90 e var(S
30
) = 30 9 = 270. Per il teorema
del limite centrale
30
i=1
X
i
T
N(30 3, 30 9),
quindi
P
_
30
i=1
X
i
78
_
= P
_
30
i=1
X
i
30 3
30 9
78 30 3
30 9
_
P(Z 0.73) = 1 (0.73) = (0.73) 0.77
Esempio 2.
Il professore di Analisi dei Dati vuole avere probabilità almeno pari a 0.95 che il radiomi-
crofono funzioni per tutta la durata del corso. Quante batterie deve acquistare il DEI per
accontentarlo?
I dati sono gli stessi dellesempio 1. In questo caso n è lincognita del problema. La
richiesta del professore impone il vincolo
P
_
n
i=1
X
i
78
_
0.95
Il servizio tecnico del DEI applica il teorema del limite centrale e riscrive il vincolo come
P
_
n
i=1
X
i
78
_
= P
_
n
i=1
X
i
3n
9n
78 3n
9n
_
P
_
Z
78 3n
9n
_
= 1
_
78 3n
9n
_
0.95
211
che si riduce a
_
78 3n
9n
_
0.05
ma la tabulazione della N(0, 1) parte da 0.5, si usa quindi la proprietà (z) = 1 (z)
e si riscrive il vincolo
_
3n 78
9n
_
0.95
dalla tabella si ricava che (1.64) = 0.9495 e (1.65) = 0.9505 che trasforma il vincolo
nella disequazione in

n:
3n 78 1.65 3
n
che è soddisfatta per

n 5.99, cioè n 35.88. Bisogna che il DEI acquisti almeno 36
batterie.
Esempio 3.
(da confrontare con l esempio 1 per la legge dei grandi numeri) Torniamo allesempio
per eccellenza: la sequenza X
n
, i.i.d. b(p). Usiamo il teorema del limite centrale per
valutare quanti lanci di una moneta onesta (p = 1/2) sono necessari per garantire
P
_
n
T
(X
n
1
)
n

1
2
0.05
_
0.95
Ricordando che
n
T
(X
n
1
)
n
= X
n
e che, per p = 1/2 valgono E(X
n
) = =
n
2
e var(X
n
) =
2
n
=
1
4n
la condizione da imporre è
P
_
n
T
(X
n
1
)
n

1
2
0.05
_
= P([X
n
1
2
[ 0.05)
= P
_
[X
n
1
2
[
1/2
n

0.05
1/2
n
_
2(0.1
n) 1 0.95
La condizione si riduce a (0.1
n) 0.975. Dalla tabella della normale standard

(1.96) = 0.975 quindi 0.1
n 1.96 da cui

n 19.6 ed n 384.1, quindi n = 385 sono
sucienti (da confrontarsi con gli n = 2000 richiesti dalla conservativa disuguaglianza di
Chebychev).
Thumb rule
Esercizio. (FATELO) Se X
n
è una sequenza di v.a. i.i.d con E(X
1
) = e var(X
1
) =
2
,
allora per n 1
P
_
n 1.96
n
n
i=1
X
i
n + 1.96
n
_
0.95.
Con errore di solito trascurabile si approssima lintervallo [n 1.96
n, n + 1.96
n]
con lintervallo [n 2
n, n + 2
n]. Per esercizio calcolate, usando il Teorema del

Limite Centrale, la probabilità
P
_
n 2
n
n
i=1
X
i
n + 2
n
_
212
Applicazione fondamentale: moneta truccata o moneta onesta?
[la moneta è solo un paradigma sostituite alla moneta il problema scientico a risposta
binaria su cui state lavorando]
Avete in tasca una moneta che sospettate possa essere truccata. Lanciate la moneta n volte
ed osservate n
T
Teste. Se la moneta è onesta vi aspettate approssimativamente n/2 Teste
su n lanci. Il teorema del limite centrale fornisce lintervallo di valori in cui è ragionevole
aspettarsi che cada n
T
se la moneta è onesta. Dal risultato dellesercizio se lanciate una
moneta onesta n 1 volte, il numero di Teste n
T
sarà compreso nellintervallo
[n 2
n, n + 2
n]
con probabilità circa 0.95. Ricordando che per una moneta onesta b
_
1
2
_
, vale = =
1
2
,
per n = 1000 lanci lintervallo è
_
500
1000, 500 +
1000
_
= [469, 531]
Se osservate meno di 469 o pi` u di 531 Teste siete autorizzati a ritenere i vostri sospetti
non completamente infondati. Pi` u lontano è n
T
dallintervallo [469, 531] pi` u signicativa
è la vostra osservazione di n
T
Teste per la convalida della vostra ipotesi che la moneta non
sia onesta (questo è il modo in cui si esprimono gli statistici per non compromettersi).
213
Lezione 32 (Mercoled` 22 maggio, ore 16:2518:10)
32.1 Esercitazione in aula
214
Lezione 33 (Luned`, 27 maggio 2013, ore 10:30-12:15)
33.1 Segnali, sistemi e modelli incerti
Lanalisi dei sistemi dinamici in condizioni dincertezza riveste grande interesse nella pra-
tica ingegneristica.
`
E molto comune che lincertezza del sistema dinamico sia presente
a livello sico e che sia quindi necessario tenerne conto nel modello matematico. Non è
però raro il caso in cui si preferisce costruire modelli probabilistici anche in contesti che
sicamente sono puramente deterministici.
Lingegneria dellinformazione è ricca di esempi della prima situazione. Nei sistemi
dinamici elettrici (reti elettriche) esiste una naturale sorgente di aleatorietà, il rumore ter-
mico generato dai circuiti.
32
La manifestazione pratica del rumore termico è un segnale
aleatorio che si sovrappone, sporcandoli, ai segnali dingresso e di uscita, e/o che rende
aleatoria la trasformazione eettuata dal sistema. Il rumore termico, la cui intensità è
solitamente trascurabile, diventa un serio problema quando le potenze dei segnali sono
molto basse, come nelle trasmissioni dallo spazio profondo (vedi Deep Space Network). A
livello pi` u fondamentale, i segnali dingresso (messaggi inviati) di un sistema di telecomu-
nicazioni (canale) sono incerti per loro vera natura e come tali vanno modellati. Linvio di
un messaggio non servirebbe alcuno scopo se il ricevente, in ascolto alluscita del canale,
ne conoscesse deterministicamente il contenuto.
Un esempio della seconda situazione è limpostazione di un metodo di Montecarlo per
il calcolo numerico.
33
In tale contesto lincertezza è introdotta ad arte nel modello, con
lo scopo di sfruttare i teoremi limite della probabilità per ottenere algoritmi di calcolo
particolarmente ecienti. Un altra ragione che spinge lingegnere allintroduzione di mod-
elli probabilistici anche in contesti deterministici ha a che fare con i limiti del processo
di modellazione matematica. Un modello matematico è, quasi per denizione, se non
sbagliato quanto meno incompleto. Normalmente i modelli tengono in considerazione solo
alcuni degli aspetti sici, quelli pi` u utili a descrivere i fenomeni dinteresse. All models
are wrong, but some are useful, per dirla con George E. Box. Ma anche volendo descri-
vere tutto, spesso la sica del sistema non è nota o lo è molto poco, si pensi ad esempio
alla complessità dei sistemi biologici, o economici, o sociali. In altri casi la sica è ben
nota, e.g. sistemi elettrici e/o meccanici, ma si introducono approssimazioni allo scopo di
semplicare i modelli matematici. Approssimando con (pochi) parametri concentrati un
sistema a parametri distribuiti si può modellare con unequazione dierenziale ordinaria
(di ordine basso) piuttosto che con unequazione alle derivate parziali. Un modo grezzo,
ma molto popolare, per tener conto delle varie procedure di approssimazione della realtà
sica è di introdurre nel modello matematico una componente probabilistica, usualmente
sommando segnali di rumore sugli ingressi e/o sulle uscite. Il razionale per tale scelta è
che la mancanza, o lapprossimazione, delle conoscenze su di un fenomeno sia equiparabile
ad una conoscenza probabilistica.
La precedente discussione suggerisce lopportunità di introdurre rappresentazioni ade-
guate dei segnali e dei sistemi incerti, che consentano di estendere al caso probabilistico
lanalisi ingresso/uscita dei sistemi dinamici. In particolare sarà opportuno estendere al
caso probabilistico lanalisi ingresso/uscita per la classe dei sistemi lineari tempo invarianti.
32
Si tratta del rumore osservato da Johnson (1928), e studiato da Nyquist (1928), onnipresente nelle reti
elettriche.
33
Si veda lesempio del calcolo di P(E) =
_
E
f(x) dx, un integrale deterministico, con la tecnica di
simulazione accennata nellEsempio 2 della Lezione 31.1
215
33.2 Cosa è un processo stocastico
Il primo passo per la costruzione di una teoria dei segnali e sistemi incerti è la denizione
del modello matematico di segnale incerto. Per modellare i segnali incerti useremo le idee
già viste di teoria della probabilità, condite con un po di nuova terminologia. Il modello
matematico di un segnale incerto è detto processo aleatorio o equivalentemente, processo
stocastico.
Denizione. Un processo stocastico (p.s.) (X
s
)
sS
è una famiglia di variabili aleatorie
denite su uno spazio di probabilità (, T, P) comune, e a valori in un insieme A comune,
X
s
: A, X
s
(), misurabile, per ogni s S
Terminologia e osservazioni
In generale gli insiemi S e A possono essere di qualsiasi natura. In queste lezioni conside-
riamo solo processi con S R e A R. In questo caso S si dice insieme dei tempi, anche
se non necessariamente s S è sicamente un tempo. Lalfabeto A, è detto insieme di
stato del processo. I casi pi` u elementari di coppie S, A sono i seguenti.
(a.) (p.s. a tempo discreto e stato discreto). Linsieme dei tempi è S := Z, oppure S := N
o un intervallo nito S := N Z. La notazione tipica per lindice di un processo a tempo
discreto è n, scriveremo quindi (X
n
) per denotare questi processi. Lalfabeto A è discreto,
ovvero [A[ [N[.
Cosa modellano. Segnali incerti a tempo discreto per i quali ogni campione può assumere
sono un numero nito, o al pi` u discreto, di valori possibili. Ad esempio un messaggio di
testo, interpretato come segnale incerto, si può modellare con un processo stocastico di
questo tipo. Un qualunque segnale sico incerto digitalizzato, cioè quantizzato e campi-
onato, può essere modellato con un processo di questo tipo. Sono modellabili con processi
di questo tipo TUTTI i le presenti sui vostri PC e/o telefonini pi` u o meno intelligenti.
Esempio. (X
n
)
nN
processo stocastico consistente in una sequenza di variabili aleatorie
bernoulliane, X
n
b(0.5), indipendenti ed identicamente distribuite. Questo processo,
rappresenta il usso di bit generato dai risultati dei lanci di una moneta. Intuitivamente,
ma anche in un senso tecnico da precisare, è il processo stocastico pi` u casuale possibile.
(b.) (p.s. a tempo discreto e stato continuo). Sono processi (X
n
) a tempo discreto per i
quali linsieme dei valori, comune a tutte le variabili aleatorie, è X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo discreto della teoria
dei Segnali e Sistemi. Modellano segnali sici incerti a tempo discreto per i quali ogni
campione può assumere valori in un intervallo di R, in una semiretta, o su tutta R. Ad
esempio una sequenza di misure, ripetute ad intervalli regolari, di una grandezza sica
continua: temperatura, pressione, lunghezza, durata, ecc. Oppure un segnale incerto a
tempo continuo campionato ad intervalli regolari.
Esempio. (X
n
)
nN
processo stocastico consistente in una sequenza di variabili aleatorie
normali, X
n
N(,
2
), indipendenti ed identicamente distribuite. Questo processo può
servire a rappresentare una sequenza di misure di una grandezza sica con uno strumento
di precisione nita. La misura n-esima è modellata come X
n
= +W
n
dove W
n
N(0,
2
)
è il rumore associato alla misura n-esima. Questo modello è in linea con quanto descritto
nellintroduzione alla lezione: rappresenta le imprecisioni del processo di misura dovute
a diverse cause (precisione nita dello strumento, imperizia delloperatore, ecc.) con una
v.a. W
n
.
216
(c.) (p.s. a tempo continuo e stato discreto). Linsieme dei tempi è S := R, oppure S := R
+
o un intervallo nito S := [t
0
, t
1
] R. La notazione tipica per lindice di un processo a
tempo discreto è t, scriveremo quindi (X
t
) per denotare questi processi. Lalfabeto A è
discreto, ovvero [A[ [N[.
Cosa modellano. Un primo esempio è il segnale generato da un sistema di monitoraggio.
Un sensore rileva, a tempo continuo, la temperatura in un punto critico di un impianto
e genera un segnale (X
t
) di monitoraggio. Finche la temperatura rimane sotto la soglia
di sicurezza il sistema dallarme genera X
t
= 0. Per tutto il tempo che la temperatura
raggiunge o supera la soglia, il sistema genera X
t
= 1. Un ulteriore esempio è il segnale
generato da un dispositivo ZOH (zero order hold), parte integrante dei convertitori DAC
(digital to analog converter) usati per la ricostruzione pratica dei segnali campionati (vedi
corso di Segnali e Sistemi).
(d.) (p.s. a tempo continuo e stato continuo). Sono processi (X
t
) a tempo continuo per i
quali linsieme dei valori, comune a tutte le variabili aleatorie, è X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo continuo della teoria dei
Segnali e Sistemi.
I processi come funzioni su S . Un punto di vista spesso adottato nello studio dei
processi stocastici è di considerare X
s
() come una funzione del tipo
X
s
() : S A, (s, ) X
s
().
Adottando questo punto di vista, per ogni ssato , si ottiene la funzione del tempo
X
s
() : S A, s X
s
()
detta traiettoria del processo associata a . Si noti che le traiettorie del processo sono
funzioni deterministiche poiche è ssato e noto. Se invece si ssa s S si ottiene la
funzione
X
s
() : A, X
s
()
che è la variabile aleatoria X
s
corrispondente ai possibili valori che il processo può assumere
allistante s S.
33.3 Come si caratterizzano probabilisticamente i processi stocastici
Un processo stocastico è una famiglia di variabili aleatorie indiciate dal tempo s S.
Darne la descrizione probabilistica completa signica essere in grado di calcolare la prob-
abilità di qualunque evento denibile a partire dalle X
s
. Se linsieme dei tempi è discreto
questo compito è relativamente semplice. La stessa cosa è molto pi` u complessa nel caso
di insieme dei tempi continuo.
Sia (X
n
) un processo a tempo discreto. Ad esempio (X
n
) potrebbe modellare una sequenza
di misure, prese ad intervalli regolari, da un sistema di monitoraggio. Un evento di interesse
potrebbe essere del tipo (potrebbe ad esempio trattarsi della probabilità che non scatti un
allarme)
E := [max
nN
[X
n
[ 10]
che è immediato riscrivere come
E :=
nN
[[X
n
[ 10].
217
Poiche le X
n
sono variabili aleatorie, gli insiemi [[X
n
[ 10] T per ogni n N. Quindi E,
intersezione numerabile di eventi di T, è ancora in T e se ne può calcolare la probabilità.
Altri esempi di calcoli dinteresse per processi stocastici
(a.) max
sS
P([X
s
[ > 10)
(b.) P(X
s
1
+X
s
2
+X
s
3
< 10)
(c.) E(X
s
), var(X
s
)
(d.) cov(X
u
, X
v
)
(e.) E(X
s
1
X
s
2
X
s
3
)
Nel caso (a.) è suciente conoscere le distribuzioni ad 1 tempo, F
s
(x) = P(X
s
x)
per ogni s S. Nel caso (b.) è necessario disporre della distribuzione a 3 tempi
F
s
1
,s
2
,s
3
(x
1
, x
2
, x
3
) := P(X
s
1
x
1
, X
s
2
x
2
, X
s
3
x
3
). Per il caso (c.) è suciente
conoscere le distribuzioni ad 1 tempo. Per il caso (e.) è necessario conoscere le distribuzioni
a 2 tempi. Per il caso (f.) è necessario conoscere le distribuzioni a 3 tempi.
Specicazione probabilistica completa dei processi stocastici
Assumiamo che linsieme dei tempi S Z sia di cardinalità innita.
34
Per poter calcolare
la probabilità di un qualunque evento misurabile è suciente conoscere la funzione di
distribuzione congiunta di ogni sottoinsieme nito delle variabili aleatorie che compongono
il processo. Ciò si può fare assegnando per ogni N N una funzione
F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) := P(X
n
1
x
1
, X
n
2
x
2
, . . . X
n
N
x
N
),
dove n
1
, n
2
, . . . n
N
Z e x
1
, x
2
. . . x
N
A. Le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) non
possono essere assegnate in modo completamente arbitrario, ma devono soddisfare vincoli
atti a garantire che ognuna di esse generi funzioni di distribuzione legali, e che esse siano
in accordo tra loro. In particolare devono essere soddisfatti i vincoli di marginalizzazione,
ovvero dalle FdD per N
t
variabili aleatorie deve essere possibile ritrovare quelle per N < N
t
variabili aleatorie. Lo studio di questo tipo di descrizione completa è fondamentale per
lo sviluppo della teoria, ma di scarso valore pratico poiche, a parte casi banali, non si
dispone mai di una quantità di informazione sui processi tale da permettere di determinare
le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) per ogni N N.
Parametri riassuntivi di un processo stocastico
La dicoltà a fornire descrizioni probabilistiche complete di un processo stocastico rende
ancora pi` u importanti i classici parametri riassuntivi del comportamento probabilistico:
medie, varianze, covarianze. Per il processo (X
s
), dove s può essere un tempo discreto
oppure continuo, si deniscono le seguenti funzioni deterministiche
(a.) m
X
(s) := E(X
s
), funzione media,
(b.) M
X
(s) := E(X
2
s
), funzione potenza statistica,
(c.)
2
X
(s) := E
_
(X
s
m
X
(s))
2
_
, funzione varianza,
(d.) r
X
(s
1
, s
2
) := E
_
X
s
1
X
s
2
_
, funzione di autocorrelazione,
(e.) k
X
(s
1
, s
2
) := E
_
(X
s
1
m
X
(s
1
))(X
s
2
m
X
(s
2
))
_
, funzione di autocovarianza,
Si noti che (a.), (b.) e (c.) richiedono solo la conoscenza delle distribuzioni ad 1 tempo
del processo stocastico, e che (d.) e (e.) richiedono la conoscenza delle distribuzioni a
2 tempi. Le seguenti relazioni tra i parametri sono ovvie:
2
X
(s) = M
X
(s) [m
X
(s)]
2
,
M
X
(s) = r
X
(s, s),
2
X
(s) = k
X
(s, s), k
X
(s
1
, s
2
) = r
X
(s
1
, s
2
) m
X
(s
1
)m
X
(s
2
).
34
Se S fosse di cardinalit` a nita allora il processo si ridurrebbe ad un vettore aleatorio nito dimensionale,
di cui è noto come sia possibile specicare la densit` a congiunta
218
inciso
Correlazione mutua di due processi. Nelle applicazioni è molto utile disporre anche di
parametri riassuntivi che confrontano i comportamenti di due processi, analogamente a
quanto si fa con due variabili aleatorie. Ad esempio i processi (X
s
) ed (Y
s
) potrebbero
rappresentare ingresso ed uscita di un sistema incerto. Un utile parametro riassuntivo del
comportamento congiunto dei due processi è
(f.) r
XY
(s
1
, s
2
) := E
_
X
s
1
Y
s
2
_
, funzione di mutua correlazione
ne inciso
Come è ben noto non tutte le variabili aleatorie ammettono momenti, non è quindi garan-
tita lesistenza dei parametri riassuntivi di un processo stocastico.
`
E utile il seguente
lemma.
Lemma. Se la potenza statistica M
X
(s) esiste nita per ogni s S, allora esistono niti
tutti i parametri riassuntivi (a.)(e.).
Dimostrazione. Per la disuguaglianza di Schwarz
m
X
(s) = E(X
s
) = E(X
s
1)
_
E(X
2
s
)E(1
2
) =
_
M
X
(s)
inoltre
r
X
(s
1
, s
2
) = E(X
s
1
X
s
2
)
_
E(X
2
s
1
)E(X
2
s
1
) =
_
M
X
(s
1
)M
X
(s
2
)
Lipotesi M
X
(s) < per ogni s S, garantisce lesistenza di m
X
(s) e di r
X
(s
1
, s
2
).
Lesistenza degli altri parametri discende immediatamente dalle relazioni ricordate sopra.
Denizione (processi del secondo ordine). Sono detti del secondo ordine i processi per i quali
esistono, niti, m
X
(s) e r
X
(s
1
, s
2
).
Molto spesso nelle applicazioni ci si limita a fornire la descrizione al secondo ordine dei
processi stocastici dinteresse. Peraltro le funzioni media e autocorrelazione contengono
una notevole quantità dinformazione. In particolare, le funzioni m
X
(s) e r
X
(s
1
, s
2
) con-
sentono di ricavare la descrizione riassuntiva (vettore della media e matrice di correlazione)
di qualunque vettore di dimensione nita costruito con variabili del processo stocastico.
Ad esempio se X :=
_
X
s
1
, X
s
2
, . . . X
s
n
_
, il vettore della media del vettore X è

m
X
:= E(X) =
_
m
X
(s
1
), m
X
(s
2
) . . . m
X
(s
n
)
_
(1)
e la matrice di correlazione del vettore X è
R
X
:= E(XX
) =
_
_
_
_
r
X
(s
1
, s
1
) r
X
(s
1
, s
2
) . . . r
X
(s
1
, s
n
)
r
X
(s
2
, s
1
) r
X
(s
2
, s
2
) . . . r
X
(s
2
, s
n
)
. . . . . . . . . . . .
r
X
(s
n
, s
1
) r
X
(s
n
, s
2
) . . . r
X
(s
n
, s
n
)
_
_
_
_
(2)
Processi stazionari in senso debole
Per molti processi dinteresse i parametri media e autocorrelazione sono invarianti rispetto
a traslazioni temporali. Vedremo pi` u sotto alcuni esempi. Naturalmente questa nozione
ha senso solo se il processo è del secondo ordine, ovvero ammette funzioni media e
autocorrelazione.
Denizione (stazionarietà in senso lato). Un processo stocastico del secondo ordine (X
s
)
sS
è detto stazionario in senso debole se
m
X
(s +) = m
X
(s), per ogni s, (3)
r
X
(s
1
, s
2
) = r
X
(s
1
+, s
2
+), per ogni s
1
, s
2
, (4)
219
Lemma (condizioni equivalenti). La seguente condizione è equivalente alla (3)
m
X
(s) = m
X
(0), per ogni s (5)
Ognuna delle seguenti condizioni è equivalente alla (4)
r
X
(s
1
, s
2
) = r
X
(s
1
s
2
, 0), per ogni s
1
, s
2
(6)
r
X
(s +, s) = r
X
(, 0), per ogni s, (7)
Dimostrazione. Esercizio.
Per vericare se un processo stocastico del secondo ordine è stazionario in senso debole
sarà quindi suciente vericare se per la media vale una delle condizioni (3) o (5) e per
lautocorrelazione vale una delle condizioni (4) o (6) o (7).
`
E immediato vericare (fatelo!) che se un processo è debolmente stazionario allora valgono
anche le condizioni
2
X
(s) =
2
X
(0)
M
X
(s) = M
X
(0)
k
X
(s
1
, s
2
) = k
X
(s
1
+, s
2
+)
o le equivalenti, simili a quelle viste sopra per media e autocorrelazione.
Osservazione e notazione alternativa. La conseguenza della stazionarietà è che le funzioni
riassuntive che dipendono dalle distribuzioni ad 1 tempo (media, potenza, varianza) si
riducono a delle funzioni costanti, mentre le funzioni che dipendono dalle distribuzioni
a 2 tempi (autocorrelazione, autocovarianza) si riducono a funzioni dipendenti solo dalla
distanza temporale s
1
s
2
tra le due variabili X
s
1
e X
s
2
, e non dagli istanti s
1
ed s
2
separatamente. In virt` u di queste considerazioni è naturale introdurre simboli pi` u com-
patti per denotare media e autocorrelazione di un processo debolmente stazionario. In
particolare scriveremo
m
X
:= E(X
s
) (8)
r
X
() := E(X
s+
X
s
) (9)
Convenzioni notazionali discreto/continuo. Per le quantità descritte in questo paragrafo,
nel caso discreto scriveremo r
X
(n
1
, n
2
), r
X
(n + k, n), r
X
(k), mentre nel caso continuo
scriveremo r
X
(t
1
, t
2
), r
X
(t +, t), r
X
().
33.4 Primi esempi di processi stocastici
Esempio 1 (gaussian white noise). Il processo stocastico a tempo discreto e stato continuo
(W
n
)
nN
, che consiste di variabili aleatorie normali, indipendenti ed identicamente dis-
tribuite, W
n
N(0,
2
) è detto rumore bianco gaussiano di intensità
2
, e lo denoteremo
(W
n
) WGN(
2
). Il processo (W
n
) ha funzione media
m
W
(n) = E(W
n
) = 0, per ogni n N.
Potenza statistica e varianza di (W
n
) coincidono, poiche m
W
(n) = 0, e valgono
M
W
(n) =
2
W
(n) = E(W
2
n
) =
2
, per ogni n N.
Le variabili W
n
sono i.i.d., quindi la funzione autocorrelazione vale
r
W
(n
1
, n
2
) = k
W
(n
1
, n
2
) = E(W
n
1
W
n
2
) =
2
(n
1
n
2
)
220
dove la () è il segnale (0) = 1, e (n) = 0 per n ,= 0. Autocorrelazione e autocovarianza
coincidono poiche m
W
(n) = 0.
Si noti che, essendo nita la potenza M
W
(n) =
2
, il processo (W
n
) è del secondo ordine.
Sono inoltre soddisfatte le condizioni (5) e (6), quindi (W
n
) è un processo debolmente
stazionario. Utilizzando le notazioni alternative (8) e (9), adattate al tempo discreto,
scriveremo
m
W
= 0, r
W
(k) =
2
(k) (10)
Osservazione. Alloccorrenza il WGN(
2
) può essere esteso da N a Z.
Esempio 2 (gaussian random walk). Una passeggiata casuale gaussiana è il processo stocas-
tico a tempo discreto e stato continuo (X
n
)
nN
, denito dallequazione alle dierenze del
primo ordine
X
n+1
= X
n
+W
n
, (11)
dove (W
n
)
n=0
GWN(
2
), e X
0
= 0.
Si noti che (X
n
) si può interpretare come luscita stocastica del sistema LTI descritto dal-
lequazione alle dierenze x
n+1
= x
n
+w
n
, pilotato dallingresso stocastico (W
n
). Il sistema
è un semplice integratore discreto, infatti la risposta impulsiva vale h(n) = 1l(n 1), dove
w
n
è la sequenza dingresso ed x
n
la corrispondente uscita. In virt` u di questa osservazione
oppure lavorando direttamente sullequazione (11) si trova lespressione esplicita
X
n
=
n1
i=0
W
k
I parametri riassuntivi di (X
n
) si ricavano facilmente. La funzione media è
m
X
(n) = E(X
n
) = E
_
n1
i=0
W
k
_
= 0,
mentre la potenza statistica, coincidente con la varianza, è
M
X
(n) =
2
X
(n) = E(X
2
n
) = var
_
n1
i=0
W
k
_
= n
2
La potenza statistica è nita per ogni n, quindi il processo (X
n
) è del secondo ordine,
ma possiamop già concludere che (X
n
) non è debolmente stazionario, poiche se lo fosse
M
X
(n) sarebbe costante in n. Ricaviamo la funzione di autocorrelazione (coincide con
lautocovarianza)
r
X
(n
1
, n
2
) = E(X
n
1
X
n
2
) = E
_
_
_
n
1
1
i=0
W
i
_
_
_
n
2
1
j=0
W
j
_
_
_
_
=
n
1
1
i=0
n
2
1
j=0
E(W
i
W
j
)
=
n
1
1
i=0
n
2
1
j=0
2
(i j) = minn
1
, n
2

2
Come ci aspettavamo, la funzione autocorrelazione dipende da n
1
e n
2
separatamente, e
non solamente dalla dierenza n
1
n
2
. Il processo non è debolmente stazionario.
221
Lezione 34 (Marted`, 28 maggio 2013, ore 16:25-18:05)
34.1 Ulteriore esempio di processo stocastico
Esempio 3 (processo AR(1)).
`
E il processo stocastico, a tempo discreto e stato continuo,
(X
n
)
nN
denito dallequazione alle dierenze del primo ordine
X
n+1
= aX
n
+W
n
, (1)
dove (W
n
)
n=0
GWN(
2
), la condizione iniziale è una variabile aleatoria X
0
indipendente
da (W
n
), con E(X
0
) = 0 e var(X
0
) =
2
0
, e inne la costante a soddisfa il vincolo [a[ < 1.
Interessa studiare i parametri riassuntivi del processo (X
n
), ed in particolare determinare
se esistono valori della varianza iniziale var(X
0
) =
2
0
che garantiscono la stazionarietà
debole di (X
n
).
Si può facilmente calcolare unespressione esplicita per X
n
in termini di X
0
e di W
0
, W
1
,
. . . W
n1
usando la teoria delle equazioni alle dierenze, ma è anche immediato eettuare
qualche iterazione manualmente e derivare lespressione esplicita per induzione
X
1
= aX
0
+W
0
X
2
= aX
1
+W
1
= a
2
X
0
+aW
0
+W
1
X
3
= aX
2
+W
2
= a
3
X
0
+a
2
W
0
+aW
1
+W
2
. . . . . . . . .
X
n
= a
n
X
0
+
n1
=0
a
n1
W
(2)
Si può ora utilizzare lespressione (2) per ricavare i parametri riassuntivi di (X
n
). Es-
iste però una tecnica pi` u interessante che sfrutta appieno la struttura ricorsiva delle-
quazione (1). Per la funzione della media si ricava facilmente lequazione alle dierenze
m
X
(n + 1) = E(X
n+1
) = E
_
aX
n
+W
n
_
= a m
X
(n), m
X
(0) = E(X
0
) = 0
la cui unica soluzione è m
X
(n) = 0, per ogni n.
Con la stessa tecnica si calcola lequazione alle dierenze soddisfatta dalla funzione vari-
anza,
2
X
(n + 1) = E(X
2
n+1
) = E
_
(aX
n
+W
n
)
2
_
= E
_
a
2
X
2
n
+ 2aX
n
W
n
+W
2
n
_
= a
2
2
X
(n) +
2
dove E(X
n
W
n
) = 0 infatti: X
n
dipende solo da X
0
, W
0
, W
1
. . . W
n1
, vedi equazione (2),
quindi è indipendente da W
n
ed essendo le medie nulle E(X
n
W
n
) = E(X
n
)E(W
n
) = 0.
Lequazione alle dierenze per la varianza è quindi
2
X
(n + 1) = a
2
2
X
(n) +
2
,
2
X
(0) =
2
0
,
dove la condizione iniziale è imposta dal dato var(X
0
) =
2
0
. Anche il processo (X
n
) sia
debolmente stazionario è necessario che
2
X
(n) sia costante, ovvero
2
X
(n + 1) =
2
X
(n).
Sostituendo nellequazione alle dierenze si trova (e si capisce perche è fondamentale la
condizione [a[ < 1)
2
X
(n) =

2
1 a
2
.
222
Scegliendo il dato iniziale
2
0
=

2
1 a
2
è immediato vericare che
2
X
(n) =
2
0
=

2
1a
2
per ogni n.
Con questa scelta di
2
0
la varianza è costante. Per vericare la stazionarietà debole è
però necessario vericare che la funzione di autocorrelazione r
X
(n +k, n) non dipende da
n. Si osservi che
r
X
(n + 1, n) = E(X
n+1
X
n
) = E
_
(aX
n
+W
n
)X
n
_
= a
2
X
(n) = a

2
1 a
2
quindi per k = 1 lautocorrelazione r
X
(n + 1, n) non dipende da n. Inoltre
r
X
(n + 2, n) = E(X
n+2
X
n
) = E
_
(aX
n+1
+W
n+1
)X
n
_
= a r
X
(n + 1, n) = a
2

2
1 a
2
quindi anche per k = 2 lautocorrelazione r
X
(n+2, n) non dipende da n. In generale (per
induzione) vale
r
X
(n +k, n) = a
k

2
1 a
2
, indipendente da n.
La conclusione è che scegliendo
2
0
=

2
1a
2
, il processo (X
n
) è debolmente stazionario.
34.2 Proprietà della funzione di autocorrelazione di un processo stazionario
La funzione di autocorrelazione r
X
() di un processo del secondo ordine debolmente
stazionario gode di alcune notevoli proprietà.
(a.) r
X
(0) 0.
Dim. Infatti r
X
(0) = E(X
2
s
) 0.
(b.) r
X
() è pari (richiede insieme dei tempi S = Z oppure S = R).
Dim. r
X
() = E(X
s
X
s
) = E(X
0
X
) = r
X
().
(c.) r
X
() è una funzione denita positiva.
Dim. Verichiamo la condizione di positività. Per ogni n,
1
, . . .
n
,
1
, . . .
n
j
r
X
(
i
j
) =
j
E(X
s
i
X
s
j
)
= E
_
j
X
s
i
X
s
j
_
= E
__
i
X
s
i
2
_
0
Si ricordi che una funzione tale che (0) = 1, continua in un intorno dellorigine e
semidenita positiva è automaticamente la funzione caratteristica di una variabile aleato-
ria. (naturalmente una funzione caratteristica è pari solo se la distribuzione è pari, nel caso
generale essa è solo hermitiana). Le proprietà (a.), (b.) e (c.) appena dimostrate mostra-
no quindi la parentela matematica che esiste tra funzioni di autocorrelazione e funzioni
caratteristiche. Vedremo presto che risvolto questosservazione ha per la teoria spettrale
dei processi.
223
34.3 Processi gaussiani
Il processo (X
s
) è detto gaussiano se, per ogni N, e per ogni s
1
, s
2
. . . s
N
il vettore N-
dimensionale X := (X
s
1
, X
s
2
, . . . X
s
N
)
è congiuntamente nrmale. Data la normalità, la

distribuzione di X è completamente determinata dal vettore della media E(X) e dalla
matrice di covarianza E
_
X E(X))(X E(X))
_
. Peraltro, come discusso al paragrafo
33.3, media e matrice di covarianza di X sono completamente determinati dalle funzioni
m
X
(s) e r
X
(s
1
, s
2
) del processo (X
s
). La probabilità di un qualunque evento denito
in termini di variabili di un processo gaussiano sono quindi calcolabili sulla base della
conoscenza delle sole funzioni m
X
(s) e r
X
(s
1
, s
2
). Nel caso speciale dei processi gaussiani
la descrizione al secondo ordine coincide con la descrizione completa del processo. Se sono
vericate le condizioni di stazionarietà debole
m
X
(s) = m
x
(0) :=
X
, k
X
(s +, s) = k
X
(, 0) := k
X
()
allora la costante
X
e la funzione k
X
() determinano completamente le probabilità del
processo gaussiano (X
s
). Si noti in particolare che sotto stazionarietà debole del processo
gaussiano
(X
s
1
, X
s
2
, . . . X
s
N
) (X
s
1
+
, X
s
2
+
, . . . X
s
N
+
)
cioè i due vettori hanno la stessa distribuzione congiunta. Questa proprietà è detta
stazionarietà forte: prendendo N arbitrarie variabili del processo la loro distribuzione è
invariante per traslazione. Per i processi gaussiani la stazionarietà debole (invarianza per
traslazione della distribuzione di coppie di variabili aleatorie) equivale alla stazionarietà
forte.
Un importante risultato (già noto nel contesto dei vettori) è la conservazione della guas-
sianità per ltraggio lineare. Menzioniamo il seguente risultato senza fornire le condizioni
tecniche che ne garantiscono la validità. Il risultato vale anche per processi a tempo con-
tinuo, ma nella teoria rigorosa il caso discreto è quello pi` u semplice da arontare. Lemma.
Se (X
n
) è un processo gaussiano ed
Y
n
:=
i=
h
n,k
X
k
allora, sotto opportune condizioni che garantiscono la convergenza della serie, il processo
Y
n
è gaussiano. In particolare il risultato vale per il ltraggio lineare tempo invariante,
ovvero se
Y
n
=
k =
h
nk
X
k
Dimostrazione. Il risultato è ben noto nel caso di vettori nito dimensionali. Nel caso
generale qualche attenzione deve essere dedicata alla convergenza della serie. Si rimanda
la discussione dettagliata ai corsi successivi.
34.4 Densità spettrale di potenza - denizione e primi esempi
Denizione. Se (X
s
) è un processo del secondo ordine debolemnte stazionario, la densità
spettrale di potenza di (X
s
) è la trasformata di Fourier della funzione autocorrelazione
r
X
(). In particolare
R
X
(f) =
_

r
X
()e
j2f
d, f R, tempo continuo
R
X
(f) =
k=
r
X
(k)e
j2fk
, f [0, 1], tempo discreto
224
Per le condizioni di esistenza e le nozioni di convergenza della trasformata si faccia rifer-
imento al corso di Segnali e Sistemi. Nota la densità spettrale, la funzione di autocorre-
lazione si può trovare per inversione:
r
X
() =
_

R
X
(f)e
j2f
df, tempo continuo
r
X
(k) =
_
1
0
R
X
(f)e
j2fk
df tempo discreto
si noti che la potenza statistica r
X
(0) vale
r
X
(0) = M
X
=
_

R
X
(f) df (continuo), r
X
(0) = M
X
=
_
1
0
R
X
(f) df (discreto)
Poiche r
X
(s) è denita positiva la densità spettrale è una funzione non negativa (lo
dimostreremo la prossima lezione) quindi r
X
(0) 0 qualunque sia R
X
(f).
Esempi di calcolo - con riferimento agli esempi di processi in 33.4 e 34.1
(a.) (W
n
) GWN(
2
).
Il processo (W
n
) è del secondo ordine e debolmente stazionario, quindi ha senso calcolarne
la densità spettrale. Poiche r
X
(k) =
2
(k) si trova
R
X
(f) =
2
, per ogni f [0, 1].
Il termine rumore bianco deriva proprio dal fatto che lo spettro di potenza del processo
è piatto, come lo spettro della luce bianca. Per unintrpretazione sica dello spettro di
potenza si rimanda alla prossima lezione.
(b.) Il processo del secondo ordine (X
n
), passeggiata casuale gaussiana, non ammette
densità spettrale, infatti non è debolmente stazionario.
(c.) Il processo del secondo ordine AR(1), descritto allinizio della lezione, è stazionario
se si sceglie
2
0
=

2
1a
2
. In questo caso la funzione autocorrelazione è r
X
(k) =

2
1a
2
a
k
.
Esercizio. Calcolare la densità spettrale di potenza e vericare che è non- negativa per
ogni f [0, 1].
225
Lezione 35 (Mercoled`, 29 maggio 2013, ore 16:25-18:05)
35.1 Teorema di Wiener-Khinchin (caso discreto)
Il teorema di Wiener Khinchin è un caposaldo della teoria spettrale dei processi del secondo
ordine debolmente stazionari. Il teorema mostra che la densità spettrale di potenza R
X
(f),
può essere denita come limite dello spettro di Fourier delle traiettorie del processo.
Denoteremo con (X
N
n
) la versione troncata del processo (X
n
), denita come
X
N
n
:= X
n
1l
[N,N]
(n), (1)
dove 1l
[N,N]
(n) = 1 per n [N, N] e zero altrove. Si noti che, per [n[ N, si ha
X
N
n
= X
n
. La trasformata di Fourier discreta di X
N
n
è denotata

X
N
(f) e vale
X
N
(f) :=
N
k=N
X
N
k
e
j2fk
, f [0, 1] (2)
La trasformata

X
N
(f) è una funzione aleatoria di f, nel senso che, per ogni f ssato,
X
N
(f) è una combinazione lineare delle funzioni di base e
j2fk
i cui pesi sono le variabili
aleatorie X
N
n
.
Teorema. Sia (X
n
)
nZ
un processo del secondo ordine, debolmente stazionario, allora
lim
N
1
2N+1
E
_

X
N
(f)
2
_
= R
X
(f), (3)
dove R
X
(f) =
k=
r
X
(k)e
j2fk
è la densità spettrale del processo (X
n
).
Dimostrazione. Calcoliamo esplicitamente la quantità
E
_

X
N
(f)
2
_
= E
_
X
N
(f)
X
N
(f)
_
= E
_
N
k=N
X
N
k
e
j2fk
N
h=N
X
N
h
e
j2fh
_
= E
_
N
k=N
N
h=N
X
N
k
X
N
h
e
j2f(kh)
_
=
N
k=N
N
h=N
E
_
X
N
k
X
N
h
_
e
j2f(kh)
=
N
k=N
N
h=N
r
X
(k h)e
j2f(kh)
(4)
La sommatoria doppia si converte facilmente ad una singola sommatoria osservando che,
per ogni sequenza g(n), vale
N
k=N
N
h=N
g(k h) =
2N
=2N
_
2N + 1 [[
_
g(). (5)
Losservazione attenta e prolungata della gura qui sotto dovrebbe rendere la formula
precedente evidente. Infatti, per sommare i valori g(k h) su tutti i punti della griglia
quadrata (k, h) [N, N] [N, N], tracciata in gura per N = 3, si può sommare lungo
le diagonali = k h. La diagonale principale corrisponde a = 0 e contiene 2N + 1
226
termini (7 in gura) uguali a g(0), che danno contributo (2N + 1)g(0) alla sommatoria.
La prima sopra-diagonale è = 1 che contiene 2N + 1 termini (6 in gura) uguali a
g(1) che danno contributo (2N + 1 1)g(1) alla sommatoria. La prima sottodiagonale
corrisponde a = 1, e contiene 2N +11 = 2N +1[[ termini uguali a g(1) ecc. ecc.
Si procede cos` no alla sopradiagonale = 2N e alla sottodiagonale = 2N ognuna
delle quali contengono 2N+1[[ = 1 termine, g(2N) nella sopradiagonale e g(2N) nella
sottodiagonale. Per concludere si applichi la (5) alla (4), ponendo g(n) = r
X
(n)e
j2fn
.
k
h
l=k-h=0
l=k-h=-1
l=k-h=1
N=3
l=k-h=2N
l=k-h=-2N
Si ottiene
N
k=N
N
h=N
r
X
(k h)e
j2f(kh)
=
2N
=2N
_
2N + 1 [[
_
r
X
()e
j2f
dividendo per 2N + 1 e passando al limite per N
lim
N
1
2N+1
E
_

X
N
(f)
2
_
= lim
N
1
2N+1
2N
=2N
_
2N + 1 [[
_
r
X
()e
j2f
=
2N
=2N
_
1
[[
2N+1
_
r
X
()e
j2f
=
=
r
X
()e
j2f
= R
X
(f)
Corollario. La densità spettrale di potenza è non negativa
R
X
(f) 0, per ogni f [0, 1].
Dimostrazione.
1
2N+1
E
_

X
N
(f)
2
_
0 per ogni N, e la disuguaglianza di preserva al
limite per N .
Il teorema vale anche nel caso di processi a tempo continuo, ma è necessario precisare in
che senso vanno interpretati gli integrali che deniscono la serie di Fourier. Riportiamo il
risultato senza entrare nei dettagli succitati.
227
Teorema. (Wiener-Khinchin) Sia (X
t
)
tR
un processo del secondo ordine, debolmente
stazionario, allora
lim
T
1
2T
E
_

X
T
(f)
2
_
= R
X
(f), (6)
dove R
X
(f) =
_
r
X
()e
j2
d è la densità spettrale del processo (X
t
) e
X
T
(f) :=
_
T
T
X
T
t
e
j2ft
dt, f R
è la trasformata di Fourier del processo troncato X
T
t
:= X
t
1l
[T,T]
(t).
Esempio 1. Si consideri il processo stocastico a tempo continuo e stato continuo
X
t
= Acos 2f
0
t +Bsin 2f
0
t, t R
dove f
0
R
+
è una costante nota, mentre A e B sono variabili aleatorie di media nulla,
varianza comune
2
e scorrelate, ovvero E(A) = E(B) = 0, E(A
2
) = E(B
2
) =
2
,
E(AB) = 0. La funzione media del processo è
m
X
(t) = E(X
t
) = E(Acos 2f
0
t +Bsin 2f
0
t) = E(A) cos 2f
0
t +E(B) sin 2f
0
t = 0
La funzione di autocorrelazione (e autocovarianza) è
r
X
(t +, t) = E(X
t+
X
t
)
= E
_
(Acos 2f
0
(t +) +Bsin 2f
0
(t +))(Acos 2f
0
t +Bsin 2f
0
t)
_
= E(A
2
) cos 2f
0
(t +) cos 2f
0
t +E(B
2
) sin 2f
0
(t +) sin 2f
0
t +E(AB)(xxx)
=
2
_
cos 2f
0
(t +) cos 2f
0
t + sin 2f
0
(t +) sin 2f
0
t
_
+ 0
=
2
cos 2f
dove abbiamo sfruttato la scorrelazione E(AB) = 0 ed usato la formula di sottrazione
del coseno. Poiche la media e costante e la funzione di scorrelazione non dipende da
t il processo è del secondo ordine e debolmente stazionario. Indichiamo con m
X
= 0 la
media e con r
X
() =
2
cos(2f
0
) la funzione di covarianza. Ha senso calcolare la densità
spettrale di potenza che vale
R
X
(f) = T (r
X
()) =

2
2
_
(f f
0
) +(f +f
0
)
, f R
35.2 Processi stocastici del secondo ordine attraverso sistemi LTI
I risultati di questa sezione sono dinteresse sia per i processi a tempo contiuno che per
quelli discreti. interessano sia per i processi a tempo continuo che per quelli a tempo
discreto. La teoria a tempo continuo richiederebbe qualche precisazione sul senso in cui
vanno intesi gli integrali perchè un processo stocastico a tempo continuo potrebbe avere
traiettorie che non sono integrabili secondo Riemann. Aggiungeremo queste considerazioni
in una futura appendice alla lezione. In questo paragrafo tutto è scritto per il caso a tempo
continuo. Microesercizio. Trascivere tutti i risultati per il caso tempo discreto,
Sia h() la risposta impulsiva di un sistema LTI stabile L. Intendiamo studiare luscita
del sistema L quando lingresso è un processo stocastico X
t
del secondo ordine. Per quanto
noto dal corso di Segnali e Sistemi
Y
t
=
_

X
t
d
228
Lemma. Se il processo dingresso (X
t
) è del secondo ordine, allora il processo di uscita
(Y
t
) è del secondo ordine ed ha funzione media
m
Y
(t) = h(t) m
X
(t), (7)
e funzione di autocorrelazione
r
Y
(t +, ) = E(Y
t+
Y
)
=
_

h(s)h()r
X
(t + s, t ) dsd (8)
Dimostrazione. Il calcolo diretto fornisce
m
Y
(t) = E(Y
t
) = E
__

X
t
d
_
=
_

E(X
t
) d =
_

m
X
(t ) d
= h(t) m
X
(t).
Per la funzione di autocorrelazione si ha
r
Y
(t +, ) = E(Y
t+
Y
)
= E
__

h(s)X
t+s
ds
_

h()X
t
d
_
=
_

h(s)h()E(X
t+s
X
t
) dsd
=
_

h(s)h()r
X
(t + s, t ) dsd
Teorema. Se il processo dingresso (X
t
) è del secondo ordine e debolmente stazionario,
allora luscita è del secondo ordine e debolmente stazionaria, la media è
m
Y
= h(t) m
X
= H(0) m
X
,
dove H(0) è il guadagno in continua, cioè il valore della risposta in frequenza nellorigine.
La funzione di autocorrelazione di (Y
t
) è
r
Y
() =
_

h(s)h()r
X
( + s) dsd (9)
Dimostrazione. Per la media, in conseguenza di (7) si ha
m
Y
(t) = h(t)m
X
=
__
h() d
_
m
X
= H(0)m
X
.
Per la stazionarietà debole resta da vericare lindipendenza da t della funzione di auto-
correlazione. Usando la (8) si trova
r
Y
(t +, ) =
_

h(s)h()r
X
(t + s, t ) dsd
=
_

h(s)h()r
X
(t + s (t )) dsd
=
_

h(s)h()r
X
( + s) dsd = r
Y
()
229
che, non dipendendo da t è denotata r
Y
().
Lespressione analitica di r
Y
() non è particolarmente illuminante, ma è facile deter-
minare la densità spettrale R
Y
(f).
Teorema. Sotto le precedenti ipotesi, la densità spettrale di (Y
t
) è
R
Y
(f) = [H(f)[
2
R
X
(f)
Dimostrazione. Riprendendo lequazione (9), ed esprimendo r
X
() come antitrsformata
di R
X
(f), si trova
r
Y
() =
_

h(s)h()r
X
( + s) dsd
=
_

h(s)h()
__

R
X
(f)e
j2f(+s)
df
_
dsd
=
_

R
X
(f)e
j2f
_
_

h(s)e
j2fs
ds
_

h()e
j2f
d
_
df
=
_

R
X
(f)H(f)H(f) e
j2f
d
Lispezione dellultima espressione rivela che r
Y
() è stato espresso come antitrasforma-
ta di Fourier della funzione R
X
(f) H(f)H(f) = R
X
(f)[H(f)[
2
. Poiche r
Y
() è lanti-
trasformata della densità spettrale di (Y
t
), la conclusione R
Y
(f) = R
X
(f)[H(f)[
2
segue
necessariamente.
35.3 Interpretazione sica della densità spettrale di potenza
Per capire lorigine del nome densità spettrale di potenza è utile considerare la sseguente
interpretazione sica. Sia X
t
un processo stocastico del secondo ordine, debolmente
stazionario.
`
E sempre possibile interpretare idealmente X
t
come segnale di corrente gener-
ato da una rete elettrica, che va a dissiparsi su una resistenza unitaria R = 1, vedi gura
qui sotto. La potenza istantanea che si dissipa sulla resistenza è p(t) = v(t)i(t) = Ri
2
(t) =
X
t
R=1
X
2
t
. Interpretando X
t
come segnale di corrente, X
2
t
è la potenza istantanea dissipata su
una resistenza unitaria. Poiche X
t
è una variabile aleatoria, la potenza istantanea X
2
t
è una variabile aleatoria. Il valore atteso della potenza istantanea è E(X
2
t
). Poiche X
t
ammette densità spettrale di potenza, per quanto visto in precedenza è
E(X
2
t
) = r
X
(0) =
_

R
X
(f) df
230
Quindi lintegrale della densità spettrale coincide con la potenza media (attenzione:
gli ingegneri dicono cos` per brevità, in realtà intendono dire valore atteso della potenza
istantanea).
Valutiamo adesso il contributo alla potenza media fornito da ogni banda di frequenze.
Si considerino le frequenze f [f
0
, f
0
+ ], dove f
0
e sono ssati. Sia H(f) un ltro
passa banda ideale la cui risposta in frequenza è
H(f) := 1l
[f
0
,f
0
+]
(f).
Se X
t
è lingresso del sistema LTI H(f), il processo di uscita Y
t
consiste di tutte e sole
le componenti di X
t
contenute nella banda di frequenze [f
0
, f
0
+ ]. Applicando lultimo
teorema della precedente sezione si trova
R
Y
(f) = [H(f)[
2
R
X
(f) = R
X
(f)1l
[f
0
,f
0
+]
(f)
quindi il valore atteso della potenza istantanea Y
2
t
è
E(Y
2
t
) =
_

R
Y
(f) df =
_

R
X
(f)1l
[f
0
,f
0
+]
(f) R
X
(f
0
)
dove lapprossimazione è tanto migliore quanto pi` u piccola è lampiezza dellintervallo
[f
0
, f
0
+ ]. Si può rileggere lultima equazione come segue
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ]
_
R
X
(f
0
)
Per ogni f
0
punto di continuità di R
X
(f) vale
R
X
(f
0
) = lim
0
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ]
_
.
Tenendo a mente che nellinterpretazione sica X
2
t
è misurato in Watt (potenza), lulti-
ma formula dimostra che R
X
(f) si misura in Watt/Herz, giusticando il nome densità
spettrale di potenza. Per maggior precisione, ma con minore ecacia, si potrebbe chia-
mare densità spettrale della potenza istantanea media oppure, con chiarezza cristallina ma
quasi illeggibile, densità spettrale del valore atteso della potenza istantanea. La chiarezza
raramente vende bene.
231
Lezione 36 (Luned`, 3 giugno 2013, ore 10:30-12:15)
36.1 Esercitazione in aula
232

Calcolo Delle Probabilità

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Calcolo Delle Probabilità

Caricato da

Copyright:

Formati disponibili

A

[0, 1] tale che

). Un celebre teorema della teoria della probabilit`a,

= n. Lassioma (ii) richiede che se E F = allora P

gli eventi la condizione `e presente e

, ad esempio ci si pu`o accertare visualmente della presenza o meno di un aereo

) = 1, ma nel mondo reale i test diagnostici non sono

) = 1 b probabilit`a di falso positivo (false alarm).

sono eventi complementari, quindi P(T

Terminologia. Limmagine di X, ovvero il sottoinsieme del codominio R costituito dai

Supponendo che su sia stata denita la misura P equiprobabile, la misura P

(|x) := p(x) per ogni x . e come

A, e per ogni x < x

A, e per ogni x > x

Y ()P(). Esempio. Se X rappresenta il numero di lanci

nellintervallo di convergenza e la sua derivata n-esima vale

in un intorno dellorigine, f non `e necessariamente sviluppabile in serie

) `e suciente dimostrare che

). La gura qui sotto rappresenta questo caso. Se invece a `e

g(X(), Y ()) P() = poiche X

xdx non esiste, mentre il valore principale di Cauchy `e nullo.

X()P(), non si estende alle v.a. assolutamente continue. Vedremo per`o

= (1)t > 0 per t R

). Si osservi anche che, se r s, vale [X[

. Se arrivano in media richieste per unit`a

standardizza la v.a. X N(,

2 in questo caso). Questo produrr`a una v.a.

Si denisca la funzione h : R R come

(Y ) = E[X[Y ]. Si pu`o riderivare lo stesso risulta-

w. La gura qui sotto dovrebbe aiutare a capire il Lemma e

. Il modo pi` u semplice per

`e imporre la condizione di ortogonalit` a v w, che equivale ad imporre v ww,

che caratterizza la proiezione ortogonale minimizzando la norma del-

X `e una variabile aleatoria scalare, quindi E(w

un vettore aleatorio. La funzione caratteristica di X

in termini di derivate della funzione caratteristica.

N(0, 1) e, invertendo questa relazione, Y si pu`o

0, come atteso trattandosi di una

0, esistono vettori normali Y N(, ).

0, si pu`o fattorizzare, in modo non unico,

= , che `e lanalogo per matrici simmetriche della

non `e un vettore normale. Infatti se lo fosse tutte le funzioni lineari di W

, dove `e la matrice diagonale degli autovalori di . Se `e semidenita pos-

`e il modulo del (determinante) Jacobiano della trasformazione g.

dy formula del cambio di variabili per g

invertibile. In questo caso la funzione inversa `e

n/0.1) 1.95/2 = 0.975. In tabella si trova che (1.96) = 0.975 quindi

n/0.1 1.96 ovvero n 15.36. Con n = 16 si raggiungono entrambi gli obiettivi.

n) 0.975. Dalla tabella della normale standard

n]. Per esercizio calcolate, usando il Teorema del

, il vettore della media del vettore X `e

`e congiuntamente nrmale. Data la normalit`a, la

Potrebbero piacerti anche