Sei sulla pagina 1di 232

A

N
A
L
I
S
I
D
E
I
D
A
T
I
2
0
1
2
-
1
3
c
_
L
.
F
i
n
e
s
s
o
(
2
0
1
2
)
Lezione 1 (Luned`, 4 marzo 2013, ore 10:30-12:15)
1.1 La probabilit`a per lIngegneria dellInformazione
Iniziamo con la discussione qualitativa di qualche problema pratico che richiede il ricorso
a metodi probabilistici. Alcuni di questi esempi verranno ripresi mano a mano che si
disporr`a degli strumenti tecnici per unanalisi pi` u approfondita.
(a.) Compressione dati senza errore (zip/unzip sul PC)
Si tratta di mappare (codicare), in modo invertibile, una sequenza di dati (ad esempio
un le di testo o un le eseguibile) in una sequenza di bit di lunghezza minima. La parola
chiave qui `e invertibile: ad esempio la compressione di le audio/video in formato .mp3 o
.mp4 non `e invertibile. Lalgoritmo impiegato da ZIP produce invece una codica inver-
tibile. Apparentemente il problema `e completamente deterministico, ma il limite teorico
di compressibilit`a di una data sequenza di dati dipende da una quantit`a probabilistica,
lentropia della sorgente dei dati.
(b.) Analisi di adabilit`a
Componenti di adabilit`a nota vengono assemblati per produrre sistemi. Qual `e laf-
dabilit`a complessiva del sistema? Dove conviene introdurre sistemi di backup per garan-
tire una ssata soglia di adabilit`a? Oppure, di maggior interesse per lInformatica, si
consideri la piccola rete di calcolatori rappresentata dal grafo qui sotto.
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
I vertici sono i calcolatori, gli archi le connessioni siche tra calcolatori. Ogni arco ha due
etichette: il nome e la percentuale di uptime della connessione sica: potete pensare che
questo dato sia stato ricavato osservando la rete nelle ultime 24 ore o nellultimo mese ecc.
Si vuole calcolare la percentuale di uptime della connessione tra A e B. Supponete poi di
riuscire a migliorare la connessione tra D ed E. Di quanto migliorer`a la connessione tra
A e B? A queste domande, e ad altre simili, sapremo presto dare una risposta utilizzando
semplici strumenti probabilistici.
(c.) Complessit`a degli algoritmi - worst case analysis ed analisi in media
Con la worst case analysis si valuta un parametro di performance dellalgoritmo, ad
esempio il tempo di esecuzione, nel caso pi` u sfavorevole. Consideriamo ad esempio un
algoritmo di ordinamento. Supponete di dover ordinare alfabeticamente pacchetti di 1000
nomi. I possibili ordini di arrivo dei dati sono 1000! e tipicamente solo uno di questi `e
il worst case per lalgoritmo di ordinamento che state impiegando.
`
E molto pessimistico
1
basare la valutazione dellalgoritmo sullanalisi della sua performance nel worst case. Se
utilizzate lalgoritmo centinaia di volte al giorno, su pacchetti di 1000 dati sempre diversi,
vi interessa di pi` u il suo tempo di esecuzione medio. Lo studio del comportamento medio
`e un tipico argomento di teoria della probabilit`a.
(d.) Integrazione numerica con il metodo di Monte Carlo
Si supponga di dover calcolare numericamente
I :=
_
1
0
f(x) dx
per una complicata funzione f(x), continua nellintervallo [0, 1], la cui antiderivata non
`e nota. Il metodo classico `e lapprossimazione di Riemann che consiste nel suddividere
lintervallo [0, 1] in n sottointervalli di identica lunghezza :=
1
n
, allora
_
1
0
f(x) dx
n

k=1
f(k) .
Lapprossimazione `e tanto migliore quanto pi` u grande `e n, come garantito dalla teoria
dellintegrale di Riemann. Un metodo alternativo (metodo di Monte Carlo) consiste nello
scegliere n punti a caso nellintervallo [0, 1], diciamoli x
1
, x
2
, . . . x
n
, e quindi calcolare
_
1
0
f(x) dx
1
n
n

k=1
f(x
k
).
Nella gura qui sotto i due metodi sono messi a confronto.
6
-
f(x)
2 3 1
x
6
-
f(x)
x

1
x
3
x
1
x
2
x
f(x

)
Il razionale per il metodo di Monte Carlo `e il teorema della media integrale. Se f(x)
`e una funzione continua sullintervallo [0, 1] allora esiste x

[0, 1] tale che


_
1
0
f(x) dx =
f(x

). Scegliendo i punti x
1
, x
2
, . . . x
n
a caso alcuni f(x
k
) saranno minori di f(x

), altri
maggiori; se n `e grande, calcolando la media aritmetica degli f(x
k
) ci aspettiamo quindi
di ottenere un valore vicino ad f(x

). Un celebre teorema della teoria della probabilit`a,


la legge dei grandi numeri, giustica in modo rigoroso questo ragionamento intuitivo. Ma
come si sceglie un punto a caso, diciamo x
1
, nellintervallo [0, 1]? Lanciamo ripetutamente
una moneta. Scriviamo il punto decimale e poi accodiamo un 1 ogni volta che esce Testa,
ed uno 0 ogni volta che esce Croce. I lanci successivi produrranno in questo modo una
sequenza binaria che interpreteremo come rappresentazione, in base 2, del numero reale
x
1
[0, 1]. Ad esempio la sequenza CCTTCT . . . produce il punto
x
1
= .001101 . . .
2
Allaumentare del numero di lanci aumenta la precisione di x
1
. Con n lanci si ottiene x
1
con precisione
1
2
n
.
Con il metodo di Monte Carlo si calcola un integrale, problema squisitamente de-
terministico, facendo ricorso al fenomeno casuale per eccellenza: i lanci ripetuti di una
moneta.
1.2 La teoria assiomatica della probabilit`a
La teoria della probabilit`a `e uno dei possibili strumenti matematici per modellare esper-
imenti il cui esito `e incerto.
`
E in realt`a lo strumento che ha avuto, e continua ad avere,
maggior successo nelle applicazioni. Lo sviluppo matematico della teoria della probabilit`a
procede per via assiomatica. Una volta denite le nozioni di base si derivano Lemmi,
Proposizioni, e Teoremi, si introducono nuove denizioni e cos` via, senza bisogno di fare
riferimento a monete, giochi di carte, esperimenti dallesito incerto ecc. Poiche questo `e
un corso di base per`o, per motivare lo studio e per sviluppare lintuizione, cercheremo
di presentare le idee astratte e dare contemporaneamente la loro interpretazione in vari
contesti applicativi. Lo svantaggio di questo approccio `e che il livello matematico sar`a
troppo basso per chi cerca una trattazione completa, rigorosa e concisa e troppo alto per
chi invece vorrebbe solo imparare a risolvere semplici problemi applicativi.
Il pi` u importante oggetto matematico in teoria della probabilit`a `e lo spazio di proba-
bilit`a. Molto allingrosso, vedremo successivamente i dettagli, uno spazio di probabilit`a o
`e una terna
o = (, T, P),
dove `e un insieme (lo spazio campionario) , T una famiglia di sottoinsiemi di (la -
algebra degli eventi misurabili) e P una mappa P : T [0, 1], (la misura di probabilit`a).
In questa lezione ci concentriamo sul primo elemento della terna, lo spazio campionario
.
1.3 Lo spazio campionario
Nella teoria astratta `e un insieme, detto spazio campionario, senza altre specicazioni.
Quando la teoria della probabilit`a viene applicata a problemi concreti gli elementi di
rappresentano i possibili risultati dinteresse di un esperimento aleatorio. La natura di
pu`o quindi essere estremamente varia a seconda dello specico esperimento. Vediamo
alcuni esempi.
(1.) Esperimento: lancio una moneta. Osservazione: faccia uscita
:= C, T
molto spesso si preferisce identicare C = 0, T = 1.
(2.) Esperimento: lancio una moneta 3 volte. Osservazione: numero di Teste uscite
:= 0, 1, 2, 3
(2b.) Esperimento: lancio una moneta 3 volte. Osservazione: sequenza delle facce uscite
:= TTT, TTC, TCT, TCC, CTT, CTC, CCT, CCC
(3.) Esperimento: lancio una moneta ripetutamente. Osservazione: numero del lancio
in cui si verica la prima Testa
= N := 1, 2, 3, . . .
3
(4.) Esperimento: misurazione della durata di un hard disk. Osservazione: intervallo di
tempo
= R
+
:= [0, )
Nota. Introducendo unapprossimazione si potrebbe misurare la durata in numero intero
di ore. Il motivo per cui non conviene farlo `e che il tempo, come la lunghezza e la massa
per nominarne tre, `e una grandezza sica che, almeno a livello macroscopico, si modella
pi` u semplicemente usando un numero reale. La legge di Newton F = ma `e unequazione
dierenziale, non unequazione alle dierenze!
(5.) Esperimento: registrazione della temperatura al suolo a Porta Portello. Osser-
vazione: il tracciato termograco nellarco di 24 ore.
:= f : [0, 24] R; f `e continua
In questo esempio gli elementi di sono funzioni continue. Ogni funzione continua
rappresenta un possibile tracciato osservato.
(6.) Esperimento: registrazione di temperatura e pressione al suolo a Porta Portello.
Osservazione: il tracciato termograco e barometrico nellarco di 24 ore.
:= f : [0, 24] R
2
; f `e continua
In questo caso ogni osservazione `e una funzione a valori vettoriali, in R
2
.
(7.) Esperimento: studio socio-sanitario. Osservazione: sesso, et`a, peso, degli individui
partecipanti
:= F, M N R
+
In questo caso gli elementi sono vettori a tre componenti disomogenee, la prima a valori
in un insieme a due valori, la seconda a valori in N, la terza a valori reali positivi.
Questo `e solo un modesto campionario di casi molto semplici. Una dierenza fondamen-
tale tra i diversi spazi campionari `e la cardinalit`a. In alcuni esempi, (1.), (2.), (2b.), la
cardinalit`a `e nita, in altri, (3.), innita numerabile cio`e pari alla cardinalit`a di N, in
altri, (4.), (7.), innita non numerabile cio`e pari alla cardinalit`a di R, in altri, (5.), (6.),
superiore alla cardinalit`a di R.
Nella prima parte del corso ci concentreremo su spazi campionari niti ed inniti numer-
abili. Nella seconda parte tratteremo gli spazi campionari con la cardinalit`a di R. Non
tratteremo esempi del tipo (5.), (6.).
`
E interessante confrontare gli esempi (2.) e (2b.). Si noti che sullo spazio campionario di
(2b.) si possono rappresentare i risultati dinteresse dellesempio (2.). Se so che `e uscita
la sequenza TTC posso dire che il numero di Teste `e 2. Quindi lo spazio campionario che
rappresenta i possibili risultati di un esperimento `e inerentemente non unico.
`
E importante
prendere sempre uno spazio campionario sucientemente ricco da contenere tutti i risultati
dinteresse. Se poi contiene pi` u elementi di quanti strettamente necessari si pu`o gestire
la situazione, mentre il caso opposto porta a problemi. Non si possono rappresentare i
risultati dinteresse del caso (2b.) usando lo spazio campionario di (2.)
1.4 Terminologia relativa allo spazio campionario
La terminologia probabilistica `e ormai consolidata. Linsieme `e detto spazio campionario
(sample space). Gli elementi sono detti esiti (outcomes) o eventi elementari, i
sottoinsiemi di sono detti eventi (events).
1
Nelle applicazioni gli elementi dello spazio
campionario rappresentano i possibili esiti di un esperimento i cui risultati sono incerti.
1
In realt` a, come vedremo, sono detti eventi solo i sottoinsiemi di che appartengono a T.
4
Se lesecuzione dellesperimento produce il risultato , si dice che si `e vericato e,
per ogni E tale che E, si dice che si `e vericato E.
Esempio 1. Con lusuale convenzione, 0=croce, 1=testa, sia
:= 000, 001, 010, 011, 100, 101, 110, 111
lo spazio campionario che rappresenta i possibili risultati di tre lanci di una moneta.
Esempi di eventi di sono i sottoinsiemi di esiti
E
k
:= escono k teste su 3 lanci, k = 0, 1, 2, 3.
Ad esempio E
0
= 000, mentre E
1
= 001, 010, 100 ecc. Se si esegue lesperimento
e, lanciando 3 volte la moneta, escono le facce 001 diremo che = 001 si `e vericato.
Analogamente diremo che si `e vericato E
1
, mentre non si `e vericato E
2
.
1.5 Operazioni elementari sugli eventi
Quando si disponga di certi eventi E, F, G ecc. `e naturale utilizzzare gli eventi dati per
formare nuovi eventi dinteresse applicando le usuali operazioni insiemistiche sugli eventi
dati. Qui per usuali operazioni, di cui si considerano note la denizioni, si intendono
lunione, lintersezione, e la complementazione
2
. Utilizzando la terminologia probabilistica
appena introdotta, se E ed F sono eventi,
E
c
= si verica se e solo se non si verica E
E F = si verica se e solo se si vericano E o F
E F = si verica se e solo se si vericano E e F
Esempio 2. Riprendendo lEsempio 1, si considerino i seguenti eventi che sono descritti
sia verbalmente che utilizzando operazioni insiemistiche sugli eventi E
k
.
E := si verica almeno 1 testa = E
c
0
F := si verica al pi` u 1 testa = E
0
E
1
G := si verica almeno 1 testa e almeno 1 croce = E
1
E
2

Due eventi speciali, banali e onnipresenti, sono e detti, per ovvie ragioni, evento
certo ed impossibile rispettivamente. Tornando allEsempio 2,
si vericano almeno 2 teste e 2 croci = ,
mentre
si verica almeno 1 testa o una croce = .
2
Ha senso parlare di complemento di un evento poiche tutti gli eventi sono sottoinsiemi di .
5
Le propriet`a di complementazione, unione ed intersezione si suppongono note. A titolo
di promemoria, non necessariamente esaustivo, per ogni E, F, G ecc. eventi,
E F = F E
E F = F G
E E = E E = E
E = , E = E
E = E, E =
E (F G) = (E F) G
E (F G) = (E F) G
E (F G) = (E F) (E G)
E (F G) = (E F) (E G)
(E F)
c
= E
c
F
c
(E F)
c
= E
c
F
c
6
Attenzione. Si tenga ben presente che la scrittura E F G `e priva di senso, poiche
mancando le parentesi non `e chiaro in che ordine si debbano eettuare le operazioni e, in
generale (EF) G e E(F G) sono diversi [Micro-esercizio. Costruire esempi dellul-
tima aermazione.] Morale: ogni volta che si scrive una espressione che contiene unioni,
intersezioni e complementazioni si deve specicare univocamente lordine di esecuzione
delle operazioni con abbondante uso di parentesi.
1.6 Decomposizioni di eventi in unioni di eventi mutuamente esclusivi
(a.) Partizione di
Una partizione di `e una famiglia E
n

n1
di eventi mutuamente esclusivi, la cui unione
`e , ovvero tale che
E
i
E
j
= , i ,= j
=
_
i
E
i
Esempi.
(i.) Dato un evento E, una semplice partizione di `e E, E
c
. In eetti E E
c
= e
E E
c
= .
(ii.) Si consideri come nellEsempio 1.
`
E evidente che gli eventi E
k
, per k = 0, 1, 2, 3,
formano una partizione di . In questo caso
E
0
= 000, E
1
= 001, 010, 100, E
2
= 011, 101, 110, E
3
= 111
ed =
3
k=0
E
k
.
(iii.) Lancio due dadi e osservo le facce uscite, = (1, 1), (1, 2), . . . (6, 6) contiene 36
coppie ordinate. Una partizione `e fornita dagli eventi
E
k
:= la somma delle facce `e k, k = 2, 3, . . . 12.
(b.) Decomposizione rispetto ad una partizione.
Nel caso elementare si considera la partizione (E, E
c
) dove E . Poiche per ogni F
`e F = F = F (E E
c
) = (F E) (F E
c
) otteniamo la rappresentazione
F = (F E) (F E
c
).
I due eventi dellunione sono incompatibili: questo, vedremo, `e particolarmente conve-
niente in TdP. Per un dato F la rappresentazione vale qualunque sia E: nella pratica sar`a
importante scegliere E in modo che la rappresentazione semplichi i conti probabilistici.
In generale se (E
n
) `e una partizione di allora vale la rappresentazione
F =
_
i
(F E
i
)
e gli eventi dellunione sono mutuamente esclusivi. Anche qui, in pratica, sar`a fondamen-
tale scegliere opportunamente la partizione.
(c.) Decomposizione dellunione
In TdP la decomposizione di eventi complessi in unione di eventi incompatibili (cio`e digiun-
ti) `e uno dei trucchi standard per semplicare i calcoli. La seguente decomposizione, valida
qualunque siano gli eventi E ed F, si dimostrer`a spesso utile
E F = (E F
c
) (E F) (E
c
F)
7
(d.) Decomposizione alternativa dellunione e generalizzazione
Le decomposizioni in unioni di eventi incompatibili si possono normalmente eettuare in
molti modi. Quale sia la decomposizione pi` u conveniente lo si stabilir`a, caso per caso,
nellapplicazione al calcolo delle probabilit`a. Ad esempio per lunione di due eventi vale
anche la decomposizione
E F = E (F E)
Questa decomposizione si generalizza immediatamente al caso di tre eventi
E F G = E (F E) (G (E F))
e pi` u in generale, per n eventi
n
_
k=1
E
k
= E
1
_
_
_
n
_
k=2
_
_
E
k

k1
_
j=1
E
j
_
_
_
_
1.7 Altre operazioni tra eventi
Operazioni del tipo E F
c
intervengono abbastanza spesso da meritare un nome.
Dierenza di eventi. E F := E F
c
.
Dierenza simmetrica di eventi. E F := (E F
c
) (E
c
F).
Usando le nuove denizioni la decomposizione dellunione si pu`o riscrivere come
E F = (E F) (E F) (F E) = (E F) (E F).
1.8 Osservazione sulle operazioni tra eventi
Nota bene. Qualunque espressione che consista di complementazioni, intersezioni, unioni,
dierenze, e dierenze simmetriche di eventi dati si pu`o sempre esprimere, a partire dagli
eventi dati, utilizzando esclusivamente le operazioni di complementazione ed intersezione
(oppure unione). A titolo desempio, usando le leggi di De Morgan si pu`o esprimere la
dierenza simmetrica facendo ricorso solo a complementazioni e unioni, oppure solo a
complementazioni e intersezioni
E F = (E F
c
) (E
c
F)
= (E
c
F)
c
(E F
c
)
c
=
_
(E F
c
)
c
(E
c
F)
c
_
c
Questo risultato `e interessante negli sviluppi teorici, ma le espressioni contenenti, ad
esempio, solo complementazioni e unioni diventano rapidamente molto complesse e di
dicile leggibilit`a.
8
Lezione 2 (Marted`, 5 marzo 2013, ore 16:25-18:10)
2.1 La -algebra degli eventi T
(a.) Motivazione
Nelle applicazioni lo spazio di probabilit`a o = (, T, P) modella un esperimento il cui
esito `e incerto. Gli elementi di sono i possibili risultati dellesperimento, mentre T `e una
famiglia di sottoinsiemi di per i quali `e denita la misura di probabilit`a P. Idealmente si
vorrebbe denire la probabilit`a per tutti gli eventi dinteresse dellesperimento. In linea di
principio si potrebbe pensare di denire P per tutti i sottoinsiemi di , di fatto assumendo
che la famiglia T coincida con la famiglia di tutti i sottoinsiemi di , nota come potenza
di e denotata P(). La scelta T = P() `e sempre possibile, e la adotteremo, se [[ [N[
(qui e altrove [E[ denota la cardinalit`a dellinsieme E). Quando invece [[ = [R[ non `e
possibile scegliere T = P() e denire in modo consistente la misura di probabilit`a P. In
ogni caso `e necessario che T abbia la struttura, specicata qui sotto, di -algebra anche
la teoria risulti ben posta.
(b.) Denizione
Sia un insieme assegnato. Una famiglia T di sottoinsiemi di `e detta -algebra se
soddisfa agli assiomi:
(i) T non `e vuota
(ii) T `e chiusa rispetto alla complementazione (signica che se E T, allora E
c
T).
(iii) T `e chiusa rispetto allunione numerabile (signica che se E
i
T per ogni i 1,
allora
i
E
i
T.
Gli elementi di T sono detti eventi misurabili o semplicemente eventi.
(c.) Conseguenze elementari degli assiomi (dimostrate a lezione)
(i.) e appartengono ad T. (dagli assiomi)
(ii.) T `e chiusa rispetto alle intersezioni numerabili. (assiomi+De Morgan)
(iii.) T `e chiusa rispetto a qualunque sequenza numerabile di complementazioni, inter-
sezioni, unioni, dierenze, dierenze simmetriche di eventi di T. (assiomi+osservazione 1.8).
(d.) Esercizio.
T `e chiusa rispetto alle unioni nite ed alle intersezioni nite.
2.2 La misura di probabilit`a P
(a.) Denizione
P : T R
+
`e una mappa E P(E) che ad ogni evento misurabile E T associa il
numero reale P(E), detto la misura di probabilit`a di E o semplicemente la probabilit`a di
E, e che soddisfa i seguenti assiomi
(0) (positivit`a) P(E) 0 per ogni E T,
(i) (normalizzazione) P() = 1,
(ii) (-addittivit`a) Se E
i
`e una famiglia numerabile di eventi mutuamente esclusivi
P(
i
E
i
) =

i
P(E
i
).
(b.) Conseguenze elementari degli assiomi (dimostrate in classe)
(1.) P(E
c
) = 1 P(E).
9
(2.) P() = 0, (corollario di (1.)).
(3.) E F implica P(E) P(F), (monotonia della misura P).
(4.) P(E) [0, 1] per ogni E T, (corollario di (3.)).
(5.) P(E F) = P(E) +P(F) P(E F), (formula di inclusione/esclusione).
(6.) P(E F) P(E) +P(F), (subaddittivit`a di P).
(7.) P (
i
E
i
)

i
P(E
i
), (subaddittivit`a numerabile).
(8.) P(E F G) = P(E) +P(F E) +P(G (E F)), (decomposizione disgiunta).
(9.) P(E F G) = P(E) +P(F) +P(G)
P(E F) P(E G) P(F G)
+P(E F G).
(alternativa alla (7.) questa `e la formula di inclusione /esclusione, dimostrata scrivendo
P(E F G) = P((E F) G) ed usando la (4.)).
(10.) P(E F G H) = P(E) +P(F) +P(G) +P(H)
P(E F) P(E G) P(E H) P(F G) P(F H) P(G H)
+P(E F G) +P(E F H) +P(E G H) +P(F G H)
P(E F G H),
(formula di inclusione /esclusione per pi` u di tre eventi - senza dimostrazione).
(11.) P(EF) = P(E) +P(F) 2P(E F), (esercizio).
(c.) Non unicit`a di P
Losservazione chiave `e che gli assiomi non determinano P univocamente. Abbiamo visto
lesempio della moneta, con = C, T, T = P(). La misura di probabilit`a P non `e
univocamente determinata: ce ne sono innite compatibili con gli assiomi, ognuna di esse
`e completamente specicata dal numero p [0, 1] dove P(T) = p. Ben lungi dallessere
una limitazione, la libert`a di scelta di p consente, nellesempio concreto, di modellare
qualunque moneta.
10
Lezione 3 (Mercoled`, 6 marzo 2013, ore 16:25-18:10)
3.1 Possibili scelte di P Misura empirica
Quando si costruisce uno spazio di probabilit`a o = (, T, P) per modellare un esperimen-
to, la scelta di e di T di solito non pone problemi, ma come visto nellesempio della
moneta, gli assiomi non specicano P univocamente. La Statistica si occupa della scelta
ottimale di P allo scopo di modellare un dato esperimento. Tempo permettendo daremo
qualche cenno di Statistica verso la ne del corso. Qui diamo alcuni esempi di possibili
scelte di P, iniziando dalla cosiddetta misura empirica.
Si supponga che lesperimento che si vuole modellare sia ripetibile pi` u volte in condizioni
analoghe. La misura empirica si costruisce come segue. Si eettua lesperimento n volte,
registrando la sequenza
1
,
2
, . . .
n
degli esiti osservati. Per ogni evento E T sia n
E
,
la frequenza di E, il numero di volte che si verica E nelle n prove, ovvero il numero di
esiti
i
tali che
i
E per i = 1, 2, . . . n.
Denizione (misura empirica).
P
n
(E) :=
n
E
n
, per ogni E T
P
n
(E) `e la frequenza relativa di E, ovvero la percentuale di volte in cui E si verica.
Lemma. P
n
`e una misura di probabilit`a.
Dimostrazione. Lassioma (0) `e soddisfatto banalmente. Lassioma (i) `e soddisfatto poiche
n

= n. Lassioma (ii) richiede che se E F = allora P


n
(E F) = P
n
(E) + P
n
(F),
ma per eventi E ed F disgiunti, n
EF
= n
E
+ n
F
, da cui discende laddittivit`a di P
n
.
Allo stesso modo, per famiglie numerabili E
i
di eventi disgiunti, n

i
E
i
=

i
n
E
i
, da cui
discende la -addittivit`a di P
n
.
Esempio 1. Lancio di una moneta. = C, T, T = P(). La misura di probabilit`a
`e completamente specicata assegnando p = P(T). Per costruire la misura empirica
lanciamo la moneta ad esempio n = 12 volte e siano T, T, C, C, C, T, T, T, T, T, T, T gli
esiti. Allora p := P
12
(T) =
9
12
= 0.75. Peraltro limitandosi alle prime 10 prove P
10
(T) =
7
10
= 0.7. Intuitivamente, se la moneta `e equilibrata, lim
n
P
n
(T) = 0.5.
Esempio 2. Lancio di un dado. = 1, 2, 3, 4, 5, 6, T = P(). Si lancia il dado n = 15
volte e gli esiti osservati sono 1, 3, 2, 3, 5, 4, 3, 4, 3, 5, 3, 2, 1, 5, 2. In questo caso P
15
(3) =
5
15
. Si determinino P
15
(esce faccia pari) e P
15
(6).
Esempio 3. Scelta casuale di un punto in [0, 1]. Per costruire la misura empirica si pu`o
pensare che il tenente Colombo si rechi al poligono di tiro e spari n volte al bersaglio, linter-
vallo [0, 1], ogni volta chiudendo gli occhi. Se E [0, 1] la misura empirica `e P
n
(E) :=
n
E
n
,
dove n
E
`e il numero di volte che Colombo colpisce un punto in E. Intuitivamente, se
Colombo spara a caso, lim
n
P
n
([a, b]) = b a per ogni [a, b] [0, 1].
Esercizio. I dati di unindagine di mercato sono: al 70% dei ragazzi piace la Coca, al 50%
piace la Pepsi, al 20% non piacciono ne Coca ne Pepsi. Calcolare la percentuale di ragazzi
a cui piace almeno una delle due bevande e quella dei ragazzi a cui piacciono entrambe.
Soluzione. Interpretando le percentuali come probabilit`a empiriche i dati sono P(Coca) =
0.7, P(Pepsi) = 0.5, P(Coca
c
Pepsi
c
) = 0.2. Le probabilit`a richieste sono
P(Coca Pepsi) = P((Coca
c
Pepsi
c
)
c
) = 1 0.2 = 0.8
P(Coca Pepsi) = P(Coca) +P(Pepsi) P(Coca Pepsi) = 0.7 + 0.5 0.8 = 0.4
11
Interpretazione frequentista della probabilit`a.
Linterpretazione delle probabilit`a di eventi come frequenze relative, o percentuali, `e molto
comune negli studi osservazionali di tipo economico, epidemiologico, sociale, biologico,
ecc. La misura empirica P
n
presenta per`o evidenti difetti. In particolare, per un ssato
evento E, la probabilit`a empirica P
n
(E) dipende da n e dalla specica sequenza di esiti
osservati,
1
,
2
, . . .
n
. La dipendenza di P
n
dai risultati delle prove ripetute `e giusto che
ci sia visto che P
n
deve modellare lesperimento, ma la dipendenza da n `e molto scomoda.
Nellesempio 1, la dipendenza da n comporta che non si riesca ad associare un unico valore
a p, la probabilit`a di Testa della moneta. Per ovviare a questo inconveniente i frequentisti si
arrampicano sugli specchi nel tentativo di sostituire P
n
(E) con lim
n
P
n
(E), ma si tratta
di discorsi piuttosto vaghi, solo apparentemente supportati da un teorema fondamentale
del calcolo della probabilit`a, la legge dei grandi numeri, che vedremo pi` u avanti.
3.2 Possibili scelte di P Caso di discreto
Consideriamo ora il caso di spazi di probabilit`a o = (, T, P) dove [[ [N[. (ricordo
che [E[ denota la cardinalit`a di E). Questo `e il cosiddetto caso discreto a cui ci atterremo
nela prima parte del corso. Si possono presentare due casi: =
1
,
2
, . . .
N
ovvero
di cardinalit`a [[ = N nita, oppure =
1
,
2
. . . con [[ = [N[. In entrambi questi
casi, senza perdita di generalit`a, prenderemo sempre T := P(). Negli spazi di probabilit`a
discreti la misura P `e completamente specicata dai valori sui singleton: conoscere P(
i
)
per ogni
i
permette di calcolare P(E) per ogni E T. Infatti la -addittivit`a
comporta che
P(E) =

i
E
P(
i
) (1)
Osservazione 1. La numerabilit`a di `e fondamentale per la validit`a dellequazione 1.
Osservazione 2. Diciamo p
i
:= P(
i
). Allora, se [[ = N basta assegnare N 1 dei
valori p
1
, . . . p
N
(perche?).
Osservazione 3. Se [[ = [N[, il vincolo

i=1
p
i
= 1 impone la convergenza della serie.
Quindi, ad esempio, `e impossibile per = N avere misure di probabilit`a del tipo P(i) =
c
i
mentre `e possibile avere P(i) =
c
i
2
. Quanto deve valere in questo caso? (
`
E necessario
conoscere la teoria della convergenza della serie di Fourier per rispondere).
3.3 Possibili scelte di P Caso di nito con esiti equiprobabili
Se =
1
,
2
, . . .
N
ha cardinalit`a nita N, allora `e possibile scegliere la misura P che
assegna la stessa probabilit`a a tutti gli esiti elementari, ovvero P(
i
) =
1
[[
=
1
N
per
ogni i = 1, 2, . . . N (caso equiprobabile). Se P `e equiprobabile allora, per ogni E T,
P(E) =

i
E
P(
i
) =
[E[
[[
,
formula che nei testi elementari `e spesso scritta come
P(E) =
numero dei casi favorevoli
numero dei casi totali
.
Benche sia tecnicamente sempre possibile prendere P equiprobabile quando ha car-
dinalit`a nita, non `e detto che si tratti di una buona scelta per modellare un dato
esperimento.
Controesempio. Sia = 0, 1, 2, 3 dove gli esiti elementari rappresentano il numero di
Teste in tre lanci consecutivi di una moneta. In questo caso la misura equiprobabile urta
12
contro la nostra intuizione. Su tre lanci di una moneta `e pi` u facile osservare una Testa
piuttosto che tre Teste o nessuna Testa. Se si vuole usare P come modello dellesperimento
che consiste in tre lanci consecutivi di una normale moneta lassegnazione equiprobabile
P(i) =
1
4
per i = 0, 1, 2, 3 non ha molto senso.
Esempio. Sia = TTT, TTC, TCT, CTT, TCC, CTC, CCT, CCC dove gli esiti elemen-
tari rappresentano le possibili sequenze di risultati di tre lanci di una moneta. In questo
caso `e ragionevole prendere la P equiprobabile: P(
i
) =
1
8
per ogni i = 1, . . . 8 (sono 8 gli
esiti elementari). Se E
k
= escono k teste in 3 lanci per k = 0, 1, 2, 3 abbiamo calcolato
P(E
0
) = P(E
3
) =
1
8
e P(E
1
) = P(E
2
) =
3
8
. Lo stesso si pu`o fare se si considera lo spazio
relativo a diciamo 50 lanci di una moneta. Sia E
34
levento escono 34 teste su 50 lanci
della moneta. Quanto vale P(E
34
)? In teoria `e facile
P(E
34
) =
[E
34
[
[[
,
ma il calcolo delle cardinalit`a di insiemi niti non `e sempre agevole. Questo motiva la
breve digressione sulla combinatoria elementare.
3.4 Combinatoria elementare I
Principio fondamentale del conteggio.
Motivazione. Ricordate lesempio fatto in classe dellarmadio con dentro 4 camicie, 3
pantaloni e 2 paia di scarpe. In quanti modi diversi posso vestirmi? Se gli abbinamenti di
vestiario non hanno rilevanza (maschi) 4 3 2 = 24 modi. Se gli abbinamenti di vestiario
limitano le scelte (femmine) allora il principio fondamentale non si applica. Pi` u in generale
si conta come segue.
Il principio. Si eettuano r esperimenti. Il primo ha n
1
risultati possibili. Qualunque sia
lesito del primo esperimento il secondo esperimento ha sempre lo stesso numero n
2
di
possibili risultati, e cos` via no alla condizione che, qualunque sia il risultato dell(r 1)-
esimo esperimento, lr-esimo esperimento ha sempre n
r
esiti possibili. Si supponga anche
che esiti diversi degli r esperimenti producano sequenze distinguibili. Sotto queste ipotesi
il numero di possibili esiti degli r esperimenti condotti in sequenza `e
n
1
n
2
. . . n
r
Esempi elementari di conteggio. In classe abbiamo visto alcuni esempi: targhe automobilis-
tiche, schedine del totocalcio, corsa campestre.
Problemi di conteggio I
Discussione dei due paradigmi: del campionamento e dellallocazione. Tutta la terminolo-
gia ed i possibili problemi di conteggio che ho elencato a lezione li potete rivedere con
calma nellappendice a queste note.
Esempio 1. Numero delle schedine del totocalcio. Si tratta di contare le disposizioni con
ripetizione di n = 3 oggetti (i simboli 1, X, 2), presi k = 13 alla volta (le 13 partite).
Il numero di schedine `e n
k
= 3
13
, applicando il principio fondamentale del conteggio.
Abbiamo visto le due interpretazioni, come problema di campionamento e come problema
di allocazione.
Esempio 2. Numero di possibili terne di vincitori di medaglia ad una corsa campestre cui
partecipano 10 corridori. Si tratta di contare le disposizioni senza ripetizione di n = 10
oggetti (i corridori) presi k = 3 alla volta (oro, argento, bronzo). Usando il principio
fondamentale del conteggio, il numero di possibili podii `e n (n 1) (n 2)
(n k + 1) = 10 9 8. Abbiamo visto le due interpretazioni, come problema di
campionamento e di allocazione.
13
Appendice alla Lezione 3
Problemi di campionamento e di allocazione
A3.1 Introduzione
I problemi di conteggio sono dicilmente categorizzabili in tipologie standard ed ognuno
di essi va trattato nella sua peculiarit`a. Esistono tuttavia alcuni punti di vista generali
che possono aiutare nellimpostazione delle soluzioni. In questa sezione presentiamo due
elementari paradigmi del conteggio, campionamento ed allocazione.
Un problema di campionamento si modella con unurna contenente n palline, distin-
guibili (ad esempio numerate da 1 a n) o distinguibili a gruppi (ad esempio n palline di
m < n colori diversi). Vengono eettuate k estrazioni, ed annotato il risultato di ogni
estrazione. Le estrazioni possono essere con o senza reinserimento nellurna della pallina
appena estratta, prima di passare allestrazione successiva. Interessa contare quante sono
le possibili sequenze di estrazioni. Si pu`o contare in due modi. Se si tiene in consider-
azione lordine di estrazione si dice che si stanno contando le disposizioni : 1, 2 e 2, 1 sono
due disposizioni diverse. Se non si tiene in considerazione lordine si dice che si stanno
contando le combinazioni : 1, 2 e 2, 1 sono la stessa combinazione.
Nei problemi di allocazione il modello consiste in un insieme di scatole (celle) distinte
ed in un certo numero di gettoni, che possono essere distinguibili o identici tra loro.
I gettoni vanno inseriti (allocati) nelle scatole. Il riempimento delle scatole pu`o essere
libero, o soggetto a vincoli. Nel caso libero ogni scatola pu`o contenere qualunque numero
di gettoni, 0 compreso. Vincoli tipici sono: al pi` u 1 gettone (cio`e 0 o 1) per scatola, oppure
un numero preassegnato di gettoni in ogni scatola. Interessa contare il numero di possibili
allocazioni di gettoni nelle scatole.
La nota `e organizzata in modo da mettere in evidenza, attraverso un numero romano,
la corrispondenza tra problemi di campionamento e di allocazione. Per mostrare come
passare da un paradigma allaltro nellimpostazione di un problema di conteggio illustr-
eremo i due punti di vista con lo stesso esempio. Nei problemi di conteggio concreti,
solitamente pi` u complessi, `e per`o spesso naturale impostare il conteggio usando sfecica-
mente uno dei due paradigmi, quindi `e utile conoscerli entrambi. In realt`a il paradigma
dellallocazione permette di trattare, in modo abbastanza semplice, anche complicati vin-
coli di riempimento delle scatole che si tradurrebbero in problemi di campionamento molto
articiali.
La nota `e in buona parte basata sul capitolo 3 dellottimo libro di K.L. Chung,
Elementary probability theory with stochastic processes, Springer 1974.
A3.2 Problemi di campionamento
Elenchiamo di seguito i quattro tipici problemi di campionamento, ed alcune varianti.
Campionamento I
n palline distinte nellurna (ad esempio numerate da 1 a n)
k estrazioni con reinserimento (n e k liberi)
Problema: contare le disposizioni
Soluzione. n
k
14
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e reinserisco la pallina nellurna. Alla seconda estrazione ho ancora n possibili
risultati dellestrazione e cos` via no alla k-esima estrazione. Per il principio del conteggio
il numero di disposizioni `e n
k
.
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Totocalcio
3
: contare il numero di schedine giocabili. Una giocata si modella
con unurna contenente n = 3 palline 1, X, 2, dalla quale si estrae k = 13 volte, con rein-
serimento. Ad ogni disposizione delle palline estratte corrisponde una schedina giocabile.
Soluzione: n
k
= 3
13
.
Campionamento II
n palline distinte nellurna (ad esempio numerate da 1 a n)
k estrazioni senza reinserimento (quindi k n)
Problema: contare le disposizioni
Soluzione. D(n, k) := n (n 1) (n k + 1)
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e butto la pallina. Rimangono n 1 palline nellurna, vi sono quindi n 1
risultati possibili per la seconda estrazione, cos` via no alla k-esima estrazione per la
quale sono possibili n k +1 (attenzione al +1) risultati. Per il principio del conteggio il
numero di disposizioni `e n(n 1) . . . (n k + 1), per comodit`a denotato D(n, k).
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Corsa campestre, partecipano 10 atleti. In quanti modi diversi possono essere
assegnate le 3 medaglie doro, dargento e di bronzo? Lurna contiene n = 10 palline
distinguibili (gli atleti), e si eettuano k = 3 estrazioni senza reinserimento. Contare le
risultanti disposizioni signica contare i possibili ordini di arrivo dei primi 3. Soluzione:
n (n 1) (n k + 1) = 10 9 8.
Campionamento IIa

`
E il caso II con k = n. Le disposizioni con k = n si dicono permutazioni.
Soluzione. n! := D(n, n) = n (n 1) 2 1
Spiegazione. Come per il caso II, procedendo no ad k = n. Si noti che n! = D(n, n).
Esempio. Anagrammi della parola MILANO. Lurna contiene n = 6 palline distinguibili (le
lettere A, I, L, M, N, O) che vengono estratte, senza reinserimento, no a vuotare lur-
na. Ad ogni disposizione delle palline corrisponde uno dei possibili anagrammi. Soluzione:
n! = 6!. Questo conteggio degli anagrammi `e corretto solo se la parola da anagrammare
contiene lettere distinte, vedi il caso IIIa.
3
Il Totocalcio `e un gioco a scommessa legalizzato in cui si devono pronosticare i risultati di un certo
numero di partite di calcio, classicamente 13. Le 13 partite sono stampate su una schedina e il giocatore
indica il suo pronostico, per ognuna delle partite, usando tre simboli 1, X, 2. Ad esempio, per la partita
Milan-Inter, il simbolo 1 pronostica la vittoria del Milan, X il pareggio, 2 la vittoria dellInter.
15
Campionamento III
n palline distinte nellurna (ad esempio numerate da 1 a n)
k estrazioni senza reinserimento (quindi k n)
Problema: contare le combinazioni
Soluzione.
_
n
k
_
:=
D(n, k)
k!
=
n (n 1) (n k + 1)
k!
Spiegazione. Analogo al caso II, ma si devono contare le combinazioni. Per contare il
numero di combinazioni, diciamolo C(n, k), basta osservare che le k! permutazioni di ogni
ssata disposizione producono tutte la stessa combinazione, quindi C(n, k) D(k, k) =
D(n, k). Si ricava C(n, k) = D(n, k)/D(k, k). Il numero C(n, k) si dice coeciente
binomiale n su k, pi` u spesso denotato
_
n
k
_
.
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Gioco del lotto. Ogni settimana a Venezia vengono estratte k = 5 palline, una
cinquina, da unurna contenente n = 90 palline distinguibili, numerate da 1 a 90. Nel
gioco del lotto si scommette sulla combinazione estratta. Contare quante sono le possibili
cinquine. Soluzione:
_
n
k
_
=
_
90
5
_
=
9089888786
54321
.
Campionamento IIIa
n palline nellurna, di m colori diversi, k
1
di colore 1, . . . , k
m
di colore m, con
k
1
+k
2
+ +k
m
= n. Le palline dello stesso colore sono identiche.
k = n estrazioni senza reinserimento (si estraggono tutte le palline)
Problema: contare le disposizioni distinguibili
Soluzione.
_
n
k
1
, k
2
, . . . , k
m
_
:=
n!
k
1
! k
2
! k
m
!
Spiegazione
`
E una miscela dei casi IIa e III. Per capire la soluzione si pensi, inizialmente,
di numerare da 1 a k
i
le palline di colore i-esimo, 1 i m. Le palline sono ora tutte
distinguibili, grazie a colore e numero, quindi, caso IIa, le disposizioni sono (k
1
+ +k
m
)! =
n!. Poich`e nella formulazione del problema le palline dello stesso colore sono indistinguibili,
per ogni colore i le k
i
! permutazioni delle palline di quel colore danno luogo alla stessa
disposizione. Per il principio di conteggio, il numero totale di permutazioni che danno luogo
alla stessa disposizione, una volta cancellati i numeri dalle palline, `e k
1
! k
2
! . . . k
m
!.
Il numero di disposizioni distinguibili si ottiene dividendo n! per k
1
! k
2
! . . . k
m
!. Il
numero
n!
k
1
!k
2
!k
m
!
si dice coeciente multinomiale n su k
1
, . . . k
m
, denotato
_
n
k
1
,k
2
,...,k
m
_
.
Vericare che il caso m = 2 si riduce, notazione a parte, allusuale coeciente binomiale.
Esempio. Anagrammi della parola MISSISSIPPI. Lurna contiene n = 11 palline di
m = 4 colori, M,I,S,P, con k
M
= 1, k
I
= 4, k
S
= 4, k
P
= 2. Il numero degli anagrammi
non `e 11!, come per il caso II, poich`e la presenza di lettere ripetute rende alcune parole
indistinguibili tra loro. Per quanto visto il numero degli anagrammi `e:
_
n
k
M
,k
I
,k
S
,k
P
_
=
_
11
1,4,4,2
_
=
11!
1!4!4!2!
.
16
Campionamento IV
n palline distinte nellurna (ad esempio numerate da 1 a n)
k estrazioni con reinserimento (n e k liberi)
Problema: contare le combinazioni
Soluzione.
_
n +k 1
k
_
Spiegazione. Si potrebbe (s)ragionare come segue. La situazione `e analoga a quella del
caso I, ma invece che alle disposizioni siamo ora interessati alle combinazioni. Applicando
il trucco gi`a usato nel caso III per passare dalle disposizioni alle combinazioni, la soluzione
`e n
k
/k!. Questo ragionamento `e sbagliato. Per n = 3, k = 2 fornisce 3
2
/2! = 4.5, che `e
imbarazzante come numero di combinazioni! Quando non si viene a capo di un problema
di conteggio pu`o essere utile analizzare esaustivamente un caso con n ed k piccoli e poi
generalizzare. Proviamo dunque con n = 3, k = 4. Nellurna ci sono 3 palline numerate
1, 2, 3. Elenchiamo tutti i possibili risultati di k = 4 estrazioni, eliminando manualmente
tutte le disposizioni che danno luogo alla stessa combinazione. Le 15 combinazioni possibili
sono riportate, in ordine lessicograco, nella prima colonna della seguente tabella.
1 2 3
1111 [[
1112 [[
1113 [[
1122 [[
1123 [[
1133 [[
1222 [[
1223 [[
1233 [[
1333 [[
2222 [[
2223 [[
2233 [[
2333 [[
3333 [[
Le tre colonne successive contengono segni di spunta che forniscono la stessa infor-
mazione della prima colonna, indicando il numero di palline 1, 2 e 3 presenti in ogni
possibile combinazione. La quinta colonna contiene, in forma simbolica, le stesse infor-
mazioni delle tre colonne precedenti. Le barre verticali servono ad individuare a quale
pallina si riferiscono i segni di spunta. Poich`e ci sono 3 palline, sono necessarie 2 barre
verticali. I segni di spunta a sinistra della prima barra verticale dicono il numero di palline
1 nella combinazione. I segni di spunta tra le due barre verticali dicono il numero di palline
2 e quelli a destra della seconda barra indicano il numero di palline 3. Ad esempio il sim-
bolo [[corrisponde alla combinazione 1223, il simbolo [[alla 2233, mentre
[[corrisponde alla 1333. Il caso IV si pu`o allora ridurre al caso IIIa, ovvero abbi-
amo una nuova urna contenente 4 + 2 palline, di cui 4 sono marcate e 2 sono marcate
[. Il numero di possibili permutazioni distinguibili vale allora
6!
3!2!
. Nel caso generale di
n palline ed r estrazioni saranno necessari r segni di spunta ed n 1 barre verticali per
rappresentare simbolicamente tutte le possibili combinazioni, e la soluzione sar`a
(n1+r)!
r!(n1)!
.
`
E banale vericare che questo numero coincide con quello dato nellenunciato.
17
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Lancio 3 dadi identici. Quante sono le possibili combinazioni osservabili?
In questo caso modelliamo con unurna contenente n = 6 palline (numerate da 1 a 6)
e contiamo le possibili combinazioni di k = 3 estrazioni con reinserimento, poich`e ogni
dado pu`o mostrare una qualunque faccia, indipendente dal risultato degli altri due. Le
combinazioni osservabili sono
_
n+k1
k
_
=
_
8
3
_
.
A3.3 Problemi di allocazione
Elenchiamo di seguito i quattro tipici problemi di allocazione, ed alcune varianti. Gli
esempi sono gli stessi del paragrafo precedente per mettere in evidenza la corrispondenza
con lanalogo modello di campionamento.
In ognuno dei problemi di allocazione si dispone di un certo numero di scatole distinte e di
voler contare il numero di allocazioni dei gettoni nelle scatole, secondo le speciche fornite
caso per caso.
Allocazione I
n scatole distinte e k gettoni distinguibili da allocare
nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni)
Soluzione. n
k
Spiegazione. Il primo gettone si pu`o inserire in una qualunque delle n scatole. Lo stesso
vale per il secondo e per tutti gli altri gettoni poich`e non vi sono vincoli di riempimento.
Applicando il principio di moltiplicazione si ottiene il risultato.
Esempio. Totocalcio, come per Campionamento I. Si modella con n = 3 scatole (con-
trassegnate 1, X, 2), e k = 13 gettoni distinguibili, numerati da 1 a 13, le partite di cui
si deve pronosticare il risultato. Ogni allocazione dei gettoni nelle scatole corrisponde ad
una giocata possibile.
Allocazione II
n scatole distinte ed k gettoni distinguibili da allocare
ogni scatola pu`o contenere 0 o 1 gettoni
Soluzione. n (n 1) (n k + 1) := P(n, k)
Spiegazione. Il primo gettone si pu`o collocare in una qualunque delle n scatole, il secondo
in una delle rimanenti n 1 ecc. no al k-esimo gettone che pu`o essere collocato in una
qualunque delle rimanenti n k + 1 scatole. Per il principio di moltiplicazione il numero
totale di allocazioni `e n(n 1) . . . (n k + 1).
Esempio. Corsa campestre, come per Campionamento II. Questo caso si modella con
n = 10 scatole, contrassegnate con i nomi dei 10 atleti, e k = 3 gettoni (contrassegnati
1, 2, 3). Ogni allocazione dei gettoni nelle scatole rappresenta una possibile terna ordinata
di vincitori.
18
Allocazione IIa

`
E il caso precedente per n = k. In questo caso, terminata lallocazione, ogni scatola
conterr`a esattamente 1 gettone.
Soluzione. n!
Spiegazione. Come per il caso precedente.
Esempio. Anagrammi della parola MILANO, come per campionamento IIa. Le scatole sono
n = 6, contrassegnate 1, 2, 3, 4, 5, 6, e rappresentano le posizioni delle lettere nella parola
che si andr`a a comporre. I gettoni sono k = n = 6, contrassegnati A, I, L, M, N, O e
rappresentano le lettere a disposizione.
Allocazione III
n scatole disitinte e k gettoni identici da allocare
ogni scatola pu`o contenere 0 o 1 gettoni
Soluzione.
n (n 1) (n k + 1)
k!
=
_
n
k
_
Spiegazione. Analogo al caso II appena visto. Poich`e i gettoni sono indistinguibili si
devono contare le combinazioni, ovvero dividere P(n, k) per P(k, k) come si era fatto per
il corrispondente caso del campionamento.
Esempio. Gioco del Lotto, come per campionamento III. Il modello di allocazione consiste
di n = 90 scatole (contrassegnate da 1 a 90) e di k = 5 gettoni identici, con vincolo di
allocazione 0 or 1 gettoni in ogni scatola. Chiaramente questo `e un caso per il quale il
modello del campionamento `e molto pi` u naturale.
Allocazione IIIa
m scatole distinte ed n gettoni distinguibili da allocare
la scatola i deve contenere esattamente k
i
gettoni, con

m
i=1
k
i
= n.
Soluzione.
n!
k
1
!k
2
! . . . k
m
!
=:
_
n
k
1
, k
2
, . . . k
m
_
Spiegazione. Si tratta di una miscela dei casi IIa e III appena visti. Per riempire la prima
scatola si devono scegliere k
1
gettoni da n, cosa che si pu`o fare in
_
n
k
1
_
modi (perch`e?), per
riempire la seonda scatola si devono scegliere k
2
gettoni dai rimanenti nk
1
gettoni, cosa
che si pu`o fare in
_
nk
1
k
2
_
modi, per la terza ci sono
_
nk
1
k
2
k
3
_
possibili scelte di gettoni ecc.
Per il principio di moltiplicazione il numero di modi possibili `e
_
n
k
1
__
n k
1
k
2
__
n k
1
k
2
k
3
_
...
_
n k
1
k
2
. . . k
m1
k
m
_
=
_
n
k
1
, k
2
, . . . k
m
_
Vericate algebricamente questa identit`a, ad esempio per m = 3.
Esempio. Anagrammi della parola MISSISSIPPI, come per campionamento IIIa. Il
modello di allocazione consiste di m = 4 scatole, contrassegnate M,I,S,P, e di n = 11
gettoni, contrassegnati 1, 2, . . . 11. I gettoni corrispondono alle posizioni delle lettere nella
parola che si andr`a a comporre. Ad ogni allocazione corrisponde uno degli anagrammi
distinguibuibili.
19
Allocazione IV
n scatole distinte e k gettoni identitici da allocare
nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni)
Soluzione.
_
n +k 1
k
_
Spiegazione. Guardate con attenzione lultima colonna della tabella del Campionamento
IV.
`
E una vivida rappresentazione delle possibili allocazioni dei gettoni nelle scatole: le
barre verticali consentono di individuare le scatole distinte, i segni di spunta sono i gettoni.
In eetti questo `e un problema che `e pi` u naturale impostare usando il modello della
allocazione.
Esempio. Lancio 3 dadi identici, come per campionamento IV. Quante sono le possibili
combinazioni osservabili? Nel paradigma della allocazione modelliamo con n = 6 scatole,
contrassegnate 1, 2, 3, 4, 5, 6, e con r = 3 gettoni contrassegnati Lancio1, Lancio2, Lancio3.
Nota nale. Dovrebbe essere a questo punto chiaro il meccanismo di passaggio tra i
paradigmi del campionamento e dellallocazione. Il numero di palline distinte, n, o il
numero di gruppi distinti di palline m corrisponde al numero di scatole. Il numero di
estrazioni corrisponde al numero di gettoni. Le estrazioni senza reinserimento si tra-
ducono nel vincolo di riempimento 0 o 1 gettone per scatola, mentre se si reinseriscono le
palline nellurna nel campionamento allora non ci sono vincoli di riempimento nelle sca-
tole. Ordine di estrazione rilevante nel campionamento corrisponde a gettoni distinguibili
nellallocazione. Viceversa, ordine di estrazione irrilevante corrisponde a gettoni identici
nel paradigma dellallocazione.
20
Lezione 4 (Luned`, 11 marzo 2013, ore 10:30-13:15)
4.1 Combinatoria elementare II
Qui sotto rivediamo la terminologia tradizionalmente associata ai problemi di conteggio
elementari.
(a.) le disposizioni con ripetizione di n oggetti distinti presi k alla volta sono n
k
. Esempio
1. Scrivere una schedina del totocalcio consiste nel prendere n = 3 oggetti (1, X, 2), a
gruppo di k = 13. Allora 3
1
3 `e il numero di possibili schedine. Esempio 2. Il numero
di sottoinsiemi di un insieme di n elementi `e 2
n
. Infatti per individuare un sottoinsieme
possiamo usare una stringa di n bit, associando ad ogni bit della stringa un elemento
dellinsieme. Gli 1 della stringa indicano gli elementi che appartengono al sottoinsieme,
gli 0 indicano gli elementi esclusi. Il numero totale di stringhe binarie di n bit `e 2
n
.
(b.) le disposizioni senza ripetizione di n oggetti distinti presi k alla volta sono n(n
1) (n k +1). Esempio. In una corsa campestre con n = 10 atleti, il numero di ordini
di arrivo dei primi k = 3 (cio`e quanti podii sono possibili) `e 10 9 8.
(b1.) nel caso particolare n = k le disposizioni senza ripetizione vengono dette permu-
tazioni Esempio. Gli anagrammi della parola BRENTA sono 6!. Attenzione per`o, questo
conteggio `e corretto perche le lettere di BRENTA sono distinte.
(c.) le combinazioni senza ripetizione di n oggetti distinti presi k alla volta sono
_
n
k
_
=
n(n1)(nk+1)
k!
. Esempio. Numero delle cinquine nel gioco del lotto
_
90
5
_
. (vedi appendice
alla Lezione 3 per la descrizione).
`
E importante capire questo conteggio sia dal punto di
vista del campionamento che dellallocazione. Di seguito diamo un esempio di problema
la cui soluzione `e ancora
_
n
k
_
, e che si imposta naturalmente come problema di allocazione.
Esempio. Il numero di sottoinsiemi di cardinalit`a k di un insieme di cardinalit`a n `e pari
a
_
n
k
_
. Pensate di avere n celle (gli elementi dellinsieme) e di dover disporre k gettoni
indistinguibili nelle celle al pi` u uno in ogni cella. Ogni congurazione di gettoni individua
univocamente un sottoinsieme e le allocazioni sono
_
n
k
_
.
(d.) un esempio misto `e quello delle permutazioni con elementi ripetuti che illustriamo
con due esempi. Esempio 1. Unurna contiene n palline, di m colori diversi, k
1
del colore
1, . . . k
m
del colore m, con k
!
+ k
2
+ . . . k
m
= n. Si estraggono, senza reinserimento,
tutte le palline dallurna. Il numero di disposizioni distinguibili `e
_
n
k
1
,k
2
,...k
m
_
:=
n!
k
1
!k
2
!...k
m
!
.
Esempio 2. Contare gli anagrammi della parola MISSISSIPPI. Le lettere sono 11, di 4 tipi
diversi, 1 M, 4 I, 4 S, 2P, gli anagrammi sono
11!
4!4!2!
.
`
E interessante osservare che
_
n
k
1
, k
2
, . . . k
m
_
=
_
n
k
1
__
n k
1
k
2
_
. . .
_
n k
1
k
2
k
m1
k
m
_
come appare chiaro impostando il conteggio come problema di allocazione. Come caso
particolare, se m = 2, ponendo k
1
= k, k
2
= n k, risulta
_
n
k
1
,k
2
_
=
_
n
k
_
.
(e.) le combinazioni con ripetizione di n oggetti distinti presi k alla volta. Non trattato a
lezione, si veda lappendice alla Lezione 3.
4.2 Propriet`a dei coecienti binomiali
I numeri
_
n
k
_
:=
n!
k!(nk)!
, per n 0 e k = 0, 1, . . . n sono detti coecienti binomiali.
_
n
k
_
si
legge n su k, oppure n binomiale k. Per convenzione 0! = 1 quindi
_
n
0
_
=
_
n
n
_
= 1 per ogni
n 0.
21
(a.) Il coeciente binomiale `e cos` detto poiche interviene nello sviluppo della potenza del
binomio
(a +b)
n
=
n

k=0
_
n
k
_
a
k
b
nk
. (1)
La dimostrazione combinatoria `e immediata:
(a +b)
n
= (a +b)(a +b) (a +b)
. .
n volte
.
Il prodotto degli n fattori (a + b) consiste di addendi del tipo a
k
b
nk
, per k = 0, 1, . . . n,
ognuno dei quali corrisponde a scegliere k volte a ed n k volte b negli n fattori (a + b).
Per un dato k = 0, 1, . . . n il numero di modi in cui si pu`o scegliere k volte a `e
_
n
k
_
quindi
il numero di addendi del tipo a
k
b
nk
`e
_
n
k
_
, il che dimostra la formula (1).
(b.) Ponendo a = b = 1 nello sviluppo della potenza del binomio si ha
2
n
=
n

k=0
_
n
k
_
.
Questa identit`a ha una semplice interpretazione combinatoria. Il numero totale di sottoin-
siemi di un insieme di n elementi, 2
n
, `e la somma del numero di sottoinsiemi a k elementi,
k = 0, 1, . . . n.
(c.)
_
n
k
_
=
_
n
nk
_
, infatti ogni sottoinsieme `e in corrispondenza biunivoca con il suo
complementare.
(d.)
_
n
k
_
=
_
n1
k
_
+
_
n1
k1
_
, per n 2 e k = 0, 1, . . . n. Per dimostrare combinatorialmente
la validit`a di questa relazione di ricorrenza (in Segnali e Sistemi la chiamerete equazione
alle dierenze) si pu`o ragionare cos`: il numero di sottoinsiemi di k elementi di un insieme
dato di n elementi si pu`o trovare ssando un elemento arbitrario
1
e poi sommando
_
n1
k1
_
, numero di sottoinsiemi di k elementi di che contengono
1
, a
_
n1
k
_
, numero di
sottoinsiemi di k elementi di che non contengono
1
. Valgono inoltre le condizioni
al contorno
_
n
0
_
= 1, per n 0. Lequazione alle dierenze, insieme alle condizioni al
contorno, deniscono un algoritmo per generare i coecienti binomiali, comunemente noto
come triangolo di Tartaglia, nel resto del mondo noto come triangolo di Pascal. Come
esercizio, vericate algebricamente che i coecienti binomiali vericano lequazione alle
dierenze e le condizioni al contorno.
(e.) Interpretazione di Gyorgy Polya dei coecienti binomiali. Si consideri il grafo di
gura. Ogni nodo del grafo `e individuato dalle coordinate (generazione, shift), in gura
sono ad esempio evidenziati i punti (4, 1), (4, 2), (5, 2). Il grafo si pu`o percorrere ma
i cammini permessi sono solo quelli che partono dalla radice (0, 0) e ad ogni passo si
spostano di una generazione in basso sul grafo, verso destra o verso sinistra. Dal punto
(n, k) ci si pu`o cio`e spostare solo verso i punti (n + 1, k) ed (n + 1, k + 1), con le ovvie
attenzioni agli indici quando si `e vicini al bordo. Indicando con #(n, k) il numero di
cammini che dallorogine (0, 0) conducono al nodo (n, k) `e facile dimostrare, vedi gura,
che vale la relazione di ricorrenza (equazione alle dierenze)
#(n, k) = #(n 1, k 1) + #(n 1, k)
con condizione al contorno #(n, 0) = 1 Ma questa, a parte i simboli usati, `e esattamente
la relazione (d.), con la medesima condizione al contorno, quindi #(n, k) =
_
n
k
_
. Questa `e
linterpretazione di Polya dei coecienti binomiali come numero di cammini.
22
?
n
0
1
2
3
4
-
k
5
0 1 2 3 4 5
u u
u
(4, 1) (4, 2)
(5, 2)
4.3 Formula di Stirling
Fornisce lordine di grandezza di n! con grande precisione. La versione semplice della
formula di Stirling `e
n!

2nn
n
e
n
dove a(n) b(n) signica che lim
n
a(n)
b(n)
= 1. La dimostrazione si pu`o fare usando le
propriet`a della densit`a di probabilit`a gaussiana e la tecnica di approssimazione di Laplace
degli integrali dipendenti da un parametro. I pi` u curiosi troveranno, pi` u avanti, una nota
su moodle. In modo sporco e veloce si pu`o per`o ottenere la parte pi` u cospicua dello
sviluppo asintotico:
log n! =
n

k=1
log k
_
n
1
log xdx = xlog x x

n
1
= nlog n n + 1.
Prendendo lesponenziale di entrambi i membri, e trascurando il +1, si trova n! n
n
e
n
che `e unapprossimazione niente male, vista la poca fatica che ci `e costata.
4.4 Applicazione al calcolo della probabilit`a
Calcolo della probabilit`a su spazi niti equiprobabili. Per ritrovarvi sugli appunti i titoli
che avevo dato agli esercizi erano: squadre di calcio e trenino.
23
Lezione 5 (Marted`, 12 marzo 2013, ore 16:25-17:05)
5.1 Esercitazione sulla combinatoria e la probabilit`a negli spazi niti uniformi
Esercizio 1. Unurna contiene 5 palline rosse, 6 blu e 8 verdi. Lesperimento consiste
nellestrazione, senza reinserimento, di tre palline dallurna. Interessano le probabilit`a
degli eventi
E := le tre palline estratte sono di colori diversi,
F := le tre palline estratte sono dello stesso colore.
Attenzione a non prendere una cantonata: E
c
,= F. Ne levento E, ne levento F dipendono
dallordine di estrazione delle palline, `e quindi suciente contare combinazioni. Il numero
di combinazioni diverse corrispondenti allestrazione senza reinserimento di 3 delle 19
palline contenute nellurna `e
_
19
3
_
. Levento E si verica quando si estrae esattamente 1
pallina rossa, 1 blu ed 1 verde (lordine non conta). Per il principio di moltiplicazione
questo si pu`o fare in
_
5
1
__
6
1
__
8
1
_
= 5 6 8 modi. La probabilit`a cercata `e
P(E) =
_
5
1
__
6
1
__
8
1
_
_
19
3
_
Per quanto riguarda F si osservi che
F = 3 palline rosse o 3 palline blu o 3 palline verdi,
e poiche i tre eventi a destra sono disgiunti
P(F) = P(3 palline rosse) +P(3 palline blu) +P(3 palline verdi)
=
_
5
3
__
6
0
__
8
0
_
+
_
5
0
__
6
3
__
8
0
_
+
_
5
0
__
6
0
__
8
3
_
_
19
3
_
Soluzione formale dellesercizio 1. La soluzione formalmente rigorosa di questo, e di tutti
gli altri esercizi del corso, richiede la costruzione di un opportuno spazio di probabilit`a
o = (, T, P) che modella lesperimento di interesse. Normalmente o `e sottaciuto, ma `e
importante, almeno allinizio, capire come si dovrebbe procedere. Qui sotto proponiamo
due possibili spazi di probabilit`a, o
1
e o
2
, per modellare lesperimento sico descritto
nellesercizio 1. Questo servir`a ad illustrare il fatto che il modello probabilistico non `e
unico.
Spazio o
1
. Cominciamo con la scelta dello spazio campionario
1
. Lunico vincolo che
la teoria impone su `e che esso sia sucientemente ricco: gli esiti devono permettere di
rappresentare tutti i risultati dellesperimento. Numeriamo ttiziamente le palline presenti
nellurna: le rosse da 1 a 5, le blu da 6 a 11 e le verdi da 12 a 19. In tal modo le palline
sono distinguibili e si pu`o prendere
4

1
:= disposizioni senza ripetizione di 19 palline 3 alla volta
4
Nota bene. Come si elencano le disposizioni? Consideriamo, per brevit` a, le disposizioni di 4 oggetti
1, 2, 3, 4 presi 3 alla volta, che sono in totale 4 3 2 = 24. Lintroduzione di un ordinamento aiuta a scrivere
lelenco delle disposizioni, ad esempio in ordine crescente
1, 2, 3; 1, 2, 4; 1, 3, 2; 1, 3, 4; 1, 4, 2; 1, 4, 3;
2, 1, 3; 2, 1, 4; 2, 3, 1; 2, 3, 4; 2, 4, 1; 2, 4, 3;
3, 1, 2; 3, 1, 4; 3, 2, 1; 3, 2, 4; 3, 4, 1; 3, 4, 2;
4, 1, 2; 4, 1, 3; 4, 2, 1; 4, 2, 3; 4, 3, 1; 4, 3, 2.
24
Prendiamo inoltre (possibile poiche
1
`e nito) T
1
= P(
1
). Chiaramente [
1
[ = 19
18 17.
`
E ragionevole assegnare su T
1
la misura equiprobabile, dato che gli esiti di
1
sono sicamente equivalenti dal punto di vista delle operazioni di estrazione. Poiche gli
esiti sono disposizioni,
1
`e particolarmente adatto a rappresentare eventi che dipendono
dallordine di estrazione delle palline. Ad esempio si consideri levento
E
1
= e
1
= rossa, e
2
= blu, e
3
= verde,
dove e
1
, e
2
e e
3
indicano rispettivamente la prima, la seconda e la terza pallina estratta
e le virgole sottintendono intersezioni, ovvero E
1
consiste delle disposizioni con prima
pallina rossa e seconda blu e terza verde. Gli esiti di
1
che appartengono ad E
1
sono
tutte e sole le terne (p
1
, p
2
, p
3
) con p
1
1, 2, 3, 4, 5, p
2
6, 7, 8, 9, 10, 11 e p
3

12, 13, 14, 15, 16, 17, 18, 19. Il numero degli esiti di questo tipo `e 5 6 8, quindi
P(E
1
) =
[E[
[
1
[
=
5 6 8
19 18 17
.
Gli eventi che si ricavano da E
1
per permutazione dei colori rosso, verde, blu, ovvero
E
2
= e
1
= blu, e
2
= rossa, e
3
= verde,
E
3
= e
1
= blu, e
2
= verde, e
3
= rossa,
eccetera (in totale sono 3! = 6) sono equiprobabili (`e immediato, ma meditate se neces-
sario).
`
E ovvio che
E := le tre palline estratte sono di colori diversi =
6
_
i=1
E
i
,
quindi
P(E) = 3!
5 6 8
19 18 17
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ ,
dove si lascia come banale esercizio la verica dellultima identit`a che dimostra che il
risultato trovato coincide con quello derivato inizialmente.
Spazio o
2
. Questa `e la formalizzazione dellapproccio intuitivo seguito allinizio. Si prenda
come spazio campionario

2
:= combinazioni senza ripetizione
ed T
2
= P(
2
). La cardinalit`a di
2
`e
[
2
[ =
_
19
3
_
.
`
E ragionevole prendere la misura equiprobabile su T
2
? La risposta `e s`, perche ogni esito

2
si ottiene come unione dello stesso numero 3! di esiti di
1
. e su
1
la misura
equiprobabile `e sicamente naturale. Ad esempio, allesito (1, 7, 9)
2
corrispondono
gli esiti (1, 7, 9), (1, 9, 7), (7, 1, 9), (7, 9, 1), (9, 1, 7), (9, 7, 1) di
1
. Lo spazio campionario

2
`e pi` u piccolo di
1
, ma `e suciente per descrivere qualunque evento che non dipenda
dallordine delle estrazioni. Consideriamo levento E
2
denito allinizio:
E = tre palline di colori diversi = una rossa e una blu e una verde.
25
La cardinalit`a di E vale quindi
[E[ =
_
5
1
__
6
1
__
8
1
_
e la probabilit`a `e, come ci aspettavamo,
P(E) =
[E[
[
2
[
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ .
Micro-esercizio. Calcolare P(2 rosse e 1 verde).
Esercizio 2. Calcolo delle probabilit`a delle combinazioni del poker. Vedi appendice alla
lezione.
Esercizio 3. Per un certo gioco di carte si usa il mazzo da poker ed una mano consiste di
13 carte scelte a caso dal mazzo. Calcolare la probabilit`a che una mano contenga almeno
due carte di picche.
Soluzione. Si impiega la locuzione scelta a caso per intendere che tutte le possibili scelte
sono equiprobabili. Si consideri levento
E = almeno due picche =
13
_
k=2
E
k
,
dove E
k
:=esattamente k picche. La probabilit`a di E si pu`o calcolare direttamente
oppure passando allevento complementare. Per il calcolo diretto, osservando che gli E
k
sono disgiunti, vale
P(E) =
13

k=2
P(E
k
) =
13

k=2
[E
k
[
[[
=
13

k=2
_
13
k
__
5213
13k
_
_
52
13
_
Passando per il complementare,
E
c
= al pi` u 1 picca = 0 picche o 1 picca
e, osservando che 0 picche e 1 picca sono eventi disgiunti,
P(E) = 1 P(E
c
) = 1
_
P(0 picche) +P(1 picca)
_
= 1
_
39
13
__
13
0
_
_
52
13
_
_
39
12
__
13
1
_
_
52
13
_ ,
unespressione computazionalmente molto pi` u semplice di P(E).
Esercizio 4. Corsa campestre di n atleti della stessa abilit`a, quindi gli ordini di arrivo sono
casuali (unaltra locuzione comunemente impiegata per dire equiprobabili). Calcolare la
probabilit`a che Marco arrivi in k-esima posizione per k = 1, 2, . . . n.
p
k
= P(Marco arriva kesimo) =
(n 1)!
n!
=
1
n
La soluzione non dipende da k. Si pu`o reinterpretare in vari modi, mazzo di chiavi, forlorn
hope mission, estrazione da urna ecc.
26
Esercizio 5. Comitato formato scegliendo a caso 6 persone da un gruppo di 10 americani,
7 russi e 5 tedeschi. Calcolare la probabilit`a che il comitato contenga almeno un rappre-
sentante di ognuno dei due paesi europei. Levento dinteresse `e almeno 1 russo e almeno
1 tedesco. Siamo passati al complementare che, per De Morgan, `e nessun russo o nessun
tedesco che ha probabilit`a
P(0 russi) +P(0 tedeschi) P(0 russi e 0 tedeschi) =
_
15
6
_
+
_
17
6
_

_
10
6
_
_
22
6
_
Esercizio proposto. Si consideri un mazzo di carte da briscola (4 semi, 10 valori per ogni
seme, per un totale di 40 carte). In un certo gioco una mano consiste di 4 carte estratte
a caso dal mazzo. Calcolare la probabilit`a dellevento E =la mano contiene almeno
1 asso. Calcolate la probabilit`a sia direttamente sia passando allevento complementare
vericando che le due espressioni ottenute coincidono (`e un esercizio di pura manipolazione
dei coecienti binomiali).
5.2 Problema del compleanno
Il birthday problem consiste nel calcolo della probabilit`a dellevento
E
n
= in una classe di n bambini almeno 2 hanno lo stesso compleanno
Non ripeto qui il calcolo della probabilit`a di E
n
che trovate sui vostri appunti:
P(E) = 1 P(E
c
) = 1
n1

k=1
_
1
k
365
_
Riporto brevemente il conticino utile per trovare un limite superiore alla probabilit`a P(E
n
).
Poiche P(E
c
n
) =

n1
k=1
_
1
k
365
_
. Usando la disuguaglianza 1 x e
x
, valida per ogni
x R, troviamo che
P(E
c
n
)
n1

k=1
e

k
365
= e

n1
k=1
k
365
= e

n(n1)
2365
Volendo trovare n tale che P(E
n
) > 0.5 sar`a suciente imporre che P(E
c
n
) < 0.5. Con
poca algebra si trova che la condizione equivale a n
2
n > 2 365 log 2 505.997. Per
n = 23 il membro sinistro vale n
2
n = 506, quindi n = 23 `e suciente. Per dimostrare
che n = 23 `e il minimo valore di n che soddisfa alla condizione P(E
c
n
) < 0.5, si prende
n = 22 ci si arma di pazienza e si valuta, meglio farlo scrivendo due righe di codice su un
calcolatore, il valore esatto P(E
c
22
) che risulta essere maggiore di 0.5. Il paradosso dei
compleanni si riferisce al fatto che, in un gruppo di appena 23 persone, la probabilit`a che
almeno due di esse abbiano lo stesso compleanno `e maggiore di 0.5.
Birthday attack.
`
E una tecnica di hacking, di tipo brute force, basata sul paradosso del
compleanno. Guardate la voce birthday attack sulla wikipedia inglese o chiedete ad un
vostro professore dinformatica.
5.3 Probabilit`a condizionata: motivazione della denizione
Lidea di probabilit`a condizionata consente di incorporare informazione a priori nel cal-
colo della probabilit`a di eventi di interesse. Linformazione a priori riguarda tipicamente
27
il vericarsi o il non vericarsi di certi eventi che sono collegati allevento di cui interes-
sa calcolare la probabilit`a. Grazie alla probabilit`a condizionata `e possibile rappresentare
situazioni sperimentali che evolvono dinamicamente nel tempo. Abbiamo illustrato questo
discorso fumoso con un semplice esempio che indica un modo ragionevole di incorpo-
rare linformazione a priori nel calcolo della probabilit`a di un evento. Si supponga di
avere unurna contenente 80 palline nere e 20 rosse. Eettuiamo 2 estrazioni senza rein-
serimento. Vogliamo calcolare probabilit`a del tipo P(e
1
= rossa), P(e
2
= rossa),
P(e
1
= rossa, e
2
= rossa), dove e
1
e e
2
sono rispettivamente la prima e la seconda
estratta e la virgola tra eventi si deve intendere come segno dintersezione. Cominciamo
a calcolare queste probabilit`a applicando diligentemente quanto visto nora. Dovendo
trattare eventi per i quali lordine delle estrazioni `e rilevante sar`a opportuno prendere
come spazio campionario
= disposizioni senza ripetizione di 2 oggetti scelti da 100
dove [[ = 100 99, e dotarlo della misura equiprobabile.
`
E allora immediato calcolare
P(e
1
= rossa, e
2
= rossa) =
20 19
100 99
.
Per il calcolo di P(e
1
= rossa) rappresentiamo dapprima levento e
1
= rossa come
unione di eventi incompatibili di :
e
1
= rossa = e
1
= rossa, e
2
= rossa e
1
= rossa, e
2
= nera
da cui si ricava immediatamente
P(e
1
= rossa) =
20 19
100 99
+
20 80
100 99
=
20 99
100 99
=
20
100
.
Tutto questo `e istruttivo, ma poco illuminante. Un approccio meno formale consente di
dire immediatamente che
P(e
1
= rossa) =
20
100
perche nellurna ci sono 20 palline rosse su un totale di 100. Quello che stiamo facendo, in
modo automatico, nel produrre immediatamente la risposta
20
100
, `e di costruire mentalmente
un modello probabilistico diverso ovvero

1
= i naturali da 1 a 100 di cui 20 sono rossi e 80 neri
e di dotarlo di una misura equiprobabile. Quando tentate di calcolare P(e
2
= rossa)
usando lo stesso approccio intuitivo vi bloccate perche la composizione dellurna dipende
dal risultato, non noto, della prima estrazione. Supponete che qualcuno vi informi del
risultato della prima estrazione e che vi sia consentito tenerne conto. Per denotare il
fatto che state usando questinformazione extra la mettete in evidenza quando scrivete le
probabilit`a. Scrivete ad esempio
P(e
2
= rossa [ e
1
= rossa) =
19
99
che leggerete: la probabilit`a che la seconda estratta sia rossa, sapendo che la prima estratta
era rossa, vale
19
99
. In eetti se la prima estrazione ha prodotto una rossa rimangono
nellurna 99 palline, di cui 19 rosse. Confrontiamo questa probabilit`a, che tiene conto in
modo intuitivo dellinformazione a priori sulla prima estrazione, con quelle calcolate pi` u
sopra. Con una semplice manipolazione
P(e
2
= rossa [ e
1
= rossa) =
19
99
=
20 19
100 99
100
20
=
P(e
1
= rossa, e
2
= rossa)
P(e
1
= rossa)
28
Diciamo E = e
2
= rossa ed F = e
1
= rossa, allora le considerazioni fatte sopra
suggeriscono di denire la probabilit`a di E sapendo che si `e vericato F come:
P(E[F) =
P(E F)
P(F)
.
Nella prossima lezione erigeremo questa formula a denizione formale della probabilit`a
condizionata, in spazi di probabilit`a qualunque. Vedremo inoltre come calcolare P(e
2
=
rossa) usando le probabilit`a condizionate.
29
Appendice alla Lezione 5
Combinazioni del poker
Lo scopo della nota `e di calcolare le probabilit`a delle mani nel gioco del poker.
Consideriamo il mazzo da 52 carte. Le carte si distinguono per seme e valore (chiamato
anche rango). I semi sono 4, denominati Cuori, Quadri, Fiori, Picche. Per ogni seme ci
sono 13 carte i cui ranghi crescenti sono A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K. Si considera in
scala crescente anche la sequenza 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A.
Una mano di poker consiste in un sottoinsieme di 5 carte scelte a caso dal mazzo di 52. Il
numero di mani possibili `e quindi
_
52
5
_
.
Tipi di mani nel poker.
1. coppia (x, x, w, y, z)
dove x, x sono due carte dello stesso rango (di semi ovviamente diversi) mentre w, y, z
sono tre carte, di ranghi distinti tra loro, e diversi da quello di x.
2. doppia coppia (x, x, y, y, z)
3. tris (x, x, x, y, z)
4. scala 5 carte con ranghi in ordine crescente, non dello stesso seme.
5. full (x, x, x, y, y)
6. colore 5 carte dello stesso seme
7. colore in scala 5 carte dello stesso seme in scala, la pi` u alta non `e lasso.
8. poker (x, x, x, x, y)
9. scala reale colore in scala con carta pi` u alta lasso.
10. scartine nessuna delle precedenti.
Calcolo delle combinazioni.
Per 1. 2. 3. 5. 8. il conteggio si pu`o fare come segue.
1.
_
13
1
__
4
2
__
12
3
__
4
1
_
3
Dove
_
13
1
_
`e il numero di scelte del rango w,
_
4
2
_
il numero di scelte della coppia tra
le 4 carte di rango w,
_
12
3
_
il numero di scelte dei ranghi x, y, z tra i 12 rimasti dopo
aver eliminato w,
_
4
1
_
il numero di scelte della carta tra le 4 carte di rango x, ed
analogamente
_
4
1
_
le possibili scelte della carta tra le 4 di rango y, e
_
4
1
_
le scelte della
carta tra le 4 di rango z.
2.
_
13
2
__
4
2
_
2
_
11
1
__
4
1
_
Dove
_
13
2
_
`e il numero di possibili coppie di ranghi x, y,
_
4
2
_
2
il numero di scelte della
carta di rango x moltiplicato il numero di scelte della carta di rango y,
_
11
1
__
4
1
_
il
numero di scelte del rango z per il numero di scelte della carta di rango z.
30
3.
_
13
1
__
4
3
__
12
2
__
4
1
_
2
spiegazione analoga a sopra.
5.
_
13
1
__
4
3
__
12
1
__
4
2
_
spiegazione analoga a sopra.
8.
_
13
1
__
4
4
__
12
1
__
4
1
_
spiegazione analoga a sopra.
4. Una scala pu`o partire da uno qualunque dei ranghi A, 2, 3, 4, 5, 6, 7, 8, 9, 10. Se parte da
10 terminer`a con A. Le scale possibili sono quindi 104
5
poich`e scelta la carta di partenza
si deve poi scegliere, per ognuno dei 5 ranghi consecutivi, il seme della carta. Vanno per`o
sottratte le 10 4 scale formate da 5 carte dello stesso seme perch`e queste combinazioni
hanno valore diverso (caso 7. colore in scala). Il numero di scale semplici vale dunque
10 4
5
10 4
7. Si devono contare tutte le scale dello stesso seme che non terminano in asso, poich`e
quelle che terminano in asso sono scale reali. Quindi abbiamo
10 4 4
9. Le scale reali sono ovviamente
4
6. Per la combinazione colore il seme pu`o essere scelto in 4 modi, quindi si devono scegliere
5 carte delle 13 di quel seme, e inne sottrarre i colori in scala e le scale reali
4
_
13
5
_
10 4
Esercizio: I casi da 1. a 10. sono ovviamente mutuamente esclusivi. Calcolate diretta-
mente il numero di mani del caso 10. scartine (basta contare quante sono le mani con 5
carte di rango diverso e sottrarre .....) e vericate che la somma dei casi da 1. a 10. vale
eettivamente
_
52
5
_
.
31
Lezione 6 (Mercoled`, 13 marzo 2013, ore 16:25-17:05)
6.1 Probabilit`a condizionata
Denizione. Sia (, T, P) uno spazio di probabilit`a, ed F T un evento tale che P(F) > 0,
allora per ogni E T `e ben denita la quantit`a
P(E[F) :=
P(E F)
P(F)
,
detta probabilit`a condizionata di E dato F, o semplicemente probabilit`a di E dato F.
Nota bene. Battezzare una quantit`a probabilit`a non basta a garantire che essa si com-
porti come tale. Sar`a dunque necessario giusticare la scelta del nome. Cominiciano con
lo studio delle propriet`a pi` u elementari di P(E[F).
Propriet`a elementari di P(E[F).
(a.) 0 P(E[F) 1 per ogni E, F.
Dimostrazione. Poiche EF F, per la monotonia della probabilit`a 0 P(EF) P(F)
da cui discende la propriet`a dividendo per P(F).
(b.) E F = P(E[F) = 0.
Dimostrazione. Banale dalla denizione.
(c.) P(E) = 0 P(E[F) = 0.
Dimostrazione. Infatti E F E implica P(E F) P((F) e dividendo per P(F) si
conclude.
(d.) P(E) = 1 P(E[F) = 1.
Dimostrazione.
`
E sempre P(E F) P(E) + P(F) 1, e poiche P(E) = 1 per ipotesi,
P(E F) P(F). Dividendo per P(F) si trova P(E[F) =
P(EF)
P(F)
1 e per la (a.) si
conclude che P(E[F) = 1.
Osservazione. P(E[F) P(E), a seconda degli eventi E, F e della misura P.
Commento. Si noti che `e naturale voler confrontare P(E) con P(E[F). Intuitivamente,
se E `e levento dinteresse e P la misura nota, P(E) `e la probabilit`a di E in assenza di
ulteriori informazioni, mentre P(E[F) `e la rivalutazione della probabilit`a di E tenendo
conto dellinformazione si `e vericato levento F. Esempio. E =il paziente guarisce,
F =il paziente ha assunto il farmaco. La CUF (Commissione Unica del Farmaco) mette
il farmaco in fascia A se P(E[F) > P(E), in fascia B se P(E[F) = P(E) o ne proibisce la
vendita se P(E[F) < P(E).
Esercizio svolto in aula. Lancio due dadi distinguibili, ad esempio uno rosso ed uno blu.
Tutti i risultati sono equiprobabili. Calcolare le probabilit`a condizionate
P(esce 6 sul dado rosso [ la somma dei dadi `e i), i = 2, 3, . . . 12.
Interpretazione empirica della probabilit`a condizionata
Nellinterpretazione empirica (frequentista) della probabilit`a si suppone di poter eettuare
un esperimento in condizioni identiche un certo numero di volte n. Per ogni evento E T
si denisce la probabilit`a empirica P
n
(E) =
n
E
n
, dove n
E
`e il numero di volte che si `e
32
vericato E nelle n prove. Ragionando allo stesso modo `e naturale denire la probabilit`a
condizionata empirica come
P
n
(E[F) =
P
n
(E F)
P
n
(F)
=
n
EF
n
F
.
Esempio (trial clinico).
Negli studi osservazionali (sociali, biomedici, ecc.) i modelli probabilistici si costruiscono
utilizzando probabilit`a empiriche. Ad esempio per valutare lecacia di un farmaco, detto
G =malato guarisce e F =malato assume farmaco (e per convenienza tipograca
G = G
c
, F = F
c
), interessa confrontare P(G[F) con P(G). Allo scopo si organizzano
esperimenti, detti trial clinici, per valutare le probabilit`a empiriche. Una versione molto
rozza di trial clinico `e la seguente. Ad ogni individuo di una popolazione di n malati si
associano due bit (g, f), con lovvia interpretazione f = 1 lindividuo assume farmaco,
f = 0 lindividuo non assume il farmaco ed analogamente g = 1 lindividuo guarisce,
g = 0 lindividuo non guarisce. Dopo avere rilevato i valori (g, f) di ogni individuo, si
riassumono i dati dellintera popolazione in una cosiddetta tabella di contingenza 2 2
della forma
F F
G n
GF
n
GF
n
G
G n
GF
n
GF
n
G
n
F
n
F
n
dove n
GF
`e il numero di malati che guariscono e assummono il farmaco, n
GF
il numero
di quelli che guariscono e non assumono il farmaco ed analogamente si interpretano n
GF
,
n
GF
, n
F
, n
F
, n
G
, n
G
. Per denizione, la colonna pi` u a destra (colonna marginale) ha
per elementi le somme delle righe e la riga pi` u in basso (riga marginale) ha per elementi
la somma delle colonne. Convincetevi della correttezza dei valori indicati nella colonna e
nella riga marginali, ovvero n
GF
+n
GF
= n
G
, eccetera. Per denizione lelemento in basso
a destra `e la somma degli elementi della colonna marginale, che coincide (convincetevene)
con la somma degli elementi della riga marginale, ovvero n (convincetevene), la cardinalit`a
della popolazione. I quattro numeri n
GF
, n
GF
, n
GF
e n
GF
contengono le informazioni
necessarie per il calcolo di tutte le probabilit`a empiriche dinteresse, ad esempio:
P
n
(G[F) =
n
GF
n
F
=
n
GF
n
GF
+n
GF
e anche
P
n
(G) =
n
G
n
=
n
GF
+n
GF
n
GF
+n
GF
+n
GF
+n
GF
Esercizio. Vericare che vale la relazione P
n
(G[F) > P
n
(G) tra le probabilit`a empiriche
(farmaco utile) se e solo se il determinante della matrice di contingenza 2 2 `e positivo.
33
La probabilit`a condizionata come misura di probabilit`a
Teorema. Sia F T con P(F) > 0 ssato, allora la mappa P([F) : T R che assegna
E P(E[F) `e una misura di probabilit`a.
Dimostrazione. Consiste nella verica degli assiomi. Vedi appunti di lezione!
Dal teorema appena dimostrato segue che P([F) gode di tutte le propriet`a di una misura
di probabilit`a. In particolare
(a.) P(E
c
[F) = 1 P(E[F), per ogni E T.
(b.) P(E G[F) = P(E[F) +P(G[F) P(E G[F) per ogni E, G.
ATTENZIONE
La mappa P(E[) : T R che assegna F P(E[F) non `e una misura di probabilit`a.
Esercizio. Costruire un esempio dove P(E[F
c
) ,= 1 P(E[F).
6.2 Formula di moltiplicazione e applicazioni
Se sia E che F hanno probabilit`a strettamente positiva sono ben denite entrambe le
probabilit`a condizionate
P(E[F) =
P(E F)
P(F)
, P(F[E) =
P(E F)
P(E)
da cui si ricavano le identit`a (formule di moltiplicazione)
P(E F) = P(E[F)P(F) = P(F[E)P(E)
Le formule di moltiplicazione sono spesso utili nel calcolo della probabilit`a di eventi din-
teresse. Sebbene equivalenti dal punto di vista teorico, dal punto di vista operativo non
sempre una vale laltra.
Esempio. Tornando allesempio motivazionale dellultima lezione, abbiamo
P(e
1
= rossae
2
= nera) = P(e
2
= nera [ e
1
= rossa)P(e
1
= rossa)
= P(e
1
= rossa [ e
2
= nera)P(e
2
= nera)
dove la prima identit`a consente un calcolo immediato, mentre la seconda `e inservibile,
poiche non sappiamo ancora come calcolare P(e
2
= nera).
Le identit`a viste sopra sono le pi` u semplici formule di moltiplicazione. Lidea pu`o si
per`o iterare per ottenere formule di moltiplicazione di pi` u vaste proporzioni. Ad esempio,
per qualunque terna E, F, G T, usando la denizione di probabilit`a condizionata, `e
immediato vericare che
P(E F G) = P(E (F G)) = P(E[F G)P(F[G)P(G).
Se si ha a che fare con una famiglia nita E
i

n
i=1
di eventi, vale ad esempio
P
_
n

i=1
E
i
_
= P
_
E
n

n1

i=1
E
i
_
P
_
E
n1

n2

i=1
E
i
_
. . . P(E
2
[E
1
)P(E
1
).
34
Naturalmente di formule di questo tipo se ne possono scrivere parecchie, permutando gli
eventi E
i
. Sono tutte corrette, ma operativamente alcune saranno pi` u comode di altre
nelle speciche applicazioni.
Esempio 1. Da un mazzo di carte da poker estraggo 3 carte senza reinserimento. Calcolare
la probabilit`a che nessuna delle 3 carte sia di Cuori. Svolto in aula sia con calcolo diretto
sia con la formula di moltiplicazione.
Esempio 2 (urna di Polya). In unurna ci sono inizialmente 3 palline Bianche e 5 Rosse.
Eettuo le estrazioni con la seguente regola: ad ogni estrazione reinserisco nellurna la
pallina appena estratta e ne aggiungo 2 dello stesso colore di quella appena estratta.
Abbiamo calcolato la probabilit`a dellevento
P(e
1
= B, e
2
= B, e
3
= R) = P(e
3
= R[e
1
= B, e
2
= B)P(e
2
= B[e
1
= B)P(e
1
= B)
=
5
12
5
10
3
8
.
Pi` u in generale lurna di Polya `e denita come segue: in unurna sono inizialmente presenti
b palline Bianche ed r palline Rosse. Ad ogni estrazione si reinserisce nellurna la pallina
appena estratta e se ne aggiungono c dello stesso colore di quella appena estratta, dove
c Z`e un intero ssato. Si noti che c = 1 corrisponde al caso standard di campionamento
senza reinserimento, c = 0 al caso standard di campionamento con reinserimento, c = 2 al
caso particolare visto sopra. Come in precedenza calcoliamo ad esempio
P(e
1
= B, e
2
= B, e
3
= R) =
r
b +r + 2c
b +c
b +r +c
b
b +r
.
Osservazione. Abbiamo rapidamente visto che tutte le permutazioni di e
1
= B, e
2
=
B, e
3
= R (ad esempio e
1
= B, e
2
= R, e
3
= B, e cos` via per tutte le altre) hanno
la stessa probabilit`a. In eetti, nella precedente formula, i denominatori sono invarianti,
mentre i numeratori permutano. Lo stesso vale se invece di 3 estrazioni se ne eseguono n.
Tecnicamente si dice che gli eventi e
1
= B, e
2
= B, e
3
= R sono scambiabili. La
nozione di scambiabilit`a per eventi `e di fondamentale importanza in Statistica, ed `e dovuta
a Bruno de Finetti (1937). Lurna di Polya `e un modello probabilistico estremamente
essibile, utile in svariati campi applicativi. Avevo menzionato lo studio della propagazione
di uninfezione virale in una popolazione umana o in una rete di calcolatori.
6.3 Formule della probabilit`a totale e di Bayes
Formula della probabilit`a totale
Teorema. Sia F, F
c
una partizione di , con 0 < P(F) < 1, allora per ogni E T vale
la formula della probabilit`a totale:
P(E) = P(E[F)P(F) +P(E[F
c
)P(F
c
).
Dimostrazione.
`
E suciente scrivere la decomposizione disgiunta E = (EF) (EF
c
),
applicare laddittivit`a della misura P(E) = P(E F) + P(E F
c
) ed inne utilizzare la
formula di moltiplicazione per sviluppare entrambi gli addendi che compaiono a destra.
In generale, se F
i

n
i=1
`e una partizione di , con P(F
i
) > 0 per ogni i, la formula della
probabilit`a totale `e
P(E) =
n

j=1
P(E[F
j
)P(F
j
).
35
Esempio 1. Tornando allesempio motivazionale introdotto alla ne della scorsa lezione,
la formula della probabilit`a totale fornisce
P(e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) +P(e
2
= R[e
1
= N)P(e
1
= N)
=
19
99
20
100
+
20
99
80
100
=
20
100
.
Osservazione. Nonostante le palline siano estratte senza reinserimento P(e
2
= R) =
P(e
1
= R). Questo risultato non `e del tutto intuitivo. In forma pi` u estrema, se nellurna
ci sono 99 palline Nere ed 1 Rossa, e si eettuano estrazioni senza reinserimento, vale
P(e
1
= R) = P(e
2
= R) = = P(e
100
= R) =
1
100
. Si confronti con lesercizio 4 della
sezione 5.1.
Esempio 2. Unazienda di assemblaggio PC acquista chip di memoria da tre diversi for-
nitori. Il fornitore A garantisce che la percentuale di chip difettosi `e inferiore al 2%, il
fornitore B garantisce meno del 2%, mentre il fornitore C garantisce meno del 4%. Luf-
cio acquisti ordina il 50% dei chip da A, il 25% da B ed il 25% da C. I chip vengono
immagazzinati in modo casuale. Il tecnico addetto prende un chip a caso dal magazzino e
lo inserisce sulla scheda madre. Aiutate lucio vendite a calcolare la percentuale di chip
di memoria difettosi che pu`o garantire ai clienti che acquistano partite di PC assemblati.
Soluzione.
`
E fondamentale interpretare correttamente i dati del problema. Detto D
levento chip difettoso, con ovvio signicato degli altri simboli, i dati sono P(D[A) =
0.02, P(D[B) = 0.02, P(D[C) = 0.04, inoltre P(A) = 0.5, P(B) = 0.25, P(C) = 0.25. Gli
eventi A, B, C formano una partizione poiche ogni chip del magazzino proviene da uno,
ed uno solo, dei produttori A, B o C. Ci sono le condizioni per applicare la formula della
probabilit`a totale che fornisce
P(D) = P(D[A)P(A) +P(D[B)P(B) +P(D[C)P(C) = 0.02 0.5+0.02 0.25+0.04 0.25.
Formula di Bayes
Spesso `e di interesse calcolare le probabilit`a P(F
i
[E), dette probabilit`a a posteriori (le
probabilit`a P(F
i
) sono invece dette probabilit`a a priori). Utilizzando la denizione di
probabilit`a condizionata e la formula della probabilit`a totale si trova la formula di Bayes:
P(F
i
[E) =
P(E F
i
)
P(E)
=
P(E[F
i
)P(F
i
)

n
j=1
P(E[F
j
)P(F
j
)
valida per i = 1, 2, . . . n. In alcuni casi, si veda lesempio qui sotto, il calcolo delle prob-
abilit`a a posteriori `e di fondamentale importanza applicativa. Lenorme utilit`a della for-
mula di Bayes deriva dal fatto che le probabilit`a a posteriori sono espresse in termini di
probabilit`a note, usualmente dati del problema.
Test diagnostici (signal detection)
Un test diagnostico `e un metodo per rilevare la presenza di una certa condizione di in-
teresse. Test diagnostici si possono eettuare nei pi` u disparati contesti. Ad esempio,
unantenna radar esplora i cieli per rilevare la presenza o lassenza di aerei amici o nemici.
Il principio di funzionamento del radar `e quello della riessione delle onde elettromag-
netiche ed `e soggetto a numerose fonti di rumore e quindi di errore. Riessioni multiple,
presenza di stormi di uccelli o di astronavi aliene, condizioni meteo, queste ed altre ragioni
comportano che la rilevazione radar non `e mai completamente adabile. Oppure si pensi
ad un test di gravidanza. Un kit acquistato in farmacia per pochi euro fornisce un risultato
36
che `e soggetto a varie fonti derrore legate alla variazione dei livelli ormonali normali in
donne diverse.
Diciamo T
+
e T

gli eventi il test d`a risultato positivo, il test d`a risultato negativo
rispettivamente. Analogamente diciamo D
+
e D

gli eventi la condizione `e presente e


la condizione `e assente (si suppone che esistano metodi certi per rilevare il vericarsi di
D
+
o D

, ad esempio ci si pu`o accertare visualmente della presenza o meno di un aereo


in una no-y zone con un volo di ricognizione, il ginecologo eettua accurati esami di
laboratorio per accertare la gravidanza della sua paziente ecc.) Per un test ideale si deve
avere P(T
+
[D
+
) = 1 e P(T

[D

) = 1, ma nel mondo reale i test diagnostici non sono


perfetti. In generale il test `e caratterizzato da due probabilit`a condizionate:
P(T
+
[D
+
) = a < 1 specicit`a
P(T

[D

) = b < 1 sensibilit`a
In gergo le probabilit`a di errore vengono dette: P(T

[D
+
) = 1 a probabilit`a di falso
negativo (miss) e P(T
+
[D

) = 1 b probabilit`a di falso positivo (false alarm).


Nota bene. P(T

[D
+
) = 1 a ed analogamente P(T
+
[D

) = 1 b poiche la probabilit`a
condizionata `e una misura di probabilit`a, quando levento condizionante `e ssato. Inoltre
T
+
e T

sono eventi complementari, quindi P(T

[D
+
) = 1 P(T
+
[D
+
) = 1 a ecc.
Esempio di uso della formula di Bayes
(disclaimer: i dati numerici di questo esempio sono di pura fantasia, al solo scopo di
mostrare lutilit`a della formula di Bayes, fate voi il googling se vi interessano i dati reali)
Si supponga di disporre di un test di sieropositivit`a per il virus HIV con le seguenti carat-
teristiche fornite dal produttore (lazienda produttrice determina le probabilit`a empiriche,
eettuando un trial clinico, come visto allinizio della lezione)
a = 0.99, b = 0.98.
Dalle statistiche ISTAT, un individuo preso a caso dalla popolazione generale ha proba-
bilit`a di essere sieropositivo P(D
+
) = 0.0002. In realt`a la tabella dellISTAT riporta il dato
empirico, e tipicamente dir`a 2 persone su 10,000 sono sieropositive, ma nellinterpretazione
frequentista della probabilit`a questo equivale a P(D
+
) = 0.0002.
Supponete di sottoporvi al test e che il risultato sia T
+
. La domanda `e: dovete andare
in panico o no? Questo `e esattamente il caso in cui le probabilit`a dinteresse sono le
probabilit`a a posteriori. Prima di fare il test voi siete un individuo della popolazione
generale ed avete probabilit`a P(D
+
) = 0.0002 di essere sieropositivo. Dopo aver eet-
tuato il test, che ha dato esito T
+
, voi avete una nuova informazione, e siete interessati
a ricalcolare la vostra probabilit`a di essere sieropositivo tenendo in considerazione questa
nuova informazione. Volete cio`e calcolare la probabilit`a condizionata P(D
+
[T
+
). Questa
`e esattamente la domanda a cui la formula di Bayes d`a la risposta.
P(D
+
[T
+
) =
P(T
+
[D
+
)P(D
+
)
P(T
+
[D
+
)P(D
+
) +P(T
+
[D

)P(D

)
fatti i conti troverete che P(D
+
[T
+
) 0.01. Non `e il caso di allarmarsi troppo: anche
se la vostra probabilit`a `e aumentata di circa 50 volte rispetto alla popolazione generale `e
comunque ancora troppo bassa per giusticare una reazione di panico. Come mai si verica
questo apparentemente strano fenomeno? Tutto dipende dal fatto che la condizione che si
vuole rilevare ha probabilit`a molto bassa, P(D
+
) = 0.0002. In questa situazione un test
con a = 0.99 e b = 0.98, che sono specicit`a e sensibilit`a vicine a 1, non `e sucientemente
adabile. Se fosse a = 0.9999 e b = 0.9999 la P(D
+
[T
+
) sarebbe molto pi` u alta (non ho
fatto il conto - provate voi).
37
Lezione 7 (Luned`, 18 marzo 2013, ore 10:30-12:15)
7.1 Eventi indipendenti
Nel denire la probabilit`a condizionata avevamo osservato che, in generale, P(E[F) pu`o
essere maggiore uguale o minore di P(E). Il caso di uguaglianza `e particolarmente
importante in teoria della probabilit`a e la lezione `e ad esso dedicata.
Denizione. Gli eventi E, F T si dicono indipendenti se
P(E F) = P(E)P(F),
nel qual caso scriveremo E F.
Osservazioni ed esempi
(a.) La denizione di indipendenza `e simmetrica in E ed F quindi non ha senso dire che E
`e indipendente da F o che F `e indipendente da E. Poiche lindipendenza `e una propriet`a
della coppia non ordinata di eventi E, F, idealmente si dovrebbe dire che linsieme E, F
`e/non `e indipendente.
(b.) E F `e una nozione probabilistica in quanto coinvolge E, F e la misura P. Non
confondete questa nozione con quella di eventi mutuamente esclusivi, E F = , che `e
puramente insiemistica e che nulla ha a che vedere con la misura P. Le seguenti banali
proposizioni mettono in parziale relazione le due nozioni.
(i.) Se E F allora E F = P(E) = 0 o P(F) = 0.
(ii.) Se P(E F) = 0 allora E F P(E) = 0 o P(F) = 0.
Ad esempio, come conseguenza della (ii.), due eventi incompatibili, ed entrambi di prob-
abilit`a strettamente positiva, non possono essere indipendenti (convincetevene!).
Esempio 1. Lancio contemporaneamente una moneta ed un dado. Sullo spazio campi-
onario naturale = (T, 1), . . . (T, 6), (C, 1) . . . (C, 6) consideriamo la misura equiproba-
bile P() =
1
12
, per ogni esito elementare . Gli eventi E =esce Testa sulla mone-
ta ed F =esce 4 sul dado sono indipendenti. Infatti P(E) = P((T, 1) . . . (T, 6)) =
1
2
,
e P(F) = P((T, 4), (C, 4)) =
1
6
ed inne P(E F) = P((T, 4)) =
1
12
.
Esempio 2. Urna di Polya con b Bianche ed r Rosse, c = 1 ovvero estrazioni senza
reinserimento da unurna. Indichiamo con e
i
= R levento la i-esima pallina estratta `e
rossa. Allora P(e
1
= R, e
2
= R) =
r1
b+r1
r
b+r
, mentre P(e
1
= R) = P(e
2
= R) =
r
b+r
,
quindi P(e
1
= R, e
2
= R) ,= P(e
1
= R)P(e
2
= R): gli eventi e
1
= R ed e
2
= R non
sono indipendenti.
Esempio 3. Urna di Polya con b Bianche ed r Rosse, c = 0 ovvero estrazioni con reinser-
imento. In questo caso P(e
1
= R, e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) =
_
r
b+r
_
2
=
P(e
1
= R)P(e
2
= R): gli eventi e
1
= R ed e
2
= R sono indipendenti.
Esempio 4. Si consideri il lancio di due dadi e gli eventi E=la prima faccia `e 4 ed F=la
somma dei punti `e 7. Gli eventi E e F sono indipendenti. Si osservi che invece gli
eventi E e G=la somma dei punti `e 9 non sono indipendenti. Banale, vedi comunque
gli appunti. Morale: bisogna stare molto attenti. Gli eventi F e G sembrano della stessa
natura, ma mentre la coppia E, F `e indipendente, la coppia E, G non lo `e.
38
Esempio 5. A lezione avevo accennato allo spazio di probabilit`a con = [0, 1] [0, 1], T
la -algebra generata dagli insiemi aperti, e P misura di probabilit`a che ad ogni evento
E T associa P(E) = area(E). In questo spazio ogni coppia di eventi E, F della forma
E = [a, b][0, 1] e F = [0, 1][c, d] sono indipendenti. Infatti P(EF) = P([a, b][c, d]) =
(b a)(d c), mentre P(E) = P([a, b] [0, 1]) = b a e P(F) = P([0, 1] [b, c]) = d c.
Conseguenze elementari dellindipendenza
(a.) Gli eventi , F e , F sono indipendenti qualunque sia levento F. La di-
mostrazione `e banale.
(b.) Se E E allora P(E) = [P(E)]
2
, ovvero P(E) = 0 oppure P(E) = 1. Banale.
(c.) Lemma 1. Se P(E) > 0, e P(F) > 0, le seguenti aermazioni sono equivalenti
(i.) E F, (ii.) P(E[F) = P(E), (iii.) P(F[E) = P(F).
Dimostrazione.
(i.) (ii.). P(E[F) =
P(EF)
P(F)
=
P(E)P(F)
P(F)
= P(E).
(ii.) (iii.). P(F[E) =
P(EF)
P(E)
=
P(E[F)P(F)
P(E)
=
P(E)P(F)
P(E)
= P(F).
(iii.) (i.). P(E F) = P(F[E)P(E) = P(F)P(E).
Il lemma evidenzia che il caso particolare P(E[F) = P(E) nella denizione di probabilit`a
condizionata corrisponde esattamente ad eventi E, F indipendenti.
(d.) Lemma 2. Le seguenti aermazioni sono equivalenti
(i.) E F, (ii.) E
c
F, (iii.) E F
c
, (iv.) E
c
F
c
.
Dimostrazione. Utilizziamo la denizione originale di indipendenza che non richiede ipotesi
di stretta positivit`a sulle probabilit`a degli eventi.
(i.) (ii.).
P(E
c
F) = P(F) P(E F)
= P(F) P(E)P(F) = P(F)(1 P(E))
= P(F)P(E
c
).
(ii.) (iii.). Dalle due decomposizioni disgiunte dellunione
E F = E (E
c
F) = F (F
c
E)
si ricava la relazione P(E) +P(E
c
F) = P(F) +P(F
c
E) quindi
P(E F
c
) = P(E) +P(E
c
F) P(F)
= P(E) +P(E
c
)P(F) P(F) = P(E) + (1 P(E))P(F) P(F)
= P(E) P(E)P(F) = P(E)P(F
c
)
(iii.) (iv.).
P(E
c
F
c
) = 1 P(E F) = 1
_
P(F) +P(F
c
E)
_
= 1 P(F) +P(F
c
)P(E) = 1 P(F) + (1 P(F))P(E) =
= (1 P(F))(1 P(E) = P(E
c
)P(F
c
)
(iv.) (i.). Esercizio.
39
Interpretazione empirica dellindipendenza di due eventi.
Vericare lindipendenza di due eventi, sotto una data misura P, `e spesso un problema di
interesse pratico. Come si pu`o, in pratica, valutare se E F? Una prima, rozza, risposta
si pu`o dare valutando le probabilit`a empiriche. Ricordando la denizione della misura
empirica P
n
, e per il Lemma 1, la relazione di indipendenza E F rispetto alla misura
P
n
equivale a
P
n
(E[F) = P
n
(E) ovvero
n
EF
n
=
n
E
n
n
F
n
Facendo riferimento allesempio del trial clinico, nella sezione 6.1, la condizione di indipen-
denza per la misura empirica equivale alla condizione di determinante nullo della matrice
di contingenza 2 2.
Rimangono molti punti da approfondire. (a.) Come si collega lindipendenza rispetto alla
P
n
con lindipendenza rispetto alla P? Sperabilmente quando n `e grande P
n
`e vicino a P
e quindi anche le relazioni di indipendenza si manterranno, ma questo `e da approfondire.
(b.) Nella pratica la relazione
n
EF
n
=
n
E
n
n
F
n
`e soddisfatta solo approssimativamente.
Entro che tolleranza `e ragionevole dichiarare che E F? (c.) Non sempre `e possibile
usare unimpostazione frequentista. Pensate ad esempio agli eventi E =domani cadr`a
un meteorite su Mosca ed F =domani piover`a a Milano di un ipotetico spazio proba-
bilistico che modella eventi celesti.
`
E molto comune, specialmente tra sici ed ingegneri,
considerare E F se non esiste unevidente relazione di causa/eetto tra i due eventi. In
realt`a esiste unestesa letteratura dai pi` u disparati campi, losoco, logico, matematico,
informatico e statistico, dedicata a chiarire la relazione causa/eetto ed il legame con la
relazione dindipendenza stocastica. Non ci occuperemo di questi argomenti.
7.2 Indipendenza per famiglie di eventi
Denizione. La famiglia di tre eventi E
1
, E
2
, E
3
`e indipendente se le seguenti due
condizioni sono entrambe soddisfatte:
(i.) E
i
E
j
per ogni i ,= j, (ii.) P(E
1
E
2
E
3
) = P(E
1
)P(E
2
)P(E
3
).
Discussione
`
E facile costruire esempi di terne di eventi E
1
, E
2
, E
3
per cui vale la condizione (i.), ma
non la condizione (ii.) o viceversa.
Esempio 1 (dado tetraedrale di Bernstein). Il dado ha quattro facce equiprobabili: b bianca,
r rossa, v verde, e t tricolore (bianca rossa e verde). Si lancia il dado e si considera come
faccia uscita quella su cui esso cade. Sia B levento B =esce una faccia che contiene il
colore bianco=b, t, e analogamente sono deniti gli eventi R e V .
Fatto. Gli eventi B, R e V sono indipendenti a coppie, ma non sono indipendenti.
Dimostrazione. Cominiciamo con il dimostrare che B R:
P(B R) = P(t) =
1
4
= P(B)P(R) =
2
4

2
4
.
Analogamente si dimostra che B V e R V . Peraltro:
P(B R V ) = P(t) =
1
4
,= P(B)P(R)P(V ) =
_
1
2
_
3
Esempio 2. Si lancia due volte un dado a sei facce. Sia A = 1, 2, 3 al primo lancio,
B = 3, 4, 5 al primo lancio, C = somma dei due lanci `e 9. Allora P(A B C) =
P(A)P(B)P(C), mentre A, B, C non sono indipendenti a coppie.
40
Gli esempi 1 e 2 dimostrano che le condizioni (i.), e (ii.) nella denizione di indipendenza
per una terna di eventi sono logicamente indipendenti. Il motivo per cui `e importante
imporle entrambe `e che solo in questo caso vale, per la terna di eventi, un risultato simile
al Lemma 2, ovvero se E
1
, E
2
, E
3
sono indipendenti allora anche le terne che si ottengono
sostituendo ad uno, a due, o a tutti e tre gli eventi i loro complementari, sono a loro volta
indipendenti.
Lemma 3. Le seguenti terne o sono tutte indipendenti o non lo `e nessuna
E
1
, E
2
, E
3
, E
1
, E
2
, E
c
3
,E
1
, E
c
2
, E
3
, E
1
, E
c
2
, E
c
3
,
E
c
1
, E
2
, E
3
, E
c
1
, E
2
, E
c
3
,E
c
1
, E
c
2
, E
3
, E
c
1
, E
c
2
, E
c
3
.
Osservazione. Nonostante le formulazione lievemente diversa il Lemma 3 ha la stessa
struttura logica del Lemma 2, aermando lequivalenza dellindipendenza per le otto terne.
Dimostrazione. Per simmetria `e suciente dimostrare che se la prima terna `e indipen-
dente allora tutte le altre lo sono. Per oguna delle sette terne bisogna vericare che
valgono le condizioni (i.) e (ii.) della denizione dindipendenza per tre eventi. La (i.)
discende immediatamente dallipotesi che E
1
, E
2
, E
3
`e una terna indipendente e dal
Lemma 2. Verichiamo la condizione (ii.). Se la terna in considerazione ha un solo evento
complementato, ad esempio se la terna `e E
1
, E
2
, E
c
3
, allora si ha
P(E
1
E
2
E
c
3
) = P(E
1
E
2
) P(E
1
E
2
E
3
)
= P(E
1
)P(E
2
) P(E
1
)P(E
2
)P(E
3
)
= P(E
1
)P(E
2
)P(E
c
3
)
Si noti che `e stato necessario utilizzare sia la condizione (i.) che la condizione (ii.)
per la verica! Per simmetria lo stesso vale per dimostrare lindipendenza delle terne
E
1
, E
c
2
, E
3
, E
c
1
, E
2
, E
3
. Se la terna ha due eventi complementati, ad esempio la terna
E
1
, E
c
2
, E
c
3
, avremo
P(E
1
E
c
2
E
c
3
) = P(E
1
) P(E
1
(E
c
2
E
c
3
)
c
)
= P(E
1
) P(E
1
(E
2
E
3
))
= P(E
1
)
_
P(E
1
E
2
) +P(E
1
E
3
) P(E
1
E
2
E
3
)
_
= P(E
1
)
_
1 P(E
2
) P(E
3
) +P(E
2
E
3
)
_
= P(E
1
)P((E
2
E
3
)
c
)
= P(E
1
)P(E
c
2
)P(E
c
3
)
Lo stesso ragionamento si applica a tutte le terne con due eventi complementati. Analoga-
mente (esercizio) si ragiona per lunica terna con tutti gli eventi complementati E
c
1
, E
c
2
, E
c
3
.
Esercizio proposto. Se E
1
, E
2
, E
3
sono indipendenti allora E
1
E
2
E
3
.
Estensione alle famiglie nite e numerabili.
Denizione. La famiglia di n eventi E
1
, E
2
, . . . E
n
`e indipendente se per ogni r, con 2
r n, scelti r eventi distinti qualunque della famiglia la probabilit`a della loro intersezione
`e pari al prodotto delle probabilit`a dei singoli eventi scelti.
Si osservi che questa versione compatta della condizione di indipendenza riassume en-
trambe le condizioni (1) e (2) imposte nel caso di una terna. La nozione di famiglia
indipendente di eventi si pu`o estendere alle famiglie numerabili.
Denizione. La famiglia numerabile di eventi E
1
, E
2
, . . . `e indipendente se ogni sua
sottofamiglia nita `e indipendente.
41
7.3 Applicazioni dellindipendenza I semplicazione di calcoli probabilistici
Lindipendenza di certi eventi semplica molti calcoli probabilistici e, in alcuni casi, rende
possibili calcoli altrimenti impossibili.
Esempio 1. P(E) = 0.2, P(F) = 0.3, calcolare P(E F). Questo calcolo `e impossibile.
Si pu`o in eetti scrivere P(E F) = P(E) + P(F) P(E F), ma non conoscendo
P(E F) il calcolo `e impossibile da eseguire. Peraltro, se E F allora P(E F) =
P(E) +P(F) P(E)P(F) = 0.2 + 0.3 0.2 0.3.
Esercizio 2. (freccette). Siano a, b e c tre giocatori di freccette. Indichiamo rispettivamente
con A, B e C gli eventi a, b, c fa centro. Sia P(A) =
1
2
, P(B) =
1
4
e P(C) =
1
5
. Si supponga
che gli eventi A, B e C sono indipendenti.
Calcolare la probabilit`a dellevento E =uno solo dei giocatori fa centro.
Si scrive la decomposizione disgiunta
E =
_
A (B C)
_
_
_
B (C A)
_
_
_
C (A B)
_
Il primo addendo `e
P(A (B C)) = P(A B
c
C
c
) = P(A)P(B
c
)P(C
c
) =
1
2

1
4

1
5
ecc. (Individuare tutte le applicazioni dei Lemmi.)
Calcolare anche P(A[E).
42
Lezione 8 (Marted`, 19 marzo 2013, ore 16:25-18:05)
8.1 Applicazioni dellindipendenza II costruzione di misure di probabilit`a
Finora abbiamo usato la nozione dindipendenza in modo analitico, in accordo con uno o
laltro dei seguenti schemi.
Dati gli eventi E ed F di uno spazio di probabilit`a governato dalla misura P,
determinare se E e F sono/non sono indipendenti.
Noto che sotto la misura P gli eventi E e F sono indipendenti, calcolare la probabilit`a
di altri eventi deniti a partire da E ed F.
La nozione di indipendenza si pu`o anche utilizzare, e molto procuamente, in modo sin-
tetico, ovvero per costruire misure di probabilit`a. A titolo illustrativo presentiamo qui un
caso semplice, ma non banale, e di fondamentale importanza applicativa: la costruzione
di misure non equiprobabili sullo spazio degli esiti di n lanci di una moneta.
Motivazione: reinterpretazione della misura equiprobabile
Si consideri lesperimento che consiste nel lanciare n volte una moneta, i cui esiti sono
:=
_
(b
1
, b
2
, . . . , b
n
), b
i
T, C, i = 1, . . . n
_
La cardinalit`a [[ = 2
n
e quindi, per ogni , la misura equiprobabile (detta anche
uniforme) e qui denotata P
u
, assegna P
u
() =
1
2
n
. Denotando con il simbolo [e
k
= T]
levento esce Testa al k-esimo lancio, si ha
[e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
k
= T, b
i
T, C, i 1, . . . n k
_
e quindi la cardinalit`a dellevento (il numero di esiti che vi appartengono) `e [[e
k
=
T][ = 2
n1
, quindi
P
u
([e
k
= T]) =
[[e
k
= T][
[[
=
2
n1
2
n
=
1
2
, k = 1, 2 . . . n (1)
Si osservi che, poiche [e
k
= T]
c
= [e
k
= C] risulta parimenti P([e
k
= C]) =
1
2
.
Si consideri ora la coppia di eventi [e
h
= T] e [e
k
= T] con h ,= k. Poiche
[e
h
= T] [e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
h
= b
k
= T, b
i
T, C, i 1, . . . n h, k
_
la cardinalit`a dellintersezione `e [[e
h
= T] [e
k
= T][ = 2
n2
e quindi la probabilit`a vale
P
u
([e
h
= T] [e
k
= T]) =
2
n2
2
n
=
1
2
2
Analogamente si trova che, per ogni r 1, . . . n e per ogni r-pla k
1
, k
2
, . . . k
r
, con
k
i
1, 2, . . . n e distinti,
P
u
_
r

i=1
[e
k
i
= T]
_
=
2
nr
2
n
=
1
2
r
(2)
Poiche valgono le due identit`a (1) e (2) si conclude che, sotto la misura equiprobabile P
u
,
gli eventi della famiglia [e
k
= t], k = 1, . . . n sono equiprobabili, di probabilit`a
1
2
, ed
indipendenti.
Passiamo ora dallanalisi della misura P
u
alla costruzione di una nuova misura di proba-
bilit`a P su in accordo con le seguenti prescrizioni.
43
Ricetta per la costruzione di P
assegna P([e
k
= T]) :=
1
2
, per ogni k = 1, 2, . . . n;
imponi lindipendenza degli eventi [e
k
= T], k = 1, . . . n.
Per vericare che la ricetta produce una misura di probabilit`a P compatibile con gli assiomi
`e suciente calcolare le probabilit` a di tutti gli esiti e vericare che esse sommano
a 1. Per lesito generico = (b
1
, b
2
, . . . b
n
) si ha che
=
n

k=1
[e
k
= b
k
]
e seguendo la ricetta dovr`a essere
P() = P
_
n

k=1
[e
k
= b
k
]
_
=
n

k=1
P([e
k
= b
k
]) =
1
2
n
= P
u
().
Poiche P() = P
u
() per ogni , le due misure coincidono. Ci`o rende ovvia
la consistenza di P, ma soprattutto consente di reinterpretare P
u
come misura prodotta
dalla ricetta.
Costruzione di misure non equiprobabili sullo spazio di n lanci di una moneta.
Lanalisi appena conclusa fornisce il razionale per la costruzione di una misura non equiprob-
abile sullo spazio degli esiti di n lanci di una moneta. Allo scopo deniamo la seguente
Ricetta generalizzata per la costruzione di P
assegna P([e
k
= T]) := p [0, 1], per ogni k = 1, 2, . . . n (e quindi automaticamente
P([e
k
= C]) = 1 p);
imponi lindipendenza degli eventi [e
k
= T], k = 1, . . . n.
Rispetto alla ricetta precedente `e stato introdotto il parametro p [0, 1], che intuitiva-
mente rappresenta la probabilit`a di Testa della moneta, costante negli n lanci. Il caso
p =
1
2
corrisponde alla misura equiprobabile P
u
. Se p ,=
1
2
la misura generata dalla ricetta
generalizzata non `e equiprobabile. Per caratterizzare completamente P `e suciente cal-
colarla sugli esiti. Se = (b
1
, b
2
. . . , b
n
) sia n
T
il numero di Teste tra gli n esiti di , ed
n
C
il numero di Croci, con n
T
+n
C
= n. Seguendo la ricetta generalizzata sar`a
P() = P
_
n

k=1
[e
k
= b
k
]
_
=
n

k1
P([e
k
= b
k
]) = p
n
T
(1 p)
nn
T
. (3)
`
E evidente che questa misura non `e equiprobabile, ma si noti che gli esiti con lo stesso
numero di Teste n
T
sono equiprobabili. In particolare, detto E
k
levento k Teste negli n
lanci, gli eventi E
k

n
k=0
formano una partizione di e, poiche tutti gli esiti in E
k
hanno
la medesima probabilit`a (3) con n
T
= k,
P(E
k
) = [E
k
[ p
k
(1 p)
nk
=
_
n
k
_
p
k
(1 p)
nk
Microesercizio. Dimostrare algebricamente che

n
k=0
P(E
k
) = 1 e spiegare perche vale
questidentit`a.
44
8.2 Il modello binomiale per eventi
Il paradigma degli n lanci di una moneta pu`o essere applicato in molti casi dinteresse
pratico. Il modello probabilistico corrispondente viene a volte detto modello binomiale per
eventi.
Ogni volta che un contesto sperimentale prevede:
(i.) un certo numero n 1 prove identiche eettuate in sequenza,
(ii.) che i possibili esiti di ogni prova sono due,
(a seconda del contesto sono detti 1, 0, T, C, successo, insuccesso , funziona,
non funziona, ecc.) e per comodit`a noi adotteremo la rappresentazione 1, 0;
(iii.) che per ogni k = 1, . . . n, il risultato della k-esima prova non inuenza i risultati di
nessun altra prova,
`e possibile denire una misura di probabilit`a P sullo spazio campionario (, T), i cui esiti
sono le 2
n
sequenze di n risultati delle n prove, assumendo che
(a.) gli eventi [e
k
= 1], successo alla prova k-esima, sono equiprobabili di probabilit`a
p [0, 1],
(b.) gli eventi [e
k
= 1]
n
k=1
sono indipendenti.
Esempio. Un ISP (Internet Service Provider) dispone di 20 linee di accesso e vende 24
abbonamenti ADSL ad altrettanti utenti.
`
E noto che (o si assume che) (a) la probabilit`a
che, in un dato istante, lutente iesimo sia collegato `e p = 0.8 per ogni i = 1, 2, . . . 24,
(b) le connessioni degli utenti sono indipendenti. Calcolare la probabilit`a che lISP vada
in saturazione. Calcoli di questo tipo sono usati per decidere quanti abbonamenti vendere.
Per i voli aerei c`e la pratica commerciale delloverbooking, che richiede gli stessi calcoli.
Qui si pu`o applicare il modello binomiale per eventi. Le identicazioni sono le seguenti:
(a) Le n = 24 prove ripetute sono: testare lo stato di connessione dei 24 abbonati
(b) Gli esiti di ogni prova sono due connesso, non connesso
(c) p = 0.8
Levento ISP in saturazione si verica se 21, 22, 23 o 24 degli abbonati sono connessi
contemporaneamente, quindi
P(ISP in saturazione) =
24

k=21
_
24
k
_
0.8
k
0.2
24k
Il problema delloverbooking `e il seguente. Lucio vendite dellISP propone contratti ai
clienti garantendo che, con probabilit`a almeno 0.95, egli sar`a in grado di connettersi alla
rete in ogni dato momento. Come si calcola il numero di abbonamenti che `e possibile
vendere rispettando limpegno contrattuale con il cliente?
La soluzione del problema (che richiede un calcolatore e due righe di programma per essere
calcolata) `e il massimo valore di M tale che
M

k=21
_
M
k
_
0.8
k
0.2
Mk
0.05.
45
8.3 Applicazioni dellindipendenza III analisi di adabilit`a
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
Il grafo rappresenta una piccola rete di calcolatori. I nodi sono i calcolatori, gli archi le
connessioni siche tra calcolatori. Ogni arco ha due etichette: il nome e la probabilit`a di
funzionamento della connessione. Potete pensare che le probabilit`a siano state ricavate
come percentuale del tempo in cui la connessione sica ha funzionato nellultimo mese o
anno. Ci interessa calcolare la probabilit`a dellevento E =esiste una connessione tra A e
B. Per eettuare questo calcolo `e necessario costruire una misura di probabilit`a sul grafo.
Per farlo utilizzeremo ancora una volta unipotesi di indipendenza tra certi eventi. Con
modesto abuso di notazione denotiamo l
i
=la connessione i funziona per i = 1, 2 . . . 7.
Lipotesi fondamentale `e che la famiglia di eventi l
i
, i = 1, . . . 7 sia indipendente.
`
E
evidente dalla topologia del grafo che levento E si pu`o scrivere come
E =
_
l
1
[(l
4
l
5
) (l
6
l
7
)]
_
[l
2
l
3
]
Avendo assunto lindipendenza di l
i
, i = 1, . . . 7 la probabilit`a di E `e certamente cal-
colabile, infatti E pu`o essere riscritto utilizzando solo intersezioni e complementazioni di
eventi l
i
. Questa via `e scomoda e non illuminante. Si pu`o invece eettuare il calcolo
riducendosi allanalisi di due casi elementari.
Connessione in serie. Si consideri il grafo
C
1
C
2
C
3
l
1
p
1
l
2
p
2
Sia E
s
=esiste una connessione tra C
1
e C
3
. Chiaramente E
s
= l
1
l
2
, quindi
P(E
s
) = p
1
p
2
Connessione in parallelo. Si consideri il grafo
C
1
C
2
p
2
l
2
l
1
p
1
46
Sia E
p
=esiste una connessione tra C
1
e C
2
. Chiaramente E
p
= l
1
l
2
, la connessione
esiste se almeno una delle due connessioni esiste, quindi
P(E
p
) = P(l
1
l
2
) = 1 P((l
1
l
2
)
c
) = 1 P(l
c
1
l
c
2
) = 1 (1 p
1
)(1 p
2
)
Osservazione. La connessione in serie degrada ladabilit`a del collegamento poiche p
1
p
2

minp
1
, p
2
, mentre la connessione in parallelo migliora ladabilit`a del collegamento
poiche 1 (1 p
1
)(1 p
2
) maxp
1
, p
2
(dimostratelo!). Con questo principio si pu`o
costruire una connessione ad alta adabilit`a mettendo in parallelo un numero suciente
di connessioni scadenti. Esercizio. Se metto in parallelo n canali di adabilit`a p laf-
dabilit`a della connessione `e 1 (1 p)
n
che, scegliendo n sucientemente grande, pu`o
essere portato tanto vicino ad 1 quanto si vuole.
Calcolo delladabilit`a della rete di calcolatori. Per il calcolo di P(E) analizziamo separata-
mente le sottoreti. La serie (l
4
, l
5
) ha adabilit`a 0.8 0.9 = 0.72 , la serie (l
6
, l
7
) adabilit`a
0.7 0.3 = 0.21. Il parallelo di queste due ha adabilit`a 1 (1 0.72)(1 0.21) 0.78
e mettendo in serie il collegamento l
1
ladabilit`a diventa 0.9 0.78 = 0.7: questa `e laf-
dabilit`a della sottorete (l
1
, l
4
, l
5
, l
6
, l
7
). La sottorete (l
2
, l
3
) `e una serie di adabilit`a
0.75 0.95 = 0.7125. La rete complessiva `e il parallelo delle sottoreti (l
1
, l
4
, l
5
, l
6
, l
7
) e
(l
2
, l
3
), quindi ricaviamo che P(E) = 1 (1 0.7)(1 0.7125) = 0.91.
8.4 Estensioni
Formula della probabilit`a totale condizionata.
La formula in questione `e
P(E[G) = P(E[F G)P(F[G) +P(E[F
c
G)P(F
c
[G),
dimostratela a partire dalla denizione di probabilit`a condizionata. Osservate che la
formula della probabilit`a totale usuale corrisponde al caso G = .
Esercizio. (Charles Dodgson, alias Lewis Carroll) Nel cilindro di un mago c`e un coniglio
di colore non noto, ma equiprobabilmente Bianco o Nero. Inserisco un coniglio Bianco
nel cilindro, mescolo bene, ed estraggo a caso uno dei due conigli. Il coniglio estratto `e
Bianco. Tenendo conto del risultato dellestrazione, qual `e la probabilit`a che il coniglio
rimasto nel cilindro sia Bianco? Carroll scrive due soluzioni, la prima volutamente errata,
ma convincente, che fornisce soluzione
1
2
, la seconda corretta che fornisce
2
3
(conviene
usare la formula della probabilit`a totale condizionata).
Prima soluzione. Ho inserito un coniglio bianco ed ho estratto un coniglio bianco, quindi lo
stato allinterno del cilindro non si `e modicato rispetto alla situazione iniziale. La proba-
bilit`a che nellurna sia rimasto un coniglio bianco `e uguale alla probabilit`a che inizialmente
il coniglio fosse bianco ovvero
1
2
. Dov`e lerrore? Qual `e la soluzione corretta?
Esercizio. (versione generalizzata del precedente) Unurna contiene n palline, in parte
Bianche ed in parte Nere. Non sappiamo quante sono le Bianche, ma tutte le possibilit`a
(Bianche, Nere) = (0, n), (1, n 1), ..., (n, 0)
sono equiprobabili. Inseriamo una pallina Bianca nellurna, mescoliamo bene, ed estra-
iamo a caso una pallina che risulta essere Bianca. Qual `e, tenendo conto dellinfor-
mazione ottenuta dallestrazione, la probabilit`a che tutte le palline nellurna siano Bianche?
(soluzione
2
n+2
).
47
Appendice alla Lezione 8
Indipendenza condizionata e applicazioni
(in preparazione argomento non in programma nella.a. 2012-2013)
48
Lezione 9 (Mercoled`, 20 marzo 2013, ore 16:25-18:05)
9.1 Variabili aleatorie discrete
Spesso interessa estrarre, e sintetizzare in forma quantitativa, informazioni contenute negli
esiti elementari dello spazio campionario .
Esempio 1. Sia lo spazio che rappresenta le risposte fornite dagli studenti di Ingegneria
dellInformazione a un questionario. Sia = ( nome, cognome, et`a, anno di corso, numero
di esami superati . . . ). Per una certa indagine anagraca interessa let`a degli studenti.
In questo caso, per estrarre da linformazione dinteresse, si associa ad ogni il
numero E() :=terza coordinata di .
Esempio 2. Consideriamo lo spazio che rappresenta gli esiti di n lanci di un moneta. Per
comodit`a rappresentiamo gli esiti Croce e Testa con i bit 0 e 1 rispettivamente, quindi
= (b
1
, . . . b
n
), b
i
0, 1
Ogni esito contiene molte informazioni quantitative. Ad esempio, nella lezione
8 avevamo denito n
T
= n
T
() il numero di Teste nella sequenza . In questo caso
linformazione n
T
() la si pu`o estrarre associando ad ogni = (b
1
, b
2
, . . . b
n
) il numero
n
T
() =

n
k=1
b
k
. Dagli si possono estrarre altre informazioni quantitative, ad
esempio (a.) qual `e il bit relativo al k-esimo lancio per k = 1, . . . n? (b.) Qual `e il numero
di Teste nei primi
n
2
lanci? (c.) Qual `e la dierenza tra il numero di Teste e di Croci negli
n lanci? ecc.
`
E evidente che estrarre informazione quantitativa da corrisponde a denire una
funzione di a valori in R, ed `e proprio questidea che formalizziamo nella seguente
denizione.
Denizione. Sia (, P(), P) uno spazio di probabilit`a discreto. Ogni mappa
X : R,
`e detta variabile aleatoria (v.a.) discreta su .
R
X

X()

Terminologia. Limmagine di X, ovvero il sottoinsieme del codominio R costituito dai


valori assunti da X, in simboli
A := X() = x R[ X() = x per qualche ,
49
viene talora detto alfabeto della v.a. X. Poiche `e discreto per ipotesi, ed X `e una
funzione, anche A `e discreto, essendo in generale [A[ = [X()[ [[.
Si noti che, senza perdita di generalit`a, si pu`o sempre restringere il codominio di X da R ad
A R, in tal modo rendendo la v.a. X : A sempre suriettiva, ossia con codominio
coincidente con linsieme dei valori. Peraltro le variabili aleatorie iniettive, cio`e quelle che
per ogni coppia di esiti
1
,=
2
prendono valori X(
1
) ,= X(
2
) non sono interessanti,
trattandosi di mappe che si limitano a rietichettare gli elementi di . Ad esempio per
:= C, T, la variabile aleatoria X : 0, 1 denita come X(C) = 0, X(T) = 1 `e
iniettiva e semplicemente ribattezza gli esiti C 0 e T 1.
Esempi di variabili aleatorie
Esempio 1. Sia := (d
1
, d
2
) [ 1 d
1
, d
2
6 , lo spazio campionario degli esiti del lancio
di due dadi distinti, uno Rosso ed uno Verde. Per ssare le idee, se = (d
1
, d
2
), allora d
1
`e la faccia uscita sul dado Rosso e d
2
sul Verde. La mappa
= (d
1
, d
2
) X
1
() = d
1
denisce la variabile aleatoria X
1
, il cui valore indica la faccia uscita sul dado Rosso.
Lalfabeto di X
1
`e A
1
= 1, 2, 3, 4, 5, 6. La mappa
= (d
1
, d
2
) X
2
() = d
2
denisce la variabile aleatoria X
2
, il cui valore indica la faccia uscita sul dado Verde.
Lalfabeto A
2
= A
1
. La mappa
= (d
1
, d
2
) W() = mind
1
, d
2

denisce la variabile aleatoria W, il cui valore indica il minimo tra la faccia Rossa e quella
Verde. Lalfabeto J = A
1
. La mappa
= (d
1
, d
2
) Z() = maxd
1
, d
2

denisce la variabile aleatoria Z, il cui valore indica il massimo tra la faccia Rossa e quella
Verde. Lalfabeto : = A
1
. La mappa
= (d
1
, d
2
) X() = d
1
+d
2
denisce la variabile aleatoria X, il cui valore indica la somma delle facce Rossa e Verde.
Lalfabeto di X `e A = 2, 3, 4, . . . , 12.
Esempio 2. Sia = (b
1
, b
2
, . . . b
n
) [ b
i
0, 1 e si considerino le seguenti mappe
= (b
1
, b
2
. . . , b
n
) X
k
() = b
k
, k = 1, 2 . . . n.
Le v.a. X
k
, k = 1, . . . n, hanno alfabeto comune A = 0, 1 e, per ogni k, rappresentano
lesito del k-esimo lancio della moneta.
Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con
le mappe. Ad esempio tra variabili aleatorie si possono denire le abituali operazioni di
somma, dierenza, prodotto e quoziente tra mappe.
Esempi 1, 2 segue. Con riferimento alle variabili aleatorie denite nellEsempio 1, `e
immediato vericare che X = X
1
+ X
2
, inoltre W = minX
1
, X
2
, e Z = maxX
1
, X
2
.
Con riferimento allEsempio 2, sullo stesso `e denita la somma
X =
n

k=1
X
k
,
50
che nel punto = (b
1
, . . . , b
n
), vale X() =

n
k=1
X
k
() =

n
k=1
b
k
, ossia il numero di
Teste presenti in .
Osservazione sulla terminologia. Terminologia e notazione probabilistica sono sottosopra
rispetto allanalisi matematica. In teoria della probabilit`a la mappa
`
detta variabile aleato-
ria e denotata X, mentre in analisi matematica la mappa `e detta funzione e denotata
f, mentre la variabile, tradizionamente denotata x, `e largomento della funzione. Si noti
inoltre che la mappa X, benche sia detta variabile aleatoria non ha nulla di aleatorio,
associando deterministicamente ad ogni il valore X(). La variabile X `e detta
aleatoria in riferimento allincertezzza dei valori X(), incertezza ereditata da quella del-
lesito . Prima di eettuare lesperimento `e incerto e questincertezza si trasferisce
ai valori X() di ogni variabile aleatoria X denita su .
Probabilizzare linsieme dei valori A
Lincertezza intrinseca sullesito comporta che i valori X() assunti dalla v.a.
X siano a loro volta incerti. Interessa quindi probabilizzare lo spazio campionario dei
valori assunti da X, ovvero A. Naturalmente su A si possono denire innite misure di
probabilit`a, ma interessa costruirne una, diciamola P
t
, che sia compatibile con la misura
P denita sul dominio della v.a. X. Poiche A `e discreto sar`a suciente assegnare P
t
sui singleton di A. Nel caso di alfabeto nito scriviamo
A := x
1
, x
2
, . . . , x
N
,
e quindi si deve assegnare P
t
(x
k
) per ogni k = 1, 2 . . . N. Avremo bisogno di alcuni
risultati preliminari.
Denizione. Per ogni B A, si denisce lantiimmagine di B
X
1
(B) := [ X() B.
La gura qui sotto illustra lantiimmagine di un singleton di A.
R
X
x

X
-1
(x)
Le anti-immagini dei singleton di A formano una partizione di come specicato dal
seguente Lemma, la cui banale dimostrazione si basa sulla denizione di anti-immagine e
sul fatto che X `e una mappa.
Lemma. (a.) Se x
h
,= x
k
allora X
1
(x
h
) X
1
(x
k
) = . (b.)

N
k=1
X
1
_
x
k

_
= .
51
Esiste dunque una corrispondenza biunivoca tra gli esiti x
k
A e gli eventi X
1
(x
k
)
(si veda anche la Figura successiva) ed `e naturale denire la misura P
t
assegnando
P
t
(x
k
) := P
_
X
1
(x
k
)
_
, k = 1, 2, . . . N.
Notazione. Per levento X
1
(x
k
) useremo indierentemente le notazioni [ X() =
x
k
, [X = x
k
] e anche, pi` u sinteticamente, X = x
k
, specialmente come argomento della
misura di probabilit`a. Scriveremo quindi indierentemente
P( ; X() = x
k
) = P
_
X
1
(x
k
)
_
= P ([X = x
k
]) = P(X = x
k
).
Lemma. P
t
`e una misura di probabilit`a.
Dimostrazione. Per denizione P
t
(x
k
) 0 per ogni k. Rimane solo da vericare che
la somma

N
k=1
P
t
(x
k
) = 1, ma questa `e unimmediata conseguenza del fatto che gli
eventi
_
X
1
(x
i
)
_
N
k=1
formano una partizione di .
La misura P
t
`e detta misura indotta su A dalla variabile aleatoria X.
Esempio. Consideriamo la v.a. Z denita nellEsempio 1. La Figura mette in evidenza
tutti gli eventi dinteresse.
1 2 3 4 5 6
6
5
4
3
2
1
1 2 3 4 5 6
Z
Z

Supponendo che su sia stata denita la misura P equiprobabile, la misura P


t
su : =
1, 2, . . . , 6 `e (usiamo varie notazioni solo per esercizio)
P
t
(1) = P
_
Z
1
(1)
_
= P(Z = 1) =
1
36
,
P
t
(2) = P
_
Z
1
(2)
_
= P(Z = 2) =
3
36
,
P
t
(3) = P
_
Z
1
(3)
_
= P(Z = 3) =
5
36
,
P
t
(4) = P
_
Z
1
(4)
_
= P(Z = 4) =
7
36
,
P
t
(5) = P
_
Z
1
(5)
_
= P(Z = 5) =
9
36
,
P
t
(6) = P
_
Z
1
(6)
_
= P(Z = 6) =
11
36
.
52
Densit`a di probabilit`a discreta
Denizione. Data la v.a. X a valori in A, la sequenza p
X
: A [0, 1],
x
k
p
X
(x
k
) := P(X = x
k
) = P
t
(x
k
),
`e detta densit`a (o funzione di massa di probabilit`a) della variabile aleatoria X.
Propriet`a. Poiche P
t
`e una misura di probabilit`a, la densit`a di una v.a. discreta X `e una
sequenza tale che
(i.) p
X
(x
k
) 0, per ogni x
k
A. (1)
(ii.)

k
p
X
(x
k
) = 1. (2)
Osservazioni critiche sulla densit`a
Si noti che le informazioni contenute nella densit`a p
X
sono tutte relative allinsieme dei
valori A della v.a. X. Conoscere (oppure assegnare) la densit`a p
X
della v.a. X signica
conoscere (oppure assegnare) lalfabeto A, che `e il dominio di p
X
, e la misura di probabilit`a
su A. La densit`a p
X
non conserva traccia ne dello spazio di probabilit`a (T, P) su cui X
`e denita, ne tantomeno della forma funzionale di X.
5
Data la densit`a p
X
di una v.a. X, si possono calcolare le probabilit`a degli eventi nello
spazio dei valori A,
P
t
(B) = P(X B) =

k ; x
k
.
p
X
(x
k
), per ogni B A.
Dal punto di vista delle applicazioni questa `e, quasi sempre, la sola informazione dinteresse
sulla v.a. X, mentre la descrizione analitica della mappa X : R `e irrilevante. In
virt` u della precedente osservazione `e naturale identicare tutte le variabili aleatorie che
hanno la stessa densit`a. Bisogna per`o prestare la massima attenzione su questo punto,
per evitare errori grossolani.
Esempio 3 (v.a. diverse con la medesima densit`a). Si consideri il modello binomiale della
Lezione 8, con n = 2 e parametro p [0, 1]. Allora
= 00, 01, 10, 11,
e P(00) = (1 p)
2
, P(01) = P(10) = p(1 p), P(11) = p
2
. Si considerino le
due variabili aleatorie X
1
e X
2
, denite su come nellEsempio 1, e che rappresentano
rispettivamente il risultato del primo e del secondo lancio. Le v.a. X
1
e X
2
hanno lo stesso
alfabeto, A = A
1
= A
2
= 0, 1. La densit`a di X
1
`e
p
X
1
(1) = P
_
X
1
1
(1)
_
= P(10, 11) = p(1 p) +p
2
= p,
e poiche gli elementi della densit`a sommano ad 1
p
X
1
(0) = 1 p.
5
Al proposito `e interessante osservare che le propriet`a (1) e (2) caratterizzano le densit` a di probabilit` a,
come dimostrato dal seguente Lemma.
Lemma. Assegnato un insieme nito . ed una sequenza p() : . [0, 1] tale che la mappa x p(x)
soddisfa le propriet` a (1) e (2) esiste una variabile aleatoria X la cui densit` a p
X
() = p().
Dimostrazione. Basta prendere (, T, P) = (., P(T), P

) dove P

(|x) := p(x) per ogni x . e come


variabile aleatoria la mappa identit` a X : . . che associa x X(x) = x.
53
Analogamente, per p
X
2
(), troviamo
p
X
2
(1) = P
_
X
1
2
(1)
_
= P(01, 11) = p(1 p) +p
2
= p, p
X
2
(0) = 1 p.
Concludiamo che le v.a. X
1
e X
2
hanno la stessa densit`a, p
X
1
() = p
X
2
(), quindi dal
punto di vista probabilistico le due v.a. X
1
ed X
2
si possono considerare equivalenti. Ci`o
non signica per`o che, in virt` u dellequivalenza probabilistica, si possa scrivere
X
1
+X
2
= 2X
1
, STRAFALCIONE
Commette questo grossolano errore chi non ricorda che, dal punto di vista funzionale, X
1
ed
X
2
sono mappe diverse, ad esempio X
1
((01)) = 0 ,= X
2
((01)) = 1, quindi X
1
+X
2
,= 2X
1
(vedi Figura). Microesercizio. Calcolare le mappe X
1
+X
2
e 2X
1
per ogni .
00 01
10 11
0
1
X
1
00 01
10 11
0
1
X
2
9.2 Famiglie di v.a. discrete notevoli
Dal punto di vista applicativo le variabili aleatorie sono quasi sempre specicate solo
probabilisticamente, fornendone cio`e linsieme dei valori (alfabeto) e i valori della densit`a.
Ci`o `e dovuto al fatto che tipicamente queste sono le uniche informazioni a disposizione dello
sperimentatore, ed `e quindi naturale considerare come probabilisticamente indistinguibili
variabili aleatorie con lo stesso alfabeto A e la stessa densit`a di probabilit`a p
X
().
Attenzione: Ci`o signica che, nelle applicazioni, non `e nota la funzione X(). Per
ribadire quanto discusso nella precedente sezione, due v.a. con la stessa stessa densit`a non
assumono necessariamente lo stesso valore in corrispondenza ad ogni : NON `e cio`e vero
che X
1
= X
2
, ma solo che P(X
1
= x
k
) = P(X
2
= x
k
) per ogni x
k
A.
Nel seguito considereremo tutte le v.a. con la stessa densit`a come formanti una famiglia
di v.a. probabilisticamente equivalenti. Alcune di queste famiglie sono talmente ricorrenti
nelle applicazioni da meritare un nome.
(a.) Bernoulli
6
La v.a. X `e detta di Bernoulli di parametro p, e si denota X b(p), se essa ha albabeto
A = 0, 1 e densit`a p
X
(1) = p, p
X
(0) = 1 p.
Esempio 1. Se X `e la v.a. che modella lesito del lancio di una moneta con P(T) = p,
allora X b(p).
Esempio 2. Se X `e la v.a. aleatoria che assume valore X = 1 se lesito di un dado
equilibrato `e un numero pari, e valore X = 0 se lesito `e dispari, allora X b
_
1
2
_
.
6
Per ribadire una terza volta le precedenti osservazioni, a questo punto dovrebbe essere chiarissimo che
le v.a. di Bernoulli b(p) costituiscono non una, ma innite famiglie di v.a., una per ogni ssato p [0, 1].
54
Esempio 3. Se (, T, P) `e uno spazio di probabilit`a (non necessariamente discreto) ed
E T un evento, la v.a.

E
denita come

E
() =
_
0, se / E,
1, se E
`e una v.a. di Bernoulli,

E
b (P(E)). La v.a. aleatoria

E
`e detta funzione indicatrice
dellevento E.
(b.) Binomiali
La v.a. X `e detta di binomiale di parametri n e p, e si denota X Bin(n, p), se essa ha
albabeto A = 0, 1 . . . n e densit` a
p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, k = 0, 1, . . . , n (3)
Esempio 4. Se X `e la v.a. che modella il numero di Teste su n lanci di una moneta di
probabilit`a di Testa P(T) = p, ed i lanci sono indipendenti come descritto nella Lezione
8, allora X Bin(n, p).
Esempio 5. Se X
k
b(p), per k = 1, . . . n, ci aspettiamo che X :=

n
k=1
X
k
Bin(n, p),
poiche X
k
si pu`o interpretare come risultato del k-esimo lancio di una moneta P(T) = p, ed
X `e il numero di Teste in n lanci. Questa interpretazione `e corretta solo sotto unipotesi
dindipendenza per le v.a. X
k
che rietta lipotesi dindipendenza di certi eventi usata
nella Lezione 8 per derivare la misura (3). Riprenderemo lesempio pi` u avanti.
(c.) Uniformi
La v.a. X `e detta uniforme di alfabeto A, e si denota X |(A), se essa ha albabeto
A = x
1
, x
2
, . . . x
n
, di cardinalit`a nita, e densit`a uniforme p
X
(x
k
) =
1
N
, per ogni
k = 1, 2, . . . N.
55
Lezione 10 (Luned`, 25 marzo 2013, ore 10:30-12:15)
10.1 Funzione di distribuzione
Abbiamo visto nella Lezione 9 che la densit`a discreta p
X
() fornisce una descrizione prob-
abilistica completa della variabile aleatoria X. In questa sezione introduciamo la funzione
di distribuzione, uno strumento alternativo per la descrizione probabilistica di X, molto
pi` u generale e essibile della densit`a discreta.
Denizione. Data la variabile aleatoria X : R, la funzione F
X
: R R denita
come
F
X
(x) := P(X x)
`e detta funzione di distribuzione (FdD) della v.a. X.
Osservazioni sulla denizione.
(a.) Nella denizione della funzione di distribuzione si fa riferimento alla probabilit`a P
sul dominio (, T, P) della v.a. X. Rivediamo le varie forme di scrittura equivalente,
introdotte in precedenza ed equivalenti tra loro, che si possono utilizzare per la denizione
appena introdotta
F
X
(x) := P(X x) = P
_
X
1
(
_
, x]
_
_
= P( [ X() (, x] ) = P( [ X() x)
(b.) Si noti che peraltro non `e necessario disporre della mappa X() e della misura
originale P. Per calcolare la funzione di distribuzione in ogni x R `e suciente disporre
della densit`a discreta p
X
() della v.a. X. Infatti poiche linsieme dei valori A `e discreto,
vale la seguente decomposizione disgiunta
[ X() B =
_
x
k
B
[ X() = x
k
, per ogni B R
dove lunione `e al pi` u numerabile, poiche [x
k
B[ A[. In particolare per B = (, x]
vale
[ X() (, x] =
_
x
k
x
[ X() = x
k
, per ogni B R
da cui segue lespressione alternativa per la FdD
F
X
(x) = P( [ X() (, x] )
=

x
k
x
P( [ X() = x
k
) =

x
k
x
p
X
(x
k
)
Questespressione dimostra che la funzione di distribuzione si pu`o ricavare a partire dalla
densit`a.
Esempio. Si consideri la variabile aleatoria X ad insieme di valori A = 1, 0, 2, 3 e
densit`a su A
p
X
(1) = 0.5, p
X
(0) = 0.125, p
X
(2) = 0.25, p
X
(3) = 0.125.
Usando lespressione F
X
(x) =

x
k
x
p
X
(x
k
) si traccia immediatamente il seguente graco
56
-
6
t
t
t
t
-1 0 1 2 3
x
F
X
(x)
1
.875
.625
.5
Si osservi che la funzione di distribuzione `e costante a tratti, con discontinuit`a di prima
specie (salti: ovvero esistono niti i limiti da sinistra e da destra) in corrispondenza
dei valori assunti dalla variabile aleatoria (in gura i punti x = 1, 0, 2, 3). Lampiezza
dei salti coincide con il valore della densit`a nel punto di salto. Si noti inoltre che la
funzione F
X
(x) `e nulla per x ed `e 1 per x , ed `e continua a destra ovunque.
Queste sono propriet`a generali della funzione di distribuzione che discuteremo in dettaglio
qui sotto. Come ultima osservazione `e ovvio che a partire dalla conoscenza di F
X
(x) `e
immediatamente possibile scrivere la densit`a di probabilit`a di X. Poiche `e possibile passare
da p
X
() ad F
X
() e viceversa le due descrizioni della v.a. X contengono la medesima
informazione.
Rappresentazione della FdD come somma di gradini traslati
Sia 1l(x) il gradino unitario continuo a destra,
1l(x) =
_
0, se x < 0,
1, se x 0.
Si riconosce immediatamente la validit`a della seguente rappresentazione della FdD come
somma di gradini unitari traslati
F
X
(x) = P(X x) =

x
k
x
p
X
(x
k
) =

x
k
.
p
X
(x
k
)1l(x x
k
). (1)
Nota bene. Lultima somma si estende su tutti i possibili valori di x
k
A.
Usando la regola per il calcolo delle derivate generalizzate si ottiene la funzione generaliz-
zata
f
X
(x) :=
dF(x)
dx
=

x
k
.
p
X
(x
k
)(x x
k
), (2)
dove (x) `e la delta di Dirac. La (2) `e una rappresentazione alternativa dellinformazione
contenuta nella densit`a discreta p
X
() e vedremo a breve in quali contesti `e conveniente
utilizzarla.
Propriet`a della funzione di distribuzione
(a.) F
X
() := lim
x
F
X
(x) = 0.
Dimostrazione. Se [A[ < esiste minimo x

A, e per ogni x < x

vale F
X
(x) = 0, da
cui segue la propriet`a.
(b.) F
X
() := lim
x
F
X
(x) = 1.
Dimostrazione. Se [A[ < esiste massimo x

A, e per ogni x > x

vale F
X
(x) = 1, da
cui segue la propriet`a.
57
(c.) F
X
`e non decrescente: se u v allora F
X
(u) F
X
(v).
Dimostrazione.
`
E una propriet`a generale dellanti-immagine che se A B allora X
1
(A)
X
1
(B). Prendendo A = (, u] e B = (, v], e ricordando la monotonia della misura
di probabilit`a, si conclude che F
X
(u) = P(X
1
(, u]) P(X
1
(, v]) = F
X
(v).
(d.) P(u < X v) = F
X
(v) F
X
(u), per ogni u < v < .
Dimostrazione. In generale X
1
(A B) = X
1
(A) X
1
(B). Per ogni u < v si con-
sideri lunione disgiunta (, v] = (, u] (u, v], quindi X
1
(, v] = X
1
(, u]
X
1
(u, v], `e ancora unione disgiunta. Prendendo la P di entrambi i membri si conclude
Questa propriet`a `e utile per la valutazione della probabilit`a di intervalli di valori di X.
(d.) P(u X v) = F
X
(v) F
X
(u) + P(X = u) = F
X
(v) F
X
(u), per ogni
< u v < .
(e.) F
X
`e continua a destra: lim
0
F
X
(x +) = F
X
(x),
Dimostrazione. Nel caso [A[ < si pu`o ricorrere alla rappresentazione (1). Essendo
somma di un numero nito di funzioni continue a destra F
X
() `e continua a destra.
10.2 Valore atteso
Motivazione della denizione
Interpretazione frequentista della funzione di massa di probabilit`a. Vogliamo modellare
con una variabile aleatoria X il voto conseguito agli esami dallo studente Mario Rossi.
Mario ha nora registrato i seguenti voti sul libretto:
21, 24, 21, 27, 27, 24, 27, 27, 27, 24, 24, 27.
I voti registrati sono gli esiti di n = 12 ripetizioni dellesperimento. Basandoci sulle n = 12
osservazioni, lalfabeto della v.a. X `e A = 21, 24, 27. La densit`a della v.a. X non `e nota
a priori, ma adottando il punto di vista frequentista usiamo le osservazioni per assegnarla
empiricamente. Denoteremo la densit`a empirica p
X
(). Ricordando che la probabilit`a
empirica dellevento E `e
n
E
n
, con i dati a disposizione la densit`a empirica `e:
p
X
(21) = P([X = 21]) =
n
21
n
=
2
12
,
p
X
(24) = P([X = 24]) =
n
24
n
=
4
12
,
p
X
(27) = P([X = 27]) =
n
27
n
=
6
12
.
Il classico parametro riassuntivo dei voti di Mario `e la media aritmetica, che interpretiamo
come valore intorno al quale varia il voto nelle diverse prove. La media aritmetica dei voti
di Mario `e
21 + 24 + 21 + 27 + 27 + 24 + 27 + 27 + 27 + 24 + 24 + 27
12
=
2 21 + 4 24 + 6 27
12
= 25,
dove, per eettuare il calcolo, abbiamo raggruppato i voti.
`
E interessante osservare che
questa formula si pu`o riscrivere in termini dei valori assunti dalla v.a. X, ovvero 21, 24,
e 27 e dei valori della densit`a empirica, come

i
x
i
p
X
(x
i
) = 21
2
12
+ 24
4
12
+ 27
6
12
= 25.
Questa espressione alternativa della media aritmetica dei valori osservati ispirer`a la denizione
del pi` u importante parametro riassuntivo del comportamento di una variabile aleatoria: il
valore atteso.
58
Valore atteso: denizione e teorema fondamentale
`
E un parametro riassuntivo del comportamento di una v.a. La terminologia `e molto
varia: valore atteso, valore medio, media, aspettazione, speranza matematica.
Denizione.
E(X) :=

x
k
.
x
k
p
X
(x
k
).
Attenzione. Se lalfabeto A `e nito il valore atteso `e una somma nita quindi esiste sempre.
Se [A[ = il valore atteso, denito come somma di una serie, non sempre esiste.
Esercizio obbligatorio. Utilizzare la densit`a generalizzata f
X
(x) denita in (2) per riscri-
vere il valore atteso come
E(X) =

x
k
.
x
k
p
X
(x
k
) =
_

xf
X
(x) dx
Esempi
Esempio 1. Sia X =

E
, la funzione indicatrice di E . Allora E(

E
) = P(E).
Esempio 2. Sia X b(p) allora E(X) = 0 (1 p) + 1 p = p.
Esempio 3. Sia X |(x
1
, x
2
, . . . x
N
) allora E(X) =

n
i=1
x
i
1
N
=
1
N

n
i=1
x
i
. Questo
esempio mostra che il valore atteso `e la generalizzazione della media aritmetica al caso di
v.a. non uniformi.
Esempio 4. Sia X una v.a. con A = 1, 3, 9 con p
X
(1) =
2
3
p
X
(3) =
1
6
, p
X
(9) =
1
6
. Allora
E(X) = 1
2
3
+ 3
1
6
+ 9
1
6
.
Teorema fondamentale. E(X) =

X()P().
Dimostrazione.
E(X) :=

k
x
k
p
X
(x
k
)
=

k
x
k
P(X = x
k
) =

k
x
k

X()=x
k
P()
=

X()=x
k
x
k
P() =

X()=x
k
X()P()
=

X()P()
Questo risultato `e molto importante dal punto di vista teorico - vedi ad esempio la di-
mostrazione della linearit`a del valore atteso qui sotto. Come strumento di calcolo `e utile
solo nelle (rare) occasioni in cui si dispone dello spazio e della mappa X : R.
Normalmente si dispone solo di A e della densit`a p
X
o della FdD F
X
.
Valore atteso: propriet`a di linearit`a
Omogeneit`a. Per ogni a R vale E(aX) = a E(X).
Addittivit`a. Per ogni coppia di v.a. X, Y vale E(X+Y ) = E(X) +E(Y ). Questa `e unim-
mediata conseguenza del teorema fondamentale. E(X+Y ) =

(X()+Y ())P() =

X()P() +

Y ()P().
59
Quando omegeneit`a ed addittivit`a valgono entrambe allora si parla di di linearit`a. Il valore
atteso `e lineare. Lestensione a pi` u di due v.a. `e immediata. Si ha che
E
_
n

t=1
a
t
X
t
_
=
n

t=1
a
t
E(X
t
)
Osservazione sulle v.a. costanti. Ogni numero reale b R pu`o essere interpretato come
una v.a. costante (degenere) ovvero come mappa X() = b per ogni . Lalfa-
beto `e b, la densit`a `e p(b) = 1 e la funzione di distribuzione F(x) = 1l(x b). Il valore
atteso `e chiaramente E(b) = b. La propriet`a di linearit`a vista sopra continua quindi a
valere quando una delle v.a. `e una costante.
Esempio. Se Y = aX +b allora E(Y ) = aE(X) +b.
Esempio. Se X b(0.5) ed Y = 2X 1 allora E(Y ) = 0.
Valore atteso: ulteriori propriet`a
(a.) Positivit`a. Se X `e una v.a. positiva (cio`e A R
+
) allora E(X) 0. La dimostrazione
`e banale: E(X) =

i
x
i
p
X
(x
i
) 0 se tutti gli x
i
0.
(b.) Monotonia. Se X Y (cio`e X() Y () per ogni ), allora E(X)
E(Y ). La dimostrazione `e immediata ricorrendo al teorema fondamentale: E(X) =

X()P()

Y ()P(). Esempio. Se X rappresenta il numero di lanci


di una moneta no ad ottenere la prima Testa, ed Y il numero di lanci no ad ottenere
la seconda Testa, allora X < Y ed E(X) < E(Y ). Vedremo in seguito come si calcolano
questi valori attesi.
(c.) Limite inferiore e superiore. min
k
x
k
E(X) max
k
x
k
. Dimostrazione immediata:
E(X) =

k
x
k
p
X
(x
k
)

k
max
k
x
k
p
X
(x
k
) = max
k
x
k

k
p
X
(x
k
) = max
k
x
k
;
analoga dimostrazione per il limite inferiore.
Interpretazione meccanica del valore atteso
Si consideri una distribuzione di N masse (m
1
, m
2
, . . . m
N
) sullasse reale, dislocate rispet-
tivamente nei punti (x
1
, x
2
, . . . x
N
).
-
6
t t t t
x
1
x
2
x
3
x
4
m
1
m
2
m
3
m
4
a
Per determinare il baricentro a si impone che la risultante delle coppie sia nulla, il che
fornisce la seguente equazione per a
N

k=1
(x
k
a)m
k
= 0
da cui si ricava
a =

N
i=k
x
k
m
k

N
k=1
m
k
.
Si consideri ora una v.a. di alfabeto A = x
1
, . . . x
N
e densit`a p
X
(x
1
), . . . p
X
(x
N
). Identi-
cando le masse m
i
con i valori p
X
(x
k
) `e evidente che il valore atteso E(X) =

x
k
p
X
(x
k
)
coincide con il baricentro del sistema di N masse p
X
(x
k
), dislocate nei punti x
k
. Lunica
peculiarit`a del caso probabilistico `e che la massa totale `e sempre pari a

k
m
k
= 1 kg.
60
Lezione 11 (Marted`, 26 marzo 2013, ore 16:25-18:05)
11.1 Funzioni di una variabile aleatoria
Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con le
mappe. In particolare, se X : R `e una variabile aleatoria e g : R R una funzione
reale di variabile reale, si pu`o denire la mappa composta Y := g X,
Y := g X : R, Y () := g(X())
che `e a sua volta una variabile aleatoria. Sia } lalfabeto della v.a. Y . Poiche `e discreto
e [}[ = [g(A)[ [A[ [[, si conclude che anche Y `e una v.a. discreta. Il problema
fondamentale nello studio delle funzioni di v.a. `e la determinazione della densit`a p
Y
()
indotta, a partire dai dati p
X
() e g.
Esempi
Negli Esempi 1 e 2 la v.a. X `e completamente nota come mappa X : R, lEsempio
3 si riferisce al caso, molto pi` u frequente, in cui della v.a. X `e solo nota la densit`a p
X
().
Esempio 1. Sia := 00, 01, 10, 11 lo spazio campionario di 2 lanci di una moneta.
Per = (b
1
, b
2
) sia X() = b
1
+ b
2
, ovvero X rappresenta il numero di Teste in 2
lanci. Sia inoltre g : R R la funzione x g(x) = x
2
. Allora Y := g(X) `e la v.a.
Y () := g(X()) = X()
2
. Si veda la Figura qui sotto. Si noti in particolare che
lalfabeto A = 0, 1, 2 viene mappato in } = 0, 1, 4. Questo `e un esempio banale poiche
la mappa g : A } `e iniettiva. Se ad esempio nello spazio (, T, P) la misura P `e
equiprobabile allora X Bin(2, 0.5) con p
X
(0) = 0.25, p
X
(1) = 0.5 e p
X
(2) = 0.25, e
poiche g `e iniettiva `e evidente dalla Figura che la misura indotta su } `e p
Y
(0) = p
X
(0) =
0.25, p
Y
(1) = p
X
(1) = 0.5 e p
Y
(4) = p
X
(2) = 0.25 (nonostante g sia iniettiva, la v.a. Y
non `e binomiale perche?)
00
01
10
11
0
1
2
1
4

X
Y
X g
R R
R
Y=g(X)=X
2
0
Esempio 2. Sia come sopra e per = (b
1
, b
2
) sia X() = 2(b
1
+b
2
) 1. Sia inoltre g :
R R la funzione x g(x) = x
2
. Allora Y := g(X) `e la v.a. Y () := g(X()) =
X()
2
. Si veda la Figura seguente. Si noti in particolare che lalfabeto A = 1, 1, 3
viene mappato in } = 1, 9. In questo esempio la mappa g : A } non `e iniettiva. Se
61
nello spazio (, T, P) la misura P `e equiprobabile, inducendo P su A si trova la densit`a
della v.a. X che vale p
X
(1) = 0.25, p
X
(1) = 0.5 e p
X
(3) = 0.25. Inducendo la misura da
A a } si trova poi la densit`a di Y , che vale p
Y
(1) = p
X
(1) +p
X
(1) = 0.25 +0.50 = 0.75,
e p
Y
(9) = p
X
(3) = 0.25.
00
01
10
11
-1
1
3
1
9

X
Y
X g
R R
R
Y=g(X)=X
2
Esempio 3. Sia A = 1, 0, 1 ed X |(A) una v.a. uniforme, ovvero con p
X
(1) =
p
X
(0) = p
X
(1) =
1
3
. Sia inoltre g(x) = x
2
, come nei precedenti esempi. La variabile
aleatoria Y = X
2
ha alfabeto } = 0, 1, inoltre p
Y
(1) = p
X
(1)+p
X
(1) =
2
3
e ovviamente
p
Y
(0) = p
X
(0) =
1
3
= 1 p
Y
(1). Si noti che la v.a. Y b
_
2
3
_
.
0
1
X Y
Y=g(X)=X
2
0
1
-1
Formula generale per la densit`a di Y = g(X)
La densit`a indotta p
Y
() si ricava in generale facendo uso della decomposizione disgiunta
[Y = y

] =
_
k
g(x
k
)=y

[X = x
k
].
La formula generale si scrive
p
Y
(y

) = P(Y = y

) =

k
g(x
k
)=y

p
X
(x
k
), per ogni y

}.
62
Valore atteso di funzioni di una variabile aleatoria Y = g(X)
Se Y = g(X) il valore atteso di Y si pu`o calcolare in vari modi. Il seguente teorema,
nella sostanza equivalente al teorema fondamentale del valore atteso della Lezione 10, `e di
fondamentale importanza nelle applicazioni.
Teorema.
E(Y ) =

p
Y
(y

) =

x
k
.
g(x
k
) p
X
(x
k
).
Dimostrazione.
E(Y ) :=

p
Y
(y

) =
=

k
g(x
k
)=y

p
X
(x
k
)
_

_
=

k
g(x
k
)=y

g(x
k
)p
X
(x
k
)
=

k
g(x
k
)p
X
(x
k
).
Questo teorema `e formalmente identico al teorema fondamentale E(X) =

X()P().
In entrambi i casi si tratta di calcolare il valore atteso usando la misura sullo spazio di
partenza invece di quella sullo spazio di arrivo della funzione. A dierenza del teorema
fondamentale, il teorema appena dimostrato `e utilissimo in pratica poiche consente il cal-
colo di valori attesi di funzioni di v.a. senza obbligare al calcolo preliminare della densit`a
p
Y
(y

).
Esempio 4. Siano X ed Y come nellEsempio 3 qui sopra. Il valore atteso E(Y ) `e
E(Y ) =

p
Y
(y

) = 0 p
Y
(0) + 1 p
Y
(1) = 0
1
3
+ 1
2
3
=
2
3
E(Y ) = E(X
2
) =

x
k
.
x
2
k
p
X
(x
k
) = (1)
2
p
X
(1) + 0
2
p
X
(0) + 1
2
p
X
(1) =
2
3
Micro-esercizio. Spiegare perche in generale il valore atteso di una funzione di variabile
aleatoria Y = g(X) si pu`o calcolare anche nei seguenti modi.
E(Y ) =

Y ()P()
=

g(X())P()
Attenzione. Attenzione. Attenzione.
In generale E(g(X)) ,= g(E(X)), ad esempio in generale E(X
2
) ,= [E(X)]
2
, ed analoga-
mente E(
1
X
) ,=
1
E(X)
. Nel caso speciale g(X) = aX + b vale invece E(g(X)) = g(E(X)),
ovvero E(aX +b) = aE(X) +b, manifestazione della linearit`a del valore atteso. Qui sotto
consideriamo un altro caso speciale in cui esiste una relazione ben denita tra E(g(X)) e
g(E(X)).
63
Teorema (disuguaglianza di Jensen). Se g `e una funzione convessa allora
g(E(X)) E(g(X)).
Dimostrazione. Ricordiamo che la funzione g `e convessa se e solo se g (

n
k=1

k
x
k
)

n
k=1

k
g(x
k
), per ogni n e per ogni n-pla (
1
, . . .
n
) di coecienti nonnegativi che
sommano ad 1. Allora, prendendo n = [A[ e
k
= p
X
(x
k
) si ha
g(E(X)) = g
_

k
x
k
p
X
(x
k
)
_

k
g(x
k
)p
X
(x
k
) = E(g(X)).
Due utili corollari
(a.) [E(X)[ E([X[), infatti g(x) = [x[ `e convessa.
Applicazione. Se [A[ = , condizione suciente per lesistenza di E(X) `e che E([X[) <
(b.) [E(X)]
2
E(X
2
), infatti g(x) = x
2
`e convessa. La rivedremo presto.
11.2 Varianza
Motivazione della denizione
Si considerino due studenti, i cui voti sono rispettivamente descritti dalle v.a.
X con A = 18, 24, 30, e p
X
uniforme,
Y con } = 23, 24, 25, e p
Y
uniforme.
`
E immediato vericare che
E(X) = E(Y ) = 24,
le v.a. X ed Y hanno lo stesso valore atteso, ma i due studenti sono innegabilmente
tipi umani assai diversi: X `e genio e sregolatezza, Y aurea mediocritas. Matematicamente
questa dierenza si riette nella diversa variabilit`a dei valori delle v.a. X ed Y attorno
al valore atteso. Ci proponiamo di trovare un parametro riassuntivo che fornisca unindi-
cazione della variabilit`a dei valori assunti da una v.a. intorno al valore atteso. Ecco alcuni
esempi di indici numerici che si potrebbero adottare.
(a)

k
(x
k
E(X)): si sommano gli scarti tra i possibili valori e il valore atteso. Questo
non va bene perche non tiene in conto le diverse probabilit`a dei valori x
i
.
(b)

k
(x
k
E(X))p
X
(x
k
): questo tiene in conto le probabilit`a dei valori, ma `e facile ver-
icare che `e sempre nullo. Usando lanalogia meccanica: la somma dei momenti calcolati
rispetto al baricentro `e nulla.
(c)

k
[x
k
E(X)[p
X
(x
k
) questo va bene, gli scarti sono tutti positivi e si sommano. Si
potrebbe usare come misura della variabilit`a, ma ha il difetto di essere matematicamente
poco trattabile per via del valore assoluto, che `e un funzione non derivabile nellorigine.
(d)

k
(x
k
E(X))
2
p
X
(x
k
) pesa le probabilit`a, conta tutti gli scarti positivamente ed `e
matematicamente trattabile. Questo `e il parametro che useremo, e lo chiameremo varianza
della v.a. X. Se, nellinterpretazione meccanica, il valore atteso `e il baricentro della
distribuzione di massa p
X
(x
k
), la varianza ne `e il momento dinerzia per le rotazioni
intorno al baricentro.
64
Varianza: denizione, esempi di calcolo, propriet`a
Denizione. La varianza della v.a. X `e
var(X) :=

k
(x
k
E(X))
2
p
X
(x
k
) = E
_
(X E(X))
2
_
Attenzione: anche la varianza, come il valore atteso, non sempre esiste se la v.a. X ha
alfabeto di cardinalit`a innita.
Micro-esercizio. Convincersi della validit`a dellidentit`a

k
(x
k
E(X))
2
p
X
(x
k
) = E
_
(X
E(X))
2
_
.
Esempio: Sia X b(p) allora var(X) = p(1 p)
Infatti E(X) = p, quindi
var(X) = (0 p)
2
(1 p) + (1 p)
2
p = p
2
(1 p) + (1 p)
2
p = p(1 p)
Propriet`a della varianza
(a.) var(X) 0 con uguaglianza se e solo se X = b (v.a. costante).
Dimostrazione. Dalla denizione var(X) =

i
(x
i
E(X))
2
p
X
(x
i
) `e una somma di termini
non-negativi. Se var(X) = 0 allora (x
i
E(X))
2
= 0 per ogni x
i
con p
X
(x
i
) > 0. Se,
senza perdita di generalit`a, assumiamo che p
X
(x
i
) > 0 per ogni x
i
A concludiamo che
x
i
= E(X) per ogni x
i
A, cio`e X `e una v.a. costante.
Nota bene. Scrivere varianze negative `e peccato mortale che non andr`a impunito.
(b.) var(aX) = a
2
var(X), per ogni a R.
Dimostrazione. var(aX) = E
_
(aX E(aX))
2
_
= E
_
a
2
(X E(X))
2
_
= a
2
var(X).
Unimmediata conseguenza di questa propriet`a `e che var(X) = var(X). Pensate allin-
terpretazione meccanica.
(c.) var(X +c) = var(X).
Questa si dimostra immediatamente algebricamente, ma ancora una volta, `e linterpre-
tazione meccanica che ci fa veramente capire perche deve essere cos`. Se si traslano
tutte le masse della stessa costante c cambia il baricentro, ma non il momento dinerzia.
Probabilisticamente: cambia il valore atteso ma non la varianza.
(d.) var(X) = E(X
2
) [E(X)]
2
.
Utilissima per i calcoli. Facile da dimostrare per via algebrica, ma ri-convincetevi di tutti
i passaggi visti a lezione!
var(X) = E((X E(X))
2
) = E(X
2
2XE(X) + (E(X))
2
)
= E(X
2
) [E(X)]
2
.
Combinandola con la propriet`a (a.) si trova la disuguaglianza
E(X
2
) [E(X)]
2
,
che avevamo gi`a visto come esempio di disuguaglianza di Jensen.
Esercizi
Esercizio 1. Soluzione del Monty Hall
Esercizio 2 (proposto). Avete tre monete a disposizione. La moneta 1 ha due Teste, la
moneta 2 `e regolare, la moneta 3 ha due Croci. Scegliete una moneta a caso, la lanciate
ed osservate Testa. Data questa informazione, qual `e la probabilit`a che laltra faccia sia
Testa? Nota Bene. Si verichi che limpostazione ed i conti sono identici a quelli del
Monty Hall.
65
Lezione 12 (Mercoled`, 27 marzo 2013, ore 16:25-18:05)
La lezione `e dedicata a due variabili aleatorie discrete notevoli, il cui alfabeto ha cardinalit`a
innita.
12.1 Variabile aleatoria geometrica
Abbiamo analizzato in precedenza lo schema binomiale per eventi consistente in una se-
quenza di n 1 prove binarie (esito in 0, 1 = insuccesso, successo ecc.), indipendenti,
con probabilit`a di successo p [0, 1] costante nelle n prove. In questo contesto, il numero
di successi nelle n prove `e modellabile con una variabile aleatoria, diciamola X, di tipo
binomiale, X Bin(n, p).
Uno schema simile a quello binomiale per eventi prevede prove binarie, ripetute, indipen-
denti, con probabilit`a di successo p [0, 1] costante nelle varie prove. Il numero di prove
non `e ssato a priori, e lesperimento prosegue no allosservazione del primo successo (la
prima Testa, il primo 1 ecc.). Sia X la variabile aleatoria che rappresenta il numero di
prove necessarie per ottenere il primo successo. Lalfabeto di A `e A = 1, 2, . . . = N.
La densit`a discreta di X si ricava osservando che levento [X = k] :=primo successo alla
k-esima prova, corrisponde ad ottenere k 1 insuccessi nelle prime k 1 prove e successo
alla k-esima prova, quindi
p
X
(k) = P(CC . . . C
. .
k 1
T) = (1 p)
k1
p, k N. (1)
Denizione. La v.a. X `e detta geometrica di parametro p (0, 1], e si denota X G(p),
se essa ha alfabeto N e densit`a discreta (1).
`
E istruttivo vericare che (1) `e una densit`a discreta. I valori p
X
(k) sono tutti non-negativi,
inoltre

k=1
p
X
(k) =

k=1
(1 p)
k1
p
= p

k=1
(1 p)
k1
= p

k=0
(1 p)
k
=
p
1 (1 p)
= 1.
Si noti che poiche
P(X < ) =

k=1
P(X = k),
la condizione di normalizzazione ad 1 della densit`a equivale al fatto che la probabilit`a di
ottenere il primo successo in un numero nito di lanci `e pari ad 1.
Osservazione sui casi limite. Si noti che la serie geometrica converge per [1 p[ < 1, che
si traduce nel vincolo 0 < p < 2 ma, essendo p una probabilit`a, il vincolo `e 0 < p 1.
Intuitivamente se p = 0 non si verica mai Testa, quindi la v.a. X non `e ben denita (si
potrebbe assegnare X = + con probabilit`a 1, ma avere variabili aleatorie a valori nella
retta reale estesa crea pi` u problemi di quanti ne risolva). Il caso p = 1 corrisponde invece
ad una v.a. degenere costante, X = 1 con probabilit`a 1. In questo caso infatti si ottiene
sempre Testa al primo lancio. La densit`a della v.a. X G(1) `e p
X
(k) = (k 1).
66
Probabilit`a di attesa lunga. Nelle applicazioni `e interessante conoscere la probabilit`a di
dover attendere per pi` u di k lanci il primo successo.
P(X > k) =

i=k+1
p
X
(i) =

i=k+1
(1 p)
i1
p
= p(1 p)
k

i=0
(1 p)
i
= (1 p)
k
(2)
Esempio 1. La probabilit`a di superare lesame di Splancnologia `e p = 0.4. Qual `e la
probabilit`a di dover ripetere lesame pi` u di 2 volte per superarlo?
Soluzione. Bisogna aggiungere un po di ipotesi per poter rispondere a questa domanda.
In particolare supporremo che la probabilit`a di superare lesame sia p = 0.4 ad ogni
tentativo, inoltre assumeremo che gli esiti dellesame in appelli diversi siano indipendenti.
Sotto queste ipotesi possiamo modellare il numero di prove no al superamento dellesame
con una v.a. X G(0.4). Usando la formula (2)
P(X > 2) = (1 0.4)
2
.
Si sarebbe anche potuto svolgere il calcolo direttamente ottenendo
P(X > 2) = 1P(X 2) = 1P(X = 1)P(X = 2) = 10.40.4(10.4) = (10.4)
2
.
Esempio 2. Nel gioco del lotto unestrazione consiste nellestrarre, senza reinserimento, 5
palline da unurna che contiene 90 palline numerate da 1 a 90. La giocata pi` u semplice
`e lambata, ovvero si punta del denaro sulluscita di un numero specico, ad esempio il
53. La probabilit`a che ad ogni estrazione esca il numero giocato `e
(
1
1
)(
89
4
)
(
90
5
)
=
5
90
=
1
18
. Sia
X il numero di estrazioni che `e necessario attendere no ad ottenere per la prima volta
luscita del numero giocato. Sono soddisfatte tutte le condizioni della denizione, quindi
X G
_
1
18
_
. Nota bene: il risultato `e valido anche se ad ogni estrazione si gioca un numero
diverso, purche sempre solo un numero, ad ogni estrazione (perche?).
Funzione di distribuzione. A partire dallespressione (2) si pu`o ricavare, in forma chiusa, la
funzione di distribuzione di X. Per k Z si ha che
F
X
(k) = P(X k) =
_
0, se k < 1,
1 (1 p)
k
, se k 1.
Ricordando che la funzione di distribuzione di una variabile aleatoria discreta `e costante
a tratti, per ogni x R vale
F
X
(x) =
_
0, se x < 0,
1 (1 p)
]x|
, se x 0,
Valore atteso di una v.a. geometrica. Se X G(p) allora
E(X) =

k=1
kp
X
(k) =

k=1
k(1 p)
k1
p = p

k=0
k(1 p)
k1
=
p
(1 (1 p))
2
=
1
p
.
Analogamente si trova che
var(X) =
1 p
p
2
.
67
Il valore atteso labbiamo calcolato a lezione. Per la varianza abbiamo impostato i calcoli
a lezione, si veda la nota in appendice per i dettagli.
Nota.
`
E molto intuitivo che se una moneta ha probabilit`a di Testa P(T) = p il valore
atteso del numero di lanci per ottenere Testa per la prima volta sia
1
p
. Se P(T) =
1
100
in
media la si deve lanciare 100 volte per ottenere la prima Testa.
Versione alternativa della v.a. geometrica
A volte le v.a. geometriche sono denite in modo lievemente diverso. Sia X
t
la v.a.
aleatoria che rappresenta il numero di insuccessi prima del primo successo. Chiaramente
X
t
= X 1, quindi A
t
= 0, 1, . . . , mentre la densit`a vale p
X
(k) = (1 p)
k
p, infatti
X
t
= k signica k insuccessi nelle prime k prove e successo alla k+1-esima. Naturalmente
E(X
t
) = E(X) 1 =
1p
p
, mentre var(X
t
) = var(X).
12.2 Variabile aleatoria di Poisson
A lezione abbiamo dedicato un po di tempo a rivedere la denizione della funzione
esponenziale e a ricavarne lo sviluppo in serie di Taylor, giusticando le seguenti identit`a
e
x
:= lim
n
_
1 +
x
n
_
n
=

k=0
x
k
k!
.
Il metodo sporco e veloce per capire questa identit`a `e di sviluppare
_
1 +
x
n
_
n
=
n

k=0
_
n
k
_
_
x
n
_
k
e poi di calcolare, per k ssato, lim
n
_
n
k
_ _
x
n
_
k
=
x
k
k!
.
Denizione. La v.a. Y `e detta Poisson di parametro > 0, e si denota Y T(), se Y ha
alfabeto } = N
0
:= 0, 1, 2, . . . e densit`a discreta
p
Y
(k) = e


k
k!
, per ogni k 0
`
E immediato vericare che p
Y
(k) > 0 per ogni k 0 e che

k=0
p
Y
(k) =

k=0
e


k
k!
= e

k=0

k
k!
= 1,
il che dimostra che la densit`a `e valida.
Derivazione della densit`a di Poisson come limite di una densit`a binomiale
Il motivo per cui le v.a. di Poisson sono di grande interesse applicativo `e che, sotto
opportune condizioni, esse consentono di approssimare molto bene il comportamento di
variabili aleatorie binomiali. Non ci preoccuperemo per ora di valutare quale sia la bont`a
dellapprossimazione.
Sia X
n
Bin(n,

n
).
7
Conviene introdurre il simbolo
Bin
_
n,

n
_
(k) := p
X
n
(k)
7
Ad esempio se W Bin(800, 0.005) allora W `e interpretabile come una v.a. X
n
con n = 800 e = 4.
68
che mette in evidenza sia i parametri della binomiale, che il punto k dove si valuta la
densit`a. Allora `e
Bin
_
n,

n
_
(k) =
_
n
k
__

n
_
k
_
1

n
_
nk
=
n!
k!(n k)!

k
n
k
_
1

n
_
n
_
1

n
_
k
=
n(n 1) . . . (n k + 1)
n
k

k
k!
_
1

n
_
n
_
1

n
_
k
Fissato un valore di k 0, 1, . . . n calcoliamo ora il limite lim
n
Bin
_
n,

n
_
(k). Os-
servando che
lim
n
n(n 1) . . . (n k + 1)
n
k
= 1, lim
n
_
1

n
_
k
= 1, lim
n
_
1

n
_
n
= e

,
si trova immediatamente che
lim
n
Bin
_
n,

n
_
(k) = e


k
k!
= T()(k),
Volendo a tutti i costi dare uninterpretazione probabilistica al precedente risultato pura-
mente analitico si pu`o procedere come segue. Sia, per n molto grande, X
n
Bin(n,

n
)
ed Y T() (si notino i legami tra i parametri n, p, e ). Allora per ogni k 0 sar`a
P(X
n
= k) P(Y = k).
Questa interpretazione `e meno naturale del risultato analitico.
Dal punto di vista pratico se si vuole approssimare una densit`a Bin(n, p) con una T()
devono essere rispettati i seguenti vincoli
n 1, p 1, = np
Lapprossimazione `e buona se `e dellordine di qualche unit`a e no a 30, ma non `e
questo il contesto per discutere della bont`a dellapprossimazione.
Il vantaggio nelluso della densit`a di Poisson, rispetto a quella binomiale, consiste nelle-
vitare calcoli di coecienti binomiali con n elevato che sono complessi da eettuare.
Media e varianza di v.a. Y T(). Poiche, per n , la densit`a di una v.a. X
n

Bin(n,

n
) tende a quella di una v.a. Y T() unazzardatissima intuizione vuole che, se
le densit`a sono vicine, i valori attesi siano vicini e che quindi
E(Y ) = lim
n
E(X
n
) = lim
n
n

n
=
var(Y ) = lim
n
var(X
n
) = lim
n
n

n
_
1

n
_
=
Pi` u avanti potremo rapidissimamente vericare la correttezza di questintuizione calcolan-
do media e varianza di Y T() a partire dalle trasformata di Fourier discreta della
densit`a di Poisson p
Y
(). Il conto diretto richiede la verica delle somme delle serie
E(Y ) =

k=0
kp
Y
(k) =

k=0
ke


k
k!
= ,
var(X) = E(X
2
) [E(X)]
2
=

k=0
k
2
e


k
k!
[E(X)]
2
= .
69
Uso pratico dellapprossimazione di Poisson alla binomiale.
Nella pratica si incontrano spesso situazioni sperimentali modellabili con variabili aleatorie
binomiali. Il paradigma `e quello delle prove binarie, ripetute, indipendenti, con probabilit`a
di successo costante nelle diverse prove. Il numero, tra le 12:00:00 e le 12:01:00 di domani,
di accessi al sito unipd.it, di telefonate in arrivo al DEI, di tamponamenti a Padova, di
nati in Europa, di morti in Europa, ecc. sono tutti modellabili come variabili aleatorie
binomiali. I parametri n e p di queste variabili aleatorie non sono misurabili direttamente,
ma `e ragionevole supporre che siano noti i valori attesi
8
. Ci sono allora i presupposti per
luso dellapprossimazione di Poisson. Se X Bin(n, p) ed `e nota la media E(X) =
X
,
poiche E(X) =
X
= np, si ricava p =

n
. Si tratta allora di stabilire per quali valori di n
e `e ragionevole approssimare la densit`a binomiale Bin
_
n,

n
_
con la Poisson T().
Regola pratica. In generale lapprossimazione `e buona se n `e grande e p =

n
`e piccolo. Ad
esempio, se n 100 per dellordine di alcune unit`a lapprossimazione `e molto buona.
Regole pi` u precise sono disponibili in letteratura.
Esercizio. Al sito web unipd.it si collegano in media 10 persone al minuto. Qual `e la
probabilit`a che, nel prossimo minuto, ci sia almeno un visitatore?
Soluzione. La v.a. X Bin
_
n,
10
n
_
si pu`o approssimare con una v.a. di Poisson Y
T(10) quindi
P(X 1) P(Y 1) = 1 P(Y = 0) = 1 e
10
.
Attenzione allunit`a di tempo.
Quando si impiega lapprossimazione di Poisson `e fondamentale prestare attenzione allu-
nit`a di tempo.
Esercizio. Il sensore di un certo rivelatore di particelle `e colpito in media da 2 particelle al
secondo. Qual `e la probabilit`a che nei prossimi 5 secondi sia colpito al pi` u da 3 particelle?
Soluzione. Lidea sottostante `e che, indipendentemente una dallaltra, un numero n,
grande e non noto, di particelle possono colpire il sensore ad ogni secondo, la proba-
bilit`a p
n
che una di esse lo colpisca `e non nota e bassa.
`
E importante solo conoscere il
numero medio di particelle che colpiscono il sensore. In questo caso la domanda si riferisce
a quello che avverr`a in un intervallo di 5 secondi, durante il quale il numero medio di
particelle che colpisce in sensore `e 2 5 = 10. La variabile aleatoria che modella il numero
di particelle che colpisce il sensore nei prossimi 5 secondo `e allora Y T(10). La risposta
`e: P(Y 3) =

3
k=0
P(Y = k) = e
10
_
1 + 10 +
100
2
+
1000
6

.
8
Qui assumiamo che i valori attesi siano noti, ma stime empiriche degli stessi sono facili da ottenere.
Ad esempio, sia X Bin(n, p) la v.a. che modella il numero di accessi al sito unipd.it. Per stimare E(X)
si osservano x
1
, x
2
. . . x
100
, il numero di accessi al sito, tra le 12:00 e le 12:01, per 100 giorni consecutivi.
La media aritmetica m
X
:=
1
100

100
i=1
x
i
`e lo stimatore empirico di E(X). In generale, disponendo di n
osservazioni, m
X
:=
1
n

n
i=1
x
i
E(X), e lapprossimazione migliora al crescere di n. Riprenderemo pi` u
avanti lo studio delle propriet` a dello stimatore empirico.
70
Appendice alla Lezione 12
Richiami sulle serie di potenze e applicazioni
A12.1 Richiami sulle serie di potenze
Illustriamo il calcolo diretto del valore atteso e della varianza per le v.a. geometriche. Un
breve richiamo sulle serie di potenze fornir`a gli strumenti di calcolo.
Le serie di potenze sono state trattate nel corso di Analisi II. Mi limito a ricordare il
seguente risultato. Se la serie di potenze
f(x) :=

k=0
a
k
x
k
ha intervallo di convergenza [x[ < R, con R > 0, la sua derivata esiste, `e una serie
di potenze, ha lo stesso intervallo di convergenza, e si pu`o calcolare derivando la serie
termine a termine:
f
t
(x) =

k=0
ka
k
x
k1
.
Iterando il precedente risultato, una serie di potenze che converge per [x[ < R, con R > 0,
`e di classe (

nellintervallo di convergenza e la sua derivata n-esima vale


f
(n)
(x) =

k=0
k(k 1) . . . (k n + 1)a
k
x
kn
.
In questa serie i termini con k = 0, 1, . . . , n1 sono tutti nulli. Il coeciente a
n
di f(x) `e
la derivate n-esima di f(x) valtata nellorigine, infatti ponendo x = 0 nellultima formula
si trova
a
n
=
f
(n)
(0)
n!
,
ovvero: la serie di potenze, nellintervallo di convergenza, coincide con la serie di Taylor
9
della sua somma f(x).
La piu semplice serie di potenze `e la serie geometrica

k=0
x
k
=
1
1 x
per [x[ < 1. (1)
Si osservi che, benche la funzione
1
1x
abbia dominio R 1, la serie geometrica la rapp-
resenta solo nellintervallo (1, 1). Il calcolo della derivata termine a termine fornisce, per
[x[ < 1,

k=0
kx
k1
=
d
dx
1
1 x
=
1
(1 x)
2
. (2)
Per la derivata seconda si ottiene

k=0
k(k 1)x
k2
=
d
2
dx
2
1
1 x
=
2
(1 x)
3
. (3)
9
Attenzione: anche se f c

in un intorno dellorigine, f non `e necessariamente sviluppabile in serie


di Taylor. Esempio: f(x) = e
x
2
c

, ma f
(n)
(0) = 0 per ogni n, quindi gli a
n
sono tutti nulli e la
serie di potenze corrispondente ha raggio di convergenza R = 0.
71
A12.2 Media della v.a. geometrica
Se X G(p) con p (0, 1), la densit`a di probabilit`a discreta `e
p
X
(k) = (1 p)
k1
p, k = 1, 2, . . .
La media si calcola utilizzando la (2)
E(X) =

k=1
kp
X
(k) =

k=1
k(1 p)
k1
p = p

k=0
k(1 p)
k1
=
p
(1 (1 p))
2
=
1
p
(4)
A12.3 Varianza della v.a. geometrica
Per calcolare la varianza usiamo la formula var(X) = EX
2
[EX]
2
. Calcoliamo il primo
addendo
E(X
2
) =

k=1
k
2
p
X
(k) = p

k=1
k
2
(1 p)
k1
(5)
Questa serie `e simile alla (3), per via del k
2
, ma bisogna massaggiarla un po per calcolarne
la somma. Il termine k-esimo in (3) ha la forma k(k 1)x
k2
mentre qui abbiamo k
2
(1
p)
k1
, che scriviamo (1 p)k
2
(1 p)
k2
. La costante (1 p) non `e un problema perch`e
esce dalla somma. Per aggiustare il termine polinomiale si osservi che k
2
= k(k 1) + k,
il che suggerisce di calcolare come segue
E(X
2
) = E
_
X(X 1)
_
+E(X) (6)
Ora `e possibile usare la (3) per il primo addendo:
E
_
X(X 1)
_
=

k=1
k(k 1)(1 p)
k1
p = p(1 p)

k=0
k(k 1)(1 p)
k2
=
2p(1 p)
(1 (1 p))
3
=
2(1 p)
p
2
.
Si noti che nella prima somma il coeciente corrispondente a k = 1 `e nullo, mentre nella
seconda sono nulli i coecienti per k = 0 e k = 1, quindi le due somme coincidono ed `e la
seconda che si calcola immediatemente usando con la (3). Dalla (6) si ottiene
E(X
2
) = E
_
X(X 1)
_
+E(X) =
2(1 p)
p
2
+
1
p
=
2 p
p
2
.
In conclusione la varianza della geometrica vale
var(X) = E(X
2
)
_
E(X)
_
2
=
2 p
p
2

1
p
2
=
1 p
p
2
.
72
Lezione 13 (Luned`, 8 aprile 2013, ore 10:30-12:15)
13.1 Esercizi
Ripassone sulle variabili aleatorie
Adattato da: M. Bramanti, Calcolo delle Probabilit`a e Statistica: Teoria ed esercizi, Pro-
getto Leonardo, Bologna, 2000. Il libro era diretto agli allievi del vecchio Diploma in
Ingegneria. Contiene solo parte degli argomenti di Analisi dei Dati ma lo consiglio ugual-
mente, per la scelta degli argomenti trattati, la chiarezza espositiva e la ricchezza degli
esempi.
Esercizio. Ad un casello transitano in media 200 veicoli allora, di cui in media 2 sono
T.I.R.
(a.) Qual `e il tipo di variabile aleatoria da utilizzare per calcolare la probabilit`a che su
100 veicoli in transito esattamente 5 siano T.I.R.? Calcolare questa probabilit`a.
Soluzione. Possiamo pensare al transito di un veicolo come ad un esperimento in cui il
successo `e il transito di un T.I.R. ed ha probabilit`a p =
2
100
= 0.01. La v.a. adatta a
descrivere il problema in questione `e una v.a. X Bin(n, p) con n = 100 e p = 0.01. La
probabilit`a cercata `e quindi
p
X
(5) =
_
n
5
_
p
5
(1 p)
95
=
_
100
5
_
(0.01)
5
(0.99)
95
0.0029.
(b.) Con che tipo di variabile aleatoria si pu`o approssimare la variabile aleatoria in (a.)?
Ricalcolare la probabilit`a che 5 veicoli su 100 siano T.I.R. usando lapprossimazione.
Soluzione. Quando n 1 ed np `e dellordine delle unit`a la densit`a binomiale Bin(n, p)
si pu`o approssimare con la densit`a di Poisson T(), di parametro = np. In questo caso
siamo, pi` u o meno, nella zona di buona approssimazione. Verichiamo:
Bin(100, 0.01)(5) T(1)(5) = e
1
1
5
5!
= e
1
1
5
5!
0.0031.
(c.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il prossimo
T.I.R. sia il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione. Calcolare
anche la probabilit`a che il prossimo T.I.R. non passi prima del 100-esimo veicolo in transito.
Soluzione.
`
E come chiedere qual `e la probabilit`a che, lanciando una moneta con probabilit`a
di Testa p = 0.01, la prima Testa si verichi al 100-esimo lancio. In questo caso si deve
utilizzare una v.a. geometrica Z ((p) di parametro p = 0.01. Le probabilit`a richieste
sono allora
P(Z = 100) = p
Z
(100) = p(1 p)
99
= 0.01(0.99)
99
0.0037;
e ricordando la probabilit`a delle attese lunghe per una geometrica
P(Z 100) = P(Z > 99) = (1 p)
99
= 0.99
99
0.37.
73
(d.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il secondo
T.I.R. sia esattamente il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione.
Soluzione. Cominciamo con il determinare la v.a. da utilizzare. Ragionando con il paradig-
ma dei lanci indipendenti di una moneta con probabilit`a di Testa p, ci chiediamo qual `e la
densit`a della v.a. Y := lancio al quale si verica la seconda Testa. Tenendo conto che
al k-esimo lancio deve vericarsi il secondo successo, la probabilit`a cercata `e data dalla
somma di tutte le probabilit`a di avere esattamente un successo nei primi k 1 lanci e
successo al kesimo lancio. Queste probabilit`a sono in totale k 1, potendosi vericare
il primo successo al lancio 1, 2, . . . k 1 e sono tutte uguali, quindi
p
Y
(k) = P(Y = k) = (k 1)p
2
(1 p)
k2
La risposta alla domanda `e quindi
P(Y = 100) = 99(1 p)
98
p
2
= 99 (0.99)
98
(0.01)
2
0.003697.
(e.) Qual `e il numero atteso di T.I.R. su 100 veicoli in transito?
Soluzione. La risposta si ottiene considerando il valore atteso della v.a. X del punto (a.),
ovvero E(X) = np = 100 0.01 = 1. In alternativa, molto banalmente, il dato iniziale del
testo indica che l1% dei veicoli sono T.I.R., quindi su 100 veicoli mediamente 1 sar`a un
T.I.R.
(f.) Qual `e il numero atteso di veicoli in transito no al passaggio di un T.I.R.?
Soluzione. La risposta `e data dal valore atteso della v.a. Z del punto (c.) e quindi
E(Z) = 1/p = 1/0.01 = 100.
(g.) Qual `e il numero di veicoli in transito necessari anche la probabilit`a di osservare
almeno un T.I.R. sia maggiore di 0.5?
Soluzione. Il numero di T.I.R. osservati su n veicoli in transito `e una v.a. binomiale
W Bin(n, p) con p = 0.01 ed n che va determinato in modo da soddisfare il vicolo
imposto dal testo della domanda. La probabilit`a di osservare almeno un T.I.R. `e
P(W 1) = 1 P(X = 0) = 1 0.99
n
ed il vincolo `e che P(W 1) > 0.5, da cui .99
n
< 0.5 ovvero nln(.99) < ln(0.5) e quindi
n > 68.968. Dovendo essere n un intero, il numero di veicoli necessari sar`a almeno 69.
Esercizio classico del coupon collector
Volete fare la raccolta delle gurine Panini. La raccolta completa consiste di n gurine.
Ogni mattina, andando a scuola, vi fermate in edicola e comprate una bustina di g-
urine. Facciamo le seguenti ipotesi semplicative. In ogni bustina c`e una gurina. La
Panini distribuisce le gurine in modo casuale nelle bustine a questipotesi io non credo
molto. Quando avevo sui 10 anni, Pizzaballa, il portiere dellAtalanta, era assolutamente
introvabile. Quante bustine `e necessario comprare in media per completare la collezione?
Soluzione. Con la prima bustina acquistata otteniamo la prima gurina della nostra
collezione. Si ponga T
1
= 1. Indichiamo con T
2
la v.a. che rappresenta quante bustine `e
necessario acquistare per trovare una gurina distinta dalla prima (la seconda gurina della
mia collezione). Poiche mi mancano n1 gurine e ce ne sono n in commercio la probabilit`a
di successo (trovare una gurina che mi manca) `e p
2
=
n1
n
, quindi T
2
G
_
n1
n
_
. In
74
generale, se ho gi`a i 1 gurine distinte nella mia collezione ed indico con T
i
il numero
di bustine da acquistare per trovare una gurina distinta dalle i 1 in mio possesso,
allora T
i
G
_
n(i1)
n
_
. Il numero totale di bustine da acquistare per completare la mia
collezione `e
T := T
1
+T
2
+ +T
n
Per il calcolo del valore atteso di T si usa la linearit`a
E(T) = E(T
1
) +E(T
2
) +E(T
3
) +E(T
n1
) +E(T
n
)
=
n
n
+
n
n 1
+
n
n 2
+ +
n
2
+
n
1
= n
_
1 +
1
2
+
1
3
+ +
1
n 1
+
1
n
_
nln(n)
Lordine di grandezza nale si ottiene con una rozza approssimazione di Riemann

n
k=1
1
k

_
n
1
1
x
dx = log n. Ad esempio, se la collezione completa consiste di n = 100 gurine, in
media si devono comprare approssimativamente 100 ln 100 460 bustine, se ogni bustina
contiene 1 gurina.
13.2 Disuguaglianze fondamentali per il valore atteso
Teorema (disuguaglianza di Markov). Se X `e una v.a. non-negativa, per ogni a > 0
P(X a)
E(X)
a
Dimostrazione. Se X 0 allora
E(X) =

i
x
i
p
X
(x
i
)
=

i;x
i
<a
x
i
p
X
(x
i
) +

i;x
i
a
x
i
p
X
(x
i
)

i;x
i
a
x
i
p
X
(x
i
) a

i;x
i
a
p
X
(x
i
)
= a P(X a).
Domanda: dove interviene, nella dimostrazione, lipotesi di positivit`a di X?
Esempi
Esempio 1. [Con riferimento allEsempio 2 della Sezione 12.1 sulla variabile aleatoria
geometrica.] Sia X la v.a. che indica quante ambate dovete giocare no ad ottenere
la prima vincita. Determinate un limite superiore e calcolate esattamente P(X > 36).
Abbiamo visto che X G
_
1
18
_
, quindi E(X) = 18. Usando la disuguaglianza di Markov
P(X > 36)
E(X)
36
=
18
36
=
1
2
. Il calcolo esatto fornisce P(X > 36) =
_
1
1
18
_
36
0.127.
La morale `e che la disuguaglianza non fornisce unapprossimazione particolarmente buona
della probabilit`a desiderata, ma solo un limite superiore.
Esempio 2. Sia X Bin(n, p). Si vuole calcolare un limite superiore alla P
_
X
n
2
_
.
Poiche E(X) = np lapplicazione della disuguaglianza di Markov fornisce
P
_
X
n
2
_

E(X)
n
2
= 2p
75
Si supponga ad esempio che X Bin(100, 0.7), allora la disuguaglianza di Markov fornisce
P (X 50)
100 0.7)
100
2
= 2 0.7 = 1.4
Non era necessario scomodare il luminare russo. A volte la disuguaglianza di Markov
fornisce limiti superiori inutili. Allora a che serve ?
Esempio 3. (In negozio) La vita media dichiarata dal costruttore di queste lampadine `e
di 8.000 ore, ma in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio. Perche non vi conviene acquistare nulla in questo negozio? La disuguaglianza di
Markov dice che il venditore `e, quanto meno, un millantatore infatti detta X la v.a. che
rappresenta la vita media di una lampadina `e noto che E(X) = 8.000, ma allora
P(X 16.000)
E(X)
16.000
=
8.000
16.000
=
1
2
laermazione in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio `e quindi una millanteria. Ecco la forza della disuguaglianza di Markov! Della
v.a. X nulla `e noto se non il valore atteso, pure `e stato possibile determinare un limite
superiore alla probabilit`a dellevento dinteresse.
Pubblicit`a. La disuguaglianza di Markov si pu`o ricavare, in modo alternativo, a partire
da alcuni risultati sulle variabili aleatorie positive che questanno non avremo il tempo di
vedere. I curiosi possono consultare lappendice alla lezione (non in programma).
Teorema (disuguaglianza di Chebyshev). Per ogni v.a. X, e per ogni > 0,
P
_
[X E(X)[
_

var(X)

2
Dimostrazione. Si noti che
_
[X E(X)[
_
=
_
[X E(X)[
2

2
_
. Poiche la v.a.
[X E(X)[
2
`e positiva si pu`o applicare la disuguaglianza di Markov che fornisce
P
_
[X E(X)[
_
= P
_
[X E(X)[
2

2
_

E
_
[X E(X)[
2
_

2
=
var(X)

2
Forma alternativa della disuguaglianza di Chebyshev.
P
_
[X E(X)[ <
_
1
var(X)

2
Esempio
Si eettuano 100 lanci indipendenti di una moneta con P(T) = 0.5. Sia X la v.a. che
conta il numero di Teste su 100 lanci. Determinare un limite inferiore alla probabilit`a
dellevento [41 X 59].
Usando la versione alternativa della disuguaglianza di Chebyshev
P(41 X 59) = P([X 50[ < 10) 1
25
100
=
3
4
dove abbiamo ricordato che per la v.a. X Bin(100, 0.5) vale E(X) = np = 100
1
2
= 50
e var(X) = np(1 p) = 100
1
2
_
1
1
2
_
= 25. In questo caso lespressione esatta della
probabilit`a `e
P(41 X 59) =
49

k=41
_
100
k
_
1
2
100
.
76
13.3 Motivazione allintroduzione delle densit`a congiunte
Varianza della somma di due v.a.
Date due v.a. X ed Y , denite sullo stesso spazio di probabilit`a, si consideri la v.a.
Z = X + Y . Vogliamo calcolare la varianza di Z. Cominciamo con il calcolo algebrico,
usando la linearit`a del valore atteso.
var(X +Y ) = E
_
(X +Y E(X +Y ))
2
_
= E
_
(X E(X) +Y E(Y ))
2
_
= E
_
(X E(X))
2
_
+E
_
(Y E(Y ))
2
_
+ 2E
_
(X E(X))(Y E(Y ))
_
= var(X) + var(Y ) + 2E
_
(X E(X))(Y E(Y ))
_
Il termine misto `e, come vedremo, molto interessante e merita un nome.
Denizione. La covarianza delle v.a. X ed Y `e
cov(X, Y ) := E
_
(X E(X))(Y E(Y )
_
Propriet`a della covarianza.
(a.) cov(X, X) = var(X)
(b.) cov(X, Y ) = E(XY ) E(X)E(Y ).
Immediato ed analogo a var(X) = E(X
2
) [E(X)]
2
.
(c.) A seconda della relazione tra le v.a. X ed Y la covarianza pu`o assumere qualunque
valore in R. Ad esempio, per Y = X si ha cov(X, X) = var(X) < 0, per Y = b,
costante, cov(X, b) = E(Xb) E(X)E(b) = 0
Calcolo della covarianza. Come si calcola cov(X, Y )? Dallespressione cov(X, Y ) = E(XY )
E(X)E(Y ) si capisce che la dicolt`a consiste nel calcolo di E(XY ). A tal ne conoscere le
densit`a di probabilit`a di X e di Y non `e suciente. In eetti se X = x
i
ed Y = y
j
il prodot-
to XY = x
i
y
j
, ma P(XY = x
i
y
j
) non `e calcolabile sulla base di p
X
e p
Y
. Una scappatoia
`e usare il teorema fondamentale, trasportando il calcolo sullo spazio campionario:
E(XY ) =

X()Y ()P().
Ottimo! Ma solo quando si conoscono , la misura P e le mappe X() ed Y (). Purtroppo
solo raramente si dispone di tutte queste informazioni.
Esempio. Consideriamo un caso molto semplice: X ed Y entrambe v.a. b(p), quin-
di p
X
(1) = p
Y
(1) = p. Come abbiamo gi`a visto, esistono inniti spazi di probabilit`a
(, T, P), e variabili aleatorie X() ed Y () compatibili con il fatto che X ed Y siano
entrambe b(p). Peraltro, in questo caso, il prodotto XY pu`o assumere solo due valori: 0,
se X = 0 o Y = 0 , e 1 se X = Y = 1. Il valore atteso si pu`o quindi calcolare come
E(XY ) = 0 P
_
[X = 0] [Y = 0]
_
+ 1 P
_
[X = 1] [Y = 1]
_
= P
_
[X = 1] [Y = 1]
_
A partire da p
X
(1) := P([X = 1]) = p e p
Y
(1) := P([Y = 1]) = p non `e possibile
calcolare P
_
[X = 1] [Y = 1]
_
, poiche, in generale, gli eventi [X = 1] ed [Y = 1] non sono
indipendenti.
Per calcolare agevolmente la covarianza, e per molto altro ancora, `e necessario estendere
la nozione di densit`a discreta di probabilit`a, che per ora abbiamo denito sullo spazio dei
valori di una singola v.a., allo spazio dei valori di una coppia di v.a. (X, Y ).
77
Appendice alla Lezione 13
Disuguaglianza di Markov
A13.1 Valore atteso e variabili aleatorie non-negative
Teorema. Sia X `e una v.a. a valori non-negativi, ovvero tale che A R
+
allora
E(X) =
_

0
[1 F
X
(x)] dx
Dimostrazione. Ricordo che la funzione di distribuzione si pu`o scrivere
F
X
(x) =

i
p
X
(x
i
)1l(x x
i
),
quindi
_

0
[1 F
X
(x)] dx =
_

0
_
1

i
p
X
(x
i
)1l(x x
i
)
_
dx
=
_

0

i
p
X
(x
i
)
_
1 1l(x x
i
)
_
dx
=

i
p
X
(x
i
)
_

0
_
1 1l(x x
i
)
_
dx
=

i
p
X
(x
i
)x
i
= E(X)
Domanda a bruciapelo: perche la v.a. X deve essere positiva anche questa dimostrazione
funzioni?
Interpretazione graca del teorema. Il valore atteso E(X) `e larea tratteggiata in gura.
-
6
t
t
F
X
(x)
1
t
x
1
x
2
x
3 x
Caso particolare: v.a. a valori in N.
Se A = N 0, il valore atteso si pu`o calcolare come
E(X) =

k=0
P(X > k)
Dimostrazione. Per il teorema precedente E(X) `e larea compresa tra la funzione di dis-
tribuzione e la costante 1. Se la v.a. assume valori nellinsieme dei numeri naturali
questarea si pu`o calcolare come
E(X) =

k=0
1 (1 F
X
(k)) =

k=0
P(X > k)
78
La gura qui sotto dimostra gracamente il teorema. Si osservi che il risultato continua
a valere se p
X
(k) = 0 per qualche (anche inniti) k N. In gura p
X
`e nulla per
k = 0, 5, 6, 7, 8 e per ogni k 10.
-
6
t
t
t
t
t
F
X
(x)
x
1
1 2 3 4 5 6 7 8 9 10
Esempio. Media di una v.a. geometrica X G(p). Abbiamo visto allinizio della lezione
che, per X G(p) `e P(X > k) = (1 p)
k
. Allora
E(X) =

k=0
P(X > k) =

k=0
(1 p)
k
=
1
1 (1 p)
=
1
p
A13.2 Disuguaglianza di Markov.
Teorema. Se X `e una v.a. non-negativa, per ogni a > 0
P(X a)
E(X)
a
Dimostrazione. Poiche P(X a) = 1 F
X
(a

) `e suciente dimostrare che


E(X) a (1 F
X
(a

))
Ma questa disuguaglianza `e ovvia. Vedi gura qui sotto. Se a non `e uno dei valori della
v.a. allora F
X
(a) = F
X
(a

). La gura qui sotto rappresenta questo caso. Se invece a `e


uno dei valori della v.a. allora a `e un punto di salto ed F
X
(a

) = F
X
(a) p
X
(a). La
disuguaglianza continua a valere: tracciate la corrispondente gura.
-
6
t
t
F
X
(x)
t
x
1
x
2
x
3 x a
11
1
F
X
(a)
79
Lezione 14 (Marted`, 9 aprile 2013, ore 16:25-18:05)
14.1 Vettori aleatori discreti
Nel tentativo di calcolare la varianza della somma di due variabili aleatorie, X ed Y , ci
siamo imbattuti nel problema del calcolo del valore atteso E(XY ), che non `e possibile
portare a termine conoscendo solo le densit`a p
X
() e p
Y
(). In questo, come in altri
problemi pratici, `e utile disporre di una descrizione pi` u completa del comportamento di
due, o pi` u, variabili aleatorie. Allo scopo `e necessario estendere la nozione di variabile
aleatoria al caso in cui linsieme dei valori anziche R `e R
2
o, pi` u in generale, R
n
.
10
Denizione ed esempi
Denizione. La mappa V : R
2
`e detta vettore aleatorio bidimensionale. Pi` u in
generale V : R
n
`e detto vettore aleatorio n-dimensionale. Le componenti del vettore
aleatorio
V () :=
_
_
X
1
()
. . .
X
n
()
_
_
sono n variabili aleatorie, ognuna con proprio alfabeto A
i
, e densit`a di probabilit`a p
X
i
().
La notazione che adotteremo usualmente per i vettori bidimensionali `e
V () :=
_
X
1
()
Y ()
_
Consideriamo per lo pi` u vettori bidimensionali, poiche il caso n-dimensionale `e unesten-
sione banale del caso bidimensionale, a parte alcune questioni marginali che saranno
segnalate.
Insieme di valori del vettore aleatorio. In generale se A = x
1
, x
2
, . . . e } = y
1
, y
2
, . . .
sono gli alfabeti di X ed Y rispettivamente, lalfabeto di V = (X, Y )

`e 1 A }, dove
in generale linclusione `e stretta.
Esempio 1. Sullo spazio campionario degli esiti del lancio di due dadi, uno Rosso ed
uno Nero, sia (X, Y ) il vettore aleatorio con X lesito del dado Rosso, ed Y il minimo dei
due esiti. In questo caso A = } = 1, 2, 3, 4, 5, 6 e, benche (1, 3) A }, il vettore
(X(), Y ()) ,= (1, 3) per ogni . In eetti 1 = (i, j) ; 1 j i 6 .
Probabilizzare linsieme dei valori del vettore aleatorio. Procedendo come per le variabili
aleatorie si osserva che, anche se lapplicazione V () = (X(), Y ()) non `e in
generale invertibile, esiste una corrispondenza biunivoca tra gli elementi (x
i
, y
j
) A }
e le loro anti-immagini V
(1)
() = X
(1)
(x
i
) Y
(1)
(y
j
)
(x
i
, y
j
) X
(1)
(x
i
) Y
(1)
(y
j
)
ed `e quindi naturale assegnare
P
t
((x
i
, y
j
)) := P
_
X
(1)
(x
i
) Y
(1)
(y
j
)
_
10
Non `e per il gusto dellastrazione matematica che interessa generalizzare ai vettori quanto visto per
le variabili aleatorie. Al contrario, nella pratica ingegneristica lavorare con vettori aleatori `e la prassi.
Quando si progetta un esperimento, lacquisizione dati rappresenta spesso solo una piccola frazione del
costo complessivo, si tende quindi a misurare anche centinaia di variabili, rimandando alle analisi successive
la distinzione tra variabili rilevanti per la comprensione dei fenomeni dinteresse e variabili ridondanti.
80
Notazione. Per indicare levento ; X() = x
i
e Y () = y
j
, a seconda del contesto,
e senza ulteriori spiegazioni, scriveremo indierentemente X
(1)
(x
i
) Y
(1)
(y
j
), [X =
x
i
] [Y = y
j
], [X = x
i
, Y = y
j
] e anche, pi` u sinteticamente, X = x
i
, Y = y
j
, specialmente
come argomento della misura di probabilit`a. Scriveremo quindi indierentemente
P( ; X() = x
i
e Y () = y
j
) = P
_
X
(1)
(x
i
) Y
(1)
(y
j
)
_
= P ([X = x
i
] [Y = y
j
])
= P(X = x
i
, Y = y
j
).
Denizione. Per il vettore aleatorio (X, Y )
p
XY
(x
i
, y
j
) := P
t
((x
i
, y
j
)) = P(X = x
i
, Y = y
j
), (x
i
, y
j
) A }.
`e detta funzione di densit`a discreta del vettore (X, Y ), o anche densit`a congiunta delle
variabili aleatorie X e Y .
Nota Bene. Se (x
i
, y
j
) non `e uno dei valori assunti dal vettore (X, Y ), lanti-immagine
X
(1)
(x
i
) Y
(1)
(y
j
) = , quindi automaticamente p
XY
(x
i
, y
j
) = 0. Quando si fanno
conti su casi specici `e per`o importante individuare linsieme dei valori 1 di (X, Y ), come
nellesempio qui sotto.
Esempio 1 - continuazione. Proseguendo lesempio 1, si calcola immediatamente (vedi
appunti) la densit`a del vettore V = (X, Y ), dove X `e il risultato del dado Rosso ed Y
il minimo dei risultati dei due dadi. La rappresentazione tabulare della densit`a `e molto
comoda.
XY 1 2 3 4 5 6
1
6
36
0 0 0 0 0
2
1
36
5
36
0 0 0 0
3
1
36
1
36
4
36
0 0 0
4
1
36
1
36
1
36
3
36
0 0
5
1
36
1
36
1
36
1
36
2
36
0
6
1
36
1
36
1
36
1
36
1
36
1
36
Propriet`a della densit`a congiunta di due variabili aleatorie
(a.) (nonnegativit`a)
p
XY
(x
i
, y
j
) 0, per ogni (x
i
, y
j
) A }
(b.) (normalizazione)

x
i
.

y
j

p
XY
(x
i
, y
j
) = 1.
Dimostrazione. La (a.) `e banale. Per la (b.) si ricordi che (vedi Lezione xx) le anti-
immagini X
1
(x
i
) ed Y
1
(y
j
) formano due partizioni di . Le intersezioni
11
X
1
(x
i
)
Y
1
(y
j
) formano quindi una partizione di e da qui discende il risultato.
11
Prodotto di partizioni. Se |E
i
ed |F
j
sono due partizioni di un insieme allora |E
i
F
j
`e una
partizione (partizione prodotto) di . Dimostrazione. Presi due elementi diversi E
i
F
j
ed E
h
F
k
`e ovvio
che (E
i
F
j
)

(E
h
F
k
) = . Inoltre
_
i,j
(E
i
F
j
) =
_
i
_
j
(E
i
F
j
) = [poiche |F
j
`e una partizione] =
_
i
E
i
=
Non causa problemi leventuale presenza di insiemi vuoti nella partizione. Ci` o avviene se E
i
F
j
= per
una o pi` u coppie (i, j).
81
Osservazione. Come nel caso delle analoghe propriet`a della densit`a di una singola v.a., le
propriet`a (a.) e (b.), prese insieme, sono necessarie e sucienti ance una data funzione
p(, ) sia una valida densit`a congiunta di due variabili aleatorie. Vale infatti il seguente
importante teorema (facoltativo).
Teorema di esistenza. Sia p(x
i
, y
j
) : A } R una funzione che soddisfa le propriet`a
p(x
i
, y
j
) 0, per ogni (x
i
, y
j
) A },

i,j
p(x
i
, y
j
) = 1,
allora esiste uno spazio di probabilit`a (, T, P) e due variabili aleatorie X : R ed
Y : R tali che p
XY
(x
i
, y
j
) = p(x
i
, y
j
).
Dimostrazione. [Limitata al caso [A[ < e [}[ < .] Si denisca = A }. Poiche
[[ < si pu`o sempre prendere -algebra T = P(). La misura di probabilit`a basta
assegnarla sui singleton. Se = (x
i
, y
j
) sia P() := p(x
i
, y
j
). Le propriet`a della
funzione p(x
i
, y
j
) garantiscono che P `e una misura di probabilit`a. La v.a. X : R
`e per denizione la mappa = (x
i
, y
j
) X() := x
i
, ed analogamente Y `e la mappa
= (x
i
, y
j
) Y () := y
j
. La densit`a congiunta delle v.a. (X, Y ) `e
p
XY
(x
i
, y
j
) = P(; X() = x
i
, Y () = y
j
) = P((x
i
, y
j
)) = p(x
i
, y
j
).
che `e quanto si doveva dimostrare.
Densit`a congiunte e marginali
Le densit`a p
X
() e p
Y
() delle componenti di V = (X, Y ), dette densit`a marginali del
vettore V , si possono ricavare dalla densit`a congiunta p
XY
(, ) usando le equazioni:
p
X
(x
i
) =

j
p
XY
(x
i
, y
j
), p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
).
Dimostrazione. (vediamo la prima)

j
p
XY
(x
i
, y
j
) =

j
P([X = x
i
] [Y = y
j
]) = P(X =
x
i
) = p
X
(x
i
), poiche [Y = y
j
] `e una partizione di .
Osservazione importante. Se p
X
e p
Y
sono due densit`a assegnate esistono in generale
innite densit`a congiunte p
XY
che hanno per marginali p
X
e p
Y
. Questo, nel caso di
alfabeto A } nito lo si pu`o dimostrare usando la teoria dei sistemi di equazioni lineari.
In eetti se [A[ = N e [}[ = M allora [A }[ = N M, e p
XY
`e determinato da N M1
numeri non-negativi, minori di 1 (perche?). Per imporre che p
XY
abbia marginali p
X
e
p
Y
si usano le equazioni delle marginali, ovvero p
X
(x
i
) =

j
p
XY
(x
i
, y
j
) (in totale N 1
equazioni, una per ogni valore x
i
, meno 1 poiche solo N 1 valori p
X
sono liberi) e
p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
) (in totale M 1 equazioni). Abbiamo dunque un sistema di
N + M 2 equazioni LINEARI in N M 1 incognite. Anche nel caso pi` u semplice,
N = M = 2, ci sono pi` u incognite che equazioni. In generale dunque esistono innite
densit`a congiunte compatibili con assegnate densit`a marginali.
Valore atteso di funzioni scalari di un vettore aleatorio
Sia V = (X, Y ) un vettore aleatorio discreto e g : R
2
R una funzione scalare su R
2
.
Allora Z = g(V ) = g(X, Y ) `e una variabile aleatoria scalare della quale si pu`o calcolare il
valore atteso. Il teorema fondamentale del valore atteso si generalizza al caso vettoriale.
82
Teorema.
E(g(X, Y )) =

x
i
.

y
j

g(x
i
, y
j
)p
XY
(x
i
, y
j
)
Dimostrazione. Poiche g(X, Y ) `e una v.a. si pu`o usare il teorema fondamentale
E(g(X, Y )) =

g(X(), Y ()) P() = poiche X


1
(x
i
) Y
1
(y
j
) `e una partizione
=

i,j
_
_

X
1
(x
i
)Y
1
(y
j
)
g(X(), Y ()) P()
_
_
=

i,j
g(x
i
, y
j
)
_
_

X
1
(x
i
)Y
1
(y
j
)
P()
_
_
=

i,j
g(x
i
, y
j
) P(X
1
(x
i
) Y
1
(y
j
))
=

i,j
g(x
i
, y
j
) p
XY
(x
i
, y
j
).
Osservazione. Il teorema consente di calcolare il valore atteso della funzione scalare di due
variabili aleatorie g(X, Y ), usando solo linformazione contenuta nella densit`a congiunta
p
XY
(x
i
, y
j
). Nelle applicazioni per`o abitualmente si dispone solo della densit`a congiunta,
mentre spazio (, T, P) e mappe X() ed Y () non sono noti e/o non interessano. Sia
p(x
i
, y
j
), una funzione non-negativa e normalizzata su A }, cio`e una densit`a congiunta
valida.
`
E allora possibile calcolare

i,j
g(x
i
, y
j
)p(x
i
, y
j
). (1)
Cosa rappresenta lespressione (1)? Usando il teorema di esistenza, si ricava che lespres-
sione (1) `e il valore atteso E(g(X, Y )), dove X ed Y sono le variabili aleatorie denite
come nella dimostrazione del teorema di esistenza.
Due esempi fondamentali. Due casi semplici ma importanti di impiego del teorema.
(a.) g(x, y) = x +y
In questo caso il teorema fornisce
E(X +Y ) =

i,j
(x
i
+y
j
) p
XY
(x
i
, y
j
).
Esercizio obbligatorio. Dimostrare laddittivit`a del valore atteso a partendo da qui.
(b.) g(x, y) = xy
Ancora usando il teorema,
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
)
Esempio concreto. X ed Y hanno densit`a congiunta
XY 0 1
0 0.5 0.1
1 0.1 0.3
83
Il calcolo delle marginali mostra che X ed Y sono entrambe v.a. di Bernoulli b(0.4). Il
valore atteso del prodotto `e
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
) = p
XY
(1, 1) = 0.3.
Linformazione contenuta nella densit`a congiunta permette di calcolare la varianza della
somma, ricordando che var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) e che cov(X, Y ) =
E(XY ) E(X)E(Y ). Svolgete il conticino.
Esercizio proposto 1. Costruire esempi di densit`a congiunte su 0, 1
2
, come sopra. Veri-
care che, in generale, le due marginali sono Bernoulli di parametri diversi. Si determini la
condizione anche le marginali sono entrambe Bernoulli con lo stesso parametro (rispos-
ta: p
XY
(0, 1) = p
XY
(1, 0).). Tra queste ultime densit`a congiunte si cerchino esempi con
cov(X, Y ) nulla e negativa. Deteminare la condizione sugli elementi della densit`a con-
giunta che d`a luogo a cov(X, Y ) = 0 (questa parte `e piuttosto laboriosa: la condizione `e
p
XY
(0, 0)p
XY
(1, 1) [p
XY
(0, 1)]
2
= 0).
Esercizio proposto 2 Con riferimento alla continuazione dellesempio 1 (vedi p. 79), si
calcoli E(XY ). Son conti della serva, noiosi e non istruttivi. Dello stesso tipo sono i conti
per determinare cov(X, Y ).
Estensione ai vettori aleatori in R
n
Lestensione della nozione di densit`a congiunta al caso di n variabili, ovvero ai vettori
aleatori ad n dimensionali, `e immediata. Se, ad esempio, V : R
3
mappa V () =
(X(), Y (), Z()) si denisce la densit`a congiunta tridimensionale:
p
XY Z
(x
i
, y
j
, z
k
) = P(X = x
i
, Y = y
j
, Z = z
k
).
La densit`a p
XY Z
gode di propriet`a analoghe a quelle della densit`a bidimensionale:
p
XY Z
(x
i
, y
j
, z
k
) 0, per ogni i, j, k,

i,j,k
p
XY Z
(x
i
, y
j
, z
k
) = 1.
A partire dalla p
XY Z
si possono ricavare 3 densit`a marginali bidimensionali p
XY
, p
XZ
,
p
Y Z
e 3 unidimensionali, p
X
, p
Y
, p
Z
. A titolo di esempio:
p
XY
(x
i
, y
j
) =

k
p
XY Z
(x
i
, y
j
, z
k
)
p
Y Z
(y
j
, z
k
) =

i
p
XY Z
(x
i
, y
j
, z
k
)
p
Y
(y
j
) =

i,k
p
XY Z
(x
i
, y
j
, z
k
).
Viceversa, in generale non `e unica la densit`a tridimensionale p
XY Z
(x
i
, y
j
, z
k
) con le 6
densit`a marginali p
XY
, p
XZ
, p
Y Z
, p
X
, p
Y
, p
Z
assegnate.
Anche il teorema fondamentale del valore atteso si estende immediatamente al caso n-
dimensionale. Ad esempio, in R
3
,
Teorema. Sia (X, Y, Z) un vettore aleatorio di densit`a congiunta p
XY Z
e g : R
3
R allora
E
_
g(X, Y, Z)
_
=

i,j,k
g(x
i
, y
j
, z
k
) p
XY Z
(x
i
, y
j
, z
k
)
84
14.2 Condizionamento per v.a.: motivazione
Avviene spesso che la densit`a di una v.a. o la densit`a congiunta di due o pi` u v.a. siano
pi` u facilmente calcolabili usando la regola di moltiplicazione o la formula della probabilit`a
totale. Questo comporta la necessit` a di introdurre densit`a condizionate di una v.a. rispetto
(a.) ad un evento E o (b.) ad i valori della stessa variabile aleatoria, o (c.) ad i
valori di unaltra, o di pi` u di una variabili aleatorie. Vediamo in questa e allinizio della
prossima lezione, esempi dei tre tipi.
Esempio 1. In unurna ci sono 2 monete truccate con P(T) =
1
5
ed una moneta onesta con
P(T) =
1
2
. Lesperimento consiste nel pescare una moneta a caso dallurna e nel lanciarla
ripetutamente. Sia X la v.a. che indica il numero di lanci che dovr`o eettuare no ad
ottenere la prima Testa. Determinare la densit`a della v.a. X.
Soluzione. Sarete tentati di ritenere X una v.a. geometrica. Cos` non `e. Siano [X
k
= 1],
k = 1, 2, . . . , gli eventi che indicano il successo (Testa) nella kesima prova, ed E
0
=pesco
la moneta onesta. La v.a. numero di tentativi no al primo successo ha densit`a
geometrica se (a) P([X
k
= 1]) = p `e costante in k e (b) gli eventi [X
k
= 1], k = 1, 2, . . .
sono indipendenti. Per quanto riguarda (a), la formula della probabilit`a totale fornisce
P
_
[X
k
= 1]
_
= P
_
[X
k
= 1]

E
0
_
P(E
0
) +P
_
[X
k
= 1]

E
c
0
_
P(E
c
0
) =
1
2
1
3
+
1
5
2
3
=
3
10
,
quindi (a) `e soddisfatta. Per quanto riguarda (b) si considerino ad esempio gli eventi
[X
1
= 1] e [X
2
= 1]. Ancora dalla formula della probabilit`a totale
P
_
[X
1
= 1] [X
2
= 1]
_
=
P
_
[X
1
= 1] [X
2
= 1]

E
0
_
P(E
0
) +P
_
[X
1
= 1] [X
2
= 1]

E
c
0
_
P(E
c
0
) =
_
1
2
_
2
1
3
+
_
1
5
_
2
2
3
=
11
100
.
Per quanto visto sopra
P
_
[X
1
= 1] [X
2
= 1]
_
=
11
100
,= P
_
[X
1
= 1]
_
P
_
[X
2
= 1]
_
=
3
10
3
10
=
9
10
,
quindi gli eventi [X
1
= 1] e [X
2
= 1] non sono indipendenti, (b) non `e soddisfatta.
Abbiamo appurato che la densit`a di X non pu`o essere geometrica. Peraltro, la probabilit`a
condizionata dellevento [X = k] (prima Testa al kesimo lancio) dato levento E
0
(pesco
la moneta onesta) vale
P(X = k[E
0
) =
1
2
_
1
1
2
_
k1
, k 1,
poiche levento condizionante E
0
ssa la moneta e ci fa ricadere nel paradigma della
variabile geometrica, G
_
1
2
_
in questo caso.
`
E naturale introdurre la denizione di densit`a
condizionata di X dato levento E
0
come
p
X[E
0
(k[E
0
) := P(X = k[E
0
) =
P
_
[X = k] E
0
_
P(E
0
)
ATTENZIONE: Per il modo in cui `e formulato il problema i DATI sono p
X[E
(k[E
0
) e
p
X[E
c
0
(k[E
c
0
). Non arrivate da nessuna parte se, ad esempio, tentate di CALCOLARE
p
X[E
0
(k[E
0
) usando la denizione
P([X=k]E
0
)
P(E
0
)
.
85
Per questo esempio avremo quindi
p
X[E
0
(k[E
0
) =
1
2
_
1
1
2
_
k1
, k 1
e analogamente
p
X[E
c
0
(k[E
c
0
) =
1
5
_
1
1
5
_
k1
, k 1
La formula della probabilit`a totale inne fornisce per k 1
p
X
(k) = p
X[E
0
(k[E
0
)P(E
0
) +p
X[E
c
0
(k[E
c
0
)P(E
c
0
)
=
1
3
_
1
2
_
1
1
2
_
k1
_
+
2
3
_
1
5
_
1
1
5
_
k1
_
Nota bene. La v.a. X non `e geometrica, dovreste per`o essere in grado di dire quanto vale
E(X) senza far conti, solo ricordando che per una densit`a geometrica il valore atteso `e
1
p
.
Il risultato `e E(X) =
1
3
2 +
2
3
5.
86
Lezione 15 (Mercoled`, 10 aprile 2013, ore 16:25-18:05)
15.1 Condizionamento per v.a.: motivazione II
Vediamo un secondo esempio di densit`a condizionata. In questo caso levento condizio-
nante `e generato dalla variabile aleatoria stessa.
Esempio 2. Lesperimento consiste in lanci consecutivi, indipendenti di una moneta con
P(T) = p. Con X si indica il numero di lanci no alluscita della prima Testa. Come noto
X G(p) e la probabilit`a di unattesa lunga, che superi h lanci, per il primo successo `e
P(X > h) = (1 p)
h
. Iniziamo a lanciare la moneta, ottenendo una slza di h insuccessi:
si `e cio`e vericato levento X > h e non ha pi` u alcun interesse parlare della sua probabilit`a.
Ha senso invece, e riviste grande interesse, rivalutare la probabilit`a di attesa lunga, che
superi k + h lanci, tenendo conto che si `e vericato X > h. Formalmente ci stiamo
chiedendo: quanto vale la probabilit`a condizionata P(X > k + h[X > h)? La risposta `e
semplice
P(X > k +h[X > h) =
P([X > k +h] [X > h])
P(X > h)
=
P(X > k +h)
P(X > h)
=
(1 p)
k+h
(1 p)
h
= (1 p)
k
= P(X > k)
Abbiamo ottenuto un risultato in apparenza sorprendente e che si pu`o leggere come segue.
La rivalutazione della probabilit`a di dover attendere per pi` u di k lanci il primo successo,
cominciando a contare i k lanci dopo aver osservato una slza di h 1 insuccessi (equivale
ad attesa maggiore di k + h lanci contando dallinizio), `e costante in h ed `e uguale alla
probabilit`a di dover attendere pi` u di k lanci a partire dallinizio dellesperimento. Con
linguaggio pittoresco si dice che la variabile aleatoria geometrica `e priva di memoria.
12
Riformulazione in termini di densit`a. Il precedente risultato si pu`o formulare in modo
alternativo introducendo la nozione di densit`a condizionata della variabile aleatoria X,
dato levento X > h. Si procede come segue.
p
X[[X>h]
(k) := P(X = k[X > h) =
P
_
[X = k] [X > h]
_
P(X > h)
, k Z
Osservando che (a.)[X = k] [X > h] = [X = k] se k > h, mentre [X = k] [X > h] =
se k h, (b.) P(X > k) = (1 p)
k
, (c.) P(X = k) = (1 p)
k1
p1l(k 1), si ha
p
X[[X>h]
(k) =
_

_
P()
P(X>h)
= 0, se k h,
P(X=k)
P(X>h)
= (1 p)
kh1
p, se k > h.
In forma compatta, il risultato si scrive
p
X[[X>h]
(k) = p
X
(k h), k Z,
12
Questo risultato decreta linescusabile imbecillit` a di quei giocatori che puntano quattrini con maggiore
accanimento sui numeri cosiddetti ritardatari. Poiche E(X) = 18 il giocatore si aspetta che ognuno dei 90
numeri si ripresenti in media ogni 18 estrazioni. Se lattesa di un particolare numero si protrae, e.g. X > h
con h circa 60-70, i giocatori vanno in allerta. Quando poi h > 100 si scatena la follia collettiva.
`
E celebre
il caso del 53 sulla ruota di Venezia che aveva accumulato un ritardo di 182 estrazioni causando la rovina
economica di pi` u di qualcuno e, ancora pi` u estremo, l8 sulla ruota di Roma arrivato dopo unattesa di 201
estrazioni.
87
Teorema. La densit`a geometrica `e lunica densit`a sullalfabeto N che gode della propriet`a
di assenza di memoria.
Dimostrazione. Sia W una qualunque variabile aleatoria a valori in N. La propriet`a di
assenza di memoria equivale a
P(W > k +h[W > h) =
P(W > k +h)
P(W > h)
= P(W > k) (1)
Deniamo f(k) := P(W > k) allora la condizione (1) si scrive
f(k +h) = f(k)f(h)
Questa relazione di ricorrenza determina la forma funzionale di f. Infatti, posto q := f(1),
si trova f(2) = f(1 + 1) = f(1)f(1) = q
2
, f(3) = f(2 + 1) = f(2)f(1) = q
3
e procedendo
iterativamente f(k) = q
k
. Poiche q `e una probabilit`a q [0, 1], quindi anche p = 1 q
[0, 1]. Utilizzando il parametro p la soluzione dellequazione di ricorrenza si riscrive
P(W > k) = f(k) = (1 p)
k
,
da cui immediatamente discende che
p
W
(k) = P(W > k 1) P(W > k) = f(k 1) f(k) = (1 p)
k1
p
ma questa `e proprio la densit`a G(p) Abbiamo dimostrato che se la densit`a della v.a. W
non ha memoria allora `e necessariamente W G(p) per qualche p [0, 1].
Esempio 3. Il terzo esempio riguarda il caso in cui `e noto a priori che si sono vericati
eventi generati da una variabile aleatoria Y , e se ne vuol tenere conto nel calcolo della
densit`a di unaltra v.a. X. Passiamo direttamente alle denizioni rimandando gli esempi
pratici al seguito.
15.2 Densit`a condizionate
Denizione. Siano X ed Y variabili aleatorie di densit`a congiunta p
XY
(x
i
, y
j
). Per ogni y
j
tale che p
Y
(y
j
) > 0, la densit`a condizionata di X, dato levento [Y = y
j
] `e
p
X[Y
(x
i
[y
j
) := P(X = x
i
[Y = y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
Attenzione. Non bisogna farsi fuorviare dalla terminologia. Per quanto `e noto, la proba-
bilit`a condizionata P(E[F) `e una misura rispetto allevento di sinistra, ad evento di destra
ssato. Per la densit`a condizionata questo si traduce in: la p
X[Y
(x
i
[y
j
) `e una densit`a su
A per ogni y
j
ssato, ovvero i numeri p
X[Y
(x
i
, y
j
) soddisfano alle condizioni
p
X[Y
(x
i
[y
j
) 0,

i
p
X[Y
(x
i
[y
j
) = 1.
I numeri p
X[Y
(x
i
[y
j
) non costituiscono invece una densit`a su }, ne tantomeno una densit`a
congiunta su A }, ifatti essi sono positivi, ma la loro somma pu`o essere maggiore di 1.
Microesercizio: supponendo che [A[ = N e [}[ = M, calcolare

i,j
p
X[Y
(x
i
[y
j
).
Come visto anche in precedenza, alcuni dei dati di un problema pratico si presentano
spesso sotto forma di probabilit`a condizionate.
13
Ad esempio potrebbero essere dati del
13
Il prototipo di questa situazione `e lEsempio 2 della Sezione 6.3, dove sono naturalmente modellati
come probabilit`a condizionate i dati forniti dallucio acquisti, che forniscono le probabilit` a di difetto dei
chip di memoria, per ognuna delle aziende produttrici
88
problema la densit`a condizionata p
X[Y
(x
i
[y
j
) e la densit`a p
Y
(y
j
). In questo caso continua
a valere la relazione
p
X[Y
(x
i
[y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
,
che pu`o essere utilizzata per ricavare la densit`a congiunta p
XY
(x
i
, y
j
). La formula della
probabilit`a totale e quella di marginalizzazione sono naturalmente collegate tra loro e si
possono usare per ricavare la densit`a p
X
(x
i
), infatti
p
X
(x
i
) =

j
p
XY
(x
i
, y
j
) =

j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
).
Inne `e ovvia la formula di Bayes per la densit`a condizionata a posteriori
p
Y [X
(y
j
[x
i
) =
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
p
X
(x
i
)
=
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)

j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
Le precedenti formule si possono scrivere invertendo i ruoli di X ed Y , in questo caso i
dati sono la densit`a condizionata p
Y [X
(y
j
[x
i
) e la densit`a p
X
(x
i
). La p
Y
(y
j
) allora `e
p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
) =

i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
e, con la formula di Bayes, si determina la densit`a condizionata a posteriori
p
X[Y
(x
i
[y
j
) =
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
p
Y
(y
j
)
=
p
Y [X
(y
j
[x
i
)p
X
(x
i
)

i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
15.3 Variabili aleatorie indipendenti.
Denizione. Linsieme di v.a. X, Y di densit`a congiunta p
XY
(x
i
, y
j
) `e indipendente se
p
XY
(x
i
, y
j
) = p
X
(x
i
)p
Y
(y
j
), per ogni (x
i
, y
j
) A }
Terminologia e notazioni.
`
E invalso labuso le v.a. X ed Y sono indipendenti invece del
corretto linsieme X, Y `e indipendente. Per indicare che X ed Y sono indipendenti si
usa a volte il simbolo X Y .
Esempio. Si consideri il vettore aleatorio V = (X, Y ) a valori nellinsieme 1 A }, e
si supponga che la densit`a congiunta p
XY
(x
i
, y
j
) sia uniforme su 1. La domanda `e: le
variabili aleatorie X ed Y sono indipendenti? La risposta `e: se 1 `e strettamente incluso
in A } le variabili X ed Y non sono indipendenti, se 1 = A } le variabili X ed Y
sono indipendenti. Esercizio. Spiegare la risposta.
Lemma. Le v.a. X e Y sono indipendenti se e solo se le v.a. f(X), e g(Y ) sono indipendenti
per ogni coppia di funzioni f, g : R R.
Dimostrazione. Assumiamo che X e Y siano indipendenti e siano f e g due funzioni
assegnate. Si deniscano le variabili aleatorie U := f(X) e V := g(Y ). Si deve allora
dimostrare che U, e V sono indipendenti. La densit`a congiunta di U, V `e
p
UV
(u
h
, v
k
) =

i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
XY
(x
i
, y
j
) =

i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
X
(x
i
)p
Y
(y
j
)
=
_

i
f(x
i
)=u
h
p
X
(x
i
)
_ _

j
g(y
j
)=v
k
p
Y
(y
j
)
_
= p
U
(u
h
)p
V
(v
k
).
89
Laltra direzione del lemma `e banale, `e suciente prendere f, e g funzioni identit`a.
Osservazione. Questo lemma `e la versione per le coppie di v.a. dellequivalenza delle
aermazioni E F, E
c
F, E F
c
, E
c
F
c
per gli eventi dimostrata in precedenza.
[elaborare]
Teorema A. Se X e Y sono variabili aleatorie indipendenti allora
E(XY ) = E(X)E(Y )
Dimostrazione. Per calcolo diretto
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
)
=

i,j
x
i
y
j
p
X
(x
i
)p
Y
(y
j
)
=

i
x
i
p
X
(x
i
)

j
y
j
p
Y
(y
j
) = E(X)E(Y ).
Osservazione.
`
E interessante osservare che, se le v.a. X ed Y sono indipendenti ed inoltre
E([X[) < e E([Y [) < allora sicuramente E([XY [) < , infatti
E([XY [) =

i,j
[x
i
y
j
[ p
XY
(x
i
, y
j
)
=

i,j
[x
i
[ [y
j
[ p
X
(x
i
)p
Y
(y
j
) = E([X[)E([Y [).
In prosa: le condizioni E([X[) < e E([Y [) < , che garantiscono lesistenza del valore
atteso di X e di Y , sono sucienti a garantire lesistenza del valore atteso della v.a. XY .
Corollario del Teorema A. Se X e Y sono indipendenti allora
cov(X, Y ) = E(XY ) E(X)E(Y ) = 0
Corollario del Corollario
14
Se X e Y sono indipendenti allora
var(X +Y ) = var(X) + var(Y )
Dimostrazione. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), ma se X ed Y sono
indipendenti cov(X, Y ) = 0.
Osservazione sul Teorema A. Applicando il teorema fondamentale del valore atteso e sin-
istra e a destra del risultato del Teorema A se ne trova unespressione alternativa su .
Mettiamo a confronto le due espressioni.

i,j
x
i
y
j
p
XY
(x
i
, y
j
) =

i
x
i
p
X
(x
i
)

j
y
j
p
Y
(y
j
)

X()Y () P() =

X() P()

Y () P()
14
La validit` a della relazione var(X+Y ) = var(X)+var(Y ) `e una manifestazione del teorema di Pitagora,
un tema ricorrente di questo semestre. In Segnali e Sistemi lo chiamano formula di Parseval. Le
apparizioni di Pitagora sono sempre legate alla geometria dellortogonalit` a rispetto ad un prodotto interno
denito in uno spazio vettoriale. In probabilit` a e in teoria dei segnali gli spazi vettoriali sono funzionali,
ovvero i vettori sono funzioni : segnali ad energia nita nel caso di Segnali e Sistemi, variabili aleatorie
a varianza nita in probabilit` a. Riprenderemo linterpretazione geometrica pi` u avanti.
90
Terminologia, notazioni, osservazioni. Leggere con estrema attenzione!
Il valore atteso E(XY ) `e detto correlazione delle variabili aleatorie X e Y . Se E(XY ) =
E(X)E(Y ) le v.a. X ed Y si dicono scorrelate, altrimenti si dicono correlate. Il simbolo
X Y denota v.a. X e Y scorrelate. Non si confonda con che denota indipendenza.
Poiche vale il Teorema A, X Y implica X Y . Non vale il viceversa.
Esercizio obbligatorio. Si consideri la densit`a congiunta di gura, uniforme sui quattro
punti dove `e concentrata. Quindi
(0,1)
(0,-1)
(-1,0)
(1,0)
x
y
p
XY
(0, 1) = p
XY
(1, 0) = p
XY
(0, 1) = p
XY
(1, 0) =
1
4
.
Vericare che le corrispondenti variabili aleatorie X ed Y sono scorrelate, ma non indipen-
denti.
La nozione di scorrelazione isola la pi` u utile conseguenza dellindipendenza, E(XY ) =
E(X)E(Y ), e la erige a denizione. Lesempio qui sopra dimostra che `e utile denire la
nozione di scorrelazione visto che esistono coppie di variabili aleatorie scorrelate ma non
indipendenti. Sono banali conseguenze delle denizioni e delle propriet`a elementari di
varianza e covarianza le seguenti aermazioni
micro-lemma: X Y se e solo se cov(X, Y ) = 0.
micro-lemma: Se X Y allora var(X +Y ) = var(X) + var(Y ).
Indipendenza di insiemi di variabili aleatorie
Denizione. Linsieme di v.a. X
1
, X
2
, . . . X
n
`e detto indipendente se
p
X
1
X
2
...X
n
(x
1
, x
2
, . . . x
n
) = p
X
1
(x
1
)p
X
2
(x
2
) . . . p
X
n
(x
n
), per ogni x
1
, . . . , x
n
Lemma.
(a.) Se linsieme X
i

n
i=1
`e indipendente allora le v.a. X
i

n
i=1
sono scorrelate a coppie.
(b.) Se le v.a. X
i

n
i=1
sono scorrelate a coppie allora var (

n
i=1
X
i
) =

n
i=1
var(X
i
)
Dimostrazione. (a.) Per ipotesi X
i

n
i=1
sono indipendenti quindi X
i
, X
j
con i ,= j
sono indipendenti, da cui la conclusione. (b.) Sviluppando algebricamente var(

i
X
i
) si
trova che in generale var(

i
X
i
) =

i
var(X
i
) +

i,j
cov(X
i
, X
j
). Se le v.a. X
i
sono
scorrelate a coppie la conclusione segue.
Osservazione. Il teorema A, ed i suoi corollari, mostrano perche `e particolarmente conve-
niente lavorare con variabili aleatorie indipendenti. Peraltro in molte situazioni pratiche,
91
e specicamente nei casi di prove ripetute, `e ragionevole rappresentare i risultati speri-
mentali con variabili aleatorie indipendenti. Ad esempio, il contesto della binomiale per
eventi `e modellabile con n variabili aleatorie b(p) indipendenti. La verica formale di
questa aermazione sar`a molto facile nella seconda parte del corso, quando disporremo di
strumenti pi` u avanzati.
Applicazione: calcolo della varianza di una Binomiale Sia X Bin(n, p). Interpretando la
v.a. binomiale come somma di n v.a. b(p) indipendenti (vedi osservazione sopra) si ricava
immediatamente var(X) = np(1 p).
Domanda critica Come mai per denire lindipendenza di, poniamo, tre v.a. X, Y, Z non
abbiamo seguito la stessa strada che era stato necessario seguire per denire lindipendenza
di tre eventi? Non abbiamo cio`e richiesto anche lindipendenza delle coppie X, Y , X, Z e
Y, Z oltre a chiedere che p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
). La risposta `e che, per le
v.a, imponendo p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
) lindipendenza delle coppie segue
dalle regole di marginalizzazione.
Esercizio svolto in aula
In un gioco dazzardo si paga 1 euro per partecipare e giocare contro il banco. La prob-
abilit`a di vincere `e p. Se il gioco `e onesto, qual `e la somma x che il partecipante deve
ricevere in caso di vincita?
Nota bene. Il gioco `e onesto, se il ricavo medio che si ottiene giocando `e nullo, sia per il
banco che per il partecipante.
Soluzione. Indichiamo con R la variabile aleatoria che indica il ricavo del partecipante.
Il ricavo pu`o prendere due soli valori. Se vince il banco R = 1, se vince il partecipante
R = x, dove x `e la somma da determinare. La densit`a della v.a. R `e p
R
(1) = 1 p e
p
R
(x) = p quindi R ha valore atteso
E(R) = (1) (1 p) +x p,
ed imponendo la condizione E(R) = 0 si trova
x =
1 p
p
Ad esempio se state giocando a Testa o Croce con il banco, usando una moneta onesta,
e pagando 1 euro per indovinare il risultato del singolo lancio, la somma che un banco
onesto vi paga quando indovinate la faccia uscita `e
x =
1 0.5
0.5
= 1 euro
che `e in accordo con lintuizione.
Se invece puntate 1 euro su unambata al Lotto, poiche la probabilit`a di successo `e p =
1
18
la somma che dovreste ricevere `e
x =
1
1
18
1
18
= 17 euro
FYI: in Italia, in caso di vincita, portate a casa 10.56 euro.
92
Lezione 16 (Luned`, 15 aprile 2013, ore 10:30-12:15)
16.1 Spazi di probabilit`a generali
Come abbiamo visto nella Lezione 1, in molti casi lo spazio campionario non `e discreto.
Questo avviene, ad esempio, ogni qual volta gli esiti dellesperimento sono i possibili valori
di grandezze siche inerentemente continue: masse, lunghezze, tempi ecc.
`
E necessario ricorrere a spazi campionari non discreti anche quando si voglia modellare
probabilisticamente innite prove ripetute di un esperimento con un numero nito di
esiti. Ad esempio, := 0, 1
N
, linsieme di tutte le sequenze innite di bit, modella i
possibili risultati di inniti lanci di una moneta. Su tale si possono costruire in modo
naturale una variabile aleatoria geometrica, oppure una sequenza di variabili aleatorie di
Bernoulli. Per convincersi che = 0, 1
N
non `e discreto si osservi che ogni sequenza
innita di bit `e lespansione binaria di un numero reale nellintervallo [0, 1], quindi [[ =
[R[. Tradizionalmente [R[ `e detta cardinalit`a del continuo, quindi diremo che ha la
cardinalit`a del continuo o, pi` u brevemente, che `e continuo.
Lo sviluppo della teoria della probabilit`a su spazi continui richiede strumenti di Analisi
Matematica (teoria della misura) che non `e il caso di mettere in campo in un corso in-
troduttivo. In questa lezione ci limiteremo a dare un inquadramento generale, mettere in
evidenza alcune delle dicolt`a e sviluppare, in modo rigoroso, un sottoinsieme della teoria
suciente per le applicazioni meno sosticate.
La teoria continua non dierisce nellimpianto dalla teoria discreta sviluppata nora. Uno
spazio di probabilit`a `e una terna (, T, P) dove `e un insieme astratto (spazio campi-
onario), T una algebra di sottoinsiemi di (eventi) e P una misura di probabilit`a. Non
ripetiamo ne la denizione di algebra, ne gli assiomi di P, che abbiamo gi`a presentato
nella loro forma pi` u generale.
Continuit`a di P
`
E una conseguenza elementare degli assiomi particolarmente utile quando si trattano spazi
continui.
Teorema. (Continuit`a della misura di probabilit`a)
(a.) Se E
n
`e una sequenza crescente di eventi, cio`e E
n
E
n+1
per ogni n 1, allora
P
_

_
n=1
E
n
_
= lim
n
P(E
n
)
(b.) Se E
n
`e una sequenza decrescente di eventi, cio`e E
n+1
E
n
per ogni n 1, allora
P
_

n=1
E
n
_
= lim
n
P(E
n
)
Dimostrazione. (a.) Usiamo la decomposizione disgiunta, valida per ogni sequenza E
n
,

_
n=1
E
n
=

_
n=1
F
n
93
dove F
1
= E
1
ed F
n
:= E
n

n1
k=1
E
k
per n 2. Gli eventi F
n
sono disgiunti, inoltre per
costruzione

n
k=1
E
k
=

n
k=1
F
k
per ogni n. Poiche in questo caso, gli E
n
sono crescenti
per ipotesi `e anche E
n
=

n
k=1
E
k
=

n
k=1
F
k
. Vale la seguente catena di uguaglianze
P
_

_
n=1
E
n
_
= P
_

_
n=1
F
n
_
=

k=1
P(F
k
) = lim
n
n

k=1
P(F
k
) = lim
n
P
_
n
_
k=1
F
k
_
= lim
n
P(E
n
)
(b.) Si dimostra in modo analogo oppure si fa uso della legge di de Morgan per esprimere
lintersezione, passando alla sequenza degli eventi complementari che soddisfano le ipotesi
per lapplicazione di (a.).
Osservazione. Se E
n
`e una sequenza monotona crescente di eventi `e naturale denire
lim
n
E
n
:=

n=1
E
n
, che si verica se e solo se si verica almeno uno degli E
n
. Se E
n
`e
monotona decrescente lim
n
E
n
:=

n=1
E
n
, che si verica se si vericano tutti gli E
n
. Il
lemma di continuit`a della probabilit`a si pu`o allora riformulare come segue.
Lemma (riformulato). Se E
n
`e una sequenza monotona (crescente o decrescente) di eventi
allora
lim
n
P(E
n
) = P
_
lim
n
E
n
_
.
Perche questa propriet`a `e detta continuit`a di P? Perche, nella versione riformulata,
`e evidente la somiglianza con lanaloga propriet`a delle funzioni reali di variabile reale.
Richiamo: la funzione f : R R `e continua in x se e solo se, per ogni sequenza x
n
x,
lim
n
f(x
n
) = f(x) = f
_
lim
n
x
n
_
.
Dicolt`a legate agli spazi campionari non discreti
Come noto, nel caso discreto la misura di probabilit`a si pu`o assegnare specicando P()
per ogni . Ogni tentativo di assegnare una misura di probabilit`a tale che P() > 0
per ogni in un insieme non numerabile `e destinato a fallire.
15
Una possibile strategia per la denizione di P nel caso continuo consiste in (1.) scelta
di una -algebra T = ((), dove ( `e una classe di eventi elementari e (() la -algebra
generata di (, ovvero la famiglia di eventi che si ottiene eettuando sequenze numerabili
di operazioni di unione e complementazione sugli elementi di (; (2.) assegnazione di P(C),
per ogni C (; (3.) estensione di P a tutta ((), nel rispetto degli assiomi.
La strategia appena delineata `e ecace, ma i dettagli tecnici sono piuttosto intricati.
Diremo appena qualche parola in pi` u solo per il caso, fondamentale, in cui = R.
Scelta della algebra su R
Quando si deve denire una misura di probabilit`a su R, la algebra che pi` u comunemente
si considera `e la algebra B(R) di Borel, ovvero la minima algebra che contiene gli
aperti di R.
`
E utile sapere che B(R) coincide con la algebra generata dalla classe delle
semirette chiuse I
x
:= (, x]. Questo, come vedremo, semplica di molto lassegnazione
di una misura di probabilit`a su R.
15
Sia P(|) > 0, assegnata per ogni non numerabile. Si denisca la sequenza di eventi monotona
crescente
n
:=
_
; P(|) >
1
n
_
. Naturalmente =

n2

n
e quindi esiste n
0
2 tale che
n
0
non `e numerabile infatti una unione numerabile di insiemi numerabili `e numerabile, mentre per ipotesi
non lo `e. Fissato un intero M, grande a piacere, esistono allora almeno Mn
0
elementi distinti in
n
0
e quindi, vista la denizione di
n
0
, P(
n
0
) Mn
0
1
n
0
= M. Si ha quindi P(
n
0
) = e a fortiori
P() P(
0
) = .
Equivalentemente si pu` o dire che, qualunque sia la famiglia di numeri reali strettamente positivi |x

la somma

= . Questo `e in forte contrasto con il caso numerabile in cui esistono innite sequenze
strettamente positive |x
n

nN
tali che

nN
x
n
< .
94
Lemma. B(R) = (I
x
).
Dimostrazione. I
x
B(R) per ogni x R, infatti I
x
= (x, )
c
B(R), quindi (I
x
)
B(R). Per dimostrare laltra direzione, ovvero che B(R) (I
x
) ricordiamo che ogni
aperto di R `e unione, al pi` u numerabile, di intervalli aperti (a, b), con a b .
`
E suciente dimostrare che, con operazioni numerabili su insiemi del tipo I
x
, si possono
ottenere tutti gli intervalli aperti (a, b). Ad esempio, nel caso < a < b < ,
(a, b) =
_

_
n=1
I
b
1
n
_
I
c
a
.
Completate la dimostrazione considerando gli altri tre tipi di intervalli aperti (, b),
(a, ) e (, ).
Osservazione. A margine si osservi che, per ogni x R il singleton x B(R), infatti
x =

n=1
(x
1
n
, x +
1
n
).
In virt` u del Lemma appena dimostrato, dovendo specicare una misura Q su (R, B(R))
baster`a assegnare Q sugli elementi I
x
per ogni x R, un compito molto pi` u semplice, che
aronteremo qui sotto, per denire le distribuzioni delle variabili aleatorie continue.
Variabili aleatorie
Denizione. Una variabile aleatoria denita sullo spazio di probabilit`a (, T, P) `e una
funzione
X : R
che soddisfa la condizione di misurabilit`a, tale cio`e che
X
1
(B) := : X() B T, per ogni B B(R).
Lemma. La funzione X : R `e una variabile aleatoria (soddisfa cio`e la condizione di
misurabilit`a) se e solo se, per ogni I
x
:= (, x],
X
1
(I
x
) := : X() x T.
Dimostrazione. Poiche gli insiemi I
x
generano la algebra B(R) e, per ipotesi, X
1
(I
x
)
T per ogni I
x
, intuitivamente la condizione sulle anti-immagini si estende a tutta la
algebra B(R). Tralasceremo i dettagli.
Misura indotta da una v.a. X su (R, B(R))
Come nel caso discreto, di una variabile aleatoria X non interessa la denizione funzionale
X : R, quanto la possibilit`a di calcolare le probabilit`a di eventi nello spazio dei valori
R. Ad esempio, qual `e la probabilit` a che una tensione di rumore, modellata come variabile
aleatoria, sia nellintervallo [0.35, 0.70]V ? Nel caso generale lo spazio dei valori di X
non `e discreto, ma `e tutto R (o comunque un suo sottoinsieme non numerabile). Come si
specica la misura sullo spazio dei valori R in modo che essa sia compatibile con quella
nello spazio di partenza (, T, P)? Nel caso discreto, per trasportare la misura P da
(, T, P) a (A, P(A), P
t
), avevamo sfruttato la corrispondenza biunivoca x
i
X
(1)
(x
i
)
che conduce alla naturale denizione P
t
(x
i
) := P
_
X
(1)
(x
i
)
_
. Nel caso continuo si
adotta/adatta la stessa idea.
La v.a. X induce una misura P
X
sullo spazio (R, B(R)), compatibile con la misura P dello
spazio di partenza (, T, P) assegnando, per ogni B B(R),
P
X
(B) := P(X
1
(B)).
95
La condizione di misurabilit`a garantisce che la misura P
X
sia ben denita, poiche X
1
(B)
T garantisce che P(X
1
(B)) `e ben denita. La dimostrazione del fatto che P
X
`e una
misura di probabilit`a `e basata sullidentit`a X
1
(

n
E
n
) =

n
X
1
(E
n
). Tralasceremo
questi dettagli.
Poiche (I
x
) = B(R) `e suciente assegnare la misura P
X
sugli eventi I
x
che generano la
algebra B(R), basta cio`e assegnare
P
X
(I
x
) := P(X
1
(I
x
)) = P(; X() x) = P(X x), x R.
Ma questa `e una vecchia conoscenza dal caso discreto, F
X
(x) := P(X x) `e la funzione
di distribuzione di X.
La conclusione di maggior interesse applicativo `e che, se X `e una variabile aleatoria con-
tinua, per assegnare completamente la misura di probabilit`a sullo spazio dei suoi valori R,
basta assegnare F
X
(x) per ogni x R.
Funzione di distribuzione di una variabile aleatoria
Rivediamo le propriet`a di F
X
(x), gi`a note dal caso discreto, estendendo le dimostrazioni
per includere anche il caso continuo laddove necessario.
Denizione (funzione di distribuzione, FdD)
F
X
(x) := P(X
1
(I
x
)) = P(X x), per ogni x R.
Propriet`a della FdD.
(i.) monotonia
La FdD `e monotona non decrescente, cio`e per ogni x x
t
si ha
F
X
(x) F
X
(x
t
),
infatti, se x x
t
, si ha I
x
I
x
, da cui
X
1
_
I
x
_
X
1
_
I
x

_
e, per la monotonia della probabilit`a,
F
X
(x) = P
_
X
1
(I
x
)
_
P
_
X
1
(I
x
)
_
= F
X
(x
t
).
(ii.) normalizzazione
La FdD soddisfa i seguenti limiti
lim
x
F
X
(x) = 0, lim
x
F
X
(x) = 1,
infatti, I
x
per x , quindi X
(1)
(I
x
) e, per la continuit`a della probabilit`a,
lim
x
F
X
(x) = lim
x
P
_
X
1
(I
x
)
_
= P() = 0. Analogamente si dimostra il limite
per x .
(iii.) continuit`a da destra
La FdD `e una funzione continua da destra, cio`e per ogni x R si ha
lim
h0
+
F
X
(x +h) = F
X
(x),
il che discende ancora dalla continuit`a della probabilit`a e dal fatto che al tendere di h a 0
per valori positivi I
x+h
I
x
e quindi X
1
(I
x+h
) X
1
(I
x
).
96
(iv.) limite da sinistra
La continuit`a da sinistra della FdD non `e garantita ma la funzione F
X
ammette limiti da
sinistra infatti, per h 0 vale
I
xh
= (, x h] (, x) (, x] = I
x
quindi
F
X
(x) := lim
h0
F
X
(x h) F
X
(x)
Se la diseguaglianza `e vericata come eguaglianza la funzione F
X
(x) `e continua in x. In
caso contrario, la funzione presenta in x una discontinuit`a di prima specie, cio`e un salto.
Per la continuit`a della probabilit`a,
lim
h0
F
X
(x h) = lim
h0
P(X x h)
= P
_
lim
h0
[X x h]
_
= P(X < x),
quindi lampiezza delleventuale salto in x vale
F
X
(x) F
X
(x) = P(X x) P(X < x) = P(X = x)
(v.) numerabilit` a dellinsieme dei salti - facoltativo
La FdD, nel caso discreto `e costante a tratti, con salti, in corrispondenza dei valori x
i
assunti dalla v.a.,
di ampiezza pari alla densit` a p
X
(x
i
). Nel caso di FdD di v.a. come la Poisson o la geometrica linsieme
dei salti `e innito numerabile.
`
E una semplice conseguenza della monotonia e della limitatezza che, anche
nel caso generale, la FdD ha un insieme di salti al pi` u numerabile.
Lemma. Linsieme dei punti di salto di una FdD, se non `e vuoto, `e al pi` u numerabile.
Dimostrazione. Ammesso che x
1
< x
2
siano due punti di salto di F
X
(x), si ha
F
X
(x
1
) < F
X
(x
1
) F
X
(x
2
) < F
X
(x
2
)
di modo che esistono due numeri razionali distinti q
1
e q
2
tali che q
1
< q
2
e
F
X
(x

1
) < q
1
< F
X
(x
1
), F
X
(x

2
) < q
2
< F
X
(x
2
).
Pertanto `e possibile porre in corrispondenza biunivoca i punti di salto con un sottoinsieme (al pi` u numer-
abile!) di numeri razionali.
(vi.) probabilit`a degli intervalli
Dalla denizione della FdD e dalle sue propriet`a si ha che, a partire da F
X
(x), si possono
calcolare le probabilit`a di interesse relative alla variabile aleatoria. Ad esempio, per gli
intervalli, se a b ,
P(X > a) = 1 P(X a) = 1 F
X
(a)
P(a < X b) = P(X b) P(X a) = F
X
(b) F
X
(a)
P(a X b) = P(X b) P(X < a) = F
X
(b) F
X
(a

).
97
Esempio di funzione di distribuzione
x
1
x
2
x
3
x
4
x
F
X
(x)
1
Commenti. Nei punti x
2
, x
3
, e x
4
la FdD presenta salti, dunque le probabilit`a P(x
2
),
P(x
3
), e P(x
4
) sono strettamente positive e pari alle rispettive ampiezze dei salti. In
ogni altro x R `e P(x) = 0. La probabilit`a P(x
1
X < x
2
) = 0 poiche nellintervallo
[x
1
, x
2
) la FdD `e costante. Si noti che, a dierenza del caso discreto la FdD non `e costante
a tratti.
98
Lezione 17 (Marted`, 16 aprile 2013, ore 16:25-18:05)
17.1 Variabili aleatorie assolutamente continue
Denizione. La v.a. X : R, di funzione di distribuzione F
X
(x), si dice assolutamente
continua se esiste una funzione f
X
: R [0, ), integrabile secondo Riemann, in senso
improprio
16
, su R, tale che
F
X
(x) =
_
x

f
X
(x) dx
La funzione f
X
`e detta densit`a della v.a. X.
Nota. Per il teorema fondamentale del calcolo, vedi anche i richiami in appendice alla
lezione, la FdD F
X
(x) di una v.a. assolutamente continua `e continua per ogni x R
quindi, per le note propriet`a delle FdD, si ha (in marcato contrasto con le v.a. discrete)
P(X = x) = F
X
(x) F
X
(x

) = 0 per ogni x R
Propriet`a della funzione di densit`a
(a.) Per denizione f
X
(x) 0 per ogni x R, inoltre, poiche lim
x
F(x) = 1, passando
al limite nella denizione si trova
_

f
X
(x) dx = 1
Osservazione importante. Tutte le f() : R R, integrabili e che soddisfano le condizioni
f(x) 0, x R,
_

f(x) dx = 1.
sono possibili funzioni di densit`a di variabili aleatorie.
Nelle applicazioni le variabili aleatorie assolutamente continue sono pi` u spesso caratteriz-
zate fornendo la funzione di densit`a f
X
(x) piuttosto che la FdD F
X
(x).
(b.) In virt` u della continuit`a della FdD di una v.a. assolutamente continua, per ogni a b
P(a X b) = P(a X < b) = P(a < X b) = P(a < X < b) =
_
b
a
f
X
(x) dx
e, pi` u in generale, se E `e un unione di intervalli di R
P(X E) =
_
E
f
X
(x) dx
(c.) Criterio di assoluta continuit`a. Se la FdD F
X
(x) della v.a. X `e (
1
a tratti il teorema
fondamentale del calcolo, parte II, garantisce lesistenza della densit`a della v.a. X, che si
pu`o denire come
f
X
(x) =
_
F
t
X
(x), nei punti x dove F
t
X
(x) `e continua
arbitraria, dove F
t
X
(x) non `e continua
larbitrariet`a della densit`a in un insieme nito di punti non `e un problema in quanto
lintegrale che denisce la FdD, F
x
(x) =
_
x

f
X
(t)dt, rimane invariato.
16
deve cio`e esistere
_

:= lim
a
lim
b
_
b
a
99
Micro-esercizio. Sia X una variabile aleatoria di densit`a f
X
(x) =
3
8
(4x2x
2
) per 0 x 2,
e nulla altrove. Si verichi che f
X
`e una densit`a. Si determini P(0.5 X 1.5). Vericare
per sola ispezione che P(X > 1) =
1
2
. (per analogo esercizio svolto e commentato, vedi
appunti da lezione)
Interpretazione della funzione di densit`a
I valori della funzione di densit`a delle v.a. assolutamente continue non sono probabilit`a.
Se X `e una v.a. discreta p
X
(a) = P(X = a), mentre nel caso di una v.a. assolutamente
continua P(X = a) = 0 per ogni a, e f
X
(a) pu`o assumere qualunque valore non negativo,
anche maggiore di 1. Il signicato intuitivo della funzione di densit`a si pu`o ricavare
usando il teorema della media integrale. Se f
X
`e continua nellintervallo [a, a + ] allora
per qualche c [a, a + ] vale
P(a X a + ) =
_
a+
a
f
X
(x) dx = f
X
(c)
quindi, per 0 sar`a c a. Per sucientemente piccolo vale lapprossimazione
P(a X a + ) =
_
a+
a
f
X
(x) dx f
X
(a)
ovvero
f
X
(a)
P(a X a + )

(1)
che giustica la terminologia adottata: f
X
(x) `e la densit`a della probabilit`a nel punto x.
Pensate ad una massa totale di 1 kg depositata su di un lo adagiato sulla retta reale. Sia
P(a X a + ) la quantit`a di massa adagiata sul lo nellintervallo [a, a + ]. Allora
la naturale denizione di densit`a di massa nel punto a `e proprio f
X
(a).
Considerazioni dimensionali.
`
E utile rendersi conto che, dal punto di vista dimensionale,
se la v.a. X rappresenta ad esempio un tempo misurato in secondi, la densit`a di prob-
abilit`a, in virt` u della (1), `e dimensionalmente una frequenza, misurata in Hz. Infatti il
numeratore in (1) `e un numero puro e il denominatore `e un tempo. Sempre a proposito
delle dimensioni siche: si tenga anche presente che se la v.a. X `e ad esempio un tempo, il
valore atteso E(X) ha dimensione [tempo], e la varianza var(X) ha dimensione [tempo]
2
.
Convincetevene.
Valore atteso delle v.a. assolutamente continue
Denizione. La variabile aleatoria assolutamente continua X, di densit`a f
X
(x), ammette
valore atteso E(X) se esiste nito lintegrale generalizzato
17
E(X) :=
_

xf
X
(x) dx
Poiche
E([X[) =
_
0

(x)f
X
(x) dx +
_

0
xf
X
(x) dx,
`e immediato concludere che la v.a. X ammette valore atteso se E([X[) esiste nito. Pi` u
in generale, se g : R R, il valore atteso della funzione di v.a. g(X), `e
E(g(X)) :=
_

g(x)f
X
(x) dx,
17
In teoria della probabilit` a solitamente si utilizza la denizione standard di integrale generalizzato sulla
retta
_

:= lim
a
lim
b
_
b
a
. In Segnali e Sistemi `e pi` u utile interpretare gli integrali sulla retta nel
senso del valore principale di Cauchy
_

:= lim
a
_
a
a
. Ovviamente i due integrali non sono equivalenti:
nel senso standard
_

xdx non esiste, mentre il valore principale di Cauchy `e nullo.


100
se lintegrale generalizzato esiste nito. In particolare, prendendo g(x) := (x E(X))
2
si
ottiene la varianza della v.a. X:
var(X) = E
_
_
X E(X)
_
2
_
:=
_

(x E(X))
2
f
X
(x) dx
Tutte le propriet`a del valore atteso e della varianza gi`a viste nel caso delle v.a. dis-
crete continuano a valere. Lunica dierenza notevole `e che la prima dimostrazione
delladdittivit`a del valore atteso, basata sullespressione, dimostrata nel caso discreto,
E(X) =

X()P(), non si estende alle v.a. assolutamente continue. Vedremo per`o


che la seconda dimostrazione delladdittivit`a, che ricorreva alle densit`a congiunte, continua
a valere.
Esempio di v.a. che non ammette valore atteso. Una v.a. X con funzione di densit`a
f
X
(x) :=
1

1
1 +x
2
,
`e detta v.a. di Cauchy.
`
E facile vericare (fatelo!) che f
X
(x) soddisfa le condizioni
f
X
(x) > 0 per ogni x R e
_

f
X
(x) dx = 1 e quindi `e eettivamente una funzione
di densit`a. Peraltro xf
X
(x) non `e integrabile su R e quindi non esiste il valore atteso di
X. Vedremo pi` u avanti che le v.a. di Cauchy non sono strani oggetti matematici, ma che
possono facilmente originare in comuni situazioni sperimentali. Le v.a. di Cauchy hanno
anche un interesse teorico in quanto ci permetteranno di costruire semplici controesempi
quando studieremo i teoremi di convergenza.
Il seguente risultato sullesistenza dei momenti E(X
k
) `e una semplice applicazione della
disuguaglianza di Jensen.
Lemma. Sia r s. Se esiste nito E([X[
s
) allora esiste nito E([X[
r
).
Dimostrazione. Osserviamo che, se > 1, la funzione t

`e convessa per t R
+
, infatti
d
2
dt
2
t

= (1)t > 0 per t R


+
, quindi per la disuguaglianza di Jensen (paragrafo 11.1)
_
E([X[)

E([X[

). Si osservi anche che, se r s, vale [X[


r
=
_
[X[
r
_s
r
, dove
s
r
> 1,
quindi vale
_
E([X[
r
)
_s
r
E
_
([X[
r
)
s
r
_
= E([X[
s
) < .
V.a. assolutamente continue notevoli
(a.) Variabile aleatoria uniforme
Diremo che la v.a. assolutamente continua X `e uniforme nellintervallo [a, b], e la denoter-
emo X U(a, b), se la densit`a di probabilit`a di X `e
f
X
(x) =
_
_
_
0, x < a
1
ba
, a x b
0, x b
La corrispondente funzione di distribuzione `e
F
X
(x) =
_
x

f
X
() d =
_
_
_
0, x < a
_
x
a
1
ba
d =
xa
ba
, a x b
_
b
a
1
ba
d = 1, x b
101
6
-
6
-
a
b
1
ba
x
f
X
(x) F
X
(x)
a
b
x
1
Si noti come, nei punti x = a ed x = b dove la densit`a non `e continua, la funzione F
X
(x)
non `e derivabile. Inoltre la distribuzione `e costante per x < 0 e per x > b, dove la densit`a
`e nulla.
Momenti delluniforme. Il calcolo di valore atteso e varianza di X U(a, b) sono banali
esercizi
E(X) =
a +b
2
, var(X) =
(b a)
2
12
.
(b.) Variabile aleatoria esponenziale
Diremo che la v.a. assolutamente continua X `e esponenziale di parametro , e scriveremo
X Exp(), se X ha funzione di densit`a
f
X
(x) = e
x
1l(x)
dove 1l(x) `e il gradino unitario.
Per vericare che la f
X
(x) `e una densit`a si osservi che f
X
(x) 0 ovunque, inoltre
_

f
X
(x) dx =
_

0
e
x
dx =
1

e
x

0
= 1
Il calcolo di media e varianza, non `e dicile, ma `e un puro esercizio di analisi. Si integra
una volta per parti per il calcolo di E(X) e due volte per il calcolo di E(X
2
). Buon
divertimento. La varianza si trova con la solita scorciatoia a partire da E(X
2
) ed E(X).
E(X) =
_

0
xe
x
dx =
1

e
var(X) =
_

0
_
x
1

_
2
e
x
dx =
1

2
La funzione di distribuzione `e molto pi` u facile
F
X
(x) =
_
x

f
X
(x) dx =
_
0 x < 0
_
x
0
e

d = 1 e
x
, x 0.
Dalla formula della funzione di distribuzione si ricava la semplice espressione
18
P(X a) = e
a
,
18
Per ogni v.a. assolutamente continua vale
P(a X b) = P(X b) P(X a) = P(X a) P(X b),
(interpretate gracamente le due identit` a!) quindi per una v.a. esponenziale
P(a X b) = P(X a) P(X b) = e
a
e
b
102
che `e strutturalmente identica allespressione per la v.a. geometrica P(X > k) = (1 p)
k
.
In eetti le v.a. geometrica ed esponenziale sono molto simili. In particolare esse sono le
uniche due variabili aleatorie (la geometrica nel discreto, lesponenziale nel continuo) che
possiedono la propriet`a di assenza di memoria.
`
E immediato vericare che (si veda anche
la Lezione 23 per un calcolo alternativo)
P(X x +h[X x) = P(X h)
Le v.a. esponenziali sono molto utilizzate in teoria delle code, per modellare tempi di
attesa.
Esempio. Sia N
1
la v.a. che modella il numero richieste di servizio al server in una unit`a
di tempo. Per quanto visto la scorsa lezione `e spesso naturale modellare N
1
con una v.a.
di Poisson (si veda la Lezione 13, punto 2, commenti). Sia quindi N
1
T(), dove `e il
numero medio di richieste nellunit`a di tempo. Allora il numero di richieste in t unit`a di
tempo `e N
t
T(t). Ci`o signica che
P(N
t
= k) = e
t
(t)
k
k!
, k = 0, 1, . . .
Sia ora W la v.a. che rappresenta il tempo di attesa del server no allarrivo della prima
richiesta di servizio. Il tempo di attesa `e superiore a t unit`a se allistante t non `e ancora
arrivata alcuna richiesta, ovvero N
t
= 0. Questo consente di scrivere
P(W > t) = P(N
t
= 0) = e
t
, per ogni t 0
La funzione di distribuzione di W `e quindi
F
W
(t) = P(W t) = 1 P(W > t) = 1 e
t
, per ogni t 0
ma questa `e proprio la distribuzione di una v.a. esponenziale. Abbiamo cio`e dimostrato
che W Exp(). Il valore atteso di W `e
1

. Se arrivano in media richieste per unit`a


di tempo `e intuitivamente ovvio che, in media, la prima richiesta arrivi dopo
1

unit`a di
tempo.
103
Appendice alla Lezione 17
Richiami sullintegrale di Riemann
(a.) Continuit`a e derivabilit`a a tratti
Sia f : [a, b] R. Diremo che f ha una discontinuit`a di prima specie (salto): in c (a, b)
se ivi esistono niti e diversi i limiti da destra e da sinistra; in a se ivi esiste nito e diverso
da f(a) il limite da destra; in b se ivi esiste nito e diverso da f(b) il limite da sinistra.
Si dicono continue a tratti le funzioni f : [a, b] R, continue in [a, b], tranne al pi` u in un
sottoinsieme nito di punti dove hanno salti.
Si dicono (
1
a tratti le funzioni f : [a, b] R, ovunque continue in [a, b] e derivabili, con
derivata continua, in [a, b], tranne al pi` u in un sottoinsieme nito di punti dove la derivata
ammette niti i limiti da sinistra e da destra.
Le derivate delle funzioni (
1
a tratti sono quindi funzioni continue a tratti.
(b.) Integrale di Riemann
La denizione e le propriet`a dellintegrale di Riemann si suppongono note. Per brevit`a
diremo semplicemente integrabile ogni funzione integrabile nel senso di Riemann. Le
funzioni continue a tratti sono integrabili, e quindi lo sono anche le funzioni (
1
a tratti e
le loro derivate.
(c.) Teorema fondamentale del calcolo
Prima parte. Se f : [a, b] R `e continua a tratti allora la sua funzione integrale,
F(x) :=
_
x
a
f(t) dt = F(x) F(a),
`e continua per ogni x [a, b] e, nei punti di continuit`a di f, derivabile con
F
t
(x) = f(x)
Seconda parte. Se F : [a, b] R `e una funzione (
1
a tratti, denendo f(x) := F
t
(x) nei
punti di derivabilit`a di F, ed arbitrariamente dove F non `e derivabile, si ha che, per ogni
x [a, b],
F(x) F(a) =
_
x
a
f(t)dt
(d.) Integrale di Riemann improprio
Nella denizione dellintegrale di Riemann sia la funzione f che il dominio [a, b] sono lim-
itati. Lintegrale di Riemann improprio viene introdotto per superare questa limitazione.
Se la funzione f : (a, b] R `e integrabile su [a + , b] per ogni > 0 e se esiste nito il
limite
lim
0
_
b
a+
f(t)dt
la f si dice integrabile su [a, b] in senso improprio e lintegrale
_
b
a
f(t)dt `e denito come il
valore del limite. Analoghe denizioni di integrali impropri si danno nei casi f : [a, ) R
e f : R R. Interpretando gli integrali come limiti, il teorema fondamentale del calcolo
continua a valere.
104
Lezione 18 (Mercoled`, 17 aprile 2013, ore 16:25-18:05)
18.1 Variabili aleatorie normali
Sono le pi` u importanti variabili aleatorie assolutamente continue.
Denizione. Una v.a. assolutamente continua X si dice normale (o gaussiana) di parametri
R e
2
> 0, e si denota X N(,
2
), se ha densit`a di probabilit`a
f
X
(x) :=
1

2
2
e

1
2
(x)
2

2
, per ogni x R
Nota bene. Il parametro pu`o assumere qualunque valore reale. Il parametro
2
deve
essere strettamente positivo. La notazione
2
`e standard e sta a ricordare che si tratta di
un numero strettamente positivo.
`
E un esercizio di Analisi I vericare che la funzione f
X
(x):
(a.) `e ovunque strettamente positiva e continua,
(b.) `e simmetrica rispetto al punto x = ,
(c.) ha un unico massimo, nel punto x = , dove vale f
X
() =
1

2
2
,
(d.) ha due essi, nei punti x = , dove vale f
X
( ) = f
X
()e

1
2
0.6f
X
(),
(e.) `e integrabile su R infatti, per [x[ vale 0 < f
X
(x) <
1

2
2
e

1
2
2
[x[
e, poiche
il limite superiore `e ovviamente integrabile, per il criterio del confronto f
X
`e integrabile.
Non fatevi confondere dal ciarpame notazionale: il succo `e che per [y[ vale 0 <
e
y
2
e
[y[
, e ovviamente e
[y[
`e integrabile su R.
La verica della condizione di normalizzazione della densit`a `e contenuta nel seguente
Lemma (facoltativo). Si tratta di uno dei pi` u classici esercizi di Analisi II.
Lemma.
_

1
2
(x)
2

2
dx =

2
2
, per ogni R,
2
R
+
Dimostrazione classica. Eettuando il cambio di variabile u =
1

2
2
(x ) ci si riduce a
_

1
2
(x)
2

2
dx =

2
2
_

e
u
2
du.
`
E quindi suciente dimostrare che
19
I :=
_

e
u
2
du =

.
`
E noto, ma non facile da dimostrare, che la primitiva della funzione e
u
2
non pu`o es-
sere espressa in forma chiusa impiegando funzioni elementari, quindi I va calcolato di-
rettamente come integrale denito. Il trucco classico `e di calcolare anziche I il suo
19
A mathematician is one to whom that is as obvious as that twice two makes four is to you, cos`
diceva William Thomson, Lord Kelvin, ai suoi studenti.
105
quadrato:
I
2
=
__

e
u
2
du
_
2
=
__

e
u
2
du
_

__

e
v
2
dv
_
(quindi per Fubini)
=
_

e
(u
2
+v
2
)
dudv (e quindi in coordinate polari)
=
_
2
0
_

0
e

2
d d =
_
2
0
1
2
d = (integrale in per parti).
Andamento della densit`a normale al variare dei parametri
In gura sono riportate le funzioni di densit`a N(2, 0.7), N(2, 1) e N(2, 1.5). Si noti come,
al diminuire di
2
, la densit`a si concentra sempre di pi` u intorno al valore . Si noti inoltre
che la densit`a, che `e strettamente positiva per ogni x R, tenda per`o molto rapidamente
a 0. Appare evidente dai graci che, per una v.a. X N(,
2
), la probabilit`a di eventi
del tipo a X b assume valori non trascurabili solo per intervalli [a, b] nelle vicinanze
di .
Nota. Il caso
2
= 0 `e degenere, in eetti la densit`a N(, 0) non `e ben denita. Euristi-
camente, per ssato, si pu`o considerare
lim

2
0
1

2
2
e

1
2
(x)
2

2
= (x ),
limpulso di Dirac centrato in . Questo `e ragionevole poiche la famiglia di densit`a
N(,
2
), per costante e
2
0, costituisce una famiglia di impulsi di area unitaria,
per ogni
2
> 0, e il cui massimo, per x = , di valore
1

2
2
. Benche (x )
non sia una densit`a standard, essa si comporta come una densit`a nel senso delle funzioni
generalizzate. In eetti si pu`o considerare (x ) > 0 ed inoltre
_

(x )dx = 1.
Funzione di distribuzione
La funzione di distribuzione della densit`a normale N(,
2
) `e
F
X
(x) =
1

2
2
_
x

1
2
(w)
2

2
dw x R.
Poiche lantiderivata di e
w
2
non `e esprimibile in forma chiusa, la funzione di distribuzione
deve essere valutata con metodi di integrazione numerica. I graci qui sotto mostrano la
densit`a e la distribuzione di N(4, 1).
106
Vedremo tra poco che il calcolo della funzione di distribuzione relativa alla densit`a N(,
2
),
qualunque siano e
2
, si pu`o ricondurre al calcolo della funzione di distribuzione della
densit`a N(0, 1).
Nota.
`
E interessante calcolare la funzione di distribuzione F(x) che corrisponde alla densit`a
generalizzata (x ), caso limite di N(,
2
) per
2
= 0. Applicando la denizione
F(x) :=
_
x

(w )dw = 1l(x ),
dove 1l(x) `e il gradino unitario. La funzione di distribuzione F(x) ha un unico salto,
di ampiezza 1, in corrispondenza del punto x = . Per quanto noto sulle funzioni di
distribuzione si conclude che se una variabile aleatoria ha densit`a generalizzata (x )
allora essa `e una variabile aleatoria degenere, X = costante.
Valore atteso e varianza delle v.a. normali
I parametri e
2
che identicano la densit`a di una v.a. X N(,
2
) hanno, rispettiva-
mente, il signicato probabilistico di valore atteso e varianza di X.
(a) Valore atteso. Poiche la densit`a `e simmetrica rispetto al punto x = e la funzione
[x[f
X
(x) `e integrabile (ragionando come sopra il succo `e che per [y[ vale 0 < [y[e
y
2

[y[e
[y[
ed il limite superiore `e integrabile) si pu`o concludere che il valore atteso `e E(X) =
, valore in accordo con linterpretazione del valore atteso come baricentro della densit`a.
La derivazione formale `e contenuta nel seguente
107
Lemma. Se X N(,
2
) allora
E(X) =
1

2
2
_

xe

1
2
(x)
2

2
dx =
Dimostrazione. Aggiungiamo e sottraiamo e usiamo laddittivit`a dellintegrale
E(X) =
1

2
2
_

xe

1
2
(x)
2

2
dx
=
1

2
2
_

(x )e

1
2
(x)
2

2
dx +
1

2
2
_

1
2
(x)
2

2
dx
Il secondo addendo `e lintegrale della densit`a moltiplicata per e vale quindi . Per
valutare il primo addendo si eettua il cambio di variabile u =
1

2
2
(x ):
_
2
2

ue
u
2
du =
_
2
2

1
2
__

d
_
e
u
2
_
=
_

2
2
e
u
2

= 0
Si conclude che E(X) = .
(b) Varianza (facoltativo). Sia X N(,
2
). Poiche E(X) = e la funzione (x
)
2
f
X
(x) `e integrabile, la varianza esiste ed il suo valore `e
var(X) =
1

2
2
_

(x )
2
e

1
2
(x)
2

2
dx
Procedendo con il solito cambio di variabile u =
1

2
2
(x) ci si riduce al seguente calcolo
var(X) =
2
2

u
2
e
u
2
du
=

2

ud
_
e
u
2
_
=

2

_
ue
u
2

e
u
2
du
_
=

2

_
0

=
2
Trasformazioni lineari di v.a. normali
Lemma fondamentale. Sia X N(,
2
) ed Y := aX + b, con a ,= 0, allora Y
N(a +b, a
2

2
)
Nota Bene. Il Lemma `e fondamentale, ma va letto con attenzione per capirne la portata.
Esso aerma che, data X N(,
2
), la trasformazione lineare Y = aX + b `e ancora
normale, di parametri E(Y ) = a+b = aE(X) +b e varianza var(Y ) = a
2

2
= a
2
var(X).
Per quanto gi`a noto, ci`o `e esattamente quello che ci aspettiamo, in termini di valore atteso
e di varianza della trasformazione lineare. Linformazione fondamentale fornita dal Lemma
`e che la densit`a di Y `e normale. La densit`a normale `e invariante per trasformazioni lineari
della v.a.
Dimostrazione. Per determinare la densit`a della v.a. Y cominciamo col determinarne la
funzione di distribuzione F
Y
(y). Supponiamo, per ssare le idee, che a > 0 allora
F
Y
(y) = P(Y y) = P(aX +b y)
= P
_
X
y b
a
_
= F
X
_
y b
a
_
.
108
La densit`a di Y si trova calcolando la derivata di F
Y
(y), quindi
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
F
X
_
y b
a
_
=
1
a
f
X
_
y b
a
_
=
1
a
1

2
2
e

1
2
(
yb
a

)
2

2
=
1

2a
2

2
e

1
2
(y(a+b))
2
a
2

2
Ma questa `e la densit`a di una v.a. normale di media a+b e varianza a
2

2
, il che conclude
la dimostrazione del caso a > 0. Il caso a < 0 si tratta in modo simile.
F
Y
(y) = P(Y y) = P(aX +b y)
= P
_
X
y b
a
_
= 1 F
X
_
y b
a
_
Calcolando la derivata si trova
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
1 F
X
_
y b
a
__
=
1
a
f
X
_
y b
a
_
=
1
a
1

2
2
e

1
2
(
yb
a

)
2

2
=
1

2a
2

2
e

1
2
(y(a+b))
2
a
2

2
che ancora coincide con la densit`a di una v.a. normale di media a +b e varianza a
2

2
, il
che conclude la dimostrazione.
Corollario del lemma. Se X N(,
2
) allora
Z :=
X

N(0, 1),
dove := +

2
, `e la cosiddetta deviazione standard della v.a. X.
Dimostrazione. Banale applicazione del precedente Lemma.
Osservazioni.
(a.) Terminologia. Ogni variabile aleatoria Z N(0, 1) `e detta variabile aleatoria nor-
male standard. Il corollario quindi aerma che la trasformazione lineare Z :=
1

standardizza la v.a. X N(,


2
).
(b.) Se W `e una qualunque v.a. con E(W) = e var(W) =
2
allora S :=
W

ha valore
atteso E(S) = 0 e varianza var(S) = 1, ma in generale S non conserva lo stesso tipo di
densit`a di W, ne tantomeno `e normale.
(c.) Attenzione. Quando si standardizza, un errore frequentissimo `e dividere per la
varianza
2
anziche per la deviazione standard .
Calcolo della probabilit`a di eventi per v.a. normali
Ogni calcolo di probabilit`a di eventi relativi alla generica v.a. X N(,
2
) si pu`o
ricondurre al calcolo della probabilit`a di un evento per una v.a. Z N(0, 1).
109
Esempio. Sia X N(3, 4) e si voglia calcolare P(1 X 6). Applicando la standardiz-
zazione troviamo
P(1 X 6) = P
_
1 3
2

X 3
2

6 3
2
_
= P(1 Z 1.5)
Notazioni. La funzione di distribuzione F
Z
di una v.a. Z N(0, 1) normale standard, `e
universalmente denotata (z), quindi
(z) :=
1

2
_
z

1
2
u
2
du, per ogni z R
La funzione (z) `e la primitiva della funzione (

2)
1
e

1
2
z
2
e non esiste una forma chiusa
per questantiderivata. Peraltro `e molto comodo poter disporre dei valori della (z) poiche
essi consentono di eettuare moltissimi calcoli probabilistici di interesse pratico. Sul sito
del corso trovate una tabella della (z). La tabella `e costruita utilizzando uno sviluppo
in serie di (z), ma non abbiamo il tempo di entrare nei dettagli computazionali.
Il seguente (banale) lemma generalizza lesempio appena visto.
Lemma. Se X N(,
2
) allora
P(a X b) =
_
b

_
a

_
.
Poiche la densit`a N(0, 1) `e una funzione pari si ricava immediatamente (tracciate una
gura e convincetevene) che
(z) = 1 (z)
per cui `e suciente disporre della tabulazione di (z) per z 0.
Le probabilit`a di alcuni comuni eventi per Z N(0, 1), espressi in termini di (z), sono:
P(Z z) = (z)
P(Z z) = 1 (z) = (z)
P([Z[ z) = 2(z) 1
P([Z[ z) = 2(1 (z)) = 2(z)
Combinazioni lineari di v.a. normali indipendenti
Vale il seguente fondamentale risultato che dimostreremo in seguito.
Lemma. Se X
1
, X
2
, . . . X
n
sono v.a. normali indipendenti, con X
i
N(
i
,
2
i
) allora
n

i=1

i
X
i
N
_
n

i=1

i
,
n

i=1

2
i

2
i
_
Nota Bene. Come per il caso delle trasformazioni lineari di v.a. la portata di questo
risultato va capita a fondo. Per quanto gi`a noto, la media e la varianza della v.a.

n
i=1

i
X
i
sono esattamente quelle che ci aspettiamo per le propriet`a generali di media e varianza.
Linformazione fondamentale fornita dal Lemma `e che la densit`a di

n
i=1

i
X
i
`e normale.
110
Esempi ed esercizi
Esercizio 1 Alcuni numeri fondamentali per le v.a. normali.
Sia X N(,
2
).
`
E utile avere unidea delle probabilit`a delle deviazioni di X dal suo
valore atteso . Per fornire numeri universali, esprimiamo la deviazione usando come unit`a
di misura la deviazione standard. Allora si ha
P([X [ ) = P
_
[X[

_
= P([Z[ 1) = 2(1 (1)) 0.32
P([X [ 2) = P
_
[X[

_
= P([Z[ 2) = 2(1 (2)) 0.05
P([X [ 3) = P
_
[X[

_
= P([Z[ 3) = 2(1 (3)) 0.003
Per ricavare i valori numerici si `e fatto uso della tabella della distribuzione normale stan-
dard (z). Attenzione con la normalizzazione: al numeratore c`e X , la media `e gi`a
sottratta, basta dividere per la deviazione standard.
Passando al complementare, lultima approssimazione equivale a P([X[ 3) 0.997.
Equivalentemente
P( 3 X + 3) 0.997.
Questa osservazione `e molto importante nelle applicazioni pratiche. I valori assunti da
una v.a. normale cadono con probabilit`a 0.997 nellintervallo [ 3, +3]. Qualunque
insieme di valori (evento) al di fuori dellintervallo ( 3, + 3), `e molto improbabile
(ha probabilit`a inferiore a 0.003).
Esercizio 2. Calcolare limiti superiori alle probabilit`a dellesercizio 1 utilizzando la disu-
guaglianza di Chebychev.
P([X [ 3)
var(X)
9
2
=
1
9
0.11
questo `e un altro esempio che mostra quanto lasca possa essere la disuguaglianza di
Chebychev (limite superiore 0.11 a fronte di probabilit`a approssimativamente uguale a
0.003).
Esercizio 3 (parte (e.) facoltativa per il primo compitino)
Un tecnico ha a disposizione gli strumenti A e B per misurare una certa lunghezza . Lo
strumento A fornisce la misura M
A
= + X
A
dove lerrore di misura X
A
N(0, 9). Lo
strumento B fornisce la misura M
B
= + X
B
dove lerrore X
B
N(0, 16). Gli errori di
misura X
A
e X
B
sono v.a. indipendenti.
(a.) Se voi foste il tecnico che strumento usereste?
(b.) Se il tecnico eettua la misura con lo strumento A qual `e la probabilit`a che lerrore
sia di modulo minore di 4?
(c.) Il tecnico eettua due misure, una con lo strumento A ed una con lo strumento B, poi
calcola la media aritmetica delle due misure, ovvero M =
1
2
M
A
+
1
2
M
B
che considera come
misura nale. Qual `e la probabilit`a che la misura M sia aetta da un errore di modulo
minore di 4?
(d.) Il tecnico vuole tenere conto della diversa precisione degli strumenti e quindi calcola
la misura nale come M
c
= (1 c)M
A
+ cM
B
dove c [0, 1]. Caratterizzare la densit`a
dellerrore che aigge la misura M
c
e calcolare il valore di c [0, 1] che minimizza la
varianza dellerrore.
(e.) Usando lo strumento A, e calcolando la misura nale come media aritmetica delle
misure eettuate, quante misure deve eettuare il tecnico per avere probabilit`a almeno
0.95 che il modulo dellerrore sia inferiore a 0.1 unit`a?
111
Soluzione
(a.) Il tecnico desidera minimizzare lerrore di misura. Poich`e il processo di misura `e
modellato probabilisticamente `e naturale decidere quale strumento usare confrontando le
distribuzioni dellerrore di misura. Gli errori di misura sono rispettivamente X
A
N(0, 9)
ed X
B
N(0, 16).
`
E noto che se W N(,
2
) allora P([W[ < 3) 0.997. Il tecnico
quindi sa a priori che P([X
A
[ < 9) = P([X
B
[ < 12) = 0.997. Con probabilit`a 0.997 il
modulo dellerrore `e minore di 9 unit`a se si usa lo strumento A, mentre `e minore di 12
unit`a se si usa lo stumento B. Conviene usare lo strumento A.
(b.)
P([X
A
[ < 4) = P
_
[X
A
[
3
<
4
3
_
= 2
_
4
3
_
1 2 0.9082 1 0.82
(c.) Le v.a. M
A
e M
B
sono rispettivamente M
A
N(, 9) ed M
B
N(, 16), ed
indipendenti, quindi M =
1
2
M
A
+
1
2
M
B
`e una v.a. N(
1
2
+
1
2
,
1
4
9 +
1
4
16) = N(,
25
4
).
Lerrore di misura sar`a in questo caso M N(0,
25
4
). La probabilit`a che lerrore sia
in valore assoluto sotto alle 4 unit`a `e
P([M [ < 4) = P
_
[M [
5/2
<
4
5/2
_
= 2
_
8
5
_
1 2 0.9452 1 0.89
Questa probabilit`a `e maggiore di quella al punto (b.) e questa `e una buona notizia.
Signica che il modulo dellerrore `e sotto alle 4 unit`a con probabilit`a pi` u alta. Prendere
due misure e calcolarne la media aritmetica produce una misura nale migliore, anche se
la seconda misura `e presa con uno strumento di qualit`a inferiore. Ma si pu`o far di meglio
che combinare le due misure calcolandone la media aritmetica: vedi parte (d.).
(d.) M
c
= (1 c)M
A
+ cM
B
, quindi M
c
N(, 9(1 c)
2
+ 16c
2
). Lerrore di misura `e
M N(0, 9(1c)
2
+16c
2
). La varianza dellerrore di misura `e
2
(c) = 9(1c)
2
+16c
2
.
Derivando rispetto a c ed annullando la derivata otteniamo
d
dc

2
(c) = 18(1 c) +32c =
0 c =
9
25
Questo `e eettivamente il minimo poich`e
d
2
dc
2

2
(c) = 18 +32 > 0 ovunque. La
varianza ottimale vale
2
_
9
25
_
= 9
_
1
9
25
_
2
+ 16
_
9
25
_
2
= 5.76
Calcoliamo per curiosit`a la probabilit`a che lerrore stia sotto alle 4 unit`a se il tecnico
combina le due misure in modo ottimale, cio`e usando c =
9
25
. La misura ottenuta sar`a
M

=
16
25
M
A
+
9
25
M
B
N(, 5.76) e la probabilit`a cercata vale
P([M

[ < 4) = P
_
[M

5.76
<
4

5.76
_
= 2(2.4) 1 2 0.9918 1 0.98
che `e sensibilmente pi` u alta di quella ottenuta usando la media aritmetica.
(e.) Eettuando n misure e calcolando la misura nale come media aritmetica si ottiene
la v.a.
M =
1
n
n

i=1
M
i
=
1
n
n

i=1
( +X
i
) = +
1
n
n

i=1
X
i
Per semplicare la notazione ho eliminato il pedice A dalle v.a. X
i
poiche stiamo usando
sempre lo strumento A. Ognuna delle v.a. X
i
N(0, 9). Lerrore di misura su M `e
M =
1
n
n

i=1
X
i
N
_
0,
9
n
_
infatti le v.a. X
i
sono i.i.d. con media nulla e varianza 9, quindi
var
_
1
n
n

i=1
X
i
_
=
1
n
2
n

i=1
var(X
i
) =
9n
n
2
112
Imponiamo quanto richiesto in (e.), ovvero che
P([M [ 0.1) = P
_

1
n
n

i=1
X
i

0.1
_
0.95
Standardizzando si ottiene
P
_

1
n
n

i=1
X
i

0.1
_
= P
_

1
n

n
i=1
X
i

0.1
3

n
_
= P
_
[Z[
0.1

n
3
_
= 2
_
0.1

n
3
_
1 0.95
Abbiamo ottenuto il vincolo
2
_
0.1

n
3
_
1 0.95
che, con un paio di passaggi, si converte in

_
0.1

n
3
_
0.975
dalla tabella della normale standard si trova
(1.96) = 0.9750
quindi la condizione in n `e
0.1

n
3
1.96
ovvero

n 58.8, n 3457.44
La risposta `e che n = 3458 misure sono sucienti.
Esercizi che richiedono il Lemma sulle combinazioni lineari di v.a. normali indipendenti
Esercizio 4. Se X ed Y sono v.a. N(0, 1) indipendenti allora la v.a W = X Y `e
W N(0, 2). (Banale applicazione del Lemma sulle combinazioni lineari di normali)
Esercizio 5. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P(X Y ).
Soluzione. P(X Y ) = P(X Y 0) = P(W 0), dove W N(0, 2). Qui non
`e necessario standardizzare: basta osservare che, poiche W `e normale di media nulla,
P(W 0) =
1
2
.
Esercizio 6. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P
_
X Y +
1
2
_
.
Soluzione. P
_
X Y +
1
2
_
= P
_
X Y
1
2
_
= P
_
W
1
2
_
, dove W N(0, 2). Per
standardizzare sottraiamo la media di W (che vale 0 in questo caso) e dividiamo per
la deviazione standard di W (che vale

2 in questo caso). Questo produrr`a una v.a.


Z =
W0

2
N(0, 1) che consentir`a di usare la tavola di (z).
P
_
W
1
2
_
= P
_
W 0

1
2
0

2
_
= P
_
Z
1
2
0

2
_
= 1
_

2
4
_
1 (0.35) 1 0.6368 = 0.3632.
113
Lezione 19 (Luned`, 22 aprile 2013, ore 10:30-12:15)
19.1 Ripassone pre-compitino
Svolti in aula esercizi sul programma della prima parte del corso. Alcuni tratti dallelenco
qui sotto, altri inventati al momento per illustrare certi aspetti della teoria o tecniche di
calcolo. Svolgete quelli che non trovate sui vostri appunti. Tempo permettendo, in una
futura revisione aggiunger`o le soluzioni.
Esercizio 1. Gli eventi A, B, e C sono equiprobabili, ed `e altres` noto che
A B = ,
A e B sono indipendenti da C
P(A C) =
5
9
Calcolare i valori numerici di P(A B C) e P(C[A B).
Esercizio 2. Un esame consiste di 100 domande a risposta multipla. Ad ogni domanda
sono proposte 4 risposte di cui solo una `e corretta.
(a.) Se lo studente risponde a caso, quante sono in media le risposte corrette?
(b.) Se si assegna 1 punto per ogni risposta corretta, che punteggio si deve assegnare alle
risposte errate anche il punteggio medio di chi risponde a caso sia nullo?
Esercizio 3. Mario va in libreria a curiosare e ad acquistare libri. Il tempo che Mario
passa in libreria `e un numero intero di ore K, dove K `e una variabile aleatoria uniforme a
valori nellalfabeto 1, 2, 3, 4. Sappiamo inoltre che il numero di libri che Mario acquista
`e anchesso modellabile con una variabile aleatoria N.
`
E nota la densit`a condizionata
p
N[K
(n[k) =
_
1
k
, se 1 n k, e k 4,
0, altrove,
Calcolare la densit`a di N. Le variabili aleatorie N e K sono indipendenti? Sono scorrelate?
Esercizio 4. Il numero di utenti che si connettono al sito unipd.it in un intervallo di
tempo di 1 minuto `e modellato con con una variabile aleatoria X T(), dove > 0 `e
noto. Per ognuno degli utenti connessi, indipendentemente luno dallaltro, la probabilit`a
di essere uomo `e p. Sia Y la variabile aleatoria che rappresenta il numero di uomini (che
si connettono al sito unipd.it in un intervallo di tempo di 1 minuto). Calcolare la densit`a
di Y .
Esercizio 5. Eettuo lanci indipendenti con una moneta che ha P(T) = p. Sia X il
numero di lanci no al primo successo ed Y il numero di lanci no al secondo successo.
Si determini p
XY
(k, h), p
Y
(h), p
X[Y
(k[h), p
X
(k) (ovviamente sappiamo gi`a che p
X
(k) `e
G(p)). Inne si determini, senza fare calcoli, E(Y ).
114
Lezione 20 (Marted`, 23 aprile 2013, ore 16:25-18:05)
20.1 Classicazione delle variabili aleatorie: discrete, continue e miste
Abbiamo nora discusso due classi di variabili aleatorie, le discrete e le assolutamente
continue. Le variabili aleatorie discrete sono quelle ad alfabeto discreto e la cui funzione
di distribuzione (FdD) `e quindi costante a tratti, con salti in corrispondenza ai valori
dellalfabeto. Le variabili aleatorie assolutamente continue sono quelle che ammettono
densit`a ed hanno quindi FdD continua.
`
E interessante osservare che la classicazione pu`o
essere fatta basandosi esclusivamente sulle propriet`a della FdD. In tal senso si classicano
come discrete o assolutamente continue indierentemente le variabili aleatorie o le loro
FdD.
In questa lezione introduciamo le variabili aleatorie miste, una classe pi` u generale di
variabili aleatorie, di grande interesse applicativo, e che comprende come casi particolari
le discrete e le assolutamente continue. Anche le v.a. miste si caratterizzano sulla base
di propriet`a della FdD. Iniziamo richiamando le rappresentazioni analitiche delle FdD
discrete ed assolutamente continue.
La FdD F
d
(x) `e discreta se essa si pu`o rappresentare come
F
d
(x) =

x
i
.
p(x
i
)1l(x x
i
)
dove p(x
i
) `e una densit`a discreta ed 1l(x) `e il gradino unitario (continuo a destra).
`
E
immediato concludere che la funzione F
d
`e costante a tratti, con salti nei punti x
i
A,
dove A 1 `e un insieme discreto.
La FdD F
ac
(x) `e assolutamente continua se essa si purappresentare come
F
ac
(x) =
_
x

f(w) dw
per qualche f() funzione integrabile secondo Riemann. Il teorema fondamentale del
calcolo garantisce che la funzione F
ac
`e continua per ogni x 1.
`
E interessante notare che
(a.) Non tutte le FdD discontinue sono costanti a tratti.
(b.) Non tutte le FdD continue sono assolutamente continue.
In questa lezione vedremo alcuni esempi del caso (a.). Esempi del caso (b.) sono pi` u
complicati (FdD continue singolari) e sono rimandati ad una futura appendice.
Combinazioni convesse di funzioni di distribuzione
Lemma. Siano F
1
(x) ed F
2
(x) due FdD qualunque. Per ogni [0, 1] la funzione
F(x) = F
1
(x) + (1 )F
2
(x), x R
`e una FdD.
Dimostrazione.
`
E suciente vericare che F(x) `e non decrescente, continua da destra,
con limiti F() = 0 ed F() = 1. Tutte queste propriet`a sono immediate conseguenze
delle ipotesi. Domanda: perche `e essenziale lipotesi [0, 1]?
115
Corollario. Sia F
i
(x)
n
i=1
una sequenza di FdD qualunque e
i

n
i=1
una sequenza di
numeri reali nonnegativi tali che

n
i=1

i
= 1, allora la funzione
F(x) =
n

i=1

i
F
i
(x), x R
`e una FdD. Se le FdD F
i
(x)
i
sono discrete allora F(x) `e discreta. Se le F
i
(x) sono
assolutamente continue, allora F(x) `e assolutamente continua.
Dimostrazione. La prima parte si dimostra per induzione nita a partire dal Lemma prece-
dente. La seconda parte discende immediatamente dalle denizioni. Domanda: perche `e
essenziale lipotesi che

i
= 1?
Micro-esercizio. Nel caso in cui le F
i
(x)
n
i=1
sono assolutamente continue, di densit`a
rispettive f
i
(x)
n
i=1
, qual `e la densit`a di F(x)?
Denizione. Sia F
i
(x)
n
i=1
una sequenza di FdD qualunque e
i

n
i=1
una sequenza di
numeri reali nonnegativi tali che

n
i=1

i
= 1, allora la FdD
F(x) =
n

i=1

i
F
i
(x), x R
`e detta mistura delle F
i
(x), con pesi
i
.
Non si deve pensare che una mistura di FdD sia un oggetto matematico articioso e di
scarsa utilit`a pratica. In realt`a `e molto facile incappare in variabili aleatorie la cui FdD `e
una mistura di FdD.
Esempi
Esempio 1. Alla luce delle denizioni date in questo paragrafo, lEsempio 1, del paragrafo
14.2, mostra un esempio di variabile aleatoria discreta la cui FdD `e la mistura di due FdD
geometriche.
Esempio 2. Ogni FdD discreta `e una mistura di FdD discrete degeneri.
Spiegazione. Avevamo gi`a osservato che, per ogni c R, il gradino traslato 1l(x c) `e una
FdD. Infatti 1l(x c) `e nondecrescente, continua da destra, si annulla per x e vale
1 per x . Ha un unico salto, in x = c, di ampiezza 1. Denotando X una v.a. con
FdD 1l(x c) si ha che P(X = c) = P(X c) P(X < c) = F(c) F(c) = 1, ovvero X
`e una v.a. degenere, X = c costante. Poiche ogni FdD discreta si pu`o rappresentare come
F
d
(x) =

x
i
.
p(x
i
)1l(x x
i
),
dove p(x
i
) sono reali nonnegativi, tali che

x
i
.
p(x
i
) = 1, si conclude che F
d
(x) `e una
mistura di FdD degeneri.
Esempio 3. Nel magazzino della squadra di minuto mantenimento del DEI si trovano 80
tubi al neon di durata media dichiarata di 8.000 ore e 40 tubi di durata media 12.000
ore. Uno dei tubi dellaula Ve `e esaurito ed il manutentore K, per eettuare la sosti-
tuzione, sceglie un tubo a caso dal magazzino. Si assuma che la durata di un tubo al
neon sia modellabile con una v.a. di tipo esponenziale. Si determini la densit`a della du-
rata D del tubo scelto a caso dal manutentore. Soluzione. f
D
(x) =
80
120
1
8000
e

x
8.000
1l(x) +
40
120
1
12.000
e

x
12.000
1l(x), `e una mistura di due v.a. assolutamente continue, esponenziali. Si
noti che non `e unesponenziale!
116
Variabili aleatorie miste
Quando le FdD che compongono una mistura non sono tutte dello stesso tipo, la F(x)
risultante presenta caratteristiche nuove ed interessanti.
Denizione. Una FdD che presenta almeno un salto e che non `e costante a tratti `e detta
mista. Una variabile aleatoria `e detta mista se la sua FdD `e mista.
Osservazione. Ovviamente la FdD di una v.a. mista non `e ne discreta (poiche non `e
costante a tratti) ne assolutamente continua (poiche ha almeno un salto). La descrizione
generale delle v.a. miste esula dagli scopi del corso.
`
E comunque interessante, ed utile
nelle applicazioni, il caso illustrato nel seguente esempio.
Esempio. La mistura F(x) = F
d
(x) + (1 )F
ac
(x) (con (0, 1)) di una FdD asso-
lutamente continua e di una FdD discreta `e una FdD mista. Infatti la FdD F(x) si pu`o
rappresentare come (tracciare un graco qualitativo!)
F(x) =

x
i
.
p
d
(x
i
)1l(x x
i
) + (1 )
_
x

f
ac
(w) dw
che ha salti in corrispondenza dei punti x
i
e non `e costante a tratti grazie alla presenza
della parte integrale. Non essendo continua F(x) non pu`o essere assolutamente continua,
quindi non ammette una funzione di densit`a nel senso usuale, `e per`o possibile denire una
densit`a generalizzata, usando le regole del calcolo generalizzato. La densit`a generalizzata
si pu`o rappresentare come
f(x) =

x
i
.
p
d
(x
i
)(x x
i
) + (1 ) f
ac
(x).
Il valore atteso si determina facendo ricorso alle note regole di calcolo con le funzioni
generalizzate.
E(X) =
_

xf(x) dx
=
_

x
_

x
i
.
p
d
(x
i
)(x x
i
) + (1 ) f
ac
(x)
_
dx
=

x
i
.
x
i
p
d
(x
i
) + (1 )
_

xf
ac
(x) dx
Nel seguente esercizio si propone un esempio concreto di mistura di due FdD, una
assolutamente continua, laltra discreta.
Esercizio. Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatore
deve far girare lago di una ruota della fortuna, il cui bordo `e graduato nellintervallo [0, 2].
Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente alla
posizione dellago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco.
Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare la
densit`a e il valore atteso di V .
Soluzione. f
V
(x) =
1
2
_
1
2
1l
[0,2]
(x)
_
+
1
2
_
(x + 1)
_
. Il gioco `e equo, infatti E(V ) = 0.
Micro-esercizio. Tracciare la FdD della variabile aleatoria V .
117
20.2 Funzioni di variabili aleatorie
Motivazione. Abbiamo visto che assegnata una variabile aleatoria discreta X ed una fun-
zione g : R R, la funzione composta Y = g(X) `e sempre una variabile aleatoria. Il
risultato pi` u importante per le funzioni di variabili aleatorie discrete `e il teorema che
consente di calcolarne il valore atteso, quando esiste, a partire dalla densit`a discreta di X
E(g(X)) =

x
i
.
g(x
i
)p
X
(x
i
).
Una formula analoga labbiamo anche scritta, nella Lezione 17, trattando il valore atteso
delle variabili aleatorie assolutamente continue
E(g(X)) =
_

g(x)f
X
(x) dx,
ma senza fornire condizioni sucienti a garantire che loperazione sia matematicamene
ben denita.
Funzioni di variabili aleatorie. La prima condizione da imporre `e che assegnata la variabile
aleatoria X e la funzione g : R R la funzione composta Y := g(X) sia ancora una
variabile aleatoria. Nel caso generale ci`o non `e automatico poiche deve essere garantita la
misurabilit`a delle anti-immagini. Fortunatamente esiste una condizione suciente molto
semplice.
Denizione. La funzione g : R R si dice misurabile se, per ogni B B(R),
g
1
(B) := x R; g(x) B B(R)
Commento. Lidea di misurabilit` a `e esattamente la stessa introdotta per denire le variabili aleatorie.
Poiche nel caso generale le -algebre giocano un ruolo, `e comune indicare la variabile aleatoria X : R
con la scrittura pi` u completa, che mette in evidenza le -algebre di partenza e di arrivo, X : (, T)
(R, B(R)). Allora X `e una v.a. se X
1
(B) T per ogni B B(R). Nel caso di funzioni g : R R, dominio
e codominio di g coincidono con R, dotato della sua naturale algebra di Borel, cio`e g : (R, B(R))
(R, B(R)) e la condizione di misurabilit` a `e che g
1
(B) B(R) per ogni B B(R). Lipotesi di misurabilit`a `e
molto blanda. Le funzioni continue, ma anche le funzioni solamente continue a tratti, sono tutte misurabili.
Per questo motivo, in questo primo corso di Probabilit` a, non menzioneremo pi` u le questioni di misurabilit` a
per funzioni g : R R.
Lemma. Se X `e una variabile aleatoria e g : R R una funzione misurabile allora
Y = g(X) `e una variabile aleatoria.
Dimostrazione. Basta vericare la misurabilit`a delle anti-immagini di g(X) ovvero veri-
care che
_
g(X)

1
(B) T per ogni B B(R). Poiche
_
g(X)

1
(B) = X
1
_
g
1
(B)),
lipotesi su g e il fatto che X `e una variabile aleatoria sono sucienti a conludere.
Siamo ora in grado di specicare condizioni sucienti per lesistenza del valore atteso
di una funzione di variabile aleatoria assolutamente continua.
Lemma. Se X `e una variabile aleatoria assolutamente continua di densit`a f
X
, e se g `e una
funzione misurabile tale che [g(x)[f
X
(x) `e integrabile allora il valore atteso E(g(X)) esiste
e si pu`o calcolare come
E(g(X)) =
_

g(x)f
X
(x) dx.
Dimostrazione. Omessa.
118
Calcolo della densit`a di Y = g(X)
Motivazione. Come abbiamo visto, sia nel caso discreto che nel caso assolutamente con-
tinuo, il valore atteso E(g(X)) si pu`o calcolare senza necessariamente calcolare prelimi-
narmente la densit`a f
Y
(y) della variabile aleatoria Y = g(X). Peraltro vi sono casi in
cui il problema della determinazione della densit`a di Y = g(X) `e interessante per se.
Ad esempio, nella Lezione 18, abbiamo scoperto che la densit`a normale `e invariante per
trasformazioni lineari: se X N(,
2
) e Y = g(X) := aX+b allora Y `e ancora distribui-
ta normalmente. Questa informazione `e stata preziosa per ridurre i calcoli di probabilit`a
per qualunque v.a. normale a calcoli relativi alla v.a. normale standard.
In questa e nella prossima lezione presenteremo metodi per il calcolo della densit`a
f
Y
(y) che illustreremo con svariati esempi. Il problema di base si pu`o impostare come
segue.
Data la funzione di distribuzione F
X
(x), o in alternativa la densit`a f
X
(x), e la
funzione misurabile g : R R, determinare la funzione di distribuzione F
Y
(y),
o in alternativa la densit`a f
Y
(y), della v.a. Y = g(X).
Una strategia molto conveniente (non lunica) per risolvere questo tipo di problemi `e
di ricavare la funzione di distribuzione F
Y
(y) a partire dai dati (F
X
(x) o f
X
(x) e g(x)) e
quindi calcolare, dove esiste, f
Y
(y) =
d
dy
F
Y
(y). In generale si tratta di calcolare
F
Y
(y) := P(Y y) = P(g(X) y) = P
_
X g
1
_
(, y]
_
_
,
da cui, se richiesta, si pu`o determinare la densit`a f
Y
(y), calcolando la derivata rispetto ad
y del membro destro. Si noti che il calcolo delle anti-immagini
g
1
_
(, y]
_
si pu`o condurre, per cos` dire, fuori linea nel senso che esse non dipendono in alcun modo
dalla distribuzione F
X
(x). Una volta calcolate, le anti-immagini si possono utilizzare per
determinare F
Y
(y) qualunque sia F
X
(x).
Primi esempi di calcolo della densit`a di Y = g(X)
Esempio 1. Dati: y = g(x) = ax +b, con a ,= 0 ed X |
_
[c, d]
_
.
Cominciamo con la determinazione di
F
Y
(y) = P(Y y) = P(aX +b y) =
_
_
_
P
_
X
yb
a
_
= F
X
_
yb
a
_
, se a > 0,
P
_
X
yb
a
_
= 1 F
X
_
yb
a
_
, se a < 0,
e calcolando la derivata rispetto ad y, compattando i due casi a > 0 e a < 0,
f
Y
(y) =
1
[a[
f
X
_
y b
a
_
.
Per concludere ricordiamo che la v.a. X |
_
[c, d]
_
ha densit`a
f
X
(x) =
_
1
dc
, se x [c, d],
0, altrove
quindi sar`a
f
Y
(y) =
_
1
[a[
1
dc
, se
yb
a
[c, d],
0, altrove
119
o, pi` u esplicitamente,
f
Y
(y) =
_
1
[a[(dc)
, se y [ac +b, ad +b],
0, altrove
La conclusione `e che Y |
_
[ac +b, ad +b]
_
.
Commento: Questo esempio mostra che anche la densit`a uniforme, come la normale, `e
invariante per trasformazioni lineari.
Esempio 2. Dati: y = g(x) = ax +b, con a > 0 ed X Exp().
Quanto fatto per lesempio precedente continua a valere, parola per parola, no allespres-
sione
f
Y
(y) = F
t
X
(y) =
1
a
f
X
_
y b
a
_
poiche questa parte del problema dipende solo dalla funzione g(x) e non dalla densit`a della
variabile aleatoria X. Per concludere ricordiamo che per la v.a. X Exp() la densit`a
f
X
(x) = e
x
1l(x). Sostituendo troviamo che
f
Y
(y) =

a
e

yb
a
1l
_
y b
a
_
.
Commento. Se b = 0 allora Y Exp
_

a
_
, mentre se b ,= 0 allora la v.a. Y non `e pi` u
di tipo esponenziale poiche essa non `e pi` u concentrata sulla semiretta [0, ), bens` sulla
semiretta [b, ). La densit`a esponenziale `e invariante per trasformazioni di cambio scala
con a > 0, non per trasformazioni lineari generali.
Esercizio. Considerare il caso a < 0. In questo caso la densit`a f
Y
(y) non `e mai esponen-
ziale, poiche essa `e concentrata sulla semiretta (, b].
Esempio 3. Dati: y = g(x) =
a
x
, con a > 0 ed X Cauchy(), ovvero
f
X
(x) =
1

x
2
+
2
Cominciamo con il determinare la FdD F
Y
(y).
F
Y
(y) = P(Y y) = P(g(X) y) = P
_
X g
(1)
_
(, y]
_
_
Si devono calcolare le anti-immagini g
(1)
_
(, y]
_
, al variare di y R. I graci qui sotto
permettono di concludere che
g
(1)
_
(, y]
_
=
_

_
_
a
y
, 0
_
, se y < 0,
(, 0) se y = 0,
(, 0)
_
a
y
,
_
se y > 0.
La FdD di Y = g(X) vale quindi
F
Y
(y) = P
_
X g
(1)
_
(, y]
_
_
=
_

_
_
0
a
y
f
X
(u) du, se y < 0,
P(X < 0), se y = 0,
P(X < 0) +
_

a
y
f
X
(u) du, se y > 0.
Ricordando che
d
dx
_
b
a(x)
f(u) du = f
_
a(x)
_
da(x)
dx
,
120
si determina la densit`a f
Y
(y) calcolando la derivata di F
Y
(y).
f
Y
(y) =
dF
Y
(y)
dy
=
a
y
2
f
X
_
a
y
_
y R 0
I conti fatti nora forniscono la densit`a di Y =
a
X
(con a > 0) in funzione di f
X
(x).
Specializzando al caso f
X
(x) = Cauchy() troviamo
f
Y
(y) =
a
y
2
1

_
a
y
_
2
+
2
=
1

y
2
+
_
a

_
2
da cui si conclude che Y Cauchy
_
a

_
. In particolare, se X Cauchy(1) allora Y :=
1
X
Cauchy(1).
Esempio 4. Dati: y = g(x) = x1l(x), funzione rampa, e X N(0, 1).
Osservazione. Questo esempio `e importante poiche si verica un fenomeno inaspettato ed
inquietante. La funzione g(x) `e ovunque continua e la variabile aleatoria X `e assolutamente
continua, con densit`a estremamente regolare (la normale `e di classe C

(R)), ciononostante
la variabile aleatoria Y = X1l(X) `e, come vedremo, una v.a. mista.
Iniziamo con il calcolo della distribuzione di Y [conviene sempre tracciare il graco di g].
F
Y
(y) = P(Y y) = P(X1l(X) y) =
_
0, se < y < 0,
P(X y), se y 0,
che, in termini di F
X
ed usando il gradino per compattare la notazione, si scrive
F
Y
(y) = F
X
(y) 1l(y)
Nota Bene. Per capire cosa succede si devono tracciare i graci. La F
Y
(y) `e nulla per y < 0,
vale F
Y
(0) = F
X
(0) =
1
2
per y = 0, ed `e crescente per y > 0. Questo `e il comportamento
della funzione di distribuzione di una v.a. mista: ha un salto, ma non `e costante a tratti.
Qual `e la spiegazione intuitiva per questo inaspettato comportamento della v.a. Y = g(X)
pur con g ed f
X
molto regolari?
121
Tutto dipende dal fatto che la funzione g(x) `e costante in un intervallo, in
questo caso la semiretta (, 0]. Questo fa si che tutta la probabilit`a che la
v.a. X attribuisce alla semiretta (, 0] si concentri nel punto Y = 0.
Dal graco della g (vi avevo detto di tracciarlo?), e poiche X N(0, 1), `e ovvio che
P(Y = 0) = P(X 0) =
1
2
. Ma noi sappiamo che, per una v.a. continua, P(Y = y) = 0
per ogni y R. Quindi Y non pu`o essere continua.
Per terminare i calcoli relativi allesempio calcoliamo la densit`a f
Y
(y) come derivata
di F
Y
(y). Sapendo che la v.a. Y non `e assolutamente continua ci aspettiamo una parte
impulsiva nella densit`a, corrispondente alla parte discreta della v.a. Y , in questo caso il
solo punto Y = 0 di probabilit`a P(Y = 0) =
1
2
.
d
dy
F
Y
(y) = f
X
(y)1l(y) +F
X
(0) (y)
=
1

2
e

1
2
y
2
1l(y) +
1
2
(y)
=
1
2
_
2

2
e

1
2
y
2
1l(y)
_
+
1
2
(y)
Lultima formula esprime la densit` a generalizzata di Y come mistura, con entrambi i pesi
pari ad
1
2
, della densit`a assolutamente continua
2

2
e

1
2
y
2
1l(y) e della densit`a generalizzata,
discreta, degenere (x).
Attenzione.
2

2
e

1
2
y
2
1l(y) `e una densit`a, mentre
1

2
e

1
2
y
2
1l(y) non `e una densit`a: perche?
Micro-esercizio fondamentale. La scrittura U V indica che le v.a. U e V hanno
la medesima FdD e/o densit`a. Per sviluppare la vostra intuizione, senza fare nessun
conto, convincetevi che, con la funzione rampa, g(x) = x1l(x),
se X Exp() allora g(X) X,
se X |([a, b]), con 0 a < b, allora g(X) X
se X |([2, 1]), allora g(X) = 0, la v.a. degenere, costante pari a 0.
se X ha densit`a concentrata nella semiretta [0, ), qualunque, allora g(X) X
se X ha densit`a concentrata nella semiretta (, 0], qualunque, allora Y = g(X) =
0, variabile aleatoria degenere costante.
Morale della lezione. Chi allinizio della lezione ha ritenuto le variabili aleatorie miste una
strana costruzione teorica di nessuna rilevanza pratica deve ricredersi. Le v.a. miste si
presentano automaticamente in contesti molto comuni. Abbiamo visto che si ottengono
v.a. miste modellando fenomeni con un doppio meccanismo aleatorio, uno discreto ed
uno continuo (esempio del gioco con moneta e ruota della fortuna). Inoltre v.a. miste
si generano molto naturalmente processando una v.a. continua X con semplici funzioni
g(X).
122
Appendice alla Lezione 20 (non in programma nella.a. 12/13)
Decomposizione delle funzioni di distribuzione
`
E possibile descrivere in modo semplice la famiglia di tutte le FdD. Allo scopo ricordiamo
che sono FdD tutte e sole le funzioni F : R R
+
tali che (a.) F(x) `e non descrescente, (b.)
F(x+) = F(x) per ogni x R, (c.) valgono i limiti F() = 0, F() = 1. Ricordiamo
che se F(x) `e una FdD esiste sempre F(x). Se F(x) = F(x+) allora x `e un punto di
continuit`a di F(x), altrimenti x `e un punto di salto e vale P(X = x) = F(x) F(x).
Denotiamo con T linsieme dei punti di salto di F(x), in simboli
T := x R[ F(x) F(x) > 0
Lemma. Qualunque sia F(x) il corrispondente insieme T `e numerabile.
Dimostrazione. Sia T
k
= x R[F(x) F(x) >
1
k
linsieme dei punti di discontinuit`a
di F con salto di ampiezza superiore a
1
k
. Dato che 0 F(x) 1, la cardinalit`a di T
k
`e
minore o uguale a k. Poich`e T =

k=1
T
k
`e una unione numerabile di insiemi di cardinalita
nita si conclude che T `e al pi` u numerabile.
Poiche T `e numerabile la seguente somma `e ben denita (`e una somma nita se T `e un
insieme nito, una serie se T `e innito numerabile) e convergente
p :=

xR
F
X
(x) F
X
(x) = P(X T)
Chiaramente p [0, 1] poich`e F(x) [0, 1] ed i salti sono tutti nonnegativi. Convincetevi
dellultima asserzione. Se p = 0 la FdD `e una funzione continua (non ha cio`e nessun salto),
ma non `e necessariamente assolutamente continua (cio`e non ammette necessariamente
densit`a). Se p = 1 i salti della FdD contribuiscono tutta la massa di probabilit`a quindi la
FdD `e costante a tratti, cio`e discreta. Inne, se 0 < p < 1 allora la FdD presenta almeno
un salto, e non `e costante a tratti ovvero `e mista. Il seguente teorema mostra che ogni
FdD `e una mistura di una FdD continua e di una discreta.
Teorema. Ogni FdD F(x) con 0 < p < 1 `e rappresentabile, in modo unico, come mistura
F(x) = p F
d
(x) + (1 p) F
c
(x) (1)
dove F
d
(x) `e una FdD discreta ed F
c
(x) `e una FdD continua (non necessariamente
assolutamente continua).
Dimostrazione (costruttiva). Sia X una qualunque variabile aleatoria la cui FdD `e F(x)
(lintroduzione della v.a. X non `e indispensabile, ma conveniente notazionalmente). Dalla
formula della probabilit`a totale
F(x) = P(X x) = P(X x[X T)P(X T) +P(X x[X T
c
)P(X T
c
)
Osserviamo che, per denizione, P(X T) = p, inoltre le funzioni di x denite da P(X
x[X T) e P(X x[X T
c
) sono entrambe FdD, poich`e le probabilit`a condizionate
sono misure di probabilit`a rispetto al primo evento. Deniamo per brevit`a
F
d
(x) := P(X x[X T) =

wx
P(X = w[X T),
dove la somma, come mostreremo immediatamente, `e ben denita. Si osservi che, per ogni
w R,
P(X = w[X T) =
P([X = w] [X T])
P([X T])
=
P(X = w)
p
, (2)
123
infatti, se w T lidentit`a `e banale, mentre se w , T allora w `e un punto di continuit`a
di F(x) e quindi entrambi i membri si annullano. La somma

wx
P(X = w[X T) `e
dunque ben denita, poiche gli addendi sono non nulli solo per w T che `e un insieme
numerabile. Si ottiene
F
d
(x) := P(X x[X T) =

wx
P(X = w[X T) =

wT
wx
P(X = w)
p
Lultima espressione dimostra che F
d
(x) `e eettivamente una FdD discreta.
La componente continua F
c
(x) si determina sottraendo la parte discreta e rinormalizzando.
Si denisca
F
c
(x) = P(X x[X T
c
) =
F(x) pF
d
(x)
1 p
(3)
`
E facile vericare che F
c
(x) `e continua (esercizio suggerimento: basta vericare che
F
c
(x) F
c
(x) = 0 nei punti x T). Per terminare la dimostrazione basta osservare che
la (3) e la (1) sono equivalenti. Aggiungere dimostrazione unicit`a.
Osservazione. Nei casi dinteresse la costruzione della mistura `e molto semplice. Si de-
termina p facendo la somma dei salti di F(x). Quindi si costruisce F
d
(x) sommando i
salti nella semiretta (, x] e normalizzando dividendo per p. Una volta ottenuta la
componente F
d
(x) si eettua la dierenza (3).
Esempio 1. Determinare la rappresentazione in termini di mistura della FdD mista F
X
(x)
in gura.
6
-
t
x
2 1
p
1
F
X
(x)
1
La mistura cercata `e
F
X
(x) = p F
d
X
(x) + (1 p) F
c
X
(x)
dove
F
d
X
(x) =
_
0, x < 1,
1, 1 x.
e
F
c
X
(x) =
_
_
_
0, x < 0,
x
2
, 0 x < 2,
1, 1 x.
Si riconosce per ispezione che F
d
X
(x) `e la FdD degenere concentrata in -1, mentre F
c
(x) `e la
FdD uniforme U(0, 2), quindi assolutamente continua. La funzione di densit`a generalizzata
corrispondente ad F(x) `e
f(x) = p (x + 1) + (1 p)
1
2
(1l(x) 1l(x 2))
124
Esercizio proposto. Determinare (gracamente!) la rappresentazione in termini di mistura
della FdD in gura.
6
-
t
t
t
x 0.4 -0.6 -0.8 -1
0.2
0.4
0.6
0.8
1
F
X
(x)
125
Lezione 21 (Mercoled`, 24 aprile 2013, ore 16:25-18:05)
21.1 Vettori aleatori
Abbiamo introdotto i vettori aleatori discreti nella Lezione 14. Vedremo ora il caso
generale, e discuteremo in dettaglio i vettori aleatori assolutamente continui.
Denizione. Sia ( , T, P ) uno spazio di probabilit`a assegnato. Un vettore aleatorio su
`e una mappa
W : R
n
, W() =
_
W
1
(), . . . W
n
()
_
tale che (condizione di misurabilit` a)
W
(1)
(B) T, per ogni B B(R
n
)
Osservazioni
(a.) La -algebra di Borel di R
n
, denotata B(R
n
), `e la minima -algebra che contiene gli
aperti di R
n
.
(b.) Se W `e un vettore aleatorio, le sue componenti W
i
sono variabili aleatorie, infat-
ti la misurabilit`a delle funzioni W
i
(), per i = 1, . . . n `e una facile conseguenza della
misurabilit`a del vettore.
Come per le variabili aleatorie scalari, anche per i vettori aleatori interessa probabi-
lizzare lo spazio dei valori, in questo caso R
n
. Utilizzando la tecnica introdotta con le
variabili aleatorie discrete, poi estesa ai vettori discreti e alle variabili aleatorie scalari
generali, la misura di probabilit`a indotta da P su R
n
`e denita come
P
W
(B) := P
_
W
(1)
(B)
_
, per ogni B R
n
Abbiamo gi`a visto (Lezione 16) che, per una variabile aleatoria scalare X, la misura
indotta P
X
`e completamente specicata dalla funzione di distribuzione F
X
(x) := P(X
x) = P
X
( (, x] ). Lanalogo multidimensionale della FdD `e la funzione di distribuzione
congiunta del vettore W, denita come
F
W
(w
1
, w
2
, . . . w
n
) := P( W
1
w
1
, W
2
w
2
, . . . W
n
w
n
).
Come nel caso scalare, anche nel caso vettoriale la FdD congiunta caratterizza completa-
mente la misura indotta P
W
, come illustrato di seguito nel caso bidimensionale.
Vettori aleatori bidimensionali
Per semplicit`a notazionale consideriamo il caso n = 2, ovvero i vettori bidimensionali
W = (W
1
, W
2
). Ci riferiremo indierentemente al vettore W o alla coppia di variabili
aleatorie (W
1
, W
2
). Per denotare le componenti di un vettore bidimensionale useremo
indierentemente le notazioni (W
1
, W
2
), o (X
1
, X
2
), o (X, Y ).
Denizione. La FdD congiunta della coppia di variabili aleatorie (X, Y ) `e
F
XY
(x, y) := P(X x, Y y) = P( (X, Y ) B), dove B = (, x] (, x]
Lemma. La FdD congiunta caratterizza completamente P
XY
.
Dimostrazione. Per ogni rettangolo R := (x
1
, x
2
] (y
1
, y
2
] R
2
, si ha che, vedi gura,
P
XY
(R) = P(x
1
< X x
2
, y
1
< Y y
2
)
= F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
) (1)
126
6
-
6
-
6
-
6
-
x
1
x
2
y
1
y
2
R
+ +
Poiche ogni evento B B(R
n
) si pu`o rappresentare come unione numerabile di rettangoli
si conclude che F
XY
(x, y) caratterizza completamente la probabilit`a indotta su R
2
.
Propriet`a della FdD bidimensionale
(a.) F
XY
(, ) := lim
x,y
F
XY
(x, y) = 0.
(b.) F
XY
(, ) := lim
x,y
F
XY
(x, y) = 1.
(c.) F
XY
(, y) := lim
x
F
XY
(x, y) = F
Y
(y).
(d.) F
XY
(x, ) := lim
y
F
XY
(x, y) = F
X
(x).
Dimostrazione. Sono tutte conseguenze della continuit`a della misura di probabilit`a.
Per la (a.) si osservi che
lim
x,y
[X x] [Y y] = = ,
quindi, per la continuit`a della probabilit`a,
lim
x,y
F
XY
(x, y) = lim
x,y
P([X x] [Y y]) = P() = 0
Per la (b.) basta osservare che
lim
x,y
[X x] [Y y] = = ,
quindi, per la continuit`a della probabilit`a,
lim
x,y
F
XY
(x, y) = lim
x,y
P([X x] [Y y]) = P() = 1
Per la (c.) si osservi che
lim
x
[X x] [Y y] = [Y y] = [Y y],
quindi, per la continuit`a della probabilit`a
lim
x
F
XY
(x, y) = lim
x
P([X x] [Y y]) = P([Y y]) = F
Y
(y)
ed analogamente si dimostra la (d.).
127
21.2 Vettori aleatori bidimensionali assolutamente continui
Questo `e il caso in cui esiste una funzione f
XY
(x, y), non negativa e integrabile secondo
Riemann su R
2
, tale che
F
XY
(x, y) =
_
y

_
x

f
XY
(u, v) dudv
La funzione f
XY
`e detta densit`a congiunta della coppia di v.a. (X, Y ).
Propriet`a della densit`a congiunta
(a.) Non-negativit`a
f
XY
(x, y) 0 per ogni (x, y) R
2
.
(b.) Normalizzazione
__
R
2
f
XY
(x, y) dxdy = 1,
conseguenza immediata della F
XY
(, ) = 1.
Lemma. Ogni funzione f(x, y) integrabile secondo Riemann su R
2
, non-negativa e normalizzata `e la funzione
di densit`a di una coppia di variabili aleatorie (X, Y ). (La dimostrazione ricalca quella del caso scalare)
(c.) Relazione con la FdD.
In ogni punto (x, y) R
2
di continuit`a della densit`a f
XY
(x, y),
f
XY
(x, y) =

2
xy
F
XY
(x, y),
come segue dal teorema fondamentale del calcolo.
(d.) Calcolo della probabilit`a di eventi assegnati
Per i rettangoli il calcolo `e immediato. Sia R := (x
1
, x
2
] (y
1
, y
2
], allora
P((X, Y ) R) =
__
R
f
XY
(x, y) d
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy,
infatti, utilizzando la FdD congiunta e ricordando la (1),
P((X, Y ) R) = P(x
1
< X x
2
, y
1
< Y y
2
)
= F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
)
=
__
y
2

_
x
2

_
y
2

_
x
1

_
y
1

_
x
2

+
_
y
1

_
x
1

_
f
XY
(x, y) dxdy
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy =
__
R
f
XY
(x, y) d
Per eventi generali, B B(R
2
), vale
P
_
(X, Y ) B
_
=
__
B
f
XY
(x, y) dxdy
che si giustica ricordando che ogni B B(R
n
) `e un unione numerabile di rettangoli ed
usando poi laddittivit`a. Il calcolo della probabilit`a di un assegnato evento si riduce quindi
al calcolo di un integrale doppio.
128
(e.) Interpretazione della densit`a congiunta.
Come per il caso scalare, i valori della densit`a congiunta f
XY
(x, y) non rappresentano
probabilit`a. Si pu`o dare uninterpretazione della densit`a simile a quella data nel caso
scalare. Applicando due volte il teorema della media integrale
P(a < X a +h, b < Y b +k) =
_
b+k
b
_
a+h
a
f
XY
(x, y) dxdy
=
_
b+k
b
f
XY
(, y) hdy
= f
XY
(, ) hk f
XY
(a, b) hk
dove (a, a +h), (b, b +k). Possiamo quindi scrivere
P(a X a +h, b Y b +k) f
XY
(a, b) hk, per h, k piccoli
(f.) Densit`a marginali.
Ricordando che F
Y
(y) = F
XY
(, y) si ha che
F
Y
(y) = F
XY
(, y) =
_
y

__

f
XY
(u, v) du
_
dv
e, calcolando la derivata rispetto ad y,
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
y

__

f
XY
(u, v) du
_
dv
=
_

f
XY
(u, y) du.
Analogamente
f
X
(x) =
_

f
XY
(x, v) dv.
Normalmente queste formule si trovano scritte come f
X
(x) =
_

f
XY
(x, y) dy, ed analoga-
mente per laltra.
Osservazione. La conoscenza delle FdD F
X
(x) ed F
Y
(y) delle componenti X ed Y di
un vettore aleatorio (X, Y ) non `e suciente alla determinazione della FdD congiunta
F
XY
(x, y).
Nota bene. Per i vettori assolutamente continui, come per le v.a. scalari assolutamente
continue, se levento si riduce ad un punto la probabilit`a `e nulla.
P(X = a, Y = b) = 0, per ogni a, b R.
Nel caso bidimensionale assolutamente continuo sono inoltre nulle le probabilit`a
P(X = a, b
1
Y b
2
) = 0, P(a
1
X a
2
, Y = b) = 0,
ovvero: la probabilit`a di ogni rettangolo di R
2
di area nulla (un segmento in R
2
) `e nulla.
Immediata conseguenza di questo fatto `e che i rettangoli (x
1
, x
2
](y
1
, y
2
], [x
1
, x
2
][y
1
, y
2
],
ecc. che si ottengono aggiungendo o rimuovendo frontiere ad R, hanno tutti la stessa
probabilit`a. Pi` u in generale, per una propriet`a degli integrali doppi di funzioni Riemann
integrabili, se il dominio dintegrazione ha area nulla, lintegrale `e nullo. Quindi se ad
esempio B `e una curva in R
2
, la probabilit`a P
_
(X, Y ) B
_
= 0.
129
Lezione 22 (Luned`, 29 aprile 2013, ore 10:30-12:15)
22.1 Densit`a bidimensionale uniforme
Sia D B(R
2
), un sottoinsieme limitato. Si consideri la funzione
f(x, y) =
_
c se (x, y) D,
0 se (x, y) / D.
Facendo ricorso alla funzione indicatrice del sottoinsieme D, la funzione f si scrive in
forma compatta
f(x, y) = c

D
(x, y).
Mostriamo ora che, scegliendo opportunamente c R, la funzione f `e una funzione di
densit`a congiunta. La condizione di integrabilit`a secondo Riemann `e vericata banalmente
essendo f costante su D e su D
c
. Anche sia f(x, y) 0 `e suciente che c 0. Peraltro
il valore di c `e imposto dalla condizione di normalizzazione, in particolare
__
R
2
f(x, y) d =
__
R
2
c

D
(x, y) d = c area(D).
Si ricava che c =
1
area(D)
e che la funzione
f(x, y) =
1
area(D)

D
(x, y)
`e una densit`a congiunta su R
2
.
Denizione. Il vettore (X, Y ) `e congiuntamente uniforme sul sottoinsieme limitato D
B(R
2
), e si denota (X, Y ) |(D), se esso ha densit`a di probabilit`a congiunta
f
XY
(x, y) =
1
area(D)

D
(x, y)
Propriet`a della densit`a uniforme bidimensionale
Per ogni sottoinsieme B B(R
2
) risulta
20
P
_
(X, Y ) B
_
=
1
area(D)
__
B
1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
B
(x, y) 1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
BD
(x, y) dxdy
=
area(B D)
area(D)
,
che `e esattamente quello che lintuizione suggerisce. Si noti che se, in particolare, B
D allora P(B) =
area(B)
area(D)
non dipende dalla posizione del sottoinsieme B allinterno del
dominio D, ma solo dalla sua area.
`
E questa propriet`a che giustica il nome della densit`a.
Micro-esercizio. Meditare sullanalogia tra i vettori uniformi su un dominio limitato D
B(R
2
) e le variabili aleatorie uniformi su un intervallo nito [a, b] B(R).
20
Si osservi che, se E, F R
2
allora

E
(x, y)

F
(x, y) =

EF
(x, y)
130
Esercizi svolti in aula
Esercizio 1. Data la funzione
f(x, y) =
_
x
2
+
xy
3
se (x, y) D,
0, se (x, y) / D,
dove
D = (x, y); 0 x 1, 0 y 2
Vericare che la funzione f `e una densti`a congiunta e, detto (X, Y ) un vettore di densit`a
congiunta f
XY
= f, calcolare la probabilit`a
P
_
(X, Y ) E
_
, dove E = (x, y); x +y 1
Esercizio 2. La coppia di v.a. (X, Y ) ha densit`a congiunta uniforme nel dominio
D = (x, y); (x 1)
2
+ (y 1)
2
1
Calcolare le densit`a marginali f
X
(x) e f
Y
(y).
Esercizio 3. Data la densit`a congiunta
f
XY
(x, y) =
_

2
e
(x+y)
se (x, y) R
2
+
,
0, altrove,
vericare che f
XY
`e una densit`a e calcolare P
_
X Y
_
.
22.2 Osservazione sui vettori misti
Abbiamo ora trattato sia i vettori aleatori discreti che quelli assolutamente continui. La
classicazione delle variabili aleatorie scalari in discrete, assolutamente continue e miste
vale anche nel caso vettoriale. La variet`a di possibili comportamenti `e molto maggiore nel
caso vettoriale. Le componenti del vettore possono essere di diversa natura, una discreta
ed una continua, e.g, (X, Y ) = (sesso, altezza), oppure almeno una delle componenti `e
mista, o entrambe sono miste. Tempo permettendo vedremo nelle prossime lezioni come
trattare questi casi.
22.3 Funzioni scalari Z = g(X, Y ) di vettori assolutamente continui
Sia (X, Y ) un vettore aleatorio assolutamente continuo, di densit`a congiunta f
XY
(x, y), e
sia g : R
2
R una funzione misurabile, allora Z = g(X, Y ) `e una variabile aleatoria ed ha
senso porsi il problema del calcolo (se esistono) del suo valore atteso e/o della sua densit`a.
Calcolo del valore atteso
Anche in questo caso il valore atteso della variabile aleatoria scalare Z = g(X, Y ) si pu`o
calcolare, senza dover preliminarmente determinare la densit`a f
Z
(z), e vale
E(g(X, Y )) =
__
R
2
g(x, y)f
XY
(x, y) dxdy.
131
La dimostrazione, data nella Lezione 14 per il caso dei vettori discreti, non `e adattabile al
caso assolutamente continuo (aggiungere dimostrazione in prossima revisione).
Esempio. Un semplice, ma importante, esempio `e g(x, y) = x +y. In questo caso
E(X +Y ) =
__
R
2
(x +y)f
XY
(x, y) dxdy
=
__
R
2
xf
XY
(x, y) dxdy +
__
R
2
yf
XY
(x, y) dxdy
=
_
R
xf
X
(x) dx +
_
R
yf
Y
(y) dy = E(X) +E(Y )
Facendo ricorso a questo risultato si dimostra laddittivit`a del valore atteso nel caso
assolutamente continuo.
Densit`a di funzioni scalari di vettori assolutamente continui
A volte il problema dinteresse `e proprio la determinazione della densit`a f
Z
(z) della vari-
abile aleatoria scalare Z = g(X, Y ).
`
E facile scrivere la funzione di distribuzione di Z
facendo ricorso ad una formula molto generale, e quindi molto astratta.
F
Z
(z) := P(Z z) = P(g(X, Y ) z) =
__
D
z
f
XY
(x, y) dxdy,
dove
D
z
= (x, y) ; g(x, y) z .
La densit`a cercata `e
f
Z
(z) =
d
dz
F
Z
(z).
Esempio importante. Sia Z = X +Y , allora
F
Z
(z) :=
__
x+yz
f
XY
(x, y) dxdy =
_

__
zy

f
XY
(x, y) dx
_
dy.
Si tracci un graco del dominio per capire lintegrale iterato. Calcolando la derivata
rispetto a z,
f
Z
(z) =
d
dz
F
Z
(z) =
_

f
XY
(z y, y) dy
`
E possibile scambiare i ruoli di x ed y nel calcolo dellintegrale iterato. In tal caso si arriva
alla formula equivalente
f
Z
(z) =
d
dz
F
Z
(z) =
_

f
XY
(x, z x) dx
132
Lezione 23 (Marted`, 30 aprile 2013, ore 16:25-18:05)
23.1 Condizionamento per v.a. assolutamente continue
Abbiamo gi`a avuto modo di apprezzare il ruolo delle probabilit`a condizionate nella costruzione
di modelli probabilistici. Per le variabili aleatorie discrete, nelle Lezioni 14 e 15, abbiamo
denito le densit`a condizionate discrete. Per comodit`a avevamo distinto tre casi, che si
presentano spesso nelle applicazioni, (a.) densit`a condizionata di una v.a. X rispetto ad
un evento E qualunque: f
X[E
(x[E), (b.) densit`a condizionata di una v.a. X rispetto
ad un evento [X B] generato dalla v.a. X stessa: f
X[[XB]
(x[X B), (c.) densit`a
condizionata di una v.a. X rispetto allevento [Y = y], il valore assunto da unaltra v.a.:
f
X[Y
(x[y). Per esempi di ognuno dei tre tipi nel caso di variabili discrete si rimanda alle
Lezioni 14 e 15.
Esempio di tipo (a.) (esempio del paragrafo 20.1 rivisitato) Si consideri il seguente gioco.
Si lancia una moneta. Se esce Testa il giocatore deve far girare lago di una ruota della
fortuna, il cui bordo `e graduato nellintervallo [0, 2]. Quando la ruota si ferma il banco
paga al giocatore la cifra in euro corrispondente alla posizione dellago sul bordo della
ruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria che
rappresenta la vincita netta del giocatore. Calcolare la densit`a f
V
(x).
Soluzione. Le regole del gioco consistono in due probabilit`a condizionate del tipo (a.)!
f
V [T
(x[T) =
1
2
1l
[0,2]
(x),
f
V [C
(x[C) = (x + 1).
Si noti che f
V [T
(x[T) `e assolutamente continua, mentre f
V [C
(x[C) `e discreta (degenere,
essendo la densit`a della costante -1) La densit`a f
V
(x) si trova applicando la legge della
probabilit`a totale
f
V
(x) =
1
2
f
V [T
(x[T) +
1
2
f
V [C
(x[C) =
1
4
1l
[0,2]
(x) +
1
2
(x + 1)
Nella Lezione 20 questo esempio era servito ad illustrare una semplice situazione speri-
mentale che produce modelli a variabili aleatorie miste.
Esempio di tipo (b.) (assenza di memoria per v.a. esponenziali) Sia X Exp(), quindi
la funzione di densit`a di X `e f
X
(x) = e
x
1l(x). Calcolare la densit`a condizionata
f
X[[Xa]
(x[X a).
Soluzione. Un calcolo banale fornisce P(X a) = e
a
. Condizionando rispetto allevento
[X a] si trova
P(X x[X a) =
P(X max (x, a))
P(X a)
=
_
1 se x a,
P(Xx)
P(Xa)
= e
(xa)
, se x > a.
e quindi
F
X[[Xa]
(x[[X a]) = 1 P(X x[X a) =
_
0 se x < a,
1 e
(xa)
, se x a.
Calcolando la derivata rispetto ad x di F
X[[Xa]
(x[[X a]) si trova la densit`a condizionata
f
X

Xa
(x[X a) =
_
0 se x < a,
e
(xa)
, se x a.
_
= e
(xa)
1l(x a) = f
X
(x a)
133
che `e una delle espressioni equivalenti della propriet`a detta assenza di memoria della v.a.
esponenziale. Si veda la lezione 17 per una presentazione alternativa.
Lesempio di densit`a ondizionata pi` u delicato `e quello di tipo (c.), quando la variabile
condizionante Y `e assolutamente continua. Trattiamo questo caso nel prossimo paragrafo.
Densit`a condizionata rispetto ad una v.a. assolutamente continua
Supponiamo che (X, Y ) sia una coppia di v.a. assolutamente continue, di assegnata densit`a
congiunta f
XY
(x, y). Deniremo la densit`a condizionata di X dato Y = y, che denotere-
mo f
X[Y
(x[y). La denizione va data attraverso un procedimento di limite poiche levento
condizionante [Y = y] ha probabilit`a nulla per ogni y R. Si osservi che `e molto naturale
trovarsi in questa situazione. Linformazione a priori di cui si dispone allatto del con-
dizionamento si basa su osservazioni della variabile Y . Gli strumenti di misura possono
avere fornito informazioni del tipo a Y b, oppure Y > c oppure, appunto, Y = d.
Anche la funzione di distribuzione condizionata F
X[Y
(x[y) := P(X x[Y = y) va
denita con un procedimento di limite, poiche
P([Xx][Y =y])
P(Y =y)
=
0
0
.
Denizione. (funzione di distribuzione condizionata)
F
X[Y
(x[y) := lim
0
P(X x[y Y y +)
A partire dalla denizione calcoliamo unespressione generale per la funzione di distribuzione
condizionata. Se f
Y
(y) > 0 allora
F
X[Y
(x[y) := lim
0
P(X x, y Y y +)
P(y Y y +)
= lim
0
_
x

_
_
y+
y
f
XY
(u, v) dv
_
du
_
y+
y
f
Y
(v) dv
= lim
0
_
x

f
XY
(u, y) du
f
Y
(y)
=
_
x

f
XY
(u, y) du
f
Y
(y)
nei punti y dove f
Y
(y) = 0 la funzione F
X[Y
(x[y) non `e denita.
La densit`a condizionata si ottiene derivando rispetto ad x,
f
X[Y
(x[y) =
d
dx
F
X[Y
(x[y) =
d
dx
_
x

f
XY
(u, y) du
f
Y
(y)
=
f
XY
(x, y)
f
Y
(y)
.
La densit`a condizionata ha una forma intuitivamente chiara, essendo il rapporto tra la
densit`a congiunta e la marginale. Si possono immediatamente scrivere le usuali espressioni:
densit`a congiunta, formula di Bayes, densit`a marginali, in termini di densit`a condizionate,
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) = f
Y [X
(y[x)f
X
(x)
f
Y [X
(y[x) =
f
X[Y
(x[y)f
Y
(y)
f
X
(x)
f
X
(x) =
_

f
XY
(x, y) dy =
_

f
X[Y
(x[y)f
Y
(y) dy
f
Y
(y) =
_

f
XY
(x, y) dx =
_

f
Y [X
(y[x)f
X
(x) dx
134
23.2 Coppie di v.a. indipendenti
Denizione. La coppia di v.a. (X, Y ) `e detta indipendente se la funzione di distribuzione
congiunta soddisfa la propriet`a di fattorizzazione
F
XY
(x, y) = F
X
(x) F
Y
(y), per ogni (x, y) R
2
Lemma. Le seguenti aermazioni sono equivalenti
(a.) X ed Y sono indipendenti
(b.) per ogni rettangolo R = [x
1
, x
2
] [y
1
, y
2
],
P
_
(X, Y ) R
_
= P(X [x
1
, x
2
])P(Y [y
1
, y
2
])
(c.) (nel caso assolutamente continuo) per ogni (x, y) R
2
f
XY
(x, y) = f
X
(x)f
Y
(y)
(d.) (nel caso assolutamente continuo) per ogni (x, y) R
2
f
X[Y
(x[y) = f
X
(x), oppure f
Y [X
(y[x) = f
Y
(y)
Le propriet`a delle v.a. indipendenti viste nel caso discreto continuano a valere. In par-
ticolare se la coppia (X, Y ) `e indipendente allora la coppia (X, Y ) `e scorrelata, ovvero
E(XY ) = E(X)E(Y ).
Densit`a delle funzioni scalari Z = g(X, Y ) di variabili indipendenti
Esempio 1. Sia Z = max(X, Y ) ed (X, Y ) indipendenti. Calcolare la forma generale della
densit`a di Z.
F
Z
(z) = P(Z z) = P(max(X, Y ) z) = P(X z, Y z) = F
X
(z)F
Y
(z)
La corrispondente densit`a `e
f
Z
(z) = F
t
X
(z)F
Y
(z) +F
X
(z)F
t
Y
(z)
Se (X, Y ) sono indipendenti ed identicamente distribuite (i.i.d.) con F
X
= F
Y
allora
F
Z
(z) =
_
F
X
(z)
_
2
La corrispondente densit`a `e
f
Z
(z) = 2F
X
(z)F
t
X
(z) = 2F
X
(z)f
X
(z)
Ad esempio se (X, Y ) sono i.i.d. uniformi |([0, 1]) allora
f
Z
(z) =
_
2z se 0 z 1,
0, altrove.
Esempio 2 (molto importante) Nellultimo esempio della Lezione 22, avevamo calcolato,
nel caso di densit`a congiunta generale, la densit`a di Z = g(X, Y ) = X +Y ottenendo
f
Z
(z) =
_

f
XY
(z v, v) dv.
135
Se (X, Y ) sono indipendenti la densit`a f
Z
(z) prende una forma molto familiare
f
Z
(z) =
_

f
X
(z v)f
Y
(v) dv,
la convoluzione delle densit`a f
X
ed f
Y
. Questo risultato vale anche nel caso discreto, ma
non era stato menzionato quando abbiamo trattato le v.a .discrete indipendenti. Nel caso
discreto, per Z = X +Y con (X, Y ) indipendenti a valori in Z o in N,
p
Z
(n) =

k=
p
X
(n k)p
Y
(k).
Esempio 3. Sia Z = X + Y , combinazione lineare di X ed Y , che supponiamo ancora
essere indipendenti ed assolutamente continue. Per determinare la densit`a di Z sfruttiamo
il seguente risultato (esercizio!). Se W = aX con a R allora
f
W
(w) =
1
[a[
f
X
_
w
a
_
Si ricava allora
f
Z
(z) = f
X
(z) f
Y
(z) =
1
[[
_
f
X
_
z v

_
f
Y
_
v

_
dv
Ad esempio la densit`a di Z = X Y `e
f
Z
(z) =
_
f
X
(z v)f
Y
(v) dv
Raca di esercizi proposti. (a.) (obbligatorio) Z = X +Y e Z = X Y per (X, Y ) i.i.d.
|([0, 1]). (b.) (obbligatorio) Z = X + Y per (X, Y ) i.i.d. Exp(). (c.) (obbligatorio)
Z = X + Y per (X, Y ) i.i.d. b(p). (d.) (dicile) Z = X + Y per (X, Y ) indipendenti
con X Bin(n, p) ed Y Bin(m, p). (e.) (raccomandato) Z = X + Y per (X, Y )
indipendenti con X T() ed Y T().
Esempio 4. Il seguente esempio `e molto importante: in prosa dice che le combinazioni
lineari di v.a. normali indipendenti sono v.a. normali. Lo presentiamo sotto forma di
teorema.
Teorema. Se Z = X +Y , con X N(
X
,
2
X
) ed Y N(
Y
,
2
Y
) indipendenti allora
Z N(
X
+
Y
,
2

2
X
+
2

2
Y
).
Dimostrazione. In linea di principio abbiamo a disposizione lo strumento per dimostrare
il teorema. Deniamo
(v) =
1

2
e

v
2
2
,
la densit`a N(0, 1), allora la densit`a di X `e
1

_
x
X

X
_
ed analogamente la densit`a di Y
`e
1

_
y
Y

Y
_
. Per dimostrare il teorema basta quindi vericare che
1
_

2
X
+
2

2
Y

_
_
z (
X
+
Y
)
_

2
X
+
2

2
Y
_
_
=
1
[[
X

_
z
X

X
_

1
[[
Y

_
z
Y

Y
_
Questo `e un calcolo concettualmente banale, ma molto laborioso se si eettua la con-
voluzione direttamente. Vedremo pi` u avanti come dimostrare il teorema, in modo molto
pi` u semplice, usando le trasformate di Fourier.
136
Lezione 24 (Luned`, 6 maggio 2013, ore 10:30-12:15)
24.1 Esercitazione sul calcolo della densit`a di Y = g(X)
Sono esercizi noiosi, concettualmente banali e computazionalmente insidiosi.
`
E importante
capire bene il meccanismo di questi calcoli analizzando con attenzione le funzioni picomuni
nel trattamento di segnali. Nella pagina seguente sono tracciati i graci di alcune comuni
funzioni g(x). Ognuna delle funzioni g(x) si pu`o interpretare come un sistema statico.
A scopo illustrativo, accanto ad ogni g(x) `e tracciato il graco delluscita g(x(t), quando
lingresso `e londa triagolare x(t) rappresentata in alto a destra. La gura dovrebbe anche
chiarire la tradizionale terminologia associata a queste g(x).
g
1
(x) raddrizzatore a mezza onda
g
2
(x) raddrizzatore a onda intera
g
3
(x) limitatore
g
4
(x) limitatore e raddrizzatore a mezza onda
g
5
(x) limitatore e raddrizzatore a onda intera
Il vostro compito `e studiare la densit`a delluscita g(X), quando lingresso `e una variabile
aleatoria X di densit`a nota. Inventatevi dei problemi e risolveteli!
Esercizio
Dati: y = g(x) = x
2
, ed X N(0, 1).
Usando la strategia gi`a sperimentata
F
Y
(y) = P(X
2
y) =
_
P(

y X

y), se y 0,
0, se y < 0.
ovvero, in termini della funzione di distribuzione F
X
, ed introducendo il gradino unitario,
F
Y
(y) = P(X
2
y) =
_
F
X
(

y) F
X
(

y)
_
1l(y).
Calcolando la derivata osservando che la derivata del gradino d`a contributo nullo, infatti
_
F
X
(

y) F
X
(

y)
_
(y) = 0,
f
Y
(y) =
1
2

y
_
f
X
(

y) +f
X
(

y)
_
1l(y).
Sostituendo la densit`a f
X
(x) fornita come dato, ovvero la N(0, 1) troviamo
f
Y
(y) =
1
2

y
_
1

2
e

1
2
y
+
1

2
e

1
2
y
_
1l(y)
=
1

2y
e

1
2
y
1l(y)
La densit`a che abbiamo appena calcolato `e detta densit`a chi-quadrato ad 1 grado di libert`a,
denotata
2
(1). Se X N(0, 1) allora Y = X
2

2
(1). La densit`a
2
`e una delle densit`a
fondamentali in Statistica.
Quanto vale E(Y )? Si pu`o fare in due modi
E(Y ) =
_

yf
Y
(y) dy =
_

0
y
1

2y
e

1
2
y
dy
= E(X
2
) = var(X) = 1.
Esercizio proposto. Come sopra, ma con X U(a, b), con 0 a < b.
137
c -c
c
-c
c
c
c -c
c
-c
c
c
c
g
1
(x)
g
2
(x)
g
3
(x)
g
4
(x)
g
5
(x)
x(t)
t
138
Valore atteso condizionato
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria
condizionata ai valori assunti da unaltra variabile aleatoria. La denizione, introdotta
qui al solo scopo di svolgere esercizi, verr`a ripresa nella prossima lezione.
Denizione. Sia g : R R una funzione misurabile ed integrabile. La media condizionata
della v.a. g(X) dato il valore assunto dalla v.a. Y `e
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=

k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)[Y = y) `e una
funzione deterministica h : R R che mappa y h(y) := E(g(X)[Y = y). Le propriet`a
del valore atteso condizionato (funzione h(y)) saranno trattate nella prossima lezione.
Esercizio 1 (continuazione di Mario in libreria)
Mario va in libreria a curiosare ed acquistare libri. Le v.a. K ed N rappresentano rispet-
tivamente quante ore Mario trascorre in libreria, e quanti libri Mario acquista. I dati a
disposizione sono i seguenti. Lalfabeto di K `e / := 1, 2, 3, 4 e la sua densit`a `e uni-
forme: p
K
(k) =
1
4
per k /. Per quanto riguarda la v.a. N `e nota solamente la densit`a
condizionata
p
N[K
(n[k) :=
_
1
k
, se 1 n k, e k 4
0, se n > k, o k > 4.
Calcolare il valore atteso condizionato E(N[K = k).
Soluzione.
Il valore atteso condizionato vale
E(N[K = k) =
4

n=1
np
N[K
(n[k) =
_

_
1 1 = 1 se k = 1,
1
1
2
+ 2
1
2
=
3
2
, se k = 2,
1
1
3
+ 2
1
3
+ 3
1
3
= 2, se k = 3,
1
1
4
+ 2
1
4
+ 3
1
4
+ 4
1
4
=
10
4
, se k = 4.
_

_
=
k

n=1
n
1
k
=
1
k
k(k + 1)
2
=
k + 1
2
139
Esercizio 2 (adattato da: C. Ash - The Probability Tutoring Book - IEEE Press 1993)
La coppia di v.a. (X, Y ) ha densit`a congiunta uniforme nel dominio triangolare T rapp-
resentato in gura.
-
6
-1 1
x
y
1
Determinare:
(a.) la densit`a congiunta f
XY
(x, y)
(b.) le densit`a condizionate f
X[Y
(x[y) ed f
Y [X
(y[x)
(c.) i valori attesi E[X[Y = y] ed E[Y [X = x]
(d.) i valori attesi E[X] ed E[Y ]
(e.) il valore atteso E[ min(X, Y ) ]
Soluzione
(a.) La densit`a congiunta `e nulla per (x, y) T
c
ed `e costante in T
f
XY
(x, y) =
1
area(T)
1l
T
(x, y) = 1l
T
(x, y)
(b.) Per il calcolo delle densit`a condizionate dobbiamo disporre delle marginali. La for-
mula generale per il calcolo della densit`a marginale, f
Y
(y) =
_
f
XY
(x, y)dx deve essere
opportunamente interpretata: ci aiuter`a la gura.
-
6
-1 1
x
y
1
x = 1 y x = y 1
In primo luogo si deve capire qual `e linsieme dei valori possibili per la v.a. Y , in questo
caso (vedi gura) Y [0, 1]. Sempre dalla gura si desumono i limiti di integrazione al
variare di y. Specicamente
f
Y
(y) =
_
1y
y1
1 dx = 2(1 y) per y [0, 1]
Analogamente si procede al calcolo della marginale f
X
(x) =
_
f
XY
(x, y)dy. La v.a. X
prende valori nellintervallo [1, 1], ma lintegrale da calcolare per ottenere f
X
(x) ha
espressioni diverse a seconda che x [1, 0] o x [0, 1]. In gura abbiamo rappresentato
il caso x [1, 0].
140
-
6
-1 1
x
y
1
y = 1 +x y = 1 x
f
X
(x) =
_
1+x
0
1 dy = 1 +x per x [1, 0]
Analogamente
f
X
(x) =
_
1x
0
1 dy = 1 x per x [0, 1]
Volendo si pu`o scrivere la densit`a f
X
(x) con ununica formula come
f
X
(x) = 1 [x[ per x [1, 1].
Commento. Si noti che le densit`a marginali f
X
(x) ed f
Y
(y) non sono uniformi, nonostante
la densit`a congiunta sia uniforme su T.
Siamo ora pronti a scrivere le densit`a condizionate
f
X[Y
(x[y) =
f
XY
(x, y)
f
Y
(y)
=
1
2(1 y)
x [y 1, 1 y], y [0, 1]
f
Y [X
(y[x) =
f
XY
(x, y)
f
X
(x)
=
1
1 [x[
y [0, 1 [x[ ], x [1, 1]
Commenti. (1.) Poiche f
X[Y
(x[y) dipende da y le variabili aleatorie X ed Y non sono
indipendenti. (2.) Si noti che la densit`a condizionata f
X[Y
(x[y) `e uniforme sullintervallo
[y 1, 1 y]. Analogamente la densit`a condizionata f
Y [X
(y[x) `e uniforme sullintervallo
[0, 1 [x[].
`
E un fatto generale, immediata conseguenza della denizione, che le densit`a
condizionate mantengano la forma della densit`a congiunta, opportunamente riscalata.
(c.) Calcoliamo prima E[X[Y = y]. Abbiamo visto che per Y = y la v.a. X ha densit`a
condizionata uniforme, cio`e costante in x, e vale f
X[Y
(x[y) =
1
2(1y)
nellintervallo x
[y 1, 1 y]. Poich`e lintervallo [y 1, 1 y] `e simmetrico intorno allorigine il valore
atteso condizionato sar`a ovviamente nullo, come conferma il calcolo:
E[X[Y = y] =
_
1y
y1
x
1
2(1 y)
dx =
1
2(1 y)
x
2
2

1y
y1
= 0 per y [0, 1].
Per il calcolo di E[Y [X = x], poiche per X = x la v.a. Y ha densit`a condizionata
uniforme f
Y [X
(y[x) =
1
1[x[
nellintervallo y [0, 1[x[ ] il valore atteso condizionato sar`a
E[Y [X = x] =
1[x[
2
, come confermato dal calcolo esplicito
E[Y [X = x] =
_
1[x[
0
y
1
1 [x[
dy =
1
1 [x[
y
2
2

1[x[
0
=
1 [x[
2
per x [1, 1].
(d.)
`
E un calcolo banale:
E[Y ] =
_
yf
Y
(y)dy =
_
1
0
y 2(1 y)dy =
1
3
.
141
Analogamente si trova che E[X] = 0.
(e.) Con riferimento alla gura, risulta
g(x, y) = min(x, y) =
_
x, per (x, y) T
1
,
y, per (x, y) T
2
.
-
-1 1
x
y
1
y = x
T
1
T
2
6
Per il calcolo del valore atteso si dovr`a valutare
E[g(X, Y )] =
_
g(x, y)f
XY
(x, y) dxdy
che in questo caso diventa
E[min(X, Y )] =
_
T
1
x 1 dxdy +
_
T
2
y 1 dxdy
A questo punto ci siamo ridotti ad un esercizio di Analisi II. Conviene spezzare il dominio
T
1
in due sottodomini x-semplici, mentre T
2
si pu`o trattare come un unico dominio y-
semplice. Con riferimento alla gura (il punto dintersezione tra y = x e y = 1 x `e
(
1
2
,
1
2
)) si ottiene
E[min(X, Y )] =
_
0
1
_
1+x
0
x 1 dydx +
_ 1
2
0
_
1x
x
x 1 dydx +
_ 1
2
0
_
1y
y
y 1 dxdy
Qualche passaggio algebrico fornisce s.e.o.o. E[min(X, Y )] =
1
12
.
142
Appendice alla Lezione 24
prego segnalare i sicuramente numerosi refusi
Esercizi svolti e proposti sulle funzioni di variabili aleatorie
Il problema `e quello del calcolo della densit`a (o della funzione di distribuzione) di una
funzione di v.a. Y = g(X), a partire dallespressione analitica di g e dalla densit`a (o dalla
funzione di distribuzione) di X. In questa nota troverete alcuni esempi svolti ed alcuni
esercizi proposti.
Quando si studia la funzione di v.a. Y = g(X) il risultato dipende dallinterazione tra i due
dati del problema: la funzione deterministica y = g(x) e le caratteristiche probabilistiche
della v.a. X ovvero la densit`a f
X
(x) nel caso di v.a. assolutamente continue, la densit`a
discreta p
X
(x) nel caso di v.a. discrete, o in generale la funzione di distribuzione F
X
(x).
Ci sono fondamentalmente due strategie per risolvere questa tipologia di problemi.
Strategia 1. Ricavare la funzione di distribuzione F
Y
(y) a partire dai dati del problema
e poi, se richiesto dal problema, derivare F
Y
(y) rispetto ad y per trovare, dove esiste, la
densit`a f
Y
(y). Lidea dietro a questa strategia `e che gli eventi di interesse per la v.a. Y
sono in corrispondenza biunivoca con eventi per la v.a. X in accordo con
[ Y B] = [ X g
1
(B) ]
e quindi
P(Y B) = P(X g
1
(B))
in particolare, per gli eventi del tipo B = (, y], si avr`a che
F
Y
(y) := P(Y y) = P(g(X) y) = P
_
X g
1
_
(, y]
_
_
.
A lezione abbiamo visto vari esempi dove era possibile calcolare agevolmente la derivata
richiesta. In generale calcolare F
Y
(y) pu`o essere dicoltoso richiedendo la valutazione di
P
_
X g
1
_
(, y]
_
_
al variare di y. Si noti che il calcolo delle anti-immagini
g
1
_
(, y]
_
si pu`o condurre, per cos` dire, fuori linea nel senso che esse non dipendono in alcun modo
dalla densit`a della v.a. X, ma solo dalla funzione g. Una volta calcolate, le anti-immagini
g
1
_
(, y]
_
si possono utilizzare per determinare F
Y
(y) qualunque sia la densit`a della
v.a. X che interviene nella Y = g(X).
Strategia 2. (SALTARE PARAGRAFETTO) Ricavare direttamente la funzione di densit`a
della v.a. Y utilizzando la formula
f
Y
(y) = f
X
(h(y))

d
dy
h(y)

dove h `e la funzione inversa di g, che deve esistere anch`e questa formula sia applicabile.
In questa nota non considereremo la Strategia 2. Si tratta di un risultato di scarso valore
pratico e meno potente dellapproccio diretto discusso in questa nota e presentato in classe.
Si tenga presente che il tipo della v.a. Y = g(X) pu`o essere diverso da quello della v.a.
X. In particolare, se X `e una v.a. discreta allora, qualunque sia la funzione g, la v.a.
trasformata Y = g(X) sar`a ancora una v.a. discreta per lovvio motivo che la cardinalit`a
del codominio di una funzione `e sempre minore o uguale a quella del suo dominio. Se
invece X `e una v.a. continua, la v.a. Y = g(X) potr`a essere discreta, continua o mista a
seconda di come g(x) ed f
X
(x) interagiscono.
143
Esempio 1 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
x 1, se x < 1,
x + 1, se x 1,
il cui graco `e riportato in gura.
Cominciamo con il calcolo delle anti-immagini g
1
_
(, y]
_
le quali ovviamente non
dipendono dalla densit`a f
X
(x) che andremo a considerare. Quando si calcolano le anti-
immagini g
1
_
(, y]
_
`e fondamentale avere prima accuratamente tracciato il graco
della g. Ad ogni y ssato corrisponde un sottoinsieme di valori x: con abuso di notazione
scriver`o ad esempio x y 1 per x R[x y 1 ecc.
g
1
_
(, y]
_
=
_
_
_
x + 1 y = x y 1 2 y < ,
x < 1 0 y < 2,
x 1 y = x y + 1 y < 0.
`
E banale, ma `e facile fare errori. Si noti che la funzione y = g(x) non assume nessuno dei
valori y [0, 2). Questo `e evidente dal graco ed ha come conseguenza che g
1
_
(, y]
_
=
x < 1 `e costante per ogni y [0, 2). Qualunque sar`a la X, la v.a. Y = g(X) non potr`a
assumere valori in [0, 2), ed ivi la FdD F
Y
(y) sar`a costante e la densit`a f
Y
(y) nulla.
Vediamo ora che densit`a si ottengono per Y = g(X) specicando diverse densit`a f
X
(x).
(a.) Calcolare la densit`a di Y = g(X) se X Exp() (nel graco = 1).
F
Y
(y) =
_

_
P(X y 1) =
_
y1
0
e
w
dw = 1 e
(y1)
, 2 y < ,
P(X < 1) =
_
1
0
e
w
dw = 1 e

, 0 y < 2,
P(X y + 1) =
_
y+1
0
e
w
dw = 1 e
(y+1)
, 1 y < 0
P(X y + 1) = 0, < y < 1.
144
Si noti che, per ogni y < 0 vale g
1
_
(, y]
_
= x y+1 e quindi F
Y
(y) = P(X y+1).
Poiche X `e concentrata su [0, ), si ha per`o che F
Y
(y) = P(X y + 1) = 0 per y < 1.
Qui sotto il graco della F
Y
(y).
Poiche la FdD F
Y
(y) non ha salti, la v.a. Y = g(X) `e di tipo continuo, come la v.a. X di
partenza. La densit`a esiste e si ottiene derivando F
Y
(y)
f
Y
(y) =
_

_
e
(y1)
2 y < ,
0, 0 y < 2,
e
(y+1)
1 y < 0,
0, < y < 1.
La densit`a f
Y
(y) ha tre punti di salto, y = 1, y = 0 ed y = 2, dove cio`e la FdD F
Y
(y) non
`e derivabile. Repetita iuvant: le discontinuit`a della densit`a non hanno nulla a che vedere
con il tipo della v.a. Y , che si desume dal comportamento della funzione di distribuzione
(continua in questo caso).
(b.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) se
X `e una delle seguenti v.a. (le risposte fornite vanno prese con il benecio dinventario,
segnalatemi eventuali errori).
X Uniforme(2, 3), Risposta: Y Uniforme(3, 4).
X Uniforme(0, 1), Risposta: Y Uniforme(1, 0).
X Uniforme(0.5, 1.5) Risposta: Y Uniforme
_
[0.5, 0] [2, 2.5]
_
X Bernoulli(p), Risposta: Y 1, 2, con p
Y
(1) = 1 p, p
Y
(2) = p.
145
Domanda. Perche con questa g la v.a. Y = g(X) ha sempre lo stesso tipo della v.a. X?
Esempio 2 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
1, se x 0,
x + 1, se x > 0,
il cui graco `e riportato in gura.
A dierenza dellesempio 1 la funzione g in questo caso `e continua. Vedremo per`o che
questa g pu`o mappare una v.a. continua in una mista, cosa non possibile con la g delle-
sempio 1, a riprova del fatto che il tipo continuo o misto della v.a. Y non ha nulla a che
vedere ne con la continuit`a topologica di g ne con quella di f
X
(x).
Calcoliamo le anti-immagini g
1
_
(, y]
_
.
g
1
_
(, y]
_
=
_
R 1 y < ,
x + 1 y = x 1 y < y < 1.
Attenzione! Per questa g lanti-immagine g
1
(1) = x 0. Questo pu`o causare
P(Y = 1) > 0, rendendo la v.a. Y di tipo misto anche se X `e una v.a. continua si veda
il caso (b.) qui sotto.
(a.) Calcolare la densit`a di Y = g(X) se X Exp(), (la stessa X dellesempio 1).
F
Y
(y) =
_
P(X R) = 1 1 y < ,
P(X 1 y) =
_

1y
e
w
dw = e
(y1)
, y < 1,
Si noti che P(Y = 1) = P(X 0) = 0 poich`e la v.a. X `e concentrata su [0, ). Qui
sotto, per = 1, il graco della F
Y
(y).
146
La v.a. Y `e continua poiche la FdD non presenta salti. La densit`a f
Y
(y) si trova derivando
f
Y
(y) =
_
0 1 y < ,
e
(y1)
, y < 1,
in forma compatta, si pu`o scrivere f
Y
(y) = e
(y1)
1l(y 1), vedi gura qui sotto.
(b.) Calcolare la densit`a di Y = g(X) se X Uniforme(1, 2). Usando le anti-immagini
precalcolate troviamo:
F
Y
(y) =
_
_
_
P(X R) = 1 1 y < ,
P(X 1 y) =
_
2
1y
1
3
dw =
1
3
(1 +y), 1 y < 1,
P(X 1 y) = 0 < y < 1
Si noti che P(Y = 1) = P(X 0) =
1
3
poiche X Uniforme(1, 2). Qui sotto il graco
di F
Y
(y).
147
La v.a. Y `e mista poiche la FdD presenta un salto, di ampiezza
1
3
, in y = 1. La den-
sit`a f
Y
(y), nel senso usuale, non esiste, ma derivando la FdR nel senso delle funzioni
generalizzate si trova
f
Y
(y) =
1
3
(1l(y + 1) 1l(y 1)) +
1
3
(y 1)
Il graco `e
Lascio come esercizio il calcolo della decomposizione di Lebesgue a partire dalla espressione
della FdD
(c.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) per
X v.a. di funzione di densit`a rispettivamente:
f
X
(x) =

2
e
[x[
, dove x R. (detta densit`a di Laplace)
X Uniforme(0, 1).
X Uniforme(1, 0) (attenzione a questa!).
X Bernoulli(p) (e anche a questa).
148
Lezione 25 (Marted`, 7 maggio 2013, ore 16:30-18:15)
25.1 Valore atteso condizionato
(denizione ripresa dalla scorsa lezione)
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria
condizionata ai valori assunti da unaltra variabile aleatoria.
medskipDenizione. Sia g : R R una funzione misurabile ed integrabile. La media
condizionata della v.a. g(X) dato il valore assunto dalla v.a. Y `e
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=

k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)[Y = y) `e una
funzione deterministica h : R R che mappa y h(y) := E(g(X)[Y = y). Le propriet`a
del valore atteso condizionato (funzione h(y)) sono trattate al punto 3.
Propriet`a del valore atteso condizionato
Lemma. Se (X, Y ) sono indipendenti allora
E(g(X)[Y = y) = E(g(X)), per ogni y R
Dimostrazione. Se X ed Y sono indipendenti allora f
X[Y
(x[y) = f
X
(x) e sostituendo
E(g(X)[Y = y) =
_
g(x)f
X[Y
(x[y) dx =
_
g(x)f
X
(x) dx = E(g(X))

Si denisca la funzione h : R R come


h(y) = E(g(X)[Y = y).
Si noti che la funzione h(y) `e deterministica: essa mappa il numero reale y nel numero reale
E(g(X)[Y = y). Il Lemma sopra mostra che, se X ed Y sono indipendenti, la funzione
h(y) `e una costante. In generale h(y) dipende da y. Ha perfettamente senso considerare
la variabile aleatoria h(Y ), dove Y f
Y
(y) ed ha perfettamente senso calcolarne il valore
atteso E(h(Y )) (quando esiste).
`
E anche naturale, per denotare la variabile aleatoria h(Y ),
usare la scrittura E(g(X)[Y ). Con questa notazione alternativa il valore atteso E(h(Y ))
si scrive E
_
E(g(X)[Y )
_
.
Lemma (del valore atteso iterato) Se g(X) ammette valore atteso allora
E
_
E
_
g(X)[Y
_
_
= E(g(X))
Dimostrazione.
E
_
E(g(X)[Y )
_
= E(h(Y )) =
_
h(y)f
Y
(y) dy =
_
E(g(X)[Y = y)f
Y
(y) dy
=
_ __
g(x)f
X[Y
(x[y) dx
_
f
Y
(y) dy =
__
g(x)f
X[Y
(x[y)f
Y
(y) dydx
=
_
g(x)
__
f
XY
(x, y) dy
_
dx =
_
g(x)f
X
(x) dx = E(g(X)).
149
La dimostrazione `e identica nel caso discreto
E
_
E(g(X)[Y )
_
=

k
E(g(X)[Y = y
k
)p
Y
(y
k
)
=

h
g(x
h
)p
X[Y
(x
h
[y
k
)p
Y
(y
k
) =

h
g(x
h
)

k
p
XY
(x
h
, y
k
)
=

h
g(x
h
)p
X
(x
h
) = E(g(X)).
Esercizi svolti
Esercizio 1. Addentate (a caso) un grissino di lunghezza L. Sia Y |(0, L) la lunghezza
del grissino che vi rimane in mano. Dopo un secondo morso (a caso) vi rimane in mano
un pezzo di grissino di lunghezza X |(0, Y ). Calcolare il valore atteso E(X).
Metodo diretto. Ricaviamo la densit`a f
X
(x) e quindi calcoliamo E(X). I dati del prob-
lema sono: la densit`a f
Y
e la densit`a condizionata f
X[Y
(x[y) Analiticamente i dati
sono:
f
Y
(y) =
1
L
, per y [0, L]
f
X[Y
(x[y) =
1
y
, per x [0, y]
Per ricavare la densit`a f
X
calcoliamo prima la densit`a congiunta e quindi marginalizziamo.
La densit`a congiunta delle v.a. X ed Y vale
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) =
1
Ly
, per (x, y) D := (x, y) ; x [0, y], y [0, L]
se non volete perdere traccia di quanto stiamo facendo fate un graco del dominio D.
Marginalizzando troviamo
21
la densit`a f
X
f
X
(x) =
_
f
XY
(x, y) dy =
_
L
x
1
Ly
dy =
1
L
(ln L ln x), per x [0, L]
`
E una buona idea vericare che f
X
(x) sia eettivamente una densit`a
_
L
0
f
X
(x) dx =
_
L
0
1
L
(ln L ln x) dx = 1
dove abbiamo fatto uso dellantiderivata
_
ln x = xln xx e del fatto che lim
x0
xln x = 0.
Calcoliamo nalmente il valore atteso
E(X) =
_
L
0
xf
X
(x) dx =
_
L
0
x
L
(ln L ln x) dx =
L
4
,
dove abbiamo fatto uso dellantiderivata
_
xln xdx =
x
2
2
ln x
x
2
4
.
Metodo del valore atteso iterato. Per il Lemma visto sopra E(X) = E
_
E(X[Y )
_
. Calcol-
iamo il valore atteso condizionato. Per Y = y la v.a. X |(0, y), quindi
E(X[Y = y) =
y
2
21
NOTA BENE. Nonostante le equazioni teoriche che esprimono le densit` a congiunte e/o le densit` a
marginali siano semplici e pulite, i calcoli pratici sono sporchi e complicati.
`
E necessario prestare sempre
estrema attenzione ai domini di denizione e di integrazione. Tracciate i graci!
150
Da questa espressione si ricava che
E(X[Y ) =
Y
2
quindi, poiche Y |(0, L),
E(X) = E
_
E(X[Y )
_
= E
_
Y
2
_
=
L
4
A volte sapere un po di teoria aiuta.
Esercizio 2. (somma di un numero aleatorio di addendi) Visito un certo numero N di
negozi, dove N `e una v.a. a valori in N. Nel negozio k-esimo spendo X
k
euro. Le
v.a. X
k
, k N sono identicamente distribuite, inoltre le variabili N, X
k
, k N sono
indipendenti. Calcolare il valore atteso della spesa totale.
Soluzione. Sia S la v.a. spesa totale,
S =
N

k=1
X
k
Anche questo tipo di problema si presta bene al calcolo del valore atteso usando la tecnica
del valore atteso iterato.
E(S) = E
_
E(S[N)
_
Calcoliamo prima il valore atteso per N = n
E(S[N = n) = E
_
N

k=1
X
k

N = n
_
= E
_
n

k=1
X
k

N = n
_
=
n

k=1
E(X
k
[N = n) =
n

k=1
E(X
k
) poiche X
k
N
= nE(X
1
).
Possiamo allora scrivere che la v.a. E(S[N) = NE(X
1
), da cui ricaviamo
E(S) = E
_
E(S[N)
_
= E(NE(X
1
)) = E(N) E(X
1
)
Osservazione. Laddittivit`a del valore atteso NON si pu`o applicare in questo caso. La
scrittura
E(S) = E
_
N

k=1
X
k
_
=
N

k=1
E(X
k
) = NE(X
1
) ???
`e priva di senso poiche N `e una variabile aleatoria, non un numero naturale! Scrivendo
E(S) = E(

N
k=1
X
k
) =

N
k=1
E(X
k
) = NE(X
1
) stiamo asserendo che il valore atteso
della v.a. S non `e un numero reale bens` la variabile aleatoria NE(X
1
). Un errore di
questo tipo sar`a punito alla stregua di una varianza negativa.
Esercizio 3. (vedi Mario in libreria Lezione 24) Il calcolo di E(N), il numero medio di libri
che Mario acquista ogni volta che va a fare un giro in liberia, si pu`o eettuare usando la
formula del valore atteso iterato (si ricordi che K `e uniforme su / = 1, 2, 3, 4).
E(N) = E(E(N[K)) = E
_
K + 1
2
_
=
E(K) + 1
2
=
10
4
+ 1
4
=
7
4
151
Esercizio 4. Una moneta ha probabilit`a di Testa P(T) = Y , dove Y `e una v.a. con densit`a
f
Y
(y) che ha supporto sullintervallo [0, 1]. Eettuo n lanci della moneta. Sia X la v.a.
che rappresenta il numero di Teste osservate negli n lanci. Calcolare il valore atteso di X.
Commento. Apparentemente questo esempio `e molto articiale, ma non lo `e. Il parametro
p = P(T) della v.a. di Bernoulli che rappresenta lesito del lancio di una moneta, `e una
variabile aleatoria invece di essere un numero. La f
Y
`e la densit`a di probabilit`a della
probabilit`a di Testa. Pu`o sembrare una costruzione barocca, ma questo `e un modello
standard impiegato in Statistica per rappresentare lignoranza su p. Le monete reali non
riportano in targhetta il valore di p e in qualche modo questa incertezza va modellata.
Vedremo pi` u avanti, se ce ne sar`a il tempo, qual `e il razionale di questo modello.
Soluzione. Per Y = y la v.a. X Bin(n, y) quindi E(X[Y = y) = ny. La v.a.
E(X[Y ) = nY quindi E(X) = E(E(X[Y )) = E(nY ) = nE(Y ). Ad esempio, `e molto
comune supporre che Y |([0, 1]). In questo caso E(X) = nE(Y ) =
n
2
.
152
Appendice I alla Lezione 25
Spazi vettoriali di variabili aleatorie
Teoria geometrica del valore atteso condizionato
Materiale parzialmente trattato a lezione - non in programma 2012/13
1. Spazi e sottospazi vettoriali di variabili aleatorie
Sia o linsieme delle v.a. che ammettono secondo momento ovvero
o := X : R [ E(X
2
) <
Vedremo tra poco che o `e uno spazio vettoriale su R, ma questo richiede il seguente,
fondamentale, risultato.
Lemma. (disuguaglianza di Cauchy-Schwarz)
[E(XY )[
_
E (X
2
) E (Y
2
)
Dimostrazione. Deniamo la v.a. W := tX +Y , dove t R. Poiche per ogni t R
0 E(W
2
) = E((tX +Y )
2
) = E(X
2
)t
2
+ 2E(XY )t +E(Y
2
),
il determinante del polinomio di secondo grado in t deve essere non positivo, ovvero
4
_
E(XY )

2
4E(X
2
)E(Y
2
) 0,
da cui segue immediatamente la disuguaglianza di Cauchy-Schwarz.
Lemma. o `e uno spazio vettoriale su R.
Dimostrazione. Si deve dimostrare la chiusura di o rispetto alla somma ed al prodotto
per uno scalare. Chiusura rispetto alla somma. Se X, Y o allora X + Y o infatti
E
_
(X +Y )
2
_
= E(X
2
) +E(Y
2
) +2 E(XY ), ma per la disuguaglianza di Cauchy Schwarz
[E(XY )[
_
E(X
2
)E(Y
2
) e quindi X + Y o. Chiusura rispetto al prodotto per uno
scalare. Se X o, per ogni a R la v.a. aX o, infatti E
_
(aX)
2
_
= a
2
E(X
2
) < .
Osservazione. Gli elementi dello spazio vettoriale o (vettori) sono variabili aleatorie,
ovvero funzioni X : R. Lo spazio vettoriale o `e quindi uno spazio di funzioni. Lo
spazio vettoriale o ha dimensione innita.
Esempi di sottospazi lineari di o
Esempio 1. (sottospazio delle v.a. a media nulla)
o
0
:= W o ; E(W) = 0
`e un sottospazio lineare di o (banale).
Esempio 2. (sottospazio generato da n v.a. assegnate)
`
E facile vericare che linsieme
delle combinazioni lineari di n v.a. assegnate Y
1
, . . . Y
n
tutte appartenenti a o,
/ := spanY
1
, . . . Y
n
:=
_
W ; W =
n

k=1

k
Y
k
,
k
R
_
,
`e un sottospazio lineare. Il sottospazio / ha dimensione minore o uguale ad n
153
Esempio 3. (funzioni di una v.a. Y o) Linsieme (Y ) delle funzioni (che ammettono
secondo momento) v(Y ) di una ssata v.a. Y o,
(Y ) := v(Y ) ; v : R R, e E
_
v
2
(Y )
_
< ,
`e un sottospazio lineare di o. Infatti se v
1
(Y ) ed v
2
(Y ) appartengono a (Y ), per la
disuguaglianza di Cauchy Schwarz `e nito anche il secondo momento di v
1
(Y ) +v
2
(Y ).
La dimensione del sottospazio (Y ) `e innita.
Prodotto scalare su o
Su o si denisce il prodotto scalare
X, Y := E(XY ) (1)
Verichiamo che (1) `e un prodotto scalare legittimo. Siano X, Y, W o.
(i) X, Y = Y, X, banale.
(ii) aX +bY, W = a X, W +b Y, W, per la linearit`a del valore atteso.
(iii) X, X 0, infatti X, X = E(X
2
) 0,
(iv) [[X[[
2
:= X, X = 0 se e solo se X = 0, infatti E(X
2
) = 0 se e solo se X = 0.
Variabili aleatorie ortogonali
Avendo dotato o di un prodotto scalare possiamo introdurre la nozione di ortogonalit`a.
Denizione. Se X, Y = E(XY ) = 0 le v.a. X ed Y si dicono ortogonali e scriveremo
XY .
Osservazione. Le v.a. X e Y sono scorrelate se e solo se le v.a. XE(X) ed Y E(Y ) sono
ortogonali. Infatti le due condizioni equivalgono a X E(X), Y E(Y ) = E(XY )
E(X)E(Y ) = 0. Ne segue anche che, se X o Y hanno media nulla, la scorrelazione e
lortogonalit`a di X ed Y sono equivalenti. Lesistenza di variabili aleatorie di media non
nulla `e una seccatura con la quale si deve convivere.
2. Interpretazione geometrica del valore atteso condizionato
La chiave per linterpretazione geometrica del valore atteso condizionato `e contenuta nella
seguente propriet`a fondamentale della v.a. E(X[Y ).
Lemma di proiezione. Per ogni funzione v : R R misurabile e tale che v(Y ) `e integrabile
vale lidentit`a
E
_
X v(Y )
_
= E
_
E(X[Y ) v(Y )
_
(2)
Dimostrazione. Consideriamo, ad esempio, il caso assolutamente continuo.
E
_
X v(Y )
_
=
__
xv(y)f
XY
(x, y) dxdy
=
_ __
xf
XY
(x, y) dx
_
v(y) dy
=
_ __
xf
X[Y
(x[y) dx
_
v(y)f
Y
(y) dy
=
_
E(X[Y = y) v(y)f
Y
(y) dy
= E
_
E(X[Y ) v(Y )
_
154
Interpretazione geometrica del Lemma di proiezione.
Usando la denizione del prodotto scalare su o lenunciato del Lemma si scrive
X, v(Y ) = E(X[Y ), v(Y ), per ogni v(Y ) (Y )
che, per la linearit`a del prodotto scalare, equivale a
X E(X[Y ), v(Y ) = 0 per ogni v(Y ) (Y ).
Geometricamente lultima equazione dice che il vettore X E(X[Y ) `e ortogonale a tutti
i vettori v(Y ) (Y ) ovvero che
E(X[Y ) `e la proiezione ortogonale di X su (Y )
X
X E(X[Y )
E(X[Y )
(Y )
3. Il Teorema di Pitagora
Poiche il valore atteso condizionato `e una proiezione ortogonale, sia nel caso discreto che
nel caso continuo vale il teorema di Pitagora
[[ X[[
2
= [[ X E(X[Y ) [[
2
+[[ E(X[Y ) [[
2
. (3)
Linterpretazione probabilistica della relazione Pitagorica richiede qualche manipolazione.
Ricordiamo che, per ogni W o,
[[W[[
2
= E(W
2
) = var(W) + [E(W)]
2
.
Osserviamo anche che la v.a. X E(X[Y ) ha valore atteso E
_
X E(X[Y )
_
= 0.
Lequazione (3) diventa allora
var(X) +
_
E(X)

2
= var
_
X E(X[Y )
_
+ var
_
E(X[Y )
_
+
_
E
_
E(X[Y )
_
_
2
che, cancellando
_
E(X)

2
a sinistra e a destra, si riduce a
var(X) = var
_
X E(X[Y )
_
+ var
_
E(X[Y )
_
(4)
La nozione di varianza condizionata consente di reinterpretare il primo termine a destra.
Denizione (varianza condizionata)
var(X[Y ) := E
_
_
X E(X[Y )
_
2

Y
_
.
155
Attenzione. La varianza condizionata non `e un numero bens` una v.a. Per determinare
var(X[Y ) si pu`o cominciare calcolando la funzione deterministica
w(y) := var(X[Y = y) = E
_
_
X E(X[Y = y)
_
2

Y = y
_
=
_

_
x E(X[Y = y)
_
2
f
X[Y
(x[y) dx
e quindi la v.a. varianza condizionata `e var(X[Y ) = w(Y ).
Il primo termine nel membro di destra dellequazione (3) non `e altro che il valore atteso
della v.a. varianza condizionata.
Lemma e dimostrazione.
[[ X E(X[Y ) [[
2
= E
_
_
X E(X[Y )
_
2
_
= calcolo il valore atteso iterato
= E
_
E
_
_
X E(X[Y )
_
2

Y
__
= E
_
var(X[Y )
_
Sostituendo nella (3), e per gli altri termini seguendo (4), si trova
var(X) = E
_
var(X[Y )
_
+ var
_
E(X[Y )
_
. (5)
4. Esempi di calcolo
Esempio 1. (seguito dellesercizio 2 a pagina 37) La variabile aleatoria dinteresse `e
S =
N

k=1
X
k
sotto le ipotesi dellesercizio 2 a pag. 37. Abbiamo gi`a calcolato E(S[N) = N E(X
1
). Per
trovare unespressione analitica della v.a. varianza condizionata, var(S[N), calcoliamo
prima
var(S[N = n) = var
_
N

k=1
X
k

N = n
_
= var
_
n

k=1
X
k

N = n
_
= var
_
n

k=1
X
k
_
= nvar(X
1
)
Vale quindi var(S[N) = N var(X
1
) ed applicando la decomposizione (5) si trova
var(S) = E
_
var(S[N)
_
+ var
_
E(S[N)
_
= E
_
N var(X
1
)
_
+ var
_
N E(X
1
)
_
= E(N) var(X
1
) + var(N)
_
E(X
1
)
_
2
.
156
5. Valore atteso condizionato come stimatore
Motivazione. Si supponga di dover stimare con un numero reale c una variabile aleatoria
X o. Una possibilit`a `e di eettuare un esperimento il cui risultato `e modellato da
X ed impiegare lesito di X come costante c. Questa scelta non soddisfa un criterio di
ottimalit`a, inoltre X potrebbe non essere osservabile. Per scegliere c la teoria geometrica
suggerisce di minimizzare il quadrato della norma derrore [[X c[[
2
.
Lemma.
c

:= arg min
cR
[[X c[[
2
= E(X)
Dimostrazione. Attenzione: non si pu`o prendere X = c, perche c deve essere un numero
reale. Peraltro un calcolo diretto fornisce
[[X c[[
2
= E
_
(X c)
2
_
= E
_
(X E(X) +E(X) c)
2

= E
_
(X E(X))
2
_
+ 2E
_
[X E(X)][E(X) c]
_
+E
_
(E(X) c)
2
_
= var(X) + (E(X) c)
2
Questa espressione `e somma di due quantit`a non negative di cui la prima `e indipendente
da c. Scegliendo c = E(X) si annulla il termine dipendente da c e quindi si raggiunge il
minimo.
Valore atteso condizionato come stimatore. Si supponga di disporre della densit`a congiunta
di due v.a. (X, Y ) e di poterne osservare solo una, poniamo la Y , e di voler stimare il
valore della v.a. X sulla base della v.a. Y .
`
E ragionevole quindi che lo stimatore della X
sia costruito come funzione, diciamo v(Y ), della v.a. Y . Per scegliere la funzione v(Y ) la
teoria geometrica suggerisce di minimizzare il quadrato della norma derrore [[Xv(Y )[[
2
.
Lemma.
v

(Y ) = arg min
v(Y )(Y )
[[X v(Y )[[
2
= E(X[Y )
Dimostrazione. Dal punto di vista geometrico la soluzione `e ovviamente data dalla proiezione
ortogonale di X su (Y ), e quindi v

(Y ) = E[X[Y ]. Si pu`o riderivare lo stesso risulta-


to per via analitica imitando quanto fatto sopra per il valore atteso. Questa parte della
dimostrazione `e ridondante, ma non guasta fare esercizio.
[[X v(Y )[[
2
= E
_
(X v(Y ))
2
_
= E
_
(X E(X[Y ) +E(X[Y ) v(Y ))
2
_
= E
_
(X E(X[Y ))
2
_
+ 2E
_
_
X E(X[Y )
_
E(X[Y ) v(Y )

_
+ E
_
(E(X[Y ) v(Y ))
2
_
= var(X E(X[Y )) +E
_
(E(X[Y ) v(Y ))
2
_
.
Il lettore dimostri che il doppio prodotto nel penultimo passaggio `e nullo (conviene calcolare
il valore atteso iterato condizionando rispetto ad Y ). Anche in questo caso ci siamo quindi
ridotti alla somma di due quantit`a positive, la prima delle quali indipendente da v(Y ).
Scegliendo v(Y ) = E(X[Y ) si annulla il termine dipendente, quindi il minimo si raggiunge
per v

(Y ) = E(X[Y ).
157
Appendice II alla Lezione 25 Teoria geometrica nel caso discreto
non in programma 2012/13
Nel caso discreto linterpretazione geometrica del valore atteso condizionato pu` o essere data con completo
rigore senza bisogno di introdurre nozioni di teoria della misura.
1. Richiamo sulle formule di proiezione ortogonale negli spazi vettoriali a prodotto interno
Sia 1 uno spazio vettoriale dotato di prodotto scalare. Per v, w 1, denotiamo v, w) il prodotto scalare
e [[v[[ =
_
v, v) la corrispondente norma.
Proiezione su un sottospazio unidimensionale. Dato un vettore w 1, il sottospazio lineare di 1 generato
da w `e
:= span|w = | w[ R.
Dato un qualunque vettore v 1 ci poniamo il problema del calcolo della proiezione ortogonale di v su
. Denotiamo T
H
v la proiezione cercata. Naturalmente T
H
v e il problema si riduce al calcolo
dellopportuno scalare

tale che P
H
v =

w. La gura qui sotto dovrebbe aiutare a capire il Lemma e


la dimostrazione seguenti.
-
6
- -
v
w w
T
H
v
v w
v T
H
v
Lemma.
P
H
v =
v, w)
w, w)
w
Dimostrazione. Poiche P
H
v sar` a P
H
v =

w per un opportuno

. Il modo pi` u semplice per


determinare

`e imporre la condizione di ortogonalit` a v w, che equivale ad imporre v ww,


ovvero
v w, w) = 0
che, per la linearit` a del prodotto scalare, fornisce

=
v, w)
w, w)
.
Esercizio. Calcolare lo scalare

che caratterizza la proiezione ortogonale minimizzando la norma del-


lerrore di proiezione v w. Nota bene: `e equivalente, ma pi` u comodo, minimizzare il quadrato della
norma.
Proiezione su un sottospazio multidimensionale. Consideriamo ora il caso in cui
:= span| w
1
, w
2
, . . . w
M
=
_
M

j=1
c
j
w
j

c
1
, . . . c
M
R
_
.
Faremo lipotesi che i vettori w
1
, w
2
, . . . w
M
siano ortogonali, ovvero w
i
, w
j
) = 0 per ogni i ,= j. Sotto
questa ipotesi `e un sottospazio lineare di 1, di dimensione M.
158
Lemma.
P
H
v =
M

j=1
v, w
j
)
w
j
, w
j
)
w
j
Dimostrazione. La proiezione P
H
v , quindi si tratta di determinare gli M scalari c

1
, . . . c

M
tali che
P
H
v =

M
j=1
c

j
w
j
. Per farlo imponiamo la condizione di ortogonalit`a v

M
j=1
c
j
w
j
, che equivale ad
imporre v

M
j=1
c
j
w
j
w
k
per ogni vettore w
k
della base di . In termini di prodotti interni la condizione
`e:
_
v
M

j=1
c
j
w
j
, w
k
_
= 0 per ogni k = 1, 2, . . . M
Per la linearit`a del prodotto scalare, e sfruttando lortogonalit` a dei w
k
, si ottiene
c

j
=
v, w
j
)
w
j
, w
j
)
.
`
E possibile scrivere formule di proiezione anche nel caso in cui i vettori w
j
non sono ortogonali. In
alternativa, tramite la procedura di Gram-Schmidt, si pu` o produrre, a partire da un insieme di vettori
indipendenti w
1
, . . . w
M
, una base ortogonale. Questi sono argomenti che avete gi` a visto nel corso di
Algebra Lineare e che rivedrete allopera nei corsi pi` u avanzati di Stima e Filtraggio.
2. Valore atteso condizionato - caso delle v.a. indicatrici
Introdurremo linterpretazione geometrica del valore atteso condizionato procedendo per gradi, dal caso
pi` u semplice al pi` u generale. In questo paragrafo X ed Y saranno entrambe v.a. di Bernoulli. A partire da
questo caso si pu` o costruire rigorosamente tutta la teoria discreta. Per i ni di questa nota il comportamento
delle variabili aleatorie come funzioni R`e pi` u rilevante delle densit`a. Per questo motivo approfondiamo
alcune idee sulle funzioni indicatrici, che sono le funzioni R che originano le v.a. di Bernoulli.
Denizione. Sia (, T, P) uno spazio di probabilit`a dato e B T. La variabile aleatoria

B
, indicatrice
dellevento B, `e denita come

B
() =
_
1, se B
0, se B
c
.
La v.a.

B
ha alfabeto |0, 1 quindi `e una Bernoulli, e poiche
P(

B
= 1) = P(|;

B
= 1) = P(B),
la v.a.

B
b(P(B)), e vale
E[

B
] = P(B).
Le seguenti propriet` a delle v.a. indicatrici sono banali, ma utili


2
B
=

B
, per ogni B T,


B

C
=

BC
, per ogni coppia B, C T.
Denizione. (Insieme delle funzioni di una assegnata v.a. Y ). Data una qualunque v.a. Y linsieme delle
variabili aleatorie che sono funzioni di Y , `e
(Y ) := | h(Y ) [ h : R R.
Vediamo ora le propriet` a di (Y ) nel caso particolare in cui Y =

B
.
Lemma.
(

B
) = |c
1

B
+c
2

B
c [ c
1
, c
2
R.
Dimostrazione. Linsieme (

B
) contiene tutte la funzioni del tipo h(

B
)(), dove h `e una qualunque
funzione h : R R. Per unassegnata h, la funzione h(

B
)() assume solo due valori: h(0) se B e
h(1) se B
c
. Per ogni vale quindi lidentit` a
h(

B
)() = h(0)

B
() +h(1)

B
c ()
(se vi convincete della validit` a di questa rappresentazione della funzione h(

B
)() capirete facilmente il
resto della nota). Poiche h `e arbitraria, h(0) e h(1) sono numeri reali arbitrari, diciamoli c
1
, e c
2
. Abbiamo
dimostrato che linsieme delle funzioni h(

B
) coindide con linsieme delle v.a. della forma c
1

B
+ c
2

B
c
per c
1
e c
2
reali abritrari.
`
E interessante osservare che linsieme (

B
) `e un sottospazio lineare di S. Pi` u precisamente vale il seguente:
159
Lemma. (

B
) `e un sottospazio lineare di S, di dimensione 2. I vettori

B
e

B
c formano una base
ortogonale di (

B
).
Dimostrazione. Osserviamo che (

B
) S (perche ?). Per vericare lortogonalit` a di

B
e

B
c calcoliamo

B
,

B
c ) = E[

B
c ] = E[

BB
c ] = E[

] = E[0] = 0.
Poiche

B
e

B
c sono ortogonali, sono anche linearmente indipendenti (attenzione:

B
e

B
c NON sono
probabilisticamente indipendenti, vericatelo!). Si conclude che (

B
) `e un sottospazio lineare di S, di
dimensione 2, ovvero (

B
) = span|

B
,

B
c .
Sia

A
unassegnata v.a indicatrice. Trattandosi di un vettore di S ha senso calcolare la proiezione
ortogonale
T
(

B
)
(

A
)
Il risultato di questa operazione sar` a ovviamente un elemento di (

B
), ovvero una v.a. funzione di

B
.
La proiezione ortogonale cercata `e data dalla formula (vedi appendice se necessario)
T
(

B
)
(

A
) =

A
,

B
)

B
,

B
)

B
+

A
,

B
c )

B
c ,

B
c )

B
c , (6)
valida poiche

B
e

B
c sono ortogonali.
Identichiamo ora il signicato probabilistico della proiezione (6). Dalla denizione di prodotto scalare

A
,

B
) = E[

B
] = E[

AB
] = P(A B),
inoltre

B
,

B
) = E[(

B
)
2
] = E[

B
] = P(B).
Procedendo in modo analogo con gli altri prodotti interni otteniamo
T
(

B
)
(

A
) = P(A[B)

B
+ P(A[B
c
)

B
c . (7)
La proiezione T
(

B
)
(

A
) `e dunque una v.a. che assume due valori,
T
(

B
)
(

A
)() =
_
P(A[B), se B
P(A[B
c
), se B
c
.
(8)
Convincetevi che (7) e (8) contengono la stessa informazione se non volete aver problemi a capire il seguito
della nota.
Tutto questo `e vagamente interessante, ma ecco la pi`ece de resistance.
Calcoliamo il valore atteso condizionato E[

A
[

B
] con la regola elementare. Anche questa `e una v.a. che
assume due valori, a seconda che

B
= 1 o

B
= 0, ovvero a seconda che B o che B
c
. In
particolare
E[

A
[

B
= 1] = E[

A
[B] = 0 P(A
c
[B) + 1 P(A[B) = P(A[B) per B
E[

A
[

B
= 0] = E[

A
[B
c
] = 0 P(A
c
[B
c
) + 1 P(A[B
c
) = P(A[B
c
) per B
c
Con una formula compatta (convincetevi che vale per ogni ) possiamo scrivere
E[

A
[

B
] = P(A[B)

B
+ P(A[B
c
)

B
c . (9)
Confrontando (7) e (9) concludiamo che
E[

A
[

B
] = T
(

B
)
(

A
).
La v.a. valore atteso condizionato di

A
dato

B
coincide con la proiezione ortogonale di

A
sul sottospazio
generato dalla v.a. condizionante

B
.
Concludiamo la prima parte rivisitando una formula nota. Calcoliamo E[

A
] usando la regola del valore
atteso iterato:
E[

A
] = E
_
E[

A
[

B
]
_
.
Usando la (9), e per la linearit` a del valore atteso,
P(A) = E[

A
] = E
_
E[

A
[

B
]
_
= E
_
P(A[B)

B
+ P(A[B
c
)

B
c
_
= P(A[B)E[

B
] + P(A[B
c
)E[

B
c ]
= P(A[B)P(B) +P(A[B
c
)P(B
c
),
una vecchia conoscenza.
160
3. Valore atteso condizionato - caso della v.a. condizionante discreta
Vericheremo ora che, anche quando la v.a. condizionante Y `e unarbitraria v.a. discreta,
E[

A
[Y ] = T
(Y )
(

A
).
Sia dunque Y una v.a. discreta a valori in |y
1
, y
2
, . . . y
M
e deniamo gli insiemi B
j
:= Y
1
(y
j
), j =
1, . . . , M. Gli insiemi B
j
formano una partizione di e vale lidentit` a
Y () = y
1

B
1
+y
2

B
2
+ +y
M

B
M
Generalizzando immediatamente quanto visto per il caso delle v.a. indicatrici, unarbitraria funzione h(Y )
della v.a. Y `e rappresentabile nella forma
h(Y )() = h(y
1
)

B
1
+h(y
2
)

B
2
+ +h(y
M
)

B
M
dove h(y
1
), . . . , h(y
M
) sono M numeri reali. Abbiamo cos` dimostrato che lo spazio (Y ), generato dalla
v.a. Y , `e
(Y ) :=
_
M

j=1
c
j

B
j
[ c
1
, . . . c
M
R
_
Poiche

B
h
,

B
k
) = E[

B
h

B
k
] = 0 per ogni h ,= k, linsieme (Y ) `e un sottospazio lineare, di dimensione
M, di S, ovvero
(Y ) = span|

B
1
, . . . ,

B
M
,
e

B
1
, . . . ,

B
M
ne `e una base ortogonale.
Fissata una v.a. indicatrice

A
`e immediato il calcolo della proiezione ortogonale
T
(Y )
(

A
) =
M

j=1

A
,

B
j
)

B
j
,

B
j
)

B
j
=
M

j=1
P(A[B
j
)

B
j
Per dimostrare che T
(Y )
(

A
) coincide anche in questo caso con E[

A
[Y ] usiamo la regola elementare per
il calcolo del valore atteso condizionato. La v.a. E[

A
[Y ] assume M valori, e specicamente per B
j
esso vale
E[

A
[Y = y
j
] = E[

A
[B
j
] = P(A[B
j
).
Incollando insieme i pezzi per j = 1, . . . M, si ottiene la rappresentazione
E[

A
[Y ] =
M

j=1
P(A[B
j
)

B
j
e quindi, come nel caso delle funzioni indicatrici,
E[

A
[Y ] = T
(Y )
(

A
).
Il valore atteso condizionato di

A
data Y coincide con la proiezione ortogonale di

A
sul sottospazio
generato dalla v.a. condizionante Y . Lasciamo al lettore linterpretazione della formula E[

A
] = E[E[

A
[Y ]]
in questo caso.
4. Valore atteso condizionato - caso discreto generale
`
E un semplice esercizio generalizzare quanto visto nora al caso del valore atteso condizionato E[X[Y ] dove
sia X che Y sono v.a. discrete generali. Se . := |x
1
, . . . x
N
`e lalfabeto di X, imitando quanto gi` a fatto
varie volte nora, possiamo scrivere
X() = x
1

A
1
+x
2

A
2
+ +x
N

A
N
dove A
i
:= X
1
(x
i
). Poiche la proiezione ortogonale `e una trasformazione lineare abbiamo immediatemente
che
T
(Y )
(X) = T
(Y )
_
N

i=1
x
i

A
i
_
=
N

i=1
x
i
T
(Y )
(

A
i
) =
N

i=1
x
i
M

j=1
P(A
i
[B
j
)

B
j
Peraltro il valore atteso condizionato E[X[Y ] per Y = y
j
, ovvero per B
j
, vale, usando la formula
elementare
E[X[Y = y
j
] =
N

i=1
x
i
p
X|Y
(x
i
[y
j
) =
N

i=1
x
i
P(A
i
[B
j
)
e quindi la v.a. E[X[Y ], ragionando come nei casi precedenti, coincide con la proiezione ortogonale
T
(Y )
(X). Una rappresentazione pi` u chiara di E[X[Y ] si ottiene mettendo in evidenza i

B
j
:
E[X[Y ]() =
N

i=1
x
i
M

j=1
P(A
i
[B
j
)

B
j
() =
M

j=1
_
N

i=1
x
i
p
X|Y
(x
i
[y
j
)
_

B
j
().
161
Lezione 26 (Mercoled`, 8 maggio 2013, ore 16:30-18:15)
26.1 Motivazione allo studio della funzione generatrice dei momenti
Nello studio delle variabili aleatorie abbiamo introdotto E(X) e var(X) come parametri
riassuntivi del comportamento probabilistico di X. Il valore atteso `e un indice di localiz-
zazione, essendo il numero reale intorno al quale sono distribuiti i possibili valori di X.
La varianza `e un indice di variabilit`a, proporzionale alla dispersione dei possibili valori di
X intorno al valore atteso. La disuguaglianza di Chebyshev lega i due indici: il limite
superiore per la probabilit`a degli scostamenti di X da E(X) `e proporzionale alla varianza,
P([X E(X)[ > c)
var(X)
c
2
. Poiche var(X) = E(X
2
)
_
E(X)
_
2
, le informazioni con-
tenute nella coppia di parametri E(X), var(X) sono equivalenti a quelle contenute nella
coppia E(X), E(X
2
).
Per naturale estensione, tutti i momenti di X possono considerarsi parametri riassuntivi
del comportamento probabilistico. Ricordiamo che per ogni k = 0, 1, 2, . . . il momento di
ordine k di X, `e (nel caso assolutamente continuo e in quello discreto rispettivamente)
m
k
:= E(X
k
) =
_

x
k
f
X
(x) dx, m
k
:= E(X
k
) =

k
x
k
k
p
X
(x
k
),
se lintegrale (la serie) esiste nito. Una banale condizione suciente, che garantisce
lesistenza di m
k
per ogni k N, `e che la densit`a abbia supporto su un intervallo [a, b]
nito. Se il supporto `e illimitato, una condizione suciente `e che la densit`a tenda a zero
pi` u velocemente di qualunque x
k
. La normale, lesponenziale, la geometrica, la Poisson,
soddisfano tutte questo criterio. In generale non tutti i momenti di una data variabile
aleatoria esistono ma, per quanto dimostrato nel paragrafo 17.1, se esiste m
s
allora esistono
tutti gli m
r
, per ogni r < s. La v.a. di Cauchy ad esempio non ammette m
1
:= E(X),
e quindi nessun momento di ordine superiore ad 1. Si noti invece che il momento m
0
esiste sempre, ma non `e informativo, infatti m
0
= E(X
0
) = E(1) = 1, qualunque sia
X. Lintuizione suggerisce che tutti gli altri momenti m
k
, k 1, sono informativi e che
maggiore `e il numero di momenti noti, maggiori sono le informazioni sul comportamento
probabilistico di X. Il prossimo risultato mostra che, se lalfabeto di X `e nito, lintuizione
`e corretta.
Lemma. Sia X una v.a. a valori in A = x
1
, x
2
, . . . x
N
. Dati i momenti
m
k
= E(X
k
), k = 0, 1, . . . N 1,
la densit`a di probabilit`a p
X
(x
i
), i = 1, 2, . . . N `e univocamente determinata.
Dimostrazione. Scriviamo le equazioni che deniscono i momenti m
k
in forma matriciale
_
_
_
_
_
_
m
0
m
1
m
2
. . .
m
N1
_
_
_
_
_
_
=
_
_
_
_
_
_
1 1 1 . . . 1
x
1
x
2
x
3
. . . x
N
x
2
1
x
2
2
x
2
3
. . . x
2
N
. . . . . . . . . . . . . . .
x
N1
1
x
N1
2
x
N1
3
. . . x
N1
N
_
_
_
_
_
_
_
_
_
_
_
_
p
X
(x
1
)
p
X
(x
2
)
p
X
(x
3
)
. . .
p
X
(x
N
)
_
_
_
_
_
_
Questo `e un sistema di N equazioni lineari nelle N incognite p
X
(x
i
). La matrice del
sistema `e di Vandermonde
22
, ed ha determinante non nullo poiche gli x
i
sono distinti,
quindi la soluzione p
X
(x
1
) . . . p
X
(x
N
) esiste ed `e unica.
22
per un richiamo sulle matrici di Vandermonde si veda un qualunque testo di algebra lineare.
`
E fatta
abbastanza bene la pagina http://en.wikipedia.org/wiki/Vandermonde matrix
162
Osservazione. Bisogna prestare molta attenzione ed evitare di leggere in questo Lemma
quello che non c`e scritto. Non `e vero che, data una qualunque sequenza di numeri reali
m
0
, m
1
, . . . m
N1
, con m
0
= 1, la soluzione del sistema lineare qui sopra, che esiste ed
`e unica, soddis i vincoli p
X
(x
i
) 0 per ogni i = 1, 2 . . . N e

i
p
X
(x
i
) = 1, sia cio`e
una densit`a di probabilit`a legittima. A tal ne bisogna che la sequenza m
0
, m
1
, . . . m
N1
sia eettivamente la sequenza dei momenti di una qualche variabile aleatoria. Una tale
sequenza non pu`o essere arbitraria: ad esempio m
2
, m
4
, . . . m
2k
. . . devono, quanto meno,
essere non-negativi per poter rappresentare momenti di ordine pari. La caratterizzazione
delle sequenze di numeri reali m
k
che sono possibili sequenze di momenti di una v.a.
costituisce il classico problema dei momenti dellanalisi matematica.
Nel caso di v.a. generali (discrete o continue) non `e sempre possibile ricostruire univo-
camente la densit`a di probabilit`a a partire dalla conoscenza dei momenti, anche ammesso
di conoscere la sequenza innita m
k

k0
. Accettando comunque lidea che pi` u momen-
ti si conoscono maggiori sono le informazioni a disposizione sulla densit`a considereremo
interessante ogni strumento matematico che ci consenta di calcolare in modo semplice i
momenti m
k
.
Il metodo brute-force per il calcolo dei momenti consiste nel valutare
m
k
= E(X
k
) =
_
x
k
f
X
(x) dx, per k = 0, 1, . . . ,
ovvero inniti integrali. Peraltro la v.a. e
X
, funzione della v.a. X, ha uninteressante
propriet`a. Calcolando il valore atteso di e
X
e ricordando che e
x
=

k=0
x
k
k!
, si trova
E
_
e
X
_
=
_
e
x
f
X
(x) dx = E
_

k=0
X
k
k!
_
=

k=0
E(X
k
)
k!
,
ammesso che sia lecito lo scambio di valore atteso e serie. Si osservi il risultato del calcolo
di un unico integrale, E
_
e
X
_
, si pu`o esprimere come combinazione lineare (innita) dei
momenti m
k

k0
. La funzione generatrice dei momenti, introdotta qui sotto, `e una
macchinetta analitica che consente di estrarre gli E(X
k
) dalla combinazione lineare.
26.2 Funzione generatrice dei momenti
Denizione. La funzione generatrice dei momenti (MGF) della v.a. X `e
M
X
: D R; s M
X
(s) := E
_
e
sX
_
,
dove D R `e il sottoinsieme degli s R tali che lintegrale E
_
e
sX
_
esiste nito. Si noti
che, qualunque sia la variabile aleatoria X, il dominio D ,= , infatti s = 0 M
X
(0) =
E(1) = 1.
Se il dominio di denizione di M
X
(s) `e un intervallo D = (s+0, s
0
) intorno allorigine
allora la variabile aleatoria X ammette tutti i momenti, come specicato nel seguente
teorema.
Teorema 1. Se M
X
(s) ha dominio di esistenza D = (s +0, s
0
), per qualche s
0
> 0 allora
la variabile aleatoria X ammette tutti i momenti m
k

k0
, inoltre
m
k
= E(X
k
) =
d
(k)
ds
(k)
M
X
(s)

s=0
, (1)
163
Cenno di dimostrazione. Sviluppando e
sx
in serie di Taylor
M
X
(s) := E
_
e
sX
_
=
_

e
sx
f
X
(x) dx
=
_

k=0
s
k
k!
x
k
f
X
(x) dx
=

k=0
s
k
k!
_

x
k
f
X
(x) dx
=

k=0
E(X
k
)
s
k
k!
,
dove lo scambio dellintegrale con la serie `e possibile poiche M
X
(s) esiste per ogni s D =
(s
0
, s
0
), per qualche s
0
> 0 (questa parte della dimostrazione `e omessa). La funzione
generatrice dei momenti `e quindi rappresentabile, per ogni s D, con la serie di potenze
M
X
(s) =

k=0
E(X
k
)
s
k
k!
. (2)
Peraltro se f(t) `e una funzione sviluppabile in serie di potenze in un intorno dellorigine,
ovvero f(t) =

k=0
a
k
t
k
`e noto che a
k
=
1
k!
d
k
dt
k
f(t)

t=0
. Confrontando con la serie di
potenze (2) si trova
m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)

s=0
.
Si osservi che la formula (1) consente di ricavare tutti i momenti m
k
a partire dal calcolo
delle derivate nellorigine, operazione (generalmente) semplice, della funzione M
X
(s). In
realt`a i momenti m
k
si possono addirittura ricavare per ispezione, senza calcoli, se si riesce
a scrivere lo sviluppo in serie di potenze di M
X
(s). Si vedano gli Esempi 3 e 6 qui sotto!
Esempi di calcolo di M
X
(s)
Esempio 1. Se Z N(0, 1),
M
Z
(s) = e
1
2
s
2
, per ogni s R
Dimostrazione. Si usa la tecnica del completamento del quadrato.
M
Z
(s) =
_
e
sx
1

2
e

1
2
x
2
dx
=
_
1

2
e

1
2
x
2
+sx
dx
=
_
1

2
e

1
2
_
(xs)
2
s
2
_
dx
=
__
1

2
e

1
2
(xs)
2
dx
_
e
1
2
s
2
= e
1
2
s
2
dove, nellultimo passaggio, si riconosce che lintegranda `e la densit`a N(s, 1) che integra
ad 1, per ogni s R. Si veda anche lEsempio 4
Micro-esercizio. Vericare che E(Z) = M
t
Z
(0) = 0, E(X
2
) = var(X) = M
tt
Z
(0) = 1.
164
Esempio 2. Se X Bin(n, p),
M
X
(s) = E
_
e
sX
_
=
n

k=0
e
sk
_
n
k
_
p
k
(1 p)
nk
=
n

k=0
_
n
k
_
(pe
s
)
k
(1 p)
nk
= (pe
s
+ 1 p)
n
, per ogni s R
Micro-esercizio. Vericare che E(X) = M
t
X
(0) = np. Calcolare E(X
2
) = M
tt
X
(0) e
vericare i conti riottenendo la nota varianza della binomiale.
Esempio 3. Se X Exp(),
M
X
(s) =
_

0
e
sx
e
x
dx =
_

0
e
(s)x
dx =

s
, per s <
Si noti che, in questo caso, il dominio di esistenza della M
X
(s) si riduce alla semiretta
s < . Poiche il parametro di una densit`a esponenziale `e strettamente positivo si
deduce che la M
X
(s) esiste in un intorno dellorigine e quindi `e possibile determinare i
momenti E(X
k
) = M
(k)
X
(0). Per calcolare i momenti della v.a. esponenziale sfruttando il
Teorema 1 si pu`o operare in due modi. Il modo diretto `e usare la formula m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)

s=0
. Il modo furbo `e scrivere lo sviluppo in serie di potenze di M
X
(s) che `e
particolarmente semplice ricordando le serie geometriche.
M
X
(s) =

s
=
1
1
s

k=0
_
s

_
k
=

k=0
k!

k
s
k
k!
Abbiamo moltiplicato e diviso per k! i termini della serie geometrica per avere une-
spressione identica alla (2), che consente di scrivere gli m
k
= E(X
k
) per ispezione. Si
ricava
m
k
= E(X
k
) =
k!

k
,
non male come rapporto sforzo/risultato: per le v.a. esponenziali la sequenza innita m
k
si calcola in pochi secondi.
MGF di funzioni lineari
Teorema 2. Sia X una v.a. la cui MGF `e M
X
(s). Sia inoltre Y = aX +b, allora
M
Y
(s) = e
sb
M
X
(as)
Dimostrazione. Per calcolo diretto,
M
Y
(s) := E
_
e
sY
_
= E
_
e
s(aX+b)
_
= e
sb
E
_
e
saX
_
= e
sb
M
X
(as)
165
Esempi di applicazione del Teorema 2
Esempio 4. Se X N(,
2
),
M
X
(s) = e
s
e
1
2

2
s
2
.
Dimostrazione. La densit`a N(,
2
) coincide con la densit`a della variabile aleatoria X =
Z + , dove Z N(0, 1), infatti X `e una trasformazione lineare di Z, (si veda il sot-
toparagrafo trasformazioni lineari delle v.a. normali, del paragrafo 18.1). Applicando
lEsempio 1 ed il Teorema 2 si ottiene il risultato.
Esempio 5 (Calcolo dei momenti centrali). I momenti centrali della v.a. X sono denotati

k
, e deniti come

k
:= E
_
(X E(X))
k
_
= E
_
(X m
1
)
k
_
, k = 1, 2, . . .
se lintegrale (la serie) esiste ed `e nito. Si noti che
1
= 0, qualunque sia la v.a. X e che

2
= var(X). Ponendo Y = X m
1
`e evidente che i momenti m
Y
k
:= E(Y
k
) coincidono
con i momenti centrali
X
k
:= E
_
(X m
1
)
k
_
di X. Il Teorema 2 fornisce allora
M
Y
(s) = M
Xm
1
(s) = e
m
1
s
M
X
(s)
e, applicando il Teorema 1,

k
= E(Y
k
) =
d
k
ds
k
M
Y
(s)

s=0
=
d
k
ds
k
_
e
m
1
s
M
X
(s)
_

s=0
(3)
Esempio 6 (Calcolo dei momenti centrali della N(,
2
)). Come conseguenza degli Esempi
4 e 5 si ha
M
X
(s) = e
s
e
s
e
1
2

2
s
2
= e
1
2

2
s
2
Ora, imitando quanto fatto nellEsempio 3, anziche applicare direttamente la formula (3)
seguiamo la via furba, scrivendo direttamente la serie di potenze che rappresenta M
X
(s).
M
X
(s) = e
1
2

2
s
2
=

k=0
_
1
2

2
s
2
_
k
k!
=

k=0
(
2
)
k
2
k
k!
s
2k
=

k=0
(
2
)
k
(2k)!
2
k
k!
s
2k
(2k)!
Anche in questo caso abbiamo moltiplicato e diviso per (2k)! in modo da rendere i
momenti di X (momenti centrali di X), ricavabili per ispezione della serie di potenze.
Si ha, per ogni k 1,

2k+1
= 0,

2k
=
(
2
)
k
(2k)!
2
k
k!
.
Micro-esercizio. Vericare che:
2
=
2
,
4
= 3(
2
)
2
.
166
Il problema dellesistenza della MGF M
X
(s)
Per capire qual `e la radice del problema per la convergenza dellintegrale che denisce
M
X
(s) si consideri il caso di una v.a. X di Cauchy. La densit`a f
X
(x) =
1

1
1+x
2
, quindi
lespressione della MGF `e
M
X
(s) =
_
1

e
sx
1 +x
2
dx
La gura qui sotto mostra landamento di e
sx
al variare di s e landamento di
1
1+x
2
.
Spezzando lintegrale per addittivit`a
M
X
(s) =
_
0

e
sx
1 +x
2
dx +
_

0
1

e
sx
1 +x
2
dx
Condizione necessaria per la convergenza dellintegrale `e che lintegranda tenda a zero per
x . Usando la regola di LH opital
lim
x
e
sx
1 +x
2
= lim
x
s
2
e
sx
2
= 0, se e solo se s > 0
lim
x
e
sx
1 +x
2
= lim
x
s
2
e
sx
2
= 0, se e solo se s < 0
Si conclude che M
X
(s) esiste solo per s = 0, dove banalmente vale M
X
(0) = 1.
167
Lezione 27 (Luned` 13 maggio, ore 10:3013:15)
27.1 Funzione caratteristica di una variabile aleatoria
La funzione caratteristica `e un potente strumento per lo studio delle variabili aleatorie,
per certi aspetti simile alla funzione generatrice dei momenti, ma molto pi` u potente. La
funzione caratteristica, a dierenza della funzione generatrice dei momenti, ha il pregio di
esistere sempre; la cattiva notizia `e che, in generale, essa `e una funzione a valori complessi.
Denizione. La funzione caratteristica di una v.a. X `e la funzione

X
: R C;
X
() := E
_
e
jX
_
Nel caso di v.a. assolutamente continue

X
() := E
_
e
jX
_
=
_
e
jx
f
X
(x) dx,
e nel caso di v.a. discrete

X
() := E
_
e
jX
_
=

k
e
jx
k
p
X
(x
k
)
Legame con la nozione di trasformata di Fourier in Segnali e Sistemi
Nei libri di teoria della probabilit` a, la funzione caratteristica di una v.a. X `e denita come trasformata
di Fourier (TdF) della funzione di densit` a f
X
(x). Gli allievi ingegneri, alle prime armi con la TdF, sono
usualmente disorientati da questa denizione, poiche la denizione di TdF che viene utilizzata dierisce
leggermente da quella utilizzata in segnali e sistemi.
In realt` a nella letteratura scientica convivono almeno quattro denizioni, leggermente diverse tra
loro, di TdF. Vediamo le quattro diverse coppie trasformata-antitrasformata, nel caso di un segnale x(t) a
tempo continuo e a valori complessi.
(a.) Per gli ingegneri dellautomatica
X() :=
_
x(t)e
jt
dt
x(t) :=
1
2
_
X()e
jt
d.
(b.) Rispetto alla denizione (a.) gli ingegneri delle telecomunicazioni sostituiscono con 2f per far
sparire il coeciente
1
2
dallantitrasformata o, pi` u pomposamente, per rendere la trasformazione x(t)
X(f) unitaria su L
2
(R),
X(f) :=
_
x(t)e
j2f
dt
x(t) :=
_
X(f)e
j2ft
df.
(c.) Rispetto alla denizione (a.) i sici moltiplicano la trasformata per
1

2
in modo da avere lo stesso
fattore nella trasformata e nellantitrasformata, ed anche questa `e una trasformazione unitaria
X() :=
1

2
_
x(t)e
jt
dt
x(t) :=
1

2
_
X(j)e
jt
d.
(d.) Rispetto alla denizione (a.) i probabilisti scambiano con ,
X() :=
_
x(t)e
jt
dt
x(t) :=
1
2
_
X(j)e
jt
d,
168
Adottando questultima convenzione per la denizione di TdF, e la notazione f
X
(x)
X
() per la
coppia segnale/trasformata, si riconosce che la funzione caratteristica, come denita allinizio della lezione,
`e la trasformata di Fourier della densit` a di proabilit` a.
Propriet`a elementari della funzione caratteristica
(a.) Esistenza, continuit` a e normalizzazione

X
() esiste per ogni R, qualunque sia la densit`a f
X
(x). Infatti
[
X
()[ =

_
e
jx
f
X
(x) dx

e
jx
f
X
(x)

dx =
_
f
X
(x) dx = 1.
Poiche
X
(0) = E
_
e
j0X
_
= E(1) = 1 il modulo della funzione caratteristica ha un
massimo per = 0. La funzione caratteristica `e inoltre uniformemente continua su R
(dim. omessa).
(b.) Corrispondenza biunivoca funzioni caratteristiche funzioni di distribuzione
A livello pi` u fondamentale la funzione caratteristica si denisce a partire dalla funzione
di distribuzione delle variabili aleatorie. Si dimostra che esiste una corrispondenza biu-
nivoca tra funzioni caratteristiche e funzioni di distribuzione, ovvero se due funzioni di
distribuzione hanno la stessa funzione caratteristica allora coincidono. Ci limitiamo qui
ad osservare che, nel caso assolutamente continuo, le funzioni di distribuzione ammet-
tono densit`a e quindi, se la densit`a soddisfa le condizioni di Dirichlet, vale la formula
dinversione
f
X
(x) =
1
2
_

e
jx

X
() d, per ogni x di continuit`a di f
X
.
(c.) Simmetrie
Poiche la densit`a f
X
(x) `e una funzione reale,
X
() `e hermitiana. Se la densit`a f
X
(x) `e
pari allora
X
() `e reale e pari (vedi Segnali e Sistemi). In questo caso

X
() =
_
cos(x)f
X
(x) dx
(d.) Relazione con i momenti
Se la v.a. X ammette k momenti allora
X
() `e derivabile k volte nellorigine e
E(X
k
) =
1
j
k
d
(k)

X
()
d
(k)

=0
Omessa la dimostrazione della derivabilit`a. Per ricavare la formula si deriva sotto il segno
di integrale, cio`e si scambiano le operazioni di derivata e calcolo del valore atteso:
d
(k)
d
(k)

X
()

=0
=
d
(k)
d
(k)
E
_
e
jX
_

=0
= E
_
d
(k)
d
(k)
e
jX
_

=0
= E
_
j
k
X
k
e
jX
_

=0
= j
k
E(X
k
)
169
(e.) Funzione caratteristica di trasformazioni lineari
Se Y = aX +b allora

Y
() = E
_
e
jY
_
= E
_
e
j(aX+b)
_
= e
jb
E
_
e
jaX
_
= e
jb

X
(a)
(f.) Funzione caratteristica della somma di due v.a. indipendenti
Se X, Y sono indipendenti allora W = X +Y ha funzione caratteristica

W
() =
X
()
Y
().
La dimostrazione `e immediata usando la denizione.

W
() = E
_
e
j(X+Y )
_
= E
_
e
jX
e
jY
_
= E
_
e
jX
_
E
_
e
jY
_
=
X
()
Y
()
Questo risultato `e in realt`a una manifestazione del teorema della convoluzione. Se X ed Y
sono indipendenti `e noto che f
X+Y
= f
X
f
Y
, quindi la trasformata di Fourier di f
X+Y
`e il prodotto delle TdF di f
X
e di f
Y
.
Attenzione: non vale il viceversa. Se la funzione caratteristica della somma di due v.a.
`e il prodotto delle funzioni caratteristiche degli addendi non segue che le due v.a. sono
indipendenti. Pi` u sotto costruiremo un controesempio usando le v.a. di Cauchy.
Micro-esercizio. Dimostrare lanaloga propriet`a per la funzione generatrice dei momenti.
(g.) Funzione caratteristica della somma di n v.a. indipendenti
La generalizzazione di (f.) ad n variabili aleatorie `e immediata. Riportiamo alcune espres-
sioni che saranno utili in seguito. Se X
i

n
i=1
`e una sequenza nita di v.a. indipendenti,
con
X
i
() funzione caratteristica di X
i
, la somma di variabili aleatorie
W =
n

k=1
X
k
ha funzione caratteristica

W
() =
n

k=1

k
()
Se le v.a. X
i
sono i.i.d., di funzione caratteristica comune (), allora

W
() =
_
()

n
.
Nello stesso caso di v.a. i.i.d. la media aritmetica delle v.a. X
i

n
i=1
,
X
n
:=
1
n
n

k=1
X
i
,
ha funzione caratteristica

X
n
() =
_

n
__
n
.
170
(h.) La funzione caratteristica `e denita positiva
Questo signica che per ogni n N, per ogni npla di reali
1
,
2
, . . .
n
ed ogni npla
di complessi u
1
, u
2
, . . . u
n
vale la disuguaglianza
n

k=1
n

l=1

X
(
k

l
)u
k
u

l
0
Dimostrazione (notazioni: se z = x +jy allora z

= z = x jy)
0 E
_
_

k=1
u
k
e
j
k
X

2
_
_
= E
__
n

k=1
u
k
e
j
k
X
__
n

k=1
u
k
e
j
k
X
_

_
= E
__
n

k=1
u
k
e
j
k
X
__
n

k=1
u

k
e
j
k
X
__
= E
_
n

k=1
n

l=1
u
k
u

l
e
j(
k

l
)X
_
=
n

k=1
n

l=1
u
k
u

l
E
_
e
j(
k

l
)X
_
=
n

k=1
n

l=1

X
(
k

l
)u
k
u

l
(i.) Teorema di Bochner
Ogni funzione () denita positiva, continua in un intorno dellorigine, e normalizzata
(0) = 1, `e la funzione caratteristica di una funzione di distribuzione (dimostrazione
omessa).
Esempi di calcolo e di applicazione
(1.) X |(a, b)

U
() =
_
b
a
e
jx
1
b a
dx =
1
j
e
jb
e
ja
b a
Dopo avere visto questo esempio lintroduzione motivazionale sullutilit`a della funzione
caratteristica per il calcolo dei momenti sar`a ritenuta pubblicit`a ingannevole. In eetti,
calcolare le derivate della funzione
U
() nellorigine `e piuttosto oneroso, mentre il calcolo
diretto dei momenti di una v.a. uniforme `e triviale
m
k
= E(X
k
) =
_
b
a
x
k
b a
dx =
b
k+1
a
k+1
(b a)(k + 1)
.
Il fatto `e che, in rare occasioni, integrare `e pi` u facile che derivare. Nel caso particolare
a = 1, b = 1 la funzione caratteristica `e
() =
sin

,
che `e reale e pari come atteso.
171
(2.) X Exp()

X
() =
_

0
e
x
e
jx
dx
=
_

0
e
(j)x
dx
=

j
e
(j)x

0
converge per ogni R poiche < 0
=

j
Spiegazione dettagliata (per chi era distratto alla lezione di Segnali e Sistemi) Capire a fondo la convergenza
dellintegrale appena visto `e importante. Analizziamo in dettaglio perche converge. Assegnato un numero
complesso
s = +j
calcoliamo, usando la denizione uciale, lintegrale improprio
_

0
e
sx
dx =
_

0
e
(+j)x
dx
= lim
T
1
+j
e
(+j)x

T
0
= lim
T
1
+j
e
x
_
cos(x) +j sin(x)
_

T
0
=
1
+j
, se < 0
Nellultimo passaggio abbiamo sfruttato la seguente osservazione. Se < 0 allora
lim
T
e
T
cos(T) = lim
T
e
T
sin(T) = 0
presentandosi, in entrambi i casi, il prodotto di una funzione che tende a zero per una funzione limitata. Se
invece 0 i limiti non esistono. Infatti, se = 0 le funzioni oscillano tra 1, mentre se > 0 oscillano
illimitate.
Esercizio. Calcolare E(X) ed E(X
2
) per la v.a. esponenziale a partire dalla funzione
caratteristica.
(3.) X Cauchy

X
() =
_

e
jx
1 +x
2
dx = e
[[
questo `e un classico esempio di trasformata di Fourier vedi esercizi di segnali e sistemi.
Controesempio alla propriet`a (f.). Si considerino le due v.a. di Cauchy, X ed Y = X,
allora X +Y = 2X e per la propriet`a (e.) vale

X+Y
() =
2X
() = e
2[[
= e
[[
e
[[
=
X
()
Y
(),
la funzione caratteristica della somma X +Y `e il prodotto delle funzioni caratteristiche di
X ed Y . Ma le v.a. aleatorie X ed Y non sono indipendenti, infatti Y = X.
(4.) X b(p)

X
() =

k
e
jx
k
p
X
(x
k
) = 1 p +pe
j
172
(5.) X Bin(n, p)

X
() =

k
e
jx
k
p
X
(x
k
) =
n

k=0
e
jk
_
n
k
_
p
k
(1 p)
nk
=
n

k=0
_
n
k
_
_
pe
j
_
k
(1 p)
nk
=
_
1 p +pe
j
_
n
(6.) Z N(0, 1)

Z
() = E[e
jZ
] = e

1
2
u
2
Dimostrazione.
23
Si deve calcolare

Z
() =
1

2
_

e
jx
e

x
2
2
dx
Per la formula di Eulero e
jx
= cos(x) +j sin(x). Osserviamo che
1

2
_

sin(x) e

x
2
2
dx = 0
essendo lintegranda dispari ed integrabile (grazie alla veloce convergenza a 0 di e

x
2
2
). Ci
siamo quindi ridotti al calcolo di

Z
() =
1

2
_

cos(x) e

x
2
2
dx
Derivando rispetto a ed integrando per parti si trova

t
Z
() =
1

2
_

xsin(x) e

x
2
2
dx =
1

2
_

sin(x) d
_
e
x
2
2
_
=
1

2
sin(x) e
x
2
2

2
_

cos(x) e

x
2
2
dx
=
Z
().
Lequazione dierenziale lineare

t
Z
() =
Z
()
si risolve agevolmente separando le variabili
d
Z
()

Z
()
= d log(
Z
()) =

2
2
+C
Z
() =

C e

1
2

2
e, imponendo la condizione iniziale
Z
(0) = 1, si conclude che
Z
() = e

2
2
.
(7.) X N(,
2
)

X
() = e
j
1
2

2
Dimostrazione. Con lusuale trucco della trasformazione lineare, scriviamo X = Z + ,
dove Z N(0, 1). Applicando la regola (e.) e il risultato di (6.) si ricava il risultato.
23
Aggiungere dimostrazione con i momenti.
173
Applicazioni alla caratterizzazione di funzioni di distribuzione
(a.) Caratterizzazione della v.a. Binomiale
Lemma. La somma X di n v.a. di Bernoulli X
1
, . . . X
n
, i.i.d. di parametro p, `e binomiale
Bin(n, p).
Commento. Questo risultato `e stato gi`a pi` u volte giusticato, ma ora e possibile di-
mostrarlo in modo semplice e rigoroso.
Dimostrazione. La funzione caratteristica comune delle v.a. di Bernoulli `e () = 1
p + pe
j
. La funzione caratteristica della somma di v.a. indipendenti `e il prodotto delle
funzioni caratteristiche degli addendi quindi

X
() =
_
()
_
n
=
_
1 p +pe
j
_
n
,
questa `e la funzione caratteristica di una v.a. Bin(n, p). Se due v.a. hanno la stes-
sa funzione caratteristica le loro funzioni di distribuzione (e quindi densit`a) coincidono.
Conclusione: X Bin(n, p).
(b.) Combinazioni lineari di v.a. normali indipendenti sono normali
Alla ne della Lezione 23 abbiamo enunciato il seguente Teorema, senza per`o completarne
la dimostrazione che richiedeva un laborioso calcolo: la convoluzione di due densit`a nor-
mali. Luso della funzione caratteristica semplica di molto la dimostrazione. Questa `e
una manifestazione del teorema della convoluzione.
Teorema. Se W = X +Y , con X N(
X
,
2
X
) ed Y N(
Y
,
2
Y
) indipendenti allora
W N(
X
+
Y
,
2

2
X
+
2

2
Y
).
Dimostrazione. Le funzioni caratteristiche di X ed Y sono rispettivamente

X
() = e
j
X

1
2

2
X

Y
(t) = e
j
Y

1
2

2
Y

2
Le funzioni caratteristiche di X e di Y sono rispettivamente (regola 2 (e.))

X
() = e
j
X

1
2

2
X

Y
() = e
j
Y

1
2

2
Y

2
Per lipotesi dindipendenza la funzione caratteristica di Z = X +Y `e il prodotto delle
due:

W
() = e
j(
X
+
Y
)t
1
2
(
2

2
X
+
2

2
Y
)
2
ma questa `e la funzione caratteristica di una v.a. N(
X
+
Y
,
2

2
X
+
2

2
Y
) e la
dimostrazione `e conclusa.
(c.) Somme di v.a. binomiali indipendenti
Proposizione. Se la coppia di v.a. (X, Y ) `e indipendente con X Bin(m, p) ed Y
Bin(n, p) allora Z = X +Y Bin(m+n, p).
Commento. Il risultato `e intuitivamente corretto infatti X si pu`o interpretare come somma
di m v.a. bernoulliane indipendenti di parametro p, ed analogamente Y come somma di
n bernoulliane indipendenti di parametro p. La v.a. X + Y `e quindi interpretabile come
somma di m + n bernoulliane di parametro p, quindi X + Y Bin(m + n, p). Forniamo
due dimostrazioni, la prima diretta, la seconda con le funzioni caratteristiche.
174
Dimostrazione diretta. La dimostrazione consiste nel calcolo di una convoluzione. Per
quanto noto, la densit`a di probabilit`a di Z = X +Y `e
p
Z
(k) = p
X
(k) p
Y
(k)
Le densit`a di probabilit`a p
X
e p
Y
sono rispetttivamente, (denotando q = 1 p)
p
X
(k) =
_
m
k
_
p
k
q
mk
[1l(k) 1l(k m)]
p
Y
(k) =
_
n
k
_
p
k
q
nk
[1l(k) 1l(k n)]
dove abbiamo introdotto i gradini per tenere automaticamente conto del supporto delle
due densit`a: 0, 1, . . . m per p
X
e 0, 1, . . . n per p
Y
. La convoluzione allora si scrive
esplicitamente come
p
Z
(k) =

=
p
X
(k )p
Y
()
=

=
_
m
k
_
p
k
q
mk+
[1l(k ) 1l(k m)]
_
n

_
p

q
n
[1l() 1l( n)]
Estraendo dalla sommatoria le costanti in ci si riduce a
p
Z
(k) = p
k
q
m+nk

=
_
m
k
__
n

_
[1l(k ) 1l(k m)][1l() 1l( n)]
Il supporto (in , indice corrente della sommatoria) di [1l()1l(n)] `e 0, 1, . . . , n mentre
il supporto di [1l(k ) 1l(k m)] `e k m, . . . , k Per ssare le idee, e senza perdita
di generalit`a, supponiamo che m n. Si distinguono 5 casi:
k < 0 p
Z
(k) = 0
0 k n p
Z
(k) = p
k
q
m+nk
k

=0
_
m
k
__
n

_
n k m p
Z
(k) = p
k
q
m+nk
n

=0
_
m
k
__
n

_
m k m+n p
Z
(k) = p
k
q
m+nk
n

=km
_
m
k
__
n

_
k > m+n p
Z
(k) = 0
Per terminare la dimostrazione dobbiamo vericare che, per ogni k 0, 1 . . . m + n
(ovvero in ognuno dei casi listati sopra dove la sommatoria non `e vuota), si ha
p
Z
(k) =
_
m+n
k
_
p
k
q
m+nk
Allo scopo `e utile ricordare linterpretazione di Polya dei coecienti binomiali. Facendo
riferimento alla gura qui sotto, il coeciente binomiale
_
n
k
_
`e il numero di cammini in
avanti che partono dal nodo (0, 0) e arrivano al nodo (n, k) sul reticolo. Ricordo che il
nodo (n, k) si trova al livello n-esimo del reticolo, in posizione k-esima. Il livello si conta
partendo da 0 alla radice, la posizione nel livello si conta partendo da 0 allestrema sinistra
(guardando il reticolo). Con questa scelta di coordinate, per andare da (0, 0) ad (n, k)
175
si devono fare n passi, di cui k verso destra (guardando la gura). Il numero totale di
cammini di questo tipo `e chiaramente
_
n
k
_
.
Con riferimento alla gura ogni cammino da (0, 0) ad (m+n, k) si pu`o fare in due tappe
(0, 0) (m, k ) (m+n, k). Il nodo (m, k ) della tappa intermedia pu`o essere uno
qualunque di quelli da cui `e possibile raggiungere il nodo nale (m + n, k). Riettendo
sulla gura `e facile convincersi che i possibili valori di dipendono da k esattamente
cone nellanalisi della convoluzione fatta sopra, ossia 0, 1 . . . k se 0 k n (caso
illustrato in gura con i pallini sul livello 4), mentre 0, 1 . . . n se n k m ed
inne k m, . . . n se m k m + n. Per ssato, applicando il principio di
moltiplicazione, il numero di cammini da (0, 0) a (m + n, k) con tappa in (m, k ) `e
_
m
k
_

_
n

_
. Il numero totale di cammini (0, 0) (m + n, k) si trova sommando rispetto
ad nellinsieme di valori appropriato (sono proprio le somme che si dovevano calcolare
per terminare la convoluzione!) e ovviamente dar`a sempre come risultato
_
m+n
k
_
.
t t t t
t
k = 3
m = 4
m+n = 7
Se siete arrivati no a qui vi meritate una ciliegina. Dopo lo sforzo erculeo del calcolo della
convoluzione a mani nude apprezzerete al meglio la potenza dei metodi di trasformazione.
Dimostrazione della proposizione con il metodo della funzione caratteristica. Ricordiamo
che la funzione caratteristica di una v.a. X Bin(m, p) `e
X
() =
_
1 p + pe
j
_
n
`
E
altres` noto che la funzione caratteristica della somma di variabili aleatorie indipendenti `e
il prodotto delle funzioni caratteristiche. Poiche X ed Y sono v.a. binomiali indipendenti
si trova

X+Y
() =
X
()
Y
()
=
_
1 p +pe
j
_
m
_
1 p +pe
j
_
n
=
_
1 p +pe
j
_
m+n
Si riconosce che la funzione caratteristica
X+Y
() coincide con quella di una densit`a
binomiale Bin(m+n, p). Poiche le funzioni caratteristiche caratterizzano le distribuzioni,
si conclude che X +Y Bin(m+n, p). La proposizione `e dimostrata.
176
27.2 Vettori aleatori (notazioni matriciali)
Nelle precedenti lezioni abbiamo iniziato lo studio dei vettori aleatori introducendo la
descrizione probabilistica completa nella forma di distribuzioni e densit`a n dimensionali.
Non abbiamo ancora introdotto i parametri riassuntivi del comportamento probabilistico
dei vettori aleatori. Questi ultimi sono pi` u naturalmente deniti usando le notazioni
vettoriali e matriciali dellalgebra lineare.
Parametri riassuntivi
Sia X := (X
1
, X
2
. . . x
n
)

R
n
un vettore aleatorio. Introdurremo qui i corrispondenti
vettoriali delle nozioni di valore atteso, secondo momento, varianza ecc.
Denizione (vettore della media).
`
E il vettore in R
n
m
X
:= E(X) :=
_
_
_
_
E(X
1
)
E(X
2
)
. . .
E(X
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di m
X
`e suciente conoscere le funzioni di densit`a
di tutte le variabili aleatorie X
i
. Questa informazione `e molto minore di quella contenuta
nella densit`a congiunta f
X
(x
1
, x
2
, . . . x
n
) ed infatti si pu`o ricavare, per marginalizzazione,
da questultima.
Denizione (matrice di correlazione).
`
E la matrice in R
nn
,
R
X
:= corr(X) := E
_
XX

_
=
_
_
_
_
E(X
2
1
) E(X
1
X
2
) . . . E(X
1
X
n
)
E(X
2
X
1
) E(X
2
2
) . . . E(X
2
X
n
)
. . . . . . . . . . . .
E(X
n
X
1
) E(X
n
X
2
) . . . E(X
2
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di R
X
`e suciente conoscere le funzioni di densit`a
congiunte di tutte le coppie di variabili aleatorie (X
i
, X
j
), per ogni i ,= j. Questa infor-
mazione `e molto minore di quella contenuta nella densit`a congiunta f
X
(x
1
, x
2
, . . . x
n
) ed
infatti si pu`o ricavare, per marginalizzazione, da questultima.
Lemma. R
X
`e simmetrica ed `e semidenita positiva
24
Dimostrazione. La simmetria `e ovvia. Per dimostrare che R
X
`e semidenita positiva
procediamo direttamente. Per a R
n
, valutiamo la forma quadratica di matrice R
X
a

R
X
a = a

E
_
XX

_
a
= E
_
a

XX

a
_
= E(w
2
) 0,
dove w := a

X `e una variabile aleatoria scalare, quindi E(w


2
) 0, e si conclude che
a

R
X
a 0 per ogni a R
n
.
24
Una matrice Q simmetrica `e detta semidenita positiva, e si denota Q 0, se la corrispondente forma
quadratica q(x) := x

Qx 0, per ogni x R
n
. Se q(x) > 0 per ogni x ,= 0 allora Q si dice denita
positiva e si denota Q > 0. Se Q `e denita positiva essa `e invertibile. Se Q 0, e per qualche x
0
R
n
la
forma si annulla, q(x
0
) := x

0
Qx
0
= 0, allora il determinante di Q `e nullo e quindi Q non `e invertibile.
177
Denizione (matrice di covarianza).
`
E la matrice in R
nn
,

X
:= cov(X) := E
_
(Xm
X
)(Xm
X
)

_
=
_
_
_
_
E(X
1
m
1
)
2
E(X
1
m
1
)(X
2
m
2
) . . . E(X
1
m
1
)(X
n
m
n
)
E(X
2
m
2
)(X
1
m
1
) E(X
2
m
2
)
2
. . . E(X
2
m
2
)(X
n
m
n
)
. . . . . . . . . . . .
E(X
n
m
n
)(X
1
m
1
) E(X
n
m
n
)(X
2
m
2
) . . . E(X
n
m
n
)
2
)
_
_
_
_
=
_
_
_
_
var(X
1
) cov(X
1
, X
2
) . . . cov(X
1
, X
n
)
cov(X
2
, X
1
) var(X
2
) . . . cov(X
2
, X
n
)
. . . . . . . . . . . .
cov(X
n
, X
1
) cov(X
n
, X
2
) . . . var(X
n
)
_
_
_
_
Osservazioni. (a.) Se le componenti del vettore X sono indipendenti la matrice
X
`e
diagonale. (b.) per calcolare
X
`e suciente conoscere le densit`a congiunte di tutte le
coppie (X
i
, X
j
), per ogni i ,= j. (c.) Poiche
X
= corr(Xm
X
) la matrice di covarianza
`e simmetrica e semidenita positiva come tutte le matrici di correlazione.
Lemma.

X
= R
X
m
X
m

X
.
Dimostrazione. Dalla denizione

X
= E
_
(Xm
X
)(Xm
X
)

_
= E
_
XX

m
X
X

Xm

X
+m
X
m

X
_
= E
_
XX

_
m
X
E
_
X

_
E
_
X
_
m

X
+m
X
m

X
= E
_
XX

_
m
X
m

X
= R
X
m
X
m

X
.
Questa formula `e lanaloga vettoriale della formula scalare var(X) = E(X
2
) (m
X
)
2
.
Trasformazioni lineari di vettori aleatori e parametri
Sia X R
n
un vettore aleatorio. La matrice A R
mn
ed il vettore b R
m
sono
deterministici ed assegnati. Deniamo il vettore aleatorio Y R
m
, trasformazione lineare
(meglio chiamarla ane quando b ,= 0)) del vettore aleatorio X, come
Y := AX +b
Parametri della trasformazione lineare
I parametri del vettore Y = AX +b si ricavano facilmente da quelli di X. In particolare
vettore della media
m
Y
= E(Y ) = E(AX +b) = AE(X) +b = Am
X
+b
matrice di covarianza

Y
= E
_
(Y m
Y
)(Y m
Y
)

_
= E
_
(AX +b Am
X
b)(AX +b Am
X
b)

_
= E
_
(A(X m
X
))(A(X m
X
))

_
= AE
_
(X m
X
)(X m
X
)

_
A

= A
X
A

178
matrice di correlazione
R
Y
=
Y
+m
Y
m

Y
= A
X
A

+ (Am
X
+b)(Am
X
+b)

Vettori bidimensionali
Il caso dei vettori bidimensionali (caso bivariato) serve ad illustrare, con poca fatica, alcuni
fenomeni interessanti che si possono vericare nel caso vettoriale.
Sia V = (X, Y )

un vettore aleatorio in R
2
. Vettore della media, matrice di corre-
lazione e matrice di varianza sono rispettivamente
m
V
=
_
E(X)
E(Y )
_
, R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
,
V
=
_
var(X) cov(XY ))
cov(XY ) var(Y )
_
.
Lemma (matrici simmetriche, semidenite positive).
Q =
_
a b
b c
_
0 se e solo se a 0, e det(Q) 0
Dimostrazione. Imponiamo che la forma quadratica q(v) = v

Qv dove v = (x, y)

sia
non-negativa.
q(x, y) =
_
x y
_
_
a b
b c
__
x
y
_
= a
2
x
2
+ 2b xy +c
2
y
2
0
`
E allora evidente che la condizione di non-negativit`a vale per ogni (x, y) R
2
se e solo se
a 0 ed il determinante del polinomio di secondo grado `e negativo, = 4b
2
4ac 0.
Semplicando e riordinando i termini la condizione necessaria e suciente `e che a 0 e
che ac b
2
= det(Q) 0.
Dalla precedente sezione sappiamo che R
V
e
V
sono semidenite positive. Il Lemma
appena dimostrato applicato a R
V
comporta:
E(X
2
)E(Y
2
)
_
E(XY )

2
,
ed applicato a
V
comporta:
var(X)var(Y )
_
cov(XY )

2
.
Osservazione. Queste sono entrambe disuguaglianze di Cauchy Schwarz: la prima lave-
vamo dimostrata, per via alternativa, nella Lezione xx, la seconda non lavevamo vista in
precedenza.
Lemma (covarianza ed esistenza della densit`a).
Se la matrice
V
non `e invertibile il vettore V non ammette densit`a.
Dimostrazione. Se la matrice
V
non `e invertibile il suo determinante `e nullo, ovvero
var(X)var(Y )
_
cov(XY )

2
= 0.
In questo caso lequazione
V
a = 0 ammette una soluzione a = (, )

,= (0, 0)

e quindi
a

V
a = 0. Esplicitamente lultima condizione si traduce in
0 = a

V
a
=
_

_
_
var(X) cov(XY )
cov(XY ) var(Y )
__

_
=
2
var(X) + 2cov(XY ) +
2
var(Y )
= E
_

2
(X m
X
)
2
+ 2(X m
X
)(Y m
Y
) +
2
(Y m
Y
)
2
_
= E
_
_
(X m
X
) +(Y m
Y
)

2
_
179
La condizione E
_
_
(X m
X
) +(Y m
Y
)

2
_
= 0 equivale a
(X m
X
) +(Y m
Y
) = 0
ovvero
X +Y = c
dove c = m
X
+m
Y
`e una costante.
La conclusione `e che, se
V
ha determinante nullo, esiste una relazione lineare tra le
componenti X ed Y di V . In questo caso il vettore V non `e assolutamente continuo, non
ammette cio`e densit`a, poiche tutta la massa di probabilit`a `e concentrata sullinsieme 1 :=
(x, y)

x +y = c R
2
, di area nulla (`e una retta). Nessuna funzione f
XY
(x, y) 0,
Riemann integrabile, soddisfa
__
1
f
XY
(x, y) dxdy = 1, che `e quanto richiesto ad una
funzione di densit`a.
180
Appendice alla Lezione 27
Funzione caratteristica multivariata
materiale non in programma a.a. 2012/13
Denizione. Sia X

= (X
1
, . . . X
n
)

un vettore aleatorio. La funzione caratteristica di X


`e la funzione
X
: R
n
C

X
() := E
_
e
j

X
_
= E
_
e
j

n
i=1

i
X
i
_
= E
_
n

i=1
e
j
i
X
i
_
La
X
() `e anche detta funzione caratteristica congiunta delle v.a. X
1
, X
2
, . . . X
n
. Nel
caso assolutamente continuo esiste la densit`a congiunta f
X
(x) ed `e
() :=
_
. . .
_
R
n
n

i=1
e
j
i
X
i
f
X
(x
1
, . . . , x
n
) dx
1
. . . dx
n
,
analoga formula vale nel caso discreto.
Commento. Nel caso assolutamente continuo la funzione caratteristica multivariata `e la
trasformata di Fourier multidimensionale della densit`a congiunta f
X
(x). La densit`a con-
giunta `e una funzione f
X
: R
n
R. Nei corsi avanzati di Segnali e Sistemi si studiano
segnali di questo tipo. Un semplice esempio `e il segnale deterministico g(x
1
, x
2
) che rapp-
resenta il livello di grigio di una fotograa in bianco e nero nel punto (x
1
, x
2
) del piano. La
trasformata di Fourier bidimensionale `e di largo uso nei problemi di analisi di immagini.
Propriet`a elementari della funzione caratteristica multivariata
(a.) Esistenza, normalizzazione, continuit`a
(scrivo per il caso bivariato per convenienza notazionale: nulla cambia nel caso multivari-
ato, n > 2)

X
(
1
,
2
) esiste per ogni (
1
,
2
) R
2
, infatti
[
X
(
1
,
2
)[ =

__
R
2
e
j(
1
x
1
+
2
x
2
)
f
X
(x
1
, x
2
) dx
1
dx
2

__
R
2

e
j(
1
x
1
+
2
x
2
)
f
X
(x
1
, x
2
)

dx
1
dx
2
=
__
R
2
f
X
(x
1
, x
2
) dx
1
dx
2
= 1.
Inoltre `e immediato vericare dalla denizione che
X
(0, 0) = 1. Combinando con la
disuguaglianza in (a.) questo mostra che la funzione caratteristica ha un massimo in
(
1
,
2
) = (0, 0).
(b.) Marginalizzazioni

X
(
1
, 0) =
X
1
(
1
),
X
(0,
2
) =
X
2
(
2
)
Immediato dalla denizione. Qualunque marginalizzazione relativa alle funzioni caratter-
istiche `e molto semplice. Ad esempio, sempre sulla base della denizione,

X
1
X
2
X
3
X
4
(
1
, 0, 0,
4
) = E
_
e
j(
1
X
1
+
2
X
2
+
3
X
3
+
4
X
4
)
_

(
2
,
3
)=(0,0)
= E
_
e
j(
1
X
1
+
4
X
4
)
_
=
X
1
X
4
(
1
,
4
) ecc.
181
(c.) Relazione con i momenti
Supponendo che le componenti X
1
, X
2
del vettore ammettano momenti la funzione carat-
teristica
X
(
1
,
2
) ammette le corrispondenti derivate parziali e valgono le relazioni
E(X
k
1
) =
1
j
k

(k)

(k)
1

X
(
1
, 0)

1
=0
E(X
k
2
) =
1
j
k

(k)

(k)
2

X
(0,
2
)

2
=0
E(X
1
X
2
) =
1
j
2

(2)

X
(
1
,
2
)

(
1
,
2
)=(0,0)
E(X
h
1
X
k
2
) =
1
j
h+k

(h+k)

h
1

k
2

X
(
1
,
2
)

(
1
,
2
)=(0,0)
Omessa la dimostrazione dellesistenza delle derivate parziali. Per ricavare le formule si
deriva parzialmente sotto il segno di integrale, cio`e si scambiano le operazioni di calcolo
delle derivate parziali e del valore atteso. Per esercizio scrivete qualcuna delle formule nel
caso di vettori ndimensionali.
Esercizio. Scrivere la matrice di correlazione R
V
del vettore bidimensionale V = (X, Y )

in termini di derivate della funzione caratteristica.


Soluzione. Per quanto appena enunciato
R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
=
_

2

2
1

X
(
1
, 0)

2

X
(
1
,
2
)

X
(
1
,
2
)

2

2
2

X
(0,
2
)
_

(
1
,
2
)=(0,0)
La matrice di correlazione R
V
`e lopposto della matrice Hessiana, calcolata nellorigine,
della funzione caratteristica.
(d.) Funzione caratteristica di trasformazioni lineari
Sia X R
n
un vettore aleatorio. La matrice A R
mn
ed il vettore b R
m
sono
deterministici ed assegnati. Deniamo il vettore aleatorio Y R
m
, trasformazione lineare
(ane se b ,= 0)) del vettore aleatorio X, come
Y := AX +b
La formula per la determinazione della funzione caratteristica di Y generalizza la cor-
rispondente formula del caso scalare.

Y
() := E
_
e
j

Y
_
= E
_
e
j

(AX+b)
_
= E
_
e
j

AX
_
e
j

b
=
X
(A

)e
j

b
Attenzione. In questa formula R
m
. Infatti largomento della funzione
Y
() `e
R
m
, poiche Y R
m
. Il dominio di
X
`e invece R
n
, in accordo con la dimensione di
X R
n
ed infatti nella formula compare
X
(A

) dove A

R
n
, poiche A

R
nm
.
(e.) Funzione caratteristica di vettori a componenti indipendenti
Lemma. Le v.a. X
1
, X
2
, . . . X
n
, componenti del vettore aleatorio X, sono indipendenti se
e solo se

X
() =
n

i=1

X
i
(
i
)
182
Dimostrazione. Se le componenti sono indipendenti allora la fattorizzazione vale per la
nota propriet`a del valore atteso:

X
() := E
_
e
j

n
i=1

i
X
i
_
= E
_
n

i=1
e
j
i
X
i
_
=
n

i=1
E
_
e
j
i
X
i
_
per lindipendenza
=
n

i=1

X
i
(
i
)
La dimostrazione dellaltra direzione `e omessa.
183
Lezione 28 (Marted` 14 maggio, ore 16:2518:05)
28.1 Vettori normali motivazione della denizione
Nel caso scalare la distribuzione di una v.a. X normale, X N(,
2
), `e completamente
specicata dal valore atteso e dalla varianza
2
ed ammette sempre densit`a, tranne che
nel caso degenere
2
= 0 corrispondente ad una v.a. X = costante. Anche in R
n
, come
vedremo, un vettore normale multivariato X `e completamente specicato dal vettore della
media E(X) e dalla matrice di covarianza cov(X). A dierenza di quanto accade in R
per`o, la densit`a non esiste sempre, ma se e solo se cov(X) `e invertibile.
25
Esistono quindi
vettori normali che non ammettono densit`a. Questo fatto crea qualche dicolt`a tecnica
al livello della denizione dei vettori normali, non potendosi in generale caratterizzare con
unassegnata funzione di densit`a congiunta.
Vi sono molti modi equivalenti per denire i vettori normali in R
n
. La procedura pi` u
semplice `e denire i vettori normali standard e poi considerare normali tutti i vettori che
si possono ottenere come trasformazioni lineari di vettori standard. Prima di entrare nei
dettagli tecnici illustriamo la procedura nel caso scalare, confrontandola con la denizione
che avevamo usato nella Lezione 18.
Variabili aleatorie normali: vecchia denizione - vedi Lezione 18
Denizione. Y N(,
2
) se
f
Y
(y) =
1

2
2
e

(x)
2

2
, y R
Variabili aleatorie normali: nuova denizione
Denizione 1. Z `e una v.a. normale standard, e scriveremo Z N(0, 1), se ha densit`a
f
Z
(z) := (z) =
1

2
e

z
2
2
, per ogni z R
Denizione 2. Y `e una v.a. normale se esiste una v.a. Z normale standard, e due numeri
a, b R tali che
Y = aZ +b.
Esercizio. Dimostrare che le due denizioni sono equivalenti.
Soluzione. Osserviamo inizialmente che la vecchia e la nuova denizione di Z N(0, 1)
coincidono. Sia Y `e una v.a. normale secondo la nuova denizione. Poiche Y = aZ + b
dove Z N(0, 1), per le note propriet`a (Lezione 18.3) Y N(b, a
2
) secondo la vecchia
denizione. Viceversa sia Y N(,
2
) secondo la vecchia denizione. Per le note pro-
priet`a (Lezione 18.3) la v.a. Z :=
Y

N(0, 1) e, invertendo questa relazione, Y si pu`o


rappresentare come Y = Z+, quindi Y `e una v.a. normale secondo la nuova denizione.
Osservazione. La rappresentazione di Y N(,
2
) come funzione lineare di una v.a.
Z N(0, 1) non `e unica. Infatti Y = Z + e Y = Z + sono rappresentazioni
diverse della v.a. Y N(,
2
).
Non `e un gioco di bussolotti come potrebbe sembrare: le due denizioni sono equiv-
alenti, ma lenorme vantaggio della nuova denizione `e che essa non richiede di introdurre
la densit`a di Y . Questo fatto torner`a comodo nel caso vettoriale dove la densit`a non
sempre esiste.
25
Si veda il paragrafo sui vettori bidimensionali, alla ne della Lezione 27, per una discussione di questa
condizione.
184
2. Vettori normali
Denizione vettore normale standard in R
n
. Il vettore aleatorio Z R
n
`e normale
standard se le sue componenti Z
i

n
i=1
sono v.a. i.i.d. N(0, 1).
`
E immediato ricavare funzione di densit`a, funzione caratteristica, vettore della media e
matrice di covarianza di un vettore normale standard in R
n
.
Poiche le v.a. Z
i
sono i.i.d. la funzione di densit`a congiunta `e il prodotto delle n densit`a
identiche N(0, 1),
f
Z
(z
1
, . . . , z
n
) =
n

i=1
1

2
e

1
2
z
2
i
=
1
_
(2)
n
e

1
2
[[z[[
2
. (1)
La funzione caratteristica di Z, anchessa ottenuta come prodotto di n funzioni caratter-
istiche N(0, 1), `e

Z
() = e

1
2
[[[[
2
.
Il vettore della media di Z `e
E[Z] = 0,
poiche E(Z
i
) = 0 per ogni i = 1, 2, . . . n.
La matrice di covarianza di Z `e
cov(Z) = I
n
,
dove I
n
denota la matrice identit`a in R
n
. Infatti cov(Z
i
, Z
j
) = 0 per ogni i ,= j poiche le
v.a. Z
i
sono indipendenti, mentre cov(Z
i
, Z
i
) = var(Z
i
) = 1 per ogni i poiche le Z
i
hanno
tutte varianza 1.
Esempio. La gura qui sotto mostra la densit`a del vettore normale standard in R
2
.
Chiamando Z = (Z
1
, Z
2
)

= (X, Y )

, la densit`a `e
f
Z
(x, y) =
1
2
e

1
2
(x
2
+y
2
)
, (x, y) R
2
.
La densit`a `e massima in (0, 0), dove vale
1
2
.
Diremo normale ogni vettore Y R
n
ottenuto come trasformazione lineare (ane per
dirla meglio) di un vettore normale standard Z R
k
. Si noti che k ed n possono essere
diversi, sono cio`e permesse trasformazioni lineari tra spazi di dimensione diversa. Qui
sotto la denizione formale.
Denizione vettore normale in R
n
. Il vettore aleatorio Y R
n
`e normale se esistono: un
naturale k N, una matrice A R
nk
, un vettore R
n
ed un vettore normale standard
Z N(0, I
k
) tale che
Y = AZ +
Media e covarianza di vettori normali. Poiche Y = AZ + per qualche A, ,
E(Y) = E(AZ +) = AE(Z) + = ,
cov(Y) = E((Y)(Y)

) = E(AZZ

) = AI
n
A

= AA

.
Si noti che, qualunque sia A R
nk
, la matrice AA

0, come atteso trattandosi di una


matrice di covarianza. Per denotare la matrice di covarianza introduciamo il simbolo
:= cov(Y) = AA

.
185
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
4
3
Z
X
Y
2
1
4
0 3
2
-1
1
0
-2
-1
-2 -3
-3
-4
-4
Figura 1: Densit`a normale standard in R
2
Funzione caratteristica di un vettore normale. Poiche Y = AZ+ per qualche A, , e per
le propriet`a della funzione caratteristica multivariata (ne della Lezione 27),

Y
() = E
_
e
j

Y
_
=
Z
(A

) e
j

= e
j

1
2

.
Osservazione 1. La funzione caratteristica del vettore normale Y `e completamente speci-
cata dal vettore della media e dalla matrice A, ma solo attraverso la matrice di covarianza
= AA

. Questa propriet`a riette quella analoga delle v.a. normali, la cui distribuzione
`e completamente specicata da media e varianza. Per questo motivo ha senso estendere
ai vettori normali la notazione Y N(, ), per indicare un vettore di media e matrice
di covarianza . Ad esempio, denotando con I
k
la matrice identit`a di dimensione k, il
vettore normale standard in R
k
si denota Z N(0, I
k
).
Osservazione 2. Nel caso scalare sappiamo che, per ogni coppia (,
2
) RR
+
esistono
v.a. normali Y N(,
2
). Lo stesso accade nel caso vettoriale, vale infatti il seguente
Lemma.
Lemma. Per ogni coppia (, ), dove R
n
`e qualunque, e R
nn
`e tale che
=

0, esistono vettori normali Y N(, ).


La dimostrazione del Lemma richiede il seguente risultato di algebra lineare che pu`o essere
preso a scatola chiusa (chi lo desidera veda lAppendice I alla Lezione).
Ogni matrice R
nn
, tale che =

0, si pu`o fattorizzare, in modo non unico,


nella forma = AA

, dove A R
nk
e k `e un qualunque naturale tale che k rank().
Dimostrazione del Lemma. Fissato k rank() si fattorizzi = AA

con A R
nk
. Il
vettore normale cercato `e Y := AZ +, dove Z N(0, I
k
).
Commento. Mentre nel caso scalare Y N(,
2
) ha due rappresentazioni Y = Z +,
nel caso multivariato Y N(, ) ammette innite rapresentazioni Y = AZ + , che
corrispondono alle innite possibili fattorizzazioni = AA

.
186
Densit`a dei vettori normali
Veniamo ora al problema della determinazione della densit`a dei vettori normali. La con-
dizione di esistenza della densit`a `e molto semplice: un vettore normale ammette funzione
di densit`a se e solo se la matrice di covarianza `e invertibile.
Teorema. Sia Y R
n
un vettore normale Y N(, ) con invertibile, allora Y ammette
densit`a che ha espressione
f
Y
(y) =
1
_
(2)
n
det()
exp
1
2
(y )

1
(y ), y R
n
(2)
Dimostrazione euristica (si veda lAppendice II per limpostazione della dimostrazione
rigorosa). Nella Lezione 20.2 (Esempio 1) abbiamo dimostrato che, se
Y = g(Z) = aZ +b,
allora
f
Y
(y) =
1
[a[
f
Z
_
g
(1)
(y)
_
=
1
[a[
f
Z
_
y b
a
_
. (3)
Per Y N(, ) in R
n
si costruisca una qualunque fattorizzazione = AA

con A
R
nk
si pu`o allora scrivere
Y = g(Z) = AZ + (4)
dove Z N(0, I
k
). Per calcolare la densit`a f
Y
ci ispiriamo alla formula (3). Anche sia
soddisfatta la condizione necessaria di invertibilit`a di g(z) = Az+ bisogna che sia n = k
ed inoltre A R
nn
deve essere invertibile. Ci`o equivale a = AA

invertibile. In questo
caso la funzione inversa esiste e vale
z = g
1
(y) = A
1
(y ),
Applichiamo allora la formula (3), con laccortezza di sostituire [a[ con det(A) trovandoci
nel caso vettoriale. Ricordando la densit`a del vettore normale standard (1), si trova
f
Y
(y) = [det(A
1
)[ f
Z
_
A
1
(y )
_
= [det(A
1
)[
1
_
(2)
n
exp
1
2
[[A
1
(y )[[
2
(5)
Lespressione della densit`a si semplica osservando quanto segue:
(a.) [[A
1
(y )[[
2
= (y )

(A
1
)

A
1
(y )
(b.) (A
1
)

A
1
= (AA

)
1
=
1
facendo uso del fatto che (A
1
)

= (A

)
1
(c.) [det(A
1
)[ = 1/
_
det() che si ricava applicando le note regole: det(A) = det(A

),
det(A
1
) = 1/det(A) e det(AB) = det(A)det(B).
Sostituendo tutto nella (5) si ottiene la formula della densit`a (2).
In pratica. Come ci aspettavamo la densit`a dipende solo da e da (vedi commenti sulla
funzione caratteristica), ma non direttamente da A. Quindi se Y N(, ) ha matrice di
covarianza > 0, la densit`a (2) si pu`o scrivere immediatamente senza bisogno di ricavare
preliminarmente una matrice A che fattorizzi = AA

.
Nota bene. Nelle trattazioni elementari un vettore aleatorio Y di valore atteso E(Y) = e
matrice di covarianza cov(Y ) = si denisce normale se > 0 ed Y ha densit`a (2). Cos`
facendo si opera come si era fatto nella Lezione 18 anche nel caso vettoriale, specicando
direttamente la densit`a ed eliminando tutte le dicolt`a. Il prezzo che si paga `e la perdita
di tutti i vettori normali con matrice di covarianza non invertibile. Si tratta di una
pessima soluzione, forse accettabile per i corsi di Probabilit`a per la Sociologia.
187
Commento. Si noti lanalogia tra le formule di passaggio da v.a. N(0, 1) a v.a. N(,
2
)
e viceversa:
Z =
1

(Y ) da N(,
2
) a N(0, 1)
Y = Z + da N(0, 1) a N(,
2
)
e le corrispondenti multivariate (valide solo per = AA

> 0)
Z = A
1
(Y) da N(, ) a N(0, I
n
)
Y = AZ + da N(0, I
n
) a N(, ).
Sono le stesse formule del caso univariato, con la matrice A nel ruolo di radice quadrata
di : in eetti A soddisfa alla AA

= , che `e lanalogo per matrici simmetriche della


radice quadrata.
Trasformazioni lineari dei vettori aleatori normali
Lemma. Se Y N(, ) e W := BY +, dove B R
mn
e R
m
, allora
W N(B +, BB

)
Dimostrazione. Sia A un qualunque fattore di , allora Y = AZ + quindi,
W := BY +
= B(AZ +) +
= BAZ +B +
Poiche W si pu`o esprimere come trasformazione lineare di un vettore normale standard,
esso `e un vettore normale per denizione. Il calcolo del valore atteso e della matrice di
covarianza sono immediati. Ovviamente il risultato `e indipendente dal fattore A di che
era stato scelto.
Conseguenza importante. Le componenti di un vettore normale sono v.a. normali, in
particolare, se Y N(, ), allora Y
i
N(
i
,
ii
)
Dimostrazione. Si applica il Lemma precedente alle n trasformazioni lineari che corrispon-
dono a scegliere B = e

i
, dove e
i
= (0, . . . 1, . . . 0) `e li-esimo vettore della base canonica
di R
n
. Allora si trova
Y
i
= e

i
Y
con E(Y
i
) = e

i
=
i
. La matrice di covarianza del vettore unidimensionale Y
i
coincide
con la varianza della v.a. Y
i
e vale var(Y
i
) = e

i
e
i
=
ii
.
Indipendenza e scorrelazione delle componenti di vettori normali
`
E notevole la seguente propriet`a dei vettori normali.
Lemma. Le componenti di Y N(, ) sono indipendenti se e solo se sono scorrelate, o
equivalentemente se e solo se la matrice di covarianza `e diagonale.
Dimostrazione. La dimostrazione pi` u diretta, e valida in generale anche per vettori normali
che non ammettono densit`a, `e basata sulla funzione caratteristica
26

Y
() = e
j

.
26
Si veda qui sotto la dimostrazione limitata al caso di vettori normali che ammettono densit` a, che non
richiede luso della funzione caratteristica multivariata
188
Se le componenti di Y sono scorrelate allora E((Y
i

i
)(Y
j

j
)) =
ij
= 0 per ogni i ,= j,
ovvero `e una matrice diagonale. Sostituendo nellespressione della funzione caratteristica
una matrice diagonale si verica immediatamente la condizione di fattorizzazione, infatti

Y
() = e
j

1
2

= e
j

n
i=1

1
2

n
i=1
(
ii
)
2
i
=
n

i=1
e
j
i

1
2
(
ii
)
2
i
=
n

i=1

Y
i
(
i
),
e quindi le componenti sono indipendenti. Laltra direzione `e una propriet`a ben nota: v.a.
indipendenti sono sempre scorrelate.
Dimostrazione limitata ai vettori che amettono densit` a. Se le componenti di Y sono
scorrelate allora E((Y
i

i
)(Y
j

j
)) =
ij
= 0 per ogni i ,= j, ovvero `e una matrice
diagonale. Sostituendo nellespressione della densit`a (2) si ha
f
Y
(y) =
1
_
(2)
n
det()
exp
1
2
(y )

1
(y )
=
n

k=1
1

2
ii
exp
1
2
(y
i

i
)
2

ii
che si riconosce essere il prodotto delle n densit`a normali scalari, N(
i
,
ii
), per i = 1, . . . n.
Si conclude che le componenti Y
i
sono indipendenti. Per laltra direzione, come noto,
variabili aleatorie indipendenti sono scorrelate.
Attenzione: Bisogna stare molto attenti a come si enuncia la precedente propriet`a. Spesso
si sente, o addirittura si trova scritta, la seguente aermazione: v.a. normali scorrelate
sono indipendenti. Non `e cos`! Quello che `e vero `e che se le componenti di un vettore
normale sono scorrelate allora sono indipendenti. La radice della confusione sta nel ritenere
che un pacco di n v.a. normali scorrelate, impilate una sullaltra, formino automaticamente
un vettore normale. Ci`o `e falso.
Controesempio. (
`
E solo uno dei tanti che si possono costruire allo scopo). Sia X N(0, 1)
e Z 1, 1 una v.a. discreta con P(Z = 1) = P(Z = 1) =
1
2
ed indipendente da
X. Deniamo la v.a. Y = ZX.
`
E facile vericare che Y `e una v.a. N(0, 1),infatti la sua
funzione caratteristica vale

Y
() = E
_
e
jY
_
= E
_
E
_
e
jZX
[Z
__
= E
_
e
jX
_
P(Z = 1) +E
_
e
jX
_
P(Z = 1)
= ()
1
2
+()
1
2
= ().
dove abbiamo indicato con () = e

1
2

2
la funzione caratteristica della N(0, 1) e, nellul-
timo passaggio, sfruttato il fatto che () `e una funzione pari. Poich`e la funzione carat-
teristica
Y
() = () si conclude che Y `e una v.a. N(0, 1).
`
E facile vericare che X ed
Y sono scorrelate, infatti esse sono entrambe a valor medio nullo e E(XY ) = E(ZX
2
) =
E(E(ZX
2
[Z)) = E(X
2
)P(Z = 1) + E(X
2
)P(Z = 1) = 0. Peraltro `e ovvio che X ed
Y non sono indipendenti essendo Y = ZX una funzione anche di X. Come mai questa
coppia di v.a. normali scorrelate non `e indipendente? La risposta `e semplice: il vettore
W = (X, Y )

non `e un vettore normale. Infatti se lo fosse tutte le funzioni lineari di W


sarebbero a loro volta v.a. normali. Si consideri la funzione lineare (1, 1)(X, Y )

= X+Y ,
`e facile calcolare P(X + Y = 0) = P((1 + Z)X = 0) = P(Z = 1) =
1
2
. Chiaramente
X + Y non pu`o essere una v.a. normale, poiche le v.a. normali sono continue ed hanno
probabilit`a nulla di assumere uno specico valore reale. Ci`o dimostra che W non `e un
vettore normale.
189
Appendici alla Lezione 28
Complementi sui vettori normali
materiale non in programma a.a. 2012/13
Appendice I. Fattorizzazione delle matrici semidenite positive
Ogni =

R
nn
, semidenita positiva, ha tutti gli autovalori reali e i suoi autovet-
tori possono essere scelti a formare una base ortonormale di R
n
. Formando la matrice
ortogonale U che ha per colonne gli autovettori ortonormali di si pu`o allora scrivere
= UU

, dove `e la matrice diagonale degli autovalori di . Se `e semidenita pos-


itiva allora una decomposizione del tipo = AA

, con A R
nn
, si ottiene prendendo
A = U
1
2
(in generale questo non sarebbe possibile se ci fossero autovalori negativi!). La
non unicit`a di A `e evidente poich`e anche

A = AQ, con Q

Q = QQ

= I una arbitraria
matrice ortogonale, produce una fattorizzazione valida = AA

=

A

. Con un piccolo
sforzo extra si pu`o costruire una fattorizzazione del tipo = AA

, con A R
nk
dove k
`e un qualunque intero che soddisfa la condizione k rango().
Appendice II. Funzione di densit`a dei vettori normali
(A.) Richiamo sulla formula per il cambio di variabili negli integrali multipli.
Sia B R
n
e g : B R
n
invertibile, dierenziabile con derivate continue e Jacobiano
non nullo per ogni x B, allora
_
g(B)
f(x) dx =
_
B
f(g(u))

g(u)
u

du
dove

g(u)
u

`e il modulo del (determinante) Jacobiano della trasformazione g.


Esempio familiare. Nel caso n = 2, sia x := (x, y), u := (, ) e la trasformazione
g :=
_
g
1
(, )
g
2
(, )
_
=
_
cos
sin
_
,
allora

g(u)
u

det
_
cos sin
sin cos
_

=
e la formula per il cambio di variabili corrispondente `e
__
g(B)
f(x, y) dxdy =
__
B
f( cos , sin ) dd
(B.) Calcolo della densit`a di Y = g(X).
Sia X un vettore aleatorio di densit`a nota f
X
(x). Si consideri il vettore Y = g(X), dove
g : R
n
R
n
ed invertibile. Il vettore Y `e funzione del vettore X e, in analogia a quanto
fatto nel caso scalare, ci proponiamo di calcolare la densit`a f
Y
(y) a partire dalla densit`a
nota f
X
(x).
Per ogni B B(R
n
)
P(Y B) =
__
B
f
Y
(y) dy dove f
Y
`e la densit`a da determinare
= P(g(X) B) = P(X g
1
(B))
=
__
g
1
(B)
f
X
(x) dx
=
__
B
f
X
(g
1
(y))

g
1
(y)
y

dy formula del cambio di variabili per g


1
190
Confrontando la prima e lultima espressione di P(Y B), poiche B `e arbitrario, si
conclude che
f
Y
(y) = f
X
(g
1
(y))

g
1
(y)
y

(6)
(C.) Applicazione ai vettori normali.
Si consideri il vettore normale Y N(, ) in R
n
. Costruita una qualunque fattorizzazione
= AA

con A R
nk
si pu`o allora scrivere
Y = g(Z) = AZ + (7)
dove Z N(0, I
k
) `e una normale standard la cui densit`a f
Z
`e data dalla 1. Calcoliamo la
densit`a f
Y
con la formula 6. Anch`e sia soddisfatta la condizione necessaria di invertibilit`a
di g(z) = Az + bisogna che sia n = k ed inoltre A R
nn
invertibile. Ci`o equivale a
= AA

invertibile. In questo caso la funzione inversa `e


z = g
1
(y) = A
1
(y ),
il cui (determinante) Jacobiano `e [det(A
1
)[.
Applicando la formula (6) e ricordando la densit`a del vettore normale standard (1), si
trova
f
Y
(y) = [det(A
1
)[ f
Z
_
A
1
(y )
_
(8)
da qui si procede come nel testo della Lezione per determinare la densit`a.
(D.) Interpretazione geometrica dellesistenza della densit`a di un vettore normale.
`
E noto dallalgebra lineare (e facile da dimostrare) che un sottoinsieme di vettori v
1
, . . . v
n
in uno spazio a prodotto interno `e linearmente indipendente se e solo se la matrice
Gramiana corrispondente `e denita positiva
G(v
1
, . . . v
n
) :=
_
_
_
_
v
1
, v
1
v
1
, v
2
. . . v
1
, v
n

v
2
, v
1
v
2
, v
2
. . . v
2
, v
n

. . . . . . . . .
v
n
, v
1
v
n
, v
2
. . . v
n
, v
n

_
_
_
_
> 0.
Consideriamo ora nello spazio o delle v.a. a secondo momento nito il sottospazio generato
dalle componenti di un vettore normale Y N(0, ). Il gramiano delle componenti di Y
rispetto al prodotto interno precentemente introdotto `e
G(Y
1
, . . . Y
n
) :=
_
_
_
_
E(Y
1
Y
1
) E(Y
1
Y
2
) . . . E(Y
1
Y
n
)
E(Y
2
Y
1
) E(Y
2
Y
2
) . . . E(Y
2
Y
n
)
. . . . . . . . .
E(Y
n
Y
1
) E(Y
n
Y
2
) . . . E(Y
n
Y
n
)
_
_
_
_
= cov(Y ) = .
La conclusione `e che Y N(0, ) ammette densit`a se e solo se le sue componenti sono un
insieme linearmente indipendente dello spazio o.
Appendice III. Normale bivariata
Questo `e solo il caso particolare dei vettori normali a valori in R
2
. Non c`e nulla di nuovo,
ma ovviamente il caso n = 2 consente di fare qualche graco. Consideriamo un vettore
191
normale W (, ) in R
2
. La media

= (
X
,
Y
)

R
2
`e un vettore arbitrario,
mentre la covarianza
=
_

2
X

XY

XY

2
Y
_
`e unarbitraria matrice semidenita positiva. Come visto in precedenza la covarianza si
pu`o scrivere alternativamente come

XY
= cov(XY ) =
X

Y
dove
:=
cov(XY )
_
var(X)var(Y )
=

XY
_

2
X

2
Y
`e il coeciente di correlazione tra X ed Y che, per la disuguaglianza di Cauchy-Schwarz,
soddisfa
[[ 1
La matrice si pu`o parametrizzare in termini di
2
X
,
2
Y
e , assumendo la forma
=
_

2
X

X

Y

2
Y
_
.
La condizione per lesistenza della densit`a `e che sia denita positiva e di conseguenza
invertibile. Poich`e in generale 0 e poich`e assumiamo implicitamente che
2
X
e
2
Y
siano entrambe strettamente positive, altrimenti le v.a. X e/o Y sarebbero degeneri,
lunica condizione da imporre `e che il determinante di sia strettamente positivo.
[[ := det() = (1
2
)
2
X

2
Y
> 0 [[ < 1
Consideriamo dapprima il caso in cui la densit`a esiste, [[ < 1 e specializziamo la formu-
la (2) al presente caso. Linversa della covarianza `e

1
=
1
[[
_

2
Y

X

Y

2
X
_
=
1
1
2
_
1

2
X

Y
1

2
Y
_
Per rendere compatta la formula della densit`a deniamo la forma quadratica
q(x
X
, y
Y
) :=
_
x
X
, y
Y
_
_
1

2
X

Y
1

2
Y
_
_
x
X
y
Y
_
allora la formula (2) fornisce
f
W
(x, y) =
1
2
_
1
2

Y
exp
1
2(1
2
)
q(x
X
, y
Y
).
Espandendo la forma quadratica si trova
q(x
x
, y
Y
) =
(x
X
)
2

2
X
2

Y
(x
X
)(y
Y
) +
(y
Y
)
2

2
Y
Le curve di livello della densit`a f
W
(x, y) sono i luoghi geometrici deniti dallequazione
q(x
x
, y
Y
) = c al variare della costante c, ma lequazione
(x
X
)
2

2
X
2

Y
(x
X
)(y
Y
) +
(y
Y
)
2

2
Y
= c
192
`e quella di una conica nel piano (x, y) e poich`e per [[ < 1 il determinante (o invariante
quadratico o in qualunque modo lo abbiate chiamato nel corso di Geometria)
=
1

2
X
1

2
Y

Y
_
2
=
1
2

2
X

2
Y
> 0
`e strettamente positivo, si conclude che le curve di livello sono ellissi di centro (
X
,
Y
).
(gura)
to do: Correlazione e varianza della somma Riprendere il discorso sulla varianza della
somma - calcolo della correlazione ecc.....
193
Lezione 29 (Mercoled` 15 maggio, ore 16:2518:10)
29.1 Convergenza in distribuzione Motivazione
Una variabile aleatoria `e il naturale modello probabilistico di un esperimento consistente
in una singola misura incerta di una grandezza sica scalare. Se lesperimento consiste in
una singola misura di una grandezza sica vettoriale il modello probabilistico naturale `e
il vettore aleatorio. Nella pratica ingegneristica i dati incerti sono tipicamente segnali di
ingresso e/o di uscita di sistemi dinamici e dunque consistono di sequenze di misure, scalari
o vettoriali a seconda del contesto. In questi casi il modello probabilistico naturale `e una
sequenza di variabili aleatorie, se i segnali sono grandezze siche scalari, o una sequenza
di vettori aleatori se i segnali sono grandezze siche vettoriali.
In questa lezione, e nelle due seguenti, considereremo le sequenze di variabili aleatorie
X
n

n=1
, limitandoci per ora a denire alcune utili nozioni di convergenza. Una sequenza
di variabili aleatorie X
n

n=1
`e in realt`a una sequenza di funzioni X
n
: R. Come
noto dai corsi di Analisi Matematica e di Segnali e Sistemi, i modi di convergenza delle
sequenze di funzioni sono molti e non equivalenti: puntuale, uniforme, in L
1
, in L
2
, ecc. Per
le sequenze di variabili aleatorie `e inoltre possibile introdurre due modi di convergenza,
in distribuzione e in probabilit`a, direttamente legati al comportamento asintotico della
probabilit`a di certi eventi.
In questa lezione trattiamo la forma pi` u debole di convergenza per sequenze di variabili
aleatorie, la convergenza in distribuzione. Prima di entrare nei dettagli formali, cerchiamo
di illustrare con un esempio questo modo di convergenza.
Richiamo. Se U |([0, 1]), la funzione di densit`a `e costante nellintervallo [0, 1]) ovvero
f
U
(x) = 1l
[0,1]
(x),
a cui corrisponde la funzione di distribuzione (banale, a parte la notazione)
F
U
(x) = x1l
[0,1]
(x) + 1l(x 1)
Esempio. Sia X
n

n1
una sequenza di v.a. indipendenti, identicamente distribuite, X
n

|([0, 1]) per ogni n 1. Deniamo la sequenza di variabili aleatorie
M
n
:= max(X
1
, X
2
, . . . X
n
), n N
Vogliamo studiare il comportamento asintotico della sequenza M
n

n1
. Si noti che le
variabili M
n
non sono indipendenti, infatti M
n+1
= maxM
n
, X
n+1
, e dunque M
n+1
`e
funzione di M
n
(a.) Intuizione.
Ci aspettiamo che, per n la sequenza M
n
converga ad una variabile aleatoria limitata
da 1. Infatti tutte le variabili aleatorie X
i
hanno valori in [0, 1], quindi M
n
1 per ogni
n, inoltre M
n
`e non-decrescente in n.
(b.) Primo anamento parametri riassuntivi di M
n
.
Per calcolare media e varianza delle M
n
ne determiniamo la densit`a. Cominciamo con il
ricavare la FdD (banale: fate separatamente i casi (, 0], [0, 1], [1, ))
F
M
n
(x) = P(M
n
x) = P(max(X
1
, X
2
, . . . X
n
) x)
= P(X
1
x, X
2
x, . . . X
n
x) =
n

k=1
P(X
k
x)
=
_
F
U
(x)
_
n
= x
n
1l
[0,1]
(x) + 1l(x 1) (1)
194
La densit`a f
M
n
si calcola derivando la funzione di distribuzione F
M
n
(x)
f
M
n
(x) = nx
n1
1l
[0,1]
(x)
I parametri riassuntivi di M
n
si calcolano agevolmente.
E(M
n
) =
_
1
0
xf
M
n
(x) dx =
_
1
0
x nx
n1
dx =
n
n + 1
E(M
2
n
) =
_
1
0
x
2
f
M
n
(x) dx =
_
1
0
x
2
nx
n1
dx =
n
n + 2
var(M
n
) = E(M
2
n
)
_
E(M
n
)
_
2
=
n
n
3
+ 4n
2
+ 5n + 2
= O
_
1
n
2
_
Per n il valore atteso di M
n
tende ad 1 e la varianza a 0. Questa `e unindicazione
ancora abbastanza vaga, ma pi` u precisa della prima intuizione: per n le variabili
aleatorie M
n
si concentrano intorno alla costante 1.
(c.) Secondo anamento comportamento limite della FdD di M
n
.
A partire dallespressione esatta (1) si trova
lim
n
F
M
n
(x) =
_
0, x < 1,
1, x 1.
Si riconosce che lim
n
F
M
n
(x) = 1l(x 1). Le funzioni di distribuzione F
M
n
tendono,
per ogni x R, alla funzione di distribuzione della variabile aleatoria degenere (costante)
1.
Questo `e gi`a un senso pi` u preciso in cui si pu`o ritenere che M
n
1
`
E possibile approfondire lanalisi di questo esempio, che verr`a ripreso nella Lezione 31.
Procediamo ora alla denizione formale della convergenza in distribuzione.
195
29.2 Convergenza in distribuzione
Denizione. Una sequenza di v.a. X
n

n1
non necessariamente indipendenti, di funzioni
di distribuzione F
n
(x), converge in distribuzione se esiste una funzione di distribuzione
F(x) tale che
lim
n
F
n
(x) = F(x), per ogni x dove F(x) `e continua.
In questo caso scriveremo
X
n
T
F(x)
Attenzione. Bisogna leggere con attenzione questa denizione. Non basta che le F
n
(x)
convergano ad una certa funzione F(x) per ogni x dove F(x) `e continua. Bisogna che
F(x) sia una funzione di distribuzione.
Vediamo immediatamente due esempi che chiariscono perche `e necessario imporre che F(x)
sia una distribuzione e perche bisogna concedere alle F
n
(x) la possibilit`a di non convergere
nei punti di discontinuit`a di F(x).
Esempio 1. Anch`e la nozione di convergenza appena introdotta serva a qualcosa bisogna
che, almeno in casi banali, si comporti come ci si aspetta. La sequenza numerica
X
n
= 1 +
1
n
.
converge ad 1, e poiche X
n

n1
`e anche una sequenza di v.a. degeneri. Anche la nozione
di convergenza in distribuzione appena introdotta sia di una qualche utilit`a bisogna che
le variabili aleatorie X
n
di queso esempio convergano in distribuzione alla costante 1. Se
ci`o non si dovesse vericare la nozione di convergenza in distribuzione sarebbe di dubbia
utilit`a.
Le distribuzioni F
n
(x) sono
F
n
(x) =
_
_
_
0, x < 1 +
1
n
,
1, x 1 +
1
n
.
e calcolando il limite si trova
G(x) := lim
n
F
n
(x) =
_
0, x1,
1, x>1.
La G(x) non `e una funzione di distribuzione, non essendo continua a destra. Esiste per`o
una funzione di distribuzione:
F(x) :=
_
0, x<1,
1, x1.
_
= 1l(x 1).
tale che
lim
n
F
n
(x) = F(x), per ogni x punto di continuit`a di F(x)
Infatti F
n
(x) F(x) su tutta R, tranne nel punto x = 1 dove F(x) ha lunica disconti-
nuit`a. Si conclude che X
n
T
F(x).
Alla luce di questesempio si capisce perche, nella denizione di convergenza in distribuzione,
si deve tollerare che la sequenza F
n
(x) possa non convergere nei punti di discontinuit`a
di F(x). Se non si facesse cos` nemmeno la banalissima sequenza X
n
dellEsempio 1
convergerebbe in distribuzione.
196
Esempio 2. Si consideri la sequenza X
n
dove X
n
N(0, n). Detta come di consueto
(z) la funzione di distribuzione di una v.a. Z N(0, 1), standardizzando le X
n
si ha
F
n
(x) = P(X
n
x) = P
_
X
n

n
_
=
_
x

n
_
Poiche (0) =
1
2
, abbiamo che, per ogni x R ssato,
lim
n
F
n
(x) = lim
n

_
x

n
_
=
1
2
.
Ma non basta che la sequenza di distribuzioni F
n
(x) converga per ogni x R. Bisogna
che la funzione limite sia una distribuzione. Chiaramente la costante pari ad 1/2 non `e
una funzione di distribuzione. (aggiungere graco in futura revisione). Si conclude che la
sequenza X
n
non converge in distribuzione.
Esempio 3. Lesempio del paragrafo 1 relativo alla sequenza di v.a. M
n
. Con la notazione
appena introdotta possiamo scrivere che M
n
T
1l(x 1).
Esempio 4. Lesempio del paragrafo 1 relativo alla sequenza di v.a. n(1 M
n
). Con la
notazione appena introdotta possiamo scrivere che n(1 M
n
)
T
Exp(1).
Esempio 5. Si consideri la sequenza di v.a. X
n
di alfabeto A
n
=
_
1
n
,
2
n
,
3
n
, . . .
n
n
_
e densit`a
di probabilit`a uniforme p
X
n
_
k
n
_
=
1
n
, per k = 1, 2, . . . n. Abbiamo visto a Lezione che la
sequenza X
n
T
U([0, 1]).
Convergenza in distribuzione e funzioni caratteristiche
Teorema di continuit`a (Paul Levy). Sia X
n
una sequenza di v.a. di funzioni caratteris-
tiche
n
(). Si supponga che
lim
n
() = (), per ogni x R,
per qualche funzione (), allora sono equivalenti le seguenti proposizioni
(a.) () `e continua nellorigine.
(b.) () `e una funzione caratteristica.
(c.) X
n
T
F(x), per qualche F(x) la cui funzione caratteristica `e (t).
Esempio 6. Sia X
n
una sequenza di v.a. di distribuzioni Bin
_
n,

n
_
. Allora
X
n
T
T().
Dimostrazione. Abbiamo in precedenza calcolato la funzione caratteristica di una v.a.
binomiale.

n
() =
_
1

n
+

n
e
j
_
n
calcolando il limite si trova
lim
n

n
() = lim
n
_
1

n
+

n
e
j
_
n
= e
(e
jt
1)
si riconosce che il membro destro `e la funzione caratteristica della distribuzione di Poisson
T(). Per il teorema di continuit`a si conclude che X
n
converge in distribuzione a T().
Un risultato che conoscevamo gi`a ma che ora abbiamo ottenuto in modo pulito, rigoroso,
197
praticamente senza fare nessun calcolo. Ma c`e dietro la grande macchina del teorema di
continuit`a.
Esercizio proposto. Riconsiderare gli Esempi da 1. a 5. del paragrafo precedente usando
il teorema di Levy.
Osservazione.
`
E interessante osservare la variet`a di comportamenti possibili nella con-
vergenza in distribuzione. Nellesempio 3. una sequenza di FdD continue converge ad
una FdD discreta, nellesempio 4. una sequenza di FdD continue converge ad una FdD
continua, nellesempio 5. una sequenza di FdD discrete converge ad una FdD continua ed
inne, nellesempio 6, una sequenza di FdD discrete converge ad una FdD discreta
Convergenza in distribuzione cosa non `e sempre vero
La convergenza in distribuzione `e una nozione di convergenza molto debole. I seguenti
fatti lo dimostrano chiaramente.
Fatto 1. Sia X
n
una sequenza di v.a. assolutamente continue tali che X
n
T
F(x), per
qualche F(x) Non `e in generale vero che per le corrispondenti densit`a valga
lim
n
f
n
(x) = f(x), NON
`
E SEMPRE VERO
Esempio. Sia X
n
una sequenza di v.a. di densit`a f
n
(x) =
_
1 cos(2nx)
_
1l
[0,1]
(x).
`
E
abbastanza facile dimostrare (grosso esercizio di Segnali e Sistemi) che per le corrispondenti
funzioni caratteristiche
lim
n

n
(t) =
U
(t)
dove
U
(t) `e la funzione caratteristica della distribuzione |([0, 1]), quindi per il teorema
di continuit`a X
n
T
|([0, 1]). Peraltro `e ancora pi` u facile vericare che la sequenza f
n
(x)
non converge per nessun x (0, 1).
Futura revisione. Discutere caso discreto
Fatto 2. Sia X
n
una sequenza di v.a. tali che X
n
T
F(x), per qualche F(x). Non `e in
generale vero che per i valori attesi valga
lim
n
E(X
n
) = E(X), NON
`
E SEMPRE VERO
dove X `e una v.a. di distribuzione F(x).
Esempio. Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Ricavate F
n
(x) (banale) e vericate che
lim
n
F
n
(x) =
_
0, x < 0,
1, x 1.
Quindi X
n
T
0 (cio`e alla funzione di distribuzione della v.a. degenere (costante) 0.
Peraltro `e immediato vericare che, per ogni n 1, vale E(X
n
) = 1 ,= E(0) = 0.
198
Lezione 30 (Luned` 20 maggio, ore 10:3012:15)
30.1 Convergenza in probabilit`a
Denizione. La sequenza di v.a. X
n
converge in probabilit`a alla v.a. X se
lim
n
P
_
[X
n
X[
_
= 0, per ogni > 0,
in questo caso scriveremo
X
n
P
X
Osservazioni
(a.) La convergenza delle probabilit`a `e la ordinaria convergenza delle sequenze numeriche.
In termini formali: X
n
P
X se, per ogni > 0 ssato, per ogni > 0 esiste un N tale
che, per ogni n N
P
_
[X
n
X[
_
.
(b.) Forme alternative, equivalenti tra loro, della condizione di convergenza in probabilit`a.
Per ogni > 0
lim
n
P
_
[X
n
X[ >
_
= 0,
lim
n
P
_
[X
n
X[
_
= 1,
lim
n
P
_
[X
n
X[ <
_
= 1
(c.) Per valutare se la sequenza X
n
converge in distribuzione `e suciente disporre delle
distribuzioni F
n
(x) delle singole v.a. X
n
. Per valutare se la sequenza X
n
converge in
probabilit`a si deve poter calcolare P
_
[X
n
X[ >
_
per ogni n, il che richiede di disporre
delle distribuzioni congiunte delle coppie (X
n
, X) per ogni n. In un caso, speciale ma
molto frequente, basta conoscere le distribuzioni delle singole v.a. X
n
: si veda il punto
successivo
(d.) Spesso la v.a. X cui la sequenza X
n
converge in probabilit`a `e una v.a. degenere, cio`e
una costante, diciamola c R. In questo caso la condizione di convergenza `e intuitivamente
pi` u chiara. Per n sucientemente grande [X
n
c[ con alta probabilit`a. Inoltre in
questo caso per valutare P
_
[X
n
X[
_
al variare di n sono sucienti le distribuzioni
delle singole v.a. X
n
.
Esempio 1. (ripreso dal paragrafo 27.1)
La sequenza M
n
converge in distribuzione alla costante 1. Per capire se la convergenza ad
1 sussiste anche in probabilit`a si deve valutare, per ogni > 0 ssato,
P([M
n
1[ ) = P(1 M
n
) = P(M
n
1 )
= (1 )
n
0, per ogni 0 < < 1
(per i pi` u pignoli: data la denizione di M
n
, se > 1 la probabilit`a `e nulla per ogni n,
non solo asintoticamente.) Si conclude che M
n
P
1.
Esempio 2.
Le v.a. X
n

n1
ed X sono i.i.d. con distribuzione di Bernoulli b
_
1
2
_
.
`
E banale che
X
n
T
b
_
1
2
_
199
infatti le distribuzioni delle X
n
sono tutte identiche b
_
1
2
_
e tale rimane il limite.
Dimostriamo ora che la sequenza X
n
non converge in probabilit`a alla v.a. X b
_
1
2
_
.
Cominciamo con losservare che sia le X
n
che X possono assumere solo i valori 0 ed 1,
quindi per ogni 0 < < 1,
_
[X
n
X[ ] =
_
X
n
,= X

=
_
X
n
= 0, X = 1 ]
_
X
n
= 1, X = 0 ].
Possiamo ora vericare, usando la denizione, che la convergenza in probabilit`a non
sussiste
lim
n
P([X
n
X[ ) = lim
n
P(X
n
,= X)
= lim
n
P
__
X
n
= 0, X = 1 ]
_
X
n
= 1, X = 0 ]
_
=
1
2
1
2
+
1
2
1
2
=
1
2
0.
Commento. Lesempio mostra che la convergenza in distribuzione `e pi` u debole della
convergenza in probabilit`a, infatti X
n
converge in distribuzione, ma non in probabilit`a.
Relazioni tra convergenza in probabilit`a e convergenza in distribuzione.
Lemma. Se X
n
P
X allora X
n
T
X.
Dimostrazione. Non molto dicile ma omessa.
Questo risultato mostra che la convergenza in probabilit`a `e una nozione pi` u forte della
convergenza in distribuzione. In un caso speciale, ma inportante, le due nozioni sono
equivalenti, come dimostrato nel seguente Lemma.
Lemma. X
n
P
c se e solo se X
n
T
c.
Dimostrazione. La direzione: se converge in probabilit`a alla costante c allora vi converge
anche in distribuzione `e una conseguenza del lemma precedente. La direzione se converge
in distribuzione alla costante c allora vi converge anche in probabilit`a lavevo dimostrata
disegnando il graco qui sotto alla lavagna. Nel graco le distribuzioni F
n
(x) convergono
alla distribuzione degenere F(x) della costante c, per ogni x R. [In gura F
n
(c) =
1
2
per
200
ogni n, ma questa condizione `e puramente accidentale, serve solo a tracciare un graco
elegante.] Dalla gura si vede che
P([X
n
c[ ) = P(c X
n
c +) = F
n
(c +) F
n
(c ) 1
poiche, per la convergenza in distribuzione, deve valere F
n
(c ) 0 e F
n
(c +) 1. Si
conclude che X
n
P
c.
Convergenza in probabilit`a cosa non `e sempre vero
Se X
n
P
X non `e in generale vero che per i valori attesi valga
lim
n
E(X
n
) = E(X), NON
`
E SEMPRE VERO
Esempio. Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Si verichi che X
n
P
0, ma E(X
n
) = 1 0.
30.2 Convergenza in L
p
Denizione. La sequenza di v.a. X
n
converge in L
p
alla v.a. X se
lim
n
E(, [X
n
X[
p
_
= 0,
in questo caso scriveremo
X
n
L
p
X
Osservazioni
(a.) Sono ammessi tutti i valori di p 1. Ad ogni p 1 corrisponde una diversa
nozione di convergenza. Per p = 1 si dice che la sequenza X
n
converge ad X in media;
per p = 2 che converge in media quadratica. Questi sono i due casi di gran lunga pi` u
importanti in pratica. La convergenza in media quadratica `e particolarmente interessante
dal punto di vista geometrico essendo la naturale nozione di convergenza nello spazio,
dotato di prodotto interno, L
2
:= X : R : E(X
2
) < che avevamo introdotto in
precedenza.
(b.) Anche in questo caso, come per la convergenza in probabilit`a, deve essere nota la
densit`a congiunta delle coppie (X
n
, X) per ogni n. Solo con questa informazione si pu`o
calcolare E( [X
n
X[
p
_
. Unica eccezione: se X = c, v.a. degenere, allora `e suciente
conoscere le distribuzioni delle X
n
.
(c.) La convergenza in media quadratica implica la convergenza in media. Infatti, per la
disuguaglianza di Cauchy-Schwarz, se X
n
L
2
X allora
E([X
n
X[) = E([X
n
X[ 1)
_
E([X
n
X[
2
)E(1
2
) =
_
E([X
n
X[
2
) 0
(d.) Se X
n
L
1
X allora E(X
n
) E(X). Questa `e una semplice conseguenza della
disuguaglianza triangolare. [E(X
n
) E(X)[ = [E(X
n
X)[ E([X
n
X[) 0.
201
Relazione con la convergenza in probabilit`a
Lemma. Se X
n
L
p
X allora X
n
P
X.
Dimostrazione. Qualunque sia p 1, per la disuguaglianza di Markov
P([X
n
X[ ) = P([X
n
X[
p

p
)
E( [X
n
X[
p
_

p
0
Attenzione. Non `e vero il viceversa. Se X
n
P
X, non necessariamente X
n
L
p
X. La
convergenza in L
p
`e dunque pi` u forte della convergenza in probabilit`a.
Esempio.
Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1
1
n
,
n, con P(X
n
= n) =
1
n
.
Avevamo visto che X
n
T
0. In realt`a `e anche vero che X
n
P
0, infatti
P([X
n
0[ ) = P(X
n
= n) =
1
n
0, per ogni > 0
Peraltro X
n
non congerge a 0 in L
p
per nessun valore di p 1, infatti
E([X
n
0[
p
) = E(X
p
n
) =
n
p
n
= n
p1
0
30.3 Legge debole dei grandi numeri
Il teorema seguente `e uno dei risultati centrali della teoria della probabilit`a classica. For-
mulato per le v.a. di Bernoulli da Jakob Bernoulli nel 1713, esteso da Chebyshev nel 1867
alle v.a. che ammettono secondo momento, e da Khinchine nel 1928 alle v.a. che ammet-
tono solo valore atteso. In forme estremamente pi` u generali `e ancora un attivo settore di
ricerca teorica ed applicata.
Deniamo per comodit`a notazionale la sequenza di v.a.
X
n
:=
1
n
n

i=1
X
i
,
abitualmente X
n
`e detta sequenza delle medie campionarie. Per la linearit`a del valore
atteso
E(X
n
) = , per ogni n
quindi `e naturale che i valori di X
n
siano distribuiti intorno a . Il teorema di Khinchine
aerma che, se le variabili X
n
sono i.i.d. allora asintoticamente, con alta probabilit`a
X
n
si concentra intorno a .
202
Teorema (legge debole dei grandi numeri Khinchine 1928)
Sia X
n
una sequenza di v.a., tutte denite sullo stesso spazio di probabilit`a
27
, in-
dipendenti ed identicamente distribuite. Si assume che := E(X
1
) esista. Sotto queste
ipotesi
X
n
P
= E(X
1
)
Osservazione. Non si devono confondere le X
n
con le X
n
, queste ultime non sono indipen-
denti. Il teorema di Khinchine non `e di facile dimostrazione, ma sotto lipotesi aggiuntiva
che esista il secondo momento E(X
2
1
) la legge dei grandi numeri `e un risultato intuitivo,
la cui dimostrazione `e semplicissima.
Teorema (legge debole dei grandi numeri Chebyshev 1867)
Sia X
n
una sequenza di v.a., indipendenti ed identicamente distribuite. Si assuma che
E(X
2
1
) esista e sia := E(X
1
). Sotto queste ipotesi
X
n
P
= E(X
1
)
Commento. Questo risultato `e in accordo con lintuizione poiche, se esiste E(X
2
1
) < ,
allora
2
:= var(X
1
) < . Poiche per ipotesi le v.a. sono i.i.d
var(X
n
) = var
_
1
n
n

i=1
X
i
_
=
1
n
2
n
2
=

2
n
0
e questo conferma che X
n
si concentra intorno al suo valore atteso E(X
n
) = .
Dimostrazione della legge dei grandi numeri di Chebyshev. Per la disuguaglianza di
Chebyshev
P
_
[X
n
[
_

E([X
n
[
2
)

2
=
var(X
n
)

2
=

2
n
2
0
Nota Bene. Riettendo sulle denizioni date nora non vi sfuggir`a il fatto che, quando
esiste il secondo momento, `e vero pi` u di quanto enunciato nella legge dei grandi numeri di
Chebyshev, infatti
E([X
n
[
2
) = var(X
n
) =

2
n
0
signica che X
n
L
2
. La convergenza in L
2
`e pi` u forte della convergenza in probabilit`a,
ciononostante la legge dei grandi numeri non viene mai enunciata come un risultato di
convergenza in L
2
. Questo perche, come vedremo negli esempi, quello che veramente
interessa in pratica `e valutare probabilit`a del tipo P([X
n
[ ). Interpretatelo cos`:
per dimostrare la convergenza in probabilit`a `e spesso tecnicamente pi` u facile dimostrare
la convergenza in media quadratica o in media.
27
Nota bene: ogni volta che si scrive una somma di v.a. si sta implicitamente supponendo che le v.a.
siano denite sullo stesso spazio. In eetti la v.a. X +Y `e denita come (X +Y )() = X() +Y (). Se
X ed Y non sono denite sullo stesso spazio non ha senso sommarle. Questo `e un problema tecnico di cui
non ci siamo mai occupati. Quando dico: sia |X
n

n1
una sequenza di v.a. indipendenti ed identicamente
distribuite di distribuzione assegnata bisognerebbe chiedersi se esiste uno spazio di probabilit` a su cui `e
possibile denire una sequenza con le caratteristiche richieste. La cattiva notizia `e che il teorema che
garantisce lesistenza di un tale spazio `e troppo complesso per essere presentato in un corso elementare. La
buona notizia `e che, ntanto si rimanga su sequenze di v.a. i.i.d., a valori in R, uno spazio di probabilit` a
adeguato a contenere tutte le variabili della sequenza, qualunque siano le loro distribuzioni congiunte esiste
sempre. Continueremo quindi a sottacere questa dicolt` a.
203
Corollario della legge dei grandi numeri. Sia X
n
una sequenza di v.a., indipendenti ed
identicamente distribuite e g : R R una funzione tale che E
_
(g(X
1
))
2
_
esista. Sotto
queste ipotesi
1
n
n

i=1
g(X
i
)
P
E(g(X
1
))
Dimostrazione. Non c`e nulla da dimostrare. Se X
n
`e una sequenza i.i.d. tale `e anche
la sequenza g(X
n
) e, per la legge dei grandi numeri la media campionaria delle g(X
i
)
converge al valore atteso comune E(g(X
1
))
Esempi di applicazione della legge debole dei grandi numeri
Lesempio per eccellenza `e la sequenza di v.a. di Bernoulli i.i.d.. Come vedremo la sua
portata `e molto pi` u ampia di quanto si potrebbe immaginare. Linformazione utile in
pratica `e contenuta nella disuguaglianza di Chebyshev.
Esempio 1. Sia X
n
una sequenza di v.a. i.i.d. b(p). In termini del classico esempio dei
lanci ripetuti di una moneta la media campionaria X
n
`e
X
n
=
1
n
n

i=1
X
i
=
n
T
(X
n
1
)
n
dove n
T
(X
n
1
) denota il numero di Teste in n lanci. Naturalmente E(X
n
) = p e var(X
n
) =
p(1p)
n
. Per la legge debole dei grandi numeri
n
T
(X
n
1
)
n
P
p = E(X
1
)
ovvero, per ogni > 0,
lim
n
P
_

n
T
(X
n
1
)
n
p


_
= 1
Linterpretazione pratica `e che asintoticamente, con alta probabilit`a, p
n
T
(X
n
1
)
n
p+.
In linea di principio, usando la disuguaglianza di Chebychev, `e possibile, ssati > 0 ed
[0, 1], determinare il numero di lanci n tale che
P
_

n
T
(X
n
1
)
n
p


_
.
Si procede in questo modo. La disuguaglianza di Chebychev `e
P
_

n
T
(X
n
1
)
n
p


_
1
var(X
n
)

2
= 1
p(1 p)
n
2
1
1
4n
2
,
dove, per lultimo passaggio, si osservi che p(1 p)
1
4
per ogni p [0, 1]. Imponendo
quindi la condizione
1
1
4n
2

si determina il numero di lanci n che garantisce i livelli ed assegnati. Ad esempio per
= 0.05 ed = 0.95 la condizione
1
1
4n0.05
2
0.95
fornisce n 2000.
204
Lezione 31 (Marted` 21 maggio, ore 16:2518:10)
31.1 Legge debole dei grandi numeri (continua)
Esempi di applicazione della legge debole dei grandi numeri
Esempio 2. Sia X una v.a. di densit`a f
X
(x) che ammette secondo momento. Fissato un
evento E B(R) si consideri il problema del calcolo di
p := P(X E) =
_
E
f
X
(x) dx,
dove abbiamo convenientemente denotato con p il valore cercato. Per assegnati E ed f
X
questo `e un problema puramente deterministico, che si riduce al calcolo di un integrale
denito. Se la densit`a f
X
`e una funzione che non ammette primitiva esprimibile in forma
chiusa (esempio importante: la normale) il calcolo pu`o essere eettuato solo attraverso
una procedura di approssimazione numerica. Vediamo come la legge dei grandi numeri
consenta di determinare il valore di p con una procedura probabilistica invece che di analisi
numerica. Ci si procura
28
una sequenza di v.a. i.i.d. X
n
con densit`a f
X
1
(x) = f
X
(x).
Si denisca la sequenza di v.a. Y
n
, dove
Y
n
:= 1l
E
(X
n
).
Dalla denizione si deduce che le v.a. Y
n
assumono solo due valori: Y
n
= 1 se X
n
E
ed Y
n
= 0 se X
n
/ E, inoltre P(Y
n
= 1) = P(X
n
E) = p. La sequenza Y
n
`e quindi
una sequenza di v.a. i.i.d. b(p). Siamo tornati al caso trattato nellEsempio 1. La media
campionaria
Y
n
:=
1
n
n

i=1
Y
i
=
n
E
(X
n
1
)
n
,
dove n
E
(X
n
1
) `e il numero di volte che X
i
cade in E nelle prime n prove. Per la legge dei
grandi numeri
P
_

n
E
(X
n
1
)
n
p


_
0
Considerazioni analoghe a quelle fatte nellEsempio 1 si applicano anche in questo caso. In
particolare, ssata la soglia (0.1, 0.05, 0.01 ecc.) per lerrore di approssimazione tollerato
e la soglia (0.9, 0.95, 0.99 ecc.) ritenuta accettabile per la probabilit`a che lerrore stia
sotto ad , si pu`o determinare il numero n di v.a. che `e necessario generare.
Esempio 3. Come noto la disuguaglianza di Chebyshev `e di validit`a generale, ma proprio
per questo `e molto conservativa. Se `e possibile calcolare la distribuzione di X
n
`e molto pi` u
conveniente valutare direttamente la probabilit`a P([X
n
[ ) piuttosto che utilizzare
la disuguaglianza di Chebychev. Si consideri il seguente esempio.
Si eettua una serie di misurazioni di una grandezza sica incognita, diciamola R. La
n-esima lettura dello strumento si modella con una v.a.
Y
n
= +W
n
dove W
n
N(0,
2
) rappresenta lerrore di misura.
29
Gli errori di misura si suppon-
gono i.i.d. Le letture dello strumento Y
n
formano quindi una sequenza di v.a. Y
n

28
Questo `e sempre possibile con una procedura di simulazione, che consente di generare una sequenza
di v.a. i.i.d. di qualunque densit` a assegnata. Non tratteremo qui le tecniche di simulazione.
29
In molte situazioni modellare lerrore di misura con v.a. normali `e giusticato da considerazioni
siche. Vedremo pi` u avanti il caso del rumore termico nei circuiti elettrici. Considerare E(W
n
) = 0
esclude la presenza di errori sistematici. La varianza E(W
2
n
) =
2
`e legata alla precisione dello strumento.
Considerazioni approfondite saranno fatte nei corsi di Misure.
205
N(,
2
) indipendenti ed identicamente distribuite. Poiche la media campionaria Y
n
`e
una combinazione lineare di v.a. normali indipendenti essa sar`a ancora normale e
Y
n
N
_
,

2
n
_
`
E allora possibile calcolare esattamente
P([Y
n
[ < ) = P
_
[Y
n
[
/

n
<

/

n
_
= 2
_

/

n
_
1
dove (x) `e la funzione di distribuzione della normale standard N(0, 1). I valori si trovano
in tabella.
Ad esempio ci chiediamo quale deve essere il numero di misure da eetuare utilizzando
uno strumento con deviazione standard = 0.1 per garantire errore < 0.05 e probabilit`a
= 0.95. Questo corrisponde a determinare il valore di n tale che
2
_
0.05
0.1/

n
_
1 0.95
ovvero (0.05

n/0.1) 1.95/2 = 0.975. In tabella si trova che (1.96) = 0.975 quindi


0.05

n/0.1 1.96 ovvero n 15.36. Con n = 16 si raggiungono entrambi gli obiettivi.


Confrontiamo questo risultato con quanto si sarebbe ottenuto utilizzando la disuguaglianza
di Chebyshev.
P([Y
n
[ < ) 1
var(Y
n
)

2
ed imponendo gli stessi dati di prima, = 0.1, = 0.05 ed = 0.95 si determina n
garantendo che
1
var(Y
n
)

2
= 1

2
n
2
= 1
0.1
2
n0.05
2
0.95
da cui si ricava che sarebbe necessario eettuare n = 80 misure per raggiungere entrambi
gli obiettivi.
Esempio 4. Il metodo di Monte Carlo
aggiungere in futura revisione
La legge dei grandi numeri - quando non funziona
Abbiamo detto che la legge dei grandi numeri (versione di Khinchine) richiede almeno
lesistenza del valore atteso delle v.a. X
n
. Vediamo con un esempio cosa pu`o succedere
quando il valore atteso non esiste.
Esempio. Si consideri la sequenza X
n
di v.a. i.i.d. con densit`a di Cauchy f
X
1
(x) =
1

1
1+x
2
. Abbiamo gi`a dimostrato che le v.a. X
n
non ammettono valore atteso. Costru-
iamo comunque la media campionaria X
n
. Per determinare la densit`a di X
n
conviene
lavorare con le funzioni caratteristiche. Ricordando che
X
1
() = e
[[
e che la funzione
caratteristica della somma di v.a. indipendenti `e il prodotto delle funzioni caratteristiche,
detto inne S
n
:=

n
i=1
X
i
, si ha

S
n
() =
_
e
[[
_
n
,
206
e nalmente, poiche X
n
=
1
n
S
n
, `e il prodotto di una costante per S
n
,

X
n
() =
S
n
_

n
_
=
_
e
[

n
[
_
n
= e
[[
=
X
1
()
La conclusione `e che

X
n
() =
X
1
()
ovvero, antitrasformando, la media campionaria ha densit`a di Cauchy identica a quella di
una singola v.a. della sequenza originale X
n
. Poiche la densit`a di Cauchy `e simmetrica
intorno allorigine lintuizione potrebbe far pensare che la media campionaria si concentra
verso 0, che `e il valore centrale
30
delle v.a. X
n
, ma questo non avviene.
31.2 Fattori di scala per la convergenza a distribuzioni non degeneri
[materiale non spiegato a lezione che pu`o essere saltato senza nessuna conseguenza per la
comprensione del seguito della lezione.]
Con riferimento allesempio della Lezione 29.1, abbiamo stabilito che M
n
ha asintotica-
mente la distribuzione degenere della costante 1. Per studiare pi` u dettagliatamente il
comportamento asintotico di M
n
ci ispiriamo alla tecnica che si usa per lo studio della
velocit`a di convergenza delle sequenze numeriche. Supponiamo che a
n
sia una sequenza
numerica convergente, ad esempio
lim
n
a
n
= a,
che equivale a dire che il limite di [a
n
a[, la distanza tra a
n
ed a, si annulla:
lim
n
[a
n
a[ = 0,
ovvero [a
n
a[ `e innitesimo per n . Per studiare la velocit`a di convergenza si deve
determinare lordine dinnitesimo di [a
n
a[ ovvero determinare un k tale che
lim
n
[a
n
a[
1
n
k
= lim
n
n
k
[a
n
a[ = b ,= 0.
Questa `e uninformazione sulla velocit`a di convergenza, infatti ora sappiamo che
[a
n
a[ =
b
n
k
+o
_
1
n
k
_
.
Si noti che determinare lordine di innitesimo equivale ad amplicare la distanza [a
n
a[,
moltiplicandola per il fattore di scala n
k
, e scegliendo k in modo tale che la sequenza
amplicata converga a b ,= 0. Questa sar`a esattamente la via che seguiremo anche nel caso
delle variabili aleatorie.
Per quanto visto nella Lezione 29, le v.a. M
n
convergono in distribuzione alla costante
1, variabile aleatoria degenere di varianza nulla. La varianza var(M
n
) = O
_
1
n
2
_
0.
Per studiare la velocit`a di convergenza di M
n
ad 1, imitando quanto si fa nel caso de-
terministico, amplichiamo [M
n
1[ moltiplicando per un opportuno fattore di scala in
30
Si chiama mediana di una v.a. X il punto a R tale che P(X a) = P(X a) = 1/2), la mediana
di una v.a. di Cauchy `e a = 0.
207
modo tale che la varianza asintotica, invece di annullarsi, tenda ad una costante non nulla.
Lopportuno fattore di scala, in questo caso, `e n infatti
var(n[M
n
1[) = var(n(1 M
n
)) = n
2
var(1 M
n
) = n
2
O
_
1
n
2
_
= O(1),
dove abbiamo sfruttato il fatto che [M
n
1[ = 1 M
n
.
Poiche var(n(1 M
n
)) = O(1) `e ragionevole aspettarsi che la FdD asintotica delle v.a.
n(1 M
n
) non sia degenere. Diciamo F
n
(x) la FdD di n(1 M
n
), allora
F
n
(x) = P(n(1 M
n
) x) = P
_
1 M
n

x
n
_
= P
_
M
n
1
x
n
_
= 1 P
_
M
n
1
x
n
_
= 1l(x)
__
1
x
n
_
n
1l
[0,n]
(x)
_
E calcolando il limite si trova (`e molto pi` u banale di quel che sembra)
lim
n
F
n
(x) = lim
n
1l(x)
_
1
x
n
_
n
1l
[0,n]
(x) =
_
1 e
x
_
1l(x)
Si riconosce che F
n
(x) converge alla funzione di distribuzione Exp(1). La densit`a limite
di n(1 M
n
) `e quindi f(x) = e
x
1l(x).
Questo risultato `e estremamente utile in quanto consente di calcolare la probabilit`a di
eventi relativi alle v.a. M
n
originali usando la distribuzione asintotica. Ad esempio, per
ogni a < 1 e per n abbastanza grande,
P(M
n
> a) = P
_
n(1 M
n
) < n(1 a)
_

_
n(1a)
0
e
x
dx.
31.3 Teorema del limite centrale motivazione
Legge debole dei grandi numeri per variabili normali. Se X
n
`e una sequenza di v.a. i.i.d.
N(,
2
) allora E(X
n
) = e var(X
n
) =

2
n
e, per la legge dei grandi numeri,
X
n
P
,
Probabilit`a delle deviazioni. Sotto lipotesi di normalit`a delle v.a. X
n
le probabilit`a delle
deviazioni dinteresse pratico, P([X
n
[ ), si possono calcolare esattamente anziche
accontentarsi della disuguaglianza di Chebychev. Infatti, poiche le combinazioni lineari di
v.a. normali indipendenti sono normali,
X
n
N
_
,

2
n
_
,
quindi le probabilit`a dinteresse si possono calcolare facendo ricorso alla tecnica di stan-
dardizzazione.
P
_
[X
n
[
_
= P
_
[X
n
[
/

n


/

n
_
= 2
_

n
_
1
208
Convergenza in distribuzione. I conti fatti sopra, per il calcolo delle probabilit`a delle devi-
azioni, hanno un risvolto interessante nello studio della convergenza in distribuzione. In
generale la convergenza in probabilit`a implica la convergenza in distribuzione quindi
X
n
T
1l(x ),
dove 1l(x) `e la funzione di distribuzione della v.a. degenere (costante) . Consideriamo
ora loperazione di standardizzazione su X
n
, che si pu`o riscrivere come
[X
n
[
/

n
=

[X
n
[
ovvero, la distanza [X
n
[ `e moltiplicata per il fattore di scala

n/. Si noti che
la sequenza delle v.a. [X
n
[, amplicate dal fattore

n/, converge banalmente ain
distribuzione alla distribuzione non degenere N(0, 1):

(X
n
)
T
N(0, 1)
infatti, le v.a. nel membro di sinistra,

(X
n
), sono, per ogni n 1, normali N(0, 1)
trattandosi di combinazioni lineari di v.a. X
n
normali i.i.d..
Osservazione. Chi ha letto il paragrafo precedente pu`o confrontare questo esempio con
lesempio motivazionale introdotto in Lezione 29.1. In quel caso M
n
T
1l(x 1) e,
moltiplicando la distanza 1M
n
per il fattore di scala n, si dimostrava che n(1M
n
)
T

Exp(1).
Lo scopo di questa Lezione `e di dimostrare che, anche se le v.a. X
n
non sono normali,

(X
n
)
T
N(0, 1).
31.4 Teorema del limite centrale
Teorema. Sia X
n
una sequenza di v.a. i.i.d. che ammettono secondo momento, sia
:= E(X
1
) e
2
:= var(X
1
) > 0 allora
W
n
:=

_
X
n

_
T
N(0, 1).
Commento. Si noti che nessuna ipotesi sulla natura delle v.a. X
n
`e stata fatta: possono
essere discrete, continue, assolutamente continue, o miste.
Dimostrazione.
`
E conveniente rappresentare W
n
come somma di v.a. i.i.d. standardizzate:
W
n
:=

_
X
n

_
=

_
1
n
n

i=1
X
i

_
=
1

n
n

i=1
X
i

=
1

n
n

i=1
Z
i
209
dove, nellultimo passaggio, abbiamo introdotto le v.a. i.i.d. standardizzate
31
Z
i
:=
X
i

di media E(Z
i
) = 0 e varianza var(Z
i
) = 1. Le v.a. Z
i
hanno funzione caratteristica
comune, diciamola (). Poiche le Z
i
ammettono secondo momento () `e derivabile con
derivata seconda continua (questo `e stato menzionato, ma non dimostrato in precedenza,
non `e dicile ma prendetelo per buono). Sviluppando in serie di Taylor
() = (0) +
t
(0) +
tt
(0)

2
2
+o(
2
)
Ricordando che (0) = 1 e le relazioni tra momenti e derivate della funzione caratteristica,
0 = E(Z
1
) =
1
j

t
(0) e 1 = E(Z
2
1
) =
1
j
2

tt
(0), si trova che
t
(0) = 0 e
tt
(0) = 1, e
sostituendo nellequazione qui sopra
() = 1

2
2
+o(
2
)
Poiche le v.a. Z
i
sono i.i.d, la funzione caratteristica della somma S
n
:=

n
i=1
Z
i
`e

S
n
() =
_
()
_
n
=
_
1

2
2
+o(
2
)
_
n
e quindi la funzione caratteristica di W
n
=
1

n
S
n
`e

W
n
() =
S
n
_

n
_
=
_
_
_
1
_

n
_
2
2
+o
_
_

n
_
2
_
_
_
_
n
=
_
1

2
/2
n
+o
_

2
n
_
_
n
Siamo pronti a calcolare il limite
lim
n

W
n
() = lim
n
_
1

2
/2
n
+o
_

2
n
_
_
n
= exp
_

2
2
_
, per ogni R
Si riconosce che il limite `e la funzione caratteristica di una v.a. N(0, 1). La dimostrazione
si conclude invocando il teorema di Levy.
Teorema del limite centrale Esempi di approssimazione normale
Il teorema del limite centrale `e utile per il calcolo approssimato di probabilit`a relative
a somme di v.a. di qualunque natura. Lidea `e di base nei calcoli pratici `e che, se
Z
n
T
N(0, 1), allora per n sucientemente grande sar`a
Z
n
:=

_
X
n

_
T
N(0, 1).
dove il simbolo
T
indica che la distribuzione della v.a. di sinistra `e approssimativamente
uguale alla distribuzione a destra. Questidea funziona eccezionalmente bene gi`a con valori
di n modesti, data la covergenza piuttosto veloce alla normalit`a.
31
La notazione andrebbe modicata. Le Z
i
non sono normali, ma solo standardizzate, E(Z
i
) = 0 e
var(Z
i
) = 1. Nullaltro `e noto sulle densit` a delle Z
i
210
Raccogliamo qui sotto alcune forme equivalenti dellultima equazione. Sono immediate da
ricavare e non aggiungono nulla di nuovo. Assicuratevi che vi risulti banale passare da una
allaltra! Quelle che a destra hanno una N(0, 1) sono gi`a pronte per luso della tabella.

_
X
n

_
T
N(0, 1)
1

n
_
n

i=1
X
i
n
_
T
N(0, 1)
n

i=1
X
i
T
N(n, n
2
)
X
n
T
N
_
,

2
n
_
Esempio 1.
Le batterie da 9V che alimentano il radiomicrofono delle aule Ke e Ve hanno una vita
media di 3 ore con densit`a di probabilit`a esponenziale. Calcolare con che probabilit`a 30
batterie consentono luso del microfono per tutta la durata del corso di Analisi dei Dati
(78 ore).
La v.a. che descrive la durata di una batteria `e X
1
Exp(1/3) e la durata di 30 batterie
`e S
30
:=

30
i=1
X
i
. Si calcola E(S
30
) = 30 3 = 90 e var(S
30
) = 30 9 = 270. Per il teorema
del limite centrale
30

i=1
X
i
T
N(30 3, 30 9),
quindi
P
_
30

i=1
X
i
78
_
= P
_

30
i=1
X
i
30 3

30 9

78 30 3

30 9
_
P(Z 0.73) = 1 (0.73) = (0.73) 0.77
Esempio 2.
Il professore di Analisi dei Dati vuole avere probabilit`a almeno pari a 0.95 che il radiomi-
crofono funzioni per tutta la durata del corso. Quante batterie deve acquistare il DEI per
accontentarlo?
I dati sono gli stessi dellesempio 1. In questo caso n `e lincognita del problema. La
richiesta del professore impone il vincolo
P
_
n

i=1
X
i
78
_
0.95
Il servizio tecnico del DEI applica il teorema del limite centrale e riscrive il vincolo come
P
_
n

i=1
X
i
78
_
= P
_
n
i=1
X
i
3n

9n

78 3n

9n
_
P
_
Z
78 3n

9n
_
= 1
_
78 3n

9n
_
0.95
211
che si riduce a

_
78 3n

9n
_
0.05
ma la tabulazione della N(0, 1) parte da 0.5, si usa quindi la propriet`a (z) = 1 (z)
e si riscrive il vincolo

_
3n 78

9n
_
0.95
dalla tabella si ricava che (1.64) = 0.9495 e (1.65) = 0.9505 che trasforma il vincolo
nella disequazione in

n:
3n 78 1.65 3

n
che `e soddisfatta per

n 5.99, cio`e n 35.88. Bisogna che il DEI acquisti almeno 36
batterie.
Esempio 3.
(da confrontare con l esempio 1 per la legge dei grandi numeri) Torniamo allesempio
per eccellenza: la sequenza X
n
, i.i.d. b(p). Usiamo il teorema del limite centrale per
valutare quanti lanci di una moneta onesta (p = 1/2) sono necessari per garantire
P
_

n
T
(X
n
1
)
n

1
2

0.05
_
0.95
Ricordando che
n
T
(X
n
1
)
n
= X
n
e che, per p = 1/2 valgono E(X
n
) = =
n
2
e var(X
n
) =

2
n
=
1
4n
la condizione da imporre `e
P
_

n
T
(X
n
1
)
n

1
2

0.05
_
= P([X
n

1
2
[ 0.05)
= P
_
[X
n

1
2
[
1/2

n

0.05
1/2

n
_
2(0.1

n) 1 0.95
La condizione si riduce a (0.1

n) 0.975. Dalla tabella della normale standard


(1.96) = 0.975 quindi 0.1

n 1.96 da cui

n 19.6 ed n 384.1, quindi n = 385 sono
sucienti (da confrontarsi con gli n = 2000 richiesti dalla conservativa disuguaglianza di
Chebychev).
Thumb rule
Esercizio. (FATELO) Se X
n
`e una sequenza di v.a. i.i.d con E(X
1
) = e var(X
1
) =
2
,
allora per n 1
P
_
n 1.96

n
n

i=1
X
i
n + 1.96

n
_
0.95.
Con errore di solito trascurabile si approssima lintervallo [n 1.96

n, n + 1.96

n]
con lintervallo [n 2

n, n + 2

n]. Per esercizio calcolate, usando il Teorema del


Limite Centrale, la probabilit`a
P
_
n 2

n
n

i=1
X
i
n + 2

n
_
212
Applicazione fondamentale: moneta truccata o moneta onesta?
[la moneta `e solo un paradigma sostituite alla moneta il problema scientico a risposta
binaria su cui state lavorando]
Avete in tasca una moneta che sospettate possa essere truccata. Lanciate la moneta n volte
ed osservate n
T
Teste. Se la moneta `e onesta vi aspettate approssimativamente n/2 Teste
su n lanci. Il teorema del limite centrale fornisce lintervallo di valori in cui `e ragionevole
aspettarsi che cada n
T
se la moneta `e onesta. Dal risultato dellesercizio se lanciate una
moneta onesta n 1 volte, il numero di Teste n
T
sar`a compreso nellintervallo
[n 2

n, n + 2

n]
con probabilit`a circa 0.95. Ricordando che per una moneta onesta b
_
1
2
_
, vale = =
1
2
,
per n = 1000 lanci lintervallo `e
_
500

1000, 500 +

1000
_
= [469, 531]
Se osservate meno di 469 o pi` u di 531 Teste siete autorizzati a ritenere i vostri sospetti
non completamente infondati. Pi` u lontano `e n
T
dallintervallo [469, 531] pi` u signicativa
`e la vostra osservazione di n
T
Teste per la convalida della vostra ipotesi che la moneta non
sia onesta (questo `e il modo in cui si esprimono gli statistici per non compromettersi).
213
Lezione 32 (Mercoled` 22 maggio, ore 16:2518:10)
32.1 Esercitazione in aula
214
Lezione 33 (Luned`, 27 maggio 2013, ore 10:30-12:15)
33.1 Segnali, sistemi e modelli incerti
Lanalisi dei sistemi dinamici in condizioni dincertezza riveste grande interesse nella pra-
tica ingegneristica.
`
E molto comune che lincertezza del sistema dinamico sia presente
a livello sico e che sia quindi necessario tenerne conto nel modello matematico. Non `e
per`o raro il caso in cui si preferisce costruire modelli probabilistici anche in contesti che
sicamente sono puramente deterministici.
Lingegneria dellinformazione `e ricca di esempi della prima situazione. Nei sistemi
dinamici elettrici (reti elettriche) esiste una naturale sorgente di aleatoriet`a, il rumore ter-
mico generato dai circuiti.
32
La manifestazione pratica del rumore termico `e un segnale
aleatorio che si sovrappone, sporcandoli, ai segnali dingresso e di uscita, e/o che rende
aleatoria la trasformazione eettuata dal sistema. Il rumore termico, la cui intensit`a `e
solitamente trascurabile, diventa un serio problema quando le potenze dei segnali sono
molto basse, come nelle trasmissioni dallo spazio profondo (vedi Deep Space Network). A
livello pi` u fondamentale, i segnali dingresso (messaggi inviati) di un sistema di telecomu-
nicazioni (canale) sono incerti per loro vera natura e come tali vanno modellati. Linvio di
un messaggio non servirebbe alcuno scopo se il ricevente, in ascolto alluscita del canale,
ne conoscesse deterministicamente il contenuto.
Un esempio della seconda situazione `e limpostazione di un metodo di Montecarlo per
il calcolo numerico.
33
In tale contesto lincertezza `e introdotta ad arte nel modello, con
lo scopo di sfruttare i teoremi limite della probabilit`a per ottenere algoritmi di calcolo
particolarmente ecienti. Un altra ragione che spinge lingegnere allintroduzione di mod-
elli probabilistici anche in contesti deterministici ha a che fare con i limiti del processo
di modellazione matematica. Un modello matematico `e, quasi per denizione, se non
sbagliato quanto meno incompleto. Normalmente i modelli tengono in considerazione solo
alcuni degli aspetti sici, quelli pi` u utili a descrivere i fenomeni dinteresse. All models
are wrong, but some are useful, per dirla con George E. Box. Ma anche volendo descri-
vere tutto, spesso la sica del sistema non `e nota o lo `e molto poco, si pensi ad esempio
alla complessit`a dei sistemi biologici, o economici, o sociali. In altri casi la sica `e ben
nota, e.g. sistemi elettrici e/o meccanici, ma si introducono approssimazioni allo scopo di
semplicare i modelli matematici. Approssimando con (pochi) parametri concentrati un
sistema a parametri distribuiti si pu`o modellare con unequazione dierenziale ordinaria
(di ordine basso) piuttosto che con unequazione alle derivate parziali. Un modo grezzo,
ma molto popolare, per tener conto delle varie procedure di approssimazione della realt`a
sica `e di introdurre nel modello matematico una componente probabilistica, usualmente
sommando segnali di rumore sugli ingressi e/o sulle uscite. Il razionale per tale scelta `e
che la mancanza, o lapprossimazione, delle conoscenze su di un fenomeno sia equiparabile
ad una conoscenza probabilistica.
La precedente discussione suggerisce lopportunit`a di introdurre rappresentazioni ade-
guate dei segnali e dei sistemi incerti, che consentano di estendere al caso probabilistico
lanalisi ingresso/uscita dei sistemi dinamici. In particolare sar`a opportuno estendere al
caso probabilistico lanalisi ingresso/uscita per la classe dei sistemi lineari tempo invarianti.
32
Si tratta del rumore osservato da Johnson (1928), e studiato da Nyquist (1928), onnipresente nelle reti
elettriche.
33
Si veda lesempio del calcolo di P(E) =
_
E
f(x) dx, un integrale deterministico, con la tecnica di
simulazione accennata nellEsempio 2 della Lezione 31.1
215
33.2 Cosa `e un processo stocastico
Il primo passo per la costruzione di una teoria dei segnali e sistemi incerti `e la denizione
del modello matematico di segnale incerto. Per modellare i segnali incerti useremo le idee
gi`a viste di teoria della probabilit`a, condite con un po di nuova terminologia. Il modello
matematico di un segnale incerto `e detto processo aleatorio o equivalentemente, processo
stocastico.
Denizione. Un processo stocastico (p.s.) (X
s
)
sS
`e una famiglia di variabili aleatorie
denite su uno spazio di probabilit`a (, T, P) comune, e a valori in un insieme A comune,
X
s
: A, X
s
(), misurabile, per ogni s S
Terminologia e osservazioni
In generale gli insiemi S e A possono essere di qualsiasi natura. In queste lezioni conside-
riamo solo processi con S R e A R. In questo caso S si dice insieme dei tempi, anche
se non necessariamente s S `e sicamente un tempo. Lalfabeto A, `e detto insieme di
stato del processo. I casi pi` u elementari di coppie S, A sono i seguenti.
(a.) (p.s. a tempo discreto e stato discreto). Linsieme dei tempi `e S := Z, oppure S := N
o un intervallo nito S := N Z. La notazione tipica per lindice di un processo a tempo
discreto `e n, scriveremo quindi (X
n
) per denotare questi processi. Lalfabeto A `e discreto,
ovvero [A[ [N[.
Cosa modellano. Segnali incerti a tempo discreto per i quali ogni campione pu`o assumere
sono un numero nito, o al pi` u discreto, di valori possibili. Ad esempio un messaggio di
testo, interpretato come segnale incerto, si pu`o modellare con un processo stocastico di
questo tipo. Un qualunque segnale sico incerto digitalizzato, cio`e quantizzato e campi-
onato, pu`o essere modellato con un processo di questo tipo. Sono modellabili con processi
di questo tipo TUTTI i le presenti sui vostri PC e/o telefonini pi` u o meno intelligenti.
Esempio. (X
n
)
nN
processo stocastico consistente in una sequenza di variabili aleatorie
bernoulliane, X
n
b(0.5), indipendenti ed identicamente distribuite. Questo processo,
rappresenta il usso di bit generato dai risultati dei lanci di una moneta. Intuitivamente,
ma anche in un senso tecnico da precisare, `e il processo stocastico pi` u casuale possibile.
(b.) (p.s. a tempo discreto e stato continuo). Sono processi (X
n
) a tempo discreto per i
quali linsieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo discreto della teoria
dei Segnali e Sistemi. Modellano segnali sici incerti a tempo discreto per i quali ogni
campione pu`o assumere valori in un intervallo di R, in una semiretta, o su tutta R. Ad
esempio una sequenza di misure, ripetute ad intervalli regolari, di una grandezza sica
continua: temperatura, pressione, lunghezza, durata, ecc. Oppure un segnale incerto a
tempo continuo campionato ad intervalli regolari.
Esempio. (X
n
)
nN
processo stocastico consistente in una sequenza di variabili aleatorie
normali, X
n
N(,
2
), indipendenti ed identicamente distribuite. Questo processo pu`o
servire a rappresentare una sequenza di misure di una grandezza sica con uno strumento
di precisione nita. La misura n-esima `e modellata come X
n
= +W
n
dove W
n
N(0,
2
)
`e il rumore associato alla misura n-esima. Questo modello `e in linea con quanto descritto
nellintroduzione alla lezione: rappresenta le imprecisioni del processo di misura dovute
a diverse cause (precisione nita dello strumento, imperizia delloperatore, ecc.) con una
v.a. W
n
.
216
(c.) (p.s. a tempo continuo e stato discreto). Linsieme dei tempi `e S := R, oppure S := R
+
o un intervallo nito S := [t
0
, t
1
] R. La notazione tipica per lindice di un processo a
tempo discreto `e t, scriveremo quindi (X
t
) per denotare questi processi. Lalfabeto A `e
discreto, ovvero [A[ [N[.
Cosa modellano. Un primo esempio `e il segnale generato da un sistema di monitoraggio.
Un sensore rileva, a tempo continuo, la temperatura in un punto critico di un impianto
e genera un segnale (X
t
) di monitoraggio. Finche la temperatura rimane sotto la soglia
di sicurezza il sistema dallarme genera X
t
= 0. Per tutto il tempo che la temperatura
raggiunge o supera la soglia, il sistema genera X
t
= 1. Un ulteriore esempio `e il segnale
generato da un dispositivo ZOH (zero order hold), parte integrante dei convertitori DAC
(digital to analog converter) usati per la ricostruzione pratica dei segnali campionati (vedi
corso di Segnali e Sistemi).
(d.) (p.s. a tempo continuo e stato continuo). Sono processi (X
t
) a tempo continuo per i
quali linsieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo continuo della teoria dei
Segnali e Sistemi.
I processi come funzioni su S . Un punto di vista spesso adottato nello studio dei
processi stocastici `e di considerare X
s
() come una funzione del tipo
X
s
() : S A, (s, ) X
s
().
Adottando questo punto di vista, per ogni ssato , si ottiene la funzione del tempo
X
s
() : S A, s X
s
()
detta traiettoria del processo associata a . Si noti che le traiettorie del processo sono
funzioni deterministiche poiche `e ssato e noto. Se invece si ssa s S si ottiene la
funzione
X
s
() : A, X
s
()
che `e la variabile aleatoria X
s
corrispondente ai possibili valori che il processo pu`o assumere
allistante s S.
33.3 Come si caratterizzano probabilisticamente i processi stocastici
Un processo stocastico `e una famiglia di variabili aleatorie indiciate dal tempo s S.
Darne la descrizione probabilistica completa signica essere in grado di calcolare la prob-
abilit`a di qualunque evento denibile a partire dalle X
s
. Se linsieme dei tempi `e discreto
questo compito `e relativamente semplice. La stessa cosa `e molto pi` u complessa nel caso
di insieme dei tempi continuo.
Sia (X
n
) un processo a tempo discreto. Ad esempio (X
n
) potrebbe modellare una sequenza
di misure, prese ad intervalli regolari, da un sistema di monitoraggio. Un evento di interesse
potrebbe essere del tipo (potrebbe ad esempio trattarsi della probabilit`a che non scatti un
allarme)
E := [max
nN
[X
n
[ 10]
che `e immediato riscrivere come
E :=

nN
[[X
n
[ 10].
217
Poiche le X
n
sono variabili aleatorie, gli insiemi [[X
n
[ 10] T per ogni n N. Quindi E,
intersezione numerabile di eventi di T, `e ancora in T e se ne pu`o calcolare la probabilit`a.
Altri esempi di calcoli dinteresse per processi stocastici
(a.) max
sS
P([X
s
[ > 10)
(b.) P(X
s
1
+X
s
2
+X
s
3
< 10)
(c.) E(X
s
), var(X
s
)
(d.) cov(X
u
, X
v
)
(e.) E(X
s
1
X
s
2
X
s
3
)
Nel caso (a.) `e suciente conoscere le distribuzioni ad 1 tempo, F
s
(x) = P(X
s
x)
per ogni s S. Nel caso (b.) `e necessario disporre della distribuzione a 3 tempi
F
s
1
,s
2
,s
3
(x
1
, x
2
, x
3
) := P(X
s
1
x
1
, X
s
2
x
2
, X
s
3
x
3
). Per il caso (c.) `e suciente
conoscere le distribuzioni ad 1 tempo. Per il caso (e.) `e necessario conoscere le distribuzioni
a 2 tempi. Per il caso (f.) `e necessario conoscere le distribuzioni a 3 tempi.
Specicazione probabilistica completa dei processi stocastici
Assumiamo che linsieme dei tempi S Z sia di cardinalit`a innita.
34
Per poter calcolare
la probabilit`a di un qualunque evento misurabile `e suciente conoscere la funzione di
distribuzione congiunta di ogni sottoinsieme nito delle variabili aleatorie che compongono
il processo. Ci`o si pu`o fare assegnando per ogni N N una funzione
F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) := P(X
n
1
x
1
, X
n
2
x
2
, . . . X
n
N
x
N
),
dove n
1
, n
2
, . . . n
N
Z e x
1
, x
2
. . . x
N
A. Le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) non
possono essere assegnate in modo completamente arbitrario, ma devono soddisfare vincoli
atti a garantire che ognuna di esse generi funzioni di distribuzione legali, e che esse siano
in accordo tra loro. In particolare devono essere soddisfatti i vincoli di marginalizzazione,
ovvero dalle FdD per N
t
variabili aleatorie deve essere possibile ritrovare quelle per N < N
t
variabili aleatorie. Lo studio di questo tipo di descrizione completa `e fondamentale per
lo sviluppo della teoria, ma di scarso valore pratico poiche, a parte casi banali, non si
dispone mai di una quantit`a di informazione sui processi tale da permettere di determinare
le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) per ogni N N.
Parametri riassuntivi di un processo stocastico
La dicolt`a a fornire descrizioni probabilistiche complete di un processo stocastico rende
ancora pi` u importanti i classici parametri riassuntivi del comportamento probabilistico:
medie, varianze, covarianze. Per il processo (X
s
), dove s pu`o essere un tempo discreto
oppure continuo, si deniscono le seguenti funzioni deterministiche
(a.) m
X
(s) := E(X
s
), funzione media,
(b.) M
X
(s) := E(X
2
s
), funzione potenza statistica,
(c.)
2
X
(s) := E
_
(X
s
m
X
(s))
2
_
, funzione varianza,
(d.) r
X
(s
1
, s
2
) := E
_
X
s
1
X
s
2
_
, funzione di autocorrelazione,
(e.) k
X
(s
1
, s
2
) := E
_
(X
s
1
m
X
(s
1
))(X
s
2
m
X
(s
2
))
_
, funzione di autocovarianza,
Si noti che (a.), (b.) e (c.) richiedono solo la conoscenza delle distribuzioni ad 1 tempo
del processo stocastico, e che (d.) e (e.) richiedono la conoscenza delle distribuzioni a
2 tempi. Le seguenti relazioni tra i parametri sono ovvie:
2
X
(s) = M
X
(s) [m
X
(s)]
2
,
M
X
(s) = r
X
(s, s),
2
X
(s) = k
X
(s, s), k
X
(s
1
, s
2
) = r
X
(s
1
, s
2
) m
X
(s
1
)m
X
(s
2
).
34
Se S fosse di cardinalit` a nita allora il processo si ridurrebbe ad un vettore aleatorio nito dimensionale,
di cui `e noto come sia possibile specicare la densit` a congiunta
218
inciso
Correlazione mutua di due processi. Nelle applicazioni `e molto utile disporre anche di
parametri riassuntivi che confrontano i comportamenti di due processi, analogamente a
quanto si fa con due variabili aleatorie. Ad esempio i processi (X
s
) ed (Y
s
) potrebbero
rappresentare ingresso ed uscita di un sistema incerto. Un utile parametro riassuntivo del
comportamento congiunto dei due processi `e
(f.) r
XY
(s
1
, s
2
) := E
_
X
s
1
Y
s
2
_
, funzione di mutua correlazione
ne inciso
Come `e ben noto non tutte le variabili aleatorie ammettono momenti, non `e quindi garan-
tita lesistenza dei parametri riassuntivi di un processo stocastico.
`
E utile il seguente
lemma.
Lemma. Se la potenza statistica M
X
(s) esiste nita per ogni s S, allora esistono niti
tutti i parametri riassuntivi (a.)(e.).
Dimostrazione. Per la disuguaglianza di Schwarz
m
X
(s) = E(X
s
) = E(X
s
1)
_
E(X
2
s
)E(1
2
) =
_
M
X
(s)
inoltre
r
X
(s
1
, s
2
) = E(X
s
1
X
s
2
)
_
E(X
2
s
1
)E(X
2
s
1
) =
_
M
X
(s
1
)M
X
(s
2
)
Lipotesi M
X
(s) < per ogni s S, garantisce lesistenza di m
X
(s) e di r
X
(s
1
, s
2
).
Lesistenza degli altri parametri discende immediatamente dalle relazioni ricordate sopra.
Denizione (processi del secondo ordine). Sono detti del secondo ordine i processi per i quali
esistono, niti, m
X
(s) e r
X
(s
1
, s
2
).
Molto spesso nelle applicazioni ci si limita a fornire la descrizione al secondo ordine dei
processi stocastici dinteresse. Peraltro le funzioni media e autocorrelazione contengono
una notevole quantit`a dinformazione. In particolare, le funzioni m
X
(s) e r
X
(s
1
, s
2
) con-
sentono di ricavare la descrizione riassuntiva (vettore della media e matrice di correlazione)
di qualunque vettore di dimensione nita costruito con variabili del processo stocastico.
Ad esempio se X :=
_
X
s
1
, X
s
2
, . . . X
s
n
_

, il vettore della media del vettore X `e


m
X
:= E(X) =
_
m
X
(s
1
), m
X
(s
2
) . . . m
X
(s
n
)
_

(1)
e la matrice di correlazione del vettore X `e
R
X
:= E(XX

) =
_
_
_
_
r
X
(s
1
, s
1
) r
X
(s
1
, s
2
) . . . r
X
(s
1
, s
n
)
r
X
(s
2
, s
1
) r
X
(s
2
, s
2
) . . . r
X
(s
2
, s
n
)
. . . . . . . . . . . .
r
X
(s
n
, s
1
) r
X
(s
n
, s
2
) . . . r
X
(s
n
, s
n
)
_
_
_
_
(2)
Processi stazionari in senso debole
Per molti processi dinteresse i parametri media e autocorrelazione sono invarianti rispetto
a traslazioni temporali. Vedremo pi` u sotto alcuni esempi. Naturalmente questa nozione
ha senso solo se il processo `e del secondo ordine, ovvero ammette funzioni media e
autocorrelazione.
Denizione (stazionariet`a in senso lato). Un processo stocastico del secondo ordine (X
s
)
sS
`e detto stazionario in senso debole se
m
X
(s +) = m
X
(s), per ogni s, (3)
r
X
(s
1
, s
2
) = r
X
(s
1
+, s
2
+), per ogni s
1
, s
2
, (4)
219
Lemma (condizioni equivalenti). La seguente condizione `e equivalente alla (3)
m
X
(s) = m
X
(0), per ogni s (5)
Ognuna delle seguenti condizioni `e equivalente alla (4)
r
X
(s
1
, s
2
) = r
X
(s
1
s
2
, 0), per ogni s
1
, s
2
(6)
r
X
(s +, s) = r
X
(, 0), per ogni s, (7)
Dimostrazione. Esercizio.
Per vericare se un processo stocastico del secondo ordine `e stazionario in senso debole
sar`a quindi suciente vericare se per la media vale una delle condizioni (3) o (5) e per
lautocorrelazione vale una delle condizioni (4) o (6) o (7).
`
E immediato vericare (fatelo!) che se un processo `e debolmente stazionario allora valgono
anche le condizioni

2
X
(s) =
2
X
(0)
M
X
(s) = M
X
(0)
k
X
(s
1
, s
2
) = k
X
(s
1
+, s
2
+)
o le equivalenti, simili a quelle viste sopra per media e autocorrelazione.
Osservazione e notazione alternativa. La conseguenza della stazionariet`a `e che le funzioni
riassuntive che dipendono dalle distribuzioni ad 1 tempo (media, potenza, varianza) si
riducono a delle funzioni costanti, mentre le funzioni che dipendono dalle distribuzioni
a 2 tempi (autocorrelazione, autocovarianza) si riducono a funzioni dipendenti solo dalla
distanza temporale s
1
s
2
tra le due variabili X
s
1
e X
s
2
, e non dagli istanti s
1
ed s
2
separatamente. In virt` u di queste considerazioni `e naturale introdurre simboli pi` u com-
patti per denotare media e autocorrelazione di un processo debolmente stazionario. In
particolare scriveremo
m
X
:= E(X
s
) (8)
r
X
() := E(X
s+
X
s
) (9)
Convenzioni notazionali discreto/continuo. Per le quantit`a descritte in questo paragrafo,
nel caso discreto scriveremo r
X
(n
1
, n
2
), r
X
(n + k, n), r
X
(k), mentre nel caso continuo
scriveremo r
X
(t
1
, t
2
), r
X
(t +, t), r
X
().
33.4 Primi esempi di processi stocastici
Esempio 1 (gaussian white noise). Il processo stocastico a tempo discreto e stato continuo
(W
n
)
nN
, che consiste di variabili aleatorie normali, indipendenti ed identicamente dis-
tribuite, W
n
N(0,
2
) `e detto rumore bianco gaussiano di intensit`a
2
, e lo denoteremo
(W
n
) WGN(
2
). Il processo (W
n
) ha funzione media
m
W
(n) = E(W
n
) = 0, per ogni n N.
Potenza statistica e varianza di (W
n
) coincidono, poiche m
W
(n) = 0, e valgono
M
W
(n) =
2
W
(n) = E(W
2
n
) =
2
, per ogni n N.
Le variabili W
n
sono i.i.d., quindi la funzione autocorrelazione vale
r
W
(n
1
, n
2
) = k
W
(n
1
, n
2
) = E(W
n
1
W
n
2
) =
2
(n
1
n
2
)
220
dove la () `e il segnale (0) = 1, e (n) = 0 per n ,= 0. Autocorrelazione e autocovarianza
coincidono poiche m
W
(n) = 0.
Si noti che, essendo nita la potenza M
W
(n) =
2
, il processo (W
n
) `e del secondo ordine.
Sono inoltre soddisfatte le condizioni (5) e (6), quindi (W
n
) `e un processo debolmente
stazionario. Utilizzando le notazioni alternative (8) e (9), adattate al tempo discreto,
scriveremo
m
W
= 0, r
W
(k) =
2
(k) (10)
Osservazione. Alloccorrenza il WGN(
2
) pu`o essere esteso da N a Z.
Esempio 2 (gaussian random walk). Una passeggiata casuale gaussiana `e il processo stocas-
tico a tempo discreto e stato continuo (X
n
)
nN
, denito dallequazione alle dierenze del
primo ordine
X
n+1
= X
n
+W
n
, (11)
dove (W
n
)

n=0
GWN(
2
), e X
0
= 0.
Si noti che (X
n
) si pu`o interpretare come luscita stocastica del sistema LTI descritto dal-
lequazione alle dierenze x
n+1
= x
n
+w
n
, pilotato dallingresso stocastico (W
n
). Il sistema
`e un semplice integratore discreto, infatti la risposta impulsiva vale h(n) = 1l(n 1), dove
w
n
`e la sequenza dingresso ed x
n
la corrispondente uscita. In virt` u di questa osservazione
oppure lavorando direttamente sullequazione (11) si trova lespressione esplicita
X
n
=
n1

i=0
W
k
I parametri riassuntivi di (X
n
) si ricavano facilmente. La funzione media `e
m
X
(n) = E(X
n
) = E
_
n1

i=0
W
k
_
= 0,
mentre la potenza statistica, coincidente con la varianza, `e
M
X
(n) =
2
X
(n) = E(X
2
n
) = var
_
n1

i=0
W
k
_
= n
2
La potenza statistica `e nita per ogni n, quindi il processo (X
n
) `e del secondo ordine,
ma possiamop gi`a concludere che (X
n
) non `e debolmente stazionario, poiche se lo fosse
M
X
(n) sarebbe costante in n. Ricaviamo la funzione di autocorrelazione (coincide con
lautocovarianza)
r
X
(n
1
, n
2
) = E(X
n
1
X
n
2
) = E
_
_
_
n
1
1

i=0
W
i
_
_
_
n
2
1

j=0
W
j
_
_
_
_
=
n
1
1

i=0
n
2
1

j=0
E(W
i
W
j
)
=
n
1
1

i=0
n
2
1

j=0

2
(i j) = minn
1
, n
2

2
Come ci aspettavamo, la funzione autocorrelazione dipende da n
1
e n
2
separatamente, e
non solamente dalla dierenza n
1
n
2
. Il processo non `e debolmente stazionario.
221
Lezione 34 (Marted`, 28 maggio 2013, ore 16:25-18:05)
34.1 Ulteriore esempio di processo stocastico
Esempio 3 (processo AR(1)).
`
E il processo stocastico, a tempo discreto e stato continuo,
(X
n
)
nN
denito dallequazione alle dierenze del primo ordine
X
n+1
= aX
n
+W
n
, (1)
dove (W
n
)

n=0
GWN(
2
), la condizione iniziale `e una variabile aleatoria X
0
indipendente
da (W
n
), con E(X
0
) = 0 e var(X
0
) =
2
0
, e inne la costante a soddisfa il vincolo [a[ < 1.
Interessa studiare i parametri riassuntivi del processo (X
n
), ed in particolare determinare
se esistono valori della varianza iniziale var(X
0
) =
2
0
che garantiscono la stazionariet`a
debole di (X
n
).
Si pu`o facilmente calcolare unespressione esplicita per X
n
in termini di X
0
e di W
0
, W
1
,
. . . W
n1
usando la teoria delle equazioni alle dierenze, ma `e anche immediato eettuare
qualche iterazione manualmente e derivare lespressione esplicita per induzione
X
1
= aX
0
+W
0
X
2
= aX
1
+W
1
= a
2
X
0
+aW
0
+W
1
X
3
= aX
2
+W
2
= a
3
X
0
+a
2
W
0
+aW
1
+W
2
. . . . . . . . .
X
n
= a
n
X
0
+
n1

=0
a
n1
W

(2)
Si pu`o ora utilizzare lespressione (2) per ricavare i parametri riassuntivi di (X
n
). Es-
iste per`o una tecnica pi` u interessante che sfrutta appieno la struttura ricorsiva delle-
quazione (1). Per la funzione della media si ricava facilmente lequazione alle dierenze
m
X
(n + 1) = E(X
n+1
) = E
_
aX
n
+W
n
_
= a m
X
(n), m
X
(0) = E(X
0
) = 0
la cui unica soluzione `e m
X
(n) = 0, per ogni n.
Con la stessa tecnica si calcola lequazione alle dierenze soddisfatta dalla funzione vari-
anza,

2
X
(n + 1) = E(X
2
n+1
) = E
_
(aX
n
+W
n
)
2
_
= E
_
a
2
X
2
n
+ 2aX
n
W
n
+W
2
n
_
= a
2

2
X
(n) +
2
dove E(X
n
W
n
) = 0 infatti: X
n
dipende solo da X
0
, W
0
, W
1
. . . W
n1
, vedi equazione (2),
quindi `e indipendente da W
n
ed essendo le medie nulle E(X
n
W
n
) = E(X
n
)E(W
n
) = 0.
Lequazione alle dierenze per la varianza `e quindi

2
X
(n + 1) = a
2

2
X
(n) +
2
,
2
X
(0) =
2
0
,
dove la condizione iniziale `e imposta dal dato var(X
0
) =
2
0
. Anche il processo (X
n
) sia
debolmente stazionario `e necessario che
2
X
(n) sia costante, ovvero
2
X
(n + 1) =
2
X
(n).
Sostituendo nellequazione alle dierenze si trova (e si capisce perche `e fondamentale la
condizione [a[ < 1)

2
X
(n) =

2
1 a
2
.
222
Scegliendo il dato iniziale

2
0
=

2
1 a
2
`e immediato vericare che
2
X
(n) =
2
0
=

2
1a
2
per ogni n.
Con questa scelta di
2
0
la varianza `e costante. Per vericare la stazionariet`a debole `e
per`o necessario vericare che la funzione di autocorrelazione r
X
(n +k, n) non dipende da
n. Si osservi che
r
X
(n + 1, n) = E(X
n+1
X
n
) = E
_
(aX
n
+W
n
)X
n
_
= a
2
X
(n) = a

2
1 a
2
quindi per k = 1 lautocorrelazione r
X
(n + 1, n) non dipende da n. Inoltre
r
X
(n + 2, n) = E(X
n+2
X
n
) = E
_
(aX
n+1
+W
n+1
)X
n
_
= a r
X
(n + 1, n) = a
2

2
1 a
2
quindi anche per k = 2 lautocorrelazione r
X
(n+2, n) non dipende da n. In generale (per
induzione) vale
r
X
(n +k, n) = a
k

2
1 a
2
, indipendente da n.
La conclusione `e che scegliendo
2
0
=

2
1a
2
, il processo (X
n
) `e debolmente stazionario.
34.2 Propriet`a della funzione di autocorrelazione di un processo stazionario
La funzione di autocorrelazione r
X
() di un processo del secondo ordine debolmente
stazionario gode di alcune notevoli propriet`a.
(a.) r
X
(0) 0.
Dim. Infatti r
X
(0) = E(X
2
s
) 0.
(b.) r
X
() `e pari (richiede insieme dei tempi S = Z oppure S = R).
Dim. r
X
() = E(X
s
X
s
) = E(X
0
X

) = r
X
().
(c.) r
X
() `e una funzione denita positiva.
Dim. Verichiamo la condizione di positivit`a. Per ogni n,
1
, . . .
n
,
1
, . . .
n

j
r
X
(
i

j
) =

j
E(X
s
i
X
s
j
)
= E
_

j
X
s
i
X
s
j
_
= E
__

i
X
s
i

2
_
0
Si ricordi che una funzione tale che (0) = 1, continua in un intorno dellorigine e
semidenita positiva `e automaticamente la funzione caratteristica di una variabile aleato-
ria. (naturalmente una funzione caratteristica `e pari solo se la distribuzione `e pari, nel caso
generale essa `e solo hermitiana). Le propriet`a (a.), (b.) e (c.) appena dimostrate mostra-
no quindi la parentela matematica che esiste tra funzioni di autocorrelazione e funzioni
caratteristiche. Vedremo presto che risvolto questosservazione ha per la teoria spettrale
dei processi.
223
34.3 Processi gaussiani
Il processo (X
s
) `e detto gaussiano se, per ogni N, e per ogni s
1
, s
2
. . . s
N
il vettore N-
dimensionale X := (X
s
1
, X
s
2
, . . . X
s
N
)

`e congiuntamente nrmale. Data la normalit`a, la


distribuzione di X `e completamente determinata dal vettore della media E(X) e dalla
matrice di covarianza E
_
X E(X))(X E(X))

_
. Peraltro, come discusso al paragrafo
33.3, media e matrice di covarianza di X sono completamente determinati dalle funzioni
m
X
(s) e r
X
(s
1
, s
2
) del processo (X
s
). La probabilit`a di un qualunque evento denito
in termini di variabili di un processo gaussiano sono quindi calcolabili sulla base della
conoscenza delle sole funzioni m
X
(s) e r
X
(s
1
, s
2
). Nel caso speciale dei processi gaussiani
la descrizione al secondo ordine coincide con la descrizione completa del processo. Se sono
vericate le condizioni di stazionariet`a debole
m
X
(s) = m
x
(0) :=
X
, k
X
(s +, s) = k
X
(, 0) := k
X
()
allora la costante
X
e la funzione k
X
() determinano completamente le probabilit`a del
processo gaussiano (X
s
). Si noti in particolare che sotto stazionariet`a debole del processo
gaussiano
(X
s
1
, X
s
2
, . . . X
s
N
) (X
s
1
+
, X
s
2
+
, . . . X
s
N
+
)
cio`e i due vettori hanno la stessa distribuzione congiunta. Questa propriet`a `e detta
stazionariet`a forte: prendendo N arbitrarie variabili del processo la loro distribuzione `e
invariante per traslazione. Per i processi gaussiani la stazionariet`a debole (invarianza per
traslazione della distribuzione di coppie di variabili aleatorie) equivale alla stazionariet`a
forte.
Un importante risultato (gi`a noto nel contesto dei vettori) `e la conservazione della guas-
sianit`a per ltraggio lineare. Menzioniamo il seguente risultato senza fornire le condizioni
tecniche che ne garantiscono la validit`a. Il risultato vale anche per processi a tempo con-
tinuo, ma nella teoria rigorosa il caso discreto `e quello pi` u semplice da arontare. Lemma.
Se (X
n
) `e un processo gaussiano ed
Y
n
:=

i=
h
n,k
X
k
allora, sotto opportune condizioni che garantiscono la convergenza della serie, il processo
Y
n
`e gaussiano. In particolare il risultato vale per il ltraggio lineare tempo invariante,
ovvero se
Y
n
=

k =

h
nk
X
k
Dimostrazione. Il risultato `e ben noto nel caso di vettori nito dimensionali. Nel caso
generale qualche attenzione deve essere dedicata alla convergenza della serie. Si rimanda
la discussione dettagliata ai corsi successivi.
34.4 Densit`a spettrale di potenza - denizione e primi esempi
Denizione. Se (X
s
) `e un processo del secondo ordine debolemnte stazionario, la densit`a
spettrale di potenza di (X
s
) `e la trasformata di Fourier della funzione autocorrelazione
r
X
(). In particolare
R
X
(f) =
_

r
X
()e
j2f
d, f R, tempo continuo
R
X
(f) =

k=
r
X
(k)e
j2fk
, f [0, 1], tempo discreto
224
Per le condizioni di esistenza e le nozioni di convergenza della trasformata si faccia rifer-
imento al corso di Segnali e Sistemi. Nota la densit`a spettrale, la funzione di autocorre-
lazione si pu`o trovare per inversione:
r
X
() =
_

R
X
(f)e
j2f
df, tempo continuo
r
X
(k) =
_
1
0
R
X
(f)e
j2fk
df tempo discreto
si noti che la potenza statistica r
X
(0) vale
r
X
(0) = M
X
=
_

R
X
(f) df (continuo), r
X
(0) = M
X
=
_
1
0
R
X
(f) df (discreto)
Poiche r
X
(s) `e denita positiva la densit`a spettrale `e una funzione non negativa (lo
dimostreremo la prossima lezione) quindi r
X
(0) 0 qualunque sia R
X
(f).
Esempi di calcolo - con riferimento agli esempi di processi in 33.4 e 34.1
(a.) (W
n
) GWN(
2
).
Il processo (W
n
) `e del secondo ordine e debolmente stazionario, quindi ha senso calcolarne
la densit`a spettrale. Poiche r
X
(k) =
2
(k) si trova
R
X
(f) =
2
, per ogni f [0, 1].
Il termine rumore bianco deriva proprio dal fatto che lo spettro di potenza del processo
`e piatto, come lo spettro della luce bianca. Per unintrpretazione sica dello spettro di
potenza si rimanda alla prossima lezione.
(b.) Il processo del secondo ordine (X
n
), passeggiata casuale gaussiana, non ammette
densit`a spettrale, infatti non `e debolmente stazionario.
(c.) Il processo del secondo ordine AR(1), descritto allinizio della lezione, `e stazionario
se si sceglie
2
0
=

2
1a
2
. In questo caso la funzione autocorrelazione `e r
X
(k) =

2
1a
2
a
k
.
Esercizio. Calcolare la densit`a spettrale di potenza e vericare che `e non- negativa per
ogni f [0, 1].
225
Lezione 35 (Mercoled`, 29 maggio 2013, ore 16:25-18:05)
35.1 Teorema di Wiener-Khinchin (caso discreto)
Il teorema di Wiener Khinchin `e un caposaldo della teoria spettrale dei processi del secondo
ordine debolmente stazionari. Il teorema mostra che la densit`a spettrale di potenza R
X
(f),
pu`o essere denita come limite dello spettro di Fourier delle traiettorie del processo.
Denoteremo con (X
N
n
) la versione troncata del processo (X
n
), denita come
X
N
n
:= X
n
1l
[N,N]
(n), (1)
dove 1l
[N,N]
(n) = 1 per n [N, N] e zero altrove. Si noti che, per [n[ N, si ha
X
N
n
= X
n
. La trasformata di Fourier discreta di X
N
n
`e denotata

X
N
(f) e vale

X
N
(f) :=
N

k=N
X
N
k
e
j2fk
, f [0, 1] (2)
La trasformata

X
N
(f) `e una funzione aleatoria di f, nel senso che, per ogni f ssato,

X
N
(f) `e una combinazione lineare delle funzioni di base e
j2fk
i cui pesi sono le variabili
aleatorie X
N
n
.
Teorema. Sia (X
n
)
nZ
un processo del secondo ordine, debolmente stazionario, allora
lim
N
1
2N+1
E
_

X
N
(f)

2
_
= R
X
(f), (3)
dove R
X
(f) =

k=
r
X
(k)e
j2fk
`e la densit`a spettrale del processo (X
n
).
Dimostrazione. Calcoliamo esplicitamente la quantit`a
E
_

X
N
(f)

2
_
= E
_

X
N
(f)

X
N
(f)
_
= E
_
N

k=N
X
N
k
e
j2fk
N

h=N
X
N
h
e
j2fh
_
= E
_
N

k=N
N

h=N
X
N
k
X
N
h
e
j2f(kh)
_
=
N

k=N
N

h=N
E
_
X
N
k
X
N
h
_
e
j2f(kh)
=
N

k=N
N

h=N
r
X
(k h)e
j2f(kh)
(4)
La sommatoria doppia si converte facilmente ad una singola sommatoria osservando che,
per ogni sequenza g(n), vale
N

k=N
N

h=N
g(k h) =
2N

=2N
_
2N + 1 [[
_
g(). (5)
Losservazione attenta e prolungata della gura qui sotto dovrebbe rendere la formula
precedente evidente. Infatti, per sommare i valori g(k h) su tutti i punti della griglia
quadrata (k, h) [N, N] [N, N], tracciata in gura per N = 3, si pu`o sommare lungo
le diagonali = k h. La diagonale principale corrisponde a = 0 e contiene 2N + 1
226
termini (7 in gura) uguali a g(0), che danno contributo (2N + 1)g(0) alla sommatoria.
La prima sopra-diagonale `e = 1 che contiene 2N + 1 termini (6 in gura) uguali a
g(1) che danno contributo (2N + 1 1)g(1) alla sommatoria. La prima sottodiagonale
corrisponde a = 1, e contiene 2N +11 = 2N +1[[ termini uguali a g(1) ecc. ecc.
Si procede cos` no alla sopradiagonale = 2N e alla sottodiagonale = 2N ognuna
delle quali contengono 2N+1[[ = 1 termine, g(2N) nella sopradiagonale e g(2N) nella
sottodiagonale. Per concludere si applichi la (5) alla (4), ponendo g(n) = r
X
(n)e
j2fn
.
k
h
l=k-h=0
l=k-h=-1
l=k-h=1
N=3
l=k-h=2N
l=k-h=-2N
Si ottiene
N

k=N
N

h=N
r
X
(k h)e
j2f(kh)
=
2N

=2N
_
2N + 1 [[
_
r
X
()e
j2f
dividendo per 2N + 1 e passando al limite per N
lim
N
1
2N+1
E
_

X
N
(f)

2
_
= lim
N
1
2N+1
2N

=2N
_
2N + 1 [[
_
r
X
()e
j2f
=
2N

=2N
_
1
[[
2N+1
_
r
X
()e
j2f
=

=
r
X
()e
j2f
= R
X
(f)
Corollario. La densit`a spettrale di potenza `e non negativa
R
X
(f) 0, per ogni f [0, 1].
Dimostrazione.
1
2N+1
E
_

X
N
(f)

2
_
0 per ogni N, e la disuguaglianza di preserva al
limite per N .
Il teorema vale anche nel caso di processi a tempo continuo, ma `e necessario precisare in
che senso vanno interpretati gli integrali che deniscono la serie di Fourier. Riportiamo il
risultato senza entrare nei dettagli succitati.
227
Teorema. (Wiener-Khinchin) Sia (X
t
)
tR
un processo del secondo ordine, debolmente
stazionario, allora
lim
T
1
2T
E
_

X
T
(f)

2
_
= R
X
(f), (6)
dove R
X
(f) =
_

r
X
()e
j2
d `e la densit`a spettrale del processo (X
t
) e

X
T
(f) :=
_
T
T
X
T
t
e
j2ft
dt, f R
`e la trasformata di Fourier del processo troncato X
T
t
:= X
t
1l
[T,T]
(t).
Esempio 1. Si consideri il processo stocastico a tempo continuo e stato continuo
X
t
= Acos 2f
0
t +Bsin 2f
0
t, t R
dove f
0
R
+
`e una costante nota, mentre A e B sono variabili aleatorie di media nulla,
varianza comune
2
e scorrelate, ovvero E(A) = E(B) = 0, E(A
2
) = E(B
2
) =
2
,
E(AB) = 0. La funzione media del processo `e
m
X
(t) = E(X
t
) = E(Acos 2f
0
t +Bsin 2f
0
t) = E(A) cos 2f
0
t +E(B) sin 2f
0
t = 0
La funzione di autocorrelazione (e autocovarianza) `e
r
X
(t +, t) = E(X
t+
X
t
)
= E
_
(Acos 2f
0
(t +) +Bsin 2f
0
(t +))(Acos 2f
0
t +Bsin 2f
0
t)
_
= E(A
2
) cos 2f
0
(t +) cos 2f
0
t +E(B
2
) sin 2f
0
(t +) sin 2f
0
t +E(AB)(xxx)
=
2
_
cos 2f
0
(t +) cos 2f
0
t + sin 2f
0
(t +) sin 2f
0
t
_
+ 0
=
2
cos 2f
dove abbiamo sfruttato la scorrelazione E(AB) = 0 ed usato la formula di sottrazione
del coseno. Poiche la media e costante e la funzione di scorrelazione non dipende da
t il processo `e del secondo ordine e debolmente stazionario. Indichiamo con m
X
= 0 la
media e con r
X
() =
2
cos(2f
0
) la funzione di covarianza. Ha senso calcolare la densit`a
spettrale di potenza che vale
R
X
(f) = T (r
X
()) =

2
2
_
(f f
0
) +(f +f
0
)

, f R
35.2 Processi stocastici del secondo ordine attraverso sistemi LTI
I risultati di questa sezione sono dinteresse sia per i processi a tempo contiuno che per
quelli discreti. interessano sia per i processi a tempo continuo che per quelli a tempo
discreto. La teoria a tempo continuo richiederebbe qualche precisazione sul senso in cui
vanno intesi gli integrali perch`e un processo stocastico a tempo continuo potrebbe avere
traiettorie che non sono integrabili secondo Riemann. Aggiungeremo queste considerazioni
in una futura appendice alla lezione. In questo paragrafo tutto `e scritto per il caso a tempo
continuo. Microesercizio. Trascivere tutti i risultati per il caso tempo discreto,
Sia h() la risposta impulsiva di un sistema LTI stabile L. Intendiamo studiare luscita
del sistema L quando lingresso `e un processo stocastico X
t
del secondo ordine. Per quanto
noto dal corso di Segnali e Sistemi
Y
t
=
_

X
t
d
228
Lemma. Se il processo dingresso (X
t
) `e del secondo ordine, allora il processo di uscita
(Y
t
) `e del secondo ordine ed ha funzione media
m
Y
(t) = h(t) m
X
(t), (7)
e funzione di autocorrelazione
r
Y
(t +, ) = E(Y
t+
Y

)
=
_

h(s)h()r
X
(t + s, t ) dsd (8)
Dimostrazione. Il calcolo diretto fornisce
m
Y
(t) = E(Y
t
) = E
__

X
t
d
_
=
_

E(X
t
) d =
_

m
X
(t ) d
= h(t) m
X
(t).
Per la funzione di autocorrelazione si ha
r
Y
(t +, ) = E(Y
t+
Y

)
= E
__

h(s)X
t+s
ds
_

h()X
t
d
_
=
_

h(s)h()E(X
t+s
X
t
) dsd
=
_

h(s)h()r
X
(t + s, t ) dsd
Teorema. Se il processo dingresso (X
t
) `e del secondo ordine e debolmente stazionario,
allora luscita `e del secondo ordine e debolmente stazionaria, la media `e
m
Y
= h(t) m
X
= H(0) m
X
,
dove H(0) `e il guadagno in continua, cio`e il valore della risposta in frequenza nellorigine.
La funzione di autocorrelazione di (Y
t
) `e
r
Y
() =
_

h(s)h()r
X
( + s) dsd (9)
Dimostrazione. Per la media, in conseguenza di (7) si ha
m
Y
(t) = h(t)m
X
=
__
h() d
_
m
X
= H(0)m
X
.
Per la stazionariet`a debole resta da vericare lindipendenza da t della funzione di auto-
correlazione. Usando la (8) si trova
r
Y
(t +, ) =
_

h(s)h()r
X
(t + s, t ) dsd
=
_

h(s)h()r
X
(t + s (t )) dsd
=
_

h(s)h()r
X
( + s) dsd = r
Y
()
229
che, non dipendendo da t `e denotata r
Y
().
Lespressione analitica di r
Y
() non `e particolarmente illuminante, ma `e facile deter-
minare la densit`a spettrale R
Y
(f).
Teorema. Sotto le precedenti ipotesi, la densit`a spettrale di (Y
t
) `e
R
Y
(f) = [H(f)[
2
R
X
(f)
Dimostrazione. Riprendendo lequazione (9), ed esprimendo r
X
() come antitrsformata
di R
X
(f), si trova
r
Y
() =
_

h(s)h()r
X
( + s) dsd
=
_

h(s)h()
__

R
X
(f)e
j2f(+s)
df
_
dsd
=
_

R
X
(f)e
j2f
_
_

h(s)e
j2fs
ds
_

h()e
j2f
d
_
df
=
_

R
X
(f)H(f)H(f) e
j2f
d
Lispezione dellultima espressione rivela che r
Y
() `e stato espresso come antitrasforma-
ta di Fourier della funzione R
X
(f) H(f)H(f) = R
X
(f)[H(f)[
2
. Poiche r
Y
() `e lanti-
trasformata della densit`a spettrale di (Y
t
), la conclusione R
Y
(f) = R
X
(f)[H(f)[
2
segue
necessariamente.
35.3 Interpretazione sica della densit`a spettrale di potenza
Per capire lorigine del nome densit`a spettrale di potenza `e utile considerare la sseguente
interpretazione sica. Sia X
t
un processo stocastico del secondo ordine, debolmente
stazionario.
`
E sempre possibile interpretare idealmente X
t
come segnale di corrente gener-
ato da una rete elettrica, che va a dissiparsi su una resistenza unitaria R = 1, vedi gura
qui sotto. La potenza istantanea che si dissipa sulla resistenza `e p(t) = v(t)i(t) = Ri
2
(t) =
X
t
R=1
X
2
t
. Interpretando X
t
come segnale di corrente, X
2
t
`e la potenza istantanea dissipata su
una resistenza unitaria. Poiche X
t
`e una variabile aleatoria, la potenza istantanea X
2
t
`e una variabile aleatoria. Il valore atteso della potenza istantanea `e E(X
2
t
). Poiche X
t
ammette densit`a spettrale di potenza, per quanto visto in precedenza `e
E(X
2
t
) = r
X
(0) =
_

R
X
(f) df
230
Quindi lintegrale della densit`a spettrale coincide con la potenza media (attenzione:
gli ingegneri dicono cos` per brevit`a, in realt`a intendono dire valore atteso della potenza
istantanea).
Valutiamo adesso il contributo alla potenza media fornito da ogni banda di frequenze.
Si considerino le frequenze f [f
0
, f
0
+ ], dove f
0
e sono ssati. Sia H(f) un ltro
passa banda ideale la cui risposta in frequenza `e
H(f) := 1l
[f
0
,f
0
+]
(f).
Se X
t
`e lingresso del sistema LTI H(f), il processo di uscita Y
t
consiste di tutte e sole
le componenti di X
t
contenute nella banda di frequenze [f
0
, f
0
+ ]. Applicando lultimo
teorema della precedente sezione si trova
R
Y
(f) = [H(f)[
2
R
X
(f) = R
X
(f)1l
[f
0
,f
0
+]
(f)
quindi il valore atteso della potenza istantanea Y
2
t
`e
E(Y
2
t
) =
_

R
Y
(f) df =
_

R
X
(f)1l
[f
0
,f
0
+]
(f) R
X
(f
0
)
dove lapprossimazione `e tanto migliore quanto pi` u piccola `e lampiezza dellintervallo
[f
0
, f
0
+ ]. Si pu`o rileggere lultima equazione come segue
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ]
_
R
X
(f
0
)
Per ogni f
0
punto di continuit`a di R
X
(f) vale
R
X
(f
0
) = lim
0
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ]
_

.
Tenendo a mente che nellinterpretazione sica X
2
t
`e misurato in Watt (potenza), lulti-
ma formula dimostra che R
X
(f) si misura in Watt/Herz, giusticando il nome densit`a
spettrale di potenza. Per maggior precisione, ma con minore ecacia, si potrebbe chia-
mare densit`a spettrale della potenza istantanea media oppure, con chiarezza cristallina ma
quasi illeggibile, densit`a spettrale del valore atteso della potenza istantanea. La chiarezza
raramente vende bene.
231
Lezione 36 (Luned`, 3 giugno 2013, ore 10:30-12:15)
36.1 Esercitazione in aula
232

Potrebbero piacerti anche