Sei sulla pagina 1di 71

Proprietà e teoremi 2021

Proprietà 1 della funzione di probabilità


Sia A un evento
P(A) ≥ 0
Proprietà 2 della funzione di probabilità
Visto che anche Ω è un evento

P(Ω) = =1

Proprietà 3 della funzione di probabilità: additività
La P è additiva.
A, B eventi incompatibili

P(A ∪ B) = P(A) + P(B)
Proprietà 4 della funzione di probabilità
∀ evento A
P(A) = 1 - P A C
Dimostrazione della proprietà 4
Ω = A ∪ AC
A ∩ A C = Φ perciò sono eventi incompatibili.
Allora posso scrivere questa catena di uguaglianze:
1 = P(Ω) = P A ∪ A C = P(A) + P A C
perciò:

P A C = 1 - P(A)
Proprietà 5 della funzione di probabilità
P(Φ) = 0
Dimostrazione della proprietà 5

Φ = ΩC
P(Φ) - P Ω C = 1 - P(Ω) = 1 - 1 = 0
Proprietà 6 della funzione di probabilità: Monotonia della probabilità
A, B eventi tali che A ⊂ B
Si ha che
P(A) ≤ P(B)

Dimostrazione della monotonia


Decomponiamo il nostro insieme B = A ∪ B ∩ A C (questa è una decomposizione
molto
comoda che useremo molto spesso) che crea una unione disgiunta.

NB A ∩ B ∩ A C = �

Allora posso applicare la additività di P:


P(B) = P(A) + P B ∩ A C ,
ma P B ∩ A C ≥ 0
perciò P(A) + P B ∩ A C ≥ P(A)
perciò otteniamo P(B) ≥ P(A)
Proprietà 7 della funzione di probabilità
La probabilità di ogni evento è un numero in [0, 1].
Dimostrazione proprietà 7
∀ evento A
� ⊂ A∪� = A = A∩Ω ⊂ Ω
Perchè intersecando Omega con un evento posso al massimo perdere delle cose,
sicuramente non aggiungernene.
A questo punto applico la monotonia della probabilità.
0 = P(�) ≤ P(A) ≤ P(Ω) = 1
Proprietà 8 della � - algebra
Non la dimostreremo.
L'interesezione di un numero arbitrario di � - algebre (finito, numerabile, infito non
numerabile) è ancora una � - algebra su Ω.
Teorema 9 Unicità della �(C)
La � - algebra generata dalla collezione arbitraria C di sottoinsiemi di Ω è unica
Dimostrazione per assurdo
Pensiamo che esistano due � - algebre generate da C.
Le chiamiamo F 1 , F 2
Per la definizione di �(F) ⟹ F 1 ⊂ F 2 ∧ F 2 ⊂ F 1 ⟹ F 1 = F 2
Teorema 10

Consideriamo G 1 = (-∞, a] , a ∈ R la famiglia delle semirette di R.


⏠⏣⏣ ⏡⏣⏣ ⏢
semiretta chiusa a destra
⟹ �(G 1 ) = B(R)
Dimostrazione
Prendiamo una semiretta (fissando a)
prendo esattamente tutti gli altri elementi
di R e ne faccio la complementazione
⏜⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟
C ⏞
(-∞, a] = (a, +∞)
⏠⏣⏣⏡⏣⏣

la riscrivo in questo modo
perché è un insieme aperto (gli estremi non sono inclusi

⫙ anche il complementare è da includere per le
proprietà della �-algebra
�(G 1 ) �(G)
⟹ �(G 1 ) ⊂ �(G)
⏠⏣⏣
⏡⏣⏣

al variare di a in R
Facciamo anche vedere il contrario
(a, b) , a < b
Prendo ⫙ essendo un aperto
�(G)
(a, b) = (-∞, a] C ∩ (-∞, b)

(a, +∞)
ogni singolo elemento
dell'unione ∈ �(G1 )
è una semiretta ∈ �(G1 ) che, essendo una,
che è una �-algebra �-algebra è chiusa R ∋ b n ↗ b, successione di numeri reali che tende a b
quindi le appartiene anche rispetto alla unione ∞
il suo complementare numerabile
⋃ (-∞, bn ] = (-∞, b)
⏜⏟⏟⏟⏟ ⏞ ⏜⏟⏟⏟
⏝⏟⏟⏟⏟
C ⋃
∞ ⏝⏟⏟⏟

= (-∞, a] n=1 ∩ n=1
(-∞, b n ]
⫙ ⫙
�(G 1 ) �(G 1 )
⏠⏣⏣⏣⏣⏣
∈ �⏡⏣⏣⏣⏣⏣
(G1 ) ⏢
⟹ �(G) ⊂ �(G 1 )
Posso perciò concludere:
�(G) = �(G 1 ) QED ⊠
Proprietà 11 1 della misura di probabilità

P(�) = 0
Dimostrazione
� = �∪�
� = �∩�
successione infinita
di insiemi vuoti

Allora considero la successione:


⏜⏟⏟⏟⏝⏟⏟⏟
( �)
⏞ e uso la � - additività:
n
∞ ∞
P(�) = P ⋃� = ∑ P(�) =0
i=1 i=1 ⏠⏣⏣
⏡⏣⏣
=0

Proprietà 12 2 della misura di probabilità (finito additività)


N
Prendo una successione di eventi (A n ) n=1 ⊂ F , A i ∩ A j = � ∀i ≠ j , N ∈ N *
Allora:
N N
P ⋃ Ai = ∑ P(A i )
i=1 i=1

Dimostrazione
A partire dalla mia successione di partenza, io costruisco una successione ausiliaria:

(B n ) n=1 / B i = A i , i = 1, … , N ⊛
B i = � , i = N + 1, N + 2, … ⊛⊛
NB (B i ) i è formatata da insiemi disgiunti (o eventi incompatbili che dir si voglia) per il
N
semplice fatto che (A n ) n=1 è formata da insiemi disgiunti per Hp.
Vogliamo provare ora che:
N ∞ ∞
P ⋃ Ai =P ⋃ Bi = ∑ P(Bi ) =
⏠⏣⏣
⏡⏣⏣

i=1 i=1 �-additività i=1

Prendo questa serie e la decompongo in due parti:


N N
= ∑ i=1 P(B i ) + ∑ i=N+1 P(B i ) = ∑ P(A i ) + ∑ i=N+1 P(�) = ∑ P(A i ) QED ⊠
N ∞ ∞

⏠⏣⏣⏣
⊛ Qui⏡⏣⏣⏣
Ai =B⏢
I
⏠⏣⏣⏣ ⏡⏣⏣⏣
⊛⊛ Qui B i =� ⏢
i=1 ⏠⏣⏣⏣ =⏡⏣⏣⏣
0 ⏢ i=1
Proprietà 13 3 della misura di probabilità
Sia l'evento A ∈ F, allora:

P A C = 1 - P(A)
Dimostrazione
Ω = A ∪ A C , A ∩ A C = � cosa evidente, sono per forza disgiunti per definizione di
complementare.
additività finita
⏜⏟⏟⏟
⏝⏟⏟⏟

1 = P(Ω) = = P(A) + P A C ⟹ P A C = 1 - P(A)
Proprietà 14 4 della misura di probabilità

∀A ∈ F , P(A) ∈ [0, 1]
Dimostrazione
P(A) ⩾ 0 , P A C ⩾ 0
per⏠⏣⏣⏣ ⏡⏣⏣⏣
il primo ⏢
assioma ⏠⏣⏣⏣
F è una⏡⏣⏣⏣ ⏢
�-algebra
perciò A C ∈F
Perciò vale di nuovo
il primo assioma
So poi che:
appena visto ⩾ 0
⏜⏟⏟⏟
⏝⏟⏟⏟

P(A) = 1 - P AC ⩽ 1 QED ⊠
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
appena dimostrato ⏢
Proprietà 15 5 della misura di probabiltià: monotonia
Due eventi A, B ∈ F / A ⊂ B ⟹ P(A) ⩽ P(B)
Dimostrazione
B = A∪ AC ∩ B
evento⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢con A
incompatibile
P(B) = P(A) + P A C ∩ B ⩾ P(A) QED ⊠
⏠⏣⏣⏡⏣⏣

finito additività ⏠⏣⏣⏣
⩾ 0 per⏡⏣⏣⏣ ⏢
il primo
assioma
Proprietà 16 6 della misura di probabilità
Eventi A, B ∈ F ⟹ P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Dimostrazione
A ∪ B = A ∪ A C ∩ B questi due insiemi sono disgiunti e quindi posso applicare la
finito-
additività

P(A ∪ B) = P(A) + P A C ∩ B (1)


⏠⏣⏣⏡⏣⏣

finito additività
Dopodiché B è sempre scomponibile nella seguente unione disgiunta:

B = (B ∩ A) ∪ B ∩ A C
P(B) = P(B ∩ A) + P B ∩ A C (2)
⏠⏣⏣⏡⏣⏣

finito additività
Prendo la parte quadrettata della equazione (1) e la sostituisco nella parte quadrettata
della
equazione (2).
P(B) = P(B ∩ A) + P(A ∪ B) - P(A)
P(A ∪ B) = P(B) + P(A) - P(A ∪ B) QED ⊠
Teorema 17 di inclusione/esclusione

Dimostrazione per induzione


Cioé l'enunciato vale per n e voglio dimostrare che vale anche per n+1.
Per n=2 lo abbiamo già dimostrato, quindi può farci da Base Induttiva.
Hp induttiva: l'enunciato vale per n
Th induttiva: voglio dimostrare che l'enunciato vale n+1.
Cioè voglio calcolare:
n+1
P ⋃ Ai = (3)
i=1

Abbiamo fra le mani solo la ipotesi induttiva, quindi dobbiamo cercare di utilizzarla.
n
=P ⋃ Ai ∪ A n+1 = (4)
i=1 ⏠⏣⏣
⏡⏣⏣

separo l'ultimo
Qui cosa possiamo fare?
Abbiamo due eventi quindi posso usare l'enunciato per n=2
n n
= P ⋃ i=1 A i + P(A n+1 ) - P( ⋃ i=1 A i ∩ A n+1 =
⏠⏣⏣ ⏡⏣⏣ ⏢ ⏠⏣⏣
⏡⏣⏣

probabiltà probabilità del secondo evento ⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
intersezione tra ⏢
i due eventi
primo evento
Adesso nel primo termine, sopra quadrettato, sto praticamente usando la Ipotesi induttiva.
Perciò sostituisco la ipotesi induttiva al suo posto:
n n n
∑ P(Ai ) - ∑ P(Ai ∪ Aj ) + ∑ P(Ai ∩ Aj ∩ Ak ) +…+ (-1) n+1 P(A1 ∩ A2 ∩…∩ An ) +
i=1 i<j i<j<k
n
+ P(A n+1 ) - P ⋃ i=1 A i ∪ A n+1
(5)
⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
il resto semplicemente lo riscrivo ⏢

n
NB prendiamo termine sottolineato in giallo P ⋃ Ai ∪ An+1 ⊛ lo vogliamo scrivere in
i=1
n
una maniera più utilizzabile: ⊛ = P( ⋃ A i ∩ A n+1
i=1 ⏠⏣⏣⏣ ⏡⏣⏣⏣
anziché intersecare ⏢ degli Ai
l'unione
interseca ogni singolo elemento
Ma anche in questo ultimo termine ho una unione di n eventi:
(A 1 ∩ A n+1 ; A 2 ∩ A n+1 ; … A n ∩ A n+1 ), ma allora io posso riapplicare la ipotesi
induttiva
qui.
n n
∑ P(A ∩ An+1 ) - ∑ P((Ai ∩ An+1 ) ∩ (Aj ∩ An+1 )) +
i=1 i<j
n
⊛ =
∑ P((Ai ∩ An+1 ) ∩ (Aj ∩ An+1 ) ∩ (Ak ∩ An+1 )) +…+
i<j<k
+(-1) n+1 P((A 1 ∩ A n+1 ) ∩ (A 2 ∩ A n+1 ) ∩…∩ (A n ∩ A n+1 )) =
Abbiamo perciò preso la nostra ipotesi induttiva e la abbiamo applicato al termine prima
sottolineato.
L'intersezione con A n+1 (sottolineata in arancione) è ridondante e compare moltissime
volte.
Quindi riscriviamo il termine di prima riducendo le intersezioni ridondanti:
basta intersecare una qui similmente a prima
volta solaanziché due eccetera
n n n
= ∑ P(A ∩ A n+1 ) - ∑ P A i ∩ A j ∩ A n+1 + ∑P
⏜⏟⏟⏟ ⏝⏟⏟⏟ ⏞ ⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
A ∩A ∩A ∩A
⏞ +…+
i j k n+1
i=1 i<j i<j<k
+(-1) n+1 P(A 1 ∩ A 2 ∩… A n ∩ A n+1 ) (6)
E con questo abbiamo ultima la riscrittura del termine sottolineato in giallo.
Adesso la mettiamo nella epressione (5), facendo attenzione che c'è il segno meno prima
della parte sottolineata, quindi dovrò cambiare tutti i segni.
(quadrettata la parte (6) che andiamo a sostituire in (5))
n+1 n n n
P ⋃ Ai = ∑ P(A i ) - ∑ P(Ai ∪ Aj ) + ∑ P(Ai ∩ Aj ∩ Ak ) +…+
i=1 i=1 i<j i<j<k
n+1
+(-1) P(A 1 ∩ A 2 ∩…∩ A n ) + P(A n+1 ) +
n n n
-∑ P(A i ∩ A n+1 ) + ∑ P(Ai ∩ Aj ∩ An+1 ) - ∑ P(Ai ∩ Aj ∩ Ak ∩ An+1 ) +…+
i=1 i<j i<j<k (7)
così da cambiare
segno anche qui
⏜⏟⏟⏟
⏝⏟⏟⏟

n+2
+(-1) P(A 1 ∩ A 2 ∩… A n ∩ A n+1 )
Ora guardando questa formula possiamo dire che nella parte sottolineata in azzurro la
doppia somma finisce ad n, cosa mi manca? Mi manca il valore di j quando j va fino ad
n+1.
E questa cosa che mi manca è proprio la parte sottolineata in verde.
Quindi quando j ha valore n+1 ho proprio il termine verde.
Quindi i termini del verde sono proprio quelli che mancano per portare il termine azzurro
ad
avere indice n+1.
Stessa cosa succede con il termine viola e quello verdeacqua (portare il termine viola a
n+1).
E così via per tutti i termini, fino al termine giallo e quello rosso.
Notiamo anche i due termini marroni che fanno una cosa simile portando la sommatoria
fino
ad n+1.

L'equazione (7) diventa allora:


n+1 n+1 n+1 n+1
P ⋃ Ai = ∑ P(A i ) - ∑ P(Ai ∪ Aj ) + ∑ P(Ai ∩ Aj ∩ Ak ) +…+
i=1 i=1 i<j i<j<k
che sarebbe
(n+1)+1
⏜⏟⏟⏟
⏝⏟⏟⏟

n+2
+(-1) P(A 1 ∩ A 2 ∩…∩ A n ) QED ⊠
Teorema 18 disuguaglianza di Boole - subadditività

Sia (A n ) n=1 successione di eventi. Allora:
∞ ∞
P ⋃ Ai ⩽ ∑ P(A i )
i=1 i=1

Dimostrazione
Facciamo la stessa cosa che abbiamo fatto nelle prime lezioni, prendiamo questio evento:

⋃ Ai e lo decompongo in una unione di eventi incompatibili (disgiunti, ad intersezione
i=1
nulla):

⋃ Ai = A1 ∪ A 1C ∩ A 2 ∪ A 1C ∩ A 2C ∩ A 3 ∪ A 1C ∩ A 2C ∩ A 3C ∩ A 4 ∪…
⏠⏣⏣⏡⏣⏣

i=1 tutto ciò che ⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
continuo ad intersecare tutti⏢
non è in A1 i precedenti con quello nuovo
così assicuro così da ottenere una unione
la intersezione disgiunta senza
nulla perdere elementi

Allora essendo una unione disgiunta posso usare la � - additività:



P ⋃ Ai = A 1 + P A 1C ∩ A 2 + P A 1C ∩ A 2C ∩ A 3 + P A 1C ∩ A 2C ∩ A 3C ∩ A 4 (8)
+…
i=1 ⏠⏣⏣⏣ ⏡⏣⏣⏣
⩽A
⏢ ⏠⏣⏣⏣ ⩽⏡A⏣⏣⏣ ⏢ ⏠⏣⏣⏣⏣ ⩽⏡
A⏣⏣⏣⏣ ⏢
2 3 4

Il primo termine lo lasciamo così come è, mentre invece, quello in arancione vorrei
confrontarlo con
A2
Siccome A 1C ∩ A 2 è dato dalla intersezione tra A 2 è un altro insieme per cui, al massimo,
rispetto ad A 2 , può perdere elementi, non certo guadagnarne, perciò:
A 1C ∩ A 2 ⊆ A 2
Posso allora scrivere un limite superiore di (8) sostituendo il termine arancione, sfruttando
la
proprietà di monotonia della probabilità.

(8) ⩽ A 1 + P(A 2 ) + P A 1C ∩ A 2C ∩ A 3 + P A 1C ∩ A 2C ∩ A 3C ∩ A 4 +…
Questo discorso lo devo fare per ogni singolo termine di (8):

(8) ⩽ A 1 + P(A 2 ) + P A 3 + P(A 4 ) +… QED ⊠


Teorema 19 di equivalenza
Così chiamato perchè permette di sostituire uno degli assiomi della definizione di
probabiltià
Dato uno spazio misurabile (Ω, F).
La funzione
la funzione P : F → R /
1. ∀A ∈ F, P(A) ⩾ 0
2. P(Ω) = 1
è � - additiva (e quindi è una misura di probabilità)

è continua e finito additiva
Dimostrazione � - additività ⟹ continuità

1 si considera una successione decrescente (B n ) n=1 all'insieme vuoto.

… B n+2 B n+1 Bn

Non mi resta che considerare un evento della successione e decomporlo in una


successione di eventi incompatibili:

B n = ⋃ B k ∩ B k+1
C

k=n
Prendiamo per esempio il termine ennesimo:
C
B n ∩ B n+1

… B n+2 B n+1 Bn
C
La parte arancione è B n+1 , ma essendo che la interseco con B n allora devo prende solo
la
parte contenuta in B n , cioè quella sbarrata in rosso.

C
A questo punto cosa sarà B n+1 ∩ B n+2 sarà l'anello colorato in azzurro.
Ho perciò una successione di "anelli" concentrici che non hanno nessun punto in comune.
Allora se sono disgiunti io vorrei calcolare la probabilità di essi, ricordando che abbiamo la
� - additività come ipotesi iniziale.
∞ ∞
P(B 1 ) = P ⋃ C
B k ∩ B k+1 = ∑P C
B k ∩ B k+1 < +∞
⏠⏣⏣
⏡⏣⏣

k=1 �-additività k=1

Sono sicuro che sia convergente perchè il primo termine della catena di uguaglianze è
P(B 1 ) che è una quantità < 1, e perciò sono sicuro che la sommatoria converge.

Devo studiare la continuità cioè il poter spostare il limite fuori e dentro la misura di
probabilità
+∞
lim P(B n ) = lim ∑P C
B k ∩ B k+1 =
n → +∞ n → +∞
k=n
+∞ n-1
= lim ∑ C
P B k ∩ B k+1 - ∑ k=1 P(B k ∩ B k+1 ) =
n → +∞ k=1
⏠⏣⏣⏣⏣⏣⏣⏣⏣
siccome nel passaggio prima ⏡⏣⏣⏣⏣⏣⏣⏣⏣ ⏢
si parte da n, ho fatto ripartire
la sommatoria da 1, ma ho sottratto tutti gli n-1 termini
precedenti, che nel passagio prima non c'erano
+∞ n-1
= ∑ P C
B k ∩ B k+1 - lim n → +∞ ∑ k=1 P(B k ∩ B k+1 ) =
k=1
⏠⏣⏣⏣⏣
questa ⏡⏣⏣⏣⏣
parte qua ⏢
non dipende
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢⏠⏣⏣⏣⏣
porto il limite
⏡⏣⏣⏣⏣
an ⏢ (9)
da n quindi può essere fuori dal dentro la
limite partentesi

La serie gialla e la serie azzurra sono la stessa serie, solo che una (quella azzurra) è
blocata al punto n-1.
Quando n va a infinito ci va anche la serie azzurra che recupera i termini "in meno"
rispetto
alla serie gialla.
La serie blu viene rinominata a n che converge che converge al valore della serie gialla,
perché la serie è una serie convergente.
Perciò la differenza tra due cose uguali non può che essere 0.
( 3) = 0
Cioè:

lim P(B n ) = 0 = P(�) = P lim B n


n → +∞ n → +∞


Quindi ho dimostrato la continuità, ma sotto la ipotesi che (B n ) n=1 tenda a �.
2 rilassare questa ipotesi molto stringente

Considerò una successione (D n ) n=1 una successione decrescente ad un insieme limite
arbitrario D:
D = lim D n
n → +∞

Costruisco una successione di insiemi artifciale (B n ) n=1 e la definisco nel seguente modo:

Bn = Dn ∩ D C
NB (B n ) n è decrescente B n ↘ � perchè all'aumentare di n D n si avvicina a D e quindi,
per definizione di complementare, la sua intersezione con D C ha sempre meno elementi.
Quindi:
se qui dentro mettessi
Dn ∩D C , tutto funzionerebbe

Dn =
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
B
⏞∪D
n

Notiamo inoltre che B n ∩ D = �, in quanto è ottenuto da una intersezione con il


complementare di D, allora posso applicare l'additività:
P(D n ) = P(B n ) + P(D)
⏠⏣⏣
⏡⏣⏣

applico la
additività
ora faccio il limite di tutte le grandezze che dipendono da n
B n tende a �
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟

lim P(D n ) = lim n → +∞ P(B n ) + P(D) = P(D)
n → +∞
⏠⏣⏣⏣⏣
=⏡⏣⏣⏣⏣
0 ⏢
Cioé:

lim P(D n ) = P lim D n


n → +∞ n → +∞

Perciò ho dimostrato la continuità anche in questo caso, cioé di decrescenza verso un


qualsiasi insieme.
3 Successione crescente ad un insieme arbitrario

Sia (C n ) n=1 successione crescente con limite arbitrario C.

Consideriamo la successione dei complementari C nC è una successione
n=1
decrescente
a CC.
Posso allora applicare 2 :

lim P C nC = P C C
n → +∞
Da questo ottengo:

lim P(C n ) = lim 1 - P C nC = 1- lim n → +∞ P C nC =


n → +∞ n → +∞
⏠⏣⏣⏣⏣
vale ⏡⏣⏣⏣⏣
la continuità perché è⏢una
successione decrescente
= 1 - P lim C nC = 1 - P C C
= P(C)
n → +∞
Quindi:

lim P(C n ) = P(C) = P lim C n


n → +∞ n → +∞

Quindi abbiamo dimostrato la continuità anche per una successione crescente ad un


insieme arbitrario.
4 consideriamo una successione qualsiasi

Sia la successione (A n ) n=1 dotata di limite arbitrario A.
Partiamo dal termine generico:
è uno dei termini
della intersezione
quindi al massimo perchè il primo termine
possono essere stati dell'unione è
tolti degli elementi lui stesso
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞ ⏜⏟⏟⏟
⏝⏟⏟⏟

⋂ Ak ⊂ An ⊂ ⋃ Ak
k⩾n k⩾n
Usiamo la monotonia della misura di probabilità:

P ⋂ Ak ⩽ P(A n ) ⩽ P ⋃ Ak
k⩾n k⩾n

Adesso applichiamo il limite:

lim P ⋂ Ak ⩽ lim P(A n ) ⩽ lim P ⋃ Ak


n → +∞ k⩾n n → +∞ n → +∞ k⩾n
⏠⏣⏣
⏡⏣⏣
⏢ ⏠⏣⏣
⏡⏣⏣

successione crescente successione decrescente
Adesso, sulle due successioni ai lati abbiamo dimostrato la continuità:

P lim ⋂ Ak ⩽ lim P(A n ) ⩽ P lim ⋃ Ak


n → +∞ n → +∞ n → +∞
k⩾n k⩾n

P lim inf A n ⩽ lim P(A n ) ⩽ P lim sup A n


n n → +∞ n


Ma io so che (A n ) n=1 ammette limite = A.
E per definizione il limite è uguale anche al limite superiore ed al limite inferiore.
P(A) ⩽ lim P(A n ) ⩽ P(A)
n → +∞
Cioé:

lim P(A n ) = P(A) = P lim A n QED ⊠


n → +∞ n → +∞

Abbiamo dimostrato la prima implicazione, ora facciamo:


Dimostrazione finito additività + continuità ⟹ � - additività

Consideriamo la successione (A n ) n=1 che deve essere formata da elementi disgiunti
perché stiamo usando la finito additività che ha questa cosa come ipotesi, perciò: A i ≠ A j = � ∀i ≠ j
Voglio adesso lavorare sulla quantità:
decompongo l'unione perché questa
è una unione infinita e io posso
solo usare la finito additività
+∞
P ⋃ An ⏜⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟
=
⏞P ⋃ k A ∪ ⋃ ∞ A
n=1 n n=k+1 n
=
n=1
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
ho ora un numero finito di ⏢
grandezze, 2, su cui posso applicare
la finito additività
∞ k ∞
=P ⋃
k
An
n=1
+P ⋃ A n = ∑ P(A n ) + P ⋃ An
⏠⏣⏣⏣ ⏡⏣⏣⏣⏢ n=k+1 n=1 n=k+1
questo è un numero finito
di termini quindi posso
riapplicare la finito additività
Il termine quadrettato è ancora infinito, quindi dobbiamo lavorarci sopra:

NB C k = ⋃ A n è una successione che dipende da k, all'aumentare di k farò sempre
n=k+1
meno unioni, perciò è una successione che decresce all'insieme vuoto.
Per far vedere questo possiamo mostrare che:

∀� ∈ C k , ∃ ⏨
k / � ∈ C⏨
k ⟹ � ∉ C j ∀j ≠ ⏨
k
⏠⏣⏣
⏡⏣⏣

per la disgiunzione degli An

Man mano che k cresce, la successione (C k ) k=1 escluderà tutti gli elementi e quindi
convergerà a �.
Proprio la disgiunzione degli elementi della successione porta a questa convergenza.

Abbiamo l'ipotesi di continuità, per essa:


facendo poi il limite, abbiamo usato la Hp di continuità
l'∞ finirà "al posto di k" e portato dentro il limite
notiamo che il limite non agisce come estremo della
su questo termine sommatoria ⏜⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟
= 0 perché P(�) ⏞
⏜⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟
∞ ⏞ ⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
k ⏞ ⏜⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟ ⏞
lim k → +∞ P ⋃ n=1 A n = lim k → +∞ ∑ n=1 P(A n ) + P lim k → +∞ C k
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
saltiamo il passaggio di scrivere⏢
⏠⏣⏣⏣
⏡⏣⏣⏣
=� ⏢
che questo è uguale a: Come abbiamo scritto sopra

∑ P(An )
1

Quindi:
∞ +∞
P ⋃ An = ∑ P(A n ) QED ⊠
n=1 n=1
Proposizione 20
Sia A ∈ F.
A è indipendente da ogni evento quasi-certo e da ogni evento quasi-impossibile.
Dimostrazione direttamente dalla definizione
Dobbiamo appunto far vedere che valga la definzione:
1 iniziamo a far vedere che vale per Ω e per �:
P A ∩ Ω = P(A) = P(A) ⋅ 1 = P(A) ⋅ P(Ω)
⏠⏣⏣
⏡⏣⏣
A⊂Ω

Perciò A è indipendente da Ω.

P A∩� = P(�) = 0 = 0 ⋅ P(A) = P(�)P(A)


⏠⏣⏣⏡⏣⏣ ⏢
rimane solo
l'insieme vuoto

Quindi A è indipendente da �
2 facciamolo adesso vedere per eventi quasi-certi e quasi-impossibili:
C ∈ F / P(C) = 1 P CC = 0
Noto che:

A = ( A ∩ C) ∪ A ∩ C C
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
solito trucchetto della ⏢
unione disgiunta

P(A) = P(A ∩ C) + P A ∩ C C
NB
0 ⩽ P A ∩ CC ⩽ P CC =0
⏠⏣⏣ ⏡⏣⏣

⏠⏣⏣⏣⏡⏣⏣⏣
monotonia
⏢ scritto prima
in giallo

P(A ∩ C) = P(A) = P(A) ⋅ 1 = P(A) ⋅ P(C) QED ⊠


⏠⏣⏣
⏡⏣⏣

=1 perchè
evento
quasi-certo

I ∈ F / P(I) = 0
0 ⩽ P(A ∩ I) ⩽ P(I) = 0
⏠⏣⏣⏡⏣⏣ ⏢
monotonia
Perciò:
P(A ∩ I) = 0 = 0 ⋅ (A) = P(I) ⋅ P(A) QED ⊠
Proprietà 21 degli eventi indipendenti
Se A, B ∈ F sono indipendenti, allora:
1. A, B C sono indipendenti.
2. A C , B sono indipendenti.
3. A C , B C sono indipendenti.
Dimostrazione solo la 1 perché tanto basta rietichettare per fare le altre due

A, B indipendenti ⟺ A, B C indipendenti
P A ∩ BC
Usiamo la nostra solo scomposizione in unione disgiunta:

A = (A ∩ B) ∪ A ∩ B C
P(A) = P(A ∩ B) + P A ∩ B C = P(A)P(B) + P A ∩ B C (10)
⏠⏣⏣⏣ ⏡⏣⏣⏣
indipendenti ⏢Hp
per
Quindi semplicemente riarrangiando gli elementi della equazione (4):

P A ∩ B C = P(A) - P(A)P(B) = P(A) 1 - P(B) = P(A)P B C QED ⊠


⏠⏣⏣ ⏢ ⏠⏣⏣⏣
⏡⏣⏣ ⏡⏣⏣

raccolgo P BC

Vale il verso opposto perché sono uguaglianze.


Osservazione 22
La mutua indipendenza implica l'indipendenza due a due.
Proposizione 23
sia (�, F, P) uno spazio di probabilità e siano A, B ∈ F / P(A) > 0, P(B) > 0.
Le seguenti affermazioni sono equivalenti:
1 P(A ∩ B) = P(A)P(B) indipendenza

2 P(A|B) = P(A)

3 P(B|A) = P(B)
Dimostrazione 1 ⟹ 2

per Hp di
indipendenza
⏜⏟⏟⏟
⏝⏟⏟⏟⏞
P(A ∩ B) P(A)P(B)
PB (A) = P(A|B) = = = P(A)
P(B) P(B)
Dimostrazione 2 ⟹ 1
Hp
⏜⏟⏟⏟ ⏝⏟⏟⏟ ⏞
P(A|B) = P(A)
P(A ∩ B)
P(A|B) =
P(B)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
definizione ⏢
Le mettiamo insieme e otteniamo:
P(A ∩ B) = P(A)P(B) QED ⊠
Dimostrazione 1 ⟺ 3
E' banale basta scambiare B con A e la dimostrazione la abbiamo appena fatta
Dimostrazione 2 ⟺ 3
P(A|B) = P(A)
P(A ∩ B) P(A ∩ B) P(B)
P(B|A) = = = P(A ∩ B) ⋅ = P(B) QED ⊠
P(A) P(A|B) P(A ∩ B)
⏠⏣⏣⏣ ⏡⏣⏣⏣
definizione⏢
al contrario
Proposizione 24
Sia (�, F, P) uno spazio di probabilità e sia B ∈ F / P(B) > 0, allora:
PB ( • ) = P( • |B)
è una misura di probabilità sempre sullo spazio misurabile (Ω, F).

Posso avere due spazi di probabilità:


(�, F, P) (�, F, PB )
Stesso spazio misurabile diverse funzioni di probabilità.
Dimostrazione 3 proprietà della misura di probabilità
è un evento ⩾0
⏜⏟⏟⏟
⏝⏟⏟⏟⏞
P(A ∩ B)
1 PB (A) = P(A|B) = ⩾0 ∀A ∈ F
P(B)
⏠⏣⏣
⏡⏣⏣

>0
per definizione di
probabilità condizionata
B⊂Ω
⏜⏟⏟
⏝⏟⏟

P Ω∩B P(B)
2 PB (Ω) = P(Ω|B) = =
=1
P(B) P(B)

3 sia (A n ) n=1 disgiunti 2 a 2, vediamo se vale la � - additività :
⊂Ai
quindi sarà disgiunto
da un altro Aj ∩B
che è sottoinsieme di
Aj che è disgiunto da Ai

P ⋃ i=1 A i ∩ B P ⋃ i=1
⏜⏟⏟⏟⏟
∞ ⏝⏟⏟⏟⏟
(A i ∩ B)

∞ ∞
PB ⋃ Ai =P ⋃ Ai |B = = =
i=1 i=1 P(B) P(B) ⏠⏣⏣
⏡⏣⏣

�-additività
di P

∑ P(A i ∩ B) ∞
P(A i ∩ B) ∞
=
i=1
= ∑ = ∑ PB Ai
P(B) ⏠⏣⏣
⏡⏣⏣

porto P(B) dentro i=1
P(B) i=1
tanto non dipende da i ⏠⏣⏣⏣ ⏡⏣⏣⏣
definizione di⏢
probabilità condizionata
⟹ PB è una misura di probabilità QED ⊠
Teorema 25 formula delle probabilità totali

(A n ) n=1 ⊂ F / sia una partizione dell'evento certo Ω
Sia
/ P(A i ) > 0 per i = 1, …

⋃ Ai = Ω, Ai ∩ Aj = � ∀i ≠ j
i=1
allora:

P(A) = ∑ P(A|A i )P(A i )
i=1

Dimostrazione
disgiunti fra loro
perché gli Ai sono
Ω disgiunti fra loro
=A ⏜⏟⏟ ∞ ∞
∞ ⏝⏟⏟

⏜⏟⏟
⏝⏟⏟

P(A) = P A ∩ Ω = P A ∩ ⋃ A i = P ⋃ ⏜⏟⏟⏟
⏝⏟⏟⏟
A∩A

i = ∑ P(A ∩ Ai )
i=1 ⏠⏣⏣
⏡⏣⏣

i=1 �-additività i=1

= ∑ P(A|Ai )P(Ai )
⏠⏣⏣
⏡⏣⏣

definizione di probabilità i=1
condizionata al contrario

Teorema 26 di Bayes

Sia (A n ) n=1 una partizione dell'evento certo Ω e
sia B ∈ F / P(B) > 0, P(A i ) > 0 ∀i
Allora:
P(B|A i )P(A i )
∀i = 1, 2, … , P(A i |B) = ∞
∑ P(B|A i )P(A i )
i=1
Dimostrazione
definizione
probabilità
condizionata

P(A i ∩ B)
⏜⏟⏟⏟
⏝⏟⏟⏟

P(B|A i )P(A i ) P(B|A i )P(A i )
P(A i |B) = = = ∞
⏠⏣⏣
⏡⏣⏣
⏢ P(B) P(B) ⏠⏣⏣
⏡⏣⏣⏢
definizione legge delle ∑ P(B|A i )P(A i )
probabilità probabilità totali
condizionata al denominatore i=1

Teorema 27
Dato uno spazio di probabilità (�, F, P) ed uno spazio misurabile (E, E)
∀B ∈ E, PX (B) = P ◦ X -1 (B)
è una misura di probabilità su (E, E).
Teorema 28
La funzione di distribuzione gode delle seguenti proprietà:
1. F X è non decrescente
2. F X è continua a destra
3. lim F X (X) = 1 ; lim F X (x) = 0
x→∞ x → -∞

Dimostrazione 1
Siano x, y ∈ R x < y consideriamo il seguente insieme:
{ � ∈ Ω / X(�) ⩽ x }
{ � ∈ Ω / X(�) ⩽ y }
Capiamo la relazione tra questi due insiemi: il primo è includo nel secondo:
{ � ∈ Ω / X(�) ⩽ x } ⊂ { � ∈ Ω / X(�) ⩽ y }
Allora posso usare la monotonia della mia misura di probabilità:
F X (x) = P(X ⩽ x) ⩽ P(X ⩽ y) = F X (y)
⏠⏣⏣⏣⏣⏣
P(A)⏡⏣⏣⏣⏣⏣
⩽P(B) ⏢

A⊂B

Dimostrazione 2
definizione di continuità a destra
⏜⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟

Vogliamo far vedere che:∀x 0 ⟹ lim x → x + F X (x) = F X (x 0 )
0

Definisco perciò una successione decrescente a x 0 da destra:


+∞
1
x0 +
n n=1
Definiamo la successione di insiemi:

1
A n = � ∈ Ω / X(�) ∈ x 0 , x 0 + (11)
n
Valutiamo allora:
definizione di funzione
definizione di distribuzione
di distribuzione
⏜⏟⏟⏟⏟ ⏞ ⏜⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟

1 1 1
FX x0 + = P X ⩽ x0 + =P � / X(�) ⩽ x 0 + =
n n n

1
= P { � / X(�) ⩽ x 0 } ∪ � / X(�) ∈ x 0 , x 0 + =
n
⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣
decompongo in unione di insiemi disgiunti, le parti gialle, ⏢
se unite, danno la parte arancione
1
= P(X ⩽ x 0 ) +P x0 < X ⩽ x0 + =
n
definizione ⏠⏣⏣⏣ ⏡⏣⏣⏣ d⏢
di funzione distribuzione
⏠⏣⏣⏣⏣
vediamo in (11)⏡⏣⏣⏣⏣ ⏢ An
che è proprio
= F X (x 0 ) + P(A n )
⏠⏣⏣
⏡⏣⏣

successione (An )n=1 ∞

che è decrescente che converge a � (12)


1
x0 , x0 +
n
gli estremi⏠⏣⏣⏣ ⏡⏣⏣⏣
si avvicinano ⏢ di più
sempre

Perciò l'equazione (12) è sostanzialmente:

1
FX x0 + = F X (x 0 ) + P(A n )
n
Quindi se faccio il limite a destra ed a sinistra:

1
lim F X x 0 + = F X (x 0 ) lim + P(A n ) = F X (x 0 ) + P lim A n =
n → +∞ n ⏠⏣⏣ ⏡⏣⏣ ⏢ n → +∞ n → +∞
non dipende
da n ⏠⏣⏣⏣ ⏡⏣⏣⏣
la probabilità ⏢
è continua
= F X (x 0 ) + P(�) = F X (x 0 )
Dimostrazione 3

lim F X (x) = lim P X⩽x = P(�) = 0


n → -∞ n → -∞ ⏠⏣⏣
⏡⏣⏣

x sempre più piccolo
lim F X (x) = lim P X⩾x = P(x ∈ R) = P(Ω) = 1
n → +∞ n → +∞ ⏠⏣⏣
⏡⏣⏣

x diventa enorme
Proposizione 29
X V.A. a valori in R. Siano a, b ∈ R, a < b.
Si ha:
1. P(a ⩽ X ⩽ b) = F X (b) - F X (a)
2. P(X = a) = F X (a) - lim F X (x)
x → a-
3. P(a ⩽ X ⩽ b) = F X (b) - lim F X (x)
x → a-
4. P(a < X < b) = lim F X (x) - F X (a)
x → b-
5. P(X > a) = 1 - F X (a)
6. P(X < a) = lim F X (x)
x → a-
7. P(X ⩾ a) = 1 - lim F X (x)
x → a-
Ovviamente tutte dipendono da come la funzione di distribuzione si comporta nei punti a
e b.
Di queste relazioni ci serve solo dimostrare la 2 perché essa racchiude la tecnica per
dimostrare le altre.
Dimostrazione 2
P(X = a) = P({ � ∈ Ω / X(�) = a }) (13)
Scriviamoci a parte l'evento:
{ � ∈ Ω / X(�) = a }
Lo voglio riscrivere come limite di una successione di eventi:
successione di eventi decrescente
⏜⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟

1
{ � ∈ Ω / X(�) = a } = lim � ∈ Ω/ a- < X(�) ⩽ a =
n → +∞ n
⏠⏣⏣⏣⏣
al crescere ⏡⏣⏣⏣⏣
di n questi ⏢
due si avvicinano
+∞
1
= ⋂ � ∈ Ω/a- < X(�) ⩽ a
⏠⏣⏣
⏡⏣⏣

definizione limite n=1
n (14)
successione di eventi
decrescente
Quindi:

1
P(X = a) = lim P � ∈ Ω/a- < X(�) ⩽ a ⊛
n → +∞ n (15)
⏠⏣⏣⏣⏣⏣
abbiamo ripreso (13⏡
) ⏣⏣⏣⏣⏣ ⏢
e ci abbiamo messo
la parte gialla trovata in (14)
NB
proprietà della
definizione di probabilità del
sottrazione complementare
insiemistica
⏜⏟⏟⏟⏝⏟⏟⏟⏞ ⏜⏟⏟⏟⏝⏟⏟⏟ C⏞
P(C ∖ D) = P( C ∩ D C ) = 1 - P C ∩ D C = 1 - P CC ∪ D =
⏠⏣⏣
⏡⏣⏣

De Morgan
= 1 - P C C - P(D) = P(C) - P(D)
⏠⏣⏣
⏡⏣⏣

disgiunti (16)
quindi applico
la additività
Adesso usiamo ciò che abbiamo fatto in (16) dentro (15), poniamo:
C = { � / X(�) ⩽ a }
1
D = � / X(�) ⩽ a -
n
1
D C = � / X(�) > a - (17)
n
Sostituiamo le definizioni di (17) dentro (15) e vediamo che diventa identico a (16) e
perciò
vale.
Perciò:

1
⊛ = lim P({ � / X(�) ⩽ a }) - P � / X(�) ⩽ a - =
n → +∞
⏠⏣⏣⏣⏣ n
definizione⏡⏣⏣⏣⏣
di funzione⏢
di distribuzione
porto qui tanto
il termine prima
non dipende da n
(18)
= F X ( a) -
⏜⏟⏟⏟
lim
⏞F a - 1 = F (a) - lim F (x)
⏝⏟⏟⏟ QED ⊠
X X X
n → +∞ -
n x→a

Osservazione 30
Se F X è continua si ha che:
questo è uguale
al limite in azzurro in (18)
perchè la funzione di
distribuzione è continua
a destra per definizione

P(X = a) = F X (a) -
⏜⏟⏟⏟⏟⏝⏟⏟⏟⏟
F X ( a)
⏞ = 0 ∀a ∈ R

Osservazione 31
La densità discreta è nulla su R ∖ S.
E' positiva su S.
Osservazione 32

Consideriamo S = ⋃ { xi } / xi ∈ S, ∀i
i=1
∞ ∞ ∞
1 = P X (S) = PX ⋃ { xi } = ∑ P X ({ x i }) = ∑ P(X = x i )
i=1 i=1 i=1
Osservazione 33

F X (x) = P(X ⩽ x) = , x ∈ R

= PX ⋃ { xi } = P ⋃ { � ∈ Ω / X(�) = xi } = ∑ P(X = xi )
i / xi ⩽ x i/xi ⩽x i/xi ⩽x
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
i punti alla
sinistra di x

Proprietà 34 Assenza di memoria


Fissato m > 0 , sia X ∼ GE(p). Allora
P(X = k + m|X > k) = P(X = m)
Dimostrazione
è evidente che X=k+m ⊂ X>k
perchè se X=k+m allora è anche
più grande di k, ma anziché parlare
di un solo valore prendo un qualunque
valore maggiore di k
⏜⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟
intersezione tra i due eventi ⏞

P
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
X = k + m, X > k

P(X = k + m|X > k) = =
P(X > k)
⏠⏣⏣⏣⏣⏣⏣
definizione ⏡
di⏣⏣⏣⏣⏣⏣
probabilità ⏢
condizionata
densità discreta
GE(p)
⏜⏟⏟⏟
⏝⏟⏟⏟⏞
k+m-1
P(x = k + m) p( 1 - p) p(1 - p) k+m-1
= = ∞
= ∞ k
=
P(X > k)
∑ p(1 - p) j-1 ∑ p(1 - p) j-1 - ∑ p(1 - p) j-1
j=k+1 j=1 j=1
⏠⏣⏣⏣ ⏡⏣⏣⏣
siccome guardo ⏢
X>k ⏠⏣⏣⏣ ⏡⏣⏣⏣
serie geometrica⏢ somma
⏠⏣⏣⏣ ⏡⏣⏣⏣
parziale ⏢
della
devo andare da k+1 fino ad ∞ serie geometrica
⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
scriviamoci la serie ⏢
completa e togliamo i termini
che abbiamo aggiunto
p(1 - p) k+m-1 p(1 - p) k+m-1
= = k
= p(1 - p) m-1 = P(X = m) QED ⊠
1 1-(1-p) k 1 - 1 + ( 1 - p)
p 1 - (1 - p ) - p 1 - (1 - p )
Osservazione 35
(X,Y) vettore aleatorio discreto.
Sia F (X,Y) (x, y) la funzione di distribuzione congiunta del vettore (X,Y).
Allora:
scriviamo
con gli eventi
⏜⏟⏟
⏝⏟⏟⏟

lim F (X,Y) (x, y) = lim P(X ⩽ x, Y ⩽ y) =
x → +∞ x → +∞
= P lim { � ∈ Ω / X(�) ⩽ x } ∩ { � ∈ Ω / Y(�) ⩽ y }
x → +∞
⏠⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣
chiamiamolo evento Ex ⏢
NB la collezione di insiemi (E x ) x∈R è crescente per x → +∞

=P ⋃ Ex = P({ � ∈ Ω / Y(�) ⩽ y }) = F Y (y)


x∈R

Osservazione 36
Sia (X,Y) vettore aleatorio discreto (supporto al più numerabile), allora abbiamo:

P(X = x i ) = ∑ P(X = x i , Y = y j )
j

Dimostrazione

F (X,Y) (x, y) = ∑ ∑ P(X = xi , Y = yj ) dove (x i , y i ) ∈ S, ∀i (19)


i/xi ⩽x j/xj ⩽y
equazione (19)
⏜⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟

F X (x) = lim F (X,Y) (x, y) = lim ∑ ∑ P(X = x i , Y = y j ) =
y → +∞ y → +∞ i/x ⩽x j/x ⩽y
i j

= ∑
j
∑ P(X = xi , Y = yj ) = ∑ ∑ P(X = xi , Y = yj )
⏠⏣⏣⏡⏣⏣
⏢ i/xi ⩽x i/xi ⩽x j
sommatoria su
tutti i valori di
j perchè ho
mandato a ∞
Le due parti sottolineate sono uguagliate:

F X ( x) = ∑ ∑ P(X = xi , Y = yj )
⏠⏣⏣
⏡⏣⏣
⏢ i/xi ⩽x j
∑ P(X=xi )
i/xi ⩽x
Proprietà 37 legame della Poisson con le Binomiali
La V.A. di Poisson altro non è che una V.A. binomiale basata su di un esperimento
probabilistico con un elevato numero di prove nelle quali la probabilità di successo è
molto
bassa
Dimostrazione
Sia:
(Xn ) n∈N *
una successione di V.A. binomiali tali che:


Xn ∼ BIN n, , ∀n ∈ + N *
n
k n-k
n � � (20)
P(Xn = k) = 1-
k n n
Cosa succede per n → +∞
Riscrivo (20) ma con il limite:
n-k

1-
n

k ⏜⏟⏟⏟⏟
n⏝⏟⏟⏟⏟

-k
n! � � �
lim P(Xn = k) = lim 1- 1- =
n → +∞ n → +∞ k!(n - k)! n n n
n(n - 1) ⋅…⋅ (n - k + 1)(n - k)!
(n - k)!

�k
⏜⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟ ⏞
n(n - 1) ⋅…⋅ (n - k + 1) �
n

-k

= lim 1- = 1-
k! n → +∞ nk n n
⏠⏣⏣⏡⏣⏣

porto fuori ⏠⏣⏣⏣⏣⏣
=⏡⏣⏣⏣⏣⏣
1 ⏢ limite
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
notevole ⏠⏣⏣⏣
=⏡⏣⏣⏣
1 ⏢
dal limite
tutto ciò che non al numeratore ho k termini = e -� per n → +∞
dipende da n siccome al denominatore ho n k per n → +∞
posso semplicemente prendere
ogni termine (che è meno di n)
e dividerlo per n
� k -k
= e
k!
Quindi il limite di questa successione di Binomiali diventa una Poisson. QED ⊠
Proprietà 38 di composizione per le Variabili Aleatorie
Sia X una V.A. , X : Ω → R con funzione di disttribuzione F X e sia g : R → R una
funzione
borel-misurabile (cioè misurabile rispetto alla � - algebra di Borel).
Allora la funzione:
Y = g◦X:Ω→R
è una Variabile Aleatoria.
Dimostrazione
Consideriamo lo spazio di probabilità:
(�, F, P)
E tramite la V.A. andiamo in R e tramite g "riandiamo" in R.
Y mi fa invece fare il salto diretto.

Ω X g
R R

Y = g◦X
Allora:
∀B ∈ B(R)
Y (B) = � ∈ Ω / Y(�) ∈ B } = { � ∈ Ω / (g ◦ X)(�) ∈ B } = � ∈ Ω / X(�) ∈ g -1 (B)
-1

Notiamo che:
• B ∈ B(R) perché l'ho scelto io
• g -1 (B) ∈ B(R) per la misurabilità di g
X -1 g -1 (B) ∈ F
• ∥ per la misurabilità di X
-1
Y (B)
Quindi è misurabile e quindi è una V.A.

Visto che Y è una V.A. allora:


(�, F, P) ↷ (R, B(R), PY )
e

P Y (B) = P(Y ∈ B) = P(g ◦ X) ∈ B) = P X ∈ g -1 (B)


⏠⏣⏣ ⏡⏣⏣ ⏢
lo chiamo
C∈B(R)
Perciò io posso valutare la denistà discreta di Y tramite la distribuzione di probabilità della
X
e la funzione g QED ⊠
Proposizione 39
Consideriamo U e V due V.A. discrete con funzione di di densità dicreta:
P(U = u, V = v) = p(u, v)
Consideriamo:
Z = U+V
La V.A. Z ha densità discreta:
la seconda
Densità doppia la calcolo in
del vettore (U,V) questo modo

= ∑ ⏜⏟⏟⏟
⏝⏟⏟⏟ ⏜⏟⏟
⏝⏟⏟

f z ( z) p ⏞ t , z-t =
⏠⏣⏣
⏡⏣⏣

densità discreta
t ⏦
la prima coordinata
la calcolo "normalmente"
di Z
nella variabile

= ∑ t p(z - t, t)
⏠⏣⏣⏣ ⏡⏣⏣⏣
equivalentemente ⏢
posso
scambiare il calcolo delle
coordinate

Dimostrazione

P(U + V = z) = ∑ ∑ P(U = u, V = v) =
(u,v)/u+v=z

= ∑ ∑ P(U = u, V = v) = ∑ P(U = z - v, V = v) =
(u,v)/u=z-v v

= ∑ p(z - v, v) QED ⊠
v
⏠⏣⏣⏣
riscritto ⏡⏣⏣⏣
in ⏢
notazione
abbreviata
Dimostrare la seconda formula si fa scambiando semplicemente le variabili
Osservazione 40 [(U,V) indipendenti]
Se U,V, sono indipendenti allora la densità discreta si fatorizza:
p(u, v) = p 1 (u)p 2 (v)
e quindi:

P(U + V = z) = ∑ p 1 (z - v)p 2 (u)


v

Osservazione 41
Il valore atteso di una V.A. q.c non negativa può assumere valori:
< +∞
EX :
= +∞
Proprietà 42 Valore atteso per una qualsiasi V.A.
Valore atteso per una qualunque V.A.
Sia X una V.A. discreta a valori reali.
Sia X + = MAX(X, 0)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
parte positiva di X ⏢
Sia X - = MIN(X, 0)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
parte negativa di X ⏢
Sia X + che X - sonoi due variabili aleatorie quasi certamente positive.
Allora:
Finito
±∞
∄ → Nel caso
i valori di EX + e EX -
EX = EX + - EX - =
diano una somma non definita
Esempio EX + = EX - = + ∞
Allora :
EX + - EX - = + ∞ - ∞ = ∄
Osservazione 43

E|X| = EX + + EX - (21)

Osservazione 44
Se lavoro su (21)
cambio la definizione perché sto usando
definizione di valore atteso la parte negativa
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
⏞ ⏜⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟

E|X| = ∑ x i P(X = x i ) + ∑ (-x i )P(X = x i ) =
i/ xi ⩾ 0 i/ xi ⩽ 0
⏠⏣⏣
⏡⏣⏣
⏢ ⏠⏣⏣
⏡⏣⏣

sommatoria sommatoria
della parte della parte
positiva negativa

= ∑ |x i |P(X = x i )
i=1
Posso vedere come io voglia il valore atteso del modulo di X io debba usare nella formula
i
moduli dei valori del supporto.
Teorema 45
Sia Z una V.A. ottenuta come
Z = f(X = (X1 , … Xn )) = f(X1 , X - 2, … Xn )
Dove:
f : Rn → R
è borel-misurabile.
Diciamo che Z è integrabile se:

∑ |f x 1i , … , x ni | ⋅ P X1 = x 1i , X2 = x 2i , … , Xn = x ni < + ∞
i=1 ⏦
i-esimo
punto del supporto
di X1

Dove:
+∞
SX = x 1i , … , x ni
i=1
Inoltre:

EZ = ∑ f x 1i , … , x ni P X1 = x 1i , X2 = x 2i , … , Xn = x ni
i=1

Dimostrazione
Studiare:

E|Z| = ∑ |z i |P(Z = z i )
i=1
Dove:
SZ = { z1 , z2 , … }
Usiamo ora degli insiemi che chiamo:
A j = {(x 1 , … x n ) / f(x 1 , … , x n ) = z j } = f -1 (z j ) (22)
Considero l'evento
{ Z = z j } = { � ∈ Ω / Z(�) = z j } = { � ∈ Ω / f(X1 , … Xn )(�) = z j } =
= ⋃ x∈A { X1 = x 1 , … , Xn = x n }
j

⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
tutti quei punti del tipoX ⏢
1 =x 1 ,…,X n =x dove
il mio vettore x(x1 ,…xn ) viaggia in nel j-esimo
insieme Aj , quello relativo a zj , definito in (22)

Quindi:

P(Z = z j ) = ∑ x∈A P(X1 = x 1 , … , Xn = x n )


j (23)
⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣
quindi adesso ho una rappresentazione ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣
della probabilità di Z=zj in termini degli elementi⏢del supporto della V.A. X

Otteniamo:
questo è funzione
di x=(x1 ,…xn )
∞ ∞
∑ |zj |P(Z = zj ) = ∑ ⏜⏟⏟⏟
⏝⏟⏟⏟
|z j |
⏞P(X = x , … , X = x ) =
1 1 n n
j=1 j=1
⏠⏣⏣⏣⏣⏣⏣⏣⏣
ciò che abbiamo ottenuto in⏡⏣⏣⏣⏣⏣⏣⏣⏣
(23) a cui abbiamo aggiunto⏢
la moltiplicazione per |zj |

= ∑ ∑ |f(x 1 , … , x n )|P(X1 = x 1 , … , Xn = x n ) =
j=1 x∈Aj
⏠⏣⏣
⏡⏣⏣

sto sommando per tutti i
valori di j
e per ogni j considero tutti
gli elementi di Aj
Glodabalmente sto sommando
su tutti i valori del supporto del
vettore aleatorio X=(X1 ,.....,Xn )
tutti i punti delo supporto


⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟ ⏞
= |f x 1i , … , x ni | P X1 = x 1i , … , Xn = x ni
i=1
⏠⏣⏣
⏡⏣⏣

basta una
sola somma

Se la parte arancione alla fine è finita < +∞ allora lo è anche la parte azzurra all'inizio, e
perciò Z è integrabile, per definizione di integrabilità.

Naturalmente qui cè anche il caso unidimensionale, basta porre n = 1.

Calcoliamo ora:
∞ ∞
EZ = ∑ z j P(Z = z j ) = ∑ z j ∑ P(X1 = x 1 , … , Xn = x n ) =
j=1 j=1 x∈Aj
stessi passaggi di prima manca solo il modulo a z j

= ∑ ∑ f(x 1 , … , x n )P(X1 = x 1 , … , Xn = x n ) =
j=1 x∈Aj

= ∑ f x 1i , … , x ni P X1 = x 1i , … , Xn = x ni
i=1

Proprietà 46 1 del valore atteso


Date X,Y V.A. integrabili, si ha:
1) EcX = cEX , ∀c ∈ R
2) E[X + Y] = EX + EY
Cioè il valore atteso è un operatore lineare.
Dimostrazione
Usiamo il teorema precedente.

R2 → R
f:
(x, y) ⇝ x + y
Dobbiamo fare vedere che la V.A. è integrabile e poi calcolarne E.

∑ ∑ |f(xi , yi )| ⋅ P(X = xi , Y = yj ) =
i j
è proprio il risultato dovendo far vedere che
della funzione che converge va bene anche
abbiamo definito nell Hp la disuguaglianza

= ∑∑
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
|x i + y j |
⏞ ⋅ P(X = x , Y = y )⏜⏟⏟⏟

⩽⏟⏟⏟

i j
i j
disuguaglianza
triangolare NDS

⩽ ∑ ∑ (|x i | + |y j |) ⋅ P(X = x i , Y = y j ) =
⏜⏟⏟⏟
⏝⏟⏟⏟

i j
divido la somma negli addendi relativi ad i e a quelli relativi a j
⏜⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟

= ∑∑ |x i | ⋅ P(X = x i , Y = y j ) ∑ ∑
i j
|y j | ⋅ P(X = x i , Y = y j )
i j ⏠⏣⏣
⏡⏣⏣ ⏢
non dipende da j ⏠⏣⏣
⏡⏣⏣

giriamo queste
si può portare fuori due sommatorie
tanto è uguale

∑∑ |x i | ⋅ P(X = x i , Y = y j )∑ ∑ |y j | ⋅ P(X = x i , Y = y j ) =
i j ⏠⏣⏣
⏡⏣⏣
⏢ j i ⏠⏣⏣
⏡⏣⏣⏢
non dipende da j non dipende da i
si può portare fuori si può portare fuori

= ∑ |x i | ∑ ⋅ P(X = x i , Y = y j ) ∑ |y j | ∑ ⋅ P(X = x i , Y = y j ) =
i j j i
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
sto facnedo una ⏢
somma su j di
⏠⏣⏣⏣⏣⏣
sto ⏡⏣⏣⏣⏣⏣
facendo la somma ⏢
su i di tutti
tutti i valori del supporto della Y i valori del supporto della congiunta X
sto quindi
marginalizzando
⏜⏟⏟⏟
⏝⏟⏟⏟
=
⏞ ∑ |x | P(X = x ) ∑ |y | P(Y = y )
i i j j
i ⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢ j (24)
per effetto della ⏠⏣⏣⏣
per ⏡⏣⏣⏣
effetto ⏢
della
maginalizzazione maginalizzazione
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢
X e Y sono integrabili per ipotesi perciò le due quantità in (24) sono finite
Perciò la V.A. somma delle nostre due variabili aleatorie è integrabile, dobbiamo ora
calcolarne il valore atteso:

E(X + Y) = ∑ ∑ (x i + y j ) ⋅ P(X = x i , Y = y j ) =
i j
= ∑ x i ∑ P(X = x i , Y = y j ) + ∑ y j ∑ P(X = x i , Y = y j ) =
i j j i
⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣
marginalizziamo da una parte e ⏢
marginalizziamo dall'altra nei due addenti
per effetto della
marginalizzazione
ottengo
⏜⏟⏟⏟ ⏞∑ x P(X = x )∑ y P(Y = y ) = EX + EY
⏝⏟⏟⏟
= i i j j
i j

Proprietà 47 2 del valore atteso


Monotonia del valore atteso
X,Y V.A. unidimensionali, a valori reali, integrabili.
1. se P(X ⩾ Y) = 1 ⟹ EX ⩾ EY
2. |EX| ⩽ E|X|
Dimostrazione del punto 1

Z = X-Y
Grazie alla proprietà precedente so che, se X e Y sono integrabili, Z sono integrabili.
Prendo allora il fatto che:
1 = P(X ⩾ Y) ⟺ P(Z ⩾ 0) = 1

∑ 1 [0,+∞] (z i )P(Z = z i )
i
⏠⏣⏣⏣⏣⏣
somma dei valori delle probabilità degli ⏡⏣⏣⏣⏣⏣ ⏢
elementi non negatividel supporto della Z
Quindi:

EZ = ∑ zi ⋅ P(Z = z i )
i ⏦
⩾0 ⏠⏣⏣⏣
⏡⏣⏣⏣
⩾0 ⏢
perchè Z è una V.A. per def. di
q.c. non negativa per Hp probabilità
Cioé:
E(X - Y) ⩾ 0
sfruttando la linearità del valore atteso
EX - EY ⩾ 0
mat
EX ⩾ EY QED ⊠
Dimostrazione del punto 2
Dati x, y ∈ R è evidente che se |x| ⩽ |y| ⟺ -|y| ⩽ x ⩽ |y|
Quindi passando alle variabili aleatorie:
-|X| ⩽ X ⩽ |X|
Applico il valore atteso in tutti i membri:
-E|X| ⩽ EX ⩽ E|X|
Cioè
|EX| ⩽ E|X|
Proprietà 48 di EX
Da X V.A. discreta unidimensionale a valori reali.
Se X è limitata (cioé ∃m > 0 / P(|X| < m) = 1) cioè S ⊂ [-m; m]
Allora è integrabile:
Dimostrazione
maggioro ogni |xi |
con m e lo porto
fuori dalla sommatoria
⏜⏟⏟⏟
⏝⏟⏟⏟

∑ |xi |P(X = xi ) ⩽ m ∑ i P(X = x i ) = m
⏠⏣⏣⏡⏣⏣

i siccome il supporto ⏠⏣⏣⏣
=⏡⏣⏣⏣
1 ⏢
è maggiorata da -m e m
probabilità di tutti
i valori del supporto
Essendo minore di un valore finito è per forza finita e perciò integrabile
Proposizione 49
Sia X,Y VV.AA. discrete, unidimensionali a valori reali e tali che:
|X| ⩽ |Y| q. c. (25)
Quando dò delle uguaglianze o disuguaglianze su V.A. assumo che valgano quasi
certamente.
Quindi in questo caso (25) diventa:
P(|X| ⩽ |Y|) = 1
Allora se Y è integrabile anche X lo è.
Dimostrazione

∑ |xi |P(X = xi ) (26)


i
Penso al contrario della marginalizzazione, cioè scrivere (26) come risultato come
risultato
di una marginalizzazione sul vattore X,Y

(26) = ∑ |x i |∑ P(X = x i , Y = y j ) (27)


i j

Ora usa la Hp io posso maggiorare il modulo di |x i | con |y j | perché ho l'ipotesi che |X| ⩽ |Y| q. c.

(27) ⩽ ∑ ∑ |y j |P(X = x i , Y = y j )
i j
Ora faccio la marginalizzazione, ma rispetto all'altra variabile cioé ottengo la V.A.

= ∑ |y j |P(Y = y j )
j
Che sono sicuro essere una quantità finita ciò rende anche (26) una quantità finita e
quindi
anche X è una V.A.
Proposizione 50
Siano X,Y VV.AA. discrete a valori in R indipendenti e integrabili.
Allora XY è integrabile e:
EXY = EXEY
Dimostrazione

∑ ∑ |x i
⋅ y j |P(X = x i , Y = y j ) =
i j
X e Y integrabnili per Hp
sono indipendenti
⏜⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟

= ∑ ∑ |x i ⋅ y j |P(X = x i )P(Y = y j ) = ∑ i |x i |P(X = x i ) ⋅ ∑ j |y j |P(Y = y j ) < + ∞
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟ ⏞
i j
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢ ⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢
Inoltre:

EXY = ∑ ∑ x i ⋅ y j P(X = x i , Y = y j ) = ∑ x i P(X = x i ) ⋅ ∑ y j P(Y = y j ) =


i j i j
= EXEY
Osservazione 51

VarX = E(X - EX) 2 = E X 2 + (EX) 2 - 2XEX =


= EX 2 + (EX) 2 - 2 EXEX = EX 2 - (EX) 2
⏠⏣⏣
⏡⏣⏣
2⏢
(EX)
Questo è un altro modo di scrivere la varianza.
Osservazione 52

EX = ∑ x jk P(X = x j )
k

j=1
Attenzione qui non ho usato la definizione di valore atteso, ma ho usato il teorema della
scorsa volta che mi permette di calcolare il valore del valore atteso più semplicemente
(uso
la densità discreta di X e non di X k ).
Similmente:

VarX = ∑ (x j - EX) 2 P(X = x j )
j=1
Proprietà 53 dei momenti
Se X ha momento di ordine k finito, allora ha anche momento di ordine r ⩽ k finito.
Dimostrazione
Fisso r ⩽ k.
Facciamo una serie di considerazioni:
• se |x| ⩽ 1 ⟹ |x| r ⩽ 1
• se |x| ⩽ 1 ⟹ |x| r ⩽ |x| k perché k ⩾ r
Quindi ∀x ∈ R si ha:
|x| r ⩽ 1 + |x| k
Consegeuntemente:
|X| r ⩽ 1 + |X| k
E allora:
E|X| r ⩽ 1 + E|X| k < + ∞ QED ⊠
Proprietà 54 della Varianza
Siano X,Y VV.AA. unidimensionali a valori in R e sia a ∈ R
1. Var(aX) = a 2 VarX
2. Var(a + X) = VarX
3. Var(X + Y) = VarX + VarY + 2Cov(X, Y)
La varianza è quindi un operatore quadratico
Dimostrazione 1

Var(aX) = E(aX - E(aX)) 2 = E a 2 X 2 + [E(aX)] 2 - 2aXE(aX) =


= a 2 EX 2 + a 2 [EX] 2 - 2a 2 [EX] = a 2 EX 2 - (EX) 2 = a 2 VarX

Dimostrazione 2
2
Var(a + X) = E a + X - E(a + X) = Var(a + X) =
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
linearità del
valore atteso
2 2
= E a+X- Ea - EX = E a + X - a - EX =
⏠⏣⏣
⏡⏣⏣

=a
valore atteso
di una V.A. degenere
= E[X - EX] 2 = VarX
Dimostrazione 3
2
Var(X + Y) = E[X + Y - E(X + Y)] 2 = E (X - EX) + (Y - EY) =
⏠⏣⏣⏣⏣⏣
linearità del ⏡⏣⏣⏣⏣⏣
valore atteso e⏢
riorganizzazione delle parentesi
= E (X - EX) + (Y - EY) + 2(X - EX)(Y - EY) = E(X - EX) 2 +
2 2
+E(Y - EY) 2 + 2E(X - EX)(Y - EY) = VarX + VarY + 2Cov(X, Y) (28)

Proprietà 55 caso particolare della 54 punto 3


Quando ho la dipendenza massima cioè quando X=Y
Allora:
Cov(X, Y) = Cov(X, X) = VarX
Invece se X e Y sono indipendenti
Cov(X, Y) = E[(X - EX)(Y - EY)] = E(X - EX) E(Y - EY) =
⏠⏣⏣⏣⏣⏣
il valore ⏡⏣⏣⏣⏣⏣
atteso a questo ⏢
punto si fattorizza ⏠⏣⏣⏣ ⏡⏣⏣⏣
linearità del⏢⏠⏣⏣⏣ ⏡⏣⏣⏣
linearità del⏢
valore atteso valore atteso
numero
⏜⏟⏟
⏝⏟⏟

= EX - E EX EY - E(EY) = EX - EX EY - EY = 0
⏠⏣⏣⏣
⏡⏣⏣⏣
⏢ ⏠⏣⏣⏡⏣⏣
idem

=EX
valore atteso
V.A. degnere
Quindi, in caso di indipendenza:
Var(X + Y) = VarX + VarY
Per il semplice fatto che nella formula (28) ho "tolto" il 3° addendo in quanto vale 0.
Osservazione 56
uso il teorema per calcolare
le funzioni di VV.AA.
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟

m X (t) = ∑ e txi P(X = x i ) =
i=1
Posso pensare di espandere l'esponenziale in serie di Taylor intorno allo 0
∞ ∞
(tx i ) j tj
= ∑ P(X = x i )∑ =∑ ∑ xij P(X = xi ) =
i=1 j=0 j! j=0 j! i=1

tj
=∑ EX j
j=1 j!
Quindi, ricordando l'espansione di Taylor di una funzione intorno allo 0:

j dj
EX = m X (t)| t=0
dt j
Proprietà 57 della funzione generatrice dei momenti
Date X,Y VV.AA. indipendenti allora:
m X+Y (t) = m X (t) ⋅ m Y (t)
Cioè
Ee t(X+Y) =
E questo è vero perché, per quanto visto nella esercitazione 5, il valore atteso si fattorizza
quando le VV.AA. sono indipendenti.
= Ee tX+tY = E e tX e tY = Ee tX Ee tY
⏠⏣⏣⏡⏣⏣ ⏢
X,Y sono
indipendenti

e tX , e tY sono
indipendenti

Proposizione 58
Sia X,Y VV.AA. con funzione generatrice dei momenti (cioè i momenti esistono).
Allora sono identicamente distribuite
se e solo se
m X (t) = m Y (t) , ∀t / ∃m X (t) ∧ ∃m Y (t)
Proposizione 59
Se X è una V.A. non negativa (P(X ⩾ 0) = 1) , per � > 0 si ha:

EX = ∑ x i P(X = x i ) = ∑ xi P(X = xi ) + ∑ xi P(X = xi ) ⩾


i i/xi <� i/xi ⩾�

Opera una minorazione perché trascuro uno dei due elementi che sono entrambe
quantità
positiva, ergo la loro somma sarà maggiore di uno solo dei due.

⩾ ∑ xi P(X = x i ) ⩾ � ∑ P(X = x i ) = �P(X ⩾ �)


i/xi ⩾� questi⏦
elementi i/xi ⩾� ⏠⏣⏣⏣
sommo⏡⏣⏣⏣ ⏢
solo su
sono scelti più una parte del supporto
grandi di �
Quindi:
EX
P(X ⩾ �) ⩽ (29)

Abbiamo una stima della probabilità di coda (perché sono tutti i valori superiori ad un
certo
valore scelto).
Teorema 60 disuguaglianza di Markov
Sia X V.A. unidimensionale a valori real, applichiamo la disuguaglianza (29) alla V.A. |X| k , k ∈ N *
E|X| k
P |X| K ⩾ � ⩽


1
E|X| k
P |X| ⩾ �k ⩽

1
Riparametrizzo: � = �k

E|X| k
P(|X| ⩾ �) ⩽
�k
Questo ci permette di valutare il decadimento delle code (di entrambe le code) della V.A. X
Teorema 61 Disuguaglianza di Chebyshev
Sia X V.A. applichiamo la disuguaglianza (29) alla V.A.
|X - EX| 2
E(X - EX) 2
P(|X - EX| ⩾ �) ⩽
�2
Il numeratore del termine di destra è proprio la varianza.
E(X - EX) 2 VarX
P(|X - EX| ⩾ �) ⩽ 2
=
� �2
Teorema 62 Disuguaglianza di Jensen
Sia � una funzione convessa:
�(p 1 x 1 + p 2 x 2 ) ⩽ p 1 �(x 1 ) + p 2 �(x 2 ) p 1 , p 2 ∈ [0, 1] ∧ p 1 + p 2 = 1 (30)
Vorrei far vedere che questo è valida non solo su due punti, ma anche per di più
Studio per n punti.
Procediamo per induzione, n = 2 ci fa da base.
Suppongo che valga per n:
n n n
� ∑ pi xi ⩽ ∑ p i �(x i ) , p i ∈ [0, 1] ∀i ∧ ∑ p i = 1
i=1 i=1 i=1

Notiamo che per n = 2 otteniamo (30)


Voglio dimostrare che valga per n + 1
n+1 n+1 n+1
� ∑ pi xi ⩽ ∑ p i �(x i ) , p i ∈ [0, 1] ∀i ∧ ∑ p i = 1
i=1 i=1 i=1
Dimostrazione
ho due termine, quindi posso usare la
base induttiva che vale per due termini
n+1 ⏜⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟
n+1 p x ⏞
� ∑ pi xi = � p 1 x 1 + (1 - p 1 ) ∑
i i

i=1 ⏠⏣⏣
⏡⏣⏣
⏢ i=2 1 - p1
toglo
questo ⏠⏣⏣⏣⏣
moltiplico e⏡⏣⏣⏣⏣
divido per ⏢
lo
stesso termine
n+1
pi
⩽ p 1 �(x 1 ) + (1 - p 1 )� ∑ xi ⩽
i=2 1 - p1
NB
la parte gialla somma ad uno
per Hp la somma
di tutti i pi mi dà 1
n+1
pi n+1 ⏜⏟⏟⏟⏝⏟⏟⏟
n+1 ⏞
1 1
∑ = ∑ pi = ∑ pi - p1 =
i=2 1 - p1 1 - p 1 i=2 1 - p1 i=1
⏠⏣⏣⏣⏣
completo ⏡⏣⏣⏣⏣
la somma e ⏢
sottraggo il primo termine
1
= (1 - p 1 ) = 1
1 - p1
n+1
n+1 pi
⩽ p 1 �(x 1 ) + (1 - p 1 ) ∑ �(x i ) = p 1 �(x 1 ) + ∑ p 1 �(x i ) =
i=2 1 - p1 i=2
⏠⏣⏣⏣
applico ⏡⏣⏣⏣
la Hp ⏢
induttiva
n+1
= ∑ p 1 �(x i )
i=1
⏠⏣⏣⏣
semplicemente ⏡⏣⏣⏣
uniscco⏢i termini
Tornando indietro, la parte verde è minore della parte arancione
n+1 n+1
� ∑ pi xi ⩽ ∑ p 1 �(x i ) QED ⊠
i=1 i=1
Teorema 63 Disuguaglianza di Hölder
Siano a,b positivi.
Allora esistono s, t /
s

a=e p 1 1
t , con + =1
q
p q
b=e
L'esponenziale è una funzione convessa. quindi vale una disuguaglianza di Jensen.
s t
+
p q 1 1
e ⩽ es + et
p q
Cioè
1 1
a ⋅ b ⩽ ap + bq (31)
p q
Consideriamo X, Y VV.AA. e fissiamo:

X Y
a= 1⁄p
, b= 1⁄q (32)
E|x| P E|Y| q
Riscriviamo quindi (31) considerando quanto posto in (32) :
p q
XY 1 X 1 Y
⩽ +
p 1⁄p q 1⁄q p P 1⁄p q 1⁄q
E|x| E|Y| E|x| E|Y| q
Queste sono VV.AA. posso applicare il valore atteso in tutti i membri.
E|XY| 1 E|X| p 1 E|Y| q
⩽ + =1
E|x| p 1⁄p
E|Y| q 1⁄q p E|X| p q E|Y| q
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
1 1 ⏢
per Hp + =1
p q
Cioè.
1⁄p 1⁄q
E|XY| ⩽ E|X| p E|Y| q (33)

(33) prende il nome di Disguaglianza di Hölder.


Corollario disuguaglianza di Schwarz

p=q=2
1⁄2 1⁄2
E|XY| ⩽ E|X| 2 E|Y| 2
Teorema 64 disuguaglianza di Lyapunov
Supponiamo di avere due parametri 0 < � < � e fissiamo:
� �
p= , q=
� �-�
La nostra V.A.Y
Y ≐ 1 q. c. , X ≐ |X| �
Per Hölder:
�-�

� �⁄� �
�⋅
� � �-�
E |X| ⋅ 1 ⩽ E|X| ⋅ E|1|
⏠⏣⏣
⏡⏣⏣

prodotto delle ⏠⏣⏣⏣
⏡⏣⏣⏣
=1

due variabili
Cioé:
�⁄�

E|X| � ⩽ E|X| �
Rendiamola un po' più simmetrica:

� 1⁄� 1⁄�
E|X| ⩽ E|X| � , 0<�⩽�
Teorema 65 di Bernoulli o Legge debole dei grandi numeri per VV.AA. indipendenti e
identicamente distribuite (I.I.D.)
Sia (X n ) n una successione di VV.AA. I.I.D.
Denotiamo con:
� = EXn , ∀n
Siccome sono identicamente distribuite per Hp e quindi hanno anche lo stesso valore
atteso
ed è per questo che � non dipende da n.
Denotiamo con:
� 2 = VarXn , ∀n
Idem come sopra la varianza sarà uguale per ogni V.A.
Chiamiamo
n
1
⏨n =
X ∑ Xi
n i=1
si ha che:

∀� > 0 , lim ⏨n - � | > �) = 0


P(| X
n → +∞
è⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
quasi impossibile ⏢
che la distanza
fra la media empirica sia distante
dalla media delle singole VV.AA. più di �
Ovvero:
⏨n - � | ⩽ �) = 1
lim P(| X
n → +∞
Cioè per n molto grande la media empirica sarà molto vicina al valore atteso delle singole
V.A.
Dimostrazione pessa per la disuguaglianza di Chebyshev
sommo n volte � e poi
lo divido per n

1
n ⏜⏟⏟⏟
1 n
⏝⏟⏟⏟

E⏨
Xn = E∑ X i = ∑ EXi =�
n i=1 n i=1 ⏠⏣⏣⏡⏣⏣⏢
chiamato �
per Hp ed è
comune a
tutte le Xi

Perciò il valore atteso della media empirica e lo stesso di ogni V.A. che compone la
successione.
n
1
⏨n =
Var X Var∑ Xi =
n2 n=1
La varianza delle somme è uguale alla somma delle varianze?
Solo se la VV.AA. in gioco sono indipendenti cosa appunto definita dalle noste Hp.
sommo n volte � 2 e divido per n 2
⏜⏟⏟⏟⏟⏟
1 n ⏝⏟⏟⏟⏟⏟
⏞ �2
= Var ∑ VarXi =
n2 n=1 ⏠⏣⏣
⏡⏣⏣
⏢ n
definito come � 2
per Hp ed è uguale
per ogni V.A.

�2
Capisco che la varianza della media empirica è quindi, quando n cresce la varianza
n
tende a 0.
Allora dire che la varianza tende a 0 significa dire che la distribuzione di probabilità della
V.A.
presa in considerazione (in questo caso la media empirica) si concentra intorno al suo
valore atteso che in questo caso è proprio �.
Quindi capiamo già che si concentrerà sul valore atteso, dimostriamolo formalmente:
Uso Chebyshev:
⏨n
Var X �2
∀� > 0 P ⏨n - � ⩾ � ⩽
X =

⏨n
�2 n ⋅ �2
EX

Applichiamo il limite
�2
⏨n - � | ⩾ �) ⩽ lim
lim P(| X =0 QED ⊠
n → +∞ n → +∞ n ⋅ �2
Teorema 66 Legge forte dei grandi numeri
Sia (X n ) n una successione di VV.AA. indipendenti e tali che:
EXn = � , ∀n
Non si richiede una identica distribuzione, ma un identico valore atteso.
Allora:

P( � ∈ Ω / lim ⏨
X n (�) =� =1
n → +∞ ⏠⏣⏣ ⏡⏣⏣⏢
ricordiamo la
media empirica
è una V.A.

⏨n non converge a � formano un insieme di probabilità nulla.


Cioè i punti di Ω in cui X
Osservazione 67

P(a < X ⩽ b) = P(X ⩽ b) - P(X ⩽ a) = F X (b) - F X (a)


Se X è assolutamente continua questa cosa diventa:
a b b
∫-∞f(x)dx - ∫-∞f(x)dx = ∫a f(x)dx
Osservazione 68

P(X ∈ B) = ∫ f(t)dt , B ∈ B(R)


B
Osservazione 69
La densità di probabilità di X non è unica.
Infatti, immagino che ∃g = f ∀x ≠ x 0 , g(x 0 ) ≠ f(x 0 )
Allora:

P(X ∈ B) = ∫f(t)dt = ∫g(t)dt


B B
Perchè il valore dell'integrale non viene cambiato dal diverso valore della funzione nel
singolo
punto.
Osservazione 70

P(X = x 0 ) = F X (x 0 ) - lim F X (x) , x 0 ∈ R (34)


x → x0-


0
∥ l'integrale su di un singolo punto vale 0.

∫{x }f(t)dt
0

Perciò riprendendo (34) ottengo che:


F X (x 0 ) - lim F X (x) = 0
x → x0-
F X (x 0 ) = lim F X (x)
x → x0-

La funzione di distribuzione non è perciò solamente continua a destra, ma è continua


anche
a sinistra, ergo è continua.
Proposizione 71 assenza di memoria della variabile aleatoria esponenziale
Sia X V.A. / X ∼ EXP(�) , � > 0 e siano s, t ∈ R + allora:
P(X > t + s|X > t) = P(X > s)
Dimostrazione

P(X > t + s, X > t) P(X > t + s) 1 - P(X ⩽ t + s)


P(X > t + s|X > t) = = = =
P(X > t) P(X > t) 1 - P(X ⩽ t)
funzione di distribuzione
della V.A. esponenziale
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
-�(t+s) ⏞ -� t+s
1- 1-e e
= = -�t
= e -�s = 1 - P(X ⩽ s) = P(X > s) QED ⊠
-�t e
1- 1-e
Osservazione 72

P(X ∈ B) = P(X = (X1 ,........., Xn ) ∈ B) B ∈ B(R)


= ∫…∫f X (x 1 , … , x n ) dx 1 ⋅ dx 2 ⋅…⋅ dx n
B
Osservazione 73 marginalizzazione
Sia (X,Y) V.A. ass. continuo. Allora:
P(a < X ⩽ b) = P((X, Y) ∈ A) =
Dove A = {(x, y) / a < x ⩽ b, y ∈ R }
b +∞
= ∬f (X,Y) (t 1 , t 2 )dt 1 dt 2 = ∫ ∫-∞ f (X,Y) (t 1 , t 2 )dt 1 dt 2 =
A a
b +∞
∫a dt1 ∫-∞ dt 2 f (X,Y) (t 1 , t 2 )

Quindi:
+∞
f X ( x) = ∫ f (X,Y) (t 1 , t 2 )dt 1 dt 2
-∞

Osservazione 74
Sia (XY) V.A. ass. continuno con densità congiunta:
f (X,Y) (x, y)
e funzioni di densità marginali:
f X ( x) , f Y ( y)
Allora, se X e Y sono indipendenti allora:
P(X ⩽ x, Y ⩽ y) = F X (x)F Y (y) = P(X ⩽ x)P(Y ⩽ y)
Perciò:
x y x y
∫-∞∫-∞f(X,Y) (t1 , t2 )dt1 dt2 = ∫-∞fX (t1 )dt1 ∫-∞fY (t2 )dt2
Si capisce che (siccome vale ∀(x, y) ∈ R 2 ) anche la densità congiunta si fattorizza:
f (X,Y) (t 1 , t 2 ) = f X (t 1 )f Y (t 2 )
Osservazione 75
Se abbiamo X 1 , … , X n V.A. indipendenti e ass.cont.
allora.
�(X1 ), … , � n (Xn ) con � i misurabile e continua i = 1, … , n
sono V.A. ass. cont. indipendenti.
Proprietà 76 convoluzione per le VV.AA. assolutamente continue
Dato (X, Y) vettore aleatorio assolutamente continuo.
Con densità di probabilità di congiunta:
f(x, y)
La variabile aleatoria:
Z = X+Y
ha densità:
+∞
f Z ( z) = ∫ f(x, z - x)dx = f X (x)f Y (z - x)
-∞

Ci sono molte analogia con la convoluzione delle variabili aleatorie discrete.


Dimostrazione

P(Z ⩽ z) = P(X + Y ⩽ z) = ∫∫ f(u, v)dudv


A (35)
=
{(u,v)/u+v⩽z }

A
0 z

La regione arancione è dove dobbiamo integrare, allora (35) diventa:


+∞ -u+z +∞ z
=∫ du∫ dvf(u, v) = ∫ du∫ f(u, t - u)dt =
-∞ -∞ ⏠⏣⏣⏢ -∞
⏡⏣⏣ -∞ ⏠⏣⏣
⏡⏣⏣

t=v+u scambiamo
gli integrali
z +∞
=∫ ∫-∞ f(u, t - u)du dt
-∞

Ma noi abbiamo la probabilità che Z sia ⩽ di z


z
P(Z ⩽ z) = ∫ f Z (x)dx
-∞
Allora mi accordo che:
z z +∞
∫-∞fZ (x)dx = ∫-∞ ∫-∞ f(u, t - u)du dt

Quindi:
+∞
∫-∞ f(u, t - u)du = f Z (x)dx

Quindi:
+∞
f Z (t) = ∫ f(u, t - u)du
-∞

Osservazione 77
Sia X un vettore aleatorio n-dimensionale con componenti a valori reali.
X = (X1 ,........., Xn ) , n ∈ N *
e
X : � → Rn
Consideriamo il vettore aleatorio:
Y = g(X)
Dove g è una funzione continua e Borel-misurabile:
g : Rn → Rn
Vogliamo determinare la densità di Y.
Allora, ∀A ∈ B(R) valutiamo la probabilità:
integro su
di un insieme
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟

P(Y ∈ A) = P(g(X) ∈ A)P X ∈ g -1 (A) = ∫…∫ f X (x 1 , … , x n )dx 1 … dx n
g -1 (A)
=
{(x1 ,…xn )/g(x1 ,…xn )∈A }

Io posso anche determinare:


P(Y ∈ A) = ∫…∫f Y(y1 ,…yn )dy1 …dyn
A
Bisogna stare attenti ad integrare nella regione giusta.

Ma allora ci deve essere una relazione tra la densità di uno e dell'altro vettore.
Dimostrazione

P(Y ∈ A) = ∫…∫f X (x 1 … x n )dx 1 … dx n =


g -1 (A)
= ∫…∫ 1 g -1 (A) (x) ⋅ f X (x 1 … x n )dx 1 … dx n (36)
n volte su R
Voglio usare il teorema del cambio di variabile, ma servono un paio di considerazioni.
NB
1 x ∈ g -1 (A)
1 g -1 (A) (x) =
0 x ∉ g -1 (A)
1 g(x) ∈ A
= = 1 A (g(x))
0 altrove definizione
⏠⏣⏣
⏡⏣⏣

funzione
indicatrice

Perciò (36) diventa:


∫…∫ 1 A (g(x))f X (x 1 … x n )dx 1 … dx n
n volte su R
Uso il teorema di cambio di variabile con queste posizioni:
m(x) = 1 A (g(x))f X (x 1 … x n )
�=g
Otteniamo:

P(Y ∈ A) = ∫…∫ 1 A g g -1 (y) f X g -1 (y) ⋅ DetDg -1 (y) dy =


n volte su R
= ∫…∫1 A (y)f X g -1 (y) ⋅ DetDg -1 (y) dy =
n volte
= ∫…∫f X g -1 (y) ⋅ DetDg -1 (y) dy
A

Quindi, qual è la densità di Y:

f Y (y) = f X g -1 (y) ⋅ DetDg -1 (y)

Teorema 78
Siano X = (X 1 ,........., X n ) , n ∈ N * VV.AA. con densità congiunta f X e sia � : R n → R
una funzione borel-misurabile e continua. Allora:
Z = �(X = (X1 ,........., Xn ))
è integrabile se e solo se:
∫…∫ | �(x 1 , … , x n )| f X (x 1 , … x n )dx 1 … dx n < + ∞
n volte
in tal caso:
EZ = ∫…∫�(x 1 , … , x n )f X (x 1 , … , x n )dx 1 … dx n
n volte
Proposizione 79
X,Y VV.AA. indipendenti tali che:

X ∼ N � 1 , � 12
Y ∼ N � 2 , � 22
Allora:

Z = X + Y ∼ N � 1 + � 2 , � 12 + � 22

Dimostrazione

�12 t 2 �22 t 2 �12 + �12 t 2


� 1 t+ � 2 t+ (� 1 +� 2 )t+
Ee t(X+Y) = Ee tX ⋅ Ee tY = e 2 ⋅e 2 =e 2

E quindi possiamo immediatamente concludere che:

X + Y ∼ N � 1 + � 2 , � 12 + � 22 QED ⊠

Proprietà 80 della V.A. normale


Consideriamo delle VV.AA. X 1 , X 2 , … , X n indipendenti e tali che:

i = 1, … , n
Xi ∼ Ga(� i , �) , �i > 0 i = 1, … , n
�>0
Allora:
X1 +…+ Xn ∼ Ga(� 1 + � 2 +… � n , �)
Osservazione 81
Z è integrabile se lo sono Z 1 e Z 2 e
EZ = EZ 1 + EZ 2
Teorema 82

X,Y VV.AA. hanno stessa distribuzione



X,Y hanno la stessa funzione caratteristica

Proprietà 83

X, Y indipendenti ⟹ � X+Y (�) = � X (�) ⋅ � Y (�)


Osservazione 84
convergenza quasi certa ⟹ convergenza in probabilità ⟹ convergenza in distribuzione
Teorema 85 di Lévy
Sia (X n ) n una successione di VV.AA. a valori in R con funzioni caratteristiche � n (�) e sia
X
una V.A. a valori reali con funzione caratteristica �(�).
d n → +∞
Xn ⏪⏫ X ⟺ � n (�) ⏪⏪⏪⏫ �(�) ∀� ∈ R

Teorema 86 del limite centrale


Sia (X n ) n una successione di VV.AA. I.I.D. (indipendenti ed identicamente distribuite) con
� = EX1 e � 2 = VarX1
Allora:
media di ogni
singola V.A.
ma anche il valore
atteso della media
empirica che così
la centra
⏨n - ⏜⏟⏟⏟
X ⏝⏟⏟⏟
� ⏞ (37)
d
Sn = ⏪⏫ Z ∼ N(0, 1)

n
⏠⏣⏣
⏡⏣⏣

⏨n =variazione standard di X
VarX ⏨n

Qui io sto parlando di una successione di VV.AA. I.I.D. delle quali non stiamo dicendo
assolutamente nulla, esse possono essere discrete o assolutamente continue, positive
quasi certamente.
Dimostrazione
La faremo vedere tramite la convergenza delle funzioni caratteristiche.
Poi useremo il teorema di Lévy per dimostrare la tesi.

EX⏨n = �
�2

Var X n =
n
Chiamo Y n :
=�
⏜⏟⏟
⏝⏟⏟⏞
EXn - �
Xn - � EY n = =0
Yn = , �
� 1
VarY n = VarXn = 1
� 2 ⏠⏣⏣
⏡⏣⏣
2 ⏢

La normalizzazione di X n
Ho ottenuto una V.A. Y n con media 0 e varianza pari ad 1.
Il che aiuta molto per il risultato finale di arrivare alla normale standard
Facciamo due conti da (37) e otteniamo:
n n
1 1
Sn = ∑ (Xi - �) = ∑ Yi
� n i=1 n i=1
Calcoliamo ora la funzione caratteristica della S n


� Sn (�) = � 1 n (�) = � ∑ n Yi
=
∑ Yi
n
i=1 i=1
n
⏠⏣⏣⏣
⏡⏣⏣⏣
∑ Y ⏢ n
i=1 i
i�
n
Ee

Ora, siccome le X n sono I.I.D. allora anche le Y n sono I.I.D.


n
n � �
= ∏ i=1 � Yi = � Y1
n n
⏠⏣⏣⏣⏣
grazie ⏡⏣⏣⏣⏣ ⏢
alla indipendenza grazie⏠⏣⏣⏣ ⏡⏣⏣⏣
alla identica ⏢
distribuzione
che ci dice che le funzioni caratteristiche
per ogni singola Y i

NB
� Y 1 ( 0) = 1
�'Y1 (0) = iEY 1 = 0
�''Y1 (0) = i 2 EY 12 = (-1) ⋅ VarY 1 = - 1
La varianza equivale al momento secondo
perchè il valore atteso vale 0

Voglio espandere con Taylor ora la funzione caratteristica:


t→0
t2
� Y1 (t) = � Y1 (0) + �'Y1 (0)t + � Y'' 1 (0) + o t2 =
2
ci sostituisco quanto calcolato nel nota bene
t2
= 1- + o t2
2
Quindi:
1
o
n
⏜⏟⏟
⏝⏟⏟
2⏞
� �2 �
� Y1 = 1- +o n → +∞
n 2n n

Otteniamo:
n � �2 1
n log �Y1 n log 1- +o
� n 2n n
� Sn (�) = � Y1 =e =e =
n
NB
per t → 0
log(1 + t) ∼ t
per n grande
va 0 per definizione
di o-piccolo
per n grande � 2 ⏜⏟⏟⏟
⏝⏟⏟⏟
1 ⏞
-n + n⋅o
⏜⏟⏟
⏝⏟⏟
⏞ 2n n
= e
Passo al limite per n → +∞
�2
-
lim � Sn = e 2 (38)
n → +∞
E (38) non è altro che la funzione carattestica di una normale standard.
Per il teorema di Lévy la convergenza delle funzioni caratteristiche implica la convergenza
in
distribuzione delle VV.AA.
Perciò abbiamo:
d
S n ⏪⏫ Z ∼ N(0, 1)
Teorema 87
Sia X = (X 1 ,........., X n ) un campione di taglia n estratto da una popolazione
X ∼ f( ∙ ; �)
Allora:
EM k = � k
1
VarM k = � 2k - � k2
n
Dimostrazione EM k = � k
n n
1 1
EM k = E ∑ Xik = ∑ EXik =
n i=1 n i=1

Ma ricordiamo che la V.A. X i è identicamente distribuita alle altre VV.AA., ma soprattutto


alla
popolazione.
n n
1 1
= ∑ EX k
= ∑ �k = 1 n�k = �k
n i=1 n i=1 n

1
Dimostrazione VarM k = � 2k - � k2
n
n n
1 1
VarM k = Var ∑ Xik = 2
Var∑ Xik =
n i=1 n i=1

Sempre le VV.AA. sono I.I.D.


n n
1 1
= 2
Var∑ X = k
2
Var∑ � 2k - � k2 = (39)
n i=1 n i=1
Perché quando vado a calcolare VarXik di fatto la varianza di una V.A. è uguale al
momento secondo della variabile meno il momento primo al quadrato
2 2
VarXik = E Xik - EXik = EXik2 - (� k ) 2 = � 2k - � k2

Detto ciò ogni elemento della somma non dipende da i, quindi (39) diventa
1 1
= 2
n � 2k - � k2 = � 2k - � k2
n n
Teorema 88
Sia X = (X 1 ,........., X n ) un campione casuale di taglia n estratto da:
X ∼ f( ∙ ; �)
Allora,
ES 2 = � 2
1 n-3 4
VarS 2 = �4 - �
n n-1
Dove
� 2 = VarX
Dimostrazione (solo del primo punto)

n
1
ES 2 = E ∑ (X i - X
⏨n ) 2
n-1 i=1
(40)
⏠⏣⏣⏣ ⏡⏣⏣⏣
concentriamoci ⏢
su questo

n n �=� 1 =EX
2
∑ (Xi - X⏨n ) 2 = ∑ Xi - ⏜⏟⏟
⏝⏟⏟
� ⏞+�- X
⏨n =
i=1 i=1
n
= ∑ (Xi - �) 2 + (X
⏨n - �) 2 - 2(Xi - �)(X
⏨n - �) =
i=1
n n
= ∑ (Xi - �) + n(X ⏨n - �)∑ (Xi - �) =
⏨n - �) - 2(X
2 2

i=1 i=1
n
= ∑ (Xi - �) 2 + n(X
⏨n - �) 2 - 2(X
⏨n - �)n(X
⏨n - �) =
i=1
n
= ∑ (Xi - �) 2 - n(X
⏨n - �) 2
i=1

Continuiamo ora su (40)


n n
1 1
= E ∑ (Xi - �) 2 - n(X⏨n - �) 2 = ∑ E(Xi - �) 2 - �E(X⏨n - �) 2 =
n-1 i=1 n-1 i=1
ricordiamo che X i è identicamente distribuita con la popolazione, come vediamo nella parte rossa
⏨n = EX = �
Nella parte verde ci ricordiamo invece che: E X
1
= n� 2 - nVar ⏨
Xn =
n-1
⏨n
noi conosciamo Var X
1 2 �2 1
= n� - n = � 2 ( n - 1)
n-1 n n-1
Osservazione 89

MSE(T) = E(T - �) 2 = E(T - ET + ET - �) 2 =


= E(T - ET) 2 + 2(ET - �) E(T - ET) + (ET - �) 2 = E(T - ET) 2 + (ET - �) 2 =
⏠⏣⏣⏣=⏡⏣⏣⏣
0 ⏢
= VarT + [b(T)] 2
⏠⏣⏣
⏡⏣⏣
⏢ ⏠⏣⏣
⏡⏣⏣⏢
⩾0 ⩾0

Teorema 90
Se Z ∼ N(0, 1) allora Y = Z 2 ∼ � 12
Dimostrazione vogliamo far vedere che
1 1
1 - - y
f Y ( y) = 1
y 2e 2

1
22� 2

Allora possiamo riscriverla in questo modo:


1
1 - y
f Y ( y) = e 2 , y>0

F Y (y) = P(Y ⩽ y) = P Z 2 ⩽ y = P - y ⩾ Z ⩽ y = F Z y - FZ - y
d d 1 1
f Y ( y) = F Y ( y) = [ F Z y - F Z - y) = fZ y + fZ - y =
dy dy 2 y 2 y
1 1
=2 fZ y = fZ y
2 y y
Adesso sostituiamo la forma della normale di Z
y
1 1 -
= ⋅ e 2 , y>0
y 2�
Ricordiamo che se X ∼ Bin(n, �) allora:
n
m X (t) = �e t + (1 - �)
Quindi nel nostro caso in cui abbiamo Z ∼ N(� 1 , � 2 ) abbiamo:

t2
m Z (t) = exp � 1 t + � 2
2
Invece se Y ∼ �(� 1 , � 2 )
�1
�2
m Y (t) = , t < �2
�2 - t
p 1
Perciò nel caso del chi-quadrato Y ∼ � , = � p2
2 2
p
2
1
p
2 -
m Y (t) = = (1 - 2t) 2
1
2
-t

Teorema 91 manipolazione di chi-quadrate


Immaginiamo di avere Y 1 , … , Y n VV.AA. indipendenti tali che:
Y i ∼ � p2i , i ∈ { 1, … , n }
Allora:
n
∑ Yi ∼ � 2 n
∑ pi
i=1
i=1

Dimostrazione può essere fatta tramite la funzione generatrice dei momenti


pi
-
m Yi (t) = (1 - 2t) 2
p1 p2 pn
- - -
m ∞ (t) = m Y1 (t) ⋅ m Y2 (t) ⋅…⋅ m Yn (t) = (1 - 2t) 2 ⋅ (1 - 2t) 2 ⋅…⋅ (1 - 2t) 2 =
∑ Yi
i=1
n
∑ pi
i=1
-
= (1 - 2t) 2 = m�2 n
QED ⊠
∑ pi
i=1

Osservazione 92
Siano Z 1 , … Z n VV.AA: indipendenti e tali che Z i ∼ N(0, 1) , i ∈ { 1, … , n } allora:
n
∑ Zi2 ∼ �n2
i=1
Teorema 93
Siano U,V VV.AA. indipendenti tali che U ∼ N(0, 1) e V ∼ � p2 . Allora:
U
T= ∼ tp
V
p
Dimostrazione
Consideriamo il vettore aleatoria (U, V) determino la congiunta.
In particolare la densità congiunta:
1 p 1
1 - u2 1 -1 - v
f (U,V) (u, v) = f U (u)f V (v) = e 2 p v2 e 2 =
2� 22�
p
2
p -1 p
p -1 1
= 22� 2� v 2 exp - v + u2 = (1)
2 2
Applico la trasformazione:
u
t= x
v u=t
⟹ p
p
v=x
x=v
Lo Jacobiano:
∂u ∂u x t
x
det ∂t ∂x = det p 2 px =
∂v ∂v p
0 1
∂t ∂x
Torniamo a (1) applico il teorema di cambio di variabile
p -1 p
p -1 1 x x
= 22� 2� x 2 Exp - x + t2 =
2 2 p p
p -1 p - 1
p 1 t2
= 22� 2�p x 2 Exp - x+
2 2 p
Adesso abbiamo la densità congiunta trasormata
Ora possiamo marginalizzare:
p -1 p - 1
+∞ p 1 t2
f T (t) = ∫ 22� 2�p x 2 Exp - x+ dx =
0 2 2 p
L'integrale è su R + perché quello è il supporto della V.A.
2
p -1 p - 1 - 1 x+ t
p +∞ 2 p
= 22� 2�p ∫ x 2 e dx =
2 0
⏠⏣⏣⏣⏣⏣
struttura di un⏡⏣⏣⏣⏣⏣ ⏢
integrale gamma
p+1
2
p+1 1 t2
p -1 � 2
1+ p
1
∞ p - 1 - x 1+
t2
p 2
= 22� 2�p p+1
⋅ ∫0 x 2 e
2 p
dx =
(2)
2 p+1
2 � 2
1 t2
2
+ 1+ p

⏨⏨
NB
��
f �(�,�) (x) = x �-1 e -�x 1 R+ (x)
�(�)
1 t2
Per noi abbiamo � = 1+
2 p
p+1
�=
2
Quindi la parte rossa in (2), siccome è integrata su R + vale 1
p+1
p -1 �
p 2
= 22� 2�p p+1
=
2
2
1 t2
2
+ 1+ p
p+1
� 2 1 1
= p+1
QED ⊠
p
� 2
p� 2
t2
1+ p

Osservazione 94
Se
T ∼ t q ⟹ T 2 ∼ F 1, q
Teorema 95
Siano U, V VV.AA. indipendenti e tali che:
U ∼ � p2
V ∼ � p2
Allora:
U
p
W= v
∼ F p,q
q

Dimostrazione

f (U,V) (u, v) = f U (u)f V (v) =


p -1 p 1 q -1 q 1
p -1 - u q -1 - v
= 22� u e 2
2 ⋅ 2 �
2 v e 2
2 =
2 2
Questo vettore sarà concentrato sul primo quadrante, negli altri 3 la densità varrà 0.
p -1 p q
p q -1 -1 1
= 22� � u v
2 2 exp - (u + v)
2 2 2
Applico la seguente trasformazione di variabile:
u
p
w= v u = pwx
q ⟹
v v = qx
x=
q
Determino lo Jacobiano:
∂u ∂u
px pw
J = det ∂w ∂x = det = pqx
∂v ∂v 0 q
∂w ∂x
p+q -1 p q 1
p q -1 -1 - (pwx+qx)
f (W,X) (w, x) = 2 2 � � (pwx) 2 (qx) 2 e 2 pqx =
2 2
p+q -1 p q p p+q 1
p q -1 -1 - x(pw+q)
= 2 2 � � p2q2w2 x 2 e 2
2 2
Marginalizzo e determino f W
p+q -1 p q p
+∞ p q -1 +∞ p + q -1 1 x(pw+q)
f W (w) = ∫ f (W,X) (w, x) dx = 2 2 � � p2q2w2 ∫0 x 2 e2 dx =
0 2 2
t=x(pw+q)
dt=dx(pw+q)
t
x= p+q
pw + q -1 p q p -1
p+q +∞ 2 1
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞ p q -1 t - t 1
= 2 2 � � p2q2w2 ∫0 e 2 dt =
2 2 pw + q pw + q
p+q
p+q -1 p q p 2
p q -1 1 +∞ p + q -1 - 1 t
= 2 2 � � p2q2w2 ∫0 t 2 e 2 dt =
2 2 pw + q
⏨⏨
NB
p+q 1
1 -1 -
f � 2p + q (t) = p+q
t 2 e 21 R + (t)
2 p+q
2 2 � 2
p+q
-1
p+q p q p 2 p+q
p q -1 1 p+q
= 2 2 � � p2q2w2 2 2 � =
2 2 pw + q 2
p+q p q p+q p p
� p � 2
-1
2 p2q2 1 -1 2 p w2
= p+q p+q
w2 = p+q
QED ⊠
p q p q q
� � � �
2 2 q 2 p 2 2 2 p 2
1 + qw 1 + qw
Teorema 96 teorema di cramer-rao
Dato un campione casuale di taglia n, estratto da una popolazione X caratterizzata da un
parametro � e con densità f(x; �)
Sia T = g(X 1 , … , X n ) stimatore corretto di �.
Se

1 log f(x; �) ∃ ∀x , ∀�
∂�
∂ ∂
2 ∫f(x; �) dx =∫ f(x; �) dx
∂� ∂�
n

∫ … ∫g(x1 , … , xn )∏ f(xi ; �) dx1 ⋅…⋅ dxn =
∂� i=1
3 n

= ∫ … ∫g(x 1 , … , x n ) ∏ f(xi ; �) dx1 ⋅…⋅ dxn
∂� i=1
2

4 E log f(X; �) finito ∀� ∈ �
∂�
⏠⏣⏣⏣⏣⏣
E ⏡⏣⏣⏣⏣⏣
h(X) ⏢
Allora:
1
a VarT ⩾ 2

nE ∂�
log f(X; �)

Questo è detto "limite minimo di cramer-rao"


Quindi se riusciamo ad individura uno stimatore T che abbia questa varianza allora
sappiamo di avere trovato uno stimatore efficiente.
b l'uguaglianza sussiste solo se ∃ una funzione �(�) tale che:
n

T = � + �(�)∑ log f(Xj ; �) (3)
j=1 ∂�

Dimostrazione solo del caso assolutamente continuo del punto a


Fisso due VV.AA.
X = T-�
n

Y= log ∏ f(Xi ; �)
∂� i=1
Uso la disuguaglianza di Cauchy-Schwartz
E(XY) 2 ⩽ EX 2 EY 2
Sostituisco:
2 2
n n
∂ ∂
E (T - �) log ∏ f(Xi ; �) ⩽ E(T - �) 2 E log ∏ f(Xi ; �) (4)
∂� i=1 ∂� i=1

Studio prima la parte destra della disuguaglianza:


n

E (T - �) log ∏ f(Xi ; �) = (5)
∂� i=1
n n
∂ ∂
=E T ∑ log f(Xi ; �) - �∑ E log f(Xi ; �) (6)
∂� i=1 i=i ∂�
in (6) guardiamo prima la parte rossa.
n

E T log ∏ f(Xi ; �) =
∂� i=1
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
h(X1 ,…,X n)

n

= ∫ … ∫g(x 1 , … x n ) log ∏ f(x i ; �) ⋅ f (X1 ,…,Xn ) (x 1 , … , x n ) dx 1 … dx n =
∂� i=1
n n

= ∫ … ∫g(x1 , … xn ) log ∏ f(x i ; �) ⋅ ∏ f(x i ; �) dx 1 … dx n =
∂� i=1 i=1
+∞ n
1 ∂
= ∫ … ∫g(x 1 , … x n ) n
∏ f(xi ; �) ⋅ ∏ f(xi ; �) dx1 … dxn =
∏ f(x i ; �) ∂� i=1 i=1

i=1
+∞ Hp

= ∫ … ∫g(x 1 , … x n ) ∏ f(xi ; �) dx1 … dxn ⏥
=
∂� i=1
+∞

= ∫ … ∫g(x1 , … xn )∏ f(xi ; �) dx1 … dxn =
∂� i=1
∂ ∂
= ET = �=1
∂� ∂�
In (6) guardiamo la parte blu:
n n
∂ ∂
∑E log f(Xi ; �) = ∑∫ log f(x i ; �) ⋅ f(x i ; �) dx i =
i=i ∂� i=1 ∂�
densità log
n ⏜⏟⏟⏟⏟
1
⏝∂⏟⏟⏟⏟
⏞ n

= ∑∫ f(x i ; �) ⋅ f(x i ; �) dx i = ∑ ∫ f(x i ; �) dx i =
i=1 f(x i ; �) ∂� i=1 ∂�
n n
∂ ∂
=∑ ∫f(xi ; �) dxi = ∑ 1=0
i=1 ∂� i=1 ∂�
Perciò (5) diventa:
n

E (T - �) log ∏ f(Xi ; �) = 1-0
∂� i=1

Riassumendo la nostra disuguaglianza diventa:


1
VarT ⩾
2
n

E ∂�
log ∏ f(Xi ; �)
i=1

Trasformo il denominatore:
2 2
n n
∂ ∂
E log ∏ f(Xi ; �) =E ∑ log f(Xi ; �)
∂� i=1 i=1 ∂�

Quindi sto facendo il quadrato della somma:


n
∂ ∂
E ∑ log f(Xj ; �) ⋅ ∑ log f(Xk ; �) =
j=1 ∂� k ∂�
∂ ∂
=E ∑∑ log f(Xj ; �) log f(Xk ; �) =
j k ∂� ∂�
∂ ∂
= ∑∑E log f(Xj ; �) log f(Xk ; �) (7)
j k ∂� ∂�
Come è fatto questo valore atteso?
Qui stiamo valutando sostanzialmente il momento secondo di questo prodotto, ci
dobbiamo
chiedere cosa possa succedere quando j = k e quando j ≠ k
Se j ≠ k

∂ ∂ ∂ ∂
E log f(Xj ; �) log f(Xk ; �) = E log f(Xj ; �) E log f(Xk ; �) = 0
∂� ∂� ∂� ∂�
⏠⏣⏣⏣⏣⏣
=⏡⏣⏣⏣⏣⏣
0 ⏢
in quanto già calcolato
questa è la parte azzurra della
equazione azzurra sopra

Quindi il contributo per j ≠ k è nullo e quindi mi interessano solo i termini in cui k = j


Se k = j, otteniamo:
2

E log(Xj ; �)
∂�
Continuiamo da (7)
n 2 n 2
∂ ∂
= ∑E log f(Xj ; �) = ∑E log f X ;� =
j=1 ∂� j=1 ∂� ⏦
genitrice
Non c'è più nulla che dipende da j.
2

= nE log f(X ; �) QED ⊠
∂�
Proposizione 97
Se ∃ uno stimatore corretto per il parametro � che ha una varianza che raggiunge il limite
inferiore di Cramer-Rao allora è uno stimatore di massima verosimiglianza.
Dimostrazione
Partiamo dal secondo punto dell'enunciato di Cramer-Rao (3) l'uguaglianza sussiste se ∃
� = �(�) tale che:
n

T - � = �(�)∑ log f(Xj ; �)
∂� j=1

n

T - � = �(�) log ∏ f(Xj ; �)
∂� i=1
⏠⏣⏣⏣
L⏡⏣⏣⏣
(�) ⏢

∂ T-�
log L(�) =
∂� �(�)
Immaginiamo di derivare lo stimatore di massima verosimiglianza:
∂ T-�
log L(�) = 0 =
∂� �(�)

T-� = 0
Cioè

� ML = T
Teorema 98
Sia T n uno stimatore asintoticamente corretto per � e con varianza finita ∀n.
Se lim VarT n = 0 ⟹ T n è consistente.
n → +∞
Dimostrazione con una delle disguguaglianze che abbiamo visto, quelle di Markov
errore quadratico medio
MSE(T n )
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
2 ⏞
E(T n - �)
0 ⩽ P(| T n - � | ⩾ �) ⩽ =
�2
E' evidente che se il termine a destra va a 0 allora anche il termine centrale andrà a 0.
asintoticamente corretto
n → +∞
⏪⏪⏪⏫ 0
n → +∞
⏪⏪⏪⏫ 0
⏜⏟⏟
⏝⏟⏟
⏞ ⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
2 ⏞
VarT n + (ET n - �)
=
�2
Quindi
n → +∞
P(| T n - � | ⩾ �) ⏪⏪⏪⏫ 0 consistenza

Teorema 99 di fattorizzazione (di fisher-neyman)


Sia X = (X 1 ,........., X n ) un campione casuale estratto da una popolazione X con densità
f( ∙ ; �).
La statistica S = s(X 1 , … , X n ) è sufficiente se e solo se
n
f (X1 ,…,Xn ) (x 1 , … , x n ) = ∏ f(x i ; �) = g(s(x 1 , … , x n ; �) ⋅ h(x 1 , … , x n ) =
i=1
= g(s 0 ; �) ⋅ h(x 1 , … , x n )
dove s 0 = s(x 1 , … , x n ) e con h non negativa e che non contiene il parametro � e g non
negativa che dipende da (x 1 , … , x n ) solamente tramite s 0 = s(x 1 , … , x n ).
Osservazione 100
Se [T 1 , T 2 ] è un intervallo di confidenza per �, allora:
[�(T 1 ), �(T 2 )]
è un intervallo di confidenza per �(�) ∀ funzione monotona di �.
Teorema 101
Dato un campione casuale estratto da una popolazione con funzione di densità f( ∙ ; �) e
funzione di distribuzione F(x; �) continua rispetto ad x.
Allora:
n n
∏ F(Xi ; �) e - ∑ log F(Xi ; �)
i=1 i=1
sono quantità pivotali.

Esse sono entrambe delle variabili aleatorie perchè sono calcolate sulla V.A., sono
funzioni
del campione casuale.
Dimostrazione (solo per le VV.AA. assoultamente continue)

U = F(Xi ; �)
dimostriamo che essa è uniforme su [0, 1]
0 , u⩽0
P(U ⩽ u) = ? , 0<u⩽1
1 , 1<u
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
il supperto è [0,1] ⏢
P(U ⩽ u) = P(F(Xi ; �) ⩽ u) = P F -1 [F(Xi ; �)] ⩽ F -1 (u) =
La funzione F -1 , inverso della funzione di distribuzione è detta funzione quantilica.

= P Xi ⩽ F -1 (u) = F F -1 (u); � = u
Cioè:
0 , u⩽0
P(u ⩽ U) = u , 0 < u ⩽ 1 ⟹ U ∼ Unif([0, 1])
1 , 1<u
Adesso vediamo:
Y = -log U = -log F(Xi ; �)
P(Y ⩽ y) = P(-log U ⩽ y) = P U ⩾ e -y = 1 - P U < e -y =
1 - e -y , 0 < e -y ⩽ 1 1 - e -y , y ⩾ 0
= =
1 - 1 = 0 , 1 < e -y 0 , y<0
Cioè
Y ∼ Exp(1)
consideriamo:
n n n
P ∏ F(Xi ; �) < y = P log ∏ F(Xi ; �) < log y = P ∑ log F(Xi ; �) < log y =
i=1 ∈⏦
(0,1) i=1 i=1
n n
=P -∑ log F(Xi ; �) > - log y = 1 - P - ∑ log F(Xi ; �) < - log y
i=1 i=1
⏠⏣⏣⏣⏣
∼Ga⏡⏣⏣⏣⏣
(n,1) ⏢
La parte rossa ∼ Exp(1) quindi non è presente il parametro. Ho delle VV.AA:
indipendenti
ed esponenzialmente distribuite.
La parte blu in conclusione è una quantità pivotale.
Teorema 102 legge del 3-sigma (normale)

Z ∼ N �, � 2 → � = "deviazione standard"
P(-� ⩽ Z ⩽ +�) = 0, 68
P(-2� ⩽ Z ⩽ +2�) = 0, 95
P(-3� ⩽ Z ⩽ +3�) = 0, 997

-3� -2� -� 0
� 2� 3�
0, 68

0, 95

0, 997
Lemma 103 di Neyman-Pearson
Dato un campione casuale X = (X 1 ,........., X n ) campione casuale estratto da una
popolazione parametrizzata da �, e sia L(�) la funzione di verosimiglianza associata.
Allora il test più potente di ampiezza � per verificare il sistema di ipotesi:
H0 : � = �0
H1 : � = �1
è quello di regione critica:

L(� 0 )
C = (x 1 , … , x n ) / ⩽k
L(� 1 )

dove k è scelto in modo che l'ampiezza del test sia proprio �.


Dimostrazione
Sia C una regione critica tale che:

P (X1 , … , Xn ) ∈ C ; H 0 vera = � (8)

e che soddisfi:

L(� 0 )
C = (x 1 , … , x m ) / ⩽k (9)
L(� 1 )

Sia inoltre D una seconda regione critica di ampiezza �.


Dimostriamo che C ha una probabilità di errore di seconda specie minore di D.
Fissiamo � che è la probabilità (8)
� = ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n = ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n
C D

⏨⏨
NB
C = (C ∩ D) ∪ C ∩ D C
D = ( D ∩ C) ∪ D ∩ C C

∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n + ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n =
C∩D C C∩D
∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n + ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n
D∩C D∩C C

∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n = ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n
C∩D C D∩C C
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
punti che soddisfano (9) ⏢ ⏠⏣⏣⏣⏣⏣
punti che non⏡⏣⏣⏣⏣⏣
soddisfano (9) ⏢

∫…∫ kL(� 1 ) dx 1 ⋅…⋅ dx n ⩾ ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n =
C∩D C ⏠⏣⏣ ⏡⏣⏣ ⏢
in quanto C∩D C (10)
vale (9)

= ∫…∫L(� 0 ) dx 1 ⋅…⋅ dx n ⩾ ∫…∫ kL(� 1 ) dx 1 ⋅…⋅ dx n


D∩C C ⏠⏣⏣
D∩C C in ⏡⏣⏣
quanto

non vale (9)

Quindi posso prende gli estremi della disuguaglianza e scrivere:


∫…∫kL(� 1 ) dx 1 ⋅…⋅ dx n ⩾ ∫…∫kL(� 1 ) dx 1 ⋅…⋅ dx n (11)
C∩D C D∩C C

∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n = ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n + ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n =


C C∩D C∩D C
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
probabilità di scegliere� 1 ⏢ ⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣
decompongo in insiemi disgiunti

quando è vera H 1

Utilizzo ora, la disuguaglianza (11)


⩾ ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n + ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n =
C∩D D∩C C
= ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n
D
Perciò se prendo gli estremi della disequazione, mi rimane:
∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n ⩾ ∫…∫L(� 1 ) dx 1 ⋅…⋅ dx n
C D
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
probabilità di scegliere� 1 ⏢
quando è vera H 1


P (X1 , … , Xn ) ∈ C ; H 1 vera ⩾ P (X1 , … , Xn ) ∈ D ; H 1 vera

1 - �C ⩾ 1 - �D

� D ⩾ � C QED ⊠

Potrebbero piacerti anche