Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
P A C = 1 - P(A)
Proprietà 5 della funzione di probabilità
P(Φ) = 0
Dimostrazione della proprietà 5
Φ = ΩC
P(Φ) - P Ω C = 1 - P(Ω) = 1 - 1 = 0
Proprietà 6 della funzione di probabilità: Monotonia della probabilità
A, B eventi tali che A ⊂ B
Si ha che
P(A) ≤ P(B)
NB A ∩ B ∩ A C = �
P(�) = 0
Dimostrazione
� = �∪�
� = �∩�
successione infinita
di insiemi vuoti
Dimostrazione
A partire dalla mia successione di partenza, io costruisco una successione ausiliaria:
∞
(B n ) n=1 / B i = A i , i = 1, … , N ⊛
B i = � , i = N + 1, N + 2, … ⊛⊛
NB (B i ) i è formatata da insiemi disgiunti (o eventi incompatbili che dir si voglia) per il
N
semplice fatto che (A n ) n=1 è formata da insiemi disgiunti per Hp.
Vogliamo provare ora che:
N ∞ ∞
P ⋃ Ai =P ⋃ Bi = ∑ P(Bi ) =
⏠⏣⏣
⏡⏣⏣
⏢
i=1 i=1 �-additività i=1
⏠⏣⏣⏣
⊛ Qui⏡⏣⏣⏣
Ai =B⏢
I
⏠⏣⏣⏣ ⏡⏣⏣⏣
⊛⊛ Qui B i =� ⏢
i=1 ⏠⏣⏣⏣ =⏡⏣⏣⏣
0 ⏢ i=1
Proprietà 13 3 della misura di probabilità
Sia l'evento A ∈ F, allora:
P A C = 1 - P(A)
Dimostrazione
Ω = A ∪ A C , A ∩ A C = � cosa evidente, sono per forza disgiunti per definizione di
complementare.
additività finita
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
1 = P(Ω) = = P(A) + P A C ⟹ P A C = 1 - P(A)
Proprietà 14 4 della misura di probabilità
∀A ∈ F , P(A) ∈ [0, 1]
Dimostrazione
P(A) ⩾ 0 , P A C ⩾ 0
per⏠⏣⏣⏣ ⏡⏣⏣⏣
il primo ⏢
assioma ⏠⏣⏣⏣
F è una⏡⏣⏣⏣ ⏢
�-algebra
perciò A C ∈F
Perciò vale di nuovo
il primo assioma
So poi che:
appena visto ⩾ 0
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
P(A) = 1 - P AC ⩽ 1 QED ⊠
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
appena dimostrato ⏢
Proprietà 15 5 della misura di probabiltià: monotonia
Due eventi A, B ∈ F / A ⊂ B ⟹ P(A) ⩽ P(B)
Dimostrazione
B = A∪ AC ∩ B
evento⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢con A
incompatibile
P(B) = P(A) + P A C ∩ B ⩾ P(A) QED ⊠
⏠⏣⏣⏡⏣⏣
⏢
finito additività ⏠⏣⏣⏣
⩾ 0 per⏡⏣⏣⏣ ⏢
il primo
assioma
Proprietà 16 6 della misura di probabilità
Eventi A, B ∈ F ⟹ P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Dimostrazione
A ∪ B = A ∪ A C ∩ B questi due insiemi sono disgiunti e quindi posso applicare la
finito-
additività
B = (B ∩ A) ∪ B ∩ A C
P(B) = P(B ∩ A) + P B ∩ A C (2)
⏠⏣⏣⏡⏣⏣
⏢
finito additività
Prendo la parte quadrettata della equazione (1) e la sostituisco nella parte quadrettata
della
equazione (2).
P(B) = P(B ∩ A) + P(A ∪ B) - P(A)
P(A ∪ B) = P(B) + P(A) - P(A ∪ B) QED ⊠
Teorema 17 di inclusione/esclusione
Abbiamo fra le mani solo la ipotesi induttiva, quindi dobbiamo cercare di utilizzarla.
n
=P ⋃ Ai ∪ A n+1 = (4)
i=1 ⏠⏣⏣
⏡⏣⏣
⏢
separo l'ultimo
Qui cosa possiamo fare?
Abbiamo due eventi quindi posso usare l'enunciato per n=2
n n
= P ⋃ i=1 A i + P(A n+1 ) - P( ⋃ i=1 A i ∩ A n+1 =
⏠⏣⏣ ⏡⏣⏣ ⏢ ⏠⏣⏣
⏡⏣⏣
⏢
probabiltà probabilità del secondo evento ⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
intersezione tra ⏢
i due eventi
primo evento
Adesso nel primo termine, sopra quadrettato, sto praticamente usando la Ipotesi induttiva.
Perciò sostituisco la ipotesi induttiva al suo posto:
n n n
∑ P(Ai ) - ∑ P(Ai ∪ Aj ) + ∑ P(Ai ∩ Aj ∩ Ak ) +…+ (-1) n+1 P(A1 ∩ A2 ∩…∩ An ) +
i=1 i<j i<j<k
n
+ P(A n+1 ) - P ⋃ i=1 A i ∪ A n+1
(5)
⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
il resto semplicemente lo riscrivo ⏢
n
NB prendiamo termine sottolineato in giallo P ⋃ Ai ∪ An+1 ⊛ lo vogliamo scrivere in
i=1
n
una maniera più utilizzabile: ⊛ = P( ⋃ A i ∩ A n+1
i=1 ⏠⏣⏣⏣ ⏡⏣⏣⏣
anziché intersecare ⏢ degli Ai
l'unione
interseca ogni singolo elemento
Ma anche in questo ultimo termine ho una unione di n eventi:
(A 1 ∩ A n+1 ; A 2 ∩ A n+1 ; … A n ∩ A n+1 ), ma allora io posso riapplicare la ipotesi
induttiva
qui.
n n
∑ P(A ∩ An+1 ) - ∑ P((Ai ∩ An+1 ) ∩ (Aj ∩ An+1 )) +
i=1 i<j
n
⊛ =
∑ P((Ai ∩ An+1 ) ∩ (Aj ∩ An+1 ) ∩ (Ak ∩ An+1 )) +…+
i<j<k
+(-1) n+1 P((A 1 ∩ A n+1 ) ∩ (A 2 ∩ A n+1 ) ∩…∩ (A n ∩ A n+1 )) =
Abbiamo perciò preso la nostra ipotesi induttiva e la abbiamo applicato al termine prima
sottolineato.
L'intersezione con A n+1 (sottolineata in arancione) è ridondante e compare moltissime
volte.
Quindi riscriviamo il termine di prima riducendo le intersezioni ridondanti:
basta intersecare una qui similmente a prima
volta solaanziché due eccetera
n n n
= ∑ P(A ∩ A n+1 ) - ∑ P A i ∩ A j ∩ A n+1 + ∑P
⏜⏟⏟⏟ ⏝⏟⏟⏟ ⏞ ⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
A ∩A ∩A ∩A
⏞ +…+
i j k n+1
i=1 i<j i<j<k
+(-1) n+1 P(A 1 ∩ A 2 ∩… A n ∩ A n+1 ) (6)
E con questo abbiamo ultima la riscrittura del termine sottolineato in giallo.
Adesso la mettiamo nella epressione (5), facendo attenzione che c'è il segno meno prima
della parte sottolineata, quindi dovrò cambiare tutti i segni.
(quadrettata la parte (6) che andiamo a sostituire in (5))
n+1 n n n
P ⋃ Ai = ∑ P(A i ) - ∑ P(Ai ∪ Aj ) + ∑ P(Ai ∩ Aj ∩ Ak ) +…+
i=1 i=1 i<j i<j<k
n+1
+(-1) P(A 1 ∩ A 2 ∩…∩ A n ) + P(A n+1 ) +
n n n
-∑ P(A i ∩ A n+1 ) + ∑ P(Ai ∩ Aj ∩ An+1 ) - ∑ P(Ai ∩ Aj ∩ Ak ∩ An+1 ) +…+
i=1 i<j i<j<k (7)
così da cambiare
segno anche qui
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
n+2
+(-1) P(A 1 ∩ A 2 ∩… A n ∩ A n+1 )
Ora guardando questa formula possiamo dire che nella parte sottolineata in azzurro la
doppia somma finisce ad n, cosa mi manca? Mi manca il valore di j quando j va fino ad
n+1.
E questa cosa che mi manca è proprio la parte sottolineata in verde.
Quindi quando j ha valore n+1 ho proprio il termine verde.
Quindi i termini del verde sono proprio quelli che mancano per portare il termine azzurro
ad
avere indice n+1.
Stessa cosa succede con il termine viola e quello verdeacqua (portare il termine viola a
n+1).
E così via per tutti i termini, fino al termine giallo e quello rosso.
Notiamo anche i due termini marroni che fanno una cosa simile portando la sommatoria
fino
ad n+1.
Dimostrazione
Facciamo la stessa cosa che abbiamo fatto nelle prime lezioni, prendiamo questio evento:
∞
⋃ Ai e lo decompongo in una unione di eventi incompatibili (disgiunti, ad intersezione
i=1
nulla):
∞
⋃ Ai = A1 ∪ A 1C ∩ A 2 ∪ A 1C ∩ A 2C ∩ A 3 ∪ A 1C ∩ A 2C ∩ A 3C ∩ A 4 ∪…
⏠⏣⏣⏡⏣⏣
⏢
i=1 tutto ciò che ⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
continuo ad intersecare tutti⏢
non è in A1 i precedenti con quello nuovo
così assicuro così da ottenere una unione
la intersezione disgiunta senza
nulla perdere elementi
Il primo termine lo lasciamo così come è, mentre invece, quello in arancione vorrei
confrontarlo con
A2
Siccome A 1C ∩ A 2 è dato dalla intersezione tra A 2 è un altro insieme per cui, al massimo,
rispetto ad A 2 , può perdere elementi, non certo guadagnarne, perciò:
A 1C ∩ A 2 ⊆ A 2
Posso allora scrivere un limite superiore di (8) sostituendo il termine arancione, sfruttando
la
proprietà di monotonia della probabilità.
(8) ⩽ A 1 + P(A 2 ) + P A 1C ∩ A 2C ∩ A 3 + P A 1C ∩ A 2C ∩ A 3C ∩ A 4 +…
Questo discorso lo devo fare per ogni singolo termine di (8):
… B n+2 B n+1 Bn
k=n
Prendiamo per esempio il termine ennesimo:
C
B n ∩ B n+1
… B n+2 B n+1 Bn
C
La parte arancione è B n+1 , ma essendo che la interseco con B n allora devo prende solo
la
parte contenuta in B n , cioè quella sbarrata in rosso.
C
A questo punto cosa sarà B n+1 ∩ B n+2 sarà l'anello colorato in azzurro.
Ho perciò una successione di "anelli" concentrici che non hanno nessun punto in comune.
Allora se sono disgiunti io vorrei calcolare la probabilità di essi, ricordando che abbiamo la
� - additività come ipotesi iniziale.
∞ ∞
P(B 1 ) = P ⋃ C
B k ∩ B k+1 = ∑P C
B k ∩ B k+1 < +∞
⏠⏣⏣
⏡⏣⏣
⏢
k=1 �-additività k=1
Sono sicuro che sia convergente perchè il primo termine della catena di uguaglianze è
P(B 1 ) che è una quantità < 1, e perciò sono sicuro che la sommatoria converge.
Devo studiare la continuità cioè il poter spostare il limite fuori e dentro la misura di
probabilità
+∞
lim P(B n ) = lim ∑P C
B k ∩ B k+1 =
n → +∞ n → +∞
k=n
+∞ n-1
= lim ∑ C
P B k ∩ B k+1 - ∑ k=1 P(B k ∩ B k+1 ) =
n → +∞ k=1
⏠⏣⏣⏣⏣⏣⏣⏣⏣
siccome nel passaggio prima ⏡⏣⏣⏣⏣⏣⏣⏣⏣ ⏢
si parte da n, ho fatto ripartire
la sommatoria da 1, ma ho sottratto tutti gli n-1 termini
precedenti, che nel passagio prima non c'erano
+∞ n-1
= ∑ P C
B k ∩ B k+1 - lim n → +∞ ∑ k=1 P(B k ∩ B k+1 ) =
k=1
⏠⏣⏣⏣⏣
questa ⏡⏣⏣⏣⏣
parte qua ⏢
non dipende
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢⏠⏣⏣⏣⏣
porto il limite
⏡⏣⏣⏣⏣
an ⏢ (9)
da n quindi può essere fuori dal dentro la
limite partentesi
La serie gialla e la serie azzurra sono la stessa serie, solo che una (quella azzurra) è
blocata al punto n-1.
Quando n va a infinito ci va anche la serie azzurra che recupera i termini "in meno"
rispetto
alla serie gialla.
La serie blu viene rinominata a n che converge che converge al valore della serie gialla,
perché la serie è una serie convergente.
Perciò la differenza tra due cose uguali non può che essere 0.
( 3) = 0
Cioè:
∞
Quindi ho dimostrato la continuità, ma sotto la ipotesi che (B n ) n=1 tenda a �.
2 rilassare questa ipotesi molto stringente
∞
Considerò una successione (D n ) n=1 una successione decrescente ad un insieme limite
arbitrario D:
D = lim D n
n → +∞
∞
Costruisco una successione di insiemi artifciale (B n ) n=1 e la definisco nel seguente modo:
Bn = Dn ∩ D C
NB (B n ) n è decrescente B n ↘ � perchè all'aumentare di n D n si avvicina a D e quindi,
per definizione di complementare, la sua intersezione con D C ha sempre meno elementi.
Quindi:
se qui dentro mettessi
Dn ∩D C , tutto funzionerebbe
Dn =
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
B
⏞∪D
n
lim P C nC = P C C
n → +∞
Da questo ottengo:
P ⋂ Ak ⩽ P(A n ) ⩽ P ⋃ Ak
k⩾n k⩾n
∞
Ma io so che (A n ) n=1 ammette limite = A.
E per definizione il limite è uguale anche al limite superiore ed al limite inferiore.
P(A) ⩽ lim P(A n ) ⩽ P(A)
n → +∞
Cioé:
∀� ∈ C k , ∃ ⏨
k / � ∈ C⏨
k ⟹ � ∉ C j ∀j ≠ ⏨
k
⏠⏣⏣
⏡⏣⏣
⏢
per la disgiunzione degli An
∞
Man mano che k cresce, la successione (C k ) k=1 escluderà tutti gli elementi e quindi
convergerà a �.
Proprio la disgiunzione degli elementi della successione porta a questa convergenza.
Quindi:
∞ +∞
P ⋃ An = ∑ P(A n ) QED ⊠
n=1 n=1
Proposizione 20
Sia A ∈ F.
A è indipendente da ogni evento quasi-certo e da ogni evento quasi-impossibile.
Dimostrazione direttamente dalla definizione
Dobbiamo appunto far vedere che valga la definzione:
1 iniziamo a far vedere che vale per Ω e per �:
P A ∩ Ω = P(A) = P(A) ⋅ 1 = P(A) ⋅ P(Ω)
⏠⏣⏣
⏡⏣⏣
A⊂Ω
⏢
Perciò A è indipendente da Ω.
Quindi A è indipendente da �
2 facciamolo adesso vedere per eventi quasi-certi e quasi-impossibili:
C ∈ F / P(C) = 1 P CC = 0
Noto che:
A = ( A ∩ C) ∪ A ∩ C C
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
solito trucchetto della ⏢
unione disgiunta
P(A) = P(A ∩ C) + P A ∩ C C
NB
0 ⩽ P A ∩ CC ⩽ P CC =0
⏠⏣⏣ ⏡⏣⏣
⏢
⏠⏣⏣⏣⏡⏣⏣⏣
monotonia
⏢ scritto prima
in giallo
I ∈ F / P(I) = 0
0 ⩽ P(A ∩ I) ⩽ P(I) = 0
⏠⏣⏣⏡⏣⏣ ⏢
monotonia
Perciò:
P(A ∩ I) = 0 = 0 ⋅ (A) = P(I) ⋅ P(A) QED ⊠
Proprietà 21 degli eventi indipendenti
Se A, B ∈ F sono indipendenti, allora:
1. A, B C sono indipendenti.
2. A C , B sono indipendenti.
3. A C , B C sono indipendenti.
Dimostrazione solo la 1 perché tanto basta rietichettare per fare le altre due
A, B indipendenti ⟺ A, B C indipendenti
P A ∩ BC
Usiamo la nostra solo scomposizione in unione disgiunta:
A = (A ∩ B) ∪ A ∩ B C
P(A) = P(A ∩ B) + P A ∩ B C = P(A)P(B) + P A ∩ B C (10)
⏠⏣⏣⏣ ⏡⏣⏣⏣
indipendenti ⏢Hp
per
Quindi semplicemente riarrangiando gli elementi della equazione (4):
per Hp di
indipendenza
⏜⏟⏟⏟
⏝⏟⏟⏟⏞
P(A ∩ B) P(A)P(B)
PB (A) = P(A|B) = = = P(A)
P(B) P(B)
Dimostrazione 2 ⟹ 1
Hp
⏜⏟⏟⏟ ⏝⏟⏟⏟ ⏞
P(A|B) = P(A)
P(A ∩ B)
P(A|B) =
P(B)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
definizione ⏢
Le mettiamo insieme e otteniamo:
P(A ∩ B) = P(A)P(B) QED ⊠
Dimostrazione 1 ⟺ 3
E' banale basta scambiare B con A e la dimostrazione la abbiamo appena fatta
Dimostrazione 2 ⟺ 3
P(A|B) = P(A)
P(A ∩ B) P(A ∩ B) P(B)
P(B|A) = = = P(A ∩ B) ⋅ = P(B) QED ⊠
P(A) P(A|B) P(A ∩ B)
⏠⏣⏣⏣ ⏡⏣⏣⏣
definizione⏢
al contrario
Proposizione 24
Sia (�, F, P) uno spazio di probabilità e sia B ∈ F / P(B) > 0, allora:
PB ( • ) = P( • |B)
è una misura di probabilità sempre sullo spazio misurabile (Ω, F).
Dimostrazione
disgiunti fra loro
perché gli Ai sono
Ω disgiunti fra loro
=A ⏜⏟⏟ ∞ ∞
∞ ⏝⏟⏟
⏞
⏜⏟⏟
⏝⏟⏟
⏞
P(A) = P A ∩ Ω = P A ∩ ⋃ A i = P ⋃ ⏜⏟⏟⏟
⏝⏟⏟⏟
A∩A
⏞
i = ∑ P(A ∩ Ai )
i=1 ⏠⏣⏣
⏡⏣⏣
⏢
i=1 �-additività i=1
∞
= ∑ P(A|Ai )P(Ai )
⏠⏣⏣
⏡⏣⏣
⏢
definizione di probabilità i=1
condizionata al contrario
Teorema 26 di Bayes
∞
Sia (A n ) n=1 una partizione dell'evento certo Ω e
sia B ∈ F / P(B) > 0, P(A i ) > 0 ∀i
Allora:
P(B|A i )P(A i )
∀i = 1, 2, … , P(A i |B) = ∞
∑ P(B|A i )P(A i )
i=1
Dimostrazione
definizione
probabilità
condizionata
P(A i ∩ B)
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
P(B|A i )P(A i ) P(B|A i )P(A i )
P(A i |B) = = = ∞
⏠⏣⏣
⏡⏣⏣
⏢ P(B) P(B) ⏠⏣⏣
⏡⏣⏣⏢
definizione legge delle ∑ P(B|A i )P(A i )
probabilità probabilità totali
condizionata al denominatore i=1
Teorema 27
Dato uno spazio di probabilità (�, F, P) ed uno spazio misurabile (E, E)
∀B ∈ E, PX (B) = P ◦ X -1 (B)
è una misura di probabilità su (E, E).
Teorema 28
La funzione di distribuzione gode delle seguenti proprietà:
1. F X è non decrescente
2. F X è continua a destra
3. lim F X (X) = 1 ; lim F X (x) = 0
x→∞ x → -∞
Dimostrazione 1
Siano x, y ∈ R x < y consideriamo il seguente insieme:
{ � ∈ Ω / X(�) ⩽ x }
{ � ∈ Ω / X(�) ⩽ y }
Capiamo la relazione tra questi due insiemi: il primo è includo nel secondo:
{ � ∈ Ω / X(�) ⩽ x } ⊂ { � ∈ Ω / X(�) ⩽ y }
Allora posso usare la monotonia della mia misura di probabilità:
F X (x) = P(X ⩽ x) ⩽ P(X ⩽ y) = F X (y)
⏠⏣⏣⏣⏣⏣
P(A)⏡⏣⏣⏣⏣⏣
⩽P(B) ⏢
⟺
A⊂B
Dimostrazione 2
definizione di continuità a destra
⏜⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟
⏞
Vogliamo far vedere che:∀x 0 ⟹ lim x → x + F X (x) = F X (x 0 )
0
1
A n = � ∈ Ω / X(�) ∈ x 0 , x 0 + (11)
n
Valutiamo allora:
definizione di funzione
definizione di distribuzione
di distribuzione
⏜⏟⏟⏟⏟ ⏞ ⏜⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟
⏞
1 1 1
FX x0 + = P X ⩽ x0 + =P � / X(�) ⩽ x 0 + =
n n n
1
= P { � / X(�) ⩽ x 0 } ∪ � / X(�) ∈ x 0 , x 0 + =
n
⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣
decompongo in unione di insiemi disgiunti, le parti gialle, ⏢
se unite, danno la parte arancione
1
= P(X ⩽ x 0 ) +P x0 < X ⩽ x0 + =
n
definizione ⏠⏣⏣⏣ ⏡⏣⏣⏣ d⏢
di funzione distribuzione
⏠⏣⏣⏣⏣
vediamo in (11)⏡⏣⏣⏣⏣ ⏢ An
che è proprio
= F X (x 0 ) + P(A n )
⏠⏣⏣
⏡⏣⏣
⏢
successione (An )n=1 ∞
1
FX x0 + = F X (x 0 ) + P(A n )
n
Quindi se faccio il limite a destra ed a sinistra:
1
lim F X x 0 + = F X (x 0 ) lim + P(A n ) = F X (x 0 ) + P lim A n =
n → +∞ n ⏠⏣⏣ ⏡⏣⏣ ⏢ n → +∞ n → +∞
non dipende
da n ⏠⏣⏣⏣ ⏡⏣⏣⏣
la probabilità ⏢
è continua
= F X (x 0 ) + P(�) = F X (x 0 )
Dimostrazione 3
1
P(X = a) = lim P � ∈ Ω/a- < X(�) ⩽ a ⊛
n → +∞ n (15)
⏠⏣⏣⏣⏣⏣
abbiamo ripreso (13⏡
) ⏣⏣⏣⏣⏣ ⏢
e ci abbiamo messo
la parte gialla trovata in (14)
NB
proprietà della
definizione di probabilità del
sottrazione complementare
insiemistica
⏜⏟⏟⏟⏝⏟⏟⏟⏞ ⏜⏟⏟⏟⏝⏟⏟⏟ C⏞
P(C ∖ D) = P( C ∩ D C ) = 1 - P C ∩ D C = 1 - P CC ∪ D =
⏠⏣⏣
⏡⏣⏣
⏢
De Morgan
= 1 - P C C - P(D) = P(C) - P(D)
⏠⏣⏣
⏡⏣⏣
⏢
disgiunti (16)
quindi applico
la additività
Adesso usiamo ciò che abbiamo fatto in (16) dentro (15), poniamo:
C = { � / X(�) ⩽ a }
1
D = � / X(�) ⩽ a -
n
1
D C = � / X(�) > a - (17)
n
Sostituiamo le definizioni di (17) dentro (15) e vediamo che diventa identico a (16) e
perciò
vale.
Perciò:
1
⊛ = lim P({ � / X(�) ⩽ a }) - P � / X(�) ⩽ a - =
n → +∞
⏠⏣⏣⏣⏣ n
definizione⏡⏣⏣⏣⏣
di funzione⏢
di distribuzione
porto qui tanto
il termine prima
non dipende da n
(18)
= F X ( a) -
⏜⏟⏟⏟
lim
⏞F a - 1 = F (a) - lim F (x)
⏝⏟⏟⏟ QED ⊠
X X X
n → +∞ -
n x→a
Osservazione 30
Se F X è continua si ha che:
questo è uguale
al limite in azzurro in (18)
perchè la funzione di
distribuzione è continua
a destra per definizione
P(X = a) = F X (a) -
⏜⏟⏟⏟⏟⏝⏟⏟⏟⏟
F X ( a)
⏞ = 0 ∀a ∈ R
Osservazione 31
La densità discreta è nulla su R ∖ S.
E' positiva su S.
Osservazione 32
∞
Consideriamo S = ⋃ { xi } / xi ∈ S, ∀i
i=1
∞ ∞ ∞
1 = P X (S) = PX ⋃ { xi } = ∑ P X ({ x i }) = ∑ P(X = x i )
i=1 i=1 i=1
Osservazione 33
F X (x) = P(X ⩽ x) = , x ∈ R
= PX ⋃ { xi } = P ⋃ { � ∈ Ω / X(�) = xi } = ∑ P(X = xi )
i / xi ⩽ x i/xi ⩽x i/xi ⩽x
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
i punti alla
sinistra di x
P
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
X = k + m, X > k
⏞
P(X = k + m|X > k) = =
P(X > k)
⏠⏣⏣⏣⏣⏣⏣
definizione ⏡
di⏣⏣⏣⏣⏣⏣
probabilità ⏢
condizionata
densità discreta
GE(p)
⏜⏟⏟⏟
⏝⏟⏟⏟⏞
k+m-1
P(x = k + m) p( 1 - p) p(1 - p) k+m-1
= = ∞
= ∞ k
=
P(X > k)
∑ p(1 - p) j-1 ∑ p(1 - p) j-1 - ∑ p(1 - p) j-1
j=k+1 j=1 j=1
⏠⏣⏣⏣ ⏡⏣⏣⏣
siccome guardo ⏢
X>k ⏠⏣⏣⏣ ⏡⏣⏣⏣
serie geometrica⏢ somma
⏠⏣⏣⏣ ⏡⏣⏣⏣
parziale ⏢
della
devo andare da k+1 fino ad ∞ serie geometrica
⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
scriviamoci la serie ⏢
completa e togliamo i termini
che abbiamo aggiunto
p(1 - p) k+m-1 p(1 - p) k+m-1
= = k
= p(1 - p) m-1 = P(X = m) QED ⊠
1 1-(1-p) k 1 - 1 + ( 1 - p)
p 1 - (1 - p ) - p 1 - (1 - p )
Osservazione 35
(X,Y) vettore aleatorio discreto.
Sia F (X,Y) (x, y) la funzione di distribuzione congiunta del vettore (X,Y).
Allora:
scriviamo
con gli eventi
⏜⏟⏟
⏝⏟⏟⏟
⏞
lim F (X,Y) (x, y) = lim P(X ⩽ x, Y ⩽ y) =
x → +∞ x → +∞
= P lim { � ∈ Ω / X(�) ⩽ x } ∩ { � ∈ Ω / Y(�) ⩽ y }
x → +∞
⏠⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣
chiamiamolo evento Ex ⏢
NB la collezione di insiemi (E x ) x∈R è crescente per x → +∞
Osservazione 36
Sia (X,Y) vettore aleatorio discreto (supporto al più numerabile), allora abbiamo:
P(X = x i ) = ∑ P(X = x i , Y = y j )
j
Dimostrazione
= ∑
j
∑ P(X = xi , Y = yj ) = ∑ ∑ P(X = xi , Y = yj )
⏠⏣⏣⏡⏣⏣
⏢ i/xi ⩽x i/xi ⩽x j
sommatoria su
tutti i valori di
j perchè ho
mandato a ∞
Le due parti sottolineate sono uguagliate:
F X ( x) = ∑ ∑ P(X = xi , Y = yj )
⏠⏣⏣
⏡⏣⏣
⏢ i/xi ⩽x j
∑ P(X=xi )
i/xi ⩽x
Proprietà 37 legame della Poisson con le Binomiali
La V.A. di Poisson altro non è che una V.A. binomiale basata su di un esperimento
probabilistico con un elevato numero di prove nelle quali la probabilità di successo è
molto
bassa
Dimostrazione
Sia:
(Xn ) n∈N *
una successione di V.A. binomiali tali che:
�
Xn ∼ BIN n, , ∀n ∈ + N *
n
k n-k
n � � (20)
P(Xn = k) = 1-
k n n
Cosa succede per n → +∞
Riscrivo (20) ma con il limite:
n-k
�
1-
n
k ⏜⏟⏟⏟⏟
n⏝⏟⏟⏟⏟
⏞
-k
n! � � �
lim P(Xn = k) = lim 1- 1- =
n → +∞ n → +∞ k!(n - k)! n n n
n(n - 1) ⋅…⋅ (n - k + 1)(n - k)!
(n - k)!
�k
⏜⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟ ⏞
n(n - 1) ⋅…⋅ (n - k + 1) �
n
�
-k
= lim 1- = 1-
k! n → +∞ nk n n
⏠⏣⏣⏡⏣⏣
⏢
porto fuori ⏠⏣⏣⏣⏣⏣
=⏡⏣⏣⏣⏣⏣
1 ⏢ limite
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
notevole ⏠⏣⏣⏣
=⏡⏣⏣⏣
1 ⏢
dal limite
tutto ciò che non al numeratore ho k termini = e -� per n → +∞
dipende da n siccome al denominatore ho n k per n → +∞
posso semplicemente prendere
ogni termine (che è meno di n)
e dividerlo per n
� k -k
= e
k!
Quindi il limite di questa successione di Binomiali diventa una Poisson. QED ⊠
Proprietà 38 di composizione per le Variabili Aleatorie
Sia X una V.A. , X : Ω → R con funzione di disttribuzione F X e sia g : R → R una
funzione
borel-misurabile (cioè misurabile rispetto alla � - algebra di Borel).
Allora la funzione:
Y = g◦X:Ω→R
è una Variabile Aleatoria.
Dimostrazione
Consideriamo lo spazio di probabilità:
(�, F, P)
E tramite la V.A. andiamo in R e tramite g "riandiamo" in R.
Y mi fa invece fare il salto diretto.
Ω X g
R R
Y = g◦X
Allora:
∀B ∈ B(R)
Y (B) = � ∈ Ω / Y(�) ∈ B } = { � ∈ Ω / (g ◦ X)(�) ∈ B } = � ∈ Ω / X(�) ∈ g -1 (B)
-1
Notiamo che:
• B ∈ B(R) perché l'ho scelto io
• g -1 (B) ∈ B(R) per la misurabilità di g
X -1 g -1 (B) ∈ F
• ∥ per la misurabilità di X
-1
Y (B)
Quindi è misurabile e quindi è una V.A.
= ∑ ⏜⏟⏟⏟
⏝⏟⏟⏟ ⏜⏟⏟
⏝⏟⏟
⏞
f z ( z) p ⏞ t , z-t =
⏠⏣⏣
⏡⏣⏣
⏢
densità discreta
t ⏦
la prima coordinata
la calcolo "normalmente"
di Z
nella variabile
= ∑ t p(z - t, t)
⏠⏣⏣⏣ ⏡⏣⏣⏣
equivalentemente ⏢
posso
scambiare il calcolo delle
coordinate
Dimostrazione
P(U + V = z) = ∑ ∑ P(U = u, V = v) =
(u,v)/u+v=z
= ∑ ∑ P(U = u, V = v) = ∑ P(U = z - v, V = v) =
(u,v)/u=z-v v
= ∑ p(z - v, v) QED ⊠
v
⏠⏣⏣⏣
riscritto ⏡⏣⏣⏣
in ⏢
notazione
abbreviata
Dimostrare la seconda formula si fa scambiando semplicemente le variabili
Osservazione 40 [(U,V) indipendenti]
Se U,V, sono indipendenti allora la densità discreta si fatorizza:
p(u, v) = p 1 (u)p 2 (v)
e quindi:
Osservazione 41
Il valore atteso di una V.A. q.c non negativa può assumere valori:
< +∞
EX :
= +∞
Proprietà 42 Valore atteso per una qualsiasi V.A.
Valore atteso per una qualunque V.A.
Sia X una V.A. discreta a valori reali.
Sia X + = MAX(X, 0)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
parte positiva di X ⏢
Sia X - = MIN(X, 0)
⏠⏣⏣⏣⏣ ⏡⏣⏣⏣⏣
parte negativa di X ⏢
Sia X + che X - sonoi due variabili aleatorie quasi certamente positive.
Allora:
Finito
±∞
∄ → Nel caso
i valori di EX + e EX -
EX = EX + - EX - =
diano una somma non definita
Esempio EX + = EX - = + ∞
Allora :
EX + - EX - = + ∞ - ∞ = ∄
Osservazione 43
E|X| = EX + + EX - (21)
Osservazione 44
Se lavoro su (21)
cambio la definizione perché sto usando
definizione di valore atteso la parte negativa
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
⏞ ⏜⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟
⏞
E|X| = ∑ x i P(X = x i ) + ∑ (-x i )P(X = x i ) =
i/ xi ⩾ 0 i/ xi ⩽ 0
⏠⏣⏣
⏡⏣⏣
⏢ ⏠⏣⏣
⏡⏣⏣
⏢
sommatoria sommatoria
della parte della parte
positiva negativa
∞
= ∑ |x i |P(X = x i )
i=1
Posso vedere come io voglia il valore atteso del modulo di X io debba usare nella formula
i
moduli dei valori del supporto.
Teorema 45
Sia Z una V.A. ottenuta come
Z = f(X = (X1 , … Xn )) = f(X1 , X - 2, … Xn )
Dove:
f : Rn → R
è borel-misurabile.
Diciamo che Z è integrabile se:
∞
∑ |f x 1i , … , x ni | ⋅ P X1 = x 1i , X2 = x 2i , … , Xn = x ni < + ∞
i=1 ⏦
i-esimo
punto del supporto
di X1
Dove:
+∞
SX = x 1i , … , x ni
i=1
Inoltre:
∞
EZ = ∑ f x 1i , … , x ni P X1 = x 1i , X2 = x 2i , … , Xn = x ni
i=1
Dimostrazione
Studiare:
∞
E|Z| = ∑ |z i |P(Z = z i )
i=1
Dove:
SZ = { z1 , z2 , … }
Usiamo ora degli insiemi che chiamo:
A j = {(x 1 , … x n ) / f(x 1 , … , x n ) = z j } = f -1 (z j ) (22)
Considero l'evento
{ Z = z j } = { � ∈ Ω / Z(�) = z j } = { � ∈ Ω / f(X1 , … Xn )(�) = z j } =
= ⋃ x∈A { X1 = x 1 , … , Xn = x n }
j
⏠⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣
tutti quei punti del tipoX ⏢
1 =x 1 ,…,X n =x dove
il mio vettore x(x1 ,…xn ) viaggia in nel j-esimo
insieme Aj , quello relativo a zj , definito in (22)
Quindi:
Otteniamo:
questo è funzione
di x=(x1 ,…xn )
∞ ∞
∑ |zj |P(Z = zj ) = ∑ ⏜⏟⏟⏟
⏝⏟⏟⏟
|z j |
⏞P(X = x , … , X = x ) =
1 1 n n
j=1 j=1
⏠⏣⏣⏣⏣⏣⏣⏣⏣
ciò che abbiamo ottenuto in⏡⏣⏣⏣⏣⏣⏣⏣⏣
(23) a cui abbiamo aggiunto⏢
la moltiplicazione per |zj |
∞
= ∑ ∑ |f(x 1 , … , x n )|P(X1 = x 1 , … , Xn = x n ) =
j=1 x∈Aj
⏠⏣⏣
⏡⏣⏣
⏢
sto sommando per tutti i
valori di j
e per ogni j considero tutti
gli elementi di Aj
Glodabalmente sto sommando
su tutti i valori del supporto del
vettore aleatorio X=(X1 ,.....,Xn )
tutti i punti delo supporto
∞
∑
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟ ⏞
= |f x 1i , … , x ni | P X1 = x 1i , … , Xn = x ni
i=1
⏠⏣⏣
⏡⏣⏣
⏢
basta una
sola somma
Se la parte arancione alla fine è finita < +∞ allora lo è anche la parte azzurra all'inizio, e
perciò Z è integrabile, per definizione di integrabilità.
Calcoliamo ora:
∞ ∞
EZ = ∑ z j P(Z = z j ) = ∑ z j ∑ P(X1 = x 1 , … , Xn = x n ) =
j=1 j=1 x∈Aj
stessi passaggi di prima manca solo il modulo a z j
∞
= ∑ ∑ f(x 1 , … , x n )P(X1 = x 1 , … , Xn = x n ) =
j=1 x∈Aj
∞
= ∑ f x 1i , … , x ni P X1 = x 1i , … , Xn = x ni
i=1
R2 → R
f:
(x, y) ⇝ x + y
Dobbiamo fare vedere che la V.A. è integrabile e poi calcolarne E.
∑ ∑ |f(xi , yi )| ⋅ P(X = xi , Y = yj ) =
i j
è proprio il risultato dovendo far vedere che
della funzione che converge va bene anche
abbiamo definito nell Hp la disuguaglianza
= ∑∑
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟
|x i + y j |
⏞ ⋅ P(X = x , Y = y )⏜⏟⏟⏟
⏝
⩽⏟⏟⏟
⏞
i j
i j
disuguaglianza
triangolare NDS
⩽ ∑ ∑ (|x i | + |y j |) ⋅ P(X = x i , Y = y j ) =
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
i j
divido la somma negli addendi relativi ad i e a quelli relativi a j
⏜⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
⏞
= ∑∑ |x i | ⋅ P(X = x i , Y = y j ) ∑ ∑
i j
|y j | ⋅ P(X = x i , Y = y j )
i j ⏠⏣⏣
⏡⏣⏣ ⏢
non dipende da j ⏠⏣⏣
⏡⏣⏣
⏢
giriamo queste
si può portare fuori due sommatorie
tanto è uguale
∑∑ |x i | ⋅ P(X = x i , Y = y j )∑ ∑ |y j | ⋅ P(X = x i , Y = y j ) =
i j ⏠⏣⏣
⏡⏣⏣
⏢ j i ⏠⏣⏣
⏡⏣⏣⏢
non dipende da j non dipende da i
si può portare fuori si può portare fuori
= ∑ |x i | ∑ ⋅ P(X = x i , Y = y j ) ∑ |y j | ∑ ⋅ P(X = x i , Y = y j ) =
i j j i
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
sto facnedo una ⏢
somma su j di
⏠⏣⏣⏣⏣⏣
sto ⏡⏣⏣⏣⏣⏣
facendo la somma ⏢
su i di tutti
tutti i valori del supporto della Y i valori del supporto della congiunta X
sto quindi
marginalizzando
⏜⏟⏟⏟
⏝⏟⏟⏟
=
⏞ ∑ |x | P(X = x ) ∑ |y | P(Y = y )
i i j j
i ⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢ j (24)
per effetto della ⏠⏣⏣⏣
per ⏡⏣⏣⏣
effetto ⏢
della
maginalizzazione maginalizzazione
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢
X e Y sono integrabili per ipotesi perciò le due quantità in (24) sono finite
Perciò la V.A. somma delle nostre due variabili aleatorie è integrabile, dobbiamo ora
calcolarne il valore atteso:
E(X + Y) = ∑ ∑ (x i + y j ) ⋅ P(X = x i , Y = y j ) =
i j
= ∑ x i ∑ P(X = x i , Y = y j ) + ∑ y j ∑ P(X = x i , Y = y j ) =
i j j i
⏠⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣⏣⏣
marginalizziamo da una parte e ⏢
marginalizziamo dall'altra nei due addenti
per effetto della
marginalizzazione
ottengo
⏜⏟⏟⏟ ⏞∑ x P(X = x )∑ y P(Y = y ) = EX + EY
⏝⏟⏟⏟
= i i j j
i j
Z = X-Y
Grazie alla proprietà precedente so che, se X e Y sono integrabili, Z sono integrabili.
Prendo allora il fatto che:
1 = P(X ⩾ Y) ⟺ P(Z ⩾ 0) = 1
∥
∑ 1 [0,+∞] (z i )P(Z = z i )
i
⏠⏣⏣⏣⏣⏣
somma dei valori delle probabilità degli ⏡⏣⏣⏣⏣⏣ ⏢
elementi non negatividel supporto della Z
Quindi:
EZ = ∑ zi ⋅ P(Z = z i )
i ⏦
⩾0 ⏠⏣⏣⏣
⏡⏣⏣⏣
⩾0 ⏢
perchè Z è una V.A. per def. di
q.c. non negativa per Hp probabilità
Cioé:
E(X - Y) ⩾ 0
sfruttando la linearità del valore atteso
EX - EY ⩾ 0
mat
EX ⩾ EY QED ⊠
Dimostrazione del punto 2
Dati x, y ∈ R è evidente che se |x| ⩽ |y| ⟺ -|y| ⩽ x ⩽ |y|
Quindi passando alle variabili aleatorie:
-|X| ⩽ X ⩽ |X|
Applico il valore atteso in tutti i membri:
-E|X| ⩽ EX ⩽ E|X|
Cioè
|EX| ⩽ E|X|
Proprietà 48 di EX
Da X V.A. discreta unidimensionale a valori reali.
Se X è limitata (cioé ∃m > 0 / P(|X| < m) = 1) cioè S ⊂ [-m; m]
Allora è integrabile:
Dimostrazione
maggioro ogni |xi |
con m e lo porto
fuori dalla sommatoria
⏜⏟⏟⏟
⏝⏟⏟⏟
⏞
∑ |xi |P(X = xi ) ⩽ m ∑ i P(X = x i ) = m
⏠⏣⏣⏡⏣⏣
⏢
i siccome il supporto ⏠⏣⏣⏣
=⏡⏣⏣⏣
1 ⏢
è maggiorata da -m e m
probabilità di tutti
i valori del supporto
Essendo minore di un valore finito è per forza finita e perciò integrabile
Proposizione 49
Sia X,Y VV.AA. discrete, unidimensionali a valori reali e tali che:
|X| ⩽ |Y| q. c. (25)
Quando dò delle uguaglianze o disuguaglianze su V.A. assumo che valgano quasi
certamente.
Quindi in questo caso (25) diventa:
P(|X| ⩽ |Y|) = 1
Allora se Y è integrabile anche X lo è.
Dimostrazione
Ora usa la Hp io posso maggiorare il modulo di |x i | con |y j | perché ho l'ipotesi che |X| ⩽ |Y| q. c.
(27) ⩽ ∑ ∑ |y j |P(X = x i , Y = y j )
i j
Ora faccio la marginalizzazione, ma rispetto all'altra variabile cioé ottengo la V.A.
= ∑ |y j |P(Y = y j )
j
Che sono sicuro essere una quantità finita ciò rende anche (26) una quantità finita e
quindi
anche X è una V.A.
Proposizione 50
Siano X,Y VV.AA. discrete a valori in R indipendenti e integrabili.
Allora XY è integrabile e:
EXY = EXEY
Dimostrazione
∑ ∑ |x i
⋅ y j |P(X = x i , Y = y j ) =
i j
X e Y integrabnili per Hp
sono indipendenti
⏜⏟⏟⏟⏟⏟⏟⏟
⏝⏟⏟⏟⏟⏟⏟⏟
⏞
= ∑ ∑ |x i ⋅ y j |P(X = x i )P(Y = y j ) = ∑ i |x i |P(X = x i ) ⋅ ∑ j |y j |P(Y = y j ) < + ∞
⏜⏟⏟⏟⏟ ⏝⏟⏟⏟⏟ ⏞
i j
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢ ⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
<+∞ ⏢
Inoltre:
j=1
Attenzione qui non ho usato la definizione di valore atteso, ma ho usato il teorema della
scorsa volta che mi permette di calcolare il valore del valore atteso più semplicemente
(uso
la densità discreta di X e non di X k ).
Similmente:
∞
VarX = ∑ (x j - EX) 2 P(X = x j )
j=1
Proprietà 53 dei momenti
Se X ha momento di ordine k finito, allora ha anche momento di ordine r ⩽ k finito.
Dimostrazione
Fisso r ⩽ k.
Facciamo una serie di considerazioni:
• se |x| ⩽ 1 ⟹ |x| r ⩽ 1
• se |x| ⩽ 1 ⟹ |x| r ⩽ |x| k perché k ⩾ r
Quindi ∀x ∈ R si ha:
|x| r ⩽ 1 + |x| k
Consegeuntemente:
|X| r ⩽ 1 + |X| k
E allora:
E|X| r ⩽ 1 + E|X| k < + ∞ QED ⊠
Proprietà 54 della Varianza
Siano X,Y VV.AA. unidimensionali a valori in R e sia a ∈ R
1. Var(aX) = a 2 VarX
2. Var(a + X) = VarX
3. Var(X + Y) = VarX + VarY + 2Cov(X, Y)
La varianza è quindi un operatore quadratico
Dimostrazione 1
Dimostrazione 2
2
Var(a + X) = E a + X - E(a + X) = Var(a + X) =
⏠⏣⏣⏣ ⏡⏣⏣⏣ ⏢
linearità del
valore atteso
2 2
= E a+X- Ea - EX = E a + X - a - EX =
⏠⏣⏣
⏡⏣⏣
⏢
=a
valore atteso
di una V.A. degenere
= E[X - EX] 2 = VarX
Dimostrazione 3
2
Var(X + Y) = E[X + Y - E(X + Y)] 2 = E (X - EX) + (Y - EY) =
⏠⏣⏣⏣⏣⏣
linearità del ⏡⏣⏣⏣⏣⏣
valore atteso e⏢
riorganizzazione delle parentesi
= E (X - EX) + (Y - EY) + 2(X - EX)(Y - EY) = E(X - EX) 2 +
2 2
+E(Y - EY) 2 + 2E(X - EX)(Y - EY) = VarX + VarY + 2Cov(X, Y) (28)
j dj
EX = m X (t)| t=0
dt j
Proprietà 57 della funzione generatrice dei momenti
Date X,Y VV.AA. indipendenti allora:
m X+Y (t) = m X (t) ⋅ m Y (t)
Cioè
Ee t(X+Y) =
E questo è vero perché, per quanto visto nella esercitazione 5, il valore atteso si fattorizza
quando le VV.AA. sono indipendenti.
= Ee tX+tY = E e tX e tY = Ee tX Ee tY
⏠⏣⏣⏡⏣⏣ ⏢
X,Y sono
indipendenti
⟹
e tX , e tY sono
indipendenti
Proposizione 58
Sia X,Y VV.AA. con funzione generatrice dei momenti (cioè i momenti esistono).
Allora sono identicamente distribuite
se e solo se
m X (t) = m Y (t) , ∀t / ∃m X (t) ∧ ∃m Y (t)
Proposizione 59
Se X è una V.A. non negativa (P(X ⩾ 0) = 1) , per � > 0 si ha:
Opera una minorazione perché trascuro uno dei due elementi che sono entrambe
quantità
positiva, ergo la loro somma sarà maggiore di uno solo dei due.
a=e p 1 1
t , con + =1
q
p q
b=e
L'esponenziale è una funzione convessa. quindi vale una disuguaglianza di Jensen.
s t
+
p q 1 1
e ⩽ es + et
p q
Cioè
1 1
a ⋅ b ⩽ ap + bq (31)
p q
Consideriamo X, Y VV.AA. e fissiamo:
X Y
a= 1⁄p
, b= 1⁄q (32)
E|x| P E|Y| q
Riscriviamo quindi (31) considerando quanto posto in (32) :
p q
XY 1 X 1 Y
⩽ +
p 1⁄p q 1⁄q p P 1⁄p q 1⁄q
E|x| E|Y| E|x| E|Y| q
Queste sono VV.AA. posso applicare il valore atteso in tutti i membri.
E|XY| 1 E|X| p 1 E|Y| q
⩽ + =1
E|x| p 1⁄p
E|Y| q 1⁄q p E|X| p q E|Y| q
⏠⏣⏣⏣⏣
⏡⏣⏣⏣⏣
1 1 ⏢
per Hp + =1
p q
Cioè.
1⁄p 1⁄q
E|XY| ⩽ E|X| p E|Y| q (33)
p=q=2
1⁄2 1⁄2
E|XY| ⩽ E|X| 2 E|Y| 2
Teorema 64 disuguaglianza di Lyapunov
Supponiamo di avere due parametri 0 < � < � e fissiamo:
� �
p= , q=
� �-�
La nostra V.A.Y
Y ≐ 1 q. c. , X ≐ |X| �
Per Hölder:
�-�
�
� �⁄� �
�⋅
� � �-�
E |X| ⋅ 1 ⩽ E|X| ⋅ E|1|
⏠⏣⏣
⏡⏣⏣
⏢
prodotto delle ⏠⏣⏣⏣
⏡⏣⏣⏣
=1
⏢
due variabili
Cioé:
�⁄�
E|X| � ⩽ E|X| �
Rendiamola un po' più simmetrica:
⟺
� 1⁄� 1⁄�
E|X| ⩽ E|X| � , 0<�⩽�
Teorema 65 di Bernoulli o Legge debole dei grandi numeri per VV.AA. indipendenti e
identicamente distribuite (I.I.D.)
Sia (X n ) n una successione di VV.AA. I.I.D.
Denotiamo con:
� = EXn , ∀n
Siccome sono identicamente distribuite per Hp e quindi hanno anche lo stesso valore
atteso
ed è per questo che � non dipende da n.
Denotiamo con:
� 2 = VarXn , ∀n
Idem come sopra la varianza sarà uguale per ogni V.A.
Chiamiamo
n
1
⏨n =
X ∑ Xi
n i=1
si ha che:
1
n ⏜⏟⏟⏟
1 n
⏝⏟⏟⏟
⏞
E⏨
Xn = E∑ X i = ∑ EXi =�
n i=1 n i=1 ⏠⏣⏣⏡⏣⏣⏢
chiamato �
per Hp ed è
comune a
tutte le Xi
Perciò il valore atteso della media empirica e lo stesso di ogni V.A. che compone la
successione.
n
1
⏨n =
Var X Var∑ Xi =
n2 n=1
La varianza delle somme è uguale alla somma delle varianze?
Solo se la VV.AA. in gioco sono indipendenti cosa appunto definita dalle noste Hp.
sommo n volte � 2 e divido per n 2
⏜⏟⏟⏟⏟⏟
1 n ⏝⏟⏟⏟⏟⏟
⏞ �2
= Var ∑ VarXi =
n2 n=1 ⏠⏣⏣
⏡⏣⏣
⏢ n
definito come � 2
per Hp ed è uguale
per ogni V.A.
�2
Capisco che la varianza della media empirica è quindi, quando n cresce la varianza
n
tende a 0.
Allora dire che la varianza tende a 0 significa dire che la distribuzione di probabilità della
V.A.
presa in considerazione (in questo caso la media empirica) si concentra intorno al suo
valore atteso che in questo caso è proprio �.
Quindi capiamo già che si concentrerà sul valore atteso, dimostriamolo formalmente:
Uso Chebyshev:
⏨n
Var X �2
∀� > 0 P ⏨n - � ⩾ � ⩽
X =
⏦
⏨n
�2 n ⋅ �2
EX
Applichiamo il limite
�2
⏨n - � | ⩾ �) ⩽ lim
lim P(| X =0 QED ⊠
n → +∞ n → +∞ n ⋅ �2
Teorema 66 Legge forte dei grandi numeri
Sia (X n ) n una successione di VV.AA. indipendenti e tali che:
EXn = � , ∀n
Non si richiede una identica distribuzione, ma un identico valore atteso.
Allora:
P( � ∈ Ω / lim ⏨
X n (�) =� =1
n → +∞ ⏠⏣⏣ ⏡⏣⏣⏢
ricordiamo la
media empirica
è una V.A.
∥
0
∥ l'integrale su di un singolo punto vale 0.
∫{x }f(t)dt
0
Quindi:
+∞
f X ( x) = ∫ f (X,Y) (t 1 , t 2 )dt 1 dt 2
-∞
Osservazione 74
Sia (XY) V.A. ass. continuno con densità congiunta:
f (X,Y) (x, y)
e funzioni di densità marginali:
f X ( x) , f Y ( y)
Allora, se X e Y sono indipendenti allora:
P(X ⩽ x, Y ⩽ y) = F X (x)F Y (y) = P(X ⩽ x)P(Y ⩽ y)
Perciò:
x y x y
∫-∞∫-∞f(X,Y) (t1 , t2 )dt1 dt2 = ∫-∞fX (t1 )dt1 ∫-∞fY (t2 )dt2
Si capisce che (siccome vale ∀(x, y) ∈ R 2 ) anche la densità congiunta si fattorizza:
f (X,Y) (t 1 , t 2 ) = f X (t 1 )f Y (t 2 )
Osservazione 75
Se abbiamo X 1 , … , X n V.A. indipendenti e ass.cont.
allora.
�(X1 ), … , � n (Xn ) con � i misurabile e continua i = 1, … , n
sono V.A. ass. cont. indipendenti.
Proprietà 76 convoluzione per le VV.AA. assolutamente continue
Dato (X, Y) vettore aleatorio assolutamente continuo.
Con densità di probabilità di congiunta:
f(x, y)
La variabile aleatoria:
Z = X+Y
ha densità:
+∞
f Z ( z) = ∫ f(x, z - x)dx = f X (x)f Y (z - x)
-∞
A
0 z
Quindi:
+∞
∫-∞ f(u, t - u)du = f Z (x)dx
Quindi:
+∞
f Z (t) = ∫ f(u, t - u)du
-∞
Osservazione 77
Sia X un vettore aleatorio n-dimensionale con componenti a valori reali.
X = (X1 ,........., Xn ) , n ∈ N *
e
X : � → Rn
Consideriamo il vettore aleatorio:
Y = g(X)
Dove g è una funzione continua e Borel-misurabile:
g : Rn → Rn
Vogliamo determinare la densità di Y.
Allora, ∀A ∈ B(R) valutiamo la probabilità:
integro su
di un insieme
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
⏞
P(Y ∈ A) = P(g(X) ∈ A)P X ∈ g -1 (A) = ∫…∫ f X (x 1 , … , x n )dx 1 … dx n
g -1 (A)
=
{(x1 ,…xn )/g(x1 ,…xn )∈A }
Ma allora ci deve essere una relazione tra la densità di uno e dell'altro vettore.
Dimostrazione
Teorema 78
Siano X = (X 1 ,........., X n ) , n ∈ N * VV.AA. con densità congiunta f X e sia � : R n → R
una funzione borel-misurabile e continua. Allora:
Z = �(X = (X1 ,........., Xn ))
è integrabile se e solo se:
∫…∫ | �(x 1 , … , x n )| f X (x 1 , … x n )dx 1 … dx n < + ∞
n volte
in tal caso:
EZ = ∫…∫�(x 1 , … , x n )f X (x 1 , … , x n )dx 1 … dx n
n volte
Proposizione 79
X,Y VV.AA. indipendenti tali che:
X ∼ N � 1 , � 12
Y ∼ N � 2 , � 22
Allora:
Z = X + Y ∼ N � 1 + � 2 , � 12 + � 22
Dimostrazione
X + Y ∼ N � 1 + � 2 , � 12 + � 22 QED ⊠
i = 1, … , n
Xi ∼ Ga(� i , �) , �i > 0 i = 1, … , n
�>0
Allora:
X1 +…+ Xn ∼ Ga(� 1 + � 2 +… � n , �)
Osservazione 81
Z è integrabile se lo sono Z 1 e Z 2 e
EZ = EZ 1 + EZ 2
Teorema 82
Proprietà 83
Qui io sto parlando di una successione di VV.AA. I.I.D. delle quali non stiamo dicendo
assolutamente nulla, esse possono essere discrete o assolutamente continue, positive
quasi certamente.
Dimostrazione
La faremo vedere tramite la convergenza delle funzioni caratteristiche.
Poi useremo il teorema di Lévy per dimostrare la tesi.
EX⏨n = �
�2
⏨
Var X n =
n
Chiamo Y n :
=�
⏜⏟⏟
⏝⏟⏟⏞
EXn - �
Xn - � EY n = =0
Yn = , �
� 1
VarY n = VarXn = 1
� 2 ⏠⏣⏣
⏡⏣⏣
2 ⏢
�
La normalizzazione di X n
Ho ottenuto una V.A. Y n con media 0 e varianza pari ad 1.
Il che aiuta molto per il risultato finale di arrivare alla normale standard
Facciamo due conti da (37) e otteniamo:
n n
1 1
Sn = ∑ (Xi - �) = ∑ Yi
� n i=1 n i=1
Calcoliamo ora la funzione caratteristica della S n
�
� Sn (�) = � 1 n (�) = � ∑ n Yi
=
∑ Yi
n
i=1 i=1
n
⏠⏣⏣⏣
⏡⏣⏣⏣
∑ Y ⏢ n
i=1 i
i�
n
Ee
NB
� Y 1 ( 0) = 1
�'Y1 (0) = iEY 1 = 0
�''Y1 (0) = i 2 EY 12 = (-1) ⋅ VarY 1 = - 1
La varianza equivale al momento secondo
perchè il valore atteso vale 0
Otteniamo:
n � �2 1
n log �Y1 n log 1- +o
� n 2n n
� Sn (�) = � Y1 =e =e =
n
NB
per t → 0
log(1 + t) ∼ t
per n grande
va 0 per definizione
di o-piccolo
per n grande � 2 ⏜⏟⏟⏟
⏝⏟⏟⏟
1 ⏞
-n + n⋅o
⏜⏟⏟
⏝⏟⏟
⏞ 2n n
= e
Passo al limite per n → +∞
�2
-
lim � Sn = e 2 (38)
n → +∞
E (38) non è altro che la funzione carattestica di una normale standard.
Per il teorema di Lévy la convergenza delle funzioni caratteristiche implica la convergenza
in
distribuzione delle VV.AA.
Perciò abbiamo:
d
S n ⏪⏫ Z ∼ N(0, 1)
Teorema 87
Sia X = (X 1 ,........., X n ) un campione di taglia n estratto da una popolazione
X ∼ f( ∙ ; �)
Allora:
EM k = � k
1
VarM k = � 2k - � k2
n
Dimostrazione EM k = � k
n n
1 1
EM k = E ∑ Xik = ∑ EXik =
n i=1 n i=1
1
Dimostrazione VarM k = � 2k - � k2
n
n n
1 1
VarM k = Var ∑ Xik = 2
Var∑ Xik =
n i=1 n i=1
Detto ciò ogni elemento della somma non dipende da i, quindi (39) diventa
1 1
= 2
n � 2k - � k2 = � 2k - � k2
n n
Teorema 88
Sia X = (X 1 ,........., X n ) un campione casuale di taglia n estratto da:
X ∼ f( ∙ ; �)
Allora,
ES 2 = � 2
1 n-3 4
VarS 2 = �4 - �
n n-1
Dove
� 2 = VarX
Dimostrazione (solo del primo punto)
n
1
ES 2 = E ∑ (X i - X
⏨n ) 2
n-1 i=1
(40)
⏠⏣⏣⏣ ⏡⏣⏣⏣
concentriamoci ⏢
su questo
n n �=� 1 =EX
2
∑ (Xi - X⏨n ) 2 = ∑ Xi - ⏜⏟⏟
⏝⏟⏟
� ⏞+�- X
⏨n =
i=1 i=1
n
= ∑ (Xi - �) 2 + (X
⏨n - �) 2 - 2(Xi - �)(X
⏨n - �) =
i=1
n n
= ∑ (Xi - �) + n(X ⏨n - �)∑ (Xi - �) =
⏨n - �) - 2(X
2 2
i=1 i=1
n
= ∑ (Xi - �) 2 + n(X
⏨n - �) 2 - 2(X
⏨n - �)n(X
⏨n - �) =
i=1
n
= ∑ (Xi - �) 2 - n(X
⏨n - �) 2
i=1
Teorema 90
Se Z ∼ N(0, 1) allora Y = Z 2 ∼ � 12
Dimostrazione vogliamo far vedere che
1 1
1 - - y
f Y ( y) = 1
y 2e 2
1
22� 2
t2
m Z (t) = exp � 1 t + � 2
2
Invece se Y ∼ �(� 1 , � 2 )
�1
�2
m Y (t) = , t < �2
�2 - t
p 1
Perciò nel caso del chi-quadrato Y ∼ � , = � p2
2 2
p
2
1
p
2 -
m Y (t) = = (1 - 2t) 2
1
2
-t
Osservazione 92
Siano Z 1 , … Z n VV.AA: indipendenti e tali che Z i ∼ N(0, 1) , i ∈ { 1, … , n } allora:
n
∑ Zi2 ∼ �n2
i=1
Teorema 93
Siano U,V VV.AA. indipendenti tali che U ∼ N(0, 1) e V ∼ � p2 . Allora:
U
T= ∼ tp
V
p
Dimostrazione
Consideriamo il vettore aleatoria (U, V) determino la congiunta.
In particolare la densità congiunta:
1 p 1
1 - u2 1 -1 - v
f (U,V) (u, v) = f U (u)f V (v) = e 2 p v2 e 2 =
2� 22�
p
2
p -1 p
p -1 1
= 22� 2� v 2 exp - v + u2 = (1)
2 2
Applico la trasformazione:
u
t= x
v u=t
⟹ p
p
v=x
x=v
Lo Jacobiano:
∂u ∂u x t
x
det ∂t ∂x = det p 2 px =
∂v ∂v p
0 1
∂t ∂x
Torniamo a (1) applico il teorema di cambio di variabile
p -1 p
p -1 1 x x
= 22� 2� x 2 Exp - x + t2 =
2 2 p p
p -1 p - 1
p 1 t2
= 22� 2�p x 2 Exp - x+
2 2 p
Adesso abbiamo la densità congiunta trasormata
Ora possiamo marginalizzare:
p -1 p - 1
+∞ p 1 t2
f T (t) = ∫ 22� 2�p x 2 Exp - x+ dx =
0 2 2 p
L'integrale è su R + perché quello è il supporto della V.A.
2
p -1 p - 1 - 1 x+ t
p +∞ 2 p
= 22� 2�p ∫ x 2 e dx =
2 0
⏠⏣⏣⏣⏣⏣
struttura di un⏡⏣⏣⏣⏣⏣ ⏢
integrale gamma
p+1
2
p+1 1 t2
p -1 � 2
1+ p
1
∞ p - 1 - x 1+
t2
p 2
= 22� 2�p p+1
⋅ ∫0 x 2 e
2 p
dx =
(2)
2 p+1
2 � 2
1 t2
2
+ 1+ p
⏨⏨
NB
��
f �(�,�) (x) = x �-1 e -�x 1 R+ (x)
�(�)
1 t2
Per noi abbiamo � = 1+
2 p
p+1
�=
2
Quindi la parte rossa in (2), siccome è integrata su R + vale 1
p+1
p -1 �
p 2
= 22� 2�p p+1
=
2
2
1 t2
2
+ 1+ p
p+1
� 2 1 1
= p+1
QED ⊠
p
� 2
p� 2
t2
1+ p
Osservazione 94
Se
T ∼ t q ⟹ T 2 ∼ F 1, q
Teorema 95
Siano U, V VV.AA. indipendenti e tali che:
U ∼ � p2
V ∼ � p2
Allora:
U
p
W= v
∼ F p,q
q
Dimostrazione
i=1
+∞ Hp
∂
= ∫ … ∫g(x 1 , … x n ) ∏ f(xi ; �) dx1 … dxn ⏥
=
∂� i=1
+∞
∂
= ∫ … ∫g(x1 , … xn )∏ f(xi ; �) dx1 … dxn =
∂� i=1
∂ ∂
= ET = �=1
∂� ∂�
In (6) guardiamo la parte blu:
n n
∂ ∂
∑E log f(Xi ; �) = ∑∫ log f(x i ; �) ⋅ f(x i ; �) dx i =
i=i ∂� i=1 ∂�
densità log
n ⏜⏟⏟⏟⏟
1
⏝∂⏟⏟⏟⏟
⏞ n
∂
= ∑∫ f(x i ; �) ⋅ f(x i ; �) dx i = ∑ ∫ f(x i ; �) dx i =
i=1 f(x i ; �) ∂� i=1 ∂�
n n
∂ ∂
=∑ ∫f(xi ; �) dxi = ∑ 1=0
i=1 ∂� i=1 ∂�
Perciò (5) diventa:
n
∂
E (T - �) log ∏ f(Xi ; �) = 1-0
∂� i=1
Trasformo il denominatore:
2 2
n n
∂ ∂
E log ∏ f(Xi ; �) =E ∑ log f(Xi ; �)
∂� i=1 i=1 ∂�
∂ ∂ ∂ ∂
E log f(Xj ; �) log f(Xk ; �) = E log f(Xj ; �) E log f(Xk ; �) = 0
∂� ∂� ∂� ∂�
⏠⏣⏣⏣⏣⏣
=⏡⏣⏣⏣⏣⏣
0 ⏢
in quanto già calcolato
questa è la parte azzurra della
equazione azzurra sopra
� ML = T
Teorema 98
Sia T n uno stimatore asintoticamente corretto per � e con varianza finita ∀n.
Se lim VarT n = 0 ⟹ T n è consistente.
n → +∞
Dimostrazione con una delle disguguaglianze che abbiamo visto, quelle di Markov
errore quadratico medio
MSE(T n )
⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
2 ⏞
E(T n - �)
0 ⩽ P(| T n - � | ⩾ �) ⩽ =
�2
E' evidente che se il termine a destra va a 0 allora anche il termine centrale andrà a 0.
asintoticamente corretto
n → +∞
⏪⏪⏪⏫ 0
n → +∞
⏪⏪⏪⏫ 0
⏜⏟⏟
⏝⏟⏟
⏞ ⏜⏟⏟⏟⏟
⏝⏟⏟⏟⏟
2 ⏞
VarT n + (ET n - �)
=
�2
Quindi
n → +∞
P(| T n - � | ⩾ �) ⏪⏪⏪⏫ 0 consistenza
Esse sono entrambe delle variabili aleatorie perchè sono calcolate sulla V.A., sono
funzioni
del campione casuale.
Dimostrazione (solo per le VV.AA. assoultamente continue)
U = F(Xi ; �)
dimostriamo che essa è uniforme su [0, 1]
0 , u⩽0
P(U ⩽ u) = ? , 0<u⩽1
1 , 1<u
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
il supperto è [0,1] ⏢
P(U ⩽ u) = P(F(Xi ; �) ⩽ u) = P F -1 [F(Xi ; �)] ⩽ F -1 (u) =
La funzione F -1 , inverso della funzione di distribuzione è detta funzione quantilica.
= P Xi ⩽ F -1 (u) = F F -1 (u); � = u
Cioè:
0 , u⩽0
P(u ⩽ U) = u , 0 < u ⩽ 1 ⟹ U ∼ Unif([0, 1])
1 , 1<u
Adesso vediamo:
Y = -log U = -log F(Xi ; �)
P(Y ⩽ y) = P(-log U ⩽ y) = P U ⩾ e -y = 1 - P U < e -y =
1 - e -y , 0 < e -y ⩽ 1 1 - e -y , y ⩾ 0
= =
1 - 1 = 0 , 1 < e -y 0 , y<0
Cioè
Y ∼ Exp(1)
consideriamo:
n n n
P ∏ F(Xi ; �) < y = P log ∏ F(Xi ; �) < log y = P ∑ log F(Xi ; �) < log y =
i=1 ∈⏦
(0,1) i=1 i=1
n n
=P -∑ log F(Xi ; �) > - log y = 1 - P - ∑ log F(Xi ; �) < - log y
i=1 i=1
⏠⏣⏣⏣⏣
∼Ga⏡⏣⏣⏣⏣
(n,1) ⏢
La parte rossa ∼ Exp(1) quindi non è presente il parametro. Ho delle VV.AA:
indipendenti
ed esponenzialmente distribuite.
La parte blu in conclusione è una quantità pivotale.
Teorema 102 legge del 3-sigma (normale)
Z ∼ N �, � 2 → � = "deviazione standard"
P(-� ⩽ Z ⩽ +�) = 0, 68
P(-2� ⩽ Z ⩽ +2�) = 0, 95
P(-3� ⩽ Z ⩽ +3�) = 0, 997
-3� -2� -� 0
� 2� 3�
0, 68
0, 95
0, 997
Lemma 103 di Neyman-Pearson
Dato un campione casuale X = (X 1 ,........., X n ) campione casuale estratto da una
popolazione parametrizzata da �, e sia L(�) la funzione di verosimiglianza associata.
Allora il test più potente di ampiezza � per verificare il sistema di ipotesi:
H0 : � = �0
H1 : � = �1
è quello di regione critica:
L(� 0 )
C = (x 1 , … , x n ) / ⩽k
L(� 1 )
e che soddisfi:
L(� 0 )
C = (x 1 , … , x m ) / ⩽k (9)
L(� 1 )
⟺
P (X1 , … , Xn ) ∈ C ; H 1 vera ⩾ P (X1 , … , Xn ) ∈ D ; H 1 vera
⟺
1 - �C ⩾ 1 - �D
⟺
� D ⩾ � C QED ⊠